Investigadores del MIT, el MIT-IBM Watson AI Lab y la Universidad de Boston han demostrado que los modelos de aprendizaje automático entrenados con conjuntos de datos sintéticos pueden clasificar acciones humanas en videos del mundo real con una precisión sorprendente, superando incluso a los modelos entrenados con datos reales.
Enseñar a una máquina a reconocer acciones humanas tiene múltiples aplicaciones potenciales, como la detección automática de trabajadores que caen en una obra o permitir que un robot doméstico inteligente interprete los gestos de un usuario. Para lograr esto, los investigadores entrenan modelos de aprendizaje automático utilizando enormes conjuntos de datos de videoclips que muestran a humanos realizando acciones. Sin embargo, no solo es costoso y laborioso reunir y etiquetar millones o miles de millones de videos, sino que los clips a menudo contienen información sensible. Es por esto que los investigadores recurren a conjuntos de datos sintéticos, creados por computadoras utilizando modelos 3D de escenas, objetos y humanos.
Pero, ¿son los datos sintéticos tan 'buenos' como los datos reales? Un equipo de investigadores del MIT, el MIT-IBM Watson AI Lab y la Universidad de Boston buscó responder esta pregunta. Crearon un conjunto de datos sintéticos de 150,000 videoclips que capturaban una amplia gama de acciones humanas y los utilizaron para entrenar modelos de aprendizaje automático. Luego, mostraron a estos modelos seis conjuntos de datos de videos del mundo real para ver qué tan bien podían aprender a reconocer acciones en esos clips.
Los investigadores descubrieron que los modelos entrenados sintéticamente funcionaron incluso mejor que los modelos entrenados con datos reales para videos con menos objetos de fondo. Este trabajo podría ayudar a los investigadores a utilizar conjuntos de datos sintéticos de manera que los modelos logren una mayor precisión en tareas del mundo real. También podría ayudar a los científicos a identificar qué aplicaciones de aprendizaje automático podrían ser más adecuadas para entrenarse con datos sintéticos, en un esfuerzo por mitigar algunas de las preocupaciones éticas, de privacidad y derechos de autor al utilizar conjuntos de datos reales.
'El objetivo final de nuestra investigación es reemplazar el preentrenamiento de datos reales con el preentrenamiento de datos sintéticos. Hay un costo en crear una acción en datos sintéticos, pero una vez que se hace, entonces se puede generar un número ilimitado de imágenes o videos cambiando la pose, la iluminación, etc. Esa es la belleza de los datos sintéticos', dice Rogerio Feris, científico principal y gerente en el MIT-IBM Watson AI Lab y coautor del artículo que detalla esta investigación.