La ricerca del MIT, del MIT-IBM Watson AI Lab e della Boston University dimostra che i modelli di apprendimento automatico addestrati con dati sintetici possono superare quelli addestrati con dati reali nel riconoscimento delle azioni umane.
L'insegnamento delle macchine a riconoscere le azioni umane ha molteplici applicazioni potenziali, come rilevare automaticamente i lavoratori che cadono in un cantiere o consentire a un robot domestico intelligente di interpretare i gesti dell'utente. Per farlo, i ricercatori addestrano modelli di apprendimento automatico utilizzando enormi set di dati di clip video che mostrano esseri umani che compiono azioni. Tuttavia, non solo è costoso e laborioso raccogliere e etichettare milioni o miliardi di video, ma le clip spesso contengono informazioni sensibili, come i volti delle persone o i numeri di targa. L'utilizzo di questi video potrebbe anche violare le leggi sul copyright o sulla protezione dei dati. E questo presuppone che i dati video siano disponibili pubblicamente in primo luogo: molti set di dati sono di proprietà delle aziende e non sono gratuiti per l'utilizzo.
Pertanto, i ricercatori si stanno rivolgendo ai set di dati sintetici. Questi sono creati da un computer che utilizza modelli 3D di scene, oggetti e esseri umani per produrre rapidamente molte clip diverse di azioni specifiche, senza i potenziali problemi di copyright o le preoccupazioni etiche che derivano dall'utilizzo di dati reali. Ma i dati sintetici sono altrettanto "buoni" dei dati reali? Quanto bene si comporta un modello addestrato con questi dati quando gli viene chiesto di classificare le azioni umane reali? Un team di ricercatori del MIT, del MIT-IBM Watson AI Lab e della Boston University ha cercato di rispondere a questa domanda. Hanno creato un set di dati sintetici di 150.000 clip video che catturano un'ampia gamma di azioni umane, che hanno utilizzato per addestrare modelli di apprendimento automatico. Quindi hanno mostrato questi modelli a sei set di dati di video del mondo reale per vedere quanto bene potevano imparare a riconoscere le azioni in quelle clip.
I ricercatori hanno scoperto che i modelli addestrati sinteticamente si comportavano addirittura meglio dei modelli addestrati su dati reali per i video che hanno meno oggetti di sfondo. Questo lavoro potrebbe aiutare i ricercatori a utilizzare set di dati sintetici in modo tale che i modelli raggiungano un'accuratezza superiore nelle attività del mondo reale. Potrebbe anche aiutare gli scienziati a identificare quali applicazioni di apprendimento automatico potrebbero essere più adatte per l'addestramento con dati sintetici, nel tentativo di mitigare alcune delle preoccupazioni etiche, sulla privacy e sul copyright derivanti dall'utilizzo di set di dati reali. "L'obiettivo finale della nostra ricerca è sostituire la pre-formazione sui dati reali con la pre-formazione sui dati sintetici. C'è un costo nel creare un'azione nei dati sintetici, ma una volta fatto ciò, è possibile generare un numero illimitato di immagini o video modificando la posa, l'illuminazione, ecc. Questa è la bellezza dei dati sintetici", afferma Rogerio Feris, scienziato principale e responsabile del MIT-IBM Watson AI Lab, e coautore di un documento che dettaglia questa ricerca.