Исследователи из MIT, MIT-IBM Watson AI Lab и Бостонского университета создали синтетический набор данных для обучения моделей машинного обучения распознаванию действий людей, и обнаружили, что эти модели показывают лучшую производительность по сравнению с моделями, обученными на реальных видео.
Обучение машины распознаванию действий людей имеет множество потенциальных применений, таких как автоматическое обнаружение падения рабочих на строительной площадке или интерпретация жестов пользователя домашним роботом. Для этого исследователи обучают модели машинного обучения, используя огромные наборы данных видеороликов, в которых люди выполняют действия. Однако сбор и маркировка миллионов или миллиардов видео является дорогостоящим и трудоемким процессом, к тому же эти видео могут содержать конфиденциальную информацию, например, лица людей или номера автомобильных номеров. Использование таких видео также может нарушать законы об авторских правах или защите данных. И это предполагает, что видеоданные вообще являются общедоступными — многие наборы данных принадлежат компаниям и не являются бесплатными.
Исследователи обратились к синтетическим наборам данных. Они создаются компьютером, который использует 3D-модели сцен, объектов и людей для быстрого создания множества разнообразных видеороликов с определенными действиями — без потенциальных нарушений авторских прав или этических проблем, связанных с реальными данными. Но столь же ли хороши синтетические данные, как и реальные? Насколько хорошо справляется модель, обученная на этих данных, с классификацией реальных действий людей? Команда исследователей из Массачусетского технологического института, MIT-IBM Watson AI Lab и Бостонского университета решила ответить на этот вопрос. Они создали синтетический набор данных из 150 000 видеороликов, в которых представлен широкий спектр человеческих действий, и использовали их для обучения моделей машинного обучения. Затем они показали этим моделям шесть наборов данных реальных видеороликов, чтобы увидеть, насколько хорошо они могут научиться распознавать действия в этих видео.
Исследователи обнаружили, что модели, обученные на синтетических данных, показывают даже лучшую производительность, чем модели, обученные на реальных данных, для видео с меньшим количеством объектов на заднем плане. Эта работа может помочь исследователям использовать синтетические наборы данных таким образом, чтобы модели достигали более высокой точности при выполнении задач в реальном мире. Это также может помочь ученым определить, какие приложения машинного обучения могут быть наиболее подходящими для обучения на синтетических данных, чтобы смягчить некоторые этические, приватные и авторские проблемы, связанные с использованием реальных наборов данных.