MIT,MIT-IBM沃森人工智能实验室和波士顿大学的研究团队发现,利用合成数据训练的机器学习模型在识别真实人类动作方面表现出色,甚至优于使用真实数据训练的模型。这项发现可能在未来为保护隐私和减轻版权问题提供有效方法。
在许多应用场景中,教会机器识别人类动作具有重要意义,比如自动检测建筑工地摔倒的工人或让智能家居机器人识别用户的手势。为此,研究人员利用大量包含人类动作的视频片段训练机器学习模型。然而,收集和标记数百万或数十亿个视频既费时又费钱,而且视频中可能包含敏感信息,如人脸或车牌号。使用这些视频可能还会触犯版权或数据保护法规。而这还仅仅是基于视频数据公开可用的情况——许多数据集由公司拥有,不能免费使用。
因此,研究人员开始转向合成数据集。这种数据集是由计算机利用3D场景、物体和人类模型快速生成特定动作的多样化视频片段,避免了使用真实数据带来的版权问题和道德顾虑。但是,合成数据是否能与真实数据相媲美?用这些数据训练的模型在识别真实人类动作方面表现如何呢?为了回答这个问题,麻省理工学院、MIT-IBM沃森人工智能实验室和波士顿大学的研究团队创建了一个包含150,000个视频片段的合成数据集,并用其训练了机器学习模型。接着,他们将这些模型应用于六个真实世界视频数据集,以观察模型在识别这些视频中动作的能力。
研究人员发现,在背景物体较少的视频中,合成数据训练的模型表现甚至优于真实数据训练的模型。这项工作可能有助于研究人员利用合成数据集提高模型在真实世界任务中的准确性。同时,它还有助于科学家确定哪些机器学习应用最适合使用合成数据进行训练,以减轻使用真实数据所带来的道德、隐私和版权问题。正如MIT-IBM沃森人工智能实验室的主要科学家兼经理Rogerio Feris所说: