تعرف على كيفية استخدام البيانات الاصطناعية لتحسين تعلم الآلة وتجنب مشاكل الخصوصية وحقوق النشر. الباحثون في MIT ومختبر MIT-IBM Watson AI وجامعة بوسطن يكتشفون كيف يمكن للبيانات الاصطناعية أن تتفوق على البيانات الحقيقية في تعلم النماذج الآلية.
يمتلك تعليم الآلة للتعرف على الإجراءات البشرية تطبيقات محتملة كثيرة، مثل اكتشاف العمال الذين يقعون في مواقع البناء تلقائياً أو تمكين إشارات المستخدم لروبوت المنزل الذكي. يستخدم الباحثون نماذج التعلم الآلي باستخدام مجموعات بيانات ضخمة من مقاطع الفيديو التي تظهر البشر يؤدون الإجراءات. لكن ذلك ليس فقط باهظ التكلفة ومجهدًا لجمع ملايين أو مئات الملايين من مقاطع الفيديو ووضع تسميات عليها، بل إن المقاطع تحتوي غالبًا على معلومات حساسة، مثل وجوه الناس أو أرقام لوحات السيارات. قد يكون استخدام هذه الفيديوهات مخالفًا أيضًا لقواعد حقوق الطبع والنشر أو قوانين حماية البيانات.
لهذا السبب، يتجه الباحثون إلى مجموعات البيانات الاصطناعية. تتكون هذه المجموعات من الكمبيوتر الذي يستخدم نماذج ثلاثية الأبعاد للمشاهد والأشياء والبشر لإنتاج مقاطع كثيرة ومتنوعة للإجراءات المحددة - دون المشاكل المحتملة المتعلقة بحقوق الطبع والنشر أو المخاوف الأخلاقية المرتبطة بالبيانات الحقيقية. لكن هل تعتبر البيانات الاصطناعية "جيدة" مثل البيانات الحقيقية؟ كيف يؤدي النموذج المدرب مع هذه البيانات عندما يُطلب منه تصنيف تصرفات البشر الحقيقية؟ طور فريق من الباحثين في معهد ماساتشوستس للتكنولوجيا ومختبر MIT-IBM Watson AI وجامعة بوسطن مجموعة بيانات اصطناعية مكونة من 150,000 مقطع فيديو يلتقط مجموعة واسعة من إجراءات البشر، حيث استخدموها لتدريب نماذج تعلم الآلة.
وقد وجد الباحثون أن النماذج المدربة اصطناعياً أدت أفضل من النماذج المدربة على البيانات الحقيقية بالنسبة لمقاطع الفيديو التي تحتوي على عدد أقل من الأشياء في الخلفية. سيساعد هذا العمل الباحثين في استخدام مجموعات البيانات الاصطناعية بطريقة تتيح للنماذج تحقيق دقة أعلى في المهام العالمية الحقيقية. يمكن أن يساعد ذلك أيضًا العلماء في تحديد التطبيقات التعلم الآلي التي يمكن أن تكون الأفضل للتدريب مع البيانات الاصطناعية، في محاولة للتخفيف من بعض المخاوف الأخلاقية والخصوصية وحقوق الطبع والنشر لاستخدام مجموعات البيانات الحقيقية.