يُعرّف الجمهور على DALL-E 2، وهو نموذج ذكاء اصطناعي لتوليد الصور ينشئ صورًا مذهلة بناءً على وصف النصوص. يواجه النموذج بعض المشاكل في تمثيل الأشخاص والتحيزات المكتسبة من البيانات التي تم تدريبه عليها.

أذهل DALL-E 2، الذكاء الاصطناعي المُعيَّن لتوليد الصور، الجمهور بصوره المذهلة لغودزيلا وهو يأكل طوكيو وصور رواد الفضاء الفوتوريالية وهم يركبون الخيول في الفضاء. يعتبر النموذج هو الإصدار الأحدث من خوارزمية النص إلى الصورة، وهي خوارزمية تعلم آلي تستطيع إنشاء صور على أساس وصف النصوص. استخدمت OpenAI، الشركة المُطورة لـ DALL-E 2، نموذج اللغة GPT-3 ونموذج الرؤية الحاسوبية CLIP لتدريب DALL-E 2 باستخدام 650 مليون صورة مع عناوين النص المرتبطة بها. جعلت تكامل هذين النموذجين ممكنًا لـ OpenAI تدريب DALL-E 2 على إنشاء مجموعة واسعة من الصور بأنماط مختلفة. ومع ذلك، هناك مشاكل كبيرة في تصوير النموذج للأشخاص والتحيزات المكتسبة من البيانات التي تم تدريبه عليها. تواجه DALL-E 2 مشاكل موجودة حيث حذر منها باكرًا بأنه سيولد صور عنصرية وجنسية. وجد فريق