DALL-E 2 cattura l'attenzione del pubblico con immagini sorprendenti e realistiche generate dall'intelligenza artificiale. Tuttavia, emergono preoccupazioni riguardo la rappresentazione delle persone e i pregiudizi acquisiti durante la formazione del modello.

DALL-E 2, un'intelligenza artificiale generatrice di immagini, ha catturato l'attenzione del pubblico con rappresentazioni sbalorditive di Godzilla che divora Tokyo e immagini fotorealistiche di astronauti a cavallo nello spazio. Il modello è la più recente iterazione di un algoritmo text-to-image, un modello IA in grado di generare immagini basate su descrizioni testuali. OpenAI, l'azienda dietro DALL-E 2, ha utilizzato un modello di linguaggio, GPT-3, e un modello di visione computerizzata, CLIP, per addestrare DALL-E 2 utilizzando 650 milioni di immagini con didascalie testuali associate. L'integrazione di questi due modelli ha reso possibile ad OpenAI addestrare DALL-E 2 per generare un'ampia gamma di immagini in molti stili diversi. Nonostante gli impressionanti risultati di DALL-E 2, ci sono problemi significativi riguardo la rappresentazione delle persone e i pregiudizi acquisiti dal modello durante la sua formazione. Esistono problemi con DALL-E 2. Fin dall'inizio, si è avvertito che DALL-E 2 avrebbe generato immagini razziste e sessiste. Il 'red team' di OpenAI, un gruppo di esperti esterni incaricati di testare la sicurezza e l'integrità del modello, ha riscontrato pregiudizi ricorrenti nelle creazioni di DALL-E 2. I test iniziali del red team hanno dimostrato che il modello generava immagini di uomini in modo sproporzionato, sessualizzava eccessivamente le donne e alimentava gli stereotipi razziali. Quando venivano dati termini come 'hostess' o 'assistente', il modello generava esclusivamente immagini di donne, mentre termini come 'CEO' e 'costruttore' raffiguravano uomini. Di conseguenza, metà dei ricercatori del red team hanno sostenuto la pubblicazione di DALL-E 2 senza la possibilità di creare volti. Il problema dei modelli di intelligenza artificiale discriminatori precede lo sviluppo di DALL-E 2. I ricercatori esterni hanno riscontrato problemi di pregiudizi impliciti e stereotipi nei modelli utilizzati per formare DALL-E 2, e sia CLIP che GPT-3 hanno generato testi e immagini insensibili. Uno dei motivi principali per cui modelli come DALL-E 2, GPT-3 e CLIP sono stati trovati a costruire stereotipi dannosi è perché i set di dati utilizzati per addestrare questi grandi modelli sono intrinsecamente pregiudizievoli, poiché sono costruiti su dati raccolti dalle decisioni umane che riflettono le iniquità sociali o storiche. Nonostante queste preoccupazioni, OpenAI ha recentemente annunciato che inizierà a vendere una versione beta di DALL-E 2 a una lista d'attesa di un milione di persone. L'azienda ha annunciato un aggiornamento del software prima del lancio della beta che ha reso le immagini delle persone dodici volte più diverse e ha proposto che continuerà a modificare il modello per affrontare i pregiudizi man mano che sempre più persone lo utilizzano. Tuttavia, i critici hanno affermato che questo cambiamento potrebbe essere insufficiente per affrontare i problemi di discriminazione e pregiudizio presenti nel modello.