In questo articolo analizziamo i progressi fatti nell'intelligenza artificiale generativa e le sfide che essa presenta. I modelli di intelligenza artificiale generativa sono soggetti a sfide legate alle tecniche di apprendimento profondo e possono produrre dati con artefatti. Tuttavia, continuano a rappresentare un notevole progresso nell'IA.

Durante l'ultimo decennio, sono stati compiuti progressi significativi nel campo dell'Intelligenza Artificiale (IA) e l'IA è diventata sempre più diffusa nella nostra vita quotidiana. L'uso diffuso e l'adozione dell'IA possono essere attribuiti a diversi fattori, tra cui l'Apprendimento Profondo (DL), noto anche come moderni reti neurali artificiali, la disponibilità di grandi volumi di dati e la potenza di calcolo per addestrare i modelli DL. Più recentemente, l'IA generativa ha attirato l'attenzione del pubblico grazie a OpenAI e alla creazione di modelli di linguaggio estesi, scalabili e performanti. L'IA generativa è stata utilizzata anche per produrre testi, immagini, video, codice di programmazione e musica. Esistono modelli multimodali che generano immagini basate su descrizioni testuali (ad esempio, DALL·E) e viceversa e tali innovazioni continueranno a crescere rapidamente. Un importante progresso nell'applicazione di un modello DL è stato dimostrato nel 2012 [1] per classificare le immagini in diversi gruppi (ImageNet Large Scale Visual Recognition Challenge 2010). Ciò è stato seguito dall'uso di DL per compiti di classificazione simili nel testo e nel linguaggio, dove i modelli DL hanno migliorato significativamente i benchmark precedentemente stabiliti. Questi modelli sono stati addestrati per compiti specializzati e hanno fornito prestazioni all'avanguardia. L'uso di DL per generare una vasta gamma di output ha affascinato i ricercatori di IA. Le Reti Generative Avversariali [2], il lavoro di riferimento in questa direzione, sono state condotte nel 2014, generando immagini di volti umani e numeri che sembrano reali. Ciò ha portato a ulteriori ricerche per sviluppare tecniche di IA generativa in altri ambiti. La modellazione del linguaggio è stata una sfida per l'IA. L'obiettivo dei modelli di linguaggio è prevedere la parola successiva data una sequenza di parole. L'uso di DL per il pre-addestramento di modelli di linguaggio estesi è stato dimostrato nel 2019 [3]. I transformer pre-addestrati generativi (GPT) sono la tecnologia sottostante che alimenta ChatGPT. Questi modelli sono stati addestrati su enormi volumi di dati testuali con un'enorme potenza di calcolo su Unità di Elaborazione Grafica (GPU). I risultati di GPT-3/GPT-4 per compiti come la sintesi del testo, la risposta alle domande e la generazione di codice sono stati impressionanti. I modelli di IA generativa sono soggetti a sfide legate alle tecniche di DL. Inoltre, la natura generativa dei modelli può introdurre artefatti nei dati generati. Ad esempio, i generatori di immagini di intelligenza artificiale hanno difficoltà con le mani. Potrebbero produrre immagini dall'aspetto strano che sono difficili da spiegare. Sono state proposte diverse soluzioni per superare queste sfide [4]. Questo vale anche per i modelli di linguaggio estesi il cui compito è prevedere la parola successiva. Possono produrre completamenti errati o fornire risposte errate, dato il set di dati su cui sono addestrati.