Avanços significativos têm sido feitos na área da Inteligência Artificial (IA) nas últimas décadas, especialmente em relação à IA Generativa. Esse avanço tem proporcionado o desenvolvimento de modelos de linguagem e imagens gerados de forma artificial, mas que ainda enfrentam desafios.
Avanços significativos têm sido feitos na área da Inteligência Artificial (IA) nas últimas décadas, especialmente em relação à IA Generativa. A ampla utilização e adoção da IA podem ser atribuídas a vários fatores, como o Aprendizado Profundo (DL), também conhecido como redes neurais artificiais modernas, a disponibilidade de grandes volumes de dados e o poder computacional para treinar modelos DL. Mais recentemente, a IA Generativa tem chamado a atenção do público em geral, graças à OpenAI e à construção de Modelos de Linguagem de Grande Escala (LLMs) escaláveis e performáticos. A IA Generativa também tem sido utilizada para produzir textos, imagens, vídeos, códigos de programação e músicas, e essas inovações continuarão a crescer rapidamente.
Um importante avanço na aplicação de um modelo de DL foi demonstrado em 2012 ao classificar imagens em vários grupos diferentes (ImageNet Large Scale Visual Recognition Challenge 2010). Isso foi seguido pelo uso de DL para tarefas de classificação semelhantes em texto e fala, onde os modelos de DL melhoraram significativamente as referências estabelecidas anteriormente. Esses modelos foram treinados para tarefas especializadas e apresentaram um desempenho de ponta. O uso de DL para gerar uma ampla gama de resultados tem atraído pesquisadores de IA. As Redes Generativas Adversárias, trabalho marcante nessa direção, foram conduzidas em 2014, onde foram geradas imagens realistas de rostos humanos e números. Isso levou a pesquisas adicionais para desenvolver técnicas de IA Generativa em outros domínios.
A modelagem da linguagem tem sido uma tarefa desafiadora para a IA. O objetivo dos modelos de linguagem é prever a próxima palavra dada uma sequência de palavras. O uso de DL para pré-treinar LLMs foi demonstrado em 2019. Os transformers pré-treinados generativos (GPT) são a tecnologia subjacente que alimenta o ChatGPT. Esses modelos foram treinados em um volume enorme de dados de texto, utilizando uma enorme capacidade computacional em Unidades de Processamento Gráfico (GPU). Os resultados do GPT-3/GPT-4 para tarefas como sumarização de texto, resposta a perguntas e geração de código têm sido impressionantes.
Modelos de IA Generativa enfrentam desafios. Os modelos de DL aprendem a partir de dados de treinamento e ajustam os parâmetros das redes neurais artificiais para representar a visão do mundo conforme representada nos dados. Esses modelos geralmente são muitas ordens de magnitude maiores do que os modelos de aprendizado de máquina tradicionais. O tamanho dessas redes e modelos pode se tornar um desafio quando a quantidade de dados disponíveis para treinamento é pequena. A maioria dos conjuntos de dados do mundo real apresenta desequilíbrio nas classes e pode ter um viés inerente (não óbvio). Técnicas para treinar modelos DL e superar esses desafios têm sido regularmente desenvolvidas, caso contrário, eles podem memorizar os dados de treinamento, também conhecido como overfitting, e os modelos podem não ser capazes de generalizar para dados não vistos ou fornecer resultados enviesados.
Os modelos de IA Generativa também estão sujeitos a desafios inerentes às técnicas de DL. Além disso, a natureza generativa dos modelos pode introduzir artefatos nos dados gerados. Por exemplo, os geradores de imagens de IA têm dificuldade em reproduzir mãos, podendo produzir imagens estranhas e de difícil explicação. Várias abordagens têm sido propostas para superar esses desafios. Isso também é verdade para os LLMs, cujo trabalho é prever a próxima palavra. Eles podem produzir conclusões erradas ou fornecer respostas incorretas, dadas as informações sobre as quais foram treinados.