En esta publicación, exploraremos los avances en inteligencia artificial generativa y los desafíos que enfrentan estos modelos.
Durante la última década, se ha logrado un progreso significativo en el campo de la Inteligencia Artificial (IA) y esta se ha vuelto más omnipresente en nuestra vida diaria. El uso generalizado y la adopción de IA se pueden atribuir a múltiples factores, incluido el Aprendizaje Profundo (DL) también conocido como redes neuronales artificiales modernas, la disponibilidad de grandes volúmenes de datos y la potencia informática para entrenar modelos de DL. Más recientemente, la IA generativa ha captado la atención del público en general, gracias a OpenAI y la creación de Modelos de Lenguaje Grandes (LLM) escalables y eficientes. La IA generativa también se ha utilizado para producir texto, imágenes, videos, código de programación y música. Existen modelos multimodales que generan imágenes basadas en descripciones de texto (por ejemplo, DALL·E) y viceversa, y estas innovaciones seguirán creciendo rápidamente.
Un avance importante en la aplicación de un modelo de DL se demostró durante 2012 [1] para clasificar imágenes en diferentes grupos (ImageNet Large Scale Visual Recognition Challenge 2010). Esto fue seguido por el uso de DL para tareas de clasificación similares en texto y discurso donde los modelos de DL mejoraron significativamente los puntos de referencia establecidos anteriormente. Estos modelos fueron entrenados para tareas especializadas y ofrecieron un rendimiento de vanguardia. El uso de DL para generar una amplia gama de resultados ha atraído a los investigadores de IA. Las Redes Generativas Adversarias [2], el trabajo emblemático en esta dirección, se realizó durante 2014 donde se generaron imágenes que parecían reales de rostros humanos y números. Esto condujo a una mayor investigación para desarrollar técnicas de IA generativa en otros campos.
La modelización del lenguaje ha sido una tarea desafiante para la IA. El objetivo de los modelos de lenguaje es predecir la siguiente palabra dada una secuencia de palabras. El uso de DL para preentrenar LLM se demostró en 2019 [3]. Los transformadores generativos preentrenados (GPT) son la tecnología subyacente que impulsa a ChatGPT. Estos modelos han sido entrenados en grandes volúmenes de datos de texto, utilizando una enorme potencia informática en Unidades de Procesamiento Gráfico (GPU). Los resultados de GPT-3/GPT-4 para tareas como resumen de texto, respuesta a preguntas y generación de código han sido impresionantes.
Los modelos de IA generativa también enfrentan desafíos inherentes a las técnicas de DL. Además, la naturaleza generativa de los modelos puede introducir artefactos en los datos generados. Por ejemplo, los generadores de imágenes de IA tienen dificultades con las manos. Pueden producir imágenes extrañas que son difíciles de explicar. Se han propuesto varios enfoques para superar estos desafíos [4]. Esto también es cierto para los LLM cuyo trabajo es predecir la siguiente palabra. Pueden producir completaciones incorrectas o proporcionar respuestas incorrectas, dadas los datos con los que fueron entrenados.