¿Qué es la generación aumentada de recuperación (RAG)?

El aprendizaje automático y la AI son herramientas potentes con el potencial de cambiar el mundo, pero solo son tan potentes como los datos que los alimentan y los modelos que utilizan. Una parte esencial del aprendizaje automático y la AI procesamiento de lenguaje natural (NLP) les brinda a las computadoras la capacidad de interpretar, manipular y comprender el lenguaje humano.

La recuperación de la generación aumentada (RAG) representa un avance importante en la NLP al cerrar la brecha entre las capacidades generativas y el acceso al conocimiento externo, lo que lleva a una comprensión del lenguaje y sistemas de generación más sólidos y conscientes del contexto.

Este artículo explica qué es RAG, por qué es importante, cómo funciona, y sus aplicaciones y beneficios.

¿Qué es RAG?

RAG es una técnica para ampliar las capacidades de los LLM más allá de sus datos de capacitación originales al integrarlos con una base de conocimientos autorizada externa.

En RAG, un modelo generativo de aprendizaje automático recupera información relevante de una gran base de conocimientos externa durante el proceso de generación, lo que conduce a un contexto más rico, resultados más ricos y mejor contenido.

¿Por qué RAG es importante en el campo de las NLP?

RAG combina las fortalezas de los modelos de lenguaje previamente capacitados con la riqueza contextual de la información recuperada, lo que lleva a una generación de texto más informada y precisa en varias aplicaciones, incluidos los sistemas de respuesta a preguntas, resumen y diálogo.

RAG es un concepto importante en el campo de las NLP porque genera:

Mejor comprensión contextual: Al incorporar un mecanismo de recuperación, los modelos RAG pueden acceder a una gran cantidad de conocimiento externo o contexto relevante para la consulta de entrada o la tarea de generación. Esto permite que el modelo tenga una comprensión más profunda del contexto, lo que lleva a respuestas más precisas y contextualmente relevantes.

Mejor generación de contenido: Los modelos RAG pueden generar contenido que no solo domina, sino que también se basa en el conocimiento del mundo real. Esto es particularmente útil en tareas en las que el resultado generado debe ser fáctico y coherente.

Sesgo reducido y desinformación: Los modelos RAG pueden ayudar a reducir los sesgos y la desinformación al verificar el contenido generado contra fuentes externas. Al incorporar diversas perspectivas desde una base de conocimientos, el modelo puede producir resultados más equilibrados y precisos.

Flexibilidad y adaptabilidad: Las arquitecturas RAG son flexibles y adaptables a diferentes dominios e idiomas. Pueden aprovechar las bases de conocimientos específicas del dominio o adaptarse a nuevos temas al recuperar información relevante de forma dinámica durante la inferencia.

Escalabilidad: Los modelos RAG pueden escalar de manera efectiva para manejar bases de conocimientos a gran escala. El componente de recuperación no se basa únicamente en parámetros previamente capacitados, lo que hace que el enfoque sea escalable para diversas aplicaciones y casos de uso.

Aprendizaje y mejora continuos: Los sistemas RAG pueden diseñarse para aprender y mejorar continuamente con el tiempo. Al incorporar mecanismos de retroalimentación y procesos de refinamiento iterativos, los modelos RAG pueden mejorar su rendimiento, precisión y relevancia para generar contenido de alta calidad. Este ciclo de aprendizaje iterativo contribuye a la eficacia y confiabilidad a largo plazo de las aplicaciones impulsadas por RAG.

¿Cómo funciona RAG?

RAG combina modelos de lenguaje previamente entrenados con mecanismos de recuperación para mejorar la generación de resultados basados en texto.

Veamos los componentes fundamentales de RAG:

Modelos de lenguaje previamente capacitados

El proceso comienza con un modelo de lenguaje previamente entrenado, como un transformador generativo previamente entrenado (GPT) o representaciones de codificadores bidireccionales de transformadores (BERT). Estos modelos están capacitados en grandes cantidades de datos de texto y pueden comprender y generar texto similar al humano.

Mecanismos de recuperación

El mecanismo de recuperación obtiene información relevante de una base de conocimientos utilizando técnicas como Okapi BM25 (una función de clasificación utilizada por motores de búsqueda).

Bases de conocimientos

RAG requiere acceso a una base de conocimientos o un cuerpo de trabajo que tenga información relevante para la tarea en cuestión. Puede ser una base de datos, un conjunto de documentos o incluso un conjunto de páginas web seleccionadas.

Ingresar consultas

El usuario proporciona una consulta de entrada o un aviso al sistema RAG. Esta consulta podría ser una pregunta, una oración parcial o cualquier forma de entrada que requiera contexto o información para generar una respuesta significativa.

Proceso de recuperación

El mecanismo de recuperación procesa la consulta de entrada y recupera los documentos o pasajes relevantes de la base de conocimientos.

Fusión de contexto

La información recuperada se fusiona con la consulta o indicación de entrada original para crear una entrada rica en contexto para el modelo de idioma. Este paso de fusión de contexto garantiza que el modelo de idioma tenga acceso a información relevante antes de generar el resultado.

Generación

El modelo de lenguaje previamente capacitado toma la entrada enriquecida con contexto y genera la salida deseada. Este resultado podría ser una respuesta completa a una pregunta, la continuación de una historia, una oración parafraseada o cualquier otra respuesta basada en texto.

Evaluación y refinamiento

El resultado generado se puede evaluar en función de métricas predefinidas o el criterio humano. El sistema se puede refinar y ajustar en función de los comentarios para mejorar la calidad de las salidas generadas con el tiempo.

Aplicaciones RAG

RAG es útil en muchos tipos de aplicaciones en varias industrias.

Chatbots

El ejemplo más común serían chatbots y asistentes virtuales, donde RAG mejora las capacidades de conversación al proporcionar respuestas contextualmente relevantes y precisas. Un chatbot de servicio al cliente para una empresa de telecomunicaciones, por ejemplo, puede usar RAG para recuperar información de su base de conocimientos, como preguntas frecuentes, especificaciones de productos y guías de resolución de problemas. Cuando un usuario del sitio web hace una pregunta, el chatbot puede generar respuestas basadas tanto en la consulta del usuario como en el conocimiento recuperado, lo que conduce a interacciones más informativas y útiles.

Generación de contenido

Otras aplicaciones RAG comunes son la generación de contenido y el resumen. Por ejemplo, un sistema de resumen de noticias puede usar RAG para obtener artículos relacionados o información general sobre un tema determinado. El sistema puede crear un resumen conciso e informativo sintetizando el conocimiento obtenido con los puntos principales del artículo de noticias, proporcionando a los lectores una descripción general integral sin omitir detalles importantes.

Modelos de idiomas grandes

RAG se puede utilizar para casos de uso de modelos de lenguaje grande (LLM) de alto rendimiento y a gran escala, ya que permite a las empresas mejorar y personalizar los LLM generales con fuentes de datos externas, más específicas y de propiedad exclusiva. Esto aborda problemas de AI generativos clave como las alucinaciones, lo que hace que los LLM sean más precisos, oportunos y relevantes al hacer referencia a bases de conocimientos fuera de las en las que fueron capacitados.

Comercio electrónico

RAG también ayuda en cosas como aplicaciones de comercio electrónico al recuperar reseñas de productos, especificaciones y comentarios de usuarios. Cuando el usuario busca un producto o categoría específicos, el sistema puede generar recomendaciones personalizadas basadas en las preferencias del usuario, las interacciones anteriores y el conocimiento recuperado.

Educación

Las instituciones educativas y los sitios web pueden usar RAG para crear experiencias de aprendizaje personalizadas y proporcionar contexto adicional al contenido educativo. Un sistema de tutoría basado en AI, por ejemplo, puede usar RAG para acceder a materiales educativos, libros de texto y recursos complementarios relacionados con los temas que se enseñan. Cuando un estudiante hace una pregunta o solicita aclaraciones sobre un concepto, el sistema puede generar explicaciones o ejemplos al combinar el conocimiento recuperado con el contexto de aprendizaje actual del estudiante.

Salud

Los sistemas de información para la atención de la salud pueden usar RAG para proporcionar a los médicos y pacientes información médica precisa y actualizada. Un chatbot médico o un sistema de información pueden usar RAG para obtener bibliografía médica, pautas de tratamiento y materiales educativos para pacientes. Cuando un proveedor de atención médica o paciente pregunta sobre una afección médica, opción de tratamiento o síntoma específicos, el sistema puede generar respuestas informativas basadas en el conocimiento obtenido, ayudando a los usuarios a tomar decisiones informadas y comprender conceptos médicos complejos con mayor facilidad.

Estos ejemplos muestran la versatilidad de RAG en todas las industrias y destacan su potencial para mejorar varios aspectos de las aplicaciones de NLP, generación de contenido, sistemas de recomendación y administración de conocimientos.

Conclusiones

RAG combina modelos de lenguaje previamente entrenados con mecanismos de recuperación para mejorar las tareas de generación de texto. Mejora la calidad del contenido, reduce el sesgo y aumenta la satisfacción del usuario, la escalabilidad y las capacidades de aprendizaje continuo. Las aplicaciones RAG incluyen chatbots, generación de contenido, sistemas de recomendación, plataformas educativas, sistemas de información de atención de la salud y más.

A medida que RAG continúa evolucionando e integrándose con tecnologías de AI avanzadas, tiene el potencial de revolucionar la forma en que interactuamos con los sistemas de AI, proporcionando experiencias más personalizadas, informativas e interesantes en interacciones de lenguaje natural.

Descubra cómo un proceso RAG con GPU de NVIDIA, redes de NVIDIA, microservicios de NVIDIA y Pure Storage FlashBlade//S TM puede optimizar las aplicaciones GenAI empresariales.