Hemos hablado mucho sobre cómo optimizar el texto, pero si tus documentos contienen imágenes o tablas, es importante tomar algunos pasos adicionales para que estos elementos también sean útiles para tu agente. El contenido no textual como imágenes, gráficos y tablas puede contener información valiosa, pero sin una preparación adecuada, un LLM puede ignorar o malinterpretar lo que contienen.
Empecemos con las imágenes. Si tus documentos incluyen imágenes, ya sea una foto de un producto o incluso texto muy estilizado, es recomendable convertirlas a texto plano antes de subir el archivo. Botpress procesará tus archivos automáticamente al subirlos, pero la mejor manera de obtener respuestas consistentes es hacer la conversión tú mismo.
Tomemos como ejemplo este menú de restaurante con formato especial. Antes de convertirlo a un archivo de texto plano, la información con la que el LLM puede trabajar se ve así, después de ser analizada. En cambio, si lo convertimos a markdown antes de subirlo (o usamos el editor de texto enriquecido de Botpress), obtenemos resultados mucho más fiables.
Ahora hablemos de las tablas y los datos estructurados. Si incluyes tablas en tus documentos, recuerda que antes de realizar RAG, tus archivos se convierten a markdown. Aquí tienes dos opciones: puedes usar una tabla integrada de Botpress como base de conocimientos para estructurar la información, o puedes utilizar una tabla en formato markdown como esta.
Optimizar el contenido no textual implica procesar imágenes con OCR, añadir descripciones para elementos visuales complejos y asegurarse de que las tablas estén presentadas de forma que tu agente de IA pueda utilizarlas. El objetivo es que todo el conjunto de datos—incluyendo tanto el texto como el contenido no textual—sea fácil de leer para un LLM.
