Wir haben bereits viel über die Optimierung von Text gesprochen, aber wenn Ihre Dokumente Bilder oder Tabellen enthalten, sollten Sie ein paar zusätzliche Schritte unternehmen, damit auch diese Elemente von Ihrem Agenten genutzt werden können. Nicht-textuelle Inhalte wie Bilder, Diagramme und Tabellen können wichtige Informationen enthalten. Ohne sorgfältige Vorbereitung kann ein LLM diese Informationen jedoch übersehen oder falsch interpretieren.
Beginnen wir mit Bildern. Falls Ihre Dokumente Bilder enthalten – etwa Produktfotos oder stark gestalteten Text –, empfiehlt es sich, diese vor dem Hochladen in Klartext umzuwandeln. Botpress verarbeitet Ihre Dateien beim Hochladen ohnehin vor, aber um konsistente Antworten zu erhalten, ist es am besten, die Umwandlung selbst vorzunehmen.
Nehmen wir als Beispiel diese gestaltete Restaurantkarte. Bevor sie in eine Klartextdatei umgewandelt wird, sieht die Information, mit der das LLM arbeitet, nach dem Parsen so aus. Wenn wir sie stattdessen vor dem Hochladen in Markdown umwandeln (oder den integrierten Rich-Text-Editor von Botpress nutzen), erhalten wir deutlich zuverlässigere Ergebnisse.
Kommen wir nun zu Tabellen und strukturierten Daten. Wenn Sie Tabellen in Ihre Dokumente einfügen, bedenken Sie, dass Ihre Dateien vor dem RAG-Prozess in Markdown umgewandelt werden. Sie haben hier zwei Möglichkeiten: Sie können eine integrierte Botpress-Tabelle als Wissensdatenbank festlegen, sodass Ihre Informationen strukturiert sind, oder Sie verwenden eine Tabelle im Markdown-Format wie dieses Beispiel.
Die Optimierung nicht-textueller Inhalte bedeutet, Bilder mit OCR zu verarbeiten, Beschreibungen für komplexe Grafiken hinzuzufügen und Tabellen so darzustellen, dass Ihr KI-Agent sie nutzen kann. Unser Ziel ist es, den gesamten Datensatz – sowohl Text als auch nicht-textuelle Inhalte – für ein LLM leicht lesbar zu machen.
