Kami telah banyak membincangkan tentang mengoptimumkan teks, tetapi jika dokumen anda mengandungi imej atau jadual, penting untuk mengambil beberapa langkah tambahan supaya elemen-elemen ini juga boleh digunakan oleh ejen anda. Kandungan bukan teks seperti imej, carta, dan jadual boleh mengandungi maklumat yang bernilai, tetapi tanpa persediaan yang teliti, LLM mungkin mengabaikan atau salah tafsir maklumat yang ada.
Mari kita mulakan dengan imej. Jika dokumen anda mengandungi sebarang imej, sama ada gambar produk atau teks yang sangat berstail, adalah idea yang baik untuk menukarnya kepada teks biasa sebelum anda memuat naik fail tersebut. Botpress akan memproses fail anda secara automatik selepas anda memuat naiknya, jadi cara terbaik untuk mendapatkan jawapan yang konsisten daripada fail anda ialah dengan menukarnya sendiri.
Sebagai contoh, mari kita lihat menu restoran berstail ini. Sebelum ditukar kepada fail teks biasa, maklumat yang boleh diakses oleh LLM kelihatan seperti ini selepas diparse. Sebaliknya, jika kita tukar kepada markdown sebelum memuat naiknya (atau menggunakan editor teks kaya terbina dalam Botpress), kita akan mendapat hasil yang jauh lebih boleh dipercayai.
Seterusnya, mari bincangkan tentang jadual dan data berstruktur. Jika anda memasukkan jadual dalam dokumen anda, ingat bahawa sebelum menjalankan RAG, fail anda akan ditukar kepada markdown. Di sini, anda mempunyai dua pilihan. Anda boleh tetapkan jadual terbina dalam Botpress sebagai pangkalan pengetahuan supaya maklumat anda berstruktur, atau anda boleh gunakan jadual berformat markdown seperti ini.
Mengoptimumkan kandungan bukan teks bermaksud memproses imej dengan OCR, menambah penerangan untuk visual yang kompleks, dan memastikan jadual dipersembahkan dengan cara yang boleh digunakan oleh ejen AI anda. Matlamat kita di sini ialah untuk memastikan keseluruhan set data—termasuk teks dan kandungan bukan teks—mudah dibaca oleh LLM.
