Cara Mengoptimumkan Fail untuk RAG | Imej dan Jadual

Kursus

Pemula

Ejen AI pertama anda

Antara Muka Studio

Antara Muka Papan Pemuka

Pertengahan

Harga

Nod Autonomi

Lanjutan

Mengoptimumkan Fail untuk RAG

Dalam pelajaran ini

Kami telah banyak membincangkan tentang mengoptimumkan teks, tetapi jika dokumen anda mengandungi imej atau jadual, penting untuk mengambil beberapa langkah tambahan supaya elemen-elemen ini juga boleh digunakan oleh ejen anda. Kandungan bukan teks seperti imej, carta, dan jadual boleh mengandungi maklumat yang bernilai, tetapi tanpa persediaan yang teliti, LLM mungkin mengabaikan atau salah tafsir maklumat yang ada.

Mari kita mulakan dengan imej. Jika dokumen anda mengandungi sebarang imej, sama ada gambar produk atau teks yang sangat berstail, adalah idea yang baik untuk menukarnya kepada teks biasa sebelum anda memuat naik fail tersebut. Botpress akan memproses fail anda secara automatik selepas anda memuat naiknya, jadi cara terbaik untuk mendapatkan jawapan yang konsisten daripada fail anda ialah dengan menukarnya sendiri.

Sebagai contoh, mari kita lihat menu restoran berstail ini. Sebelum ditukar kepada fail teks biasa, maklumat yang boleh diakses oleh LLM kelihatan seperti ini selepas diparse. Sebaliknya, jika kita tukar kepada markdown sebelum memuat naiknya (atau menggunakan editor teks kaya terbina dalam Botpress), kita akan mendapat hasil yang jauh lebih boleh dipercayai.

Seterusnya, mari bincangkan tentang jadual dan data berstruktur. Jika anda memasukkan jadual dalam dokumen anda, ingat bahawa sebelum menjalankan RAG, fail anda akan ditukar kepada markdown. Di sini, anda mempunyai dua pilihan. Anda boleh tetapkan jadual terbina dalam Botpress sebagai pangkalan pengetahuan supaya maklumat anda berstruktur, atau anda boleh gunakan jadual berformat markdown seperti ini.

Mengoptimumkan kandungan bukan teks bermaksud memproses imej dengan OCR, menambah penerangan untuk visual yang kompleks, dan memastikan jadual dipersembahkan dengan cara yang boleh digunakan oleh ejen AI anda. Matlamat kita di sini ialah untuk memastikan keseluruhan set data—termasuk teks dan kandungan bukan teks—mudah dibaca oleh LLM.

‍

Ringkasan

Tukar imej dan dokumen berstail kepada teks biasa, optimumkan jadual dengan format berstruktur atau markdown, dan proses kandungan bukan teks supaya ejen AI anda dapat mentafsir serta menggunakan semua maklumat dalam set data anda dengan tepat.

semua pelajaran dalam kursus ini

Pengenalan Kursus

2 minit

Struktur Data untuk RAG

1 minit

Pra-pemprosesan Teks

2 minit

Mempertingkat Kandungan Dokumen

2 minit

Imej dan Jadual

3 minit

Penyelenggaraan dan Pengesahan

2 minit

Fresh green broccoli floret with thick stalks.