5
rag
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Pelajaran berikutnya
Pelajaran berikutnya
Dalam pelajaran ini

Kami sudah banyak membahas tentang optimasi teks, tetapi jika dokumen Anda berisi gambar atau tabel, penting untuk mengambil beberapa langkah tambahan agar elemen-elemen ini juga dapat digunakan oleh agen Anda. Konten non-teks seperti gambar, grafik, dan tabel bisa berisi informasi penting, namun tanpa persiapan yang tepat, LLM bisa saja mengabaikan atau salah menafsirkan informasi yang ada di dalamnya.

Mari mulai dengan gambar. Jika dokumen Anda berisi gambar, baik itu foto produk atau bahkan teks yang sangat bergaya, sebaiknya ubah gambar tersebut menjadi teks biasa sebelum mengunggah file Anda. Botpress akan memproses file Anda secara otomatis setelah diunggah, jadi cara terbaik untuk mendapatkan jawaban yang konsisten dari file Anda adalah dengan mengonversinya sendiri terlebih dahulu.

Sebagai contoh, mari kita lihat menu restoran bergaya berikut. Sebelum diubah menjadi file teks biasa, informasi yang bisa digunakan LLM setelah diproses akan terlihat seperti ini. Namun, jika kita mengonversinya ke markdown sebelum mengunggahnya (atau menggunakan editor rich text bawaan Botpress), hasil yang didapatkan akan jauh lebih andal.

Selanjutnya, mari bahas tentang tabel dan data terstruktur. Jika Anda menyertakan tabel dalam dokumen, ingat bahwa sebelum melakukan RAG, file Anda akan diubah ke format markdown. Di sini, Anda punya dua pilihan. Anda bisa menjadikan tabel bawaan Botpress sebagai basis pengetahuan agar informasi Anda terstruktur, atau menggunakan tabel berformat markdown seperti ini.

Mengoptimalkan konten non-teks berarti memproses gambar dengan OCR, menambahkan deskripsi untuk visual yang kompleks, dan memastikan tabel disajikan dengan cara yang dapat digunakan oleh agen AI Anda. Tujuan kita di sini adalah membuat seluruh dataset—baik teks maupun konten non-teks—mudah dibaca oleh LLM.

Ringkasan
Ubah gambar dan dokumen bergaya menjadi teks biasa, optimalkan tabel dengan format terstruktur atau markdown, dan proses konten non-teks agar agen AI Anda dapat memahami dan memanfaatkan semua informasi dalam dataset Anda dengan akurat.
semua pelajaran di kursus ini