5
rag
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Następna lekcja
Następna lekcja
W tej lekcji

Dużo mówiliśmy o optymalizacji tekstu, ale jeśli Twoje dokumenty zawierają obrazy lub tabele, warto wykonać kilka dodatkowych kroków, aby te elementy również były dostępne dla Twojego agenta. Treści nietekstowe, takie jak obrazy, wykresy czy tabele, mogą zawierać cenne informacje, ale bez odpowiedniego przygotowania LLM może je pominąć lub źle zinterpretować.

Zacznijmy od obrazów. Jeśli Twoje dokumenty zawierają obrazy, na przykład zdjęcie produktu lub nawet bardzo stylizowany tekst, warto przekonwertować je na zwykły tekst przed przesłaniem pliku. Botpress i tak wstępnie przetworzy Twoje pliki po ich przesłaniu, ale aby uzyskać spójne odpowiedzi, najlepiej samodzielnie dokonać konwersji.

Weźmy na przykład to stylizowane menu restauracji. Przed konwersją na plik tekstowy informacje, z którymi LLM musi pracować, wyglądają tak po przetworzeniu. Jeśli jednak przed przesłaniem przekonwertujemy je do markdown (lub użyjemy wbudowanego edytora tekstu Botpress), uzyskamy znacznie bardziej wiarygodne wyniki.

Teraz przejdźmy do tabel i danych strukturalnych. Jeśli w dokumentach umieszczasz tabele, pamiętaj, że przed użyciem RAG Twoje pliki są konwertowane do markdown. Masz tutaj dwie opcje: możesz oznaczyć wbudowaną tabelę Botpress jako bazę wiedzy, aby Twoje dane były uporządkowane, lub użyć tabeli w formacie markdown, jak poniżej.

Optymalizacja treści nietekstowych polega na przetwarzaniu obrazów za pomocą OCR, dodawaniu opisów do złożonych grafik oraz prezentowaniu tabel w taki sposób, by agent AI mógł z nich korzystać. Naszym celem jest, aby cały zbiór danych—zarówno tekst, jak i treści nietekstowe—był łatwy do odczytania przez LLM.

Podsumowanie
Konwertuj obrazy i stylizowane dokumenty na zwykły tekst, optymalizuj tabele za pomocą uporządkowanego formatowania lub markdown, a także przetwarzaj treści nietekstowe, aby Twój agent AI mógł dokładnie interpretować i wykorzystywać wszystkie informacje w Twoim zbiorze danych.
wszystkie lekcje w tym kursie
Fresh green broccoli floret with thick stalks.