3
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Susunod na aralin
Susunod na aralin
Sa araling ito

Ngayong natalakay na natin ang mga uri ng file at pag-format, sumabak naman tayo sa pagproseso ng teksto. Sa hakbang na ito, nililinis at pinapasimple natin ang nilalaman ng bawat dokumento para mas madaling maintindihan at mahanap ng iyong agent ang tamang impormasyon.

Una, mahalagang alisin ang anumang hindi kaugnay na datos. Isipin kung ang bawat bahagi ng nilalaman sa iyong dokumento ay kapaki-pakinabang sa pagsagot ng mga posibleng tanong ng user. Halimbawa, kung gusto mong sagutin ang mga tanong tungkol sa katalogo ng produkto, ang mga legal disclaimer na hindi tuwirang kaugnay ay maaaring magdulot ng abala. Ang pagtanggal nito ay makakabawas ng ingay, kaya mas malinis at madaling hanapin ang iyong dataset. Mainam ding linisin ang sobrang metadata, pati na ang mga footer o header na maaaring makagulo sa pag-index.

Subukang baguhin ang mga masisikip na bahagi o alisin ang mga terminong pang-industriya maliban kung talagang mahalaga ang mga ito.

Kung ang iyong dokumento ay may mahahabang talata o komplikadong pangungusap, makakatulong ang paggamit ng mga awtomatikong kasangkapan sa pagpapasimple. Kayang hatiin ng mga ito ang masalimuot na wika sa mas maiikli at malinaw na pahayag, kaya mas madaling hatiin at unawain ng Botpress ang nilalaman.

Sa madaling salita, ang layunin dito ay gawing tuwiran at kaugnay hangga't maaari ang teksto. Sa pagtanggal ng di-kailangang datos at pagpapasimple ng wika, bumubuo ka ng masinop at nakatutok na dataset na nagpapahusay sa bilis at katumpakan ng paghahanap.

Tandaan, magandang gabay ang ituring ang iyong AI agent na parang bagong kasamahan sa trabaho na walang anumang alam tungkol sa iyong produkto, industriya, o negosyo.

Buod
Alisin ang mga hindi kaugnay na datos at gawing simple ang wika para makabuo ng malinis at nakatutok na dataset na nagpapahusay sa pagganap ng AI agent at katumpakan ng paghahanap ng impormasyon.
lahat ng aralin sa kursong ito
Fresh green broccoli floret with thick stalks.