Kapag naghahanda ng datos para sa RAG, mahalaga ang bawat detalye sa pag-format at estruktura ng dokumento. Magsimula tayo sa mga pangunahing bagay: ang mga uri ng file na ginagamit mo.
Una, tiyaking ang iyong mga file ay nasa mga suportadong format. Kabilang dito ang mga karaniwang ginagamit tulad ng PDF, Word document, HTML file, Markdown, at plain text. Sinusuportahan ng Botpress Studio ang lahat ng mga format na ito. Sa pangkalahatan, iwasan ang mga uri ng file na mahirap basahin ng sistema, gaya ng mga dokumentong larawan na komplikado ang pagkakaayos. Kung walang tamang pagkuha ng nilalaman, hindi mababasa ng LLM ang mga file na ito, na naglilimita sa kakayahan ng iyong ahente na umunawa o sumagot nang tama.
Kapag nag-upload ka ng file na gagamitin bilang knowledge base ng ahente sa Botpress, awtomatikong kino-convert namin ang file sa markdown. Kung gusto mong matiyak na palaging maaasahan ang mga sagot ng iyong ahente, maaari kang mag-upload mismo ng raw markdown file, o gumamit ng Rich Text knowledge base type, na markdown din.
Ngayon, bukod sa uri ng file, mahalaga rin kung paano mo inaayos ang nilalaman ng iyong dokumento. Ang paghahati ng iyong mga file sa malinaw at lohikal na estruktura—may hiwalay na mga bahagi, pamagat, heading, at subheading—ay makakatulong nang malaki sa kakayahan ng iyong ahente na umunawa at kumuha ng impormasyon. Bigyang-pansin ang mga heading ng iyong dokumento: kapag malinaw ang hierarchy ng impormasyon gamit ang mga heading, mas mahusay na makakategorya ng LLM ang impormasyon, kaya mas napapabuti ang pagkuha ng kaugnay na kaalaman batay sa tanong ng user.
Ang pangunahing prinsipyo rito ay gawing madaling basahin ng sistema ang iyong dokumento. Ibig sabihin, kung ibibigay mo ang dokumentong ito sa isang taong walang alam tungkol sa iyong industriya o serbisyo, dapat ay maiintindihan pa rin niya ang nilalaman nito.
Gumagamit ang Botpress ng semantikong paraan sa mga heading at subheading, ibig sabihin, sa proseso ng vectorizing ay binibigyang-pansin namin ang lohikal na mga bahagi ng iyong file na dapat pagsama-samahin para sa retrieval. Ngunit umaasa kami sa estruktura ng iyong dokumento para magawa ito nang tama: kung ang pamagat mo ay nababasa bilang bahagi ng pangunahing katawan ng teksto, magdudulot ito ng problema sa kakayahan ng iyong ahente na palaging makuha ang impormasyon mula sa bahaging iyon.
Sa madaling salita, ang kaunting oras na ginugol sa pag-aayos at pag-iisa ng anyo ng iyong mga file ay malaki ang naitutulong sa pagpapahusay ng kakayahan ng iyong ahente na magproseso at kumuha ng tamang impormasyon.
