Academy
Come ottimizzare i file per RAG
Strutturare i dati per RAG
2
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Lezione successiva
Lezione successiva
In questa lezione

Quando prepari i dati per RAG, ogni dettaglio nel formato e nella struttura dei documenti è importante. Iniziamo dalle basi: i tipi di file che utilizzi.

Per prima cosa, assicurati che i tuoi file siano in formati supportati. Questo include tipi comuni come PDF, documenti Word, file HTML, Markdown e testo semplice. Botpress Studio supporta tutti questi formati. In generale, evita tipi di file che non possono essere facilmente analizzati, come documenti basati su immagini con formattazione complessa. Senza una corretta estrazione, questi file non possono essere letti da un LLM, limitando la capacità dell’agente di comprendere o rispondere in modo accurato.

Quando carichi un file da usare come base di conoscenza di un agente in Botpress, il file viene automaticamente convertito in markdown. Se vuoi che il tuo agente dia risposte sempre affidabili, puoi caricare direttamente un file markdown grezzo oppure usare il tipo di base di conoscenza Rich Text, che è anch’esso markdown.

Ora, oltre al tipo di file, il modo in cui organizzi il contenuto del tuo documento è altrettanto importante. Suddividere i file in una struttura chiara e logica – con sezioni, titoli, intestazioni e sottotitoli distinti – può migliorare notevolmente la capacità dell’agente di comprendere e recuperare le informazioni. Presta particolare attenzione alle intestazioni: con una gerarchia informativa chiara, un LLM può categorizzare meglio i dati e migliorare la capacità di trovare le informazioni rilevanti in base alle richieste degli utenti.

La teoria generale qui è rendere il tuo documento facilmente comprensibile. In altre parole, se dovessi consegnare questo documento a qualcuno senza alcun contesto sul tuo settore o servizio, dovrebbe comunque riuscire a comprenderne le informazioni.

Botpress utilizza un approccio semantico a titoli e sottotitoli, il che significa che durante la vettorizzazione prestiamo attenzione ai segmenti logici dei tuoi file che dovrebbero essere raggruppati per il recupero. Ma ci affidiamo alla struttura del tuo documento per farlo in modo accurato: se il tuo titolo viene interpretato come parte del corpo principale del testo, questo causerà problemi nella capacità dell’agente di recuperare costantemente le informazioni da questa sezione.

In breve, un po’ di tempo speso per organizzare e standardizzare i tuoi file migliora notevolmente la capacità dell’agente di elaborare e recuperare informazioni accurate.

Riepilogo
In breve, un po’ di tempo speso per organizzare e standardizzare i tuoi file migliora notevolmente la capacità dell’agente di elaborare e recuperare informazioni accurate.
tutte le lezioni di questo corso
Fresh green broccoli floret with thick stalks.