Academy
Come ottimizzare i file per RAG
Pre-elaborazione del testo
3
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Lezione successiva
Lezione successiva
In questa lezione

Ora che abbiamo visto i tipi di file e la formattazione, passiamo al pre-processing del testo. In questa fase si pulisce e semplifica il contenuto di ogni documento per renderlo più facile da comprendere e recuperare per il tuo agente.

Per prima cosa, è fondamentale rimuovere i dati non rilevanti. Valuta se ogni contenuto del tuo documento sia utile per rispondere alle possibili domande degli utenti. Ad esempio, se vuoi rispondere a domande su un catalogo prodotti, le note legali non direttamente pertinenti potrebbero creare problemi. Rimuoverle può ridurre notevolmente il rumore, rendendo il dataset più pulito e facile da consultare. È anche utile eliminare metadati superflui, così come footer o header che potrebbero distrarre durante l’indicizzazione.

Un'altra parte importante di questo processo è semplificare il testo stesso. Gergo, linguaggio tecnico o frasi troppo complesse possono introdurre ambiguità. Se il documento è troppo complicato, non solo rallenta l'elaborazione ma può anche portare a risposte poco chiare. Valuta di riformulare le sezioni più dense o di eliminare termini troppo specifici del settore, a meno che non siano davvero necessari.

Se il tuo documento contiene paragrafi lunghi o frasi complicate, può essere utile usare strumenti di semplificazione automatica. Questi strumenti suddividono il linguaggio complesso in affermazioni più brevi e chiare, facilitando a Botpress la suddivisione e l’interpretazione accurata dei contenuti.

In breve, l’obiettivo qui è rendere il testo il più semplice e rilevante possibile. Rimuovendo dati superflui e semplificando il linguaggio, crei un dataset snello e mirato che migliora le prestazioni e l’accuratezza del recupero.

Ricorda, una buona regola è trattare il tuo agente AI come un nuovo collega senza alcun contesto sul tuo prodotto, settore o azienda.

Riepilogo
Rimuovi dati irrilevanti e semplifica il linguaggio per creare un dataset pulito e mirato che migliori le prestazioni dell’agente AI e la precisione nel recupero delle informazioni.
tutte le lezioni di questo corso
Fresh green broccoli floret with thick stalks.