- GPT-4o è due volte più veloce e costa la metà di GPT-4 Turbo, abbassando drasticamente i prezzi e accelerando i tempi di risposta dei chatbot IA.
- Il nuovo modello abilita funzionalità multimodali avanzate, tra cui voce, video, traduzione in tempo reale e visione, aprendo nuovi casi d’uso innovativi per i chatbot oltre il testo.
- I miglioramenti nell’efficienza della tokenizzazione, soprattutto per le lingue non latine, si traducono in notevoli risparmi per i deployment globali di chatbot.
- I miglioramenti nella velocità migliorano direttamente l’esperienza utente, riducendo i tempi di attesa che tradizionalmente frustrano gli utenti dei chatbot.
Il doppio della velocità e metà del prezzo: cosa significa GPT-4o per i chatbot AI?
Dopo il loro misterioso annuncio, OpenAI ha lanciato la nuova versione del suo modello di punta: GPT-4o.
L’ultimo modello non ha solo ricevuto un aggiornamento nelle capacità multimodali. È più veloce ed economico di GPT-4 Turbo. Mentre i media si concentrano sulle nuove funzioni video e voce di ChatGPT, velocità e costi sono altrettanto rilevanti per chi usa GPT per alimentare le proprie app.

“La disponibilità di 4o ha il potere di migliorare notevolmente sia l’esperienza di chi costruisce che quella dell’utente,” afferma Patrick Hamelin, software engineer lead presso Botpress. “L’impatto è più ampio di quanto pensiamo.”
Vediamo quindi come il nuovo modello cambierà il mondo dei chatbot AI.
Capacità del modello
Il nuovo modello di punta offre una lista entusiasmante di aggiornamenti e nuove funzionalità: capacità avanzate di voce e video, traduzione in tempo reale, abilità linguistiche più naturali. Può analizzare immagini, comprendere una gamma più ampia di input audio, aiutare a riassumere, facilitare la traduzione in tempo reale e creare grafici. Gli utenti possono caricare file e avere una conversazione voce a voce. Include anche un’app desktop.
Nella loro serie di video di lancio, i dipendenti di OpenAI (e collaboratori come Sal Khan di Khan Academy) mostrano l'ultima versione di GPT che prepara un utente per un colloquio di lavoro, canta, identifica emozioni umane tramite espressioni facciali, risolve equazioni matematiche scritte e interagisce persino con un altro ChatGPT-4o.
Il lancio ha mostrato una nuova realtà in cui un modello AI è in grado di analizzare la scrittura nel quaderno di tuo figlio e di rispondere. Potrebbe spiegare per la prima volta il concetto di addizione di frazioni, cambiando tono e tattiche in base alla comprensione di tuo figlio – potrebbe superare il ruolo di chatbot e diventare un vero tutor personale.

Cosa significa GPT-4o per i chatbot basati su LLM?
I chatbot AI basati su LLM ricevono un aggiornamento ogni volta che aziende come OpenAI aggiornano i loro modelli. Se un agente LLM è collegato a una piattaforma di creazione bot come Botpress, riceve tutti i vantaggi dell’ultimo modello GPT nei propri chatbot.
Con il rilascio di GPT-4o, i chatbot AI possono ora scegliere di funzionare con il modello avanzato, modificando capacità, prezzo e velocità. Il nuovo modello offre limiti di utilizzo 5 volte superiori rispetto a GPT-4 Turbo, con la possibilità di elaborare fino a 10 milioni di token al minuto.
Per i bot che utilizzano integrazioni audio come Twilio su Botpress, si è aperto un nuovo mondo di interazione vocale. Invece di essere limitati all’elaborazione audio tradizionale, i chatbot sono ora più vicini a imitare l’interazione umana.
Forse il vantaggio più importante è il costo inferiore per gli utenti a pagamento. Gestire un chatbot con capacità simili a metà prezzo può aumentare notevolmente l’accessibilità e la convenienza a livello globale. E gli utenti Botpress non pagano costi aggiuntivi per l’IA dei loro bot: questi risparmi vanno direttamente ai creatori.
E dal lato utente, GPT-4o significa un’esperienza molto migliore. Nessuno ama aspettare. Tempi di risposta più brevi si traducono in una maggiore soddisfazione per chi usa chatbot AI.

Gli utenti amano la velocità
Un principio chiave nell’adozione dei chatbot è migliorare l’esperienza utente. E cosa migliora di più l’esperienza se non ridurre i tempi di attesa?
“Sarà sicuramente un’esperienza migliore,” ha detto Hamelin. “L’ultima cosa che vuoi è aspettare qualcuno.”
Gli esseri umani odiano aspettare. Già nel 2003, uno studio ha rilevato che le persone erano disposte ad aspettare circa 2 secondi per il caricamento di una pagina web. La nostra pazienza di certo non è aumentata da allora.
E nessuno sopporta di aspettare
Ci sono moltissimi consigli UX per ridurre il tempo di attesa percepito. Spesso non possiamo migliorare la velocità reale degli eventi, quindi ci concentriamo su come far sentire agli utenti che il tempo passa più velocemente. Il feedback visivo, come una barra di caricamento, serve proprio a ridurre il tempo di attesa percepito.
In una famosa storia sui tempi di attesa degli ascensori, un vecchio edificio di New York riceveva una valanga di lamentele. I residenti dovevano aspettare 1-2 minuti prima che l’ascensore arrivasse. L’edificio non poteva essere aggiornato e i residenti minacciavano di rescindere i contratti.
Un nuovo assunto, laureato in psicologia, capì che il vero problema non erano i due minuti persi, ma la noia. Suggerì di installare degli specchi così che le persone potessero guardarsi o osservare gli altri mentre aspettavano. I reclami sull’ascensore cessarono, e oggi è normale vedere specchi nelle lobby degli ascensori.
Invece di ricorrere a scorciatoie per migliorare l’esperienza utente – come feedback visivi – OpenAI ha migliorato l’esperienza alla radice. La velocità è centrale nell’esperienza utente, e nessun trucco eguaglia la soddisfazione di un’interazione efficiente.
Risparmi per tutti
Utilizzare questo nuovo modello AI per gestire applicazioni è diventato improvvisamente più economico. Molto più economico.
Gestire un chatbot AI su larga scala può essere costoso. L’LLM che alimenta il tuo bot determina quanto pagherai per ogni interazione su larga scala (almeno su Botpress, dove i costi AI sono allineati 1:1 con quelli dell’LLM).
E questi risparmi non sono solo per gli sviluppatori che usano l’API. ChatGPT-4o è l’ultima versione gratuita dell’LLM, insieme a GPT-3.5. Gli utenti gratuiti possono utilizzare l’app ChatGPT senza costi.
Migliore tokenizzazione
Se interagisci con il modello in una lingua che non usa l’alfabeto romano, GPT-4o riduce ulteriormente i costi API.

Il nuovo modello offre limiti di utilizzo migliorati. Fornisce un notevole salto in efficienza di tokenizzazione, concentrato soprattutto su alcune lingue non inglesi.
Il nuovo modello di tokenizzazione richiede meno token per elaborare il testo in ingresso. È molto più efficiente per le lingue logografiche (cioè quelle che usano simboli e caratteri invece di singole lettere).
Questi vantaggi si concentrano soprattutto sulle lingue che non utilizzano l’alfabeto romano. Le riduzioni nei risparmi sono state stimate come segue:
- Le lingue indiane, come hindi, tamil o gujarati, hanno una riduzione dei token da 2,9 a 4,4 volte
- L’arabo ha una riduzione di token di circa 2 volte
- Le lingue dell’Asia orientale, come cinese, giapponese e vietnamita, hanno una riduzione dei token di 1,4 – 1,7 volte
Colmare il divario digitale dell’AI
L’era digitale ha portato con sé un’estensione del divario di ricchezza ben noto e documentato: il divario digitale. Così come l’accesso alla ricchezza e alle infrastrutture solide è riservato a pochi, anche l’accesso all’AI e alle opportunità e benefici che ne derivano lo è.
Robert Opp, Chief Digital Officer presso il Programma delle Nazioni Unite per lo Sviluppo (UNDP), ha spiegato che la presenza di piattaforme AI può determinare il successo o il fallimento delle metriche di sviluppo di un intero paese:

Dimezzando il costo di GPT-4o e introducendo un piano gratuito, OpenAI compie un passo fondamentale per neutralizzare uno dei maggiori problemi dell’IA – e affronta direttamente la disuguaglianza che preoccupa politici ed economisti.
Una mossa di PR positiva per la grande AI è più necessaria di quanto gli entusiasti possano pensare. Con la presenza sempre più pervasiva dell’AI nella vita quotidiana, sostenitori e scettici si chiedono come potremmo usare l’AI ‘per il bene’.

Secondo Louis Bouchard, dottorando in AI e docente, ampliare l’accesso all’AI è proprio il modo per raggiungere questo obiettivo: “Rendere l’AI accessibile è uno dei modi, se non il migliore, per usare l’AI ‘per il bene’.” Il suo ragionamento? Se non possiamo controllare pienamente gli impatti positivi e negativi della tecnologia AI – almeno nelle sue fasi iniziali – possiamo almeno garantire un accesso equo ai suoi potenziali benefici.
Potenziale multimodale ampliato
Il modo più comune per interagire con il chatbot di un’azienda è tramite testo, ma le capacità multimodali avanzate del nuovo modello IA di OpenAI suggeriscono che questo potrebbe cambiare in futuro.
Nel prossimo anno, probabilmente vedremo molti sviluppatori lanciare nuove applicazioni che sfruttano le nuove funzionalità di audio, visione e video ora accessibili.
Ad esempio, i chatbot basati su GPT potrebbero essere in grado di:
- Chiedi ai clienti una foto dell'articolo che stanno restituendo per identificare il prodotto e assicurarti che non sia danneggiato
- Fornisci traduzione audio in tempo reale durante la conversazione, tenendo conto dei dialetti regionali
- Stabilire se una bistecca è cotta da una foto in padella
- Funziona come una guida personale gratuita, fornendo contesto storico basato sull'immagine di una vecchia cattedrale, offrendo traduzioni in tempo reale e una visita guidata personalizzata che consente una comunicazione bidirezionale e domande.
- Alimenta un’applicazione per l’apprendimento delle lingue che ascolta l’audio, fornisce feedback sulla pronuncia in base a un video dei movimenti della bocca o insegna la lingua dei segni tramite immagini e video
- Fornire supporto per il benessere mentale non urgente combinando la capacità di interpretare audio e video, consentendo una terapia conversazionale a basso costo
Con modelli IA in grado di interpretare immagini e audio, le possibilità di utilizzo degli LLM stanno crescendo rapidamente.
La multimodalità significa accessibilità
Abbiamo già visto le funzionalità multimodali avanzate utilizzate per il bene sociale. Un esempio perfetto è la collaborazione tra OpenAI e Be My Eyes.
Be My Eyes è una start-up danese che mette in contatto utenti ipovedenti con volontari vedenti. Quando un utente ha bisogno di aiuto – ad esempio per scegliere i prodotti giusti al supermercato o identificare il colore di una maglietta – l’app lo collega tramite video a un volontario vedente in tutto il mondo tramite smartphone.

La nuova funzione di visione di OpenAI può offrire un’esperienza ancora più utile agli utenti di Be My Eyes. Invece di affidarsi a un volontario umano per interpretare in tempo reale un’immagine o un video, gli utenti non vedenti possono inviare un’immagine o un video al proprio dispositivo e il modello risponderà con informazioni audio.
OpenAI e Be My Eyes, ora partner di fiducia, stanno aprendo la strada a una maggiore indipendenza per le persone legalmente cieche in tutto il mondo. Il CEO di Be My Eyes, Michael Buckley, ne spiega l’impatto:

Il nuovo servizio sarà lanciato presto, nell’estate 2024, per la prima volta. Gli utenti early access hanno già testato in beta le nuove funzionalità di visione, video e audio con grande entusiasmo. Anche se gli impatti dell’AI possono preoccupare gli scettici, questa partnership è un chiaro segnale dei benefici che può portare. Comprendere il valore sociale dell’AI avanzata è un passo fondamentale per la sua accettazione pubblica.
Come valuteremo i futuri modelli LLM?
Mentre i concorrenti continuano la corsa al ribasso – per creare il LLM più economico e veloce – sorge la domanda: come valuteremo i modelli AI di domani?
A un certo punto, i principali creatori di LLM (probabilmente OpenAI e Google) raggiungeranno un limite nella velocità dei loro modelli e nel costo dell’accesso. Una volta raggiunta la stabilità su costi e velocità, come si decreterà il modello leader di mercato?
Cosa diventerà il nuovo segno dei tempi? Che si tratti delle personalità disponibili per il tuo modello di intelligenza artificiale, delle capacità di miglioramento video, delle funzionalità offerte agli utenti gratuiti o di nuove metriche ancora sconosciute, la prossima generazione di LLM è alle porte.
Chatbot AI resi semplici
E se il tuo chatbot AI si sincronizzasse automaticamente con ogni aggiornamento di GPT?
Botpress offre soluzioni chatbot AI personalizzabili dal 2017, fornendo agli sviluppatori gli strumenti necessari per creare facilmente chatbot con la potenza degli ultimi LLM. I chatbot Botpress possono essere addestrati su fonti di conoscenza personalizzate – come il tuo sito web o catalogo prodotti – e integrarsi senza problemi con i sistemi aziendali.
L’unica piattaforma che va dall’impostazione no-code alla massima personalizzazione ed estendibilità, Botpress ti permette di sfruttare automaticamente la versione più recente di GPT sul tuo chatbot – senza alcuno sforzo.
Inizia a costruire oggi. È gratis.
Domande frequenti
1. Come posso passare il mio chatbot esistente a GPT-4o su Botpress?
Per passare il tuo chatbot esistente a GPT-4o su Botpress, vai su Botpress Studio, accedi alle impostazioni LLM del tuo assistente e seleziona GPT-4o dal menu a tendina dei modelli disponibili. Il cambiamento è immediato e non richiede modifiche al codice.
2. Ci sono prerequisiti per utilizzare GPT-4o all'interno della piattaforma Botpress (ad esempio, SDK, versioni API)?
No, non ci sono prerequisiti per usare GPT-4o in Botpress. La piattaforma gestisce automaticamente tutti gli SDK, gli aggiornamenti API e le dipendenze di backend, quindi basta selezionare GPT-4o nelle impostazioni per attivarlo.
3. GPT-4o può essere personalizzato o adattato a casi d'uso aziendali specifici tramite Botpress?
Anche se GPT-4o non può essere ottimizzato nel senso tradizionale all’interno di Botpress, puoi personalizzare le sue risposte e il suo comportamento tramite prompt engineering, logica dei workflow, knowledge base e variabili. Questo permette a GPT-4o di comportarsi in modo contestuale per le esigenze della tua azienda senza dover riaddestrare il modello.
4. Esistono limitazioni all'uso delle funzionalità multimodali (voce, visione) nei flussi di lavoro di Botpress?
Sì, Botpress attualmente supporta funzionalità vocali tramite integrazioni come Twilio o Dialogflow Voice Gateway, ma le capacità multimodali come l’elaborazione di immagini o video non sono ancora pienamente supportate. L’input basato su immagini è ancora in fase di valutazione o richiede soluzioni alternative.
5. Ci sono costi nascosti nell'utilizzo delle funzionalità avanzate di GPT-4o come la traduzione in tempo reale o l'input visivo?
No, non ci sono costi nascosti per usare le funzionalità avanzate di GPT-4o in Botpress. La velocità e l’efficienza di GPT-4o sono incluse nel tuo piano Botpress e i costi LLM sono coperti da Botpress: quindi non ci sono spese extra per gli utenti che utilizzano i miglioramenti di GPT-4o.





.webp)
