How do I switch my existing chatbot to GPT-4o on Botpress?

To switch your existing chatbot to GPT-4o on Botpress, go to the Botpress Studio, navigate to your assistant’s LLM settings, and select GPT-4o from the available model dropdown. The change applies instantly without requiring code changes.

Are there prerequisites to using GPT-4o within the Botpress platform (e.g., SDKs, API versions)?

No, there are no prerequisites to using GPT-4o in Botpress. The platform manages all SDKs, API updates, and backend dependencies automatically, so you only need to select GPT-4o in the settings to activate it.

Can GPT-4o be fine-tuned or customized for specific business use cases via Botpress?

While GPT-4o cannot be fine-tuned in the traditional sense within Botpress, you can customize its responses and behavior using prompt engineering, workflow logic, knowledge bases, and variables. This allows GPT-4o to behave contextually for your business needs without retraining the model.

Are there limitations on the use of multimodal features (voice, vision) within Botpress workflows?

Yes, Botpress currently supports voice features through integrations like Twilio or Dialogflow Voice Gateway, but multimodal capabilities like processing images or videos are not fully supported yet. Vision-based input is still under consideration or requires workarounds.

Are there hidden costs to using GPT-4o’s advanced features like real-time translation or vision input?

No, there are no hidden costs to using GPT-4o’s advanced features in Botpress. GPT-4o’s speed and efficiency benefits are included in your existing Botpress plan, and LLM costs are covered by Botpress—so users don’t incur extra fees for using GPT-4o’s enhancements.

Was bedeutet GPT-4o für Chatbots?

Verfasst von

Sarah Chudleigh

Forscherin & Leiterin KI-Inhalte

Inhaltsverzeichnis

Schritt 1. Der Titel des Schritts steht hier wie erwartet

Zusammenfassung

GPT-4o ist doppelt so schnell und kostet nur die Hälfte von GPT-4 Turbo. Dadurch sinken die Preise und die Antwortzeiten von KI-Chatbots werden deutlich kürzer.
Das neue Modell ermöglicht fortschrittliche multimodale Funktionen – darunter Sprache, Video, Echtzeitübersetzung und Bilderkennung – und eröffnet so innovative Einsatzmöglichkeiten für Chatbots jenseits von Text.
Effizienzgewinne bei der Tokenisierung, insbesondere für Sprachen mit nicht-lateinischen Alphabeten, bedeuten erhebliche Kosteneinsparungen für globale Chatbot-Einsätze.
Die Geschwindigkeitsverbesserungen wirken sich direkt auf das Nutzererlebnis aus, da sie Wartezeiten reduzieren, die Nutzer von Chatbots traditionell frustrieren.

Doppelte Geschwindigkeit und halber Preis – was bedeutet GPT-4o für KI-Chatbots?

Nach einer geheimnisvollen Ankündigung hat OpenAI die neueste Version ihres Flaggschiff-Modells veröffentlicht: GPT-4o.

Das neue Modell hat nicht nur ein Upgrade bei den multimodalen Fähigkeiten erhalten. Es ist schneller und günstiger als GPT-4 Turbo. Während sich die Berichterstattung der Mainstream-Medien vor allem auf die neuen Video- und Sprachfunktionen für ChatGPT konzentriert, sind die niedrigeren Kosten und die höhere Geschwindigkeit für alle, die GPT in ihren Anwendungen nutzen, mindestens genauso relevant.

White lettering on an indigo background. A quote from Botpress software engineer lead Patrick Hamelin that reads: "The availability of 4o has the power to significantly improv both the builder and the user experience. The impact is further-reaching than we think."

„Die Verfügbarkeit von 4o hat das Potenzial, sowohl das Erlebnis für Entwickler als auch für Nutzer deutlich zu verbessern“, sagt Patrick Hamelin, leitender Softwareentwickler bei Botpress. „Die Auswirkungen sind größer, als wir denken.“

Schauen wir uns also an, wie das neue Modell die Welt der KI-Chatbots verändern wird.

KI-Chatbots erstellen

Individuelle agentenbasierte Chatbots entwickeln

Jetzt starten

Modell-Fähigkeiten

Willkommen, GPT-4o

Das neue Flaggschiff-Modell bringt eine spannende Liste an Neuerungen und Funktionen mit: verbesserte Sprach- und Videofunktionen, Echtzeitübersetzung, natürlichere Sprachverarbeitung. Es kann Bilder analysieren, eine größere Vielfalt an Audioeingaben verstehen, beim Zusammenfassen unterstützen, Echtzeitübersetzungen ermöglichen und Diagramme erstellen. Nutzer können Dateien hochladen und Sprachgespräche führen. Es gibt sogar eine Desktop-App.

In einer Reihe von Einführungsvideos zeigen OpenAI-Mitarbeiter (und Partner wie Sal Khan von Khan Academy), wie die neueste Version von GPT einen Nutzer auf ein Vorstellungsgespräch vorbereitet, singt, menschliche Emotionen anhand von Gesichtsausdrücken erkennt, schriftliche Matheaufgaben löst und sogar mit einem anderen ChatGPT-4o interagiert.

Die Vorstellung zeigte eine neue Realität, in der ein KI-Modell die Handschrift im Notizbuch Ihres Kindes analysieren und darauf reagieren kann. Es könnte das Konzept des Bruchrechnens erstmals erklären und Tonfall sowie Vorgehen an das Verständnis Ihres Kindes anpassen – und damit die Grenze vom Chatbot zum persönlichen Tutor überschreiten.

A video screenshot of a GPT-4o demo video featuring Kan Academy creator Sal Khan and his son. — *Sal Khan, Gründer der Khan Academy, und sein Sohn demonstrieren, wie GPT-4o Nachhilfe in Geometrie geben kann.*

Was bedeutet GPT-4o für LLM-Chatbots?

KI-Chatbots, die auf LLMs basieren, erhalten jedes Mal ein Update, wenn Unternehmen wie OpenAI ihre Modelle aktualisieren. Wenn ein LLM-Agent mit einer Bot-Building-Plattform wie Botpress verbunden ist, profitieren die eigenen Chatbots direkt von den neuesten GPT-Verbesserungen.

Mit der Einführung von GPT-4o können KI-Chatbots nun auf das fortschrittliche Modell umsteigen, was ihre Fähigkeiten, Kosten und Geschwindigkeit verändert. Das neue Modell bietet 5-mal höhere Nutzungslimits als GPT-4 Turbo und kann bis zu 10 Millionen Tokens pro Minute verarbeiten.

Für Bots, die Audio-Integrationen wie Twilio auf Botpress nutzen, eröffnen sich neue Möglichkeiten für sprachgesteuerte Interaktionen. Chatbots kommen damit der menschlichen Kommunikation einen Schritt näher.

Am wichtigsten ist vielleicht der niedrigere Preis für zahlende Nutzer. Einen ähnlich leistungsfähigen Chatbot für die Hälfte der Kosten zu betreiben, kann den Zugang und die Erschwinglichkeit weltweit drastisch erhöhen. Und Botpress-Nutzer zahlen keine zusätzlichen KI-Gebühren für ihre Bots – diese Einsparungen kommen also direkt den Erstellern zugute.

Und auch für die Nutzerseite bedeutet GPT-4o ein deutlich besseres Erlebnis. Niemand wartet gern. Kürzere Antwortzeiten sorgen für mehr Zufriedenheit bei den Nutzern von KI-Chatbots.

*Im Botpress Studio können Nutzer verschiedene GPT-Versionen für unterschiedliche Teile des Bot-Workflows auswählen.*

Nutzer lieben Geschwindigkeit

Ein zentrales Ziel bei der Einführung von Chatbots ist die Verbesserung des Nutzererlebnisses. Und was verbessert das Nutzererlebnis mehr als kürzere Wartezeiten?

„Es wird auf jeden Fall ein besseres Erlebnis“, sagt Hamelin. „Das Letzte, was man will, ist, auf jemanden warten zu müssen.“

Menschen hassen es zu warten. Schon 2003 zeigte eine Studie, dass Menschen nur bereit waren, etwa 2 Sekunden auf das Laden einer Webseite zu warten. Unsere Geduld ist seitdem sicher nicht größer geworden.

Und niemand wartet gern

Es gibt zahlreiche UX-Tipps, um die wahrgenommene Wartezeit zu verkürzen. Oft können wir die Geschwindigkeit nicht wirklich verbessern, also versuchen wir, das Gefühl zu vermitteln, dass die Zeit schneller vergeht. Visuelles Feedback, wie ein Ladebalken, soll die gefühlte Wartezeit verkürzen.

In einer bekannten Geschichte über Aufzugwartezeiten erhielt ein altes New Yorker Gebäude zahlreiche Beschwerden. Die Bewohner mussten 1–2 Minuten auf den Aufzug warten. Da der Aufzug nicht modernisiert werden konnte, drohten die Bewohner mit Kündigung ihrer Mietverträge.

Ein neuer Mitarbeiter mit psychologischem Hintergrund erkannte, dass das eigentliche Problem nicht die verlorene Zeit war, sondern Langeweile. Er schlug vor, Spiegel zu installieren, damit die Bewohner sich oder andere während des Wartens betrachten konnten. Die Beschwerden hörten auf – und heute sind Spiegel in Aufzugslobbys ganz normal.

Statt mit Tricks wie visuellem Feedback das Nutzererlebnis zu verbessern, hat OpenAI die Erfahrung an der Wurzel optimiert. Geschwindigkeit ist zentral für das Nutzererlebnis – und nichts ist so befriedigend wie eine effiziente Interaktion.

Ersparnisse für alle

Mit diesem neuen KI-Modell sind Anwendungen plötzlich deutlich günstiger geworden.

Der Betrieb eines KI-Chatbots im großen Maßstab kann teuer werden. Das verwendete LLM bestimmt, wie viel Sie pro Nutzerinteraktion zahlen (zumindest bei Botpress, wo die KI-Kosten 1:1 mit den LLM-Kosten übereinstimmen).

Und diese Einsparungen gelten nicht nur für Entwickler, die die API nutzen. ChatGPT-4o ist die neueste kostenlose Version des LLM, neben GPT-3.5. Kostenlose Nutzer können die ChatGPT-App ohne Gebühren verwenden.

Bessere Tokenisierung

Wenn Sie das Modell in einer Sprache nutzen, die nicht das lateinische Alphabet verwendet, senkt GPT-4o Ihre API-Kosten noch weiter.

A visualization of how much more efficient tokenization is with GPT-4o compared to Turbo. Indo-Aryan languages like Hindi and Gujarati have a 2.9-4.4 average tokenization reduction. Arabic has a 2x reduction and East Asian languages like Japanese, Korean, and Chinese have a 1.4-1.x reduction. — *Wie viel effizienter ist die Tokenisierung von GPT-4o? Das hängt von der Sprache ab.*

Das neue Modell bringt verbesserte Nutzungslimits mit sich. Es bietet einen deutlichen Sprung in der Tokenisierungs-Effizienz, insbesondere für bestimmte nicht-englische Sprachen.

Das neue Tokenisierungsmodell benötigt weniger Tokens, um Eingabetexte zu verarbeiten. Es ist besonders effizient für logografische Sprachen (also Sprachen, die Zeichen und Symbole statt einzelner Buchstaben verwenden).

Diese Vorteile konzentrieren sich vor allem auf Sprachen, die nicht das lateinische Alphabet nutzen. Die Einsparungen werden wie folgt geschätzt:

Indische Sprachen wie Hindi, Tamil oder Gujarati benötigen 2,9–4,4-mal weniger Tokens
Arabisch benötigt etwa 2-mal weniger Tokens
Ostasiatische Sprachen wie Chinesisch, Japanisch und Vietnamesisch benötigen 1,4–1,7-mal weniger Tokens

KI-Agenten bereitstellen?

Lesen Sie unseren Leitfaden zur Implementierung von KI-Agenten

Jetzt lesen

Die digitale KI-Kluft schließen

Das digitale Zeitalter hat die altbekannte, gut dokumentierte Wohlstandslücke um eine neue Dimension erweitert – die digitale Kluft. So wie Zugang zu Wohlstand und guter Infrastruktur nur bestimmten Bevölkerungsgruppen vorbehalten ist, gilt das auch für den Zugang zu KI und den damit verbundenen Chancen und Vorteilen.

Robert Opp, Chief Digital Officer beim Entwicklungsprogramm der Vereinten Nationen (UNDP), erklärte, dass das Vorhandensein von KI-Plattformen die Entwicklung eines ganzen Landes maßgeblich beeinflussen kann:

„Eine große Sorge, die wir haben, ist, dass Länder, die besser ausgestattet und versiert im Umgang mit KI-Plattformen sind – sowohl in der Entwicklung als auch in der Nutzung – einen viel schnelleren Entwicklungsprozess haben werden, während Länder ohne diese Fähigkeiten und Kapazitäten zurückbleiben.“

A brightly-decorated stage with four individuals in white armchairs. Opp sits on the far right and speaks into a microphone. — *Robert Opp, Chief Digital Officer beim UNDP, spricht auf dem Global Digital Public Infrastructure Summit in Indien (2024). Foto von* *UNDP Digital X*.

Indem OpenAI die Kosten für GPT-4o halbiert und eine kostenlose Version einführt, geht das Unternehmen einen entscheidenden Schritt, um eines der größten Probleme der KI anzugehen – und spricht damit die Ungleichheit an, die Politik und Wirtschaft beschäftigt.

Ein positiver PR-Schritt für große KI-Unternehmen ist notwendiger, als viele Enthusiasten denken. Da KI immer präsenter in unserem Alltag wird, fragen sich Befürworter und Skeptiker gleichermaßen, wie wir KI zum Wohle aller nutzen können.

White lettering on an indigo background. A quote from AI educator Louis Bouchard reads “Making AI accessible is one way, if not the best, to use AI ‘for good.’”

Laut KI-Promoviertem und Dozenten Louis Bouchard erreichen wir genau das, indem wir KI breiter zugänglich machen: „KI zugänglich zu machen, ist eine Möglichkeit – wenn nicht die beste –, KI zum Guten einzusetzen.“ Seine Begründung: Wenn wir die positiven und negativen Auswirkungen von KI-Technologie – zumindest in der Anfangszeit – nicht vollständig kontrollieren können, sollten wir zumindest für einen gleichberechtigten Zugang zu ihren Vorteilen sorgen.

Erweiterte multimodale Möglichkeiten

Der übliche Weg, mit dem Chatbot eines Unternehmens zu interagieren, ist Text – aber die verbesserten multimodalen Fähigkeiten des neuen KI-Modells von OpenAI deuten darauf hin, dass sich das künftig ändern könnte.

Im kommenden Jahr werden wir wahrscheinlich eine Welle von Entwicklern sehen, die neue Anwendungen veröffentlichen, die die jetzt zugänglichen Audio-, Bild- und Videofunktionen optimal nutzen.

Zum Beispiel könnten GPT-basierte Chatbots künftig Folgendes tun:

Kunden bitten, ein Foto des zurückgesendeten Artikels zu schicken, um das Produkt zu identifizieren und sicherzustellen, dass es unbeschädigt ist
In Echtzeit Audioübersetzungen liefern, die regionale Dialekte berücksichtigen
Anhand eines Fotos in der Pfanne erkennen, ob Ihr Steak durch ist
Als kostenloser persönlicher Reiseführer dienen, indem sie auf Basis eines Fotos einer alten Kathedrale historischen Kontext liefern, in Echtzeit übersetzen und eine individuelle Audioführung mit Rückfragen ermöglichen
Eine Sprachlern-App unterstützen, die Audioeingaben analysiert, Feedback zur Aussprache anhand eines Videos Ihrer Mundbewegungen gibt oder Gebärdensprache mit Bildern und Videos vermittelt
Niedrigschwellige Unterstützung für das psychische Wohlbefinden bieten, indem sie Audio- und Videoinhalte interpretieren und so kostengünstige Gesprächstherapie ermöglichen

Mit KI-Modellen, die Bilder und Audios interpretieren können, erweitert sich unser Verständnis, wie LLMs uns unterstützen können, rasant.

Multimodalität bedeutet Barrierefreiheit

Die verbesserten multimodalen Funktionen wurden bereits für gesellschaftlichen Nutzen eingesetzt. Ein perfektes Beispiel ist OpenAIs Partnerschaft mit Be My Eyes.

Be My Eyes ist ein dänisches Start-up, das sehbehinderte Nutzer mit sehenden Freiwilligen verbindet. Wenn ein Nutzer Hilfe braucht – etwa beim Auswählen der richtigen Konservendose im Supermarkt oder beim Erkennen der Farbe eines T-Shirts – verbindet die App ihn per Video über das Smartphone mit einem Freiwilligen irgendwo auf der Welt.

A bright blue announcement for 'Be My AI' that reads 'Rolling out out'. On the right side is an image of a smartphone showing a deserted seaside pathway with an AI-generated description of the picture. — *Die Partnerschafts- und Produktankündigung für Be My Eyes x OpenAI.*

Die neue Bildverarbeitungsfunktion von OpenAI kann Be My Eyes-Nutzern ein noch hilfreicheres Erlebnis bieten. Anstatt auf einen menschlichen Freiwilligen angewiesen zu sein, der ein Bild oder Video in Echtzeit beschreibt, können blinde Nutzer ein Bild oder Video an ihr Gerät senden, das das Modell dann mit Audioinformationen beantwortet.

OpenAI und Be My Eyes, inzwischen vertrauenswürdige Partner, ebnen weltweit den Weg zu mehr Unabhängigkeit für Menschen mit Sehbehinderung. Be My Eyes-CEO Michael Buckley erklärt die Auswirkungen:

„In der kurzen Zeit, in der wir Zugriff haben, haben wir eine beispiellose Leistung im Vergleich zu allen anderen Bild-zu-Text-Erkennungstools gesehen. Die Auswirkungen auf die globale Barrierefreiheit sind enorm. In naher Zukunft wird die Community der Blinden und Sehbehinderten diese Tools nicht nur für verschiedenste visuelle Interpretationsaufgaben nutzen, sondern auch für mehr Unabhängigkeit im Alltag.“

Three images of smartphones using Be My Eyes. One focuses on an array of patterned neckties, one features a user holding a bottle of sunscreen to the camera, and one holds the camera to show small, colorful houses. — *Be My Eyes verbindet sehbehinderte Nutzer mit sehenden Freiwilligen, um visuelle Aufgaben zu erledigen. Fotos von Be My Eyes.*

Be My Eyes Barrierefreiheit mit GPT-4o

Der neue Service wird erstmals im Sommer 2024 eingeführt. Erste Nutzer testen die neuen Funktionen für Bild, Video und Audio bereits in einer Beta-Version und sind begeistert. Auch wenn KI-Skeptiker Bedenken haben, zeigt diese Partnerschaft klar die positiven Auswirkungen. Das Verständnis für den gesellschaftlichen Nutzen fortschrittlicher KI ist ein wichtiger Schritt für deren Öffentlichkeitsarbeit.

Wie werden wir zukünftige LLM-Modelle bewerten?

Da die Konkurrenz weiter darum kämpft, das günstigste und schnellste LLM zu entwickeln, stellt sich die Frage: Nach welchen Kriterien werden wir die KI-Modelle von morgen beurteilen?

Irgendwann werden die großen LLM-Entwickler (vermutlich OpenAI und Google) ein Plateau erreichen, was Geschwindigkeit und Kosten betrifft. Wenn Kosten und Geschwindigkeit stabil sind, wie bestimmen wir dann das führende Modell am Markt?

Was wird dann zum neuen Maßstab? Ob es die verfügbaren Persönlichkeiten Ihres KI-Modells sind, die Video-Verbesserungsfunktionen, die Features für Gratisnutzer oder ganz neue Kennzahlen, die wir heute noch nicht kennen – die nächste Generation von LLMs steht vor der Tür.

KI-Chatbots leicht gemacht

Was wäre, wenn Ihr KI-Chatbot automatisch mit jedem GPT-Update synchronisiert wird?

Botpress bietet seit 2017 anpassbare KI-Chatbot-Lösungen und stellt Entwicklern die nötigen Werkzeuge bereit, um Chatbots mit der Power der neuesten LLMs einfach zu erstellen. Botpress-Chatbots können mit individuellen Wissensquellen – wie Ihrer Website oder Ihrem Produktkatalog – trainiert und nahtlos in Geschäftssysteme integriert werden.

Als einzige Plattform, die von der Einrichtung ohne Code bis hin zu unbegrenzter Anpassbarkeit und Erweiterbarkeit reicht, ermöglicht Botpress, dass Ihr Chatbot automatisch von der neuesten GPT-Version profitiert – ganz ohne zusätzlichen Aufwand.

Jetzt starten. Kostenlos.

KI-Chatbots erstellen

Individuelle agentenbasierte Chatbots entwickeln

Jetzt starten

FAQs

1. Wie stelle ich meinen bestehenden Chatbot in Botpress auf GPT-4o um?

Um Ihren bestehenden Chatbot in Botpress auf GPT-4o umzustellen, gehen Sie in das Botpress Studio, öffnen Sie die LLM-Einstellungen Ihres Assistenten und wählen Sie GPT-4o im Dropdown-Menü aus. Die Änderung wird sofort übernommen, ohne dass Code-Anpassungen nötig sind.

2. Gibt es Voraussetzungen für die Nutzung von GPT-4o innerhalb der Botpress-Plattform (z. B. SDKs, API-Versionen)?

Nein, es gibt keine Voraussetzungen für die Nutzung von GPT-4o in Botpress. Die Plattform verwaltet alle SDKs, API-Updates und Backend-Abhängigkeiten automatisch – Sie müssen GPT-4o nur in den Einstellungen auswählen, um es zu aktivieren.

3. Kann GPT-4o über Botpress für bestimmte geschäftliche Anwendungsfälle feinabgestimmt oder angepasst werden?

GPT-4o kann in Botpress zwar nicht im klassischen Sinne feinjustiert werden, aber Sie können die Antworten und das Verhalten mit Prompt Engineering, Workflows, Wissensdatenbanken und Variablen anpassen. So kann GPT-4o kontextbezogen auf Ihre Geschäftsanforderungen reagieren, ohne dass das Modell neu trainiert werden muss.

4. Gibt es Einschränkungen bei der Nutzung multimodaler Funktionen (Sprache, Bild) in Botpress-Workflows?

Ja, Botpress unterstützt derzeit Sprachfunktionen über Integrationen wie Twilio oder Dialogflow Voice Gateway, aber multimodale Funktionen wie die Verarbeitung von Bildern oder Videos werden noch nicht vollständig unterstützt. Bildbasierte Eingaben sind noch in Prüfung oder erfordern Umwege.

5. Gibt es versteckte Kosten bei der Nutzung fortschrittlicher GPT-4o-Funktionen wie Echtzeitübersetzung oder Bildeingabe?

Nein, es gibt keine versteckten Kosten für die Nutzung der fortschrittlichen GPT-4o-Funktionen in Botpress. Die Vorteile von GPT-4o in Bezug auf Geschwindigkeit und Effizienz sind in Ihrem bestehenden Botpress-Plan enthalten, und die LLM-Kosten werden von Botpress übernommen – für die Nutzung der GPT-4o-Verbesserungen fallen also keine zusätzlichen Gebühren an.