- GPT-4o ist doppelt so schnell und kostet nur die Hälfte von GPT-4 Turbo. Dadurch sinken die Preise und die Antwortzeiten von KI-Chatbots werden deutlich kürzer.
- Das neue Modell ermöglicht fortschrittliche multimodale Funktionen – darunter Sprache, Video, Echtzeitübersetzung und Bilderkennung – und eröffnet so innovative Einsatzmöglichkeiten für Chatbots jenseits von Text.
- Effizienzgewinne bei der Tokenisierung, insbesondere für Sprachen mit nicht-lateinischen Alphabeten, bedeuten erhebliche Kosteneinsparungen für globale Chatbot-Einsätze.
- Die Geschwindigkeitsverbesserungen wirken sich direkt auf das Nutzererlebnis aus, da sie Wartezeiten reduzieren, die Nutzer von Chatbots traditionell frustrieren.
Doppelte Geschwindigkeit und halber Preis – was bedeutet GPT-4o für KI-Chatbots?
Nach einer geheimnisvollen Ankündigung hat OpenAI die neueste Version ihres Flaggschiff-Modells veröffentlicht: GPT-4o.
Das neue Modell hat nicht nur ein Upgrade bei den multimodalen Fähigkeiten erhalten. Es ist schneller und günstiger als GPT-4 Turbo. Während sich die Berichterstattung der Mainstream-Medien vor allem auf die neuen Video- und Sprachfunktionen für ChatGPT konzentriert, sind die niedrigeren Kosten und die höhere Geschwindigkeit für alle, die GPT in ihren Anwendungen nutzen, mindestens genauso relevant.

„Die Verfügbarkeit von 4o hat das Potenzial, sowohl das Erlebnis für Entwickler als auch für Nutzer deutlich zu verbessern“, sagt Patrick Hamelin, leitender Softwareentwickler bei Botpress. „Die Auswirkungen sind größer, als wir denken.“
Schauen wir uns also an, wie das neue Modell die Welt der KI-Chatbots verändern wird.
Modell-Fähigkeiten
Das neue Flaggschiff-Modell bringt eine spannende Liste an Neuerungen und Funktionen mit: verbesserte Sprach- und Videofunktionen, Echtzeitübersetzung, natürlichere Sprachverarbeitung. Es kann Bilder analysieren, eine größere Vielfalt an Audioeingaben verstehen, beim Zusammenfassen unterstützen, Echtzeitübersetzungen ermöglichen und Diagramme erstellen. Nutzer können Dateien hochladen und Sprachgespräche führen. Es gibt sogar eine Desktop-App.
In einer Reihe von Einführungsvideos zeigen OpenAI-Mitarbeiter (und Partner wie Sal Khan von Khan Academy), wie die neueste Version von GPT einen Nutzer auf ein Vorstellungsgespräch vorbereitet, singt, menschliche Emotionen anhand von Gesichtsausdrücken erkennt, schriftliche Matheaufgaben löst und sogar mit einem anderen ChatGPT-4o interagiert.
Die Vorstellung zeigte eine neue Realität, in der ein KI-Modell die Handschrift im Notizbuch Ihres Kindes analysieren und darauf reagieren kann. Es könnte das Konzept des Bruchrechnens erstmals erklären und Tonfall sowie Vorgehen an das Verständnis Ihres Kindes anpassen – und damit die Grenze vom Chatbot zum persönlichen Tutor überschreiten.

Was bedeutet GPT-4o für LLM-Chatbots?
KI-Chatbots, die auf LLMs basieren, erhalten jedes Mal ein Update, wenn Unternehmen wie OpenAI ihre Modelle aktualisieren. Wenn ein LLM-Agent mit einer Bot-Building-Plattform wie Botpress verbunden ist, profitieren die eigenen Chatbots direkt von den neuesten GPT-Verbesserungen.
Mit der Einführung von GPT-4o können KI-Chatbots nun auf das fortschrittliche Modell umsteigen, was ihre Fähigkeiten, Kosten und Geschwindigkeit verändert. Das neue Modell bietet 5-mal höhere Nutzungslimits als GPT-4 Turbo und kann bis zu 10 Millionen Tokens pro Minute verarbeiten.
Für Bots, die Audio-Integrationen wie Twilio auf Botpress nutzen, eröffnen sich neue Möglichkeiten für sprachgesteuerte Interaktionen. Chatbots kommen damit der menschlichen Kommunikation einen Schritt näher.
Am wichtigsten ist vielleicht der niedrigere Preis für zahlende Nutzer. Einen ähnlich leistungsfähigen Chatbot für die Hälfte der Kosten zu betreiben, kann den Zugang und die Erschwinglichkeit weltweit drastisch erhöhen. Und Botpress-Nutzer zahlen keine zusätzlichen KI-Gebühren für ihre Bots – diese Einsparungen kommen also direkt den Erstellern zugute.
Und auch für die Nutzerseite bedeutet GPT-4o ein deutlich besseres Erlebnis. Niemand wartet gern. Kürzere Antwortzeiten sorgen für mehr Zufriedenheit bei den Nutzern von KI-Chatbots.

Nutzer lieben Geschwindigkeit
Ein zentrales Ziel bei der Einführung von Chatbots ist die Verbesserung des Nutzererlebnisses. Und was verbessert das Nutzererlebnis mehr als kürzere Wartezeiten?
„Es wird auf jeden Fall ein besseres Erlebnis“, sagt Hamelin. „Das Letzte, was man will, ist, auf jemanden warten zu müssen.“
Menschen hassen es zu warten. Schon 2003 zeigte eine Studie, dass Menschen nur bereit waren, etwa 2 Sekunden auf das Laden einer Webseite zu warten. Unsere Geduld ist seitdem sicher nicht größer geworden.
Und niemand wartet gern
Es gibt zahlreiche UX-Tipps, um die wahrgenommene Wartezeit zu verkürzen. Oft können wir die Geschwindigkeit nicht wirklich verbessern, also versuchen wir, das Gefühl zu vermitteln, dass die Zeit schneller vergeht. Visuelles Feedback, wie ein Ladebalken, soll die gefühlte Wartezeit verkürzen.
In einer bekannten Geschichte über Aufzugwartezeiten erhielt ein altes New Yorker Gebäude zahlreiche Beschwerden. Die Bewohner mussten 1–2 Minuten auf den Aufzug warten. Da der Aufzug nicht modernisiert werden konnte, drohten die Bewohner mit Kündigung ihrer Mietverträge.
Ein neuer Mitarbeiter mit psychologischem Hintergrund erkannte, dass das eigentliche Problem nicht die verlorene Zeit war, sondern Langeweile. Er schlug vor, Spiegel zu installieren, damit die Bewohner sich oder andere während des Wartens betrachten konnten. Die Beschwerden hörten auf – und heute sind Spiegel in Aufzugslobbys ganz normal.
Statt mit Tricks wie visuellem Feedback das Nutzererlebnis zu verbessern, hat OpenAI die Erfahrung an der Wurzel optimiert. Geschwindigkeit ist zentral für das Nutzererlebnis – und nichts ist so befriedigend wie eine effiziente Interaktion.
Ersparnisse für alle
Mit diesem neuen KI-Modell sind Anwendungen plötzlich deutlich günstiger geworden.
Der Betrieb eines KI-Chatbots im großen Maßstab kann teuer werden. Das verwendete LLM bestimmt, wie viel Sie pro Nutzerinteraktion zahlen (zumindest bei Botpress, wo die KI-Kosten 1:1 mit den LLM-Kosten übereinstimmen).
Und diese Einsparungen gelten nicht nur für Entwickler, die die API nutzen. ChatGPT-4o ist die neueste kostenlose Version des LLM, neben GPT-3.5. Kostenlose Nutzer können die ChatGPT-App ohne Gebühren verwenden.
Bessere Tokenisierung
Wenn Sie das Modell in einer Sprache nutzen, die nicht das lateinische Alphabet verwendet, senkt GPT-4o Ihre API-Kosten noch weiter.

Das neue Modell bringt verbesserte Nutzungslimits mit sich. Es bietet einen deutlichen Sprung in der Tokenisierungs-Effizienz, insbesondere für bestimmte nicht-englische Sprachen.
Das neue Tokenisierungsmodell benötigt weniger Tokens, um Eingabetexte zu verarbeiten. Es ist besonders effizient für logografische Sprachen (also Sprachen, die Zeichen und Symbole statt einzelner Buchstaben verwenden).
Diese Vorteile konzentrieren sich vor allem auf Sprachen, die nicht das lateinische Alphabet nutzen. Die Einsparungen werden wie folgt geschätzt:
- Indische Sprachen wie Hindi, Tamil oder Gujarati benötigen 2,9–4,4-mal weniger Tokens
- Arabisch benötigt etwa 2-mal weniger Tokens
- Ostasiatische Sprachen wie Chinesisch, Japanisch und Vietnamesisch benötigen 1,4–1,7-mal weniger Tokens
Die digitale KI-Kluft schließen
Das digitale Zeitalter hat die altbekannte, gut dokumentierte Wohlstandslücke um eine neue Dimension erweitert – die digitale Kluft. So wie Zugang zu Wohlstand und guter Infrastruktur nur bestimmten Bevölkerungsgruppen vorbehalten ist, gilt das auch für den Zugang zu KI und den damit verbundenen Chancen und Vorteilen.
Robert Opp, Chief Digital Officer beim Entwicklungsprogramm der Vereinten Nationen (UNDP), erklärte, dass das Vorhandensein von KI-Plattformen die Entwicklung eines ganzen Landes maßgeblich beeinflussen kann:

Indem OpenAI die Kosten für GPT-4o halbiert und eine kostenlose Version einführt, geht das Unternehmen einen entscheidenden Schritt, um eines der größten Probleme der KI anzugehen – und spricht damit die Ungleichheit an, die Politik und Wirtschaft beschäftigt.
Ein positiver PR-Schritt für große KI-Unternehmen ist notwendiger, als viele Enthusiasten denken. Da KI immer präsenter in unserem Alltag wird, fragen sich Befürworter und Skeptiker gleichermaßen, wie wir KI zum Wohle aller nutzen können.

Laut KI-Promoviertem und Dozenten Louis Bouchard erreichen wir genau das, indem wir KI breiter zugänglich machen: „KI zugänglich zu machen, ist eine Möglichkeit – wenn nicht die beste –, KI zum Guten einzusetzen.“ Seine Begründung: Wenn wir die positiven und negativen Auswirkungen von KI-Technologie – zumindest in der Anfangszeit – nicht vollständig kontrollieren können, sollten wir zumindest für einen gleichberechtigten Zugang zu ihren Vorteilen sorgen.
Erweiterte multimodale Möglichkeiten
Der übliche Weg, mit dem Chatbot eines Unternehmens zu interagieren, ist Text – aber die verbesserten multimodalen Fähigkeiten des neuen KI-Modells von OpenAI deuten darauf hin, dass sich das künftig ändern könnte.
Im kommenden Jahr werden wir wahrscheinlich eine Welle von Entwicklern sehen, die neue Anwendungen veröffentlichen, die die jetzt zugänglichen Audio-, Bild- und Videofunktionen optimal nutzen.
Zum Beispiel könnten GPT-basierte Chatbots künftig Folgendes tun:
- Kunden bitten, ein Foto des zurückgesendeten Artikels zu schicken, um das Produkt zu identifizieren und sicherzustellen, dass es unbeschädigt ist
- In Echtzeit Audioübersetzungen liefern, die regionale Dialekte berücksichtigen
- Anhand eines Fotos in der Pfanne erkennen, ob Ihr Steak durch ist
- Als kostenloser persönlicher Reiseführer dienen, indem sie auf Basis eines Fotos einer alten Kathedrale historischen Kontext liefern, in Echtzeit übersetzen und eine individuelle Audioführung mit Rückfragen ermöglichen
- Eine Sprachlern-App unterstützen, die Audioeingaben analysiert, Feedback zur Aussprache anhand eines Videos Ihrer Mundbewegungen gibt oder Gebärdensprache mit Bildern und Videos vermittelt
- Niedrigschwellige Unterstützung für das psychische Wohlbefinden bieten, indem sie Audio- und Videoinhalte interpretieren und so kostengünstige Gesprächstherapie ermöglichen
Mit KI-Modellen, die Bilder und Audios interpretieren können, erweitert sich unser Verständnis, wie LLMs uns unterstützen können, rasant.
Multimodalität bedeutet Barrierefreiheit
Die verbesserten multimodalen Funktionen wurden bereits für gesellschaftlichen Nutzen eingesetzt. Ein perfektes Beispiel ist OpenAIs Partnerschaft mit Be My Eyes.
Be My Eyes ist ein dänisches Start-up, das sehbehinderte Nutzer mit sehenden Freiwilligen verbindet. Wenn ein Nutzer Hilfe braucht – etwa beim Auswählen der richtigen Konservendose im Supermarkt oder beim Erkennen der Farbe eines T-Shirts – verbindet die App ihn per Video über das Smartphone mit einem Freiwilligen irgendwo auf der Welt.

Die neue Bildverarbeitungsfunktion von OpenAI kann Be My Eyes-Nutzern ein noch hilfreicheres Erlebnis bieten. Anstatt auf einen menschlichen Freiwilligen angewiesen zu sein, der ein Bild oder Video in Echtzeit beschreibt, können blinde Nutzer ein Bild oder Video an ihr Gerät senden, das das Modell dann mit Audioinformationen beantwortet.
OpenAI und Be My Eyes, inzwischen vertrauenswürdige Partner, ebnen weltweit den Weg zu mehr Unabhängigkeit für Menschen mit Sehbehinderung. Be My Eyes-CEO Michael Buckley erklärt die Auswirkungen:

Der neue Service wird erstmals im Sommer 2024 eingeführt. Erste Nutzer testen die neuen Funktionen für Bild, Video und Audio bereits in einer Beta-Version und sind begeistert. Auch wenn KI-Skeptiker Bedenken haben, zeigt diese Partnerschaft klar die positiven Auswirkungen. Das Verständnis für den gesellschaftlichen Nutzen fortschrittlicher KI ist ein wichtiger Schritt für deren Öffentlichkeitsarbeit.
Wie werden wir zukünftige LLM-Modelle bewerten?
Da die Konkurrenz weiter darum kämpft, das günstigste und schnellste LLM zu entwickeln, stellt sich die Frage: Nach welchen Kriterien werden wir die KI-Modelle von morgen beurteilen?
Irgendwann werden die großen LLM-Entwickler (vermutlich OpenAI und Google) ein Plateau erreichen, was Geschwindigkeit und Kosten betrifft. Wenn Kosten und Geschwindigkeit stabil sind, wie bestimmen wir dann das führende Modell am Markt?
Was wird dann zum neuen Maßstab? Ob es die verfügbaren Persönlichkeiten Ihres KI-Modells sind, die Video-Verbesserungsfunktionen, die Features für Gratisnutzer oder ganz neue Kennzahlen, die wir heute noch nicht kennen – die nächste Generation von LLMs steht vor der Tür.
KI-Chatbots leicht gemacht
Was wäre, wenn Ihr KI-Chatbot automatisch mit jedem GPT-Update synchronisiert wird?
Botpress bietet seit 2017 anpassbare KI-Chatbot-Lösungen und stellt Entwicklern die nötigen Werkzeuge bereit, um Chatbots mit der Power der neuesten LLMs einfach zu erstellen. Botpress-Chatbots können mit individuellen Wissensquellen – wie Ihrer Website oder Ihrem Produktkatalog – trainiert und nahtlos in Geschäftssysteme integriert werden.
Als einzige Plattform, die von der Einrichtung ohne Code bis hin zu unbegrenzter Anpassbarkeit und Erweiterbarkeit reicht, ermöglicht Botpress, dass Ihr Chatbot automatisch von der neuesten GPT-Version profitiert – ganz ohne zusätzlichen Aufwand.
Jetzt starten. Kostenlos.
FAQs
1. Wie stelle ich meinen bestehenden Chatbot in Botpress auf GPT-4o um?
Um Ihren bestehenden Chatbot in Botpress auf GPT-4o umzustellen, gehen Sie in das Botpress Studio, öffnen Sie die LLM-Einstellungen Ihres Assistenten und wählen Sie GPT-4o im Dropdown-Menü aus. Die Änderung wird sofort übernommen, ohne dass Code-Anpassungen nötig sind.
2. Gibt es Voraussetzungen für die Nutzung von GPT-4o innerhalb der Botpress-Plattform (z. B. SDKs, API-Versionen)?
Nein, es gibt keine Voraussetzungen für die Nutzung von GPT-4o in Botpress. Die Plattform verwaltet alle SDKs, API-Updates und Backend-Abhängigkeiten automatisch – Sie müssen GPT-4o nur in den Einstellungen auswählen, um es zu aktivieren.
3. Kann GPT-4o über Botpress für bestimmte geschäftliche Anwendungsfälle feinabgestimmt oder angepasst werden?
GPT-4o kann in Botpress zwar nicht im klassischen Sinne feinjustiert werden, aber Sie können die Antworten und das Verhalten mit Prompt Engineering, Workflows, Wissensdatenbanken und Variablen anpassen. So kann GPT-4o kontextbezogen auf Ihre Geschäftsanforderungen reagieren, ohne dass das Modell neu trainiert werden muss.
4. Gibt es Einschränkungen bei der Nutzung multimodaler Funktionen (Sprache, Bild) in Botpress-Workflows?
Ja, Botpress unterstützt derzeit Sprachfunktionen über Integrationen wie Twilio oder Dialogflow Voice Gateway, aber multimodale Funktionen wie die Verarbeitung von Bildern oder Videos werden noch nicht vollständig unterstützt. Bildbasierte Eingaben sind noch in Prüfung oder erfordern Umwege.
5. Gibt es versteckte Kosten bei der Nutzung fortschrittlicher GPT-4o-Funktionen wie Echtzeitübersetzung oder Bildeingabe?
Nein, es gibt keine versteckten Kosten für die Nutzung der fortschrittlichen GPT-4o-Funktionen in Botpress. Die Vorteile von GPT-4o in Bezug auf Geschwindigkeit und Effizienz sind in Ihrem bestehenden Botpress-Plan enthalten, und die LLM-Kosten werden von Botpress übernommen – für die Nutzung der GPT-4o-Verbesserungen fallen also keine zusätzlichen Gebühren an.





.webp)
