- GPT-4o jest dwa razy szybszy i kosztuje połowę tego, co GPT-4 Turbo, znacząco obniżając cenę i przyspieszając czas odpowiedzi chatbotów AI.
- Nowy model umożliwia zaawansowane funkcje multimodalne – w tym obsługę głosu, wideo, tłumaczenia w czasie rzeczywistym i rozpoznawania obrazu – co otwiera nowe, innowacyjne zastosowania chatbotów wykraczające poza tekst.
- Zwiększona wydajność tokenizacji, zwłaszcza dla języków nieopartych na alfabecie łacińskim, oznacza znaczące oszczędności kosztów przy wdrażaniu chatbotów na całym świecie.
- Poprawa szybkości bezpośrednio wpływa na doświadczenie użytkownika, skracając czas oczekiwania, który tradycyjnie frustrował użytkowników chatbotów.
Dwa razy szybciej i za połowę ceny – co oznacza GPT-4o dla chatbotów AI?
Po tajemniczej zapowiedzi OpenAI wprowadziło najnowszą wersję swojego flagowego modelu: GPT-4o.
Najnowszy model nie tylko zyskał efektowne możliwości multimodalne. Jest szybszy i tańszy niż GPT-4 Turbo. Choć media skupiają się na możliwościach wideo i głosowych nowego flagowego modelu w ChatGPT, to właśnie nowa cena i szybkość są równie istotne dla tych, którzy wykorzystują GPT do zasilania swoich aplikacji.

„Dostępność 4o może znacząco poprawić zarówno doświadczenie twórców, jak i użytkowników” – powiedział Patrick Hamelin, lider zespołu inżynierów w Botpress. „Skala wpływu jest większa, niż nam się wydaje.”
Przyjrzyjmy się więc, jak nowy model wpłynie na chatboty AI.
Możliwości modelu
Nowy flagowy model oferuje szereg ekscytujących aktualizacji i funkcji: ulepszone możliwości głosowe i wideo, tłumaczenie w czasie rzeczywistym, bardziej naturalne przetwarzanie języka. Potrafi analizować obrazy, rozumieć różnorodne dane audio, pomagać w podsumowaniach, ułatwiać tłumaczenie na żywo i tworzyć wykresy. Użytkownicy mogą przesyłać pliki i prowadzić rozmowy głosowe. Dostępna jest nawet aplikacja desktopowa.
W serii filmów prezentujących premierę pracownicy OpenAI (oraz współpracownicy, jak Sal Khan z Khan Academy) pokazują, jak najnowsza wersja GPT przygotowuje użytkownika do rozmowy kwalifikacyjnej, śpiewa, rozpoznaje emocje na podstawie mimiki, rozwiązuje zadania matematyczne i nawet wchodzi w interakcje z innym ChatGPT-4o.
Premiera pokazała nową rzeczywistość, w której model AI potrafi analizować notatki Twojego dziecka i odpowiadać na ich treść. Może wyjaśnić pojęcie dodawania ułamków po raz pierwszy, zmieniając ton i sposób tłumaczenia w zależności od poziomu zrozumienia dziecka – przekraczając granicę między chatbotem a osobistym korepetytorem.

Co oznacza GPT-4o dla chatbotów LLM?
Chatboty AI oparte na LLM zyskują aktualizację za każdym razem, gdy firmy takie jak OpenAI wprowadzają nowe modele. Jeśli agent LLM jest połączony z platformą do budowy botów, taką jak Botpress, otrzymuje wszystkie korzyści najnowszego modelu GPT w swoim własnym chatbocie.
Dzięki premierze GPT-4o chatboty AI mogą teraz korzystać z zaawansowanego modelu, zmieniając swoje możliwości, cenę i szybkość działania. Nowy model oferuje 5 razy wyższe limity niż GPT-4 Turbo, z możliwością przetwarzania do 10 milionów tokenów na minutę.
Dla botów korzystających z integracji audio, takich jak Twilio na Botpress, otwiera się nowy świat interakcji głosowych. Zamiast ograniczać się do przetwarzania dźwięku sprzed lat, chatboty są o krok bliżej do naśladowania ludzkiej rozmowy.
Być może najważniejsze są niższe koszty dla użytkowników płatnych. Utrzymanie chatbota o podobnych możliwościach za połowę ceny może znacząco zwiększyć dostępność i przystępność na całym świecie. Użytkownicy Botpress nie ponoszą dodatkowych kosztów AI za swoje boty – więc te oszczędności trafiają bezpośrednio do twórców.
A po stronie użytkownika GPT-4o oznacza znacznie lepsze doświadczenie. Nikt nie lubi czekać. Krótszy czas odpowiedzi to większa satysfakcja użytkowników chatbotów AI.

Użytkownicy kochają szybkość
Kluczowym elementem popularyzacji chatbotów jest poprawa doświadczenia użytkownika. A co poprawia je bardziej niż skrócenie czasu oczekiwania?
„To na pewno będzie lepsze doświadczenie” – mówi Hamelin. „Ostatnią rzeczą, jakiej chcesz, to czekać na kogoś.”
Ludzie nie znoszą czekać. Już w 2003 roku badanie wykazało, że użytkownicy byli skłonni czekać na załadowanie strony internetowej tylko około 2 sekundy. Nasza cierpliwość od tamtej pory raczej się nie zwiększyła.
I wszyscy nie znoszą czekać
Istnieje mnóstwo porad UX, jak skrócić odczuwalny czas oczekiwania. Często nie możemy przyspieszyć działania systemu, więc skupiamy się na tym, by użytkownik miał wrażenie, że czas mija szybciej. Wizualne sygnały, jak pasek ładowania, mają skrócić odczuwalny czas oczekiwania.
W słynnej historii o czasie oczekiwania na windę w starym nowojorskim budynku pojawiła się fala skarg. Mieszkańcy musieli czekać 1-2 minuty na windę. Budynek nie mógł pozwolić sobie na wymianę windy na nowszy model, a mieszkańcy grozili zerwaniem umów najmu.
Nowy pracownik, z wykształceniem psychologicznym, zorientował się, że prawdziwym problemem nie były dwie minuty straconego czasu – lecz nuda. Zaproponował zamontowanie luster, by mieszkańcy mogli patrzeć na siebie lub innych podczas oczekiwania. Skargi na windę ustały, a dziś lustra w lobby wind są już standardem.
Zamiast stosować sztuczki poprawiające doświadczenie użytkownika – jak wizualne sygnały – OpenAI poprawiło doświadczenie u źródła. Szybkość jest kluczowa dla satysfakcji użytkownika i żadna sztuczka nie zastąpi sprawnej interakcji.
Oszczędności dla wszystkich
Korzystanie z tego nowego modelu AI do obsługi aplikacji nagle stało się tańsze. Dużo tańsze.
Utrzymanie chatbota AI na dużą skalę może być kosztowne. Model LLM, na którym działa Twój bot, decyduje o tym, ile zapłacisz za każdą interakcję użytkownika na większą skalę (przynajmniej w Botpress, gdzie koszty AI są równe kosztom LLM).
I te oszczędności nie dotyczą tylko deweloperów korzystających z API. ChatGPT-4o to najnowsza darmowa wersja LLM, obok GPT-3.5. Użytkownicy bezpłatni mogą korzystać z aplikacji ChatGPT bez opłat.
Lepsza tokenizacja
Jeśli korzystasz z modelu w języku, który nie używa alfabetu łacińskiego, GPT-4o jeszcze bardziej obniża koszty API.

Nowy model oferuje ulepszone limity użycia. Zapewnia znaczący skok wydajności tokenizacji, szczególnie w wybranych językach nieangielskich.
Nowy sposób tokenizacji wymaga mniej tokenów do przetworzenia tekstu wejściowego. Jest znacznie wydajniejszy dla języków logograficznych (czyli takich, które używają znaków i symboli zamiast pojedynczych liter).
Te korzyści dotyczą głównie języków, które nie korzystają z alfabetu łacińskiego. Szacowane oszczędności przedstawiają się następująco:
- Języki indyjskie, takie jak hindi, tamilski czy gudżarati, mają 2,9 – 4,4 razy mniej tokenów
- Język arabski – około 2 razy mniej tokenów
- Języki wschodnioazjatyckie, takie jak chiński, japoński i wietnamski – 1,4 – 1,7 razy mniej tokenów
Zamykanie cyfrowej przepaści w AI
Era cyfrowa przyniosła ze sobą rozszerzenie odwiecznej, dobrze udokumentowanej przepaści majątkowej – cyfrową przepaść. Tak jak dostęp do bogactwa i silnej infrastruktury jest zarezerwowany dla wybranych, tak samo jest z dostępem do AI oraz związanych z nią możliwości i korzyści.
Robert Opp, dyrektor ds. cyfrowych w Programie Narodów Zjednoczonych ds. Rozwoju (UNDP), wyjaśnił, że obecność platform AI może przesądzić o wskaźnikach rozwoju całego kraju:

Obniżając koszt GPT-4o o połowę i wprowadzając darmową wersję, OpenAI wykonuje ważny krok w kierunku rozwiązania jednego z największych problemów AI – i bezpośrednio odpowiada na nierówności, które niepokoją decydentów i ekonomistów.
Pozytywny ruch PR-owy dla dużych firm AI jest bardziej potrzebny, niż mogłoby się wydawać entuzjastom. Wraz z coraz większą obecnością AI w naszym codziennym życiu, zarówno zwolennicy, jak i sceptycy pytają, jak możemy wykorzystać AI „dla dobra”.

Według Louisa Boucharda, doktora i edukatora AI, szeroki dostęp do AI to właśnie sposób na osiągnięcie tego celu: „Uczynienie AI dostępną to jeden ze sposobów, jeśli nie najlepszy, by użyć AI ‘dla dobra’.” Jego argument? Jeśli nie jesteśmy w stanie w pełni kontrolować pozytywnych i negatywnych skutków technologii AI – przynajmniej na początku – możemy zadbać o równy dostęp do jej potencjalnych korzyści.
Rozszerzony potencjał multimodalny
Najpopularniejszym sposobem interakcji z chatbotem firmy jest tekst, ale ulepszone możliwości multimodalne nowego modelu AI OpenAI sugerują, że może się to wkrótce zmienić.
W nadchodzącym roku prawdopodobnie zobaczymy falę deweloperów wdrażających nowe aplikacje, które w pełni wykorzystają nowe możliwości audio, wizji i wideo.
Na przykład chatboty oparte na GPT mogą mieć możliwość:
- Poprosić klientów o zdjęcie zwracanego produktu, by zidentyfikować towar i upewnić się, że nie jest uszkodzony
- Zapewnić tłumaczenie audio w czasie rzeczywistym, uwzględniające lokalne dialekty
- Określić, czy stek jest odpowiednio wysmażony na podstawie zdjęcia z patelni
- Pełnić rolę bezpłatnego przewodnika, dostarczając kontekst historyczny na podstawie zdjęcia starej katedry, tłumacząc w czasie rzeczywistym i prowadząc spersonalizowaną wycieczkę głosową z możliwością zadawania pytań.
- Zasilać aplikację do nauki języków, która słucha nagrań audio, udziela informacji zwrotnej na temat wymowy na podstawie nagrania wideo ruchu ust lub uczy języka migowego za pomocą obrazów i wideo.
- Zapewnić wsparcie w zakresie zdrowia psychicznego w mniej pilnych przypadkach, łącząc interpretację dźwięku i obrazu, co umożliwia niedrogą terapię rozmową.
Dzięki modelom AI, które potrafią interpretować obrazy i dźwięk, nasze rozumienie możliwości LLM szybko się poszerza.
Multimodalność to dostępność
Już teraz widzimy, jak ulepszone funkcje multimodalne przynoszą korzyści społeczne. Doskonałym przykładem jest współpraca OpenAI z Be My Eyes.
Be My Eyes to duński start-up, który łączy osoby z dysfunkcją wzroku z widzącymi wolontariuszami. Gdy użytkownik potrzebuje pomocy – na przykład przy wyborze odpowiednich produktów w sklepie czy rozpoznaniu koloru koszulki – aplikacja łączy go przez wideo ze smartfona z wolontariuszem z dowolnego miejsca na świecie.

Nowa funkcja wizji OpenAI może zapewnić użytkownikom Be My Eyes jeszcze większą pomoc. Zamiast polegać na wolontariuszu, który w czasie rzeczywistym opisuje obraz lub wideo, osoby niewidome mogą przesłać zdjęcie lub nagranie do swojego urządzenia, a model odpowie im informacją głosową.
OpenAI i Be My Eyes, obecnie zaufani partnerzy, torują drogę do większej samodzielności osób niewidomych na całym świecie. Michael Buckley, CEO Be My Eyes, wyjaśnia wpływ tej współpracy:

Nowa usługa zostanie uruchomiona latem 2024 roku po raz pierwszy. Użytkownicy z wczesnym dostępem testują nowe funkcje wizji, wideo i audio i są nimi zachwyceni. Choć wpływ AI budzi obawy sceptyków, ta współpraca jest wyraźnym dowodem na pozytywne skutki, jakie może przynieść. Zrozumienie społecznych korzyści zaawansowanej AI to kluczowy krok dla jej wizerunku.
Jak będziemy oceniać przyszłe modele LLM?
W miarę jak konkurenci ścigają się, by stworzyć najtańszy i najszybszy LLM, pojawia się pytanie: jak będziemy oceniać modele AI jutra?
W pewnym momencie główni twórcy LLM (prawdopodobnie OpenAI i Google) osiągną granicę szybkości działania i kosztów dostępu. Gdy osiągniemy stabilność pod względem ceny i wydajności, jak wybierzemy wiodący model na rynku?
Co stanie się nowym wyznacznikiem czasów? Czy będą to dostępne osobowości twojego modelu AI, możliwości ulepszania wideo, funkcje dostępne dla użytkowników darmowych, czy zupełnie nowe wskaźniki, których jeszcze nie rozumiemy – nowa generacja LLM jest już na wyciągnięcie ręki.
Chatboty AI bez wysiłku
Co by było, gdyby Twój chatbot AI automatycznie synchronizował się z każdą aktualizacją GPT?
Botpress od 2017 roku oferuje konfigurowalne rozwiązania chatbotów AI, dając deweloperom narzędzia do łatwego budowania chatbotów z wykorzystaniem najnowszych LLM. Chatboty Botpress można trenować na własnych źródłach wiedzy – takich jak Twoja strona internetowa czy katalog produktów – i płynnie integrować z systemami biznesowymi.
Jako jedyna platforma, która umożliwia zarówno konfigurację bez kodowania, jak i nieograniczoną personalizację oraz rozbudowę, Botpress pozwala automatycznie korzystać z najnowszej wersji GPT w Twoim chatbotcie – bez wysiłku.
Rozpocznij budowę już dziś. To nic nie kosztuje.
Najczęstsze pytania
1. Jak przełączyć mojego obecnego chatbota na GPT-4o w Botpress?
Aby przełączyć swojego chatbota na GPT-4o w Botpress, przejdź do Botpress Studio, otwórz ustawienia LLM swojego asystenta i wybierz GPT-4o z dostępnej listy modeli. Zmiana następuje natychmiastowo i nie wymaga zmian w kodzie.
2. Czy są jakieś wymagania wstępne do korzystania z GPT-4o na platformie Botpress (np. SDK, wersje API)?
Nie, nie ma żadnych wymagań wstępnych do korzystania z GPT-4o w Botpress. Platforma automatycznie zarządza wszystkimi SDK, aktualizacjami API i zależnościami backendowymi – wystarczy wybrać GPT-4o w ustawieniach, aby go aktywować.
3. Czy GPT-4o można dostosować lub dopasować do konkretnych zastosowań biznesowych za pomocą Botpress?
Chociaż GPT-4o nie można tradycyjnie dostrajać w Botpress, możesz dostosować jego odpowiedzi i zachowanie za pomocą inżynierii promptów, logiki przepływów, baz wiedzy i zmiennych. Dzięki temu GPT-4o może działać kontekstowo zgodnie z potrzebami Twojej firmy bez konieczności ponownego trenowania modelu.
4. Czy istnieją ograniczenia w korzystaniu z funkcji multimodalnych (głos, obraz) w przepływach pracy Botpress?
Tak, Botpress obecnie obsługuje funkcje głosowe poprzez integracje, takie jak Twilio lub Dialogflow Voice Gateway, ale możliwości multimodalne, takie jak przetwarzanie obrazów czy wideo, nie są jeszcze w pełni obsługiwane. Wprowadzanie danych opartych na wizji jest nadal rozważane lub wymaga obejścia.
5. Czy korzystanie z zaawansowanych funkcji GPT-4o, takich jak tłumaczenie w czasie rzeczywistym lub wejście wizualne, wiąże się z ukrytymi kosztami?
Nie, korzystanie z zaawansowanych funkcji GPT-4o w Botpress nie wiąże się z ukrytymi kosztami. Zalety szybkości i wydajności GPT-4o są zawarte w Twoim obecnym planie Botpress, a koszty LLM pokrywa Botpress – użytkownicy nie ponoszą dodatkowych opłat za korzystanie z ulepszeń GPT-4o.





.webp)
