How do I switch my existing chatbot to GPT-4o on Botpress?

To switch your existing chatbot to GPT-4o on Botpress, go to the Botpress Studio, navigate to your assistant’s LLM settings, and select GPT-4o from the available model dropdown. The change applies instantly without requiring code changes.

Are there prerequisites to using GPT-4o within the Botpress platform (e.g., SDKs, API versions)?

No, there are no prerequisites to using GPT-4o in Botpress. The platform manages all SDKs, API updates, and backend dependencies automatically, so you only need to select GPT-4o in the settings to activate it.

Can GPT-4o be fine-tuned or customized for specific business use cases via Botpress?

While GPT-4o cannot be fine-tuned in the traditional sense within Botpress, you can customize its responses and behavior using prompt engineering, workflow logic, knowledge bases, and variables. This allows GPT-4o to behave contextually for your business needs without retraining the model.

Are there limitations on the use of multimodal features (voice, vision) within Botpress workflows?

Yes, Botpress currently supports voice features through integrations like Twilio or Dialogflow Voice Gateway, but multimodal capabilities like processing images or videos are not fully supported yet. Vision-based input is still under consideration or requires workarounds.

Are there hidden costs to using GPT-4o’s advanced features like real-time translation or vision input?

No, there are no hidden costs to using GPT-4o’s advanced features in Botpress. GPT-4o’s speed and efficiency benefits are included in your existing Botpress plan, and LLM costs are covered by Botpress—so users don’t incur extra fees for using GPT-4o’s enhancements.

Co oznacza GPT-4o dla chatbotów?

Autor

Sarah Chudleigh

Badaczka i liderka treści dotyczących AI

Spis treści

Krok 1. tutaj pojawia się tytuł kroku zgodnie z oczekiwaniami

Podsumowanie

GPT-4o jest dwa razy szybszy i kosztuje połowę tego, co GPT-4 Turbo, znacząco obniżając cenę i przyspieszając czas odpowiedzi chatbotów AI.
Nowy model umożliwia zaawansowane funkcje multimodalne – w tym obsługę głosu, wideo, tłumaczenia w czasie rzeczywistym i rozpoznawania obrazu – co otwiera nowe, innowacyjne zastosowania chatbotów wykraczające poza tekst.
Zwiększona wydajność tokenizacji, zwłaszcza dla języków nieopartych na alfabecie łacińskim, oznacza znaczące oszczędności kosztów przy wdrażaniu chatbotów na całym świecie.
Poprawa szybkości bezpośrednio wpływa na doświadczenie użytkownika, skracając czas oczekiwania, który tradycyjnie frustrował użytkowników chatbotów.

Dwa razy szybciej i za połowę ceny – co oznacza GPT-4o dla chatbotów AI?

Po tajemniczej zapowiedzi OpenAI wprowadziło najnowszą wersję swojego flagowego modelu: GPT-4o.

Najnowszy model nie tylko zyskał efektowne możliwości multimodalne. Jest szybszy i tańszy niż GPT-4 Turbo. Choć media skupiają się na możliwościach wideo i głosowych nowego flagowego modelu w ChatGPT, to właśnie nowa cena i szybkość są równie istotne dla tych, którzy wykorzystują GPT do zasilania swoich aplikacji.

White lettering on an indigo background. A quote from Botpress software engineer lead Patrick Hamelin that reads: "The availability of 4o has the power to significantly improv both the builder and the user experience. The impact is further-reaching than we think."

„Dostępność 4o może znacząco poprawić zarówno doświadczenie twórców, jak i użytkowników” – powiedział Patrick Hamelin, lider zespołu inżynierów w Botpress. „Skala wpływu jest większa, niż nam się wydaje.”

Przyjrzyjmy się więc, jak nowy model wpłynie na chatboty AI.

Buduj chatboty AI

Twórz własne agentowe chatboty

Rozpocznij teraz

Możliwości modelu

Poznaj GPT-4o

Nowy flagowy model oferuje szereg ekscytujących aktualizacji i funkcji: ulepszone możliwości głosowe i wideo, tłumaczenie w czasie rzeczywistym, bardziej naturalne przetwarzanie języka. Potrafi analizować obrazy, rozumieć różnorodne dane audio, pomagać w podsumowaniach, ułatwiać tłumaczenie na żywo i tworzyć wykresy. Użytkownicy mogą przesyłać pliki i prowadzić rozmowy głosowe. Dostępna jest nawet aplikacja desktopowa.

W serii filmów prezentujących premierę pracownicy OpenAI (oraz współpracownicy, jak Sal Khan z Khan Academy) pokazują, jak najnowsza wersja GPT przygotowuje użytkownika do rozmowy kwalifikacyjnej, śpiewa, rozpoznaje emocje na podstawie mimiki, rozwiązuje zadania matematyczne i nawet wchodzi w interakcje z innym ChatGPT-4o.

Premiera pokazała nową rzeczywistość, w której model AI potrafi analizować notatki Twojego dziecka i odpowiadać na ich treść. Może wyjaśnić pojęcie dodawania ułamków po raz pierwszy, zmieniając ton i sposób tłumaczenia w zależności od poziomu zrozumienia dziecka – przekraczając granicę między chatbotem a osobistym korepetytorem.

A video screenshot of a GPT-4o demo video featuring Kan Academy creator Sal Khan and his son. — *Sal Khan, twórca Khan Academy, i jego syn pokazują, jak GPT-4o udziela korepetycji z geometrii.*

Co oznacza GPT-4o dla chatbotów LLM?

Chatboty AI oparte na LLM zyskują aktualizację za każdym razem, gdy firmy takie jak OpenAI wprowadzają nowe modele. Jeśli agent LLM jest połączony z platformą do budowy botów, taką jak Botpress, otrzymuje wszystkie korzyści najnowszego modelu GPT w swoim własnym chatbocie.

Dzięki premierze GPT-4o chatboty AI mogą teraz korzystać z zaawansowanego modelu, zmieniając swoje możliwości, cenę i szybkość działania. Nowy model oferuje 5 razy wyższe limity niż GPT-4 Turbo, z możliwością przetwarzania do 10 milionów tokenów na minutę.

Dla botów korzystających z integracji audio, takich jak Twilio na Botpress, otwiera się nowy świat interakcji głosowych. Zamiast ograniczać się do przetwarzania dźwięku sprzed lat, chatboty są o krok bliżej do naśladowania ludzkiej rozmowy.

Być może najważniejsze są niższe koszty dla użytkowników płatnych. Utrzymanie chatbota o podobnych możliwościach za połowę ceny może znacząco zwiększyć dostępność i przystępność na całym świecie. Użytkownicy Botpress nie ponoszą dodatkowych kosztów AI za swoje boty – więc te oszczędności trafiają bezpośrednio do twórców.

A po stronie użytkownika GPT-4o oznacza znacznie lepsze doświadczenie. Nikt nie lubi czekać. Krótszy czas odpowiedzi to większa satysfakcja użytkowników chatbotów AI.

*W Botpress Studio użytkownicy mogą wybierać różne wersje GPT dla różnych etapów działania swojego bota.*

Użytkownicy kochają szybkość

Kluczowym elementem popularyzacji chatbotów jest poprawa doświadczenia użytkownika. A co poprawia je bardziej niż skrócenie czasu oczekiwania?

„To na pewno będzie lepsze doświadczenie” – mówi Hamelin. „Ostatnią rzeczą, jakiej chcesz, to czekać na kogoś.”

Ludzie nie znoszą czekać. Już w 2003 roku badanie wykazało, że użytkownicy byli skłonni czekać na załadowanie strony internetowej tylko około 2 sekundy. Nasza cierpliwość od tamtej pory raczej się nie zwiększyła.

I wszyscy nie znoszą czekać

Istnieje mnóstwo porad UX, jak skrócić odczuwalny czas oczekiwania. Często nie możemy przyspieszyć działania systemu, więc skupiamy się na tym, by użytkownik miał wrażenie, że czas mija szybciej. Wizualne sygnały, jak pasek ładowania, mają skrócić odczuwalny czas oczekiwania.

W słynnej historii o czasie oczekiwania na windę w starym nowojorskim budynku pojawiła się fala skarg. Mieszkańcy musieli czekać 1-2 minuty na windę. Budynek nie mógł pozwolić sobie na wymianę windy na nowszy model, a mieszkańcy grozili zerwaniem umów najmu.

Nowy pracownik, z wykształceniem psychologicznym, zorientował się, że prawdziwym problemem nie były dwie minuty straconego czasu – lecz nuda. Zaproponował zamontowanie luster, by mieszkańcy mogli patrzeć na siebie lub innych podczas oczekiwania. Skargi na windę ustały, a dziś lustra w lobby wind są już standardem.

Zamiast stosować sztuczki poprawiające doświadczenie użytkownika – jak wizualne sygnały – OpenAI poprawiło doświadczenie u źródła. Szybkość jest kluczowa dla satysfakcji użytkownika i żadna sztuczka nie zastąpi sprawnej interakcji.

Oszczędności dla wszystkich

Korzystanie z tego nowego modelu AI do obsługi aplikacji nagle stało się tańsze. Dużo tańsze.

Utrzymanie chatbota AI na dużą skalę może być kosztowne. Model LLM, na którym działa Twój bot, decyduje o tym, ile zapłacisz za każdą interakcję użytkownika na większą skalę (przynajmniej w Botpress, gdzie koszty AI są równe kosztom LLM).

I te oszczędności nie dotyczą tylko deweloperów korzystających z API. ChatGPT-4o to najnowsza darmowa wersja LLM, obok GPT-3.5. Użytkownicy bezpłatni mogą korzystać z aplikacji ChatGPT bez opłat.

Lepsza tokenizacja

Jeśli korzystasz z modelu w języku, który nie używa alfabetu łacińskiego, GPT-4o jeszcze bardziej obniża koszty API.

A visualization of how much more efficient tokenization is with GPT-4o compared to Turbo. Indo-Aryan languages like Hindi and Gujarati have a 2.9-4.4 average tokenization reduction. Arabic has a 2x reduction and East Asian languages like Japanese, Korean, and Chinese have a 1.4-1.x reduction. — *O ile bardziej wydajna jest tokenizacja GPT-4o? To zależy od języka.*

Nowy model oferuje ulepszone limity użycia. Zapewnia znaczący skok wydajności tokenizacji, szczególnie w wybranych językach nieangielskich.

Nowy sposób tokenizacji wymaga mniej tokenów do przetworzenia tekstu wejściowego. Jest znacznie wydajniejszy dla języków logograficznych (czyli takich, które używają znaków i symboli zamiast pojedynczych liter).

Te korzyści dotyczą głównie języków, które nie korzystają z alfabetu łacińskiego. Szacowane oszczędności przedstawiają się następująco:

Języki indyjskie, takie jak hindi, tamilski czy gudżarati, mają 2,9 – 4,4 razy mniej tokenów
Język arabski – około 2 razy mniej tokenów
Języki wschodnioazjatyckie, takie jak chiński, japoński i wietnamski – 1,4 – 1,7 razy mniej tokenów

Wdrażasz agentów AI?

Przeczytaj nasz przewodnik wdrożenia agentów AI

Przeczytaj teraz

Zamykanie cyfrowej przepaści w AI

Era cyfrowa przyniosła ze sobą rozszerzenie odwiecznej, dobrze udokumentowanej przepaści majątkowej – cyfrową przepaść. Tak jak dostęp do bogactwa i silnej infrastruktury jest zarezerwowany dla wybranych, tak samo jest z dostępem do AI oraz związanych z nią możliwości i korzyści.

Robert Opp, dyrektor ds. cyfrowych w Programie Narodów Zjednoczonych ds. Rozwoju (UNDP), wyjaśnił, że obecność platform AI może przesądzić o wskaźnikach rozwoju całego kraju:

„Jednym z naszych głównych zmartwień jest to, że kraje lepiej przygotowane i bardziej zaawansowane w zakresie platform AI – zarówno pod względem rozwoju, jak i wykorzystania – mogą rozwijać się znacznie szybciej, a kraje bez odpowiednich umiejętności i zasobów zostaną w tyle.”

A brightly-decorated stage with four individuals in white armchairs. Opp sits on the far right and speaks into a microphone. — *Robert Opp, Chief Digital Officer w UNDP, przemawia na Global Digital Public Infrastructure Summit w Indiach (2024). Zdjęcie z* *UNDP Digital X*.

Obniżając koszt GPT-4o o połowę i wprowadzając darmową wersję, OpenAI wykonuje ważny krok w kierunku rozwiązania jednego z największych problemów AI – i bezpośrednio odpowiada na nierówności, które niepokoją decydentów i ekonomistów.

Pozytywny ruch PR-owy dla dużych firm AI jest bardziej potrzebny, niż mogłoby się wydawać entuzjastom. Wraz z coraz większą obecnością AI w naszym codziennym życiu, zarówno zwolennicy, jak i sceptycy pytają, jak możemy wykorzystać AI „dla dobra”.

White lettering on an indigo background. A quote from AI educator Louis Bouchard reads “Making AI accessible is one way, if not the best, to use AI ‘for good.’”

Według Louisa Boucharda, doktora i edukatora AI, szeroki dostęp do AI to właśnie sposób na osiągnięcie tego celu: „Uczynienie AI dostępną to jeden ze sposobów, jeśli nie najlepszy, by użyć AI ‘dla dobra’.” Jego argument? Jeśli nie jesteśmy w stanie w pełni kontrolować pozytywnych i negatywnych skutków technologii AI – przynajmniej na początku – możemy zadbać o równy dostęp do jej potencjalnych korzyści.

Rozszerzony potencjał multimodalny

Najpopularniejszym sposobem interakcji z chatbotem firmy jest tekst, ale ulepszone możliwości multimodalne nowego modelu AI OpenAI sugerują, że może się to wkrótce zmienić.

W nadchodzącym roku prawdopodobnie zobaczymy falę deweloperów wdrażających nowe aplikacje, które w pełni wykorzystają nowe możliwości audio, wizji i wideo.

Na przykład chatboty oparte na GPT mogą mieć możliwość:

Poprosić klientów o zdjęcie zwracanego produktu, by zidentyfikować towar i upewnić się, że nie jest uszkodzony
Zapewnić tłumaczenie audio w czasie rzeczywistym, uwzględniające lokalne dialekty
Określić, czy stek jest odpowiednio wysmażony na podstawie zdjęcia z patelni
Pełnić rolę bezpłatnego przewodnika, dostarczając kontekst historyczny na podstawie zdjęcia starej katedry, tłumacząc w czasie rzeczywistym i prowadząc spersonalizowaną wycieczkę głosową z możliwością zadawania pytań.
Zasilać aplikację do nauki języków, która słucha nagrań audio, udziela informacji zwrotnej na temat wymowy na podstawie nagrania wideo ruchu ust lub uczy języka migowego za pomocą obrazów i wideo.
Zapewnić wsparcie w zakresie zdrowia psychicznego w mniej pilnych przypadkach, łącząc interpretację dźwięku i obrazu, co umożliwia niedrogą terapię rozmową.

Dzięki modelom AI, które potrafią interpretować obrazy i dźwięk, nasze rozumienie możliwości LLM szybko się poszerza.

Multimodalność to dostępność

Już teraz widzimy, jak ulepszone funkcje multimodalne przynoszą korzyści społeczne. Doskonałym przykładem jest współpraca OpenAI z Be My Eyes.

Be My Eyes to duński start-up, który łączy osoby z dysfunkcją wzroku z widzącymi wolontariuszami. Gdy użytkownik potrzebuje pomocy – na przykład przy wyborze odpowiednich produktów w sklepie czy rozpoznaniu koloru koszulki – aplikacja łączy go przez wideo ze smartfona z wolontariuszem z dowolnego miejsca na świecie.

A bright blue announcement for 'Be My AI' that reads 'Rolling out out'. On the right side is an image of a smartphone showing a deserted seaside pathway with an AI-generated description of the picture. — *Ogłoszenie współpracy i produktu Be My Eyes x OpenAI.*

Nowa funkcja wizji OpenAI może zapewnić użytkownikom Be My Eyes jeszcze większą pomoc. Zamiast polegać na wolontariuszu, który w czasie rzeczywistym opisuje obraz lub wideo, osoby niewidome mogą przesłać zdjęcie lub nagranie do swojego urządzenia, a model odpowie im informacją głosową.

OpenAI i Be My Eyes, obecnie zaufani partnerzy, torują drogę do większej samodzielności osób niewidomych na całym świecie. Michael Buckley, CEO Be My Eyes, wyjaśnia wpływ tej współpracy:

„W krótkim czasie, odkąd mamy dostęp, zaobserwowaliśmy bezkonkurencyjną skuteczność w porównaniu z innymi narzędziami do rozpoznawania obiektów na podstawie obrazu. Skutki dla globalnej dostępności są ogromne. W niedalekiej przyszłości społeczność niewidomych i słabowidzących będzie korzystać z tych narzędzi nie tylko do interpretacji wizualnej, ale także dla większej niezależności w codziennym życiu.”

Three images of smartphones using Be My Eyes. One focuses on an array of patterned neckties, one features a user holding a bottle of sunscreen to the camera, and one holds the camera to show small, colorful houses. — *Be My Eyes łączy osoby z dysfunkcją wzroku z widzącymi wolontariuszami, by pomagać w zadaniach wymagających wzroku. Zdjęcia: Be My Eyes.*

Dostępność Be My Eyes z GPT-4o

Nowa usługa zostanie uruchomiona latem 2024 roku po raz pierwszy. Użytkownicy z wczesnym dostępem testują nowe funkcje wizji, wideo i audio i są nimi zachwyceni. Choć wpływ AI budzi obawy sceptyków, ta współpraca jest wyraźnym dowodem na pozytywne skutki, jakie może przynieść. Zrozumienie społecznych korzyści zaawansowanej AI to kluczowy krok dla jej wizerunku.

Jak będziemy oceniać przyszłe modele LLM?

W miarę jak konkurenci ścigają się, by stworzyć najtańszy i najszybszy LLM, pojawia się pytanie: jak będziemy oceniać modele AI jutra?

W pewnym momencie główni twórcy LLM (prawdopodobnie OpenAI i Google) osiągną granicę szybkości działania i kosztów dostępu. Gdy osiągniemy stabilność pod względem ceny i wydajności, jak wybierzemy wiodący model na rynku?

Co stanie się nowym wyznacznikiem czasów? Czy będą to dostępne osobowości twojego modelu AI, możliwości ulepszania wideo, funkcje dostępne dla użytkowników darmowych, czy zupełnie nowe wskaźniki, których jeszcze nie rozumiemy – nowa generacja LLM jest już na wyciągnięcie ręki.

Chatboty AI bez wysiłku

Co by było, gdyby Twój chatbot AI automatycznie synchronizował się z każdą aktualizacją GPT?

Botpress od 2017 roku oferuje konfigurowalne rozwiązania chatbotów AI, dając deweloperom narzędzia do łatwego budowania chatbotów z wykorzystaniem najnowszych LLM. Chatboty Botpress można trenować na własnych źródłach wiedzy – takich jak Twoja strona internetowa czy katalog produktów – i płynnie integrować z systemami biznesowymi.

Jako jedyna platforma, która umożliwia zarówno konfigurację bez kodowania, jak i nieograniczoną personalizację oraz rozbudowę, Botpress pozwala automatycznie korzystać z najnowszej wersji GPT w Twoim chatbotcie – bez wysiłku.

Rozpocznij budowę już dziś. To nic nie kosztuje.

Buduj chatboty AI

Twórz własne agentowe chatboty

Rozpocznij teraz

Najczęstsze pytania

1. Jak przełączyć mojego obecnego chatbota na GPT-4o w Botpress?

Aby przełączyć swojego chatbota na GPT-4o w Botpress, przejdź do Botpress Studio, otwórz ustawienia LLM swojego asystenta i wybierz GPT-4o z dostępnej listy modeli. Zmiana następuje natychmiastowo i nie wymaga zmian w kodzie.

2. Czy są jakieś wymagania wstępne do korzystania z GPT-4o na platformie Botpress (np. SDK, wersje API)?

Nie, nie ma żadnych wymagań wstępnych do korzystania z GPT-4o w Botpress. Platforma automatycznie zarządza wszystkimi SDK, aktualizacjami API i zależnościami backendowymi – wystarczy wybrać GPT-4o w ustawieniach, aby go aktywować.

3. Czy GPT-4o można dostosować lub dopasować do konkretnych zastosowań biznesowych za pomocą Botpress?

Chociaż GPT-4o nie można tradycyjnie dostrajać w Botpress, możesz dostosować jego odpowiedzi i zachowanie za pomocą inżynierii promptów, logiki przepływów, baz wiedzy i zmiennych. Dzięki temu GPT-4o może działać kontekstowo zgodnie z potrzebami Twojej firmy bez konieczności ponownego trenowania modelu.

4. Czy istnieją ograniczenia w korzystaniu z funkcji multimodalnych (głos, obraz) w przepływach pracy Botpress?

Tak, Botpress obecnie obsługuje funkcje głosowe poprzez integracje, takie jak Twilio lub Dialogflow Voice Gateway, ale możliwości multimodalne, takie jak przetwarzanie obrazów czy wideo, nie są jeszcze w pełni obsługiwane. Wprowadzanie danych opartych na wizji jest nadal rozważane lub wymaga obejścia.

5. Czy korzystanie z zaawansowanych funkcji GPT-4o, takich jak tłumaczenie w czasie rzeczywistym lub wejście wizualne, wiąże się z ukrytymi kosztami?

Nie, korzystanie z zaawansowanych funkcji GPT-4o w Botpress nie wiąże się z ukrytymi kosztami. Zalety szybkości i wydajności GPT-4o są zawarte w Twoim obecnym planie Botpress, a koszty LLM pokrywa Botpress – użytkownicy nie ponoszą dodatkowych opłat za korzystanie z ulepszeń GPT-4o.