- GPT-4o nhanh gấp đôi và chi phí chỉ bằng một nửa so với GPT-4 Turbo, giúp giảm mạnh giá thành và tăng tốc độ phản hồi cho chatbot AI.
- Mô hình mới hỗ trợ các khả năng đa phương tiện tiên tiến – bao gồm giọng nói, video, dịch thời gian thực và nhận diện hình ảnh – mở ra nhiều ứng dụng sáng tạo cho chatbot vượt ra ngoài văn bản.
- Việc tối ưu hóa trong quá trình phân tách token, đặc biệt với các ngôn ngữ không dùng bảng chữ cái La-tinh, giúp tiết kiệm chi phí đáng kể cho việc triển khai chatbot toàn cầu.
- Cải thiện tốc độ giúp nâng cao trải nghiệm người dùng, giảm thời gian chờ đợi vốn thường gây khó chịu cho người dùng chatbot.
Nhanh gấp đôi, giá chỉ bằng một nửa – GPT-4o có ý nghĩa gì đối với chatbot AI?
Sau thông báo đầy bí ẩn, OpenAI đã ra mắt phiên bản mới nhất của mô hình chủ lực: GPT-4o.
Mô hình mới không chỉ được nâng cấp mạnh về khả năng đa phương tiện. Nó còn nhanh hơn và rẻ hơn GPT-4 Turbo. Trong khi truyền thông chủ yếu chú ý đến khả năng video và giọng nói mới của ChatGPT, thì chi phí và tốc độ mới cũng quan trọng không kém đối với những ai dùng GPT để vận hành ứng dụng của mình.

“Việc có 4o sẽ cải thiện đáng kể trải nghiệm của cả người xây dựng lẫn người dùng,” Patrick Hamelin, trưởng nhóm kỹ sư phần mềm tại Botpress chia sẻ. “Tác động của nó còn lớn hơn chúng ta nghĩ.”
Hãy cùng tìm hiểu xem mô hình mới này sẽ thay đổi chatbot AI như thế nào.
Khả năng của mô hình
Mô hình chủ lực mới đi kèm với danh sách các cập nhật và tính năng hấp dẫn: nâng cao khả năng giọng nói và video, dịch thời gian thực, khả năng xử lý ngôn ngữ tự nhiên tốt hơn. Nó có thể phân tích hình ảnh, hiểu nhiều loại âm thanh hơn, hỗ trợ tóm tắt, dịch thời gian thực và tạo biểu đồ. Người dùng có thể tải lên tệp và trò chuyện bằng giọng nói. Thậm chí còn có ứng dụng máy tính để bàn.
Trong loạt video ra mắt, nhân viên OpenAI (và các đối tác như Sal Khan của Khan Academy) trình diễn GPT phiên bản mới giúp người dùng chuẩn bị phỏng vấn xin việc, hát, nhận diện cảm xúc qua nét mặt, giải toán viết tay, và thậm chí tương tác với một ChatGPT-4o khác.
Buổi ra mắt cho thấy một thực tế mới, nơi AI có thể phân tích bài viết trong vở của con bạn và phản hồi. Nó có thể giải thích khái niệm cộng phân số lần đầu, thay đổi cách tiếp cận dựa trên mức độ hiểu của trẻ – chatbot giờ đây có thể trở thành gia sư cá nhân.

GPT-4o có ý nghĩa gì cho chatbot LLM?
Các chatbot AI chạy trên LLM sẽ được cập nhật mỗi khi các công ty như OpenAI nâng cấp mô hình. Nếu một tác nhân LLM được kết nối với nền tảng xây dựng bot như Botpress, họ sẽ nhận được mọi lợi ích từ mô hình GPT mới nhất trong chatbot của mình.
Với GPT-4o, chatbot AI giờ đây có thể lựa chọn chạy trên mô hình tiên tiến, thay đổi khả năng, chi phí và tốc độ. Mô hình mới có giới hạn tốc độ cao hơn 5 lần so với GPT-4 Turbo, xử lý tới 10 triệu token mỗi phút.
Với các bot sử dụng tích hợp âm thanh như Twilio trên Botpress, một thế giới tương tác bằng giọng nói mới đã mở ra. Thay vì bị giới hạn bởi xử lý âm thanh cũ, chatbot đã tiến gần hơn đến việc mô phỏng giao tiếp của con người.
Có lẽ quan trọng nhất là chi phí thấp hơn cho người dùng trả phí. Vận hành một chatbot có khả năng tương tự với chi phí chỉ bằng một nửa sẽ giúp tăng khả năng tiếp cận và tiết kiệm trên toàn cầu. Người dùng Botpress không phải trả thêm chi phí AI cho bot của mình – nên khoản tiết kiệm này đến trực tiếp với người xây dựng.
Về phía người dùng, GPT-4o mang lại trải nghiệm tốt hơn nhiều. Không ai thích phải chờ đợi. Thời gian phản hồi ngắn hơn đồng nghĩa với sự hài lòng cao hơn cho người dùng chatbot AI.

Người dùng yêu thích tốc độ
Một yếu tố then chốt để chatbot được đón nhận là cải thiện trải nghiệm người dùng. Và điều gì cải thiện trải nghiệm hơn việc giảm thời gian chờ đợi?
“Chắc chắn sẽ là trải nghiệm tốt hơn,” Hamelin nói. “Điều cuối cùng bạn muốn là phải chờ đợi ai đó.”
Con người rất ghét chờ đợi. Ngay từ năm 2003, một nghiên cứu đã cho thấy mọi người chỉ sẵn sàng chờ khoảng 2 giây để một trang web tải xong. Sự kiên nhẫn của chúng ta chắc chắn không tăng lên kể từ đó.
Và ai cũng ghét phải chờ đợi
Có rất nhiều mẹo UX để giảm cảm giác chờ đợi. Thường thì chúng ta không thể tăng tốc sự kiện, nên tập trung vào việc khiến người dùng cảm thấy thời gian trôi nhanh hơn. Phản hồi hình ảnh, như thanh tải, giúp rút ngắn cảm giác chờ đợi.
Trong một câu chuyện nổi tiếng về thời gian chờ thang máy, một tòa nhà cũ ở New York nhận được vô số phàn nàn. Cư dân phải đợi 1-2 phút cho thang máy đến. Tòa nhà không thể nâng cấp thang máy và cư dân dọa sẽ chấm dứt hợp đồng thuê.
Một nhân viên mới, được đào tạo về tâm lý học, nhận ra vấn đề không phải là hai phút mất đi – mà là sự nhàm chán. Anh đề xuất lắp gương để cư dân có thể nhìn mình hoặc người khác khi chờ. Khi đó, các phàn nàn về thang máy biến mất, và giờ đây, gương trong sảnh thang máy đã trở nên phổ biến.
Thay vì dùng các mẹo để cải thiện trải nghiệm – như phản hồi hình ảnh – OpenAI đã nâng cấp trải nghiệm ngay từ gốc. Tốc độ là yếu tố trung tâm của trải nghiệm người dùng, và không có mẹo nào sánh được với sự hài lòng từ một tương tác hiệu quả.
Tiết kiệm cho mọi người
Việc sử dụng mô hình AI mới này để vận hành ứng dụng giờ đây rẻ hơn rất nhiều.
Vận hành chatbot AI ở quy mô lớn có thể rất tốn kém. LLM mà bot của bạn sử dụng sẽ quyết định chi phí cho mỗi lần tương tác của người dùng ở quy mô lớn (ít nhất là trên Botpress, nơi chi phí AI được tính 1:1 với chi phí LLM).
Và khoản tiết kiệm này không chỉ dành cho nhà phát triển dùng API. ChatGPT-4o là phiên bản LLM miễn phí mới nhất, bên cạnh GPT-3.5. Người dùng miễn phí có thể sử dụng ứng dụng ChatGPT mà không mất phí.
Phân tách token tốt hơn
Nếu bạn sử dụng mô hình này với ngôn ngữ không dùng bảng chữ cái La-tinh, GPT-4o còn giúp giảm chi phí API hơn nữa.

Mô hình mới có giới hạn sử dụng được nâng cao. Nó mang lại bước tiến lớn về hiệu quả phân tách token, chủ yếu ở một số ngôn ngữ không phải tiếng Anh.
Mô hình phân tách token mới cần ít token hơn để xử lý văn bản đầu vào. Nó hiệu quả hơn nhiều với các ngôn ngữ tượng hình (tức là ngôn ngữ dùng ký hiệu và ký tự thay vì chữ cái).
Những lợi ích này chủ yếu tập trung vào các ngôn ngữ không dùng bảng chữ cái La-tinh. Mức tiết kiệm ước tính như sau:
- Các ngôn ngữ Ấn Độ như Hindi, Tamil hoặc Gujarati giảm 2,9 – 4,4 lần số token
- Tiếng Ả Rập giảm khoảng 2 lần số token
- Các ngôn ngữ Đông Á như Trung Quốc, Nhật Bản, Hàn Quốc và tiếng Việt giảm 1,4 – 1,7 lần số token
Thu hẹp khoảng cách số về AI
Kỷ nguyên số kéo theo sự mở rộng của khoảng cách giàu nghèo truyền thống – khoảng cách số hóa. Cũng như việc tiếp cận tài sản và hạ tầng chỉ dành cho một số nhóm dân cư, việc tiếp cận AI và các cơ hội, lợi ích đi kèm cũng vậy.
Robert Opp, Giám đốc Kỹ thuật số của Chương trình Phát triển Liên Hợp Quốc (UNDP), giải thích rằng sự hiện diện của các nền tảng AI có thể quyết định thành bại của cả chỉ số phát triển quốc gia:

Bằng cách giảm một nửa chi phí GPT-4o và giới thiệu gói miễn phí, OpenAI đang thực hiện một bước quan trọng để giải quyết một trong những vấn đề lớn nhất của AI – và trực tiếp đối diện với sự bất bình đẳng mà các nhà hoạch định chính sách và kinh tế đang quan tâm.
Một động thái truyền thông tích cực cho AI lớn là cần thiết hơn nhiều người nghĩ. Khi AI ngày càng hiện diện trong cuộc sống hàng ngày, cả người ủng hộ lẫn hoài nghi đều đặt câu hỏi làm thế nào để sử dụng AI 'vì mục đích tốt'.

Theo tiến sĩ AI và nhà giáo dục Louis Bouchard, mở rộng quyền tiếp cận AI là cách thực hiện điều đó: “Làm cho AI dễ tiếp cận là một cách, nếu không muốn nói là tốt nhất, để sử dụng AI 'vì mục đích tốt.'” Lý do của ông? Nếu chúng ta chưa thể kiểm soát hoàn toàn tác động tích cực và tiêu cực của công nghệ AI – ít nhất là trong giai đoạn đầu – thì chúng ta có thể đảm bảo mọi người đều được hưởng lợi từ tiềm năng của nó.
Tiềm năng đa phương tiện mở rộng
Cách phổ biến nhất để tương tác với chatbot doanh nghiệp là qua văn bản, nhưng khả năng đa phương tiện nâng cao của mô hình AI mới từ OpenAI cho thấy điều này có thể sẽ thay đổi trong tương lai.
Trong năm tới, chúng ta có thể sẽ chứng kiến làn sóng các nhà phát triển tung ra các ứng dụng mới tận dụng tối đa khả năng âm thanh, hình ảnh và video vừa được tiếp cận rộng rãi.
Ví dụ, chatbot sử dụng GPT có thể:
- Yêu cầu khách hàng gửi hình ảnh sản phẩm muốn trả lại để xác định mặt hàng và đảm bảo sản phẩm không bị hư hại
- Cung cấp dịch thuật âm thanh trực tiếp trong hội thoại, có tính đến phương ngữ từng vùng
- Nhận biết mức độ chín của miếng bít tết qua hình ảnh chụp trong chảo
- Hoạt động như hướng dẫn viên du lịch cá nhân miễn phí, cung cấp thông tin lịch sử dựa trên hình ảnh nhà thờ cổ, dịch thuật trực tiếp và thuyết minh bằng giọng nói tùy chỉnh cho phép trao đổi hai chiều
- Hỗ trợ ứng dụng học ngoại ngữ bằng cách nghe âm thanh, nhận xét phát âm dựa trên video chuyển động miệng, hoặc dạy ngôn ngữ ký hiệu qua hình ảnh và video
- Cung cấp hỗ trợ sức khỏe tinh thần không khẩn cấp bằng cách kết hợp khả năng phân tích âm thanh và video, giúp liệu pháp trò chuyện giá rẻ hơn
Với các mô hình AI có thể hiểu hình ảnh và âm thanh, nhận thức của chúng ta về cách LLM phục vụ con người đang mở rộng nhanh chóng.
Đa phương tiện đồng nghĩa với khả năng tiếp cận
Chúng ta đã thấy các tính năng đa phương tiện nâng cao được ứng dụng cho mục đích xã hội. Một ví dụ điển hình là hợp tác giữa OpenAI và Be My Eyes.
Be My Eyes là một start-up Đan Mạch kết nối người khiếm thị với tình nguyện viên sáng mắt. Khi người dùng cần hỗ trợ – như chọn đúng đồ hộp ở siêu thị hoặc xác định màu áo – ứng dụng sẽ kết nối họ với tình nguyện viên ở khắp nơi qua video trên điện thoại.

Khả năng nhận diện hình ảnh mới của OpenAI có thể mang lại trải nghiệm hữu ích hơn cho người dùng Be My Eyes. Thay vì phải nhờ tình nguyện viên phân tích hình ảnh hoặc video trực tiếp, người khiếm thị có thể gửi hình ảnh hoặc video cho thiết bị để mô hình phản hồi bằng thông tin âm thanh.
OpenAI và Be My Eyes, hiện là đối tác tin cậy, đang mở đường cho sự tự lập hơn nữa của người khiếm thị trên toàn thế giới. CEO Be My Eyes, Michael Buckley, giải thích về tác động này:

Dịch vụ mới sẽ được triển khai vào mùa hè 2024, lần đầu tiên ra mắt. Người dùng truy cập sớm đã thử nghiệm các tính năng hình ảnh, video và âm thanh mới và đánh giá rất cao. Dù tác động của AI còn gây lo ngại cho một số người, sự hợp tác này là minh chứng rõ ràng cho lợi ích tích cực mà nó mang lại. Hiểu được giá trị xã hội mà AI tiên tiến mang lại là bước quan trọng cho truyền thông của nó.
Chúng ta sẽ đánh giá các mô hình LLM tương lai như thế nào?
Khi các đối thủ tiếp tục chạy đua để tạo ra LLM rẻ nhất, nhanh nhất, câu hỏi đặt ra là: chúng ta sẽ đánh giá các mô hình AI trong tương lai ra sao?
Đến một thời điểm nào đó, các nhà phát triển LLM lớn (có thể là OpenAI và Google) sẽ đạt giới hạn về tốc độ và chi phí cung cấp truy cập. Khi chi phí và tốc độ đã ổn định, đâu sẽ là tiêu chí để chọn ra mô hình dẫn đầu thị trường?
Điều gì sẽ trở thành dấu hiệu mới của thời đại? Liệu đó là cá tính của mô hình AI, khả năng nâng cao video, các tính năng dành cho người dùng miễn phí, hay những chỉ số hoàn toàn mới vượt ngoài hiểu biết hiện tại – thế hệ LLM tiếp theo đang đến rất gần.
Tạo Chatbot AI dễ dàng
Điều gì sẽ xảy ra nếu chatbot AI của bạn tự động đồng bộ với mọi bản cập nhật GPT?
Botpress đã cung cấp giải pháp chatbot AI tùy chỉnh từ năm 2017, giúp nhà phát triển dễ dàng xây dựng chatbot tận dụng sức mạnh của các LLM mới nhất. Chatbot Botpress có thể được huấn luyện trên nguồn kiến thức riêng – như website hoặc danh mục sản phẩm của bạn – và tích hợp mượt mà với hệ thống doanh nghiệp.
Là nền tảng duy nhất từ thiết lập không cần mã đến khả năng tùy chỉnh và mở rộng không giới hạn, Botpress cho phép bạn tự động sử dụng sức mạnh của phiên bản GPT mới nhất cho chatbot – không cần nỗ lực.
Bắt đầu xây dựng ngay hôm nay. Miễn phí.
Câu hỏi thường gặp
1. Làm thế nào để chuyển chatbot hiện tại sang GPT-4o trên Botpress?
Để chuyển chatbot hiện tại sang GPT-4o trên Botpress, hãy vào Botpress Studio, truy cập cài đặt LLM của trợ lý, và chọn GPT-4o từ danh sách mô hình có sẵn. Thay đổi sẽ được áp dụng ngay lập tức mà không cần sửa mã.
2. Có yêu cầu nào trước khi sử dụng GPT-4o trên nền tảng Botpress không (ví dụ: SDK, phiên bản API)?
Không, không có yêu cầu nào trước khi sử dụng GPT-4o trên Botpress. Nền tảng sẽ tự động quản lý tất cả SDK, cập nhật API và các phụ thuộc backend, bạn chỉ cần chọn GPT-4o trong cài đặt để kích hoạt.
3. GPT-4o có thể được tinh chỉnh hoặc tùy chỉnh cho các trường hợp sử dụng doanh nghiệp cụ thể thông qua Botpress không?
Dù không thể tinh chỉnh GPT-4o theo cách truyền thống trong Botpress, bạn có thể tùy chỉnh phản hồi và hành vi của nó bằng kỹ thuật nhắc lệnh, logic quy trình, kho kiến thức và biến số. Điều này giúp GPT-4o hoạt động phù hợp với nhu cầu doanh nghiệp mà không cần huấn luyện lại mô hình.
4. Có giới hạn nào khi sử dụng các tính năng đa phương tiện (giọng nói, hình ảnh) trong quy trình Botpress không?
Có, hiện Botpress hỗ trợ tính năng giọng nói thông qua tích hợp như Twilio hoặc Dialogflow Voice Gateway, nhưng các khả năng đa phương tiện như xử lý hình ảnh hoặc video vẫn chưa được hỗ trợ đầy đủ. Đầu vào dựa trên hình ảnh vẫn đang được xem xét hoặc cần giải pháp thay thế.
5. Có chi phí ẩn nào khi sử dụng các tính năng nâng cao của GPT-4o như dịch thời gian thực hoặc nhập liệu bằng hình ảnh không?
Không, không có chi phí ẩn khi sử dụng các tính năng nâng cao của GPT-4o trên Botpress. Lợi ích về tốc độ và hiệu quả của GPT-4o đã được bao gồm trong gói Botpress hiện tại của bạn, và chi phí LLM do Botpress chi trả – người dùng không phải trả thêm phí khi sử dụng các tính năng nâng cao của GPT-4o.





.webp)
