- Text-to-speech (TTS) chuyển đổi văn bản thành giọng nói tự nhiên bằng cách sử dụng mạng nơ-ron để tạo ngữ điệu và chất lượng giọng nói giống người thật.
- Quy trình TTS xử lý văn bản, phân tích ngôn ngữ, tạo ra phổ âm thanh và tổng hợp âm thanh bằng vocoder.
- TTS được ứng dụng trong chatbot, hệ thống dẫn đường, giải trí, công cụ y tế và giáo dục hòa nhập.
- TTS chất lượng cao giúp tăng độ rõ ràng, nhận diện thương hiệu, khả năng tiếp cận và sự tin tưởng của người dùng trong nhiều lĩnh vực.
ChatGPT tiếng Hà Lan nói với giọng Đức (đôi khi). Nếu cố ý thì thật không hay. Nếu không, thì thật thú vị.
Dù thế nào, có thể nói rằng trợ lý giọng nói AI đã phát triển rất xa so với Sam của Microsoft. Thực tế, chúng đã tiến bộ rất nhiều kể từ khi tôi học công nghệ giọng nói vài năm trước.
Và tôi sẽ chia sẻ với bạn về những gì chúng ta đã đạt được.
Chúng ta đã tưởng tượng về giọng nói tổng hợp ít nhất từ năm 1968, kể từ khi HAL the robot xuất hiện trong 2001: A Space Odyssey.

Thay vì là điều gì đó cao cấp và tương lai, giờ đây nó đã trở nên phổ biến: 89% người tiêu dùng quyết định chọn thiết bị dựa trên việc thiết bị đó có hỗ trợ giọng nói hay không.
Nói cách khác, “Đừng chỉ giúp tôi; hãy trò chuyện với tôi”.
Trong bài viết này, tôi sẽ nói về text-to-speech – quá trình chuyển đổi văn bản thành âm thanh nói. Tôi sẽ giải thích cách hoạt động bên trong, cũng như các ứng dụng của công nghệ này trong nhiều lĩnh vực khác nhau.
Text-to-Speech là gì?
TTS là quá trình chuyển đổi văn bản thành âm thanh nói tổng hợp. Các phiên bản đầu tiên dựa trên việc mô phỏng cơ học bộ máy phát âm của con người và ghép nối các đoạn ghi âm. Ngày nay, hệ thống TTS sử dụng thuật toán mạng nơ-ron sâu để tạo ra giọng nói động, tự nhiên như con người.
Có nhiều mô hình khác nhau tùy vào mục đích sử dụng, như tạo giọng nói thời gian thực cho hội thoại, kiểm soát biểu cảm hoặc khả năng tái tạo giọng nói.
Text-to-Speech hoạt động như thế nào?
TTS gồm 3 bước chính: đầu tiên, văn bản đầu vào được xử lý để đọc rõ các ký hiệu, biểu thức và chữ viết tắt. Văn bản đã xử lý sau đó được đưa qua mạng nơ-ron để chuyển thành biểu diễn âm thanh (spectrogram). Cuối cùng, biểu diễn này được chuyển thành giọng nói.
Như tôi đã đề cập, các nhà nghiên cứu đã thử nhiều phương pháp khác nhau cho TTS. Phương pháp hiện tại (và có lẽ sẽ còn dùng lâu dài) là tổng hợp giọng nói dựa trên mạng nơ-ron.
Việc mô hình hóa các lớp hiện tượng ngôn ngữ ảnh hưởng đến một câu nói – phát âm, tốc độ, ngữ điệu – là một nhiệm vụ phức tạp.

Ngay cả với khả năng “hộp đen” gần như kỳ diệu của mạng nơ-ron, một hệ thống TTS vẫn cần nhiều thành phần để mô phỏng giọng nói.
Rất khó để xác định một quy trình cố định; công nghệ mới liên tục xuất hiện, có thể khiến các phương pháp cũ trở nên lỗi thời.
Có một số thành phần chung xuất hiện trong hầu hết các hệ thống TTS dưới nhiều hình thức khác nhau.
1. Xử lý văn bản
Xử lý văn bản là bước mà hệ thống TTS xác định những từ nào sẽ được phát âm. Chữ viết tắt, ngày tháng và ký hiệu tiền tệ sẽ được đọc rõ, và dấu câu sẽ bị loại bỏ.
Điều này không phải lúc nào cũng đơn giản. “Dr.” có nghĩa là bác sĩ hay đường? Còn CAD? Đô la Canada hay thiết kế hỗ trợ máy tính?
Xử lý ngôn ngữ tự nhiên (NLP) có thể được sử dụng trong bước xử lý văn bản để dự đoán cách hiểu đúng dựa trên ngữ cảnh xung quanh. Nó đánh giá cách thuật ngữ mơ hồ (ví dụ, “Dr.”) phù hợp với toàn câu, nên trong cụm “Dr. Perron advised against it”, NLP sẽ xác định dr. là bác sĩ.
2. Phân tích ngôn ngữ học
Sau khi xử lý văn bản, mô hình chuyển từ “Nên nói gì?” sang “Nên nói như thế nào?”
Phân tích ngôn ngữ học là phần của TTS chịu trách nhiệm xác định cách truyền đạt một câu về cao độ, ngữ điệu và thời lượng. Nói cách khác:
- Mỗi âm, âm tiết hoặc từ nên kéo dài bao lâu?
- Ngữ điệu nên lên cao hay xuống thấp?
- Từ nào được nhấn mạnh?
- Thay đổi âm lượng như thế nào để thể hiện cảm xúc mong muốn?
Tại sao ngữ điệu lại quan trọng
Chia sẻ: Tôi từng tư vấn cho một nhóm phát triển mô hình TTS. Tôi nhận ra ngữ điệu quyết định sự rõ ràng của một câu nói như thế nào. Để tôi minh họa cho bạn.
Dưới đây là 3 cách đọc câu “Whoa, were you expecting that?”
Cách đầu tiên rất tốt. Dừng lại sau “Whoa”, nhấn lên ở âm thứ hai của “expecting” (ex-PEC-ting). 10/10.
Cách thứ hai chỉ vừa đủ thể hiện câu hỏi nhờ nhấn lên ở từ cuối (“... expecting THAT”). Ngoài ra, các âm còn lại gần như bằng nhau, không thay đổi về âm lượng hay cao độ. Tôi sẽ khuyên khách hàng “nên làm lại”.
Cách cuối cùng khá thú vị: “whoah” rất ổn – to, kéo dài và có đường cong đi xuống. Ngữ điệu tăng của câu hỏi diễn ra trong cụm “were you”, và gần như giữ nguyên cao độ.
Đây là nơi nhiều hệ thống TTS tầm trung dừng lại: đủ đơn giản với cách đọc hợp lý. Nhưng thực tế, bạn sẽ không nói như vậy – ít nhất là trong hầu hết các tình huống.
Ở các hệ thống cũ, những đặc điểm này được dự đoán bởi các thành phần riêng biệt: một mô hình tính toán thời lượng âm thanh, một mô hình khác xác định cao độ lên xuống.
Ngày nay, mọi thứ trở nên mơ hồ hơn.
Mạng nơ-ron thường tự học các mẫu này bằng cách tiếp thu những sắc thái tinh tế từ bộ dữ liệu huấn luyện lớn.
3. Mô hình hóa âm thanh
Mô hình hóa âm thanh là bước mà văn bản đã chuẩn hóa (và các đặc trưng ngôn ngữ dự đoán, nếu có) được đưa qua mạng nơ-ron để tạo ra một biểu diễn trung gian.
Phổ âm thanh và các biểu diễn giọng nói
Biểu diễn trung gian thường là phổ âm thanh – biểu diễn tần số theo thời gian của tín hiệu âm thanh – dù điều này đang thay đổi.
Đây là biểu diễn do mô hình TTS tạo ra từ văn bản đầu vào “Whoa, were you expecting that?”:

Hình ảnh hai chiều này thực chất gồm 146 lát dọc, mỗi lát chứa 80 tần số. Tần số mạnh sẽ sáng hơn, tần số yếu thì tối.
Đây là hình ảnh của bước thời gian thứ 10 (hoặc cột thứ 10), đã được xoay 90 độ sang phải:

Bạn có thể thấy từng tần số và mức năng lượng của chúng.
Thoạt nhìn phổ âm thanh có vẻ không rõ ràng, nhưng một số hiện tượng ngôn ngữ học đã xuất hiện ở đây:
- Những đường sóng rõ nét là nguyên âm hoặc các âm giống nguyên âm như /w/, /r/ và /l/.
- Các điểm tối thể hiện sự im lặng. Đó có thể là khoảng dừng cho dấu câu.
- Các cụm năng lượng ở phía trên thể hiện tiếng ồn, như âm /s/, /sh/ và /f/
Thực tế, nếu quan sát kỹ, bạn có thể xác định các từ trên phổ âm thanh.

Phổ âm thanh, dưới nhiều dạng khác nhau, là biểu diễn phổ biến trong công nghệ giọng nói vì chúng là trung gian rất tốt giữa âm thanh thô và văn bản.
Hai bản ghi âm cùng một câu do hai người khác nhau nói sẽ có dạng sóng rất khác nhau, nhưng phổ âm thanh lại rất giống nhau.
4. Tổng hợp âm thanh (Vocoding)
Giai đoạn tổng hợp là lúc phổ âm thanh được chuyển thành âm thanh thực.
Công nghệ thực hiện chuyển đổi này được gọi là vocoder. Đây là các mô hình mạng nơ-ron được huấn luyện để tái tạo tín hiệu giọng nói dựa trên biểu diễn phổ của chúng.
Lý do tách biệt giữa phần biểu diễn và mô hình hóa tín hiệu giọng nói thành các mô-đun riêng là để kiểm soát: phần đầu tập trung vào việc mô phỏng chính xác cách phát âm và truyền đạt từ ngữ, còn phần sau quyết định phong cách và độ tự nhiên của giọng nói.
Với phổ âm, chúng ta có thể phân biệt giữa /s/ và /sh/, hoặc /ee/ (như trong heat) và /ih/ (như trong hit), nhưng phong cách và cá tính lại đến từ các chi tiết tinh tế do vocoder tạo ra.
Đây là so sánh các kết hợp giữa các mô hình âm học và vocoder khác nhau. Nó minh họa cách các nhà nghiên cứu kết hợp các mô hình âm học và vocoder để tối ưu hóa kết quả tổng thể.
Tuy nhiên, cũng như các thành phần khác, chúng ta đang chứng kiến phổ âm dần được thay thế bằng các mô hình tích hợp tất cả trong một.
Các trường hợp sử dụng của TTS là gì?
Khả năng tạo ra ngôn ngữ nói động là một công cụ thiết yếu trong nhiều lĩnh vực.
Không chỉ dành cho các robot phục vụ hiện đại – nó còn giúp chúng ta nâng cao hiệu quả, khả năng tiếp cận và an toàn.
Chatbot và Trợ lý giọng nói
Bạn biết tôi sẽ nhắc đến điều này mà 😉
Giữa việc hiểu lệnh của bạn, cập nhật danh sách mua sắm và đặt lịch hẹn, thật dễ để xem nhẹ sự phức tạp – và tầm quan trọng – của giọng nói tổng hợp trong tác nhân AI.
Một tác nhân tốt (tức là dễ sử dụng) cần có giọng nói phù hợp: đủ thân thiện để người dùng đưa ra lệnh, và đủ tự nhiên để khiến họ tin rằng nó có thể thực hiện được.
Có rất nhiều nghiên cứu và kỹ thuật nhằm chinh phục người dùng chỉ trong tích tắc khi họ quyết định liệu trợ lý AI có phát âm “chuẩn” hay không.
Về phía doanh nghiệp: chatbot của bạn đại diện cho thương hiệu. Sự phát triển của công nghệ TTS mang lại nhiều lựa chọn hơn cho xây dựng thương hiệu bằng giọng nói và nâng cao chất lượng dịch vụ khách hàng.
Điều hướng và Giao thông
Không gì khiến bạn nhận ra tầm quan trọng của TTS bằng việc GPS phát âm sai tên đường khi bạn đang lái xe.
Dẫn đường GPS là ví dụ điển hình cho thấy TTS phát huy tác dụng: khi mắt bận, việc cung cấp thông tin qua âm thanh không chỉ tiện lợi mà còn đảm bảo an toàn.
Điều này cũng đúng ở sân bay và các hệ thống giao thông công cộng. Với các hệ thống phức tạp, đông đúc như nhà ga và sân bay, giọng nói tổng hợp là không thể thiếu.
Nếu không có TTS, chúng ta phải dựa vào các thông báo trực tiếp, thường vội vàng và khó nghe, hoặc các bản ghi âm ghép nối tên, nhà ga, thời gian,... vốn rất khó tiếp nhận.
Các nghiên cứu chỉ ra mối liên hệ giữa độ tự nhiên và khả năng nghe hiểu, nên TTS chất lượng cao là điều bắt buộc cho ngành giao thông hiện đại.
Giải trí và Truyền thông
Việc thuyết minh và truyền thông đa ngôn ngữ ngày càng phổ biến nhờ sự phát triển của công nghệ giọng nói tổng hợp.
Thay vì thay thế diễn viên, công nghệ giọng nói giúp tăng cường hiệu quả diễn xuất.
Val Kilmer, sau khi mất giọng vì ung thư vòm họng, đã có thể thể hiện cảm xúc bằng chính giọng nói gốc của mình trong Top Gun: Maverick (2022) nhờ AI.
TTS cũng cho phép các nhà phát triển game tạo ra nhiều câu thoại đa dạng, biểu cảm cho các nhân vật không điều khiển được (NPC), điều mà trước đây gần như không thể.
Y tế
Sự tiến bộ của TTS đồng nghĩa với việc nâng cao khả năng tiếp cận cho mọi đối tượng.
Công nghệ chăm sóc người cao tuổi giải quyết đồng thời vấn đề đồng hành và hỗ trợ. Công nghệ này dựa vào khả năng tùy chỉnh của TTS: giọng nói ấm áp, tốc độ linh hoạt, và ngữ điệu cẩn thận đều góp phần mang lại sự hỗ trợ hiệu quả và tôn trọng.
TTS cũng đang được sử dụng để cải thiện khả năng tiếp cận cho giới trẻ.
Acapela Group phát triển, bên cạnh các sản phẩm khác, công nghệ dành cho trẻ em gặp khó khăn về phát âm. Giọng nói tổng hợp giúp các em thể hiện bản thân và độc lập hơn, đồng thời vẫn giữ được đặc trưng giọng nói riêng.
Giáo dục và Học tập hòa nhập
Chúng ta đã từng gặp giọng nói tổng hợp trong các ứng dụng học ngoại ngữ. Nhưng đó chỉ là phần nổi của tảng băng.
Ví dụ, một rào cản trong việc tự học là khả năng đọc. Đối với trẻ em, người khiếm thị hoặc mắc một số rối loạn học tập, điều này không phải lúc nào cũng khả thi. Điều này tạo thêm áp lực cho giáo viên trong các lớp học đông đúc.
Một quận học ở California đã triển khai TTS để tạo môi trường học tập hòa nhập hơn cho học sinh có nhu cầu đặc biệt.
Tương tự như trong chăm sóc người cao tuổi, công nghệ giáo dục dựa vào giọng nói truyền cảm, rõ ràng và nhấn mạnh đúng chỗ. Các tham số có thể điều chỉnh giúp giáo viên tích hợp công nghệ này vào bài giảng, giúp học sinh cảm thấy được hòa nhập.
Chọn TTS phù hợp nhất cho nhu cầu của bạn
Dù bạn thuộc ngành nào, có thể khẳng định AI giọng nói rất quan trọng. Và hệ thống TTS bạn sử dụng sẽ đại diện cho doanh nghiệp, nên cần đảm bảo độ tin cậy và khả năng tùy chỉnh.
Botpress cho phép bạn xây dựng các bot mạnh mẽ, tùy chỉnh cao với nhiều tích hợp và triển khai trên mọi kênh giao tiếp phổ biến. Trợ lý giọng nói của bạn không chỉ gây ấn tượng mà còn hoạt động hiệu quả.
Bắt đầu xây dựng ngay hôm nay. Miễn phí.
Câu hỏi thường gặp
Có ngôn ngữ hoặc phương ngữ nào mà các hệ thống chuyển văn bản thành giọng nói (TTS) gặp khó khăn trong việc hỗ trợ không?
Có, một số ngôn ngữ và phương ngữ khiến hệ thống TTS gặp khó khăn, đặc biệt là các ngôn ngữ ít tài nguyên, thiếu dữ liệu ghi âm và văn bản. Các biến thể như phương ngữ vùng miền, ngôn ngữ thanh điệu, và ngôn ngữ bản địa thường đòi hỏi quy tắc phát âm và ngữ điệu phức tạp mà các mô hình tiêu chuẩn chưa được huấn luyện. Ngay cả với các ngôn ngữ phổ biến, sự khác biệt về phương ngữ cũng có thể dẫn đến phát âm sai hoặc giọng nói nghe không tự nhiên.
Các giọng nói TTS có thể tùy chỉnh đến mức nào về cao độ, tốc độ và cảm xúc?
Các giọng TTS hiện đại có thể tùy chỉnh cao về cao độ, tốc độ và cảm xúc nhờ các kiến trúc mạng nơ-ron cho phép kiểm soát chi tiết ngữ điệu và phong cách. Nhiều hệ thống TTS thương mại cho phép người dùng điều chỉnh tốc độ nói, kiểu ngữ điệu, âm lượng và sắc thái biểu cảm phù hợp với các ngữ cảnh khác nhau như thuyết minh nhẹ nhàng, thông báo sôi nổi hoặc hội thoại đồng cảm. Tuy nhiên, mức độ kiểm soát phụ thuộc vào từng nhà cung cấp – một số chỉ có thanh trượt cơ bản cho tốc độ và cao độ, trong khi số khác cung cấp các tham số chi tiết cho biểu cảm và chất giọng.
Dữ liệu giọng nói được xử lý bởi hệ thống TTS có an toàn không?
Mức độ an toàn của dữ liệu giọng nói xử lý bởi hệ thống TTS phụ thuộc nhiều vào nhà cung cấp và phương thức triển khai. Dịch vụ TTS trên nền tảng đám mây thường mã hóa dữ liệu khi truyền và lưu trữ, nhưng việc gửi thông tin nhạy cảm lên máy chủ bên ngoài vẫn tiềm ẩn rủi ro nếu không có các thỏa thuận và tuân thủ như GDPR hoặc HIPAA. Triển khai tại chỗ hoặc trên thiết bị cục bộ sẽ an toàn hơn vì âm thanh và văn bản không rời khỏi hạ tầng tổ chức, giảm nguy cơ lộ thông tin cho bên thứ ba.
Chi phí triển khai giải pháp TTS chất lượng cao cho doanh nghiệp có thể dao động từ vài trăm đô la mỗi tháng cho các API dựa trên đám mây với mức sử dụng vừa phải, đến hàng chục hoặc hàng trăm nghìn đô la cho phát triển giọng nói tùy chỉnh hoặc triển khai tại chỗ cho doanh nghiệp.
Chi phí triển khai giải pháp TTS chất lượng cao cho doanh nghiệp có thể dao động từ vài trăm đô la mỗi tháng cho API đám mây với mức sử dụng vừa phải, đến hàng chục hoặc hàng trăm nghìn đô cho phát triển giọng nói tùy chỉnh hoặc triển khai doanh nghiệp tại chỗ. Chi phí thường bao gồm phí bản quyền, phí sử dụng theo ký tự hoặc phút, chi phí tích hợp và phát triển, và có thể cả phí thuê giọng nói nếu tạo giọng tùy chỉnh. Doanh nghiệp nhỏ thường bắt đầu với dịch vụ đăng ký, còn doanh nghiệp lớn có thể đầu tư giải pháp riêng để đảm bảo đồng nhất thương hiệu và bảo mật.
Cần bao nhiêu dữ liệu huấn luyện để xây dựng giọng TTS chất lượng cao?
Để xây dựng giọng TTS chất lượng cao thường cần từ vài giờ đến vài chục giờ ghi âm sạch, chuyên nghiệp, tốt nhất là từ cùng một người nói và trong điều kiện ghi âm nhất quán. Các hệ thống TTS hiện đại như Tacotron hoặc FastSpeech có thể đạt chất lượng khá chỉ với 2–5 giờ dữ liệu, nhưng để có giọng nói tự nhiên, biểu cảm và ổn định thường cần 10–20 giờ hoặc hơn. Đối với nhân bản giọng nói hoặc giọng rất biểu cảm, cần bộ dữ liệu lớn hơn và đa dạng về phong cách, cảm xúc, và ngữ cảnh.





.webp)
