- Teks ke ucapan (TTS) menukar teks kepada suara yang realistik menggunakan rangkaian neural untuk prosodi semula jadi dan kualiti suara.
- Saluran TTS memproses teks, menganalisis linguistik, menghasilkan spektrogram, dan mensintesis audio dengan vocoder.
- TTS digunakan dalam chatbot, sistem navigasi, hiburan, alat kesihatan, dan pendidikan inklusif.
- TTS berkualiti tinggi meningkatkan kejelasan, suara jenama, kebolehcapaian, dan kepercayaan pengguna merentas industri.
ChatGPT Belanda bercakap dengan loghat Jerman (kadang-kadang). Jika sengaja, ia agak kejam. Jika tidak, ia memang menarik.
Apa pun, jelas bahawa pembantu suara AI telah berkembang jauh dari Microsoft Sam. Malah, ia sudah jauh berbeza sejak saya belajar teknologi pertuturan beberapa tahun lalu.
Dan saya di sini untuk berkongsi di mana kita berada sekarang.
Kita telah membayangkan tentang suara sintetik sekurang-kurangnya sejak 1968, sejak kemunculan HAL the robot dalam filem 2001: A Space Odyssey.

Jauh daripada menjadi sesuatu yang eksklusif dan futuristik, ia kini menjadi kebiasaan: 89% pengguna mempertimbangkan pilihan peranti berdasarkan sama ada ia menyokong suara atau tidak.
Dengan kata lain, "Jangan hanya bantu saya; bercakaplah dengan saya".
Dalam artikel ini saya akan bincangkan tentang teks ke ucapan – penukaran teks kepada audio pertuturan. Saya akan terangkan apa yang berlaku di sebalik tabir, dan pelbagai cara teknologi ini digunakan dalam pelbagai industri.
Apa itu Teks ke Ucapan?
TTS ialah proses menukar teks kepada audio pertuturan sintetik. Versi awal berdasarkan pendekatan mekanikal menyerupai saluran vokal manusia dan menggabungkan rakaman audio. Kini, sistem TTS menggunakan algoritma rangkaian neural mendalam untuk menghasilkan pertuturan yang dinamik dan menyerupai manusia.
Terdapat pelbagai model bergantung pada kegunaan, seperti penjanaan masa nyata untuk model perbualan, ekspresi yang boleh dikawal, dan keupayaan meniru suara.
Bagaimana Teks ke Ucapan berfungsi?
TTS mempunyai 3 langkah utama: pertama, teks input diproses untuk mengeja simbol, ekspresi dan singkatan. Teks yang telah diproses kemudian melalui rangkaian neural yang menukarkannya kepada representasi akustik (spektrogram). Akhir sekali, representasi ini ditukar menjadi pertuturan.
Seperti yang saya sebutkan, penyelidik telah mencuba pelbagai pendekatan untuk TTS. Pendekatan yang kita gunakan sekarang (dan mungkin kekal untuk seketika) ialah sintesis pertuturan berasaskan rangkaian neural.
Memodelkan lapisan fenomena linguistik yang mempengaruhi pertuturan– sebutan, kelajuan, intonasi– adalah tugas yang rumit.

Walaupun dengan keupayaan 'kotak hitam' rangkaian neural, sistem TTS masih memerlukan pelbagai komponen untuk menghampiri pertuturan manusia.
Sukar untuk menentukan satu rangkaian tepat; teknologi baru sentiasa muncul, mengancam untuk menggantikan yang lama.
Namun, terdapat beberapa komponen umum yang wujud dalam kebanyakan sistem TTS dalam satu bentuk atau lain.
1. Pemprosesan Teks
Pemprosesan teks ialah langkah di mana sistem TTS menentukan perkataan mana yang akan disebut. Singkatan, tarikh, dan simbol mata wang akan dieja sepenuhnya, dan tanda baca dibuang.
Ini tidak selalu mudah. Adakah "Dr." bermaksud doktor atau jalan? Bagaimana pula dengan CAD? Dolar Kanada atau reka bentuk berbantukan komputer?
Pemprosesan bahasa semula jadi (NLP) boleh digunakan dalam pemprosesan teks untuk membantu meramalkan tafsiran yang betul berdasarkan konteks sekeliling. Ia menilai bagaimana istilah yang samar (contohnya, "Dr.") sesuai dalam keseluruhan ayat, jadi dalam frasa "Dr. Perron menasihatkan supaya tidak melakukannya", NLP akan mentafsir dr. sebagai doktor.
2. Analisis Linguistik
Selepas teks diproses, model beralih daripada "Apa yang patut saya katakan?" kepada "Bagaimana patut saya katakan?"
Analisis linguistik ialah bahagian TTS yang menentukan bagaimana sesuatu ayat harus disampaikan dari segi nada, intonasi dan tempoh. Dalam erti kata lain:
- Berapa lama setiap bunyi, suku kata, atau perkataan perlu diucapkan?
- Adakah intonasi perlu naik? Turun?
- Perkataan mana yang ditekankan?
- Bagaimana perubahan kelantangan boleh menggambarkan emosi yang dimaksudkan?
Kenapa Prosodi Penting
Kisah ringkas: Saya pernah menjadi perunding untuk pasukan yang membina model TTS. Ketika itu jelas betapa prosodi sangat mempengaruhi kefahaman sesuatu ayat. Saya akan tunjukkan maksud saya.
Berikut ialah 3 cara menyampaikan ayat "Whoa, were you expecting that?"
Yang pertama sangat baik. Jeda selepas "Whoa", intonasi naik pada suku kata kedua "expecting" (ex-PEC-ting). 10/10.
Yang kedua hampir-hampir menyerupai soalan dengan intonasi naik pada perkataan terakhir ("... expecting THAT"). Selain itu, suku kata lain hampir sama panjang, tanpa variasi kelantangan atau nada. Saya akan nasihatkan klien saya untuk "cuba lagi".
Yang terakhir agak menarik: "whoah" sangat baik– kuat, panjang, dan dengan lengkung menurun. Intonasi naik untuk soalan berlaku sepanjang "were you", dan nadanya hampir sama sepanjang masa.
Di sinilah kebanyakan sistem TTS pertengahan berhenti: cukup mudah dengan penyampaian yang boleh diterima. Tapi sebenarnya, bukan begitu cara anda akan menyebutnya– sekurang-kurangnya dalam kebanyakan konteks.
Dalam sistem lama, ciri-ciri ini diramalkan oleh komponen berasingan: satu model mengira berapa lama setiap bunyi perlu disebut, satu lagi menentukan naik turun nada.
Kini, keadaannya menjadi lebih samar.
Rangkaian neural cenderung mempelajari corak ini sendiri dengan menyerap perincian halus daripada set data latihan yang besar.
3. Pemodelan Akustik
Pemodelan akustik ialah peringkat di mana teks yang telah dinormalisasi (dan ciri linguistik yang diramalkan, jika ada) dimasukkan ke dalam rangkaian neural yang menghasilkan representasi perantaraan.
Spektrogram dan Representasi Pertuturan
Representasi perantaraan biasanya ialah spektrogram – gambaran frekuensi mengikut masa bagi isyarat audio – walaupun ini sedang berubah.
Ini ialah representasi yang dihasilkan oleh model TTS daripada input teks kita "Whoa, were you expecting that?":

Imej dua dimensi ini sebenarnya terdiri daripada 146 potongan menegak, setiap satu mengandungi 80 frekuensi. Frekuensi yang lebih kuat lebih cerah, dan yang lemah lebih gelap.
Beginilah rupa langkah masa ke-10 (atau lajur), diputar 90 darjah ke kanan:

Anda boleh lihat frekuensi individu dan tenaganya.
Pada pandangan pertama, spektrogram nampak biasa sahaja, tetapi beberapa fenomena linguistik jelas kelihatan di sini:
- Garis-garis gelombang yang jelas itu ialah vokal atau bunyi seakan vokal seperti /w/, /r/, dan /l/.
- Tompok gelap mewakili senyap. Itu mungkin jeda untuk tanda baca.
- Kumpulan tenaga di bahagian atas mewakili bunyi hingar, seperti bunyi /s/, /sh/, dan /f/
Malah, anda boleh sejajarkan perkataan dalam spektrogram jika anda perhatikan betul-betul.

Spektrogram, dalam pelbagai bentuknya, digunakan secara meluas dalam teknologi pertuturan kerana ia adalah perantara yang sangat baik antara pertuturan mentah dan teks.
Dua rakaman ayat yang sama oleh penutur berbeza akan mempunyai gelombang bunyi yang sangat berbeza, tetapi spektrogram yang hampir serupa.
4. Mensintesis Audio (Vocoding)
Peringkat sintesis ialah di mana spektrogram ditukar menjadi audio.
Teknologi yang melakukan penukaran ini dipanggil vocoder. Ia adalah model rangkaian neural yang dilatih untuk membina semula isyarat pertuturan berdasarkan representasi spektrogram mereka.
Sebab pemisahan antara representasi dan pemodelan isyarat pertuturan kepada modul berasingan adalah untuk kawalan: yang pertama bertujuan memodelkan sebutan dan penyampaian perkataan dengan tepat, manakala yang seterusnya berkaitan gaya dan realistiknya penyampaian.
Dengan spektrogram, kita boleh membezakan antara /s/ dan /sh/, atau /ee/ (seperti dalam heat) dan /ih/ (seperti dalam hit), tetapi gaya dan personaliti datang daripada perincian halus yang dihasilkan oleh vocoder.
Ini adalah perbandingan kombinasi antara pelbagai model akustik dan vocoder. Ia menunjukkan bagaimana penyelidik menggabungkan model akustik dan vocoder, serta mengoptimumkan untuk hasil keseluruhan terbaik.
Namun, seperti komponen lain, kita kini melihat penggunaan spektrogram semakin digantikan oleh model serba lengkap.
Apakah Kegunaan TTS?
Keupayaan untuk menjana bahasa pertuturan dinamik adalah alat penting merentas pelbagai industri.
Ia bukan sekadar mengenai pembantu robot canggih – ia membantu kita mencapai kecekapan, kebolehcapaian, dan keselamatan.
Chatbot dan Pembantu Suara
Anda pasti sudah menjangkakannya 😉
Antara memahami arahan anda, mengemas kini senarai barangan, dan menetapkan janji temu, mudah untuk mengambil mudah kecanggihan– dan kepentingan– pertuturan sintetik dalam agen AI.
Agen yang baik (iaitu boleh digunakan) perlu mempunyai suara yang sesuai: cukup mesra untuk menerima arahan, dan cukup manusiawi untuk meyakinkan pengguna bahawa ia mampu melaksanakannya.
Banyak penyelidikan dan kejuruteraan dilakukan untuk memenangi hati pengguna dalam detik singkat ketika mereka memutuskan sama ada pembantu AI itu kedengaran "betul" atau tidak.
Dari sudut perniagaan: chatbot anda mewakili jenama anda. Penambahbaikan dalam teknologi TTS bermakna lebih banyak pilihan untuk penjenamaan suara yang lebih baik dan khidmat pelanggan yang lebih berkesan.
Navigasi dan Pengangkutan
Tiada apa yang membuat anda sedar betapa pentingnya TTS yang baik seperti apabila GPS anda tersalah sebut nama jalan ketika anda sedang memandu.
Navigasi GPS adalah contoh terbaik di mana TTS sangat berguna: mata kita sibuk, dan penyampaian maklumat secara audio bukan sahaja soal kemudahan, tetapi juga keselamatan.
Ini juga benar di lapangan terbang dan sistem pengangkutan awam. Untuk sistem yang rumit dan berkapasiti tinggi seperti stesen kereta api dan terminal lapangan terbang, pertuturan sintetik sangat penting.
Tanpa TTS, kita bergantung pada pengumuman langsung, yang selalunya tergesa-gesa dan sukar difahami, atau rakaman nama, terminal, masa dan sebagainya yang digabungkan, yang sebenarnya sukar didengar.
Dengan kajian menunjukkan hubungan antara keaslian dan kefahaman yang kuat, TTS berkualiti tinggi adalah keperluan untuk industri pengangkutan yang kukuh.
Hiburan dan Media
Penceritaan dan media berbilang bahasa kini lebih mudah diakses dengan kemajuan teknologi pertuturan sintetik.
Teknologi pertuturan bukan menggantikan bakat, tetapi membantu memperkukuh persembahan dramatik.
Val Kilmer, yang kehilangan suaranya akibat kanser tekak, dapat menyampaikan persembahan penuh emosi dengan suara asalnya dalam Top Gun: Maverick (2022) berkat AI.
TTS juga membolehkan pembangun permainan memberikan pelbagai ungkapan ekspresif kepada watak bukan pemain (NPC), sesuatu yang sukar dilakukan sebelum ini.
Penjagaan Kesihatan
Penambahbaikan dalam TTS bermakna penambahbaikan kebolehcapaian untuk semua.
Teknologi penjagaan warga emas menangani isu teman dan bantuan secara serentak. Teknologi ini bergantung pada kebolehsuaian yang ditawarkan oleh TTS: nada penuh empati, kelajuan berubah-ubah, dan intonasi yang teliti adalah sebahagian daripada bantuan berkesan dan bermaruah.
TTS juga digunakan untuk meningkatkan kebolehcapaian dalam kalangan golongan muda.
Acapela Group membangunkan, antara lain, teknologi untuk kanak-kanak yang mengalami gangguan penghasilan pertuturan. Pertuturan sintetik memperluas keupayaan ekspresi dan kebebasan mereka, sambil mengekalkan ciri vokal mereka.
Pendidikan dan Pembelajaran Inklusif
Kita pernah menemui pertuturan sintetik dalam aplikasi pembelajaran bahasa. Tetapi itu hanyalah permukaan sahaja.
Sebagai contoh, salah satu halangan dalam pembelajaran kendiri ialah keupayaan membaca. Bagi kanak-kanak, individu kurang upaya penglihatan, dan sesetengah masalah pembelajaran, itu tidak semestinya boleh dilakukan. Ini meletakkan beban besar kepada guru yang sudah pun terbeban di kelas yang sesak.
Sebuah daerah sekolah di California telah melaksanakan TTS untuk mewujudkan persekitaran pembelajaran yang lebih inklusif untuk pelajar berkeperluan khas.
Seperti juga dalam penjagaan warga emas, teknologi pendidikan bergantung pada suara penuh empati yang menyampaikan dengan jelas dan penekanan yang tepat. Parameter yang boleh diubah membolehkan guru mengintegrasikan teknologi ini ke dalam pengajaran mereka, membantu pelajar berasa lebih disertakan.
Dapatkan TTS Terbaik untuk Keperluan Anda
Tidak kira industri anda, jelas bahawa AI suara sangat relevan. Dan TTS yang anda gunakan secara literal mewakili perniagaan anda, jadi ia perlu boleh dipercayai dan boleh disesuaikan.
Botpress membolehkan anda membina bot yang berkuasa dan sangat boleh disesuaikan dengan pelbagai integrasi dan penyebaran di semua saluran komunikasi utama. Agen suara anda bukan sahaja akan mengagumkan, malah ia akan berfungsi.
Mula bina hari ini. Ia percuma.
Soalan Lazim
Adakah terdapat bahasa atau dialek yang sukar disokong oleh sistem TTS?
Ya, memang terdapat bahasa dan dialek yang sukar disokong oleh sistem TTS, terutamanya bahasa sumber rendah yang kekurangan set data rakaman pertuturan dan teks yang besar. Variasi seperti dialek serantau, bahasa bertona, dan bahasa asli sering menjadi cabaran kerana memerlukan peraturan sebutan dan prosodi yang lebih terperinci berbanding model standard yang sedia ada. Malah untuk bahasa yang meluas, perbezaan dialek boleh menyebabkan sebutan yang salah atau pertuturan yang kedengaran tidak semula jadi.
Sejauh mana suara TTS boleh disesuaikan dari segi nada, kelajuan, dan emosi?
Suara TTS hari ini sangat boleh disesuaikan dari segi nada, kelajuan, dan emosi, hasil daripada seni bina rangkaian neural moden yang membolehkan kawalan terperinci ke atas prosodi dan gaya. Banyak sistem TTS komersial membenarkan pengguna melaraskan kadar pertuturan, corak intonasi, volum, dan nada ekspresif untuk disesuaikan dengan pelbagai konteks, seperti penceritaan tenang, pengumuman bersemangat, atau dialog penuh empati. Namun, tahap kawalan berbeza mengikut penyedia—ada yang hanya menawarkan pelaras asas untuk kelajuan dan nada, manakala yang lain membenarkan parameter terperinci untuk ekspresi emosi dan warna suara.
Sejauh mana keselamatan data suara yang diproses oleh sistem TTS?
Keselamatan data suara yang diproses oleh sistem TTS sangat bergantung kepada penyedia dan kaedah pelaksanaan. Perkhidmatan TTS berasaskan awan biasanya menyulitkan data semasa penghantaran dan ketika disimpan, tetapi menghantar maklumat sensitif ke pelayan luar masih boleh menimbulkan risiko privasi jika perjanjian dan pematuhan seperti GDPR atau HIPAA tidak dipenuhi. Pelaksanaan di premis atau di hujung rangkaian menawarkan keselamatan lebih tinggi kerana audio dan teks tidak meninggalkan infrastruktur organisasi, mengurangkan pendedahan kepada pihak ketiga.
Berapakah kos untuk melaksanakan penyelesaian TTS berkualiti tinggi untuk perniagaan?
Melaksanakan penyelesaian TTS berkualiti tinggi untuk perniagaan boleh bermula dari beberapa ratus dolar sebulan untuk API berasaskan awan dengan penggunaan sederhana, hingga puluhan atau ratusan ribu untuk pembangunan suara khusus atau pelaksanaan perusahaan di premis. Kos biasanya merangkumi yuran lesen, kos penggunaan mengikut aksara atau minit, usaha integrasi dan pembangunan, serta mungkin yuran bakat suara jika mencipta suara tersendiri. Perniagaan kecil selalunya bermula dengan perkhidmatan langganan, manakala perusahaan besar mungkin melabur dalam penyelesaian khusus untuk konsistensi jenama dan privasi.
Berapa banyak data latihan diperlukan untuk membina suara TTS berkualiti tinggi?
Membina suara TTS berkualiti tinggi biasanya memerlukan beberapa jam hingga berpuluh jam rakaman pertuturan yang bersih dan profesional, sebaiknya daripada pembicara yang sama dan dalam keadaan rakaman yang konsisten. Sistem TTS neural moden seperti Tacotron atau FastSpeech boleh mencapai kualiti yang baik dengan hanya 2–5 jam data, tetapi untuk suara yang sangat semula jadi, ekspresif, dan kukuh, biasanya diperlukan 10–20 jam atau lebih. Untuk klon suara atau suara yang sangat ekspresif, set data yang lebih besar dan rakaman pelbagai gaya, emosi, dan konteks diperlukan.





.webp)
