- Text-to-speech (TTS) mengubah teks menjadi suara yang terdengar alami dengan menggunakan jaringan saraf untuk menghasilkan prosodi dan kualitas suara yang natural.
- Proses TTS melibatkan pemrosesan teks, analisis linguistik, pembuatan spektrogram, dan sintesis audio dengan vocoder.
- TTS digunakan pada chatbot, sistem navigasi, hiburan, alat kesehatan, dan pendidikan inklusif.
- TTS berkualitas tinggi meningkatkan kejelasan, identitas merek, aksesibilitas, dan kepercayaan pengguna di berbagai industri.
ChatGPT Belanda berbicara dengan aksen Jerman (kadang-kadang). Jika disengaja, itu kejam. Jika tidak, itu menarik.
Bagaimanapun juga, bisa dibilang asisten suara AI sudah sangat berkembang sejak Microsoft’s Sam. Bahkan, perkembangannya jauh lebih pesat dibandingkan saat saya belajar teknologi suara beberapa tahun lalu.
Dan saya di sini untuk membagikan di mana posisi kita saat ini.
Kita sudah membayangkan tentang suara sintetis setidaknya sejak tahun 1968, sejak kemunculan HAL the robot di film 2001: A Space Odyssey.

Alih-alih menjadi sesuatu yang prestisius dan futuristik, kini TTS sudah menjadi standar: 89% konsumen mempertimbangkan pilihannya berdasarkan ada tidaknya dukungan suara pada perangkat.
Dengan kata lain, “Jangan hanya bantu saya; bicara dengan saya”.
Pada artikel ini saya akan membahas text-to-speech—proses mengubah teks menjadi audio lisan. Saya akan menjelaskan cara kerjanya di balik layar, serta berbagai cara teknologi ini digunakan di berbagai industri.
Apa itu Text-to-Speech?
TTS adalah proses mengubah teks menjadi audio lisan yang disintesis. Versi awalnya didasarkan pada pendekatan mekanis meniru saluran vokal manusia dan menggabungkan rekaman suara. Sekarang, sistem TTS menggunakan algoritma deep neural network untuk menghasilkan ucapan yang dinamis dan menyerupai manusia.
Ada berbagai model tergantung kebutuhan, seperti generasi waktu nyata untuk model percakapan, ekspresi yang dapat dikontrol, dan kemampuan meniru suara tertentu.
Bagaimana cara kerja Text-to-Speech?
TTS memiliki 3 langkah utama: pertama, teks masukan diproses untuk mengeja simbol, ekspresi, dan singkatan. Teks yang sudah diproses kemudian dilewatkan ke jaringan saraf yang mengubahnya menjadi representasi akustik (spektrogram). Terakhir, representasi ini diubah menjadi suara.
Seperti yang saya sebutkan, para peneliti telah mencoba berbagai pendekatan untuk TTS. Pendekatan yang kita gunakan sekarang (dan kemungkinan akan bertahan cukup lama) adalah sintesis suara berbasis jaringan saraf.
Memodelkan berbagai lapisan fenomena linguistik yang memengaruhi ucapan—pengucapan, kecepatan, intonasi—adalah tugas yang kompleks.

Bahkan dengan kemampuan jaringan saraf yang hampir ajaib, sistem TTS tetap bergantung pada banyak komponen untuk mendekati ucapan manusia.
Sulit untuk menentukan satu pipeline yang pasti; teknologi baru terus bermunculan dan mengancam membuat teknologi sebelumnya usang.
Ada beberapa komponen umum yang biasanya ada di hampir semua sistem TTS.
1. Pemrosesan Teks
Pemrosesan teks adalah tahap di mana sistem TTS menentukan kata apa yang akan diucapkan. Singkatan, tanggal, dan simbol mata uang dieja, dan tanda baca dihilangkan.
Ini tidak selalu mudah. Apakah “Dr.” berarti dokter atau jalan? Bagaimana dengan CAD? Dolar Kanada atau computer-aided design?
Pemrosesan bahasa alami (NLP) dapat digunakan dalam pemrosesan teks untuk membantu memprediksi interpretasi yang benar berdasarkan konteks sekitar. NLP mengevaluasi bagaimana istilah ambigu (misalnya, “Dr.”) cocok dalam kalimat secara keseluruhan, jadi dalam frasa “Dr. Perron menyarankan untuk tidak melakukannya”, NLP akan mengartikan dr. sebagai dokter.
2. Analisis Linguistik
Setelah teks diproses, model beralih dari “Apa yang harus saya katakan?” menjadi “Bagaimana saya harus mengatakannya?”
Analisis linguistik adalah bagian dari TTS yang menentukan bagaimana sebuah kalimat harus diucapkan dari segi nada, intonasi, dan durasi. Dengan kata lain:
- Berapa lama setiap bunyi, suku kata, atau kata harus diucapkan?
- Apakah intonasi harus naik? Turun?
- Kata mana yang harus diberi penekanan?
- Bagaimana perubahan volume bisa mencerminkan emosi yang dimaksudkan?
Mengapa Prosodi Penting
Sedikit cerita: Saya pernah menjadi konsultan untuk tim yang membangun model TTS. Di situ saya sadar betapa prosodi sangat menentukan kejelasan sebuah kalimat. Saya akan tunjukkan maksudnya.
Berikut adalah 3 cara pengucapan kalimat “Whoa, were you expecting that?”
Yang pertama sangat bagus. Ada jeda setelah “Whoa”, infleksi naik pada suku kata kedua “expecting” (ex-PEC-ting). Nilai 10 dari 10.
Yang kedua hanya sedikit menangkap nuansa pertanyaan dengan infleksi naik di kata terakhir (“... expecting THAT”). Selain itu, suku kata lainnya hampir sama panjang, tanpa variasi volume atau nada. Saya akan menyarankan klien saya untuk “coba lagi dari awal”.
Yang terakhir cukup menarik: “whoa” diucapkan dengan keras, panjang, dan nada menurun. Infleksi naik pada pertanyaan terjadi di bagian “were you”, dan nadanya hampir datar sepanjang bagian itu.
Di sinilah banyak sistem TTS kelas menengah berhenti: hasilnya cukup masuk akal, tapi bukan seperti cara manusia biasanya mengucapkannya—setidaknya di kebanyakan konteks.
Pada sistem lama, kualitas-kualitas ini diprediksi oleh komponen terpisah: satu model menghitung durasi setiap bunyi, model lain memetakan pola naik-turun nada.
Sekarang, semuanya lebih kabur.
Jaringan saraf cenderung mempelajari pola-pola ini sendiri dengan menyerap detail halus dari dataset pelatihan yang sangat besar.
3. Pemodelan Akustik
Pemodelan akustik adalah tahap di mana teks yang sudah dinormalisasi (dan fitur linguistik yang diprediksi, jika ada) dimasukkan ke jaringan saraf yang menghasilkan representasi antara.
Spektrogram dan Representasi Ucapan
Representasi antara ini biasanya berupa spektrogram—representasi frekuensi terhadap waktu dari sinyal audio—meskipun hal ini mulai berubah.
Berikut adalah representasi yang dihasilkan oleh model TTS dari teks masukan kita “Whoa, were you expecting that?”:

Gambar dua dimensi ini sebenarnya terdiri dari 146 irisan vertikal, masing-masing berisi 80 frekuensi. Frekuensi yang lebih kuat tampak lebih terang, sedangkan yang lemah tampak gelap.
Inilah tampilan langkah ke-10 (atau kolom) setelah diputar 90 derajat ke kanan:

Anda bisa melihat frekuensi-frekuensi individual dan energinya.
Sekilas, spektrogram mungkin tampak tidak berarti, tapi ada fenomena linguistik yang jelas di sini:
- Garis-garis jelas yang bergelombang itu adalah vokal atau bunyi mirip vokal seperti /w/, /r/, dan /l/.
- Titik-titik gelap menunjukkan keheningan. Itu bisa jadi jeda karena tanda baca.
- Gumpalan energi di bagian atas menunjukkan noise, seperti suara /s/, /sh/, dan /f/
Bahkan, Anda bisa mencocokkan kata-kata dengan spektrogram jika diperhatikan baik-baik.

Spektrogram, dalam berbagai bentuknya, banyak digunakan dalam teknologi suara karena merupakan penghubung yang baik antara suara mentah dan teks.
Dua rekaman kalimat yang sama dari pembicara berbeda akan memiliki bentuk gelombang yang sangat berbeda, tapi spektrogramnya sangat mirip.
4. Sintesis Audio (Vocoding)
Tahap sintesis adalah saat spektrogram diubah menjadi audio.
Teknologi yang melakukan konversi ini disebut vocoder. Ini adalah model jaringan saraf yang dilatih untuk merekonstruksi sinyal suara berdasarkan representasi spektrogramnya.
Alasan memisahkan representasi dan pemodelan sinyal suara ke dalam modul terpisah adalah soal kontrol: yang pertama fokus pada pemodelan pengucapan dan pelafalan kata secara akurat, sedangkan yang berikutnya berkaitan dengan gaya dan realisme penyampaian.
Dengan spektrogram, kita bisa membedakan antara /s/ dan /sh/, atau /ee/ (seperti pada heat) dan /ih/ (seperti pada hit), namun gaya dan karakter suara berasal dari detail halus yang dihasilkan oleh vocoder.
Berikut adalah perbandingan kombinasi antara berbagai model akustik dan vocoder. Ini menunjukkan bagaimana peneliti menggabungkan model akustik dan vocoder, serta mengoptimalkan hasil terbaik secara keseluruhan.
Namun sekali lagi, seperti komponen lainnya, kita mulai melihat penggunaan spektrogram mulai ditinggalkan demi model all-in-one.
Apa saja Kegunaan TTS?
Kemampuan menghasilkan bahasa lisan secara dinamis adalah alat penting di berbagai industri.
Bukan hanya soal asisten robot canggih – teknologi ini membantu kita mencapai efisiensi, aksesibilitas, dan keamanan.
Chatbot dan Asisten Suara
Kamu pasti sudah menduganya 😉
Mulai dari memahami perintah, memperbarui daftar belanja, hingga mengatur janji, mudah untuk menganggap remeh kecanggihan—dan pentingnya—suara sintetis pada agen AI.
Agen yang baik (yaitu yang mudah digunakan) harus memiliki suara yang sesuai: cukup ramah untuk menerima perintah, dan cukup manusiawi agar pengguna percaya ia bisa menjalankannya.
Banyak riset dan rekayasa dilakukan untuk memikat pengguna dalam sepersekian detik saat memutuskan apakah asisten AI terdengar “tepat”.
Dari sisi bisnis: chatbot Anda mewakili merek Anda. Kemajuan teknologi TTS berarti lebih banyak pilihan untuk branding suara yang lebih baik dan layanan pelanggan yang lebih efektif.
Navigasi dan Transportasi
Tidak ada yang membuat Anda menyadari betapa pentingnya TTS seperti saat GPS Anda salah mengucapkan nama jalan ketika Anda sedang menyetir.
Navigasi GPS adalah contoh di mana TTS sangat berguna: mata kita sibuk, dan menyampaikan informasi secara audio bukan hanya soal kenyamanan, tapi juga soal keselamatan.
Hal ini juga berlaku di bandara dan sistem transportasi umum. Untuk sistem yang rumit dan padat seperti stasiun kereta dan terminal bandara, suara sintetis sangat penting.
Tanpa TTS, kita mengandalkan pengumuman langsung yang seringkali terburu-buru dan sulit dipahami, atau rekaman nama, terminal, waktu, dan sebagainya yang disatukan, yang sejujurnya sulit didengarkan.
Dengan penelitian yang menunjukkan kaitan kuat antara kealamian dan keterpahaman, TTS berkualitas tinggi menjadi keharusan untuk industri transportasi yang andal.
Hiburan dan Media
Narasi dan media multibahasa kini semakin mudah diakses berkat kemajuan teknologi suara sintetis.
Alih-alih menggantikan talenta, teknologi suara membantu memperkuat penampilan dramatis.
Val Kilmer, yang kehilangan suaranya akibat kanker tenggorokan, tetap dapat tampil dengan suara aslinya di Top Gun: Maverick (2022) berkat AI.
TTS juga memungkinkan pengembang gim memberikan ucapan beragam dan ekspresif pada karakter non-pemain (NPC), sesuatu yang sebelumnya sulit dilakukan.
Kesehatan
Kemajuan TTS berarti peningkatan aksesibilitas di berbagai bidang.
Teknologi perawatan lansia mengatasi masalah pendampingan dan bantuan sekaligus. Teknologi ini mengandalkan kemampuan kustomisasi TTS: nada penuh empati, kecepatan variatif, dan intonasi yang cermat adalah bagian dari bantuan yang efektif dan bermartabat.
TTS juga digunakan untuk meningkatkan aksesibilitas bagi anak-anak muda.
Acapela Group mengembangkan, antara lain, teknologi untuk anak-anak dengan gangguan produksi bicara. Suara sintetis memperluas kemampuan ekspresi dan kemandirian mereka, sambil tetap menjaga karakteristik suara mereka.
Pendidikan dan Pembelajaran Inklusif
Kita sering menemui suara sintetis di aplikasi pembelajaran bahasa. Tapi itu baru permulaan.
Misalnya, salah satu hambatan dalam pembelajaran mandiri adalah kemampuan membaca. Bagi anak-anak, penyandang tunanetra, dan beberapa disabilitas belajar, hal itu belum tentu memungkinkan. Ini membebani guru yang sudah kewalahan di kelas yang padat.
Sebuah district sekolah di California telah menerapkan TTS untuk menciptakan lingkungan belajar yang lebih inklusif bagi siswa berkebutuhan khusus.
Sama seperti pada perawatan lansia, teknologi pendidikan mengandalkan suara penuh empati yang berbicara dengan jelas dan penekanan yang tepat. Parameter yang dapat diubah memungkinkan guru mengintegrasikan teknologi ini ke dalam pelajaran mereka, membantu siswa merasa lebih diterima.
Dapatkan TTS Terbaik untuk Kebutuhan Anda
Apa pun industrinya, bisa dibilang AI suara sangat relevan. Dan TTS yang Anda gunakan secara harfiah menjadi suara bisnis Anda, jadi harus dapat diandalkan dan mudah disesuaikan.
Botpress memungkinkan Anda membangun bot yang kuat dan sangat dapat dikustomisasi dengan berbagai integrasi dan penyebaran di semua saluran komunikasi umum. Agen suara Anda tidak hanya akan mengesankan, tapi juga benar-benar berfungsi.
Mulai bangun hari ini. Gratis.
FAQ
Apakah ada bahasa atau dialek yang sulit didukung oleh sistem TTS?
Ya, ada bahasa dan dialek yang sulit didukung oleh sistem TTS, terutama bahasa dengan sumber daya terbatas yang kekurangan kumpulan data rekaman suara dan teks yang besar. Variasi seperti dialek daerah, bahasa tonal, dan bahasa adat sering menjadi tantangan karena membutuhkan aturan pengucapan dan prosodi yang rumit yang belum dilatih oleh model standar. Bahkan untuk bahasa yang banyak digunakan, perbedaan dialek bisa menyebabkan salah ucap atau suara yang terdengar tidak alami.
Sejauh mana suara TTS dapat disesuaikan dalam hal nada, kecepatan, dan emosi?
Suara TTS saat ini sangat dapat dikustomisasi dalam hal nada, kecepatan, dan emosi, berkat arsitektur jaringan saraf modern yang memungkinkan kontrol detail atas prosodi dan gaya. Banyak sistem TTS komersial memungkinkan pengguna mengatur kecepatan bicara, pola intonasi, volume, dan nada ekspresif sesuai konteks, seperti narasi tenang, pengumuman bersemangat, atau dialog penuh empati. Namun, tingkat kontrolnya berbeda-beda tergantung penyedia—ada yang hanya menyediakan pengaturan dasar untuk kecepatan dan nada, sementara yang lain menawarkan parameter detail untuk ekspresi emosi dan warna suara.
Seberapa aman data suara yang diproses oleh sistem TTS?
Keamanan data suara yang diproses oleh sistem TTS sangat bergantung pada penyedia dan metode penerapannya. Layanan TTS berbasis cloud biasanya mengenkripsi data saat dikirim dan disimpan, namun mengirim data sensitif ke server eksternal tetap berisiko jika tidak ada perjanjian dan kepatuhan seperti GDPR atau HIPAA. Penerapan di lingkungan lokal atau edge menawarkan keamanan lebih tinggi karena audio dan teks tidak pernah meninggalkan infrastruktur organisasi, sehingga mengurangi risiko pihak ketiga.
Seberapa mahal menerapkan solusi TTS berkualitas tinggi untuk bisnis?
Menerapkan solusi TTS berkualitas tinggi untuk bisnis bisa mulai dari beberapa ratus dolar AS per bulan untuk API cloud dengan penggunaan sedang, hingga puluhan atau ratusan ribu dolar AS untuk pengembangan suara khusus atau penerapan enterprise di lingkungan lokal. Biaya biasanya mencakup lisensi, biaya penggunaan per karakter atau per menit, biaya integrasi dan pengembangan, serta mungkin biaya talenta suara jika membuat suara khusus. Bisnis kecil biasanya memulai dengan layanan berbasis langganan, sedangkan perusahaan besar bisa berinvestasi pada solusi khusus demi konsistensi merek dan privasi.
Berapa banyak data pelatihan yang dibutuhkan untuk membangun suara TTS berkualitas tinggi?
Membangun suara TTS berkualitas tinggi biasanya membutuhkan beberapa jam hingga puluhan jam rekaman suara yang bersih dan profesional, idealnya dari pembicara yang sama dan dalam kondisi rekaman yang konsisten. Sistem TTS neural modern seperti Tacotron atau FastSpeech bisa mencapai kualitas baik dengan data 2–5 jam, tapi untuk suara yang sangat alami, ekspresif, dan andal biasanya dibutuhkan 10–20 jam atau lebih. Untuk kloning suara atau suara yang sangat ekspresif, diperlukan kumpulan data yang lebih besar dan rekaman beragam dalam berbagai gaya, emosi, dan konteks.





.webp)
