Artikel ditulis oleh:
Thursy Satriani
Machine Learning Engineer

Jika anda ingin melakukan transkripsi dari audio file anda dapat menggunakan pre-trained Google API yang bernama Speech-to-text API. Selain dapat menghasilkan teks dari audio file seperti MP3, API ini mendukung transkripsi terhadap lebih dari 125 bahasa, dapat melakukan transkripsi terhadap bermacam macam audio encoding seperti MP3, FLAC, Linear PCM dan lainnya.

Menggunakan Speech to text API terbilang mudah, dokumentasinya lengkap disediakan oleh Google di laman produk Speech-to-text. Namun bagaimana jika anda ingin menggunakan service Speech-to-text API tanpa harus mengerti bahasa pemrograman Go, Java, Python, atau Node.js, anda dapat memanfaatkan user interface (UI) console yang disediakan oleh Google Cloud.

Untuk dapat menggunakan service tersebut, anda diharuskan untuk mengaktifkan billing dan API. untuk mengaktifkan billing anda harus menyiapkan informasi yang berkaitan dengan kartu kredit anda, namun jika anda tidak ingin menggunakan kartu kredit, anda dapat memanfaatkan partner billing yang merupakan layanan yang disediakan oleh Google Cloud Partner, seperti Cloud Ace Indonesia. 

Mari kita mulai untuk menggunakan Speech-to-text UI Console. Anda dapat mengakses console melalui https://console.cloud.google.com/speech. Jika Cloud Speech-to-text API belum diaktifkan, klik tombol ENABLE seperti yang ditampilkan pada gambar berikut.

Gambar1. Mengaktifkan API dengan klik ENABLE

Setelah API aktif, anda akan secara otomatis dialihkan ke laman Cloud Speech-to-text UI Console seperti yang ditampilkan  pada gambar berikut ini.

Gambar2.Speech-to-Text

Speech-to-text UI console memiliki tampilan yang mudah dipahami. Jika anda meletakkan kursor anda di atas logo Speech-to-text, akan muncul 3 pilihan yaitu Overview, Transcriptions, dan Model Adaptations. Pilihan Overview akan membawa kita kembali ke halaman utama seperti yang ditampilkan pada Gambar 2. Menu Transcriptions memungkinkan anda untuk melakukan transkripsi audio ke text. Menu ini yang akan dibahas lebih lanjut di artikel ini. Menu yang terakhir adalah Model Adaptation. Model Adaptation memungkinkan anda menambahkan daftar kata yang kita tahu akan muncul dalam transkripsi. Dengan menambahkan daftar kata, model akan menggunakannya dalam transkripsi, akurasi yang dihasilkan dapat meningkat.

Gambar3. Menu yang tersedia dalam Speech-to-Text API

Melakukan Transkripsi Audio ke Text

Untuk memulai melakukan transkripsi, pilih menu Transcriptions. Klik pilihan NEW TRANSCRIPTION. Untuk melakukan transkripsi anda diharuskan memilih workspace atau membuat workspace baru. Pada dasarnya sebuah workspace merupakan Google Cloud Storage bucket yang digunakan untuk menyimpan aset Speech-to-text seperti konfigurasi, audio file, dan hasil transkripsi.

Seperti yang dilihat pada gambar dibawah ini, tahap pertama anda perlu melakukan konfigurasi berdasarkan audio file yang ingin anda transkripsikan mulai dari menyiapkan audio file yang ingin anda transkripsikan, jenis enkoding, sampling rate, hingga jumlah channel. Audio file dapat disimpan terlebih dahulu di Google Cloud Storage atau dapat mengunggah file langsung dari local computer. File yang diunggah dari local computer akan tersimpan di Cloud Storage bucket yang dipilih sebagai Workspace. 

Encoding type dapat dipilih berdasarkan jenis audio file anda. Jika audio file yang akan ditranskripsi adalah MP3 maka pilih MP3 sebagai encoding type. Sampling rate dapat dipilih dalam kisaran 8 KHz hingga 48 KHz. Sebaiknya sampling rate dari audio yang ditranskripsi minimal memiliki sampling rate 16 KHz, anda dapat melakukan transkripsi terhadap audio yang memiliki sampling rate 8 KHz namun akurasinya dapat berkurang. Untuk mengetahui best practice Speech-to-text API. Informasi mengenai jumlah channel juga bisa disediakan, harga yang dikenakan pada proses transkripsi adalah perjumlah channel. 

Gambar4. Tampilan laman New Transcription – Audio Configuration

Tahap kedua adalah memilih bahasa dan model yang digunakan untuk transkripsi. Cloud Speech-to-Text API mendukung lebih dari 125 bahasa dengan berbagai recognition model dan feature. Recognition model yang tersedia adalah default, command and search, telephone dan video. 

Model video digunakan untuk transkripsi potongan video atau audio file yang bersumber dari video. Model ini juga cocok untuk video yang memiliki pembicara lebih dari satu. Untuk hasil yang optimal, pastikan sampling rate untuk audio yang terekam adalah 16KHz atau lebih. 

Model telephone digunakan untuk transkripsi audio file yang berasal dari percakapan telephone yang direkam, biasanya memiliki sampling rate 8KHz. 

Model command and search digunakan untuk potongan audio berdurasi pendek, contohnya voice command atau voice search. 

Selain model yang disebutkan sebelumnya, anda juga dapat menggunakan model default. Jika audio anda bukan berasal dari video atau percakapan telephone, apalagi jika durasi audio yang anda miliki berdurasi panjang- lebih besar dari 1 menit atau kurang dari 480 menit, anda dapat menggunakan model ini. Sampling rate yang ideal untuk model ini adalah 16KHz atau lebih. 

Model telephone dan video masih terbatas untuk bahasa tertentu saja, biaya yang dikenakan untuk transkripsi menggunakan model ini lebih tinggi dari model default. Untuk bahasa Indonesia, tidak tersedia model telepon dan video, anda hanya dapat menggunakan model default atau model command and search.

Gambar5. Tampilan laman New Transcription – Transcription options

Tahap yang ketiga adalah menambahkan daftar kata-kata atau frase ke model adaptation, tahap ini optional. Model adaptation mempengaruhi bagaimana Speech-toText melakukan transkripsi audio file. Speech-to-text cenderung akan lebih sering memilih dari daftar kata daripada kemungkinan kata lainnya untuk hasil transkripsi. Model adaptation berguna ketikan audio file yang digunakan memiliki kata-kata yang sering muncul namun bukan kata-kata lazim yang terdapat di kamus, memiliki noise, atau sulit dibedakan dari kata yang serupa. Contoh untuk kasus ini dapat dilihat di gambar 6, dimana PPKM terdeteksi sebagai PPKN. Hal ini wajar, dikarenakan PPKM terdengar serupa dengan PPKN, dan merupakan singkatan yang terhitung baru digunakan. Dalam hal ini kita bisa menambahkan kata PPKM ke dalam daftar untuk digunakan dalam model adaptation seperti yang terlihat di gambar 7. Boost value adalah bias yang dikenakan terhadap kata tersebut antara 0 hingga 1.

Gambar6. Hasil transkripsi dari sebuah audio file

Gambar7. Menambahkan frase PPKM dengan boost value 0.9

Setelah melakukan ketiga tahap berikut, tekan tombol SUBMIT dan tunggu beberapa saat. Transkripsi audio anda akan muncul dengan status sukses seperti yang ditunjukkan di gambar 8. Untuk melihat hasil transkripsi, klik transcription name. Tampilan seperti pada gambar 9 akan muncul. Anda dapat melihat konfigurasi dan pilihan transkripsi yang digunakan. hasil transkripsi berikut dengan audio player juga dapat ditemukan di laman ini. Hal tersebut memudahkan anda untuk mengecek ulang hasil transkripsi. Selain itu, anda dapat menggunakan REUSE CONFIGURATION yang terdapat pada tampilan bagian atas untuk kembali melakukan transkripsi tanpa harus mengubah setting, cukup dengan mengganti audio file-nya saja.

Gambar8. Transkripsi audio berstatus sukses

Gambar9. Tampilan laman New Transcription – Audio Configuration

Baca artikel terkini lainnya dari Cloud Ace