Senin, 23 November 2015

((Tugas)) SS.III. PERANCANGAN APLIKASI SPEECH TO TEXT BAHASA INGGRIS KE BAHASA BALI MENGGUNAKAN POCKETSPHINX BERBASIS ANDROID

Speech Recognition Untuk Perancangan Aplikasi Speech To Text Bahasa Inggris Ke Bahasa Bali Menggunakan Pocketsphinx

Speech recognition atau pengenalan ucapan merupakan teknologi yang mampu mengenali pembicaraan atau perkataan tanpa memperdulikan siapa pembicaranya. Masukan berupa suara mampu diubah menjadi text yang mampu dibaca. Speech recognition banyak di implementasikan dengan perangkat pintar, mobil, television, ruangan dan masih banyak yang lainnya. Dengan menggunakan teknologi seperti ini memudahkan kita untuk melakukan perintah menggunakan suara semisal pada mobile application.
Saat ini perkembangan smart phone sudah sangat maju. Penerapan speech recognition pada aplikasi android terus dilakukan, speech to text salah satunya. Untuk itu dibuat sebuah aplikasi android speech to text dari bahasa inggris ke bahasa bali menggunakan pocketsphinx. Aplikasi ini tidak memerlukan akses internet sehingga dapat digunakan di mana saja bagi para wisatawan yang berminat mengetahui sedikit kata-kata dalam bahasa bali. Tidak hanya itu, aplikasi ini juga ditujukan bagi pengguna android yang ingin menambah perbendaharaan kata dalam bahasa bali.
Aplikasi ini mampu memberikan akurasi diatas 80% dari hasil analisis parameter-parameter yang digunakan. Dari hasil pengujian dengan MOS didapat nilai di atas 4. Dengan kata lain aplikasi dapat diterima user dan dinilai baik oleh pengguna.

I. Pendahuluan
Telepon genggam atau telepon selular (ponsel) merupakan perangkat telekomunikasi yang mempunyai kemampuan dasar sama dengan telepon konvensional yang sering kita kenal telepon rumah namu telepon selular mampu dibawa kemana-mana dan tetap dapat berkomunikasi tanpa harus terhubung dengan jaringan telepon kabel. Perkembangan telepon seluar atau handphone saat ini semakin maju. Mulai dari super handphone dengan spesifikasi processor dan pengolahan gambar yang canggih, teknologi kamera ponsel yang menyamai kamera profesional, hingga ponsel yang bisa digunakan sebagai televisi. Karena itulah telepon selular saat ini lebih dikenal dengan sebutan smartphone.
Banyak pengembang smartphone di dunia dengan berbagai macam sistem operasi diantaranya ialah windows phone, iOS, BlackBerry dan Android. Belakangan ini Android menjadi Operating System (OS) terlaris tidak hanya di Indonesia tapi diseluruh dunia. Saat ini smart phone berbasis Android khususnya sudah menjadi kebutuhan masyarakat karena menjanjikan banyak kemudahan sehari-hari salah satunya ialah speech recognition yang dikembangkan oleh perusahaan Google. Dengan fiture seperti ini, pengguna dapat dimudahkan mencari lokasi, artikel dan apapun yang kita butuhkan saat kita sibuk dalam berkendara dengan hanya menggunakan suara kita saja.
Saat bepergian keluar kota pun kita sangat memerlukan sebuah smart phone yang mampu mendampingi kita dalam perjalanan semisal untuk melakukan komunikasi dengan bahasa daerah yang kita kunjungi. Melihat dari perkembangan ini, maka diperlukan sebuah aplikasi pintar berbasis android dengan memanfaatkan speech recognition. Oleh karena itu penulis akan membuat Aplikasi Speech to Text Bahasa Inggris ke Bahasa Bali Berbasis Android Menggunakan Pocketsphinx. Aplikasi ini nantinya akan dapat menjadi panduan bagi parawisatawan asing atau lokal yang berkunjung ke Bali untuk dapat mengetahui sedikit tentang kata-kata dalam bahasa Bali. Aplikasi ini nantinya menggunakan speech recognition offline sehingga kita tidak perlu menggunakan akses internet.

II. Perancangan Sistem
Pada tugas ini dirancang suatu aplikasi yang mampu mengenali sebuah kata berbahasa inggris yang
diucapkan dan menterjemahkannya ke dalam kata berbahasa bali dalam format text pada platform android. Dengan menggunakan pocketsphinx sebagai library, aplikasi ini dapat digunakan dalam platform android tanpa harus menggunakan akses internet.

Gambaran Umum Sistem
Secara umum, gambaran sistem pada tugas akhir ini dapat dilihat pada gambar di bawah ini :
Pada gambar diatas user akan mengucapkan sebuah kata yang kemudian diteruskan ke smartphone android. Aplikasi ini akan memproses suara yang masuk untuk dapat dikenali dan diterjemahkan kedalam text. Hasil akhirnya berupa text hasil terjemahan kata yang diucapkan.

Feature Computation
Bagian feature computation merupakan masukan dari decoder itu sendiri. Bagian ini sendiri merupakan bagian yang berperan dalam merubahan atau tranformasi bentuk gelombang suara menjadi ciri-ciri yang unik dimana nantinya akan digunakan dalam proses pengenalan ucapan. Pocketsphinx sendiri menggunakan melfrequency cepstral coefficient (MFCC).

Decoder
Decoder merupakan bagian inti dari pengenal suara. Decoder sendiri terbagi menjadi tiga modul utama yakni acoustic modeling, forward search, and graph search.
Gambar di atas merupakan keseluruhan proses decoding. Secara sederhana proses tersebut dapat dilihat pada gambar berikut ini :

III. Pengujian Dan Analisis
Pengujian Word Error Rate (WER)
Pengujian ini dilakukan dengan cara merubah nilai parameter nfft, nfil, lower frekuensi dan upper frekuensi agar mendapatkan hasil akurasi terbaik. Dengan kata lain word error rate (WER) yang dihasilkan aplikasi akan sekecil mungkin.

Parameter NFFT dan NFIL
Dengan merubah nilai parameter NFFT dan NFIL ini, akurasi yang dihasilkan dapat berbeda-beda. Untuk hasil pengujian lengkap dapat dilihat pada grafik di bawah ini :
Dari hasil pengujian yang didapat, nilai terbaik untuk parameter NFFT dan NFIL yakni NFFT = 512 dan NFIL= 20. Akurasi yang dihasilkan untuk setiap database yang digunakan oleh nilai parameter ini merupakan akurasi tertinggi. Sehingga dapat disimpulkan merupakan nilai parameter terbaik untuk aplikasi speech to text menggunakan Pocketsphinx.

Parameter Lower Frekuensi dan Upper Frekuensi
Akurasi yang dihasilkan juga dipengaruhi dengan merubah nilai parameter lowerf dan upperf ini,. Untuk hasil pengujian lengkap dapat dilihat pada grafik di bawah ini :
Dari hasil pengujian yang didapat, nilai terbaik untuk parameter lower frekuensi dan upper frekuensi yakni Lowerf = 1Hz dan Upperf= 4000Hz. Akurasi yang dihasilkan untuk setiap database yang digunakan oleh nilai parameter ini merupakan akurasi tertinggi. Sehingga word error rate untuk sistem dapat ditekan sekecil mungkin agar pencarian kata menggunakan ucapan dapat lebih baik.
Kombinasi dari nilai NFFT, NFIL, Lowerf dan Upperf tertentu menghasilkan word error rate yang berbeda-beda. Dapat disimpulkan bahwa nilai parameter dengan NFFT=512, NFIL=20, Lowerf=1Hz dan Upperf=4000Hz merupakan nilai terbaik untuk mengimplementasikan speech to text menggunakan Pocketsphinx.

Pengujian Mean Opinian Score (MOS)
Pengujian secara subjektif ini menggunakan MOS (Mean Opinian Score). MOS didapat dengan cara mengajukan kuisioner kepada 30 responden dengan 5 buah pertanyaan seputar aplikasi speech to text ini. Masing-masing jawaban memiliki bobot nilai dari 1-5. Untuk menghitung MOS dapat digunakan persamaan seperti dibawah ini :
Berikut adalah analisis dari hasil pengujian yang dilakukan dengan cara mengajukan pertanyaan ke 30 responden dimana responden mencoba aplikasi ini :
Terlihat pada grafik di atas bahwa nilai rata-rata opini 30 responden diantara 4 hingga 5. Ini menunjukkan hasil yang baik. Hasil yang baik menandakan bahwa pengguna atau user menilai aplikasi ini baik.
Dapat diambil kesimpulan bahwa aplikasi ini memiliki tampilan yang sangat baik dan user friendly. Dari sisi fungsionalitas, masing-masing menu pada aplikasi ini sudah berjalan sesuai dengan kegunaannya. Hasil terjemahan sudah cukup baik. Aplikasi ini juga dinilai membantu pengguna dalam menambah perbendaharaan kata bahasa bali.

IV. Kesimpulan Dan Saran
Kesimpulan
Dari hasil pengujian dan analisis yang telah dilakukan pada sistem speech to text bahasa inggris ke bahasa bali menggunakan pocketsphinx ini, dapat diambil kesimpulan sebagai berikut :
  1. Implementasi dari pocketsphinx ke dalam aplikasi speech to text dapat direalisasikan dengan hasil pengenalan yang baik. Ini terlihat dari tingkat akurasi yang dihasilkan di atas 80%.
  2. Parameter terbaik yang mampu menekan word error rate (WER) sekecil mungkin yakni sebagai berikut : NFFT = 512, NFIL = 20, Lowerf = 1Hz, Upperf = 4000Hz. Penggabungan parameter menjadikan aplikasi speech to text ini dapat mengenali kata dengan baik.
  3. Jumlah kata pada database dapat mempengaruhi akurasi dari sistem. Jumlah kata dalam database dengan akurasi berbanding terbalik. Semakin banyak jumlah kata yang terdapat pada database, semakin kecil akurasi yang dihasilkan dan sebaliknya.
  4. Dalam sistem pengenalan suara, banyak faktor yang mempengaruhi akurasi. Faktor-faktor yang mempengaruhi nilai akurasi diantaranya yaitu aksen saat mengucapkan sebuah kata, dialek tiap orang berbeda, cara pengucapan bisa pelan ataupun kasar, dan banyaknya kata yang pengucapannya mirip.
  5. Dari hasil pengujian berdasarkan survei terhadapat 30 responden, aplikasi speech to text ini mendapat nilai MOS diatas 4 dari batas maksimal 5. Ini berarti aplikasi dinilai baik oleh user.
Saran
Berdasarkan hasil penelitian yang telah dilakukan pada tugas akhir ini, masih banyak kekurangan yang terdapat pada sistem. Beberapa saran yang dapat dikembangkan pada penelitian selanjutnya, diantaranya adalah:
  1. Metode yang digunakan untuk aplikasi speech to text dapat diganti dengan metode lain yang lebih baik lagi dalam mengenali suatu kata.
  2. Kedepannya pada sistem ini bukan hanya dapat merubah suatu speech ke text dan menterjemahkannya kedalam text, namun hasil terjemahan dapat kita dengar tidak hanya sebatas text yang terlihat.
  3. Kedepannya pada sistem ini dapat diimplementasikan pada bidang lain misalnya perintah suara untuk menjalankan aplikasi pada smartphone, perintah suara untuk melakukan kontrol rumah atau mobil melalui smartphone android.
  4. Kedepannya sistem ini dapat dikembangkan ke platform handphone lain seperti Blackberry, Iphone dan Windows Phone.



Tidak ada komentar:

Posting Komentar