Inilah Sejarah 50 Tahun Teknologi Speech & Speaker Recognation

Baca Juga

Teknologi yang kita bisa nikmati sekarang ini seperti teknologi telekomunikasi dimana merupakan pengembangan oleh para peneliti yang serius menyelesaikan tugas-tugasnya khususnya pada teknologi speech dan speaker recognation.

Kali tulisan kali ini menjelaskan singkat mengenai sejarahnya yang kami ambil dari jurnal “50 Years of Progress in Speech and Speaker Recognation Research” yang ditulis oleh Sadaoki Furuki, yang terbit pada November 2005 (ECTI Transaction on Computer and Information Technology, Vol 1). Pada tulisan itu menerangkan sejak tahun 1950 hingga 2000-an.

Dimulai dari tahun 50-an hingga 60-an, periode ini para peneliti melakukan riset pada rancangan ASR (Automatic Speech Recognation) dimana mereka mencoba mengekploitasi ilmu linguistik dasar “fisik” bunyi-bunyi bahasa.

Pada saat itu komputer masih sangat primitif, sehingga penelitian dilakukan menggunakan resonansi spektral setiap wilayah vokal ucapan, yang kemudian dilakukan ekstraksi dari sinyal yang difilter dan melalui sistem logic circuits.

  • Pada tahun 1952, Davis, Biddulph dan Balashek membangun sistem pengenalan digit dengan dataset satu pembicara di Bell Laboratories. Sistemnya menggunakan sinyal frekuensi setiap daerah vokal dari setiap digitnya.
  • Pada tahun 1956, Olson dan Belar mencoba mengenali 10 suku kata (monosyllabic) yang berbeda dari satu pembicara di RCA Laboratories.
  • Pada tahun 1959,  Fry dan Denes mecoba membangun recognizer fonem untuk mengenali empat vokal dan sembilan konsonan dengan menggunakan analisis spectrum dan pembanding pola untuk menganalisa suara. Mereka meningkatkan akurasi pengenalan fonem dari kata-kata yang terdiri dari dua atau lebih fonem. Penelitian ini dilakukan di Univeristy College, Inggris.
  • Pada tahun 1959, Forgie dan Forgie merancang sistem yang mampu mengenali 10 vokal bahasa inggris pada huruf /b/ dan /t/ dengan 21 subjek pembicara (11 laki-laki dan 10 perempuan). Penelitian ini dilakukan di MIT Lincoln Laboratories.
  • Pada tahun 1960, Suzuki dan Nakata di Radio Research Lab, Jepang merancang sistem yang mampu mengenali vokal pada bahasa Jepang.
  • Pada tahun 1962, Sakai dan Doshita di Universitas Kyoto merancang sistem yang dapat mengenali fonem dalam bahasa jepang.
  • Pada tahun 1963, Nagata dan koleganya merancang sistem pengenal ucapan digit bahasa Jepang di NEC Laboratories.

Masalah yang dihadapi

Para peneliti mendapatkan masalah pada penelitiannya, yaitu adalah ketidaksesuaian skala waktu dalam peristiwa ucapan. Maka diperlukan algoritma yang mampu menyesuaikan skala waktu. Sehingga muncul algoritma dynamic time warping, dimana bertujuan menyelaraskan dua urutan vektor fitur dengan memutar sumbu waktu secara iteratif hingga kecocokan optimal (menurut metrik yang sesuai) antara dua urutan ditemukan. Ada beberapa peneliti yang berusaha meminimalisir masalah, diantaranya:

  • Pada tahun 1960-an, Martin dan koleganya di RCA Laboratories mengembangkan metode dasar normalisasi waktu, dimana teknik tersebut mampu secara signifikan mengurangi variasi nilai keadaan.  Martin mendirikan perusahaan dibidang speech recognation pertama yang diberi nama Treshold Technology.
  • Pada tahun 1960-an, Vintsyuk asal Uni Soviet mengembangkan metode pemograman DTW (Dynamic Time Warping) dan algoritma untuk menghubungkan kata-kata yang terhubung.
  • Pada tahun 1980-an, Sakoe dan Chuba di NEC Laboratories, Jepang melakukan teknik pemograman penyelarasan time series untuk menyelesaikan ketidak-seragaman.
  • Sejak akhir tahun 1970-an, dynamic programming muncul beberapa varian, seperti algoritma Viterbi yang datang dari Komunitas Teori Komunikasi.

Penelitian terus berlanjut, sebagaimana dilakukan oleh Reddy di Carnegie Mellon University melakuka perintisan penelitian di bidang pengenalan ucapan berkelanjutan dengan pelacakan fonem yang dinamis.

Penelitian semakin mengalami kemajuan signifikan. Velichko dan Zagoruyko di Rusia memajukan penggunaan ide-ide pengenalan pola pada speech recognation. Sakoe dan Chiba mengembangkan teknik mereka menggunakan dynamic program; dan Itakura, ketika dia tinggal di laboratorium Bell, menunjukkan bagaimana ide-ide Linier Predictiv Coding (LPC) bekerja.

Adapun beberapa laboratorium di tahun 1970-an ekspansi mengeksplorasi penelitian speech recognation,

  • IBM Labs merancang tiga system seperti New Raleigh Languange dataset, bahasa teks paten laser untuk menyalin paten laser, dan Sistem transkripsi eksperimental untuk perkantoran, yang disebut Tangora.
  • AT &T Bell Labs, Para peneliti memulai serangkaian percobaan yang bertujuan membuat sistem pengenalan ucapan speaker-independen. Untuk mencapai tujuan ini, berbagai algoritma pengelompokan canggih digunakan untuk menentukan jumlah pola berbeda yang diperlukan untuk mewakili semua variasi kata yang berbeda di seluruh populasi.
  • Defense Advanced Reasearch Projects Agency (DARPA), agensi pertahanan A.S yang fokus perkembangan teknologi militer pada tahun 1973 merancang sistem Hearsay I , CMU’S Haersay II, Harpy CMU, dan BBN’s HWI (Hear What I Mean) System.

Kita lanjut ke sejarah berikutnya, masuk di tahun 1980-an. Beberapa peneliti berfokus menciptakan sistem yang kuat yang mampu mengenali serangkaian kata yang terhubung dengan lancar (misalnya, digit). Pergeseran metodologi dari pendekatan berbasis template yang lebih intuitif menuju kerangka pemodelan statistik yang lebih kompleks.

Salah satu metode pendekatan yang banyak digunakan sebagian besar laboratorium speech recognition adalah HMM (Hidden Markov Model). Selain itu, Furui mencoba mengenalkan cepstrum, Transformasi Fourier dari logaritma spektrum; digunakan terutama dalam analisis suara. Usulan ini muncul pada tahun 1970-an, namun belum banyak yang menggunakannya. Namun sekarang sudah mulai banyak yang menerapkannya. Metode Neural Network (Jaringan Saraf Tiruan), Metode ini sebetulnya muncul di tahun 1950-an, tapi karena masalah kemampuan “teknik”, sehingga baru di era 1980-an mulai digunakan kembali.

Beberapa Laboratorium ekspansi,

  • IBM mencoba menerapkan Model probabilistik N–gram, merupakan model yang digunakan untuk memprediksi kata berikutnya yang mungkin dari kata N-1 sebelumnya.
  • Komunitas DARPA melakukan penelitian tentang kosakata yang lebih banyak untuk mencapai akurasi kata yang tinggi dengan basis data 1000 kata.
  • Kontribusi CMU dengan sistem SPHINX
  • Kontribusi BBN dengan sistem BYBLOS
  • Kontribusi SRI dengan sistem DECIPHER
  • Kontribusi Lincoln Labs
  • Kontribusi MIT
  • Kontribusi AT &T Bell Labs

Sistem SPHYNX mengintegrasikan metode statistik HMM yang mampu melatih dan menanamkan model telepon yang bergantung pada konteks dalam jaringan decoding leksikal yang canggih. Kita lanjut part berikutnya.

Ditulis pada 7 Mei 2022 dan 13 Mei 2022 di Surabaya

Tidak ada komentar:

Posting Komentar

 

Theme by Gus Fahmi

© 2014-2023 Home | About | Privacy