Speech Recognition

2 min readJun 15, 2021

by Khin Myat Noe

နေ့ ပြောပြချင်တဲ့အကြောင်းအရာလေးကတော့ 2016 တုန်းကထွက်ရှိခဲ့တဲ့ Passengers ဆိုတဲ့ ဇာတ်ကားလေးထဲမှာ အသုံးပြုသွားတဲ့ Speech Recognition အကြောင်းလေးကို မျှဝေပေးချင်ပါတယ်။

What is Speech Recognition

Speech Recognitionဆိုတာ အသံ ထွက်ဆိုနိုင်သော အရာဝတ္ထု(လူ / စက်) စသည်တို့မှ ထွက် ပေါ်လာ သော အသံ ဘာသာစကား တို့ကို ခွဲ ခြမ်းစိတ်ဖြာ နိုင်သော နားလည်သဘော ပေါက်နိုင်သော နည်းပညာတစ်ခု ဖြစ်ပါတယ်။ AI နည်းပညာ ထဲမှ NLP လို့ခေါ်တယ့် application ထဲမှာ speech recognition သည် တစ်ခု အပါအဝင်ဖြစ်ပါတယ်

AI(Artificial intelligence) ကိုအသုံးပြုထားတဲ့ user တွေရဲ့ voice command တွေကနေ text အဖြစ် auto ပြောင်းလဲပေးနိုင်တဲ့ နည်းပညာလေးတစ်ခုဖြစ်ပါတယ်။

How does it work?

သူ့ရဲ့အလုပ်လုပ်ပုံကတော့ general အားဖြင့် အဆင့် ၆ ဆင့်လုပ်ဆောင်ပါတယ်။

(1)Audio Signal-ပထမဆုံးအနေနဲ့ user တစ်ယောက်ယောက်ကပြောလိုက်တဲ့ voice command တွေကို system က analog waveform အနေနဲ့လက်ခံပါတယ်။

(2)Acoustic Model-လက်ခံရရှိလာတဲ့ command လေးတွေကိုတော့ laptop, microphone အစရှိတဲ့ receiver တွေထဲမှာရှိတဲ့ sound card လေးမှာပါတဲ့ ADC(analog digital converter) လေးက audio signal ကနေ digital signal form အဖြစ် ပြောင်းလဲပေးလိုက်ပါတယ်။ရလာတဲ့ digital signal တွေကိုတော့ server or cloud ဆီကိုပို့ဆောင်ပါတယ်။

Server မှာရှိတဲ့ automatic speech recognition software လေးက ရောက်လာတဲ့ digital signal တွေကို analyse လုပ်ပြီး အဲ့ဒီ digital data တွေကို အသေးငယ်ဆုံးသော စကားလုံးတစ်လုံးချင်းစီရဲ့ သံရင်းဆီရောက်အောင် ခွဲခြမ်းစိတ်ဖြာလိုက်ပါတယ်။

(3)Acoustic Feature Extraction-ဒီအဆင့်လေးကတော့ ခုနက ခွဲခြမ်းထားတဲ့ စကားလုံးတွေရဲ့ အသံနေအသံထားတွေ သံပျော့ သံမာ အသံရဲ့အတိမ်အနက်တွေကို ထပ်မံခွဲခြားပေးပါတယ်။

(4)Word Selection-ဒီ stage လေးမှာကတော့ အဆင့်ဆင့်ခွဲခြားလေ့လာပြီး ရရှိလာတဲ့ dataတွေကို database ထဲက analyzed signal တွေနဲ့နှိုင်းယှဥ်ကြည့်ပြီး possible matching တွေကို ရှာဖွေပါတယ်။

(5)Sentence Level Matching-ဒီအဆင့်လေးရောက်လာပြီဆိုရင်တော့ အပေါ်က match ဖြစ်ပြီးရလာတဲ့ စကားလုံးလေးတွေကို software က language model တွေဖြစ်တဲ့

(i)Hidden Markov Model(HMM)

(ii)Deep Neural Networks

(iii)Lexicon Model အစရှိတဲ့ model တစ်မျိုးမျိုးကို အသုံးပြုပြီး စာသားတွေကို meaningful ဖြစ်အောင် arrange လုပ်ပါတယ်။

(6)Output in the Form of Text-the last stage လေးမှာတော့ finally, we got the output။

အခုပြောပြခဲ့တဲ့ process တွေက ပုံမှန်အားဖြင့်အဆင့်ဆင့်ရှိပေမဲ့ တကယ်တမ်းအလုပ်လုပ်တဲ့အခါမှာတော့ few milliseconds အတွင်းမှာပဲ တအားကို မြန်မြန်ဆန်ဆန် ဖြစ်ပျက်တဲ့အတွက်ကြောင့် ဒီလောက်အဆင့်တွေပါမှန်း မသိနိုင်လောက်အောင်ပါပဲ။

Where can it be used?

System control/navigation(eg. GPS-connected digital maps)
Commercial/industrial applications in car steering systems
Voice dialing hands free use of mobile in car(eg. Dial office)

References

https://www.slideshare.net/mobile/jhonrehmat/speech-recognition- system
Movie Link:https://channelmyanmar.org/passengers-2016/

Speech Recognition

What is Speech Recognition

How does it work?

Where can it be used?

References

Written by Self Study Camp

No responses yet