Speech Recognition
by Khin Myat Noe
နေ့ ပြောပြချင်တဲ့အကြောင်းအရာလေးကတော့ 2016 တုန်းကထွက်ရှိခဲ့တဲ့ Passengers ဆိုတဲ့ ဇာတ်ကားလေးထဲမှာ အသုံးပြုသွားတဲ့ Speech Recognition အကြောင်းလေးကို မျှဝေပေးချင်ပါတယ်။
What is Speech Recognition
Speech Recognitionဆိုတာ အသံ ထွက်ဆိုနိုင်သော အရာဝတ္ထု(လူ / စက်) စသည်တို့မှ ထွက် ပေါ်လာ သော အသံ ဘာသာစကား တို့ကို ခွဲ ခြမ်းစိတ်ဖြာ နိုင်သော နားလည်သဘော ပေါက်နိုင်သော နည်းပညာတစ်ခု ဖြစ်ပါတယ်။ AI နည်းပညာ ထဲမှ NLP လို့ခေါ်တယ့် application ထဲမှာ speech recognition သည် တစ်ခု အပါအဝင်ဖြစ်ပါတယ်
AI(Artificial intelligence) ကိုအသုံးပြုထားတဲ့ user တွေရဲ့ voice command တွေကနေ text အဖြစ် auto ပြောင်းလဲပေးနိုင်တဲ့ နည်းပညာလေးတစ်ခုဖြစ်ပါတယ်။
How does it work?
သူ့ရဲ့အလုပ်လုပ်ပုံကတော့ general အားဖြင့် အဆင့် ၆ ဆင့်လုပ်ဆောင်ပါတယ်။
(1)Audio Signal-ပထမဆုံးအနေနဲ့ user တစ်ယောက်ယောက်ကပြောလိုက်တဲ့ voice command တွေကို system က analog waveform အနေနဲ့လက်ခံပါတယ်။
(2)Acoustic Model-လက်ခံရရှိလာတဲ့ command လေးတွေကိုတော့ laptop, microphone အစရှိတဲ့ receiver တွေထဲမှာရှိတဲ့ sound card လေးမှာပါတဲ့ ADC(analog digital converter) လေးက audio signal ကနေ digital signal form အဖြစ် ပြောင်းလဲပေးလိုက်ပါတယ်။ရလာတဲ့ digital signal တွေကိုတော့ server or cloud ဆီကိုပို့ဆောင်ပါတယ်။
Server မှာရှိတဲ့ automatic speech recognition software လေးက ရောက်လာတဲ့ digital signal တွေကို analyse လုပ်ပြီး အဲ့ဒီ digital data တွေကို အသေးငယ်ဆုံးသော စကားလုံးတစ်လုံးချင်းစီရဲ့ သံရင်းဆီရောက်အောင် ခွဲခြမ်းစိတ်ဖြာလိုက်ပါတယ်။
(3)Acoustic Feature Extraction-ဒီအဆင့်လေးကတော့ ခုနက ခွဲခြမ်းထားတဲ့ စကားလုံးတွေရဲ့ အသံနေအသံထားတွေ သံပျော့ သံမာ အသံရဲ့အတိမ်အနက်တွေကို ထပ်မံခွဲခြားပေးပါတယ်။
(4)Word Selection-ဒီ stage လေးမှာကတော့ အဆင့်ဆင့်ခွဲခြားလေ့လာပြီး ရရှိလာတဲ့ dataတွေကို database ထဲက analyzed signal တွေနဲ့နှိုင်းယှဥ်ကြည့်ပြီး possible matching တွေကို ရှာဖွေပါတယ်။
(5)Sentence Level Matching-ဒီအဆင့်လေးရောက်လာပြီဆိုရင်တော့ အပေါ်က match ဖြစ်ပြီးရလာတဲ့ စကားလုံးလေးတွေကို software က language model တွေဖြစ်တဲ့
(i)Hidden Markov Model(HMM)
(ii)Deep Neural Networks
(iii)Lexicon Model အစရှိတဲ့ model တစ်မျိုးမျိုးကို အသုံးပြုပြီး စာသားတွေကို meaningful ဖြစ်အောင် arrange လုပ်ပါတယ်။
(6)Output in the Form of Text-the last stage လေးမှာတော့ finally, we got the output။
အခုပြောပြခဲ့တဲ့ process တွေက ပုံမှန်အားဖြင့်အဆင့်ဆင့်ရှိပေမဲ့ တကယ်တမ်းအလုပ်လုပ်တဲ့အခါမှာတော့ few milliseconds အတွင်းမှာပဲ တအားကို မြန်မြန်ဆန်ဆန် ဖြစ်ပျက်တဲ့အတွက်ကြောင့် ဒီလောက်အဆင့်တွေပါမှန်း မသိနိုင်လောက်အောင်ပါပဲ။
Where can it be used?
- System control/navigation(eg. GPS-connected digital maps)
- Commercial/industrial applications in car steering systems
- Voice dialing hands free use of mobile in car(eg. Dial office)
References
- https://www.slideshare.net/mobile/jhonrehmat/speech-recognition- system
- Movie Link:https://channelmyanmar.org/passengers-2016/