Speech Recognition

Self Study Camp
2 min readJun 15, 2021

--

by Khin Myat Noe

နေ့ ​​ပြောပြချင်တဲ့အ​ကြောင်းအရာ​လေးက​တော့ 2016 တုန်းကထွက်ရှိခဲ့တဲ့ Passengers ဆိုတဲ့ ဇာတ်ကား​​လေးထဲမှာ အသုံးပြုသွားတဲ့ Speech Recognition အ​ကြောင်း​လေးကို မျှ​ဝေ​ပေးချင်ပါတယ်။

What is Speech Recognition

Speech Recognitionဆိုတာ အသံ ထွက်ဆိုနိုင်သော အရာဝတ္ထု(လူ / စက်) စသည်တို့မှ ထွက် ပေါ်လာ သော အသံ ဘာသာစကား တို့ကို ခွဲ ခြမ်းစိတ်ဖြာ နိုင်သော နားလည်သဘော ပေါက်နိုင်သော နည်းပညာတစ်ခု ဖြစ်ပါတယ်။ AI နည်းပညာ ထဲမှ NLP လို့ခေါ်တယ့် application ထဲမှာ speech recognition သည် တစ်ခု အပါအဝင်ဖြစ်ပါတယ်

AI(Artificial intelligence) ကိုအသုံးပြုထားတဲ့ user ​တွေရဲ့ voice command ​တွေက​နေ text အဖြစ် auto​ ​ပြောင်းလဲ​ပေးနိုင်တဲ့ နည်းပညာ​လေးတစ်ခုဖြစ်ပါတယ်။

How does it work?

သူ့ရဲ့အလုပ်လုပ်ပုံက​တော့ general အားဖြင့် အဆင့် ၆ ဆင့်လုပ်​ဆောင်ပါတယ်။

(1)Audio Signal-ပထမဆုံးအ​နေနဲ့ user တစ်​ယောက်ယောက်က​ပြောလိုက်တဲ့ voice command ​တွေကို system က analog waveform အ​နေနဲ့လက်ခံပါတယ်။

(2)Acoustic Model-လက်ခံရရှိလာတဲ့ command ​လေး​တွေကို​တော့ laptop, microphone အစရှိတဲ့ receiver ​တွေထဲမှာရှိတဲ့ sound card ​လေးမှာပါတဲ့ ADC(analog digital converter) ​လေးက audio signal က​နေ digital signal form အဖြစ် ​ပြောင်းလဲ​ပေးလိုက်ပါတယ်။ရလာတဲ့ digital signal ​တွေကို​တော့ server or cloud ဆီကိုပို့​ဆောင်ပါတယ်။

Server မှာရှိတဲ့ automatic speech recognition software ​လေးက ​ရောက်လာတဲ့ digital signal ​တွေကို analyse လုပ်ပြီး အဲ့ဒီ digital data ​တွေကို အ​သေးငယ်ဆုံး​​​​သော စကားလုံး​တစ်လုံးချင်းစီရဲ့ သံရင်းဆီ​ရောက်​အောင် ခွဲခြမ်းစိတ်ဖြာလိုက်ပါတယ်။

(3)Acoustic Feature Extraction-ဒီအဆင့်​​လေးက​တော့ ခုနက ခွဲခြမ်းထားတဲ့ စကားလုံး​တွေရဲ့ အသံ​နေအသံထား​တွေ သံ​ပျော့ သံမာ အသံရဲ့အတိမ်အနက်​တွေကို ထပ်မံခွဲခြား​ပေးပါတယ်။

(4)Word Selection-ဒီ stage ​လေးမှာက​တော့ အဆင့်ဆင့်ခွဲခြား​လေ့လာပြီး ရရှိလာတဲ့ dataတွေကို database ထဲက analyzed signal ​တွေနဲ့နှိုင်းယှဥ်ကြည့်ပြီး possible matching ​တွေကို ရှာ​ဖွေပါတယ်။

(5)Sentence Level Matching-ဒီအဆင့်​လေး​ရောက်လာပြီဆိုရင်​တော့ အ​ပေါ်က match ဖြစ်ပြီးရလာတဲ့ စကားလုံး​လေး​တွေကို software က language model ​တွေဖြစ်တဲ့

(i)Hidden Markov Model(HMM)

(ii)Deep Neural Networks

(iii)Lexicon Model အစရှိတဲ့ model တစ်မျိုးမျိုးကို အသုံးပြုပြီး စာသား​တွေကို meaningful ဖြစ်​အောင် arrange လုပ်ပါတယ်။

(6)Output in the Form of Text-the last stage ​လေးမှာ​တော့ finally, we got the output။

အခု​ပြောပြခဲ့တဲ့ process ​​တွေက ပုံမှန်အားဖြင့်အဆင့်ဆင့်ရှိ​ပေမဲ့ တကယ်တမ်းအလုပ်လုပ်တဲ့အခါမှာ​​တော့ few milliseconds အတွင်းမှာပဲ တအားကို မြန်မြန်ဆန်ဆန် ဖြစ်ပျက်တဲ့အတွက်​ကြောင့် ဒီ​​လောက်အဆင့်​တွေပါမှန်း မသိနိုင်​လောက်​အောင်ပါပဲ။

Where can it be used?

Photo by Omid Armin on Unsplash
  • System control/navigation(eg. GPS-connected digital maps)
  • Commercial/industrial applications in car steering systems
  • Voice dialing hands free use of mobile in car(eg. Dial office)

References

--

--

Self Study Camp
Self Study Camp

Written by Self Study Camp

A study camp where new AI beginners can join

No responses yet