Skip to main content

เทคนิคการจดจำคำพูดที่แตกต่างกันคืออะไร?

เทคนิคการจดจำคำพูดหลายอย่างใช้ในการจับคำพูดและแปลงเป็นข้อมูลที่โปรแกรมซอฟต์แวร์สามารถใช้งานได้มีสามวิธีในการวิเคราะห์คำพูดในความพยายามที่จะกำหนดสิ่งที่กำลังพูดคำแรกเรียกว่าคำพูดที่ไม่ต่อเนื่องหมายถึงคำเดียวเท่านั้นที่พูดในแต่ละครั้งคำที่สองเรียกว่าคำพูดที่เชื่อมต่อและคำพูดจะต้องพูดในลักษณะที่จะเข้าใจในที่สุดก็มีการพูดอย่างต่อเนื่องซึ่งเป็นวิธีที่คนส่วนใหญ่พูดตามปกติ

อัลกอริทึมที่พบบ่อยที่สุดที่ใช้สำหรับเทคนิคการรู้จำเสียงพูดทุกประเภทคือโมเดล Markov ที่ซ่อนอยู่ (HMM)ระบบนี้เกี่ยวข้องกับต้นไม้ข้อมูลขนาดใหญ่ของหน่วยเสียงหรือเสียงพื้นฐานและพยางค์ซึ่งหารด้วยความน่าจะเป็นทางสถิติของเสียงหนึ่งต่อไปนี้อีกโดยการเปรียบเทียบแต่ละฟอนิมกับโหนดในทรีข้อมูลของเสียงคำที่เสร็จสมบูรณ์จริงสามารถกำหนดได้ด้วยอัตราความแม่นยำสูงในระยะเวลาอันสั้น

ปัญหาหนึ่งที่ยากที่จะเอาชนะด้วยเทคนิคการรู้จำเสียงพูดบางอย่างแยกคำที่คำเริ่มต้นและสิ้นสุดงานนี้มีความซับซ้อนด้วยเสียงรบกวนจากห้องและความจริงที่ว่าพยางค์บางตัวมีลายเซ็นเสียงที่คล้ายกับการหยุดพักระหว่างคำด้วยเหตุผลนี้เทคนิคการจดจำคำพูดที่ไม่ต่อเนื่องและเชื่อมต่อจึงมีความแม่นยำมากที่สุด

อีกปัจจัยหนึ่งที่แยกเทคนิคการรู้จำเสียงพูดที่แตกต่างกันคือปัญหาของคำศัพท์ซอฟต์แวร์ซอฟต์แวร์ที่ตีความคำพูดอาจมีคำศัพท์ที่ จำกัด มากด้วยความแม่นยำสูงหรือคำศัพท์ขนาดใหญ่ที่ต้องจับคู่กับรูปแบบการพูดของผู้ใช้เฉพาะเมื่อโปรแกรมใช้วิธีการประกอบคำ HMM จำนวนคำที่เข้าใจน้อยลงยิ่งโปรแกรมมีความแม่นยำมากขึ้นเท่านั้นนี่คือวิธีการที่ระบบโทรศัพท์อัตโนมัติส่วนใหญ่ใช้ในการถอดรหัสหมายเลขหรือการตอบคำถาม

เทคนิคการจดจำคำพูดที่เข้าใจคำศัพท์ขนาดใหญ่มักจะออกแบบมาเพื่อโต้ตอบกับผู้ใช้น้อยมากหรือเพียงคนเดียวนี่เป็นเพราะโปรแกรมจะต้องได้รับการฝึกฝนให้เข้าใจรูปแบบการพูดของบุคคลที่พูดการฝึกอบรมเกี่ยวข้องกับการอ่านย่อหน้าที่ทำไว้ล่วงหน้าของข้อความไปยังซอฟต์แวร์คำที่อ่านเป็นที่รู้จักดังนั้นโปรแกรมจึงสามารถสร้างแบบจำลองทางสถิติของหน่วยเสียงที่เฉพาะเจาะจงสำหรับผู้ใช้สิ่งนี้ทำให้โปรแกรมมีโอกาสที่ดีกว่าในการทำความเข้าใจผู้ใช้ แต่มันอาจขัดขวางความเข้าใจของโปรแกรมของผู้ที่ไม่ได้รับการฝึกอบรม

เทคนิคการรู้จำเสียงที่ยากที่สุดคือการตีความการพูดต่อเนื่องหรือเป็นธรรมชาติหลายคนมักจะใช้คำด้วยกันและพูดด้วยความเร็วที่แตกต่างกันดังนั้นความแม่นยำของโปรแกรมที่แปลคำพูดต่อเนื่องต่ำกว่าวิธีอื่น ๆถึงกระนั้นก็มีโปรแกรมที่สามารถแปลคำพูดประเภทนี้ได้บางโปรแกรมใช้ตรรกะฟัซซี่และเครือข่ายประสาทเพื่อช่วยจดจำรูปแบบและแยกคำ