Skip to main content

ปัญหาการรู้จำเสียงพูดที่พบบ่อยที่สุดคืออะไร?

ซอฟต์แวร์การจดจำคำพูดมีความก้าวหน้าอย่างมากเนื่องจากมันถูกคิดค้นขึ้นครั้งแรก แต่ก็ยังมีปัญหาใหญ่หลายประการที่ป้องกันไม่ให้มันถูกใช้เป็นวิธีการถอดความโดยเฉพาะปัญหาการรู้จำเสียงพูดบางอย่างที่ยากต่อการแก้ปัญหารวมถึงการเปลี่ยนแปลงในการออกเสียงของคำ, สำเนียงส่วนบุคคล, คำพ้องความหมายและเสียงรอบข้างที่ไม่พึงประสงค์ปัญหาการรู้จำเสียงพูดอีกชุดหนึ่งเกี่ยวข้องกับประเภทของฮาร์ดแวร์ที่ใช้ในการป้อนเสียงจริงเพราะผลลัพธ์อาจมีผลกระทบอย่างมากในวิธีที่ซอฟต์แวร์จะตีความคำพูดนอกจากนี้ยังมีปัญหาที่จะไม่ทราบบริบทของคำที่พูดซึ่งสามารถนำไปสู่ข้อความที่ไม่มีเครื่องหมายวรรคตอนหรือการสะกดที่ไม่ถูกต้อง

หนึ่งในปัญหาการรู้จำเสียงพูดขั้นพื้นฐานที่สุดคือคุณภาพของอุปกรณ์อินพุตที่ใช้หากไมโครโฟนไม่ไวพอ mdash;หรือมีความอ่อนไหวมากเกินไป mdash;จากนั้นสามารถสร้างข้อมูลเสียงที่ยากสำหรับซอฟต์แวร์ที่จะถอดรหัสนี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งเมื่อไมโครโฟนมีความอ่อนไหวอย่างมากที่คำพูดนั้นบิดเบี้ยวทำให้ซอฟต์แวร์การรับรู้เกือบไร้ประโยชน์ปัญหาที่คล้ายกันเกิดจากเสียงรบกวนพื้นหลังที่อาจเป็นปัญหาในการแยกออกจากคำพูดหลักและอาจทำให้เกิดการแปลที่ไม่ถูกต้องเมื่อรวมอยู่ในการประมวลผลคำพูด

ความแตกต่างในการออกเสียงเน้นเสียงและจังหวะการพูดรวมกันเป็นหนึ่งในการจดจำคำพูดที่แพร่หลายมากขึ้นปัญหา.เมื่อคำเดียวสามารถออกเสียงได้หลายวิธีซอฟต์แวร์อาจสับสนและตีความสิ่งที่พูดผิดสิ่งเดียวกันสามารถเกิดขึ้นได้เมื่อคนพูดช้าหรือเร็วกว่าที่โปรแกรมคาดหวังมีโซลูชันบางส่วนเช่นการฝึกอบรมซอฟต์แวร์ในรูปแบบการพูดของผู้ใช้รายเดียวและใช้อัลกอริทึมการระเหยเวลาแบบไดนามิกเพื่อให้ตรงกับคำพูดกับฐานข้อมูลตัวอย่าง แต่พวกเขาไม่ได้แก้ปัญหาทั้งหมด

ซับซ้อนที่สุดของปัญหาการรู้จำเสียงพูดคือการระบุบริบทของคำที่พูดซอฟต์แวร์คอมพิวเตอร์ไม่สามารถระบุความหมายที่ตั้งใจไว้ของการรวบรวมคำซึ่งนำไปสู่ปัญหาจำนวนมากกับข้อความที่ถอดความคำที่มีเสียงคล้ายกันเช่นและที่นั่นสามารถสะกดได้อย่างถูกต้องเมื่อรู้จักบริบทของการใช้งานด้วยเหตุผลเดียวกันนี้เครื่องหมายวรรคตอนที่แม่นยำแทบจะเป็นไปไม่ได้ที่ซอฟต์แวร์จะวางตามการรู้ลำดับของคำเท่านั้นมีซอฟต์แวร์การถอดความที่ใช้งานได้ซึ่งใช้ในสาขาเช่นยา แต่ผลลัพธ์มักจะเป็นบล็อกของคำที่ไม่มีการแยกประเภทใด ๆ ซึ่งหมายความว่ามันยังคงต้องใช้ transcriptionist ของมนุษย์เพื่อแก้ไขเอกสารและสร้างสำเนาสุดท้ายที่อ่านได้