เทคโนโลยี

การจดจำเสียงคืออะไร?

การจดจำเสียงสามารถอ้างถึงหนึ่งในสองประเภทของวิทยาศาสตร์คอมพิวเตอร์: การระบุเสียงทางนิติวิทยาศาสตร์หรือความสามารถในการพูดเป็นข้อความบทความนี้กล่าวถึงคำจำกัดความหลัง

การจดจำเสียงหรือการรู้จำเสียงพูดในกรณีนี้เป็นเทคโนโลยีคอมพิวเตอร์ที่ใช้อินพุตเสียงสำหรับการป้อนข้อมูลมากกว่าแป้นพิมพ์ยกตัวอย่างเช่นการพูดในไมโครโฟนให้ผลลัพธ์เช่นเดียวกับการพิมพ์คำด้วยตนเองด้วยแป้นพิมพ์ซอฟต์แวร์การจดจำเสียงได้รับการออกแบบมาพร้อมกับฐานข้อมูลภายในของคำหรือวลีที่เป็นที่รู้จักโปรแกรมตรงกับลายเซ็นเสียงของคำพูดกับรายการที่สอดคล้องกันในฐานข้อมูล

แม้ว่าการเปลี่ยนคำพูดเป็นข้อความอาจฟังดูง่าย แต่ก็เป็นงานที่ยากมากปัญหาอยู่ในรูปแบบและสำเนียงคำพูดที่ไม่มีที่สิ้นสุดอย่างแท้จริงซึ่งประกอบไปด้วยแนวโน้มของมนุษย์ตามธรรมชาติที่จะเรียกใช้คำด้วยกัน

ภาพประกอบของความท้าทายโดยธรรมชาติของซอฟต์แวร์การจดจำเสียงปรากฏบนเสื้อยืดที่สร้างขึ้นโดยนักวิจัยของ Appleเสื้ออ่านฉันช่วย Apple Wreck ชายหาดที่สวยงามเมื่อพูดออกมาดัง ๆ ดูเหมือนว่าฉันช่วยให้ Apple จดจำคำพูด

ซอฟต์แวร์การจดจำเสียงรุ่นต่าง ๆ ใช้สำหรับแอพพลิเคชั่นมากมายตั้งแต่การเขียนตามคำบอกส่วนตัวไปจนถึงการกำหนดเส้นทางการโทรอัตโนมัติเชิงพาณิชย์จากการช่วยเหลือผู้พิการไปจนถึงกิจกรรมกีฬาและข่าวคำบรรยายแต่ละโมเดลทำงานแตกต่างกันและมีความสามารถและขอบเขตของตัวเอง

โปรแกรมการจดจำเสียงที่กำหนดให้ผู้ใช้ฝึกอบรมซอฟต์แวร์เพื่อรับรู้รูปแบบการพูดที่มีสไตล์เฉพาะของพวกเขาเรียกว่า

ลำโพงขึ้นอยู่กับระบบบุคคลทั่วไปใช้โปรแกรมประเภทนี้ที่บ้านหรือที่สำนักงานอีเมลบันทึกข้อมูลตัวอักษรข้อมูลและข้อความสามารถป้อนข้อมูลได้โดยการพูดลงในไมโครโฟน

ระบบการจดจำเสียงบางอย่างที่เรียกว่า

คำพูดที่ไม่ต่อเนื่องระบบกำหนดให้ผู้ใช้ต้องพูดอย่างชัดเจนและช้าและแยกคำคำพูดต่อเนื่องระบบได้รับการออกแบบมาเพื่อทำความเข้าใจโหมดการพูดที่เป็นธรรมชาติมากขึ้น

ระบบการจดจำเสียงพูดที่ไม่ต่อเนื่องถูกนำมาใช้อย่างกว้างขวางสำหรับการกำหนดเส้นทางการบริการลูกค้าระบบเป็น

ผู้พูดอิสระ แต่เข้าใจเฉพาะสระว่ายน้ำขนาดเล็กของคำหรือวลีผู้โทรจะได้รับทางเลือกในการตอบคำถามโดยปกติจะมีใช่หรือไม่ใช่หลังจากได้รับคำตอบแล้วระบบจะเพิ่มผู้โทรไปยังระดับถัดไปหากผู้โทรตอบกลับด้วยคำตอบที่ไม่ซ้ำกันการตอบกลับอัตโนมัติมักจะขออภัยฉันไม่เข้าใจคุณโปรดลองอีกครั้งด้วยคำถามและคำตอบที่มีอยู่ซ้ำการจดจำเสียงประเภทนี้ยังเรียกว่าการจดจำไวยากรณ์ที่มีข้อ จำกัด

การพูดต่อเนื่องเป็นรูปแบบของซอฟต์แวร์การจดจำเสียงที่ซับซ้อนยิ่งขึ้นซึ่งผู้โทรสามารถพูดตามธรรมชาติเพื่ออธิบายปัญหาหรือขอบริการโปรแกรมนี้ได้รับการออกแบบมาเพื่อเลือกคำสำคัญหรือวลีและสร้างความคาดเดาทางสถิติที่ดีที่สุดเกี่ยวกับสิ่งที่ลูกค้าต้องการการพูดอย่างชัดเจนช่วยการจดจำเสียงในการระบุความต้องการระบบประเภทนี้มีฐานข้อมูลที่เข้มข้นกว่าระบบการพูดที่รอบคอบและเรียกว่า

การจดจำภาษาธรรมชาติการรู้จำเสียงพูดอัตโนมัติ (ASR) เป็นรูปแบบของการจดจำเสียงที่ออกแบบมาเพื่อการเขียนตามคำบอกซอฟต์แวร์นี้แตกต่างจากรุ่นก่อนหน้าซึ่งไม่ได้พยายามที่จะเข้าใจสิ่งที่กำลังพูดเพียงเพื่อระบุคำที่พูดเนื่องจากหลายคำในเสียงภาษาอังกฤษเหมือนกันความผิดพลาดจึงเกิดขึ้นได้ง่ายอย่างไรก็ตาม บริษัท ยักษ์ใหญ่อย่าง Microsoft กำลังลงทุนในการจดจำเสียงและการคาดการณ์ของ Bill Gates มีความเข้าใจในการพูดอย่างต่อเนื่องในปี 2554 ซอฟต์แวร์ ASR มักพบในเครื่องบันทึกเสียงดิจิตอล

ผู้เล่นที่โดดเด่นในซอฟต์แวร์การจดจำเสียงกับอดีต บริษัท ที่ได้รับหลังผู้เล่นขนาดเล็ก ได้แก่ Fonix Speech, Aculab และ Verbio และอื่น ๆ กับ บริษัท ยักษ์ใหญ่เช่นเดียวกับ IBM และ Microsoft ดังกล่าวยังลงทุนในเทคโนโลยีแม้ว่าหลายคนยังรู้สึกว่ามันเป็นปัญหามากขึ้นในการฝึกอบรมซอฟต์แวร์และแก้ไขข้อผิดพลาดมากกว่าการใช้แป้นพิมพ์ แต่เวลากำลังจะเกิดขึ้นเมื่อซอฟต์แวร์การจดจำเสียงจะปิดช่องว่างนั้นการเพิ่มคีย์บอร์ดที่มีความสามารถในการเลือกปฏิบัติในการใช้คำพูดอาจกลายเป็นเรื่องธรรมดา

ซอฟต์แวร์การจดจำเสียงกำลังได้รับความนิยมเนื่องจากมีความซับซ้อนมากขึ้นมันมีประโยชน์อย่างยิ่งในการทำธุรกิจที่สามารถแทนที่ผู้ให้บริการสดไปยังการโทรทางช่องทางเผยแพร่ข้อมูลรับคำสั่งซื้อและทำหน้าที่ที่มีประโยชน์อื่น ๆอย่างไรก็ตามมันยังได้รับความนิยมในฐานะแอพพลิเคชั่นเดสก์ท็อปซึ่งได้รับความช่วยเหลือจากซอฟต์แวร์ที่มีชื่อเสียงเช่น Scansofts,

Dragonnaturalsspeaking และ IBMS Vivoice