Skip to main content

การจัดกลุ่มสหสัมพันธ์คืออะไร?

การจัดกลุ่มสหสัมพันธ์ดำเนินการบนฐานข้อมูลและแหล่งข้อมูลขนาดใหญ่อื่น ๆ เพื่อจัดกลุ่มชุดข้อมูลที่คล้ายกันเข้าด้วยกันในขณะเดียวกันก็แจ้งเตือนผู้ใช้เป็นชุดข้อมูลที่แตกต่างกันสิ่งนี้สามารถทำได้อย่างสมบูรณ์แบบในกราฟบางอย่างในขณะที่คนอื่น ๆ จะได้รับข้อผิดพลาดเพราะมันยากที่จะแยกแยะความแตกต่างจากข้อมูลที่แตกต่างกันในกรณีหลังการจัดกลุ่มสหสัมพันธ์จะช่วยลดข้อผิดพลาดโดยอัตโนมัติสิ่งนี้มักจะใช้สำหรับการขุดข้อมูลหรือค้นหาข้อมูลที่ไม่เหมาะสมสำหรับความคล้ายคลึงกันข้อมูลที่แตกต่างกันจะถูกลบโดยทั่วไปหรือวางลงในคลัสเตอร์แยกต่างหาก

เมื่อใช้ฟังก์ชั่นการจัดกลุ่มสหสัมพันธ์มันจะค้นหาข้อมูลตามคำแนะนำของผู้ใช้ผู้ใช้จะบอกโปรแกรมว่าจะค้นหาอะไรและเมื่อพบเมื่อใดที่จะวางข้อมูลโดยปกติจะนำไปใช้กับแหล่งข้อมูลขนาดใหญ่มากเมื่อมันเป็นไปไม่ได้ mdash;หรือใช้เวลามากเกินไป mdash;เพื่อค้นหาข้อมูลด้วยตนเองอาจมีการจัดกลุ่มที่สมบูรณ์แบบหรือการจัดกลุ่มที่ไม่สมบูรณ์

การจัดกลุ่มที่สมบูรณ์แบบเป็นสถานการณ์ที่เหมาะซึ่งหมายความว่ามีข้อมูลเพียงสองประเภทและหนึ่งคือสิ่งที่ผู้ใช้กำลังมองหาในขณะที่อีกข้อมูลไม่จำเป็นข้อมูลที่เป็นบวกหรือจำเป็นทั้งหมดจะถูกวางไว้ในคลัสเตอร์เดียวในขณะที่ข้อมูลอื่น ๆ จะถูกลบหรือย้ายในสถานการณ์นี้ไม่มีความสับสนและทุกอย่างทำงานได้อย่างสมบูรณ์แบบ

กราฟที่ซับซ้อนที่สุดไม่อนุญาตให้มีการจัดกลุ่มที่สมบูรณ์แบบและไม่สมบูรณ์ตัวอย่างเช่นกราฟมีตัวแปรสามตัว: X, Y และ Z. X, Y คล้ายกัน x, Z คล้ายกัน แต่ y, z นั้นแตกต่างกันกลุ่มตัวแปรทั้งสามมีความคล้ายคลึงกัน แต่เป็นไปไม่ได้ที่จะมีการจัดกลุ่มสหสัมพันธ์ที่สมบูรณ์แบบโปรแกรมจะทำงานเพื่อเพิ่มจำนวนความสัมพันธ์เชิงบวกสูงสุด แต่สิ่งนี้จะยังคงต้องใช้การค้นหาด้วยตนเองจากผู้ใช้

ในการทำเหมืองข้อมูลโดยเฉพาะอย่างยิ่งเมื่อจัดการกับชุดข้อมูลขนาดใหญ่การจัดกลุ่มสหสัมพันธ์ใช้เพื่อจัดกลุ่มข้อมูลที่คล้ายกันกับข้อมูลที่คล้ายกันตัวอย่างเช่นหากธุรกิจขุดข้อมูลสำหรับเว็บไซต์หรือฐานข้อมูลขนาดใหญ่และต้องการทราบเกี่ยวกับแง่มุมที่เฉพาะเจาะจงมันจะต้องใช้เวลาตลอดไปในการค้นหาข้อมูลทั้งหมดสำหรับแง่มุมนั้นด้วยการใช้สูตรการจัดกลุ่มข้อมูลจะถูกตั้งค่าไว้สำหรับการวิเคราะห์ที่เหมาะสม

ข้อมูลที่แตกต่างกันจะได้รับการจัดการตามคำแนะนำของผู้ใช้เท่านั้นผู้ใช้สามารถเลือกที่จะส่งข้อมูลที่แตกต่างไปยังกลุ่มที่แตกต่างกันเนื่องจากข้อมูลอาจเป็นประโยชน์สำหรับโครงการอื่น ๆหากข้อมูลไม่จำเป็นและเป็นเพียงการสูญเสียหน่วยความจำข้อมูลที่แตกต่างกันจะถูกโยนออกไปในการจัดกลุ่มที่ไม่สมบูรณ์อาจเป็นไปได้ว่าข้อมูลที่แตกต่างกันบางอย่างจะไม่ถูกโยนออกไปเพราะมันคล้ายกับข้อมูลที่ผู้ใช้กำลังมองหา