Courses
ในการวิเคราะห์ข้อมูล เรามักพยายามทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรอยู่เสมอ คุณน่าจะคุ้นกับมาตรวัดทางสถิติอยู่สองตัวที่ใช้กันทั่วไปเพื่อวัตถุประสงค์นี้: โควาเรียนซ์และคอร์เรเลชัน สองมาตรวัดนี้ฟังดูคล้ายกันและมักถูกสับสน แต่ความแตกต่างระหว่างทั้งสองคืออะไร และควรใช้อย่างไร?
ทั้งสองอย่างอธิบายว่าตัวแปรเคลื่อนไหวไปด้วยกันอย่างไร อย่างไรก็ตาม แม้จะมีความคล้ายคลึงกัน โควาเรียนซ์และคอร์เรเลชันตอบคำถามที่ต่างกันเล็กน้อยและจึงมีบทบาทต่างกันในเวิร์กโฟลว์ข้อมูล โควาเรียนซ์จับความแปรปร่วมดิบระหว่างฟีเจอร์ ขณะที่คอร์เรเลชันทำให้ความสัมพันธ์นั้นเป็นมาตรฐานเพื่อให้เปรียบเทียบได้ง่ายขึ้น
มาดูกันว่าความแตกต่างเล็กน้อยนี้ส่งผลต่อการเลือกใช้มาตรวัดใดในสถานการณ์ต่างๆ อย่างไร
โควาเรียนซ์คืออะไร?
โควาเรียนซ์วัดว่าตัวแปรสองตัวเคลื่อนไหวไปด้วยกันอย่างไร มันบอกเราว่าเมื่อค่าของตัวแปรหนึ่งเพิ่มขึ้น มีแนวโน้มว่าจะเกิดการเพิ่มขึ้นหรือลดลงในอีกตัวแปรหนึ่งหรือไม่ โควาเรียนซ์มีอยู่สามประเภท:
- โควาเรียนซ์บวก: เมื่อค่าของตัวแปรหนึ่งเพิ่มขึ้นพร้อมกับอีกตัวแปรเพิ่มขึ้น
- โควาเรียนซ์ลบ: เมื่อค่าของตัวแปรหนึ่งเพิ่มขึ้นแต่อีกตัวแปรลดลง
- โควาเรียนซ์ใกล้ศูนย์: เมื่อไม่มีความสัมพันธ์เชิงทิศทางที่สม่ำเสมอ


ด้วยเหตุนี้ โควาเรียนซ์จึงมีประโยชน์สำหรับการตรวจจับว่าตัวแปรเคลื่อนไหวสัมพันธ์กันอย่างไร
อย่างไรก็ตาม แม้ทิศทางของความสัมพันธ์จะเป็นข้อมูลที่เป็นประโยชน์ การตีความขนาดของโควาเรียนซ์ไม่ใช่เรื่องตรงไปตรงมา ขนาดขึ้นอยู่กับหน่วยวัดและสเกลของตัวแปร การแปลงหน่วย เช่น จากเซนติเมตรเป็นเมตร อาจเปลี่ยนค่าขนาดของโควาเรียนซ์อย่างมากโดยไม่กระทบต่อความสัมพันธ์พื้นฐาน
ด้วยเหตุผลนี้ โควาเรียนซ์จึงมักถูกใช้เป็นองค์ประกอบการคำนวณภายในมากกว่าที่จะใช้เป็นสถิติสรุปแบบเดี่ยว
คอร์เรเลชันคืออะไร?
คอร์เรเลชันวัดทั้งความแรงและทิศทางของความสัมพันธ์ระหว่างตัวแปรสองตัว โดยต่อยอดจากโควาเรียนซ์ด้วยการทำให้ขนาดเป็นมาตรฐานเพื่อให้หน่วยวัดไม่ส่งผลกระทบอีกต่อไป
ค่าคอร์เรเลชันอยู่ในช่วงคงที่ระหว่าง +1 (ความสัมพันธ์เชิงบวกอย่างสมบูรณ์) ถึง -1 (ความสัมพันธ์เชิงลบอย่างสมบูรณ์) ค่าคอร์เรเลชันเท่ากับ 0 บอกเราว่าไม่มีความสัมพันธ์เชิงเส้น


สเกลมาตรฐานนี้ทำให้คอร์เรเลชันตีความได้ง่ายกว่าโควาเรียนซ์ หากเห็นค่า 0.8 ก็รู้ได้ทันทีว่ามีความสัมพันธ์ที่แข็งแรงระหว่างตัวแปร โดยไม่ขึ้นกับหน่วยในมาตรเดิม
การทำให้เป็นมาตรฐานยังเปิดโอกาสให้เปรียบเทียบข้ามชุดข้อมูล ฟีเจอร์ และโดเมนได้อย่างมีความหมาย นี่คือเหตุผลที่คอร์เรเลชันถูกใช้บ่อยมากในการวิเคราะห์ข้อมูลเชิงสำรวจและการตรวจสอบฟีเจอร์
โควาเรียนซ์เทียบกับคอร์เรเลชัน: ความแตกต่างสำคัญ
โควาเรียนซ์และคอร์เรเลชันอธิบายคุณสมบัติที่เกี่ยวข้องของความสัมพันธ์ระหว่างตัวแปร แต่มีวัตถุประสงค์ทางการวิเคราะห์ที่ต่างกัน
ในทางปฏิบัติ โควาเรียนซ์สะท้อนความแปรปร่วมดิบ ในขณะที่คอร์เรเลชันสะท้อนความสัมพันธ์เดียวกันนั้นในรูปแบบมาตรฐาน การเข้าใจความแตกต่างนี้ช่วยตัดสินใจได้ว่ามาตรวัดใดเหมาะกับงานวิเคราะห์ที่กำหนดมากกว่า
|
โควาเรียนซ์ |
คอร์เรเลชัน |
|
|
วัดอะไร |
ความสัมพันธ์เชิงเส้น (ไม่ทำให้เป็นมาตรฐาน) |
ความสัมพันธ์เชิงเส้น (ทำให้เป็นมาตรฐาน) |
|
ความไวต่อสเกล |
สเกลถูกกำหนดโดยหน่วยวัด |
ช่วงคงที่ (−1 ถึง +1) |
|
หน่วย |
มีหน่วย |
ไม่มีหน่วย |
|
ความง่ายในการตีความ |
ขนาดตีความได้ยาก |
ทิศทางและขนาดตีความได้ง่าย |
|
การเปรียบเทียบกันได้ |
เปรียบเทียบข้ามชุดข้อมูลได้จำกัด |
เปรียบเทียบข้ามชุดข้อมูลได้โดยตรง |
|
การใช้งานทั่วไป |
การสร้างแบบจำลองและเมทริกซ์ |
การสำรวจและการสื่อสาร |
|
ข้อดี |
คงสเกลดั้งเดิมไว้ |
ทำให้เป็นมาตรฐานเพื่อการเปรียบเทียบ |
ตัวอย่างโควาเรียนซ์เทียบกับคอร์เรเลชัน
สมมติว่าเรารวบรวมข้อมูลสองตัวแปร: ส่วนสูงและน้ำหนัก เราคาดว่าทั้งสองเกี่ยวข้องกัน เพราะโดยทั่วไปคนที่สูงกว่าจะมีน้ำหนักมากกว่า เมื่อเราแปลงส่วนสูงเป็นเซนติเมตรเทียบกับน้ำหนักเป็นกิโลกรัม เราเห็นแนวโน้มที่สูงขึ้นอย่างชัดเจน เมื่อส่วนสูงเพิ่ม น้ำหนักก็มักจะเพิ่มด้วย
เมื่อคำนวณโควาเรียนซ์ เราได้ค่าเป็นบวก: 48.08 การที่เป็นบวกบอกเราว่าตัวแปรทั้งสองเคลื่อนไปในทิศทางเดียวกัน เมื่อส่วนสูงสูงกว่าค่าเฉลี่ย น้ำหนักก็มักสูงกว่าค่าเฉลี่ยเช่นกัน
ต่อไปมาดูจุดที่น่าสนใจ ใช้ข้อมูลชุดเดิมทุกประการแล้วเปลี่ยนหน่วย แปลงส่วนสูงจากเซนติเมตรเป็นเมตร และน้ำหนักจากกิโลกรัมเป็นปอนด์ คนเดิม ความสัมพันธ์เดิม ลวดลายในสแคตเทอร์พล็อตดูเหมือนเดิม แต่เมื่อคำนวณโควาเรียนซ์ใหม่ ตัวเลขเปลี่ยนเป็น 1.06 ยังคงเป็นบวก แต่ขนาดต่างกันมาก และสิ่งเดียวที่เราเปลี่ยนคือหน่วย


นี่แสดงคุณสมบัติสำคัญของโควาเรียนซ์: มันจับทิศทาง แต่ขนาดขึ้นอยู่กับสเกล หากเรายืดหรือหดตัวแปรตัวใดตัวหนึ่งด้วยการเปลี่ยนหน่วย โควาเรียนซ์ก็จะยืดหรือหดตามไปด้วย
คราวนี้มาดูคอร์เรเลชันโดยใช้ข้อมูลเดียวกันก่อนและหลังการแปลงหน่วย คอร์เรเลชันเมื่อใช้เซนติเมตรและกิโลกรัมเท่ากับ 0.76 หลังแปลงเป็นเมตรและปอนด์ ก็ยังคงเป็น 0.76
ต่างจากโควาเรียนซ์ คอร์เรเลชันจะปรับตามความแปรปรวนของแต่ละตัวแปรก่อนวัดความสัมพันธ์ระหว่างกัน ด้วยการปรับนี้ ค่าจึงไม่เปลี่ยนเมื่อเราเปลี่ยนหน่วย โดยมุ่งไปที่ว่าจุดข้อมูลเรียงตามลวดลายเชิงเส้นแน่นแค่ไหน และลวดลายนั้นชันขึ้นหรือลง
ตัวอย่างง่ายๆ นี้ช่วยเน้นความแตกต่างหลักระหว่างเมตริกทั้งสอง: โควาเรียนซ์สะท้อนทั้งทิศทางและสเกล ในขณะที่คอร์เรเลชันสะท้อนความแข็งแรงของความสัมพันธ์โดยไม่ขึ้นกับสเกล ในทางปฏิบัติ นั่นหมายความว่าคอร์เรเลชันน่าเชื่อถือกว่าสำหรับการเปรียบเทียบความสัมพันธ์ข้ามตัวแปรที่วัดในสเกลต่างกัน ขณะที่โควาเรียนซ์เหมาะกว่าในบริบทที่ขนาดของความแปรปรวนมีความสำคัญ เช่น การสร้างแบบจำลอง
โควาเรียนซ์อาจตีความได้ยาก
อย่างที่ได้กล่าวไป โควาเรียนซ์บอกเราว่าตัวแปรสองตัวเคลื่อนไปในทิศทางเดียวกันหรือไม่ แต่ขนาดของมันตีความได้ยาก
ประเด็นหลักคือโควาเรียนซ์ขึ้นอยู่กับสเกลของตัวแปร ไม่ใช่แค่ความสัมพันธ์ หากค่าของตัวแปรหนึ่งหรือทั้งสองมีขนาดใหญ่หรือกระจายตัวมาก โควาเรียนซ์ก็มักจะมีค่ามากตามไปด้วย
ความไวนี้มาจากสองแหล่ง แหล่งแรกคือหน่วยของข้อมูล การเปลี่ยนหน่วยทำให้โควาเรียนซ์เปลี่ยน การวัดรายได้เป็นดอลลาร์เทียบกับเป็นหน่วยพันดอลลาร์ให้ค่าโควาเรียนซ์ที่ต่างกันมาก ทั้งที่ความสัมพันธ์เหมือนกัน
แหล่งที่สองคือปริมาณความแปรปรวนในตัวแปร แม้หน่วยจะคงเดิม แต่ชุดข้อมูลที่มีช่วงกว้างหรือการกระจายมากกว่าก็มักให้โควาเรียนซ์ใหญ่กว่าชุดข้อมูลที่แน่นกว่าซึ่งมีความสัมพันธ์พื้นฐานเดียวกัน โควาเรียนซ์ขนาดใหญ่ไม่ได้บ่งชี้ความสัมพันธ์ที่แข็งแรงเสมอไป แต่อาจเพียงสะท้อนสเกลที่ใหญ่กว่าหรือความแปรปรวนที่มากกว่าในข้อมูล
ด้วยความไวต่อสเกลนี้ โควาเรียนซ์จึงมักถูกใช้ภายใน เช่น สำหรับการฟิตแบบจำลอง มากกว่าการรายงานโดยตรง
เหตุใดคอร์เรเลชันจึงถูกใช้บ่อยกว่า
คอร์เรเลชันช่วยแก้ปัญหาด้านการตีความของโควาเรียนซ์หลายประการด้วยการทำให้ความสัมพันธ์ระหว่างตัวแปรเป็นมาตรฐาน เพราะค่าคอร์เรเลชันอยู่ระหว่าง −1 ถึง +1 เสมอ ขนาดจึงมีความหมายทันที: ค่าใกล้ 1 หรือ −1 บ่งชี้ความสัมพันธ์เชิงเส้นที่แข็งแรง ส่วนค่าใกล้ 0 บ่งชี้ความสัมพันธ์เชิงเส้นที่อ่อนหรือไม่มีเลย การทำให้เป็นมาตรฐานยังช่วยให้เปรียบเทียบข้ามตัวแปรหรือชุดข้อมูลได้โดยตรง ทำให้สื่อสารและตีความได้ง่ายขึ้น
คุณสมบัติเหล่านี้ทำให้คอร์เรเลชันมีประโยชน์อย่างยิ่งสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ การตรวจสอบความสัมพันธ์ระหว่างฟีเจอร์ การตรวจจับความซ้ำซ้อนหรือมัลติโคลลิเนียริตี และการรายงานผล เมทริกซ์คอร์เรเลชันและฮีตแมปยังเป็นเครื่องมือด่านแรกที่ดีเมื่อสำรวจชุดข้อมูล
อย่างไรก็ตาม คอร์เรเลชันไม่ได้ทดแทนโควาเรียนซ์ได้ทั้งหมด เนื่องจากคอร์เรเลชันตัดผลของสเกลออก จึงสะท้อนเฉพาะความแข็งแรงของความสัมพันธ์ ไม่ใช่ความแปรปรวนดิบ ในบริบทของการสร้างแบบจำลอง เช่น การวิเคราะห์องค์ประกอบหลักหรือแบบจำลองสถิติพหุคูณ สเกลดั้งเดิมที่โควาเรียนซ์จับไว้สามารถมีความสำคัญต่อการเข้าใจโครงสร้างความแปรปรวนและชี้นำพฤติกรรมของอัลกอริทึม
มุมมองพีชคณิตเชิงเส้น
จนถึงตอนนี้ เราได้ดูโควาเรียนซ์ระหว่างตัวแปรเป็นคู่ๆ พีชคณิตเชิงเส้นแสดงให้เห็นวิธีขยายแนวคิดนั้นไปยังทั้งชุดข้อมูลพร้อมกัน เราทำได้โดยจัดข้อมูลให้อยู่ในรูปเมทริกซ์
ในเมทริกซ์ข้อมูลพื้นฐาน แต่ละแถวแทนการสังเกตหนึ่งรายการ และแต่ละคอลัมน์แทนตัวแปรหนึ่งตัว เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปร เราสามารถทำการเซ็นเตอร์ข้อมูลโดยลบค่าเฉลี่ยของคอลัมน์ออกจากแต่ละค่า ขั้นตอนนี้ช่วยให้เรามุ่งเน้นที่การเบี่ยงเบนจากค่าปกติมากกว่าค่าเชิงสัมบูรณ์
การคูณเมทริกซ์ข้อมูลที่ถูกเซ็นเตอร์ด้วยทรานสโพสของมันทำให้ได้โครงสร้างที่จับว่าตัวแปรเคลื่อนไหวไปด้วยกันอย่างไร ผลคูณนี้ หลังการสเกล คือเมทริกซ์โควาเรียนซ์ จากมุมมองพีชคณิตเชิงเส้น เมทริกซ์โควาเรียนซ์สรุปว่าความแปรปรวนกระจายอยู่ข้ามมิติของชุดข้อมูลอย่างไร
การมองโควาเรียนซ์ในลักษณะนี้ช่วยอธิบายว่าทำไมมันจึงปรากฏบ่อยในวิทยาศาสตร์ข้อมูล อัลกอริทึมหลายตัว รวมถึงการวิเคราะห์องค์ประกอบหลัก (PCA)และเทคนิคการลดมิติอื่นๆ พึ่งพาการแทนแบบเมทริกซ์นี้เพื่อทำความเข้าใจรูปแบบและโครงสร้างในข้อมูล โดยเชิงแนวคิด เมทริกซ์โควาเรียนซ์ให้แผนที่ว่ามิติต่างๆ ของชุดข้อมูลมีปฏิสัมพันธ์กันอย่างไร

ที่นี่เราจะเห็นข้อมูลสำหรับสี่ตัวแปรเรียงอยู่ในเมทริกซ์ข้อมูล จากนั้นถูกเซ็นเตอร์และใช้สร้างเมทริกซ์โควาเรียนซ์
หากต้องการศึกษาพีชคณิตเชิงเส้นสำหรับวิทยาศาสตร์ข้อมูลเชิงลึกยิ่งขึ้น ลองดูคอร์ส Linear Algebra for Data Science in R ซึ่งครอบคลุมพื้นฐานที่จำเป็นต่อการทำความเข้าใจแนวทางแบบเมทริกซ์อย่างโควาเรียนซ์
เมทริกซ์โควาเรียนซ์และคอร์เรเลชัน
เมทริกซ์โควาเรียนซ์สรุปว่าตัวแปรเคลื่อนไหวไปด้วยกันอย่างไรตลอดทั้งชุดข้อมูล ในทางปฏิบัติ เรามักตรวจสอบความสัมพันธ์เหล่านี้ด้วยเมทริกซ์โควาเรียนซ์หรือคอร์เรเลชัน ขึ้นอยู่กับว่าอยากคงสเกลดั้งเดิมไว้หรือทำให้ผลลัพธ์เป็นมาตรฐาน
เมทริกซ์โควาเรียนซ์ประกอบด้วยโควาเรียนซ์ระหว่างคู่ตัวแปรทั้งหมด ค่าในแนวทแยงแสดงความแปรปรวนภายในแต่ละตัวแปร ส่วนค่านอกแนวทแยงสะท้อนว่าตัวแปรเปลี่ยนไปด้วยกันอย่างไร เพราะโควาเรียนซ์คงสเกลและหน่วยดั้งเดิมของข้อมูลไว้ เมทริกซ์จึงจับโครงสร้างความแปรปรวนดิบได้ ทำให้เมทริกซ์โควาเรียนซ์มีประโยชน์เป็นพิเศษในเวิร์กโฟลว์การสร้างแบบจำลองและการวิเคราะห์พหุคูณ
ในทางกลับกัน เมทริกซ์คอร์เรเลชันจะทำให้ความสัมพันธ์เหล่านี้เป็นมาตรฐาน ค่าในแนวทแยงเท่ากับ 1 เสมอ เพราะทุกตัวแปรมีความสัมพันธ์สมบูรณ์กับตัวเอง ค่านอกแนวทแยงทั้งหมดอยู่ระหว่าง −1 และ +1 แสดงคอร์เรเลชันระหว่างตัวแปร ด้วยการตัดผลของสเกลออก เมทริกซ์คอร์เรเลชันจึงตีความได้ง่ายกว่าและให้การเปรียบเทียบข้ามตัวแปรโดยตรง เหมาะอย่างยิ่งในการวิเคราะห์ข้อมูลเชิงสำรวจและการระบุความสัมพันธ์เชิงเส้นที่แข็งแรงหรืออ่อนระหว่างฟีเจอร์อย่างรวดเร็ว

ในเมทริกซ์เหล่านี้ เรากำลังเปรียบเทียบตัวแปรสี่ตัวเข้าด้วยกัน ผู้เขียนชอบเพิ่มโอเวอร์เลย์ฮีตแมปเมื่อพรีเซนต์เมทริกซ์เหล่านี้ สีของแต่ละเซลล์ช่วยให้เราเห็นขนาดสัมพัทธ์ของค่าโควาเรียนซ์หรือคอร์เรเลชันได้ในพริบตา
วิธีแปลงโควาเรียนซ์เป็นคอร์เรเลชัน
ในเชิงแนวคิด คอร์เรเลชันได้มาจากโควาเรียนซ์ด้วยการทำให้ความสัมพันธ์ระหว่างตัวแปรเป็นมาตรฐาน เพียงหารโควาเรียนซ์ด้วยส่วนเบี่ยงเบนมาตรฐานของแต่ละตัวแปร การสเกลนี้จะลบหน่วยและขนาดของตัวแปรออก ทำให้ได้มาตรวัดมาตรฐานที่อยู่ระหว่าง −1 และ +1 เสมอ การแปลงนี้คือเหตุผลที่ค่าคอร์เรเลชันสามารถเปรียบเทียบกันได้โดยตรงข้ามตัวแปรหรือต่างชุดข้อมูล
ในทางปฏิบัติ การแปลงโควาเรียนซ์เป็นคอร์เรเลชันมักทำโดยอัตโนมัติในซอฟต์แวร์สถิติมาตรฐาน ดังนั้นนักวิเคราะห์แทบไม่ต้องคำนวณเอง อย่างไรก็ตาม การเข้าใจว่าซอฟต์แวร์ทำอะไรเบื้องหลังยังคงสำคัญ ตัวอย่างเช่น การเข้าใจว่าโควาเรียนซ์ถูกแปลงเป็นคอร์เรเลชันอย่างไรอธิบายได้ว่าทำไมจึงไม่สามารถแปลงย้อนกลับได้direction(อย่างน้อยก็ทำไม่ได้หากไม่มีข้อมูลส่วนเบี่ยงเบนมาตรฐานของทั้งสองตัวแปร) Correlation ไม่มีหน่วยหรือข้อมูลขนาดที่จำเป็นต่อการแปลงกลับเป็นโควาเรียนซ์
ควรใช้โควาเรียนซ์และคอร์เรเลชันเมื่อใด
โควาเรียนซ์มีประโยชน์ที่สุดเมื่อสเกลและหน่วยของข้อมูลมีความหมาย หรือเมื่อจำเป็นต้องใช้โครงสร้างความแปรปรวนดิบของข้อมูล มักใช้ในแบบจำลองพหุคูณ แบบจำลองเชิงความน่าจะเป็น และในการสร้างเมทริกซ์โควาเรียนซ์สำหรับวิธีการบนฐานพีชคณิตเชิงเส้น ในบริบทเหล่านี้ การคงความแปรปรวนดั้งเดิมช่วยให้อัลกอริทึมจับโครงสร้างจริงของข้อมูลและเข้าใจว่ามิติต่างๆ แปรไปด้วยกันอย่างไร
ในทางกลับกัน คอร์เรเลชันเหมาะกว่าเพื่อการตีความโดยมนุษย์ การเปรียบเทียบระหว่างชุดข้อมูล และการวิเคราะห์เชิงสำรวจ ผู้เขียนมักใช้เมตริกนี้ในงานภาพข้อมูล เช่น ฮีตแมป เพื่อให้เห็นและสื่อสารความสัมพันธ์เหล่านี้ได้รวดเร็ว เนื่องจากคอร์เรเลชันทำให้ความสัมพันธ์เป็นมาตรฐาน จึงช่วยเตรียมข้อมูลสำหรับเทคนิคที่การทำให้ฟีเจอร์อยู่บนสเกลที่เปรียบเทียบกันได้มีความสำคัญ
โควาเรียนซ์เทียบกับคอร์เรเลชันในวิทยาการข้อมูลและสถิติ
บ่อยครั้ง ทั้งสองมาตรวัดจะปรากฏในเวิร์กโฟลว์เดียวกัน เมทริกซ์โควาเรียนซ์เป็นรากฐานทางคณิตศาสตร์ของเทคนิคพหุคูณหลายอย่าง เพราะคงความแปรปรวนดั้งเดิมของข้อมูลไว้ ส่วนเมทริกซ์คอร์เรเลชันถูกใช้บ่อยในช่วงสำรวจเพื่อทำความเข้าใจโครงสร้างของชุดข้อมูลก่อนการสร้างแบบจำลอง
บางแบบจำลองสามารถใช้สถิติใดก็ได้ ขึ้นอยู่กับเป้าหมาย ลองพิจารณา PCA เมื่อทำ PCA บนเมทริกซ์โควาเรียนซ์ ตัวแปรที่มีความแปรปรวนมากกว่าจะมีอิทธิพลต่อคอมโพเนนต์ที่ได้มากกว่าโดยธรรมชาติ ซึ่งอาจเป็นสิ่งที่ต้องการหากความแตกต่างของสเกลสะท้อนความแตกต่างของความแปรปรวนที่มีความหมาย ตัวอย่างเช่น หากกำลังวิเคราะห์ผลตอบแทนหุ้นรายวัน หุ้นที่ผันผวนมากกว่าอาจกำหนดคอมโพเนนต์หลักได้เหมาะสม เพราะความแปรปรวนนั้นสะท้อนพฤติกรรมตลาดจริง
การใช้เมทริกซ์คอร์เรเลชันแทนจะทำให้ตัวแปรเป็นมาตรฐานก่อนการแยกองค์ประกอบ แต่ละฟีเจอร์ถูกวางบนสเกลเดียวกัน จึงไม่มีตัวแปรใดครอบงำเพียงเพราะมีหน่วยใหญ่กว่าหรือช่วงค่ากว้างกว่า วิธีนี้อาจเหมาะกว่าเมื่อวัดตัวแปรด้วยหน่วยต่างกัน เช่น ส่วนสูง (ซม.) น้ำหนัก (กก.) ความดันโลหิต (มม.ปรอท) และคอเลสเทอรอล (มก./ดล.)
ไม่มีวิธีใดดีกว่าเสมอไป การเลือกที่เหมาะสมขึ้นกับว่าความแตกต่างของสเกลสะท้อนโครงสร้างที่มีความหมายหรือเป็นเพียงสิ่งประดิษฐ์ของการวัด
ความเข้าใจผิดที่พบบ่อยเกี่ยวกับโควาเรียนซ์และคอร์เรเลชัน
ความเข้าใจผิดที่พบบ่อยอย่างหนึ่งคือ โควาเรียนซ์สูงหมายถึงความสัมพันธ์ที่แข็งแรงโดยอัตโนมัติ ทว่าโควาเรียนซ์ที่มีค่ามากอาจสะท้อนเพียงสเกลหรือความแปรปรวนของตัวแปร แทนที่จะเป็นความแข็งแรงของความสัมพันธ์ หากอยากรู้ความแข็งแรงของความสัมพันธ์ จำเป็นต้องทำให้เป็นมาตรฐานด้วยการดูคอร์เรเลชัน
คุณน่าจะเคยได้ยินวลีว่า “คอร์เรเลชันไม่ใช่เหตุเป็นผล” มานับครั้งไม่ถ้วน! ถึงกระนั้น นี่ก็น่าจะเป็นความเข้าใจผิดที่พบมากที่สุด ผู้คนมักเห็นคอร์เรเลชันสูงแล้วสรุปว่ามีความเป็นเหตุเป็นผล ซึ่งเป็นทางลัดของสมองที่ช่วยให้บรรพบุรุษเอาตัวรอดมานานนับพันปี อย่างไรก็ดี ในฐานะผู้ปฏิบัติงานด้านข้อมูล เราต้องต้านทานทางลัดนี้และตระหนักว่าคอร์เรเลชันเพียงอย่างเดียวไม่เพียงพอที่จะพิสูจน์เหตุเป็นผลได้ คอร์เรเลชันวัดความเชื่อมโยง ไม่ใช่อิทธิพลเชิงเหตุ และปัจจัยภายนอกอาจเป็นตัวขับเคลื่อนตัวแปรทั้งสองพร้อมกัน
ความเข้าใจผิดที่พบบ่อยอีกประการคือ โควาเรียนซ์และคอร์เรเลชันแทบจะเป็นสิ่งเดียวกัน แต่จริงๆ แล้วใช้แทนกันไม่ได้ แม้คอร์เรเลชันจะได้มาจากโควาเรียนซ์ แต่มันทำให้ความสัมพันธ์เป็นมาตรฐาน ทำให้เป็นเมตริกที่แตกต่างอย่างชัดเจนและไม่เหมาะจะใช้แทนโควาเรียนซ์ในการคำนวณเสมอไป
สุดท้าย ควรจำไว้ว่าสถิติเหล่านี้ประเมินเฉพาะความสัมพันธ์เชิงเส้นเท่านั้น ลวดลายไม่เชิงเส้นอาจมีอยู่แม้เมื่อคอร์เรเลชันและโควาเรียนซ์ต่ำหรือใกล้ศูนย์ ดังนั้นการพึ่งพาสถิติเหล่านี้เพียงอย่างเดียวอาจมองข้ามโครงสร้างสำคัญในข้อมูล ผู้เขียนแนะนำให้พล็อตข้อมูลและดูด้วยสายตาก่อนเสมอ การทำเช่นนี้สามารถช่วยคุณได้มากหากมีความสัมพันธ์ไม่เชิงเส้นที่ชัดเจน
ทิปสำหรับการตีความความสัมพันธ์ระหว่างตัวแปร
ประการแรก พิจารณาสเกลของการวัดเสมอ ความแตกต่างของหน่วยหรือความแปรปรวนสามารถกระทบต่อมาตรวัดดิบอย่างโควาเรียนซ์ จึงสำคัญที่ต้องรู้ว่าตัวเลขของคุณแทนอะไร
ประการที่สอง ระบุให้ชัดว่าต้องการอะไรจากข้อมูล โควาเรียนซ์มีประโยชน์ที่สุดเมื่อการคงความแปรปรวนดิบมีความสำคัญ ซึ่งมักเป็นกรณีในการสร้างแบบจำลองหรือเมื่อสร้างเมทริกซ์โควาเรียนซ์สำหรับการวิเคราะห์พหุคูณ ในบริบทเหล่านี้ ขนาดของความแปรปรวนมีข้อมูลที่มีความหมาย แต่หากไม่ต้องการความแปรปรวนดิบ อาจชอบความเป็นมาตรฐานและการตีความที่ง่ายของคอร์เรเลชันมากกว่า
ประการที่สาม พล็อตข้อมูลและดูด้วยตนเองเสมอ! การตรวจสอบด้วยสายตาช่วยชี้นำการวิเคราะห์และเสริมสรุปเชิงสถิติ ใช้สแคตเทอร์พล็อตเพื่อช่วยมองหารูปแบบแบบคู่ หรือใช้เมทริกซ์เพื่อดูภาพรวมตัวแปรจำนวนมากอย่างรวดเร็ว
สุดท้าย พิจารณาผลกระทบต่อเนื่องจากการเลือกมาตรวัดของคุณ การเลือกใช้มาตรวัดดิบอย่างโควาเรียนซ์หรือมาตรวัดมาตรฐานอย่างคอร์เรเลชันจะมีอิทธิพลต่อผลการสร้างแบบจำลองและการตีความ ดังนั้นควรให้การเลือกสอดคล้องกับเป้าหมายการวิเคราะห์
สรุป
โควาเรียนซ์และคอร์เรเลชันเป็นมาตรวัดที่เกี่ยวข้องใกล้ชิดซึ่งอธิบายว่าตัวแปรเคลื่อนไปด้วยกันอย่างไร แต่มีจุดประสงค์ต่างกัน: โควาเรียนซ์คงสเกลดั้งเดิมไว้ ขณะที่คอร์เรเลชันทำให้เป็นมาตรฐานเพื่อการเปรียบเทียบ
หากสนใจเรียนรู้เพิ่มเติมเกี่ยวกับการสำรวจข้อมูล ลองดู Python Exploratory Data Analysis Tutorial หากอยากเรียนรู้วิธีพิจารณาว่าคอร์เรเลชันของคุณสะท้อนเหตุเป็นผลจริงหรือไม่ ลองดู Hypothesis Testing in R
FAQs
ความแตกต่างระหว่างโควาเรียนซ์และคอร์เรเลชันคืออะไร?
แม้ทั้งสองจะวัดว่าตัวแปรเคลื่อนไหวไปด้วยกันอย่างไร โควาเรียนซ์คงสเกลและหน่วยไว้ ส่วนคอร์เรเลชันทำให้สิ่งเหล่านี้เป็นมาตรฐานเพื่อให้เปรียบเทียบได้ง่าย
โควาเรียนซ์สูงเท่ากับความสัมพันธ์ที่แข็งแรงหรือไม่?
ไม่จำเป็น ขนาดของโควาเรียนซ์ได้รับผลอย่างมากจากสเกลและการกระจายตัว หากต้องการระบุความแข็งแรงของความสัมพันธ์ คอร์เรเลชันเป็นสถิติที่เหมาะกว่า
โควาเรียนซ์หรือคอร์เรเลชันใช้กับความสัมพันธ์ไม่เชิงเส้นได้หรือไม่?
ไม่อย่างน่าเชื่อถือ มาตรวัดเหล่านี้ออกแบบมาเพื่อประเมินความสัมพันธ์เชิงเส้นเท่านั้น
เหตุใดคอร์เรเลชันจึงไม่มีหน่วย?
เมื่อแปลงโควาเรียนซ์เป็นคอร์เรเลชัน หน่วยจะถูกหารออก เหลือเพียงตัวเลขไร้หน่วยสำหรับคอร์เรเลชัน
ฉันควรใช้โควาเรียนซ์หรือคอร์เรเลชันสำหรับ PCA?
PCA สามารถทำได้ด้วยทั้งเมทริกซ์โควาเรียนซ์หรือคอร์เรเลชัน หากความแตกต่างของขนาดระหว่างตัวแปรมีความหมายและเปรียบเทียบกันได้ เมทริกซ์โควาเรียนซ์จะจับความแปรปรวนนั้น อย่างไรก็ตาม หากหน่วยของตัวแปรเปรียบเทียบกันโดยตรงไม่ได้ เมทริกซ์คอร์เรเลชันจะทำให้ความสัมพันธ์เป็นมาตรฐาน การเลือกขึ้นกับตัวแปรที่ใช้และเป้าหมายของคุณ