ข้ามไปยังเนื้อหาหลัก

โควาเรียนซ์เทียบกับคอร์เรเลชัน: ต่างกันอย่างไร?

โควาเรียนซ์จับความแปรปรวนดิบ ขณะที่คอร์เรเลชันทำให้เป็นมาตรฐาน เรียนรู้ว่าเมื่อใดควรใช้สิ่งใด
อัปเดตแล้ว 4 พ.ค. 2569  · 13 นาที อ่าน

ในการวิเคราะห์ข้อมูล เรามักพยายามทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรอยู่เสมอ คุณน่าจะคุ้นกับมาตรวัดทางสถิติอยู่สองตัวที่ใช้กันทั่วไปเพื่อวัตถุประสงค์นี้: โควาเรียนซ์และคอร์เรเลชัน สองมาตรวัดนี้ฟังดูคล้ายกันและมักถูกสับสน แต่ความแตกต่างระหว่างทั้งสองคืออะไร และควรใช้อย่างไร?

ทั้งสองอย่างอธิบายว่าตัวแปรเคลื่อนไหวไปด้วยกันอย่างไร อย่างไรก็ตาม แม้จะมีความคล้ายคลึงกัน โควาเรียนซ์และคอร์เรเลชันตอบคำถามที่ต่างกันเล็กน้อยและจึงมีบทบาทต่างกันในเวิร์กโฟลว์ข้อมูล โควาเรียนซ์จับความแปรปร่วมดิบระหว่างฟีเจอร์ ขณะที่คอร์เรเลชันทำให้ความสัมพันธ์นั้นเป็นมาตรฐานเพื่อให้เปรียบเทียบได้ง่ายขึ้น

มาดูกันว่าความแตกต่างเล็กน้อยนี้ส่งผลต่อการเลือกใช้มาตรวัดใดในสถานการณ์ต่างๆ อย่างไร

โควาเรียนซ์คืออะไร?

โควาเรียนซ์วัดว่าตัวแปรสองตัวเคลื่อนไหวไปด้วยกันอย่างไร มันบอกเราว่าเมื่อค่าของตัวแปรหนึ่งเพิ่มขึ้น มีแนวโน้มว่าจะเกิดการเพิ่มขึ้นหรือลดลงในอีกตัวแปรหนึ่งหรือไม่ โควาเรียนซ์มีอยู่สามประเภท:

  • โควาเรียนซ์บวก: เมื่อค่าของตัวแปรหนึ่งเพิ่มขึ้นพร้อมกับอีกตัวแปรเพิ่มขึ้น
  • โควาเรียนซ์ลบ: เมื่อค่าของตัวแปรหนึ่งเพิ่มขึ้นแต่อีกตัวแปรลดลง
  • โควาเรียนซ์ใกล้ศูนย์: เมื่อไม่มีความสัมพันธ์เชิงทิศทางที่สม่ำเสมอ

ด้วยเหตุนี้ โควาเรียนซ์จึงมีประโยชน์สำหรับการตรวจจับว่าตัวแปรเคลื่อนไหวสัมพันธ์กันอย่างไร

อย่างไรก็ตาม แม้ทิศทางของความสัมพันธ์จะเป็นข้อมูลที่เป็นประโยชน์ การตีความขนาดของโควาเรียนซ์ไม่ใช่เรื่องตรงไปตรงมา ขนาดขึ้นอยู่กับหน่วยวัดและสเกลของตัวแปร การแปลงหน่วย เช่น จากเซนติเมตรเป็นเมตร อาจเปลี่ยนค่าขนาดของโควาเรียนซ์อย่างมากโดยไม่กระทบต่อความสัมพันธ์พื้นฐาน

ด้วยเหตุผลนี้ โควาเรียนซ์จึงมักถูกใช้เป็นองค์ประกอบการคำนวณภายในมากกว่าที่จะใช้เป็นสถิติสรุปแบบเดี่ยว

คอร์เรเลชันคืออะไร?

คอร์เรเลชันวัดทั้งความแรงและทิศทางของความสัมพันธ์ระหว่างตัวแปรสองตัว โดยต่อยอดจากโควาเรียนซ์ด้วยการทำให้ขนาดเป็นมาตรฐานเพื่อให้หน่วยวัดไม่ส่งผลกระทบอีกต่อไป

ค่าคอร์เรเลชันอยู่ในช่วงคงที่ระหว่าง +1 (ความสัมพันธ์เชิงบวกอย่างสมบูรณ์) ถึง -1 (ความสัมพันธ์เชิงลบอย่างสมบูรณ์) ค่าคอร์เรเลชันเท่ากับ 0 บอกเราว่าไม่มีความสัมพันธ์เชิงเส้น

สเกลมาตรฐานนี้ทำให้คอร์เรเลชันตีความได้ง่ายกว่าโควาเรียนซ์ หากเห็นค่า 0.8 ก็รู้ได้ทันทีว่ามีความสัมพันธ์ที่แข็งแรงระหว่างตัวแปร โดยไม่ขึ้นกับหน่วยในมาตรเดิม

การทำให้เป็นมาตรฐานยังเปิดโอกาสให้เปรียบเทียบข้ามชุดข้อมูล ฟีเจอร์ และโดเมนได้อย่างมีความหมาย นี่คือเหตุผลที่คอร์เรเลชันถูกใช้บ่อยมากในการวิเคราะห์ข้อมูลเชิงสำรวจและการตรวจสอบฟีเจอร์

โควาเรียนซ์เทียบกับคอร์เรเลชัน: ความแตกต่างสำคัญ

โควาเรียนซ์และคอร์เรเลชันอธิบายคุณสมบัติที่เกี่ยวข้องของความสัมพันธ์ระหว่างตัวแปร แต่มีวัตถุประสงค์ทางการวิเคราะห์ที่ต่างกัน

ในทางปฏิบัติ โควาเรียนซ์สะท้อนความแปรปร่วมดิบ ในขณะที่คอร์เรเลชันสะท้อนความสัมพันธ์เดียวกันนั้นในรูปแบบมาตรฐาน การเข้าใจความแตกต่างนี้ช่วยตัดสินใจได้ว่ามาตรวัดใดเหมาะกับงานวิเคราะห์ที่กำหนดมากกว่า

 

โควาเรียนซ์

คอร์เรเลชัน

วัดอะไร

ความสัมพันธ์เชิงเส้น (ไม่ทำให้เป็นมาตรฐาน)

ความสัมพันธ์เชิงเส้น (ทำให้เป็นมาตรฐาน)

ความไวต่อสเกล

สเกลถูกกำหนดโดยหน่วยวัด

ช่วงคงที่ (−1 ถึง +1)

หน่วย

มีหน่วย

ไม่มีหน่วย

ความง่ายในการตีความ

ขนาดตีความได้ยาก

ทิศทางและขนาดตีความได้ง่าย

การเปรียบเทียบกันได้

เปรียบเทียบข้ามชุดข้อมูลได้จำกัด

เปรียบเทียบข้ามชุดข้อมูลได้โดยตรง

การใช้งานทั่วไป

การสร้างแบบจำลองและเมทริกซ์

การสำรวจและการสื่อสาร

ข้อดี

คงสเกลดั้งเดิมไว้

ทำให้เป็นมาตรฐานเพื่อการเปรียบเทียบ

ตัวอย่างโควาเรียนซ์เทียบกับคอร์เรเลชัน

สมมติว่าเรารวบรวมข้อมูลสองตัวแปร: ส่วนสูงและน้ำหนัก เราคาดว่าทั้งสองเกี่ยวข้องกัน เพราะโดยทั่วไปคนที่สูงกว่าจะมีน้ำหนักมากกว่า เมื่อเราแปลงส่วนสูงเป็นเซนติเมตรเทียบกับน้ำหนักเป็นกิโลกรัม เราเห็นแนวโน้มที่สูงขึ้นอย่างชัดเจน เมื่อส่วนสูงเพิ่ม น้ำหนักก็มักจะเพิ่มด้วย

เมื่อคำนวณโควาเรียนซ์ เราได้ค่าเป็นบวก: 48.08 การที่เป็นบวกบอกเราว่าตัวแปรทั้งสองเคลื่อนไปในทิศทางเดียวกัน เมื่อส่วนสูงสูงกว่าค่าเฉลี่ย น้ำหนักก็มักสูงกว่าค่าเฉลี่ยเช่นกัน

ต่อไปมาดูจุดที่น่าสนใจ ใช้ข้อมูลชุดเดิมทุกประการแล้วเปลี่ยนหน่วย แปลงส่วนสูงจากเซนติเมตรเป็นเมตร และน้ำหนักจากกิโลกรัมเป็นปอนด์ คนเดิม ความสัมพันธ์เดิม ลวดลายในสแคตเทอร์พล็อตดูเหมือนเดิม แต่เมื่อคำนวณโควาเรียนซ์ใหม่ ตัวเลขเปลี่ยนเป็น 1.06 ยังคงเป็นบวก แต่ขนาดต่างกันมาก และสิ่งเดียวที่เราเปลี่ยนคือหน่วย

นี่แสดงคุณสมบัติสำคัญของโควาเรียนซ์: มันจับทิศทาง แต่ขนาดขึ้นอยู่กับสเกล หากเรายืดหรือหดตัวแปรตัวใดตัวหนึ่งด้วยการเปลี่ยนหน่วย โควาเรียนซ์ก็จะยืดหรือหดตามไปด้วย

คราวนี้มาดูคอร์เรเลชันโดยใช้ข้อมูลเดียวกันก่อนและหลังการแปลงหน่วย คอร์เรเลชันเมื่อใช้เซนติเมตรและกิโลกรัมเท่ากับ 0.76 หลังแปลงเป็นเมตรและปอนด์ ก็ยังคงเป็น 0.76

ต่างจากโควาเรียนซ์ คอร์เรเลชันจะปรับตามความแปรปรวนของแต่ละตัวแปรก่อนวัดความสัมพันธ์ระหว่างกัน ด้วยการปรับนี้ ค่าจึงไม่เปลี่ยนเมื่อเราเปลี่ยนหน่วย โดยมุ่งไปที่ว่าจุดข้อมูลเรียงตามลวดลายเชิงเส้นแน่นแค่ไหน และลวดลายนั้นชันขึ้นหรือลง

ตัวอย่างง่ายๆ นี้ช่วยเน้นความแตกต่างหลักระหว่างเมตริกทั้งสอง: โควาเรียนซ์สะท้อนทั้งทิศทางและสเกล ในขณะที่คอร์เรเลชันสะท้อนความแข็งแรงของความสัมพันธ์โดยไม่ขึ้นกับสเกล ในทางปฏิบัติ นั่นหมายความว่าคอร์เรเลชันน่าเชื่อถือกว่าสำหรับการเปรียบเทียบความสัมพันธ์ข้ามตัวแปรที่วัดในสเกลต่างกัน ขณะที่โควาเรียนซ์เหมาะกว่าในบริบทที่ขนาดของความแปรปรวนมีความสำคัญ เช่น การสร้างแบบจำลอง

โควาเรียนซ์อาจตีความได้ยาก

อย่างที่ได้กล่าวไป โควาเรียนซ์บอกเราว่าตัวแปรสองตัวเคลื่อนไปในทิศทางเดียวกันหรือไม่ แต่ขนาดของมันตีความได้ยาก

ประเด็นหลักคือโควาเรียนซ์ขึ้นอยู่กับสเกลของตัวแปร ไม่ใช่แค่ความสัมพันธ์ หากค่าของตัวแปรหนึ่งหรือทั้งสองมีขนาดใหญ่หรือกระจายตัวมาก โควาเรียนซ์ก็มักจะมีค่ามากตามไปด้วย

ความไวนี้มาจากสองแหล่ง แหล่งแรกคือหน่วยของข้อมูล การเปลี่ยนหน่วยทำให้โควาเรียนซ์เปลี่ยน การวัดรายได้เป็นดอลลาร์เทียบกับเป็นหน่วยพันดอลลาร์ให้ค่าโควาเรียนซ์ที่ต่างกันมาก ทั้งที่ความสัมพันธ์เหมือนกัน

แหล่งที่สองคือปริมาณความแปรปรวนในตัวแปร แม้หน่วยจะคงเดิม แต่ชุดข้อมูลที่มีช่วงกว้างหรือการกระจายมากกว่าก็มักให้โควาเรียนซ์ใหญ่กว่าชุดข้อมูลที่แน่นกว่าซึ่งมีความสัมพันธ์พื้นฐานเดียวกัน โควาเรียนซ์ขนาดใหญ่ไม่ได้บ่งชี้ความสัมพันธ์ที่แข็งแรงเสมอไป แต่อาจเพียงสะท้อนสเกลที่ใหญ่กว่าหรือความแปรปรวนที่มากกว่าในข้อมูล

ด้วยความไวต่อสเกลนี้ โควาเรียนซ์จึงมักถูกใช้ภายใน เช่น สำหรับการฟิตแบบจำลอง มากกว่าการรายงานโดยตรง

เหตุใดคอร์เรเลชันจึงถูกใช้บ่อยกว่า

คอร์เรเลชันช่วยแก้ปัญหาด้านการตีความของโควาเรียนซ์หลายประการด้วยการทำให้ความสัมพันธ์ระหว่างตัวแปรเป็นมาตรฐาน เพราะค่าคอร์เรเลชันอยู่ระหว่าง −1 ถึง +1 เสมอ ขนาดจึงมีความหมายทันที: ค่าใกล้ 1 หรือ −1 บ่งชี้ความสัมพันธ์เชิงเส้นที่แข็งแรง ส่วนค่าใกล้ 0 บ่งชี้ความสัมพันธ์เชิงเส้นที่อ่อนหรือไม่มีเลย การทำให้เป็นมาตรฐานยังช่วยให้เปรียบเทียบข้ามตัวแปรหรือชุดข้อมูลได้โดยตรง ทำให้สื่อสารและตีความได้ง่ายขึ้น

คุณสมบัติเหล่านี้ทำให้คอร์เรเลชันมีประโยชน์อย่างยิ่งสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ การตรวจสอบความสัมพันธ์ระหว่างฟีเจอร์ การตรวจจับความซ้ำซ้อนหรือมัลติโคลลิเนียริตี และการรายงานผล เมทริกซ์คอร์เรเลชันและฮีตแมปยังเป็นเครื่องมือด่านแรกที่ดีเมื่อสำรวจชุดข้อมูล

อย่างไรก็ตาม คอร์เรเลชันไม่ได้ทดแทนโควาเรียนซ์ได้ทั้งหมด เนื่องจากคอร์เรเลชันตัดผลของสเกลออก จึงสะท้อนเฉพาะความแข็งแรงของความสัมพันธ์ ไม่ใช่ความแปรปรวนดิบ ในบริบทของการสร้างแบบจำลอง เช่น การวิเคราะห์องค์ประกอบหลักหรือแบบจำลองสถิติพหุคูณ สเกลดั้งเดิมที่โควาเรียนซ์จับไว้สามารถมีความสำคัญต่อการเข้าใจโครงสร้างความแปรปรวนและชี้นำพฤติกรรมของอัลกอริทึม

มุมมองพีชคณิตเชิงเส้น

จนถึงตอนนี้ เราได้ดูโควาเรียนซ์ระหว่างตัวแปรเป็นคู่ๆ พีชคณิตเชิงเส้นแสดงให้เห็นวิธีขยายแนวคิดนั้นไปยังทั้งชุดข้อมูลพร้อมกัน เราทำได้โดยจัดข้อมูลให้อยู่ในรูปเมทริกซ์

ในเมทริกซ์ข้อมูลพื้นฐาน แต่ละแถวแทนการสังเกตหนึ่งรายการ และแต่ละคอลัมน์แทนตัวแปรหนึ่งตัว เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปร เราสามารถทำการเซ็นเตอร์ข้อมูลโดยลบค่าเฉลี่ยของคอลัมน์ออกจากแต่ละค่า ขั้นตอนนี้ช่วยให้เรามุ่งเน้นที่การเบี่ยงเบนจากค่าปกติมากกว่าค่าเชิงสัมบูรณ์

การคูณเมทริกซ์ข้อมูลที่ถูกเซ็นเตอร์ด้วยทรานสโพสของมันทำให้ได้โครงสร้างที่จับว่าตัวแปรเคลื่อนไหวไปด้วยกันอย่างไร ผลคูณนี้ หลังการสเกล คือเมทริกซ์โควาเรียนซ์ จากมุมมองพีชคณิตเชิงเส้น เมทริกซ์โควาเรียนซ์สรุปว่าความแปรปรวนกระจายอยู่ข้ามมิติของชุดข้อมูลอย่างไร

การมองโควาเรียนซ์ในลักษณะนี้ช่วยอธิบายว่าทำไมมันจึงปรากฏบ่อยในวิทยาศาสตร์ข้อมูล อัลกอริทึมหลายตัว รวมถึงการวิเคราะห์องค์ประกอบหลัก (PCA)และเทคนิคการลดมิติอื่นๆ พึ่งพาการแทนแบบเมทริกซ์นี้เพื่อทำความเข้าใจรูปแบบและโครงสร้างในข้อมูล โดยเชิงแนวคิด เมทริกซ์โควาเรียนซ์ให้แผนที่ว่ามิติต่างๆ ของชุดข้อมูลมีปฏิสัมพันธ์กันอย่างไร

Three matrices side by side. From left to right: a simple data matrix, a centered version of the previous matrix, and a covariance matrix of the same data.

ที่นี่เราจะเห็นข้อมูลสำหรับสี่ตัวแปรเรียงอยู่ในเมทริกซ์ข้อมูล จากนั้นถูกเซ็นเตอร์และใช้สร้างเมทริกซ์โควาเรียนซ์

หากต้องการศึกษาพีชคณิตเชิงเส้นสำหรับวิทยาศาสตร์ข้อมูลเชิงลึกยิ่งขึ้น ลองดูคอร์ส Linear Algebra for Data Science in R ซึ่งครอบคลุมพื้นฐานที่จำเป็นต่อการทำความเข้าใจแนวทางแบบเมทริกซ์อย่างโควาเรียนซ์

เมทริกซ์โควาเรียนซ์และคอร์เรเลชัน

เมทริกซ์โควาเรียนซ์สรุปว่าตัวแปรเคลื่อนไหวไปด้วยกันอย่างไรตลอดทั้งชุดข้อมูล ในทางปฏิบัติ เรามักตรวจสอบความสัมพันธ์เหล่านี้ด้วยเมทริกซ์โควาเรียนซ์หรือคอร์เรเลชัน ขึ้นอยู่กับว่าอยากคงสเกลดั้งเดิมไว้หรือทำให้ผลลัพธ์เป็นมาตรฐาน

เมทริกซ์โควาเรียนซ์ประกอบด้วยโควาเรียนซ์ระหว่างคู่ตัวแปรทั้งหมด ค่าในแนวทแยงแสดงความแปรปรวนภายในแต่ละตัวแปร ส่วนค่านอกแนวทแยงสะท้อนว่าตัวแปรเปลี่ยนไปด้วยกันอย่างไร เพราะโควาเรียนซ์คงสเกลและหน่วยดั้งเดิมของข้อมูลไว้ เมทริกซ์จึงจับโครงสร้างความแปรปรวนดิบได้ ทำให้เมทริกซ์โควาเรียนซ์มีประโยชน์เป็นพิเศษในเวิร์กโฟลว์การสร้างแบบจำลองและการวิเคราะห์พหุคูณ

ในทางกลับกัน เมทริกซ์คอร์เรเลชันจะทำให้ความสัมพันธ์เหล่านี้เป็นมาตรฐาน ค่าในแนวทแยงเท่ากับ 1 เสมอ เพราะทุกตัวแปรมีความสัมพันธ์สมบูรณ์กับตัวเอง ค่านอกแนวทแยงทั้งหมดอยู่ระหว่าง −1 และ +1 แสดงคอร์เรเลชันระหว่างตัวแปร ด้วยการตัดผลของสเกลออก เมทริกซ์คอร์เรเลชันจึงตีความได้ง่ายกว่าและให้การเปรียบเทียบข้ามตัวแปรโดยตรง เหมาะอย่างยิ่งในการวิเคราะห์ข้อมูลเชิงสำรวจและการระบุความสัมพันธ์เชิงเส้นที่แข็งแรงหรืออ่อนระหว่างฟีเจอร์อย่างรวดเร็ว

Two matrices: a covariance matrix and a correlation matrix for the same data.

ในเมทริกซ์เหล่านี้ เรากำลังเปรียบเทียบตัวแปรสี่ตัวเข้าด้วยกัน ผู้เขียนชอบเพิ่มโอเวอร์เลย์ฮีตแมปเมื่อพรีเซนต์เมทริกซ์เหล่านี้ สีของแต่ละเซลล์ช่วยให้เราเห็นขนาดสัมพัทธ์ของค่าโควาเรียนซ์หรือคอร์เรเลชันได้ในพริบตา

วิธีแปลงโควาเรียนซ์เป็นคอร์เรเลชัน

ในเชิงแนวคิด คอร์เรเลชันได้มาจากโควาเรียนซ์ด้วยการทำให้ความสัมพันธ์ระหว่างตัวแปรเป็นมาตรฐาน เพียงหารโควาเรียนซ์ด้วยส่วนเบี่ยงเบนมาตรฐานของแต่ละตัวแปร การสเกลนี้จะลบหน่วยและขนาดของตัวแปรออก ทำให้ได้มาตรวัดมาตรฐานที่อยู่ระหว่าง −1 และ +1 เสมอ การแปลงนี้คือเหตุผลที่ค่าคอร์เรเลชันสามารถเปรียบเทียบกันได้โดยตรงข้ามตัวแปรหรือต่างชุดข้อมูล

ในทางปฏิบัติ การแปลงโควาเรียนซ์เป็นคอร์เรเลชันมักทำโดยอัตโนมัติในซอฟต์แวร์สถิติมาตรฐาน ดังนั้นนักวิเคราะห์แทบไม่ต้องคำนวณเอง อย่างไรก็ตาม การเข้าใจว่าซอฟต์แวร์ทำอะไรเบื้องหลังยังคงสำคัญ ตัวอย่างเช่น การเข้าใจว่าโควาเรียนซ์ถูกแปลงเป็นคอร์เรเลชันอย่างไรอธิบายได้ว่าทำไมจึงไม่สามารถแปลงย้อนกลับได้direction(อย่างน้อยก็ทำไม่ได้หากไม่มีข้อมูลส่วนเบี่ยงเบนมาตรฐานของทั้งสองตัวแปร) Correlation ไม่มีหน่วยหรือข้อมูลขนาดที่จำเป็นต่อการแปลงกลับเป็นโควาเรียนซ์

ควรใช้โควาเรียนซ์และคอร์เรเลชันเมื่อใด

โควาเรียนซ์มีประโยชน์ที่สุดเมื่อสเกลและหน่วยของข้อมูลมีความหมาย หรือเมื่อจำเป็นต้องใช้โครงสร้างความแปรปรวนดิบของข้อมูล มักใช้ในแบบจำลองพหุคูณ แบบจำลองเชิงความน่าจะเป็น และในการสร้างเมทริกซ์โควาเรียนซ์สำหรับวิธีการบนฐานพีชคณิตเชิงเส้น ในบริบทเหล่านี้ การคงความแปรปรวนดั้งเดิมช่วยให้อัลกอริทึมจับโครงสร้างจริงของข้อมูลและเข้าใจว่ามิติต่างๆ แปรไปด้วยกันอย่างไร

ในทางกลับกัน คอร์เรเลชันเหมาะกว่าเพื่อการตีความโดยมนุษย์ การเปรียบเทียบระหว่างชุดข้อมูล และการวิเคราะห์เชิงสำรวจ ผู้เขียนมักใช้เมตริกนี้ในงานภาพข้อมูล เช่น ฮีตแมป เพื่อให้เห็นและสื่อสารความสัมพันธ์เหล่านี้ได้รวดเร็ว เนื่องจากคอร์เรเลชันทำให้ความสัมพันธ์เป็นมาตรฐาน จึงช่วยเตรียมข้อมูลสำหรับเทคนิคที่การทำให้ฟีเจอร์อยู่บนสเกลที่เปรียบเทียบกันได้มีความสำคัญ

โควาเรียนซ์เทียบกับคอร์เรเลชันในวิทยาการข้อมูลและสถิติ

บ่อยครั้ง ทั้งสองมาตรวัดจะปรากฏในเวิร์กโฟลว์เดียวกัน เมทริกซ์โควาเรียนซ์เป็นรากฐานทางคณิตศาสตร์ของเทคนิคพหุคูณหลายอย่าง เพราะคงความแปรปรวนดั้งเดิมของข้อมูลไว้ ส่วนเมทริกซ์คอร์เรเลชันถูกใช้บ่อยในช่วงสำรวจเพื่อทำความเข้าใจโครงสร้างของชุดข้อมูลก่อนการสร้างแบบจำลอง

บางแบบจำลองสามารถใช้สถิติใดก็ได้ ขึ้นอยู่กับเป้าหมาย ลองพิจารณา PCA เมื่อทำ PCA บนเมทริกซ์โควาเรียนซ์ ตัวแปรที่มีความแปรปรวนมากกว่าจะมีอิทธิพลต่อคอมโพเนนต์ที่ได้มากกว่าโดยธรรมชาติ ซึ่งอาจเป็นสิ่งที่ต้องการหากความแตกต่างของสเกลสะท้อนความแตกต่างของความแปรปรวนที่มีความหมาย ตัวอย่างเช่น หากกำลังวิเคราะห์ผลตอบแทนหุ้นรายวัน หุ้นที่ผันผวนมากกว่าอาจกำหนดคอมโพเนนต์หลักได้เหมาะสม เพราะความแปรปรวนนั้นสะท้อนพฤติกรรมตลาดจริง

การใช้เมทริกซ์คอร์เรเลชันแทนจะทำให้ตัวแปรเป็นมาตรฐานก่อนการแยกองค์ประกอบ แต่ละฟีเจอร์ถูกวางบนสเกลเดียวกัน จึงไม่มีตัวแปรใดครอบงำเพียงเพราะมีหน่วยใหญ่กว่าหรือช่วงค่ากว้างกว่า วิธีนี้อาจเหมาะกว่าเมื่อวัดตัวแปรด้วยหน่วยต่างกัน เช่น ส่วนสูง (ซม.) น้ำหนัก (กก.) ความดันโลหิต (มม.ปรอท) และคอเลสเทอรอล (มก./ดล.)

ไม่มีวิธีใดดีกว่าเสมอไป การเลือกที่เหมาะสมขึ้นกับว่าความแตกต่างของสเกลสะท้อนโครงสร้างที่มีความหมายหรือเป็นเพียงสิ่งประดิษฐ์ของการวัด

ความเข้าใจผิดที่พบบ่อยเกี่ยวกับโควาเรียนซ์และคอร์เรเลชัน

ความเข้าใจผิดที่พบบ่อยอย่างหนึ่งคือ โควาเรียนซ์สูงหมายถึงความสัมพันธ์ที่แข็งแรงโดยอัตโนมัติ ทว่าโควาเรียนซ์ที่มีค่ามากอาจสะท้อนเพียงสเกลหรือความแปรปรวนของตัวแปร แทนที่จะเป็นความแข็งแรงของความสัมพันธ์ หากอยากรู้ความแข็งแรงของความสัมพันธ์ จำเป็นต้องทำให้เป็นมาตรฐานด้วยการดูคอร์เรเลชัน

คุณน่าจะเคยได้ยินวลีว่า “คอร์เรเลชันไม่ใช่เหตุเป็นผล” มานับครั้งไม่ถ้วน! ถึงกระนั้น นี่ก็น่าจะเป็นความเข้าใจผิดที่พบมากที่สุด ผู้คนมักเห็นคอร์เรเลชันสูงแล้วสรุปว่ามีความเป็นเหตุเป็นผล ซึ่งเป็นทางลัดของสมองที่ช่วยให้บรรพบุรุษเอาตัวรอดมานานนับพันปี อย่างไรก็ดี ในฐานะผู้ปฏิบัติงานด้านข้อมูล เราต้องต้านทานทางลัดนี้และตระหนักว่าคอร์เรเลชันเพียงอย่างเดียวไม่เพียงพอที่จะพิสูจน์เหตุเป็นผลได้ คอร์เรเลชันวัดความเชื่อมโยง ไม่ใช่อิทธิพลเชิงเหตุ และปัจจัยภายนอกอาจเป็นตัวขับเคลื่อนตัวแปรทั้งสองพร้อมกัน

ความเข้าใจผิดที่พบบ่อยอีกประการคือ โควาเรียนซ์และคอร์เรเลชันแทบจะเป็นสิ่งเดียวกัน แต่จริงๆ แล้วใช้แทนกันไม่ได้ แม้คอร์เรเลชันจะได้มาจากโควาเรียนซ์ แต่มันทำให้ความสัมพันธ์เป็นมาตรฐาน ทำให้เป็นเมตริกที่แตกต่างอย่างชัดเจนและไม่เหมาะจะใช้แทนโควาเรียนซ์ในการคำนวณเสมอไป

สุดท้าย ควรจำไว้ว่าสถิติเหล่านี้ประเมินเฉพาะความสัมพันธ์เชิงเส้นเท่านั้น ลวดลายไม่เชิงเส้นอาจมีอยู่แม้เมื่อคอร์เรเลชันและโควาเรียนซ์ต่ำหรือใกล้ศูนย์ ดังนั้นการพึ่งพาสถิติเหล่านี้เพียงอย่างเดียวอาจมองข้ามโครงสร้างสำคัญในข้อมูล ผู้เขียนแนะนำให้พล็อตข้อมูลและดูด้วยสายตาก่อนเสมอ การทำเช่นนี้สามารถช่วยคุณได้มากหากมีความสัมพันธ์ไม่เชิงเส้นที่ชัดเจน

ทิปสำหรับการตีความความสัมพันธ์ระหว่างตัวแปร

ประการแรก พิจารณาสเกลของการวัดเสมอ ความแตกต่างของหน่วยหรือความแปรปรวนสามารถกระทบต่อมาตรวัดดิบอย่างโควาเรียนซ์ จึงสำคัญที่ต้องรู้ว่าตัวเลขของคุณแทนอะไร

ประการที่สอง ระบุให้ชัดว่าต้องการอะไรจากข้อมูล โควาเรียนซ์มีประโยชน์ที่สุดเมื่อการคงความแปรปรวนดิบมีความสำคัญ ซึ่งมักเป็นกรณีในการสร้างแบบจำลองหรือเมื่อสร้างเมทริกซ์โควาเรียนซ์สำหรับการวิเคราะห์พหุคูณ ในบริบทเหล่านี้ ขนาดของความแปรปรวนมีข้อมูลที่มีความหมาย แต่หากไม่ต้องการความแปรปรวนดิบ อาจชอบความเป็นมาตรฐานและการตีความที่ง่ายของคอร์เรเลชันมากกว่า

ประการที่สาม พล็อตข้อมูลและดูด้วยตนเองเสมอ! การตรวจสอบด้วยสายตาช่วยชี้นำการวิเคราะห์และเสริมสรุปเชิงสถิติ ใช้สแคตเทอร์พล็อตเพื่อช่วยมองหารูปแบบแบบคู่ หรือใช้เมทริกซ์เพื่อดูภาพรวมตัวแปรจำนวนมากอย่างรวดเร็ว

สุดท้าย พิจารณาผลกระทบต่อเนื่องจากการเลือกมาตรวัดของคุณ การเลือกใช้มาตรวัดดิบอย่างโควาเรียนซ์หรือมาตรวัดมาตรฐานอย่างคอร์เรเลชันจะมีอิทธิพลต่อผลการสร้างแบบจำลองและการตีความ ดังนั้นควรให้การเลือกสอดคล้องกับเป้าหมายการวิเคราะห์

สรุป

โควาเรียนซ์และคอร์เรเลชันเป็นมาตรวัดที่เกี่ยวข้องใกล้ชิดซึ่งอธิบายว่าตัวแปรเคลื่อนไปด้วยกันอย่างไร แต่มีจุดประสงค์ต่างกัน: โควาเรียนซ์คงสเกลดั้งเดิมไว้ ขณะที่คอร์เรเลชันทำให้เป็นมาตรฐานเพื่อการเปรียบเทียบ

หากสนใจเรียนรู้เพิ่มเติมเกี่ยวกับการสำรวจข้อมูล ลองดู Python Exploratory Data Analysis Tutorial หากอยากเรียนรู้วิธีพิจารณาว่าคอร์เรเลชันของคุณสะท้อนเหตุเป็นผลจริงหรือไม่ ลองดู Hypothesis Testing in R

FAQs

ความแตกต่างระหว่างโควาเรียนซ์และคอร์เรเลชันคืออะไร?

แม้ทั้งสองจะวัดว่าตัวแปรเคลื่อนไหวไปด้วยกันอย่างไร โควาเรียนซ์คงสเกลและหน่วยไว้ ส่วนคอร์เรเลชันทำให้สิ่งเหล่านี้เป็นมาตรฐานเพื่อให้เปรียบเทียบได้ง่าย

โควาเรียนซ์สูงเท่ากับความสัมพันธ์ที่แข็งแรงหรือไม่?

ไม่จำเป็น ขนาดของโควาเรียนซ์ได้รับผลอย่างมากจากสเกลและการกระจายตัว หากต้องการระบุความแข็งแรงของความสัมพันธ์ คอร์เรเลชันเป็นสถิติที่เหมาะกว่า

โควาเรียนซ์หรือคอร์เรเลชันใช้กับความสัมพันธ์ไม่เชิงเส้นได้หรือไม่?

ไม่อย่างน่าเชื่อถือ มาตรวัดเหล่านี้ออกแบบมาเพื่อประเมินความสัมพันธ์เชิงเส้นเท่านั้น

เหตุใดคอร์เรเลชันจึงไม่มีหน่วย?

เมื่อแปลงโควาเรียนซ์เป็นคอร์เรเลชัน หน่วยจะถูกหารออก เหลือเพียงตัวเลขไร้หน่วยสำหรับคอร์เรเลชัน

ฉันควรใช้โควาเรียนซ์หรือคอร์เรเลชันสำหรับ PCA?

PCA สามารถทำได้ด้วยทั้งเมทริกซ์โควาเรียนซ์หรือคอร์เรเลชัน หากความแตกต่างของขนาดระหว่างตัวแปรมีความหมายและเปรียบเทียบกันได้ เมทริกซ์โควาเรียนซ์จะจับความแปรปรวนนั้น อย่างไรก็ตาม หากหน่วยของตัวแปรเปรียบเทียบกันโดยตรงไม่ได้ เมทริกซ์คอร์เรเลชันจะทำให้ความสัมพันธ์เป็นมาตรฐาน การเลือกขึ้นกับตัวแปรที่ใช้และเป้าหมายของคุณ

หัวข้อ

เรียนกับ DataCamp

Courses

Linear Algebra for Data Science in R

4 ชม.
20.7K
This course is an introduction to linear algebra, one of the most important mathematical topics underpinning data science.
ดูรายละเอียดRight Arrow
เริ่มหลักสูตร
ดูเพิ่มเติมRight Arrow