Courses
Hiếm có khái niệm nào vừa nền tảng vừa có phạm vi ứng dụng rộng rãi trong thống kê và khoa học dữ liệu như phân phối Gauss. Còn được gọi là phân phối chuẩn, mô hình toán học này là nền tảng của vô số phương pháp thống kê và kỹ thuật phân tích dữ liệu.
Hướng dẫn toàn diện này sẽ phân tích khái niệm về các phân phối Gauss, khám phá các đặc tính, ứng dụng và ý nghĩa của chúng trong phân tích dữ liệu hiện đại. Chúng ta sẽ xem xét vì sao chúng lại phổ biến trong các hiện tượng tự nhiên và cách chúng được sử dụng trong nhiều lĩnh vực, từ tài chính đến sản xuất.
Nếu bạn mới bắt đầu với thống kê hoặc muốn ôn lại những điều cơ bản, khóa học Introduction to Statistics của chúng tôi sẽ cung cấp nền tảng xuất sắc. Với những ai đã sẵn sàng áp dụng các khái niệm này trong các ngôn ngữ lập trình cụ thể, các khóa học Statistical Thinking in Python (Part 1) và Statistics Fundamentals with R sẽ giúp bạn hiểu được nhiều cách mà phân phối Gauss xuất hiện trong thống kê mô tả và suy luận.
Phân phối Gauss là gì?
Phân phối Gauss, hay phân phối chuẩn, là một phân phối xác suất liên tục có đường cong hình chuông. Nó được xác định bởi hai tham số:
- μ (mu): Giá trị trung bình hoặc kỳ vọng của phân phối
- σ (sigma): Độ lệch chuẩn, đo mức độ phân tán của phân phối
Hàm mật độ xác suất (PDF) của một phân phối Gauss được cho bởi:

Trong đó:
- x là biến số
- e là số Euler (xấp xỉ 2,71828)
- π (pi) là hằng số toán học pi (xấp xỉ 3,14159)
Trực quan hóa phân phối Gauss
Để minh họa khái niệm về phân phối Gauss, hãy xét phân phối cân nặng khi sinh của các em bé đủ tháng trong một quần thể lớn:

Một số quan sát chính từ biểu đồ này gồm:
- Phần lớn cân nặng sơ sinh tập trung quanh một giá trị trung bình (đỉnh của đường cong).
- Ít trẻ có cân nặng lệch đáng kể khỏi mức trung bình này.
- Rất ít trẻ có cân nặng cực đoan (rất cao hoặc rất thấp).
Định lý giới hạn trung tâm
Sự phổ biến của các phân phối Gauss trong tự nhiên và thống kê có thể được giải thích bằng định lý giới hạn trung tâm (CLT). CLT phát biểu rằng phân phối của trung bình mẫu tiến gần phân phối chuẩn khi kích thước mẫu tăng (ví dụ, n ≥ 30) bất kể phân phối của quần thể gốc như thế nào.
Một khía cạnh quan trọng của CLT là sự hội tụ về phân phối chuẩn diễn ra tương đối nhanh khi kích thước mẫu tăng. Trong hầu hết các mục đích thực tiễn, ngay cả các mẫu với kích thước vừa phải (ví dụ, n ≥ 30) cũng đủ để trung bình mẫu xấp xỉ một phân phối chuẩn. Điều này đúng ngay cả khi bản thân quần thể bị lệch.
Phân phối Gauss chuẩn hóa
Trong lớp các phân phối Gauss, có một trường hợp đặc biệt gọi là phân phối Gauss chuẩn hóa, hay thường được biết đến hơn là phân phối chuẩn tắc. Đây là một phân phối Gauss mà:
- Trung bình (μ) đúng bằng 0.
- Độ lệch chuẩn (σ) đúng bằng 1.
Hàm mật độ xác suất của một phân phối Gauss chuẩn hóa được cho bởi công thức sau.

Lưu ý rằng công thức cho hàm mật độ xác suất của phân phối Gauss chuẩn hóa được đơn giản hóa từ dạng tổng quát nhờ các giá trị cụ thể của trung bình và độ lệch chuẩn. Giờ hãy trực quan hóa phân phối Gauss chuẩn hóa.
Phân phối Gauss chuẩn hóa. Ảnh: Tác giả
Phân phối Gauss chuẩn hóa, như minh họa trong hình, đóng vai trò là điểm tham chiếu trong thống kê. Bạn có thể thấy cách phân phối Gauss chuẩn hóa là phiên bản được chuẩn hóa của bất kỳ phân phối Gauss nào. Quá trình chuẩn hóa dịch chuyển trung bình về 0 và co giãn độ lệch chuẩn về 1 trong khi vẫn giữ nguyên các đặc tính cơ bản của phân phối.
Các đặc tính của phân phối Gauss
Giờ hãy xem một số đặc tính của các phân phối Gauss.
Tính đối xứng và đường cong hình chuông
Dấu hiệu đặc trưng của một phân phối Gauss là hình chuông đối xứng. Tính đối xứng này có nghĩa dữ liệu có khả năng rơi vào phía trên hoặc dưới trung bình như nhau, điều này đặc biệt hữu ích khi dự đoán xác suất và suy luận về dữ liệu. Như minh họa trong hình sau, mọi phân phối Gauss đều duy trì đặc trưng đường cong hình chuông này, bất kể trung bình hay độ lệch chuẩn của chúng.
Trực quan hóa các phân phối Gauss. Ảnh: Tác giả
Trùng nhau của trung bình, trung vị và mốt
Trong một phân phối Gauss hoàn hảo, trung bình (mean), trung vị (median) và mốt (mode) đều trùng nhau. Sự trùng khớp này cung cấp chỉ báo rõ ràng về xu hướng trung tâm của dữ liệu, hữu ích để tóm tắt tập dữ liệu. Trong hình minh họa, bạn có thể thấy đỉnh của mỗi đường cong biểu thị điểm trung tâm này.
Độ lệch chuẩn và độ phân tán dữ liệu
Độ lệch chuẩn trong một phân phối Gauss cho biết dữ liệu phân tán ra sao so với trung bình. Nó tuân theo một quy luật có thể dự đoán:
- Khoảng 68% dữ liệu nằm trong phạm vi một độ lệch chuẩn quanh trung bình.
- Khoảng 95% nằm trong hai độ lệch chuẩn.
- Khoảng 99,7% nằm trong ba độ lệch chuẩn.
Quy tắc này, được gọi là quy tắc 68-95-99,7, áp dụng cho mọi phân phối Gauss, bất kể trung bình hay độ lệch chuẩn của chúng.
Ứng dụng thực tiễn của phân phối Gauss
Phân phối Gauss không chỉ là một khái niệm lý thuyết – chúng có phạm vi ứng dụng rộng rãi trong nhiều lĩnh vực.
Suy luận thống kê và kiểm định giả thuyết
Nhiều kiểm định thống kê, như t-test và ANOVA, giả định rằng dữ liệu có phân phối chuẩn. Các kiểm định này giúp nhà nghiên cứu xác định liệu có sự khác biệt đáng kể giữa các nhóm hay không, hoặc các hiệu ứng quan sát được có khả năng do ngẫu nhiên hay không. Giả định tính chuẩn cho phép tính p-value và khoảng tin cậy, cung cấp khuôn khổ để rút ra kết luận từ dữ liệu và ra quyết định có cơ sở.
Giả định tính chuẩn quan trọng đến mức các kỹ thuật lấy mẫu lại như bootstrapping đã được phát triển để tạo ra các phân phối lấy mẫu lại có tính chuẩn từ dữ liệu không chuẩn, giúp dễ dàng hơn trong việc xây dựng khoảng tin cậy và thực hiện các phân tích thống kê khác. Hướng dẫn về kiểm định giả thuyết của chúng tôi trình bày cách tiến hành các kiểm định này trong nhiều kịch bản, bao gồm cả các tình huống dữ liệu có phân phối chuẩn.
Thuật toán machine learning
Nhiều kỹ thuật machine learning dựa trên các giả định về tính chuẩn, khiến phân phối Gauss trở nên nền tảng cho hoạt động và diễn giải của chúng. Chẳng hạn trong hồi quy tuyến tính, chúng ta thường mong muốn các giá trị y (biến phụ thuộc) tuân theo phân phối chuẩn để có niềm tin vào các ước lượng. Ngoài ra, chúng ta kỳ vọng phần dư (chênh lệch giữa giá trị quan sát và giá trị dự đoán) có phân phối chuẩn. Những giả định tính chuẩn này là nền tảng cho các kiểm định thống kê dùng để đánh giá độ tin cậy của mô hình và khoảng tin cậy cho dự báo.
Bên cạnh đó, các nhà khoa học machine learning có thể ưa làm việc với dữ liệu tuân theo phân phối Gauss vì lý do hiệu quả tính toán. Phân phối Gauss có thể gián tiếp góp phần vào hiệu quả tính toán trong một số thuật toán, đặc biệt những thuật toán giả định hoặc dựa vào dữ liệu có phân phối chuẩn.
- Ước lượng tham số hiệu quả: Trong phân phối Gauss, trung bình và phương sai là các thống kê đầy đủ, nghĩa là chúng mô tả trọn vẹn phân phối. Điều này giảm nhu cầu mô hình hóa phức tạp các mô-men bậc cao, tăng tốc ước lượng tham số.
- Hội tụ thuật toán: Các thuật toán như gradient descent, dùng cho tối ưu hóa trong machine learning, có thể hội tụ nhanh hơn nếu dữ liệu có phân phối chuẩn.
- Giảm độ phức tạp tính toán ở một số thuật toán: Các thuật toán như Gaussian naive Bayes được thiết kế riêng cho dữ liệu có phân phối chuẩn và có thể hiệu quả khi giả định này đúng.
Những điều cần lưu ý với phân phối Gauss
Mặc dù phân phối Gauss cực kỳ hữu ích, điều quan trọng là bạn cần nhận biết một số quan niệm sai lầm phổ biến.
Không phải mọi dữ liệu đều có phân phối chuẩn
Nhiều hiện tượng tự nhiên và xã hội tuân theo các phân phối khác. Luôn kiểm tra dữ liệu trước khi giả định nó có phân phối chuẩn. Chẳng hạn, phân phối thu nhập thường lệch phải, theo phân phối log-chuẩn hơn là chuẩn. Tương tự, thời gian chờ đợi và độ phong phú loài trong sinh thái thường theo phân phối mũ hoặc lũy thừa.
Ngay cả một số phân phối mà bạn kỳ vọng là chuẩn cũng không nhất thiết là chuẩn. Ví dụ, độ tuổi của mọi người trong một khu dân cư sẽ không có phân phối chuẩn vì một số thế hệ có nhiều trẻ em hơn, cùng nhiều lý do khác. Cuối cùng, cũng có những phân phối trông có vẻ chuẩn nhưng không phải. Ví dụ, phân phối Pareto có đuôi lũy thừa, và phân phối Cauchy không có trung bình hay phương sai được xác định.
Ngoại lệ và giá trị cực đoan
Trong một phân phối Gauss, các giá trị cực đoan hiếm gặp nhưng không phải bất khả. Đừng tự động loại bỏ những điểm dữ liệu bất thường – chúng có thể chứa thông tin giá trị. Quy tắc 68-95-99,7 cho biết khoảng 0,3% dữ liệu trong một phân phối chuẩn sẽ nằm ngoài ba độ lệch chuẩn so với trung bình. Trong một tập dữ liệu 1000 điểm, điều này có nghĩa khoảng 3 điểm có thể rất cực đoan mà không vi phạm giả định tính chuẩn.
Kích thước mẫu quan trọng
Định lý giới hạn trung tâm yêu cầu kích thước mẫu đủ lớn để hoạt động hiệu quả. Hãy thận trọng khi áp dụng các giả định phân phối chuẩn cho tập dữ liệu nhỏ. Dù không có ngưỡng phổ quát, nhiều nhà thống kê đề xuất kích thước mẫu tối thiểu 30 để CLT áp dụng tương đối tốt. Tuy nhiên, điều này có thể thay đổi tùy theo phân phối nền của quần thể. Với các phân phối lệch mạnh, bạn có thể cần mẫu lớn hơn nữa.
Các phân phối khác cần cân nhắc
Mặc dù phân phối Gauss có phạm vi ứng dụng rộng, đôi khi các phân phối khác lại phù hợp hơn.
Phân phối t của Student
Phân phối t của Student giống phân phối chuẩn nhưng có đuôi nặng hơn, nghĩa là nó gán xác suất cao hơn cho các giá trị cực đoan xa trung bình. Đặc điểm này đặc biệt hữu ích trong các tình huống sau:
- Cỡ mẫu nhỏ: Khi làm việc với tập dữ liệu nhỏ (thường dưới 30 quan sát), ước lượng độ lệch chuẩn của quần thể kém tin cậy hơn. Phân phối t phản ánh mức bất định tăng thêm này.
- Không biết độ lệch chuẩn quần thể: Nếu không biết độ lệch chuẩn của quần thể — điều này thường xảy ra — phân phối t cung cấp mô hình chính xác hơn cho phân phối lấy mẫu của trung bình mẫu.
- Ngoại lệ và đuôi nặng: Dữ liệu dễ xuất hiện giá trị cực đoan hoặc ngoại lệ hưởng lợi từ đuôi nặng của phân phối t, đem lại mức độ phù hợp tốt hơn so với phân phối chuẩn.
Khi kích thước mẫu tăng, phân phối t hội tụ về phân phối chuẩn. Điều này là do định lý giới hạn trung tâm, phát biểu rằng phân phối của trung bình mẫu tiến tới chuẩn khi kích thước mẫu tăng, bất kể phân phối của quần thể.
Phân phối log-chuẩn
Phân phối log-chuẩn phù hợp để mô hình hóa dữ liệu lệch dương và không thể nhận giá trị âm. Nó có các đặc điểm sau:
- Quá trình nhân: Khi dữ liệu là kết quả của phép nhân nhiều yếu tố độc lập, dương (ví dụ, lãi kép), phân phối log-chuẩn thường phù hợp.
- Dữ liệu lệch: Các biến như thu nhập, giá cổ phiếu và một số phép đo sinh học (như chiều dài sinh vật hoặc thời gian phản ứng) thường lệch phải, khiến phân phối log-chuẩn phù hợp hơn.
- Giá trị không âm: Do hàm mũ không bao giờ cho ra kết quả âm, các biến có phân phối log-chuẩn luôn dương, phù hợp với các tình huống thực tế nơi giá trị âm là không thể hoặc vô nghĩa.
Về mặt toán học, một biến X có phân phối log-chuẩn nếu ln(X) có phân phối chuẩn. Tính chất này cho phép sử dụng các kỹ thuật của phân phối chuẩn trên dữ liệu đã biến đổi log, đơn giản hóa việc phân tích và diễn giải.
Phân phối Gauss đa biến
Phân phối Gauss đa biến, hay phân phối chuẩn đa biến, là mở rộng của phân phối chuẩn một biến lên không gian nhiều chiều. Nó có đặc trưng bởi:
- Nhiều biến có tương quan: Mô tả phân phối chung của hai hay nhiều biến ngẫu nhiên có phân phối chuẩn và có thể tương quan với nhau.
- Đường đồng mật độ hình elip: Trong hai chiều, các đường đồng mật độ có dạng elip. Ở chiều cao hơn, chúng trở thành elipxo.
- Xác định bởi vector trung bình và ma trận hiệp phương sai: Thay vì một trung bình và phương sai đơn lẻ, nó sử dụng vector trung bình và ma trận hiệp phương sai để nắm bắt mối quan hệ giữa các biến.
Phân phối Gauss đa biến được sử dụng rộng rãi trong các thuật toán machine learning, như Gaussian mixture models, cho các tác vụ phân cụm và ước lượng mật độ. Nó cũng thường được dùng trong mô hình hóa tài chính, giúp hiểu và dự đoán hành vi chung của nhiều lợi suất tài sản.
Kết luận
Phân phối Gauss đóng vai trò then chốt trong phân tích thống kê và khoa học dữ liệu. Tính ứng dụng rộng rãi và các đặc tính đã được nghiên cứu kỹ khiến nó trở thành công cụ không thể thiếu trong nhiều lĩnh vực, từ kiểm soát chất lượng trong sản xuất đến đánh giá rủi ro trong tài chính.
Tuy nhiên, cần nhớ rằng dù phân phối Gauss được sử dụng rộng rãi, nó không phải là lời giải vạn năng. Nhận biết thời điểm nên dùng các phân phối thay thế, như phân phối t của Student hoặc phân phối log-chuẩn, là chìa khóa để nâng cao độ chính xác và độ tin cậy của phân tích. Bằng cách lựa chọn phân phối phù hợp với bản chất dữ liệu, bạn sẽ có những suy luận đúng đắn hơn và ra quyết định tốt hơn.
Với những ai muốn đào sâu hiểu biết về xác suất và các ứng dụng của nó trong khoa học dữ liệu, khóa học Foundations of Probability in Python của chúng tôi cung cấp kiến thức toàn diện về các khái niệm này. Nếu bạn quen thuộc với R hơn, khóa học Introduction to Statistics in R sẽ mang đến nền tảng vững chắc về các khái niệm thống kê bằng ngôn ngữ R.
Vinod Chugani bắt đầu sự nghiệp tại Tokyo với vai trò Trưởng bàn giao dịch bán hàng Quỹ phòng hộ trẻ nhất của JPMorgan, sau đó lập kỷ lục doanh số cá nhân tại Lehman Brothers, rồi xây dựng một doanh nghiệp phân phối điện tử tại 30 quốc gia vượt mốc doanh thu 100 triệu đô la Singapore trước khi chuyển hướng sang dữ liệu. Tốt nghiệp Kinh tế Duke và là cựu học viên NYC Data Science Academy, anh là một trong ba người nhận học bổng trong hơn 100 ứng viên cho khóa học Building AI Applications của Hugo Bowne-Anderson trên Maven. Hiện nay, anh viết cho DataCamp, KDnuggets, Machine Learning Mastery và Statology về các chủ đề từ thống kê đến AI hành động, và cố vấn cho các chuyên gia dữ liệu tại NYC Data Science Academy với hơn 1.000 buổi kèm 1-1 đã thực hiện.
Các câu hỏi về Phân phối Gauss
Phân phối Gauss (chuẩn) là gì?
Phân phối Gauss, hay phân phối chuẩn, là một phân phối xác suất liên tục có đường cong hình chuông đối xứng. Nó được xác định bởi hai tham số: trung bình (giá trị trung bình) và độ lệch chuẩn (mức độ phân tán hoặc biến thiên). Trung bình xác định tâm của phân phối, trong khi độ lệch chuẩn điều khiển độ rộng của đường cong.
Phân phối chuẩn tắc là gì?
Phân phối chuẩn tắc là trường hợp đặc biệt của phân phối Gauss với trung bình bằng 0 và độ lệch chuẩn bằng 1. Nó giúp đơn giản hóa phép tính và cho phép sử dụng các bảng z chuẩn để tìm xác suất và giá trị tới hạn. Bất kỳ phân phối chuẩn nào cũng có thể được biến đổi thành phân phối chuẩn tắc bằng z-score.
Vì sao nó được gọi là "đường cong hình chuông"?
Phân phối Gauss thường được gọi là đường cong hình chuông do hình dạng đặc trưng của nó. Khi vẽ, nó tạo thành đường cong hình chuông đối xứng đạt đỉnh tại trung bình. Hai bên đường cong thu hẹp dần khi giá trị rời xa trung bình theo cả hai phía.
Khi nào không nên sử dụng phân phối Gauss?
Không nên sử dụng khi dữ liệu bị lệch đáng kể, có đuôi nặng (độ nhọn/kurtosis cao), hoặc bị chặn (ví dụ: không thể nhận giá trị âm trong khi phân phối Gauss cho phép). Trong các trường hợp cỡ mẫu nhỏ, có ngoại lệ, hoặc khi quá trình sinh dữ liệu cơ bản không phù hợp với giả định tính chuẩn, các phân phối khác có thể phù hợp hơn. Luôn đánh giá đặc điểm dữ liệu trước khi giả định tính chuẩn.
Định lý giới hạn trung tâm là gì và nó liên quan thế nào đến phân phối Gauss?
Định lý giới hạn trung tâm phát biểu rằng phân phối của trung bình mẫu xấp xỉ phân phối chuẩn khi kích thước mẫu tăng. Điều này đúng bất kể phân phối nền của quần thể. Định lý giải thích vì sao nhiều hiện tượng tự nhiên có xu hướng tuân theo phân phối Gauss và cho phép áp dụng rộng rãi các kỹ thuật dựa trên phân phối chuẩn.
Phân phối Gauss đa biến là gì?
Phân phối Gauss đa biến là mở rộng của phân phối chuẩn một biến lên nhiều chiều, mô tả phân phối chung của hai hay nhiều biến ngẫu nhiên có phân phối chuẩn và có tương quan. Nó được đặc trưng bởi một vector trung bình và một ma trận hiệp phương sai, thay vì một trung bình và phương sai đơn lẻ.
Độ lệch và độ nhọn của phân phối Gauss là bao nhiêu?
Một phân phối Gauss hoàn hảo có độ lệch (skewness) bằng 0. Điều này có nghĩa nó hoàn toàn đối xứng, với hai phía trái và phải đối xứng qua trung bình. Độ nhọn (kurtosis) của phân phối Gauss là 3, thường được dùng làm mốc tham chiếu. Độ nhọn dư (kurtosis trừ 3) bằng 0 đối với phân phối Gauss.
