Tracks
Là một chuyên gia khoa học dữ liệu, bạn thường phải phân tích, kiểm định và xác lập mối quan hệ giữa các biến trong một tập dữ liệu để rút ra kết luận có ý nghĩa. Khái niệm kiểm định giả thuyết, cùng với một số phép kiểm định như kiểm định t và kiểm định z, là những công cụ thường dùng trong phân tích để xác lập mối quan hệ giữa các điểm dữ liệu.
Hướng dẫn này sẽ giúp bạn phân biệt kiểm định t và kiểm định Z bằng các ví dụ thực tế. Tôi cũng sẽ cung cấp thêm tài nguyên để bạn học tiếp.
Tóm tắt nhanh: kiểm định t vs. kiểm định Z
Việc lựa chọn giữa kiểm định t và kiểm định Z có thể tóm gọn theo các hướng dẫn sau:
- Dùng kiểm định t: Khi kích thước mẫu nhỏ (n < 30) và/hoặc phương sai tổng thể chưa biết.
- Dùng kiểm định Z: Khi kích thước mẫu lớn (n ≥ 30) và phương sai tổng thể đã biết.
Trong cả hai trường hợp, ta kỳ vọng dữ liệu có phân phối chuẩn. Hãy đọc tiếp để tìm hiểu chi tiết về từng phép kiểm định và sự khác nhau giữa chúng. Trước hết, chúng ta sẽ điểm qua phần giới thiệu nhanh về kiểm định giả thuyết.
Giới thiệu về kiểm định giả thuyết
Kiểm định giả thuyết là phương pháp thống kê nền tảng để suy luận các tham số tổng thể dựa trên dữ liệu mẫu. Nó cung cấp một cách tiếp cận có cấu trúc để đánh giá các tuyên bố hoặc giả định về một tổng thể bằng bằng chứng thực nghiệm.
Cốt lõi của kiểm định giả thuyết gồm hai phát biểu bổ trợ:
- Giả thuyết không (H₀) là phát biểu về không có tác động, khác biệt hoặc mối quan hệ. Nó đại diện cho hiện trạng hoặc hiểu biết hiện tại.
- Giả thuyết đối (H₁) là phát biểu mâu thuẫn với giả thuyết không. Nó đại diện cho tuyên bố hay hiểu biết mới mà nhà nghiên cứu muốn chứng minh.
Ví dụ, giả sử bạn muốn xác định liệu một phương pháp giảng dạy mới có cải thiện điểm kiểm tra của học sinh hay không. Bạn có thể lập các giả thuyết sau:
- Giả thuyết không (H₀): Phương pháp giảng dạy mới không ảnh hưởng đến điểm kiểm tra của học sinh.
- Giả thuyết đối (H₁): Phương pháp giảng dạy mới cải thiện điểm kiểm tra của học sinh.
Kiểm định giả thuyết bao gồm việc thu thập dữ liệu mẫu, tính toán thống kê kiểm định và xác định xác suất quan sát được kết quả như vậy nếu giả thuyết không là đúng. Dựa trên xác suất này, ta quyết định có bác bỏ giả thuyết không để ủng hộ giả thuyết đối hay không.
Tùy thuộc vào kiểu dữ liệu và câu hỏi nghiên cứu, có nhiều phép kiểm định thống kê dùng cho kiểm định giả thuyết. Trong hướng dẫn này, chúng ta sẽ tập trung vào kiểm định t và kiểm định Z.
Kiểm định t là gì?
Kiểm định t là phép kiểm định thống kê dùng để xác định liệu có sự khác biệt đáng kể giữa trung bình của hai nhóm hoặc giữa trung bình mẫu và một giá trị đã biết hay không. Nó đặc biệt hữu ích khi xử lý các mẫu nhỏ hoặc khi độ lệch chuẩn của tổng thể chưa biết.
Thống kê kiểm định t cho kiểm định t một mẫu được tính bằng công thức:

Phương trình kiểm định t. Ảnh: Tác giả.
trong đó:
- Xˉ là trung bình mẫu
- μ là trung bình tổng thể (hoặc trung bình của nhóm so sánh)
- s là độ lệch chuẩn mẫu, và
- n là kích thước mẫu.
Các loại kiểm định t
Có ba loại kiểm định t chính. Mỗi loại so sánh trung bình trong các điều kiện khác nhau:
- Kiểm định t một mẫu: So sánh trung bình của một mẫu đơn với một giá trị đã biết hoặc trung bình tổng thể. Nó xác định liệu trung bình mẫu chênh lệch đáng kể so với một mốc nhất định hay không. Ví dụ, ta có thể dùng kiểm định t một mẫu để đánh giá liệu điểm trung bình của một lớp nhỏ khác với mức trung bình quốc gia hay không.
- Kiểm định t hai mẫu độc lập: So sánh trung bình của hai nhóm độc lập để xác định liệu có khác biệt có ý nghĩa thống kê giữa chúng hay không. Thường dùng trong thí nghiệm khi hai nhóm chịu các điều kiện hoặc can thiệp khác nhau. Chẳng hạn, ta có thể dùng kiểm định t hai mẫu độc lập để so sánh điểm của học sinh được dạy theo hai phương pháp khác nhau để xem phương pháp nào hiệu quả hơn.
- Kiểm định t cặp ghép: So sánh trung bình của cùng một nhóm tại các thời điểm khác nhau hoặc dưới các điều kiện khác nhau. Nó đánh giá liệu có sự thay đổi đáng kể trong cùng một nhóm sau một can thiệp hoặc theo thời gian. Ví dụ là đo lường hiệu suất học sinh trước và sau khi áp dụng một chiến lược giảng dạy mới để đánh giá tác động của nó.
Các giả định của kiểm định t
Kiểm định t dựa trên một số giả định để cho ra kết quả hợp lệ:
- Tính chuẩn của dữ liệu: Giả định dữ liệu trong mỗi nhóm xấp xỉ phân phối chuẩn. Điều này đặc biệt quan trọng khi kích thước mẫu nhỏ. Nếu dữ liệu không phân phối chuẩn, kết quả kiểm định t có thể không đáng tin cậy.
- Đồng nhất phương sai: Với kiểm định t hai mẫu độc lập, giả định phương sai của hai nhóm được so sánh là bằng nhau. Giả định này đảm bảo kiểm định t phản ánh đúng mức độ biến thiên trong mỗi nhóm. Nếu phương sai không bằng nhau, độ chính xác của kiểm định có thể bị ảnh hưởng.
- Tính độc lập của quan sát: Các quan sát trong mỗi nhóm phải độc lập với nhau. Nghĩa là giá trị của một quan sát không được ảnh hưởng hoặc liên quan đến giá trị của quan sát khác. Vi phạm giả định này có thể dẫn đến kết luận sai lệch.
Điều quan trọng là kiểm tra các giả định này trước khi áp dụng kiểm định t trong bất kỳ phân tích nào để đảm bảo tính hợp lệ của kết quả. Đọc Hướng dẫn T-tests trong R hoặc Giới thiệu về T-Tests trong Python để học cách thực hiện kiểm định t trong R hoặc Python.
Kiểm định Z là gì?
Kiểm định Z là phép kiểm định thống kê dùng để xác định liệu có sự khác biệt đáng kể giữa trung bình mẫu và trung bình tổng thể hoặc giữa trung bình của hai nhóm khi phương sai tổng thể đã biết và kích thước mẫu lớn.
Chủ yếu dùng khi kích thước mẫu vượt quá 30, cho phép sử dụng phân phối chuẩn để xấp xỉ phân phối của thống kê kiểm định.
Thống kê kiểm định Z cho kiểm định Z một mẫu được tính bằng công thức:

Phương trình kiểm định Z. Ảnh: Tác giả.
trong đó:
- Xˉ là trung bình mẫu,
- μ là trung bình tổng thể,
- σ là độ lệch chuẩn tổng thể, và
- n là kích thước mẫu.
Các loại kiểm định Z
Có ba loại kiểm định Z chính:
- Kiểm định Z một mẫu: So sánh trung bình của một mẫu đơn với trung bình tổng thể đã biết. Dùng khi bạn muốn đánh giá liệu trung bình mẫu khác biệt đáng kể so với trung bình tổng thể, giả sử phương sai tổng thể đã biết. Ví dụ, kiểm định Z một mẫu có thể được dùng để xác định liệu chiều cao trung bình của một nhóm hơn 30 người khác với mức trung bình quốc gia đã biết hay không.
- Kiểm định Z hai mẫu: So sánh trung bình của hai mẫu độc lập để xác định liệu có sự khác biệt đáng kể giữa chúng hay không. Dùng khi cả hai mẫu đều lớn và phương sai tổng thể đã biết. Ví dụ là so sánh điểm trung bình của học sinh từ hai trường khác nhau để xem liệu có khác biệt đáng kể về thành tích giữa hai trường hay không.
- Kiểm định Z cho tỷ lệ: So sánh tỷ lệ một đặc điểm nào đó trong mẫu với tỷ lệ tổng thể đã biết hoặc giữa hai tỷ lệ mẫu. Dùng để đánh giá liệu tỷ lệ quan sát trong mẫu khác biệt đáng kể so với kỳ vọng dựa trên tỷ lệ tổng thể hay không. Chẳng hạn, kiểm định Z cho tỷ lệ có thể dùng để so sánh tỷ lệ cử tri ủng hộ một ứng viên cụ thể trong mẫu với tỷ lệ quan sát được ở các kỳ bầu cử trước.
Còn có các biến thể khác như kiểm định Z cặp ghép, kiểm định Z cho hệ số hồi quy và kiểm định Z cho chênh lệch trung bình.
Các giả định của kiểm định Z
Kiểm định Z dựa trên một số giả định để cho ra kết quả hợp lệ:
- Phương sai tổng thể đã biết: Kiểm định Z giả định rằng phương sai tổng thể đã biết. Đây là điểm khác biệt quan trọng so với kiểm định t, nơi phương sai tổng thể thường chưa biết. Việc biết phương sai cho phép dùng phân phối z để đánh giá ý nghĩa của thống kê kiểm định.
- Kích thước mẫu lớn: Giả định kích thước mẫu lớn, thường lớn hơn 30. Với mẫu lớn, phân phối lấy mẫu của trung bình mẫu tiến gần phân phối chuẩn, ngay cả khi dữ liệu gốc không chuẩn, theo Định lý giới hạn trung tâm.
- Phân phối chuẩn của tổng thể: Giả định dữ liệu được rút từ một tổng thể có phân phối chuẩn. Giả định này ít quan trọng hơn với mẫu lớn nhưng vẫn cần thiết khi kích thước mẫu ở mức trung bình.
Những khác biệt chính giữa kiểm định t và kiểm định Z
Kiểm định t và kiểm định Z đều dùng để so sánh thống kê mẫu với tham số tổng thể, nhưng chúng khác nhau về các giả định nền tảng, ứng dụng và điều kiện sử dụng phù hợp nhất. Hãy phân tích và hiểu các khác biệt giữa hai phép kiểm định:
Cân nhắc về kích thước mẫu
- Kiểm định t: Thường dùng khi kích thước mẫu nhỏ, nhìn chung dưới 30. Nó được thiết kế để vững khi kích thước mẫu không đạt ngưỡng cần cho việc áp dụng Định lý giới hạn trung tâm.
- Kiểm định Z: Dùng khi kích thước mẫu lớn, thường lớn hơn 30. Với mẫu lớn, phân phối lấy mẫu của trung bình xấp xỉ chuẩn, điều này biện minh cho việc dùng kiểm định Z.
Kiến thức về phương sai tổng thể
- Kiểm định t: Dùng khi phương sai tổng thể chưa biết. Thay vì phương sai tổng thể, phương sai mẫu được dùng để tính thống kê kiểm định. Phân phối t, có đuôi dày hơn phân phối chuẩn, phản ánh thêm bất định do ước lượng phương sai tổng thể.
- Kiểm định Z: Yêu cầu phương sai tổng thể đã biết. Đây là giả định then chốt vì cho phép dùng phân phối chuẩn tắc để tính thống kê kiểm định. Khi phương sai tổng thể đã biết, kiểm định Z cho ước lượng chính xác hơn.
Giả định về phân phối
- Kiểm định t: Giả định dữ liệu trong mỗi nhóm xấp xỉ phân phối chuẩn. Điều này đặc biệt quan trọng với mẫu nhỏ. Thống kê kiểm định trong kiểm định t tuân theo phân phối t, có đuôi rộng hơn phân phối chuẩn, để phản ánh biến thiên và bất định tăng thêm khi ước lượng độ lệch chuẩn tổng thể từ mẫu nhỏ.
- Kiểm định Z: Giả định dữ liệu có phân phối chuẩn hoặc kích thước mẫu đủ lớn để áp dụng Định lý giới hạn trung tâm. Định lý này đảm bảo rằng với mẫu lớn, phân phối lấy mẫu của trung bình xấp xỉ chuẩn ngay cả khi dữ liệu nền không hoàn toàn chuẩn.
Ứng dụng và tình huống thực tiễn
- Kiểm định t: Thường dùng trong các nghiên cứu mẫu nhỏ, như nghiên cứu thí điểm, nơi phương sai tổng thể chưa biết. Ví dụ gồm so sánh hiệu quả của hai phương pháp điều trị trong một nhóm nhỏ hoặc đánh giá thay đổi trong cùng một nhóm theo thời gian.
- Kiểm định Z: Dùng trong các nghiên cứu mẫu lớn hoặc khi làm việc với các tổng thể đã được thiết lập rõ ràng nơi phương sai đã biết. Thường áp dụng trong kiểm soát chất lượng, phân tích khảo sát và các nghiên cứu thực nghiệm quy mô lớn.
Dưới đây là bảng các khác biệt chính:
Những khác biệt chính giữa kiểm định t và kiểm định Z. Ảnh: Tác giả.
Kết luận
Hướng dẫn này đã giới thiệu cho bạn về kiểm định giả thuyết và hai phép kiểm định thường dùng—kiểm định t và kiểm định z. Chúng ta cũng đã tìm hiểu định nghĩa, các loại và các giả định của mỗi phép kiểm định, đồng thời hiểu rõ hơn những khác biệt chính giữa chúng. Cuối cùng, chúng ta kết luận loại kiểm định nào phù hợp cho từng kịch bản, giúp bạn tự tin xác lập mối quan hệ giữa các biến thông qua kiểm định giả thuyết.
Sau khi củng cố các khái niệm thống kê đằng sau kiểm định giả thuyết với khóa học Giới thiệu về Thống kê, tôi khuyến khích bạn triển khai các khái niệm này bằng bất kỳ công nghệ phổ biến nào thông qua các tài nguyên sau:
- Khóa học Kiểm định giả thuyết trong Python
- Khóa học Kiểm định giả thuyết trong R
- Hướng dẫn Kiểm định giả thuyết (kiểm định chi-bình phương) trong Excel
Chúc bạn học tốt!
Với vai trò nhà khoa học dữ liệu cao cấp, tôi thiết kế, phát triển và triển khai các giải pháp học máy quy mô lớn để giúp doanh nghiệp ra quyết định dựa trên dữ liệu hiệu quả hơn. Với vai trò tác giả về khoa học dữ liệu, tôi chia sẻ những bài học kinh nghiệm, lời khuyên nghề nghiệp và các hướng dẫn thực hành chuyên sâu.
Câu hỏi thường gặp
Sự khác biệt chính giữa kiểm định t và kiểm định Z là gì?
Khác biệt chính là kiểm định t dùng cho kích thước mẫu nhỏ (n <30) hoặc khi phương sai tổng thể chưa biết và dùng phân phối t. Kiểm định Z dùng cho kích thước mẫu lớn (n > 30) với phương sai tổng thể đã biết và dựa trên phân phối chuẩn.
Khi nào tôi nên dùng kiểm định t một mẫu thay vì kiểm định Z?
Hãy dùng kiểm định t một mẫu khi bạn so sánh trung bình của một mẫu đơn với trung bình tổng thể đã biết và phương sai tổng thể chưa biết. Nếu kích thước mẫu lớn và phương sai tổng thể đã biết, bạn nên dùng kiểm định Z một mẫu.
Vai trò của phân phối t trong kiểm định t là gì?
Phân phối t được dùng trong kiểm định t để phản ánh biến thiên và bất định tăng thêm của thống kê kiểm định khi kích thước mẫu nhỏ và phương sai tổng thể chưa biết.
Tôi có thể dùng kiểm định Z nếu không biết phương sai tổng thể không?
Không, kiểm định Z yêu cầu phương sai tổng thể phải đã biết. Nếu phương sai tổng thể chưa biết, bạn nên dùng kiểm định t, vốn ước lượng phương sai từ dữ liệu mẫu.
Làm sao xác định nên dùng kiểm định t cặp ghép hay kiểm định t hai mẫu độc lập?
Dùng kiểm định t cặp ghép khi bạn so sánh trung bình của cùng một nhóm ở các thời điểm khác nhau hoặc dưới các điều kiện khác nhau (ví dụ: trước và sau can thiệp). Dùng kiểm định t hai mẫu độc lập khi so sánh trung bình của hai nhóm khác nhau, không liên quan (ví dụ: so sánh điểm của hai lớp hoặc hai phương pháp điều trị).
