Bạn đã từng phân tích dữ liệu thí nghiệm hoặc kết quả khảo sát và tự hỏi liệu những gì mình quan sát được chỉ là sự trùng hợp, hay thực sự hé lộ điều gì đó quan trọng chưa? Câu hỏi này nằm ở trung tâm của thống kê, và câu trả lời nằm ở một khái niệm mạnh mẽ gọi là p-value.
Hướng dẫn thân thiện với người mới bắt đầu này sẽ giúp bạn tự tin tìm p-value trong Excel. Chúng ta sẽ phân tích ý nghĩa của p-value và khám phá những nơi phổ biến mà p-value xuất hiện, chẳng hạn trong đầu ra của các hàm thường dùng trong kiểm định giả thuyết như t-test và Z-test. Chúng ta cũng sẽ xem xét Data Analysis ToolPak, một tiện ích bổ sung tuyệt vời trong Excel để tìm p-value. Quan trọng nhất, ở phần cuối, bạn sẽ biết cách diễn giải các p-value này để đưa ra quyết định dựa trên dữ liệu một cách rõ ràng. Sẵn sàng chưa? Cùng bắt đầu nhé!
P-value là gì?
Để hiểu p-value, chúng ta cần hiểu ý nghĩa thống kê (statistical significance). Ý nghĩa thống kê là thước đo trong phân tích dữ liệu nhằm đánh giá khả năng kết quả quan sát trong một nghiên cứu là do một yếu tố cụ thể gây ra thay vì do ngẫu nhiên. Nó gắn liền với p-value, một thước đo xác suất thống kê tính toán xác suất thu được kết quả cực trị như đã quan sát (hoặc hơn) với giả định không có hiệu ứng hay khác biệt thực sự.
P-value đóng vai trò như một mốc tham chiếu khi kiểm tra ý nghĩa thống kê. Nếu p-value nhỏ, điều đó gợi ý rằng dữ liệu của bạn rất khó xảy ra dưới giả thuyết không, khi đó bạn nên cân nhắc bác bỏ giả thuyết không để ủng hộ giả thuyết đối, cho rằng tồn tại một hiệu ứng hay khác biệt thực sự.
Cách tính p-value trong Excel
Excel cung cấp hai cách chính để tìm p-value. Chúng ta có thể dùng hàm phù hợp với phép kiểm định đang thực hiện, hoặc dùng Data Analysis Toolpak để đạt cùng mục tiêu. Trong phần này, tôi sẽ chọn hai hàm phổ biến nhất: t-test và Z-test.
Cách tìm p-value trong Excel bằng hàm
Hãy xem cách tìm p-value trong đầu ra của hàm. Ở ví dụ đầu tiên, chúng ta sẽ dùng hàm T.TEST() trong Excel. Hàm T.TEST() trong Excel so sánh trung bình của hai tập dữ liệu và đánh giá liệu khác biệt của chúng có ý nghĩa thống kê hay không. Công thức như sau:
=T.TEST(array1, array2, tails, type)Trong đó:
array1: Phạm vi dữ liệu của nhóm thứ nhất.array2: Phạm vi dữ liệu của nhóm thứ hai.tails: Chỉ định bạn đang thực hiện kiểm định một phía (1) hay hai phía (2). (Kiểm định hai phía xét cả hai hướng khác biệt, trong khi kiểm định một phía tập trung vào một hướng cụ thể.)type: Loại t-test (1 cho cặp ghép, 2 cho hai mẫu giả định phương sai bằng nhau, 3 cho hai mẫu giả định phương sai không bằng nhau).
Ví dụ, hãy so sánh tỷ lệ nhấp (CTR) của dữ liệu chiến dịch quảng cáo được tạo ngẫu nhiên, chiến dịch A và B, bằng hàm T.TEST() để xem liệu có khác biệt có ý nghĩa thống kê hay không.

Bảng tính Excel chứa dữ liệu chiến dịch. Ảnh: Tác giả
Các bước:
Đảm bảo giá trị CTR của Chiến dịch A và Chiến dịch B nằm ở hai cột riêng biệt.
Chọn một ô trống nơi bạn muốn hiển thị p-value.
Nhập công thức
T.TEST():=T.TEST(B2:B11, C2:C11, 2, 2)Nhấn Enter. Ô sẽ hiển thị p-value đã tính.

Lấy p-value từ t-test của chúng ta. Ảnh: Tác giả
Trong ví dụ này, chúng ta thu được p-value từ t-test là 2.36813E-05 (tức 0.0000236813), cho thấy xác suất rất nhỏ rằng kết quả quan sát được xảy ra do ngẫu nhiên. Vì vậy, chúng ta có thể tin tưởng rằng kết quả có ý nghĩa thống kê.
Chúng ta cũng có thể tìm p-value bằng Z-test nếu biết độ lệch chuẩn của quần thể. P-value xuất hiện ở nhiều nơi, ví dụ như trong hồi quy tuyến tính (p-value đánh giá ý nghĩa của các hệ số mô hình) hoặc trong kiểm định ANOVA. Hãy học tiếp với khóa Nhập môn Thống kê của chúng tôi.
Cách tìm p-value trong Excel bằng Data Analysis Toolpak
Data Analysis ToolPak là một tiện ích bổ sung của Excel cung cấp nhiều chức năng thống kê. Nếu chưa được bật, bạn có thể kích hoạt theo các bước sau:
- Vào thẻ File.
- Nhấp Options.
- Trong menu Options, chọn Add-Ins.
- Trong danh sách xổ xuống, chọn Excel Add-ins và nhấp Go.
- Tích chọn Analysis ToolPak và nhấp OK.

Tìm Data Analysis Toolpak trong Excel. Ảnh: Tác giả

Bật Data Analysis Toolpak trong Excel. Ảnh: Tác giả
Sau khi bật, chúng ta có thể dùng ToolPak để thực hiện t-test và thu được p-value. Giờ hãy so sánh CTR của hai chiến dịch quảng cáo A và B bằng Data Analysis Toolpak. Chúng ta kỳ vọng cùng một kết quả, nhưng luyện tập thêm cũng không thừa.
Các bước:
Đảm bảo giá trị CTR của Chiến dịch A ở một cột và của Chiến dịch B ở cột khác.
Nhấp thẻ Data trên dải băng Excel.
Tìm phần Analysis trong thẻ Data.
Nhấp nút Data Analysis. Một cửa sổ bật lên sẽ xuất hiện.
Trong cửa sổ Data Analysis, cuộn xuống danh sách công cụ phân tích và chọn t-Test: Two-Sample Assuming Equal Variances. Bài kiểm định này phù hợp để so sánh trung bình của hai nhóm độc lập, giả định phương sai của chúng tương tự nhau.
Nhấp OK.
Một cửa sổ mới có tiêu đề "t-Test: Two-Sample Assuming Equal Variances" sẽ xuất hiện. Tại đây, bạn sẽ xác định các tham số cho kiểm định.
Variable 1 Range: Trong ô này, nhập phạm vi ô chứa giá trị CTR của Chiến dịch A. Ví dụ, nếu dữ liệu ở Cột B, nhập
B2:B11.Variable 2 Range: Nhập phạm vi ô chứa giá trị CTR của Chiến dịch B. Trong ví dụ của chúng ta, nếu dữ liệu ở cột C, nhập
C2:C11.Labels: Nếu hàng đầu tiên của bảng dữ liệu chứa tiêu đề cột, hãy tích vào ô Labels.
Nhấp OK.
Dùng Data Analysis Toolpak để lấy p-value trong Excel. Ảnh: Tác giả

Thực hiện t-test và lấy p-value trong Excel. Bước 7-10. Ảnh: Tác giả
Hình ảnh hiển thị kết quả t-test bằng Data Analysis Toolpak. Ảnh: Tác giả
Cách tìm p-value trong Excel thủ công
Cuối cùng, chúng ta có thể tính p-value thủ công. Ở đây, hãy thực hiện Z-test mà không dùng hàm Z.TEST(). Thay vào đó, chúng ta sẽ dùng các hàm khác: STANDARDIZE() và NORMSDIST().
Chuẩn hóa thống kê kiểm định
Đầu tiên, dùng hàm STANDARDIZE() để tính z-score, biểu thị mẫu trung bình lệch bao nhiêu độ lệch chuẩn so với trung bình giả định của quần thể.
=STANDARDIZE(x, mean, standard_dev)Trong đó:
xlà trung bình mẫumeanlà trung bình quần thểstandard_devlà độ lệch chuẩn của quần thể
Tính p-value
Tiếp theo, dùng hàm NORMSDIST() để tìm xác suất quan sát được một z-score cực trị như giá trị bạn đã tính (hoặc cực trị hơn), tùy theo kiểm định một phía hay hai phía.
=NORMSDIST(z-score)Lưu ý: Khi dùng cách thủ công, bạn có thể cần cân nhắc thêm yếu tố khác. Trong trường hợp này, chúng ta cần nghĩ xem đang thực hiện kiểm định một phía hay hai phía và điều chỉnh hàm NORMSDIST() cho phù hợp. Với kiểm định một phía, dùng trực tiếp hàm NORMSDIST() với z-score của bạn. Với kiểm định hai phía, hãy nhân đôi kết quả của hàm NORMSDIST() cho z-score của chúng ta, vì ta xét cả hai phía của phân phối.
Cách diễn giải p-value trong Excel
Để diễn giải p-value, trước hết chúng ta phải hiểu mức ý nghĩa (α). Mức ý nghĩa, ký hiệu alpha (α), là ngưỡng xác định mức độ mạnh của bằng chứng cần có để bác bỏ giả thuyết không. Thông thường, α được đặt là 0.05.
Diễn giải kết quả:
- p-value ≤ alpha: Khi p-value nhỏ hơn hoặc bằng alpha, hãy bác bỏ giả thuyết không. Điều này gợi ý tồn tại khác biệt hoặc hiệu ứng có ý nghĩa thống kê giữa các nhóm hoặc biến được so sánh.
- p-value > alpha: Khi p-value lớn hơn alpha, không đủ cơ sở để bác bỏ giả thuyết không. Chưa có đủ bằng chứng để kết luận khác biệt hay hiệu ứng có ý nghĩa, cho thấy cần thêm dữ liệu để phân tích thuyết phục hơn.
Những lưu ý quan trọng
Cuối cùng, hãy xem một số khía cạnh quan trọng.
Các giả định
Cả t-test và z-test đều giả định dữ liệu của chúng ta tuân theo phân phối chuẩn. Với t-test, cũng giả định phương sai bằng nhau nếu thực hiện kiểm định hai mẫu.
Kiểm định một phía và hai phía
Trong kiểm định một phía, chúng ta có kỳ vọng trước về hướng của khác biệt (ví dụ: Kỳ vọng Nhóm A có giá trị cao hơn Nhóm B). Kiểm định một phía tìm hiệu ứng theo một hướng. Với kiểm định hai phía, chúng ta quan tâm đến khác biệt theo cả hai hướng (cao hơn hoặc thấp hơn ở Nhóm A so với Nhóm B). Như tên gọi, kiểm định hai phía xét cả hai hướng.
Việc chọn kiểm định một phía hay hai phía ảnh hưởng đến cách diễn giải p-value. Với cùng một p-value, kiểm định một phía có ngưỡng ý nghĩa nghiêm ngặt hơn so với kiểm định hai phía.
Hạn chế của Excel
Cần biết rằng tuy Excel cung cấp công cụ hữu ích cho phân tích thống kê cơ bản, nhưng có hạn chế với các phân tích phức tạp. Phần mềm thống kê chuyên dụng có thể cần thiết cho tính toán nâng cao hơn hoặc khi làm việc với phân phối dữ liệu không chuẩn.
Kết luận
Bằng cách hiểu p-value và vai trò của nó trong kiểm định giả thuyết, chúng ta có thể đưa ra quyết định dựa trên dữ liệu tốt hơn với Excel. Để tìm hiểu thêm về Excel và các khả năng phong phú của nó, hãy xem các khóa học của DataCamp: Giới thiệu về Excel, Nền tảng Excel, và Phân tích dữ liệu trong Excel.
Ngoài ra, hãy tham khảo các tài nguyên DataCamp này để đào sâu kiến thức về các khái niệm thống kê cho phân tích dữ liệu:
Cuối cùng, trong bài viết này, chúng tôi đã chỉ cách tìm p-value bằng hai kiểm định phổ biến nhất: t-test và Z-test; nhưng nếu bạn vẫn chưa rõ sự khác nhau, chúng tôi có một hướng dẫn toàn diện hơn dành cho bạn: T-test vs. Z-test: Khi nào dùng mỗi loại.
Hẹn gặp bạn ở bài tiếp theo!
Chuyên viên phân tích dữ liệu và mentor về phân tích, chuyên sâu Excel, SQL và Python. Tập trung vào các insight có thể hành động, tôi giúp các doanh nghiệp thuộc mọi quy mô thúc đẩy thay đổi có ý nghĩa, đồng thời truyền cảm hứng cho những người học dữ liệu mới trên hành trình của họ.
Câu hỏi thường gặp
P-value và mức ý nghĩa (alpha) có khác nhau không?
Có, có một khác biệt quan trọng. P-value là xác suất thu được một kết quả (hoặc kết quả cực trị hơn) như đã quan sát trong dữ liệu, giả định giả thuyết không là đúng (tức là không có hiệu ứng thực sự). Mức ý nghĩa (alpha) là một ngưỡng xác định trước (thường là 0.05) để quyết định có bác bỏ giả thuyết không hay không. Nếu p-value nhỏ hơn alpha, chúng ta bác bỏ giả thuyết không và xem kết quả là có ý nghĩa.
Dữ liệu của tôi không hoàn toàn chuẩn. Tôi vẫn có thể dùng các phương pháp trong bài không?
Cả t-test và Z-test đều giả định dữ liệu của bạn phân phối chuẩn. Nếu dữ liệu lệch đáng kể khỏi phân phối chuẩn, kết quả có thể kém tin cậy hơn. Hãy cân nhắc sử dụng phần mềm thống kê chuyên dụng để có phân tích vững chắc.
Khi nào tôi nên dùng kiểm định một phía so với hai phía?
Dùng kiểm định một phía nếu bạn có kỳ vọng mạnh mẽ trước về hướng khác biệt (ví dụ, Nhóm A hoạt động tốt hơn Nhóm B). Kiểm định hai phía được dùng khi bạn quan tâm đến khác biệt theo cả hai hướng (cao hơn hoặc thấp hơn). Lựa chọn loại kiểm định ảnh hưởng đến cách bạn diễn giải p-value.
Có hạn chế nào khi dùng Excel để tính p-value không?
Có, Excel rất tốt cho phân tích thống kê cơ bản như t-test, nhưng có hạn chế với các phân tích phức tạp. Với bộ dữ liệu rất lớn, phần mềm thống kê chuyên dụng có thể cho hiệu năng tốt hơn và xử lý được các mô hình thống kê phức tạp hơn.
Tôi có thể dùng tài nguyên nào khác để học thêm về p-value và thống kê?
DataCamp cung cấp nhiều tài nguyên như Nhập môn Thống kê, Xác suất và Thống kê và Nền tảng thống kê với Python. Các khóa học này sẽ giúp bạn hiểu sâu hơn.

