Tracks
Phân tích thống kê là nền tảng cho việc ra quyết định dựa trên dữ liệu trong nhiều lĩnh vực, bao gồm kinh doanh, chăm sóc sức khỏe, giáo dục và nghiên cứu khoa học. Một phương pháp thống kê thường được dùng trong môi trường học thuật và doanh nghiệp là Phân tích Phương sai, hay ANOVA.
Microsoft Excel cung cấp một nền tảng mạnh mẽ và thân thiện để thực hiện ANOVA. Giao diện trực quan của Excel rất hữu ích cho người mới bắt đầu, loại bỏ nhu cầu dùng phần mềm thống kê chuyên dụng như SPSS hoặc SAS.
Hướng dẫn này sẽ đơn giản hóa quy trình thực hiện ANOVA trong Excel, đưa ra các chỉ dẫn rõ ràng, từng bước để giúp bạn tự tin thực hiện và diễn giải các kiểm định ANOVA. Dù bạn là sinh viên, nhà nghiên cứu hay một chuyên gia muốn nâng cao kỹ năng phân tích, hướng dẫn này sẽ giúp bạn tận dụng Excel cho một trong những nhu cầu thống kê phổ biến của mình.
ANOVA là gì?
ANOVA là một phương pháp thống kê dùng để xác định liệu có sự khác biệt có ý nghĩa giữa các giá trị trung bình của từ ba nhóm độc lập trở lên hay không. Chúng tương tự một kiểm định thống kê khác gọi là kiểm định t, được dùng để xác định liệu có sự khác biệt có ý nghĩa giữa trung bình của hai nhóm. ANOVA và kiểm định t là hai trong số nhiều kỹ thuật thống kê được đề cập trong khóa học Phân tích dữ liệu trong Excel toàn diện của chúng tôi, rất đáng tham khảo nếu bạn nghiêm túc muốn thành thạo thống kê.
ANOVA hoạt động bằng cách so sánh phương sai trong mỗi nhóm với phương sai giữa các nhóm để đánh giá liệu trung bình của các nhóm có bằng nhau hay không. Nếu phương sai giữa các nhóm lớn hơn đáng kể so với phương sai trong nhóm, điều đó cho thấy ít nhất một trung bình nhóm khác với các nhóm còn lại.
Nói chung, có hai loại ANOVA:
- ANOVA một nhân tố (One-Way ANOVA): Xem xét ảnh hưởng của một biến độc lập lên biến phụ thuộc bằng cách so sánh trung bình của từ ba nhóm trở lên.
- ANOVA hai nhân tố (Two-Way ANOVA): Đánh giá đồng thời tác động của hai biến độc lập và xem xét tương tác giữa chúng.
Các nhà nghiên cứu học thuật dùng các kiểm định này để phân tích kết quả sau khi thực hiện một nghiên cứu có kiểm soát. Ví dụ, họ có thể dùng ANOVA để so sánh hiệu quả của các liệu pháp hoặc loại thuốc khác nhau trên nhiều nhóm bệnh nhân. Các công ty vì lợi nhuận có thể dùng ANOVA để đưa ra quyết định dựa trên dữ liệu, chẳng hạn so sánh điểm hài lòng khách hàng giữa nhiều trung tâm dịch vụ, hoặc hiệu quả của các chiến dịch quảng cáo.
Vì sao Microsoft Excel phù hợp cho ANOVA
Dưới đây là các bước tuần tự cần thiết để thực hiện ANOVA thủ công. Tham khảo thêm: tỉ số f (f-ratio) là thống kê kiểm định dùng trong ANOVA để xác định liệu có sự khác biệt có ý nghĩa giữa các trung bình nhóm hay không. Việc tính toán thống kê này bao gồm nhiều phép tính.
- Tính trung bình tổng thể: Tìm trung bình của tất cả các điểm dữ liệu gộp lại.
- Tính trung bình theo nhóm: Xác định trung bình cho từng nhóm riêng lẻ.
- Tính Tổng bình phương toàn bộ (Total Sum of Squares): Đo lường biến thiên tổng thể trong dữ liệu bằng cách cộng bình phương chênh lệch giữa mỗi điểm dữ liệu và trung bình tổng thể.
- Tính Tổng bình phương giữa các nhóm (Between-Groups): Đo lường biến thiên giữa trung bình các nhóm và trung bình tổng thể.
- Tính Tổng bình phương trong nhóm (Within-Groups): Đo lường biến thiên trong mỗi nhóm bằng cách cộng bình phương chênh lệch giữa mỗi điểm dữ liệu và trung bình của nhóm đó.
- Tính Bình phương trung bình giữa các nhóm: Chia tổng bình phương giữa các nhóm cho bậc tự do giữa các nhóm.
- Tính Bình phương trung bình trong nhóm: Chia tổng bình phương trong nhóm cho bậc tự do trong nhóm, trong đó bậc tự do trong nhóm bằng tổng số quan sát trừ đi số nhóm.
- Tính tỉ số F: Chia bình phương trung bình giữa các nhóm cho bình phương trung bình trong nhóm để xác định tỉ số f.
Như bạn thấy, tính ANOVA thủ công khá phức tạp. Vì vậy, dùng phần mềm là lựa chọn tối ưu, và Microsoft Excel nổi bật nhờ được sử dụng rộng rãi trong hầu hết môi trường doanh nghiệp và học thuật.
Cũng cần lưu ý rằng, nói chung, các phép tính ANOVA thường là một phần của những dự án phân tích lớn hơn. Bên cạnh sức mạnh thống kê, sự sẵn có của các tính năng khác như trực quan hóa đẹp mắt trong Excel càng củng cố lập luận rằng Microsoft Excel là công cụ tuyệt vời cho ANOVA.
Cách bật Data Analysis ToolPak trong Excel
Tiện ích bổ sung (Add-in) trong Excel là các chương trình hoặc tính năng bổ trợ có thể cài đặt và tích hợp với Excel để mở rộng chức năng. Data Analysis ToolPak là một tiện ích như vậy, hỗ trợ hầu hết các nhu cầu phân tích dữ liệu.
Tiện ích Data Analysis ToolPak không được bật theo mặc định; do đó bạn cần kiểm tra xem có thấy biểu tượng Data Analysis ở góc trên bên phải trong thẻ Data hay không, như minh họa bên dưới.

Data Analysis ToolPak trong Excel
Nếu bạn không thấy Data Analysis ToolPak, có thể là chưa được bật. Để bật, nhấp File trên menu và chọn Options.
Chọn Options từ thẻ File
Khi hộp thoại Excel Options mở ra, chọn Add-ins.
Chọn Add-ins trong hộp thoại Excel Options
Tiếp theo, ở ô Manage phía dưới, chọn Excel Add-ins và nhấp Go.
Quản lý Excel add-ins
Trong hộp Add-Ins, đánh dấu Data Analysis ToolPak rồi nhấp OK.

Bật Data Analysis ToolPak
Bây giờ, khi quay lại thẻ Data bạn sẽ thấy biểu tượng Data Analysis mới. Chúng ta đã sẵn sàng triển khai ANOVA trong Excel với một vài ví dụ.
ANOVA một nhân tố trong Excel: Ví dụ thực tiễn
Hãy tưởng tượng bạn là nhà phân tích dữ liệu tại một agency marketing, được giao phân tích hiệu quả của ba chiến lược marketing (A, B và C) đối với doanh thu bán hàng.
Công ty của bạn muốn xác định liệu có sự khác biệt có ý nghĩa về doanh thu trung bình do các chiến lược này tạo ra hay không. Bạn cũng đã thu thập dữ liệu doanh thu từ năm công ty có quy mô tương tự ở Khu vực A, nơi mỗi chiến lược đã được triển khai.
Dữ liệu thu thập được được lập bảng như dưới đây:

Dữ liệu cho ANOVA một nhân tố
Giờ hãy dùng ANOVA để xem liệu có sự khác biệt có ý nghĩa giữa doanh thu trung bình của từng chiến lược hay không.
Bước đầu tiên, chọn các cột B, C và D, bao gồm hàng đầu tiên như hình dưới, rồi nhấp biểu tượng Data Analysis để mở tiện ích bổ sung Data Analysis Toolpak.
Gọi tiện ích bổ sung Data Analysis Toolpak
Tiếp theo, chọn Anova: Single Factor trong hộp thoại và nhấp OK.

Chọn tùy chọn Anova: Single Factor
Bạn sẽ thấy một hộp thoại như dưới đây.

Điền thông tin cho Anova: Single Factor
Input Range đã được điền sẵn vì chúng ta đã chọn trước khi gọi tiện ích. Chọn Columns cho tùy chọn Grouped By, đánh dấu Labels in the first row, và giữ nguyên các giá trị mặc định khác. Với Output Range, chúng ta chọn một ô trong cùng trang tính, chẳng hạn $A$9, hoặc một trang tính mới tùy bạn.
Nhấp OK, và bạn sẽ thấy kết quả tính toán ngay trong trang tính Excel.
Kết quả ANOVA một nhân tố
Bạn đã thực hiện thành công ANOVA một nhân tố trên bộ dữ liệu của mình trong thời gian rất ngắn!
Kiểm định giả thuyết và ANOVA
Để hiểu rõ hơn kết quả, chúng ta cần đi sâu vào kiểm định giả thuyết và mối liên hệ với ANOVA. Kiểm định giả thuyết được trình bày chi tiết trong khóa học Nhập môn Thống kê của chúng tôi.
Trong kiểm định giả thuyết thống kê, giả thuyết không (H0) là phát biểu chung khẳng định không có mối quan hệ giữa hai hiện tượng được đo lường. Nó giả định không có tác động hoặc không có khác biệt. Ngược lại, giả thuyết đối (H1 hoặc Ha) cho rằng các quan sát mẫu chịu ảnh hưởng của một nguyên nhân không ngẫu nhiên, mâu thuẫn với giả thuyết không.
Trong ví dụ của chúng ta, với ANOVA một nhân tố, các giả thuyết sẽ là:
- Giả thuyết không (H0): Không có khác biệt về doanh thu trung bình do ba chiến lược tạo ra.
- Giả thuyết đối (Ha): Ít nhất một chiến lược có doanh thu trung bình khác biệt.
Mục đích của kiểm định ANOVA là kiểm tra các giả thuyết này. Nếu p-value nhỏ hơn mức ý nghĩa (thường là 0,05), chúng ta bác bỏ giả thuyết không và chấp nhận giả thuyết đối.
Diễn giải kết quả ANOVA một nhân tố
Khi đọc bảng ANOVA, chúng ta thấy ba hàng kết quả:
- Between Groups (Giữa các nhóm): Hàng này thể hiện biến thiên giữa các chiến lược marketing khác nhau và các phép tính liên quan.
- Within Groups (Trong nhóm): Hàng này thể hiện biến thiên trong từng chiến lược marketing và các phép tính liên quan.
- Total (Tổng): Hàng này thể hiện biến thiên tổng thể trong dữ liệu và các kết quả liên quan.
P-value là 0,73. Vì lớn hơn mức ý nghĩa thông thường 0,05, chúng ta không bác bỏ giả thuyết không. Nói cách khác, chưa có đủ bằng chứng để khẳng định có sự khác biệt có ý nghĩa giữa trung bình của ba chiến lược marketing.
Giá trị F crit là 3,88. Chúng ta biết rằng nếu thống kê f (0,32) lớn hơn giá trị f tới hạn, ta sẽ bác bỏ giả thuyết không và kết luận có sự khác biệt có ý nghĩa giữa các trung bình.
Dựa trên kiểm định ANOVA của chúng ta, có vẻ ba chiến lược marketing không khác biệt đáng kể về hiệu quả. Tuy nhiên, cần nhớ rằng không bác bỏ giả thuyết không không có nghĩa là chứng minh giả thuyết không đúng. Nó chỉ có nghĩa là chúng ta chưa có đủ bằng chứng mạnh để kết luận điều ngược lại.
Giờ hãy tìm hiểu cách kiểm định hai nhân tố và ảnh hưởng của chúng lên biến phụ thuộc.
ANOVA hai nhân tố trong Excel: Ví dụ thực tiễn
Hãy mở rộng ví dụ trước bằng cách thêm một nhân tố thứ hai. Lần này, công ty bạn muốn biết liệu có sự khác biệt có ý nghĩa về doanh thu tạo ra giữa các chiến lược khác nhau hay không, và liệu có hiệu ứng tương tác giữa chiến lược và khu vực hay không.
Dữ liệu bổ sung đã được thêm vào trang tính, như dưới đây:

Dữ liệu cho ANOVA hai nhân tố
Vì giờ có hai nhân tố - chiến lược và khu vực - bạn biết rằng chúng ta cần ANOVA hai nhân tố thay vì một nhân tố.
Hãy chọn toàn bộ vùng ô và nhấp biểu tượng Data Analysis để gọi tiện ích bổ sung.
Gọi tiện ích bổ sung Data Analysis Toolpak
Chúng ta thấy hộp thoại với hai tùy chọn cho ANOVA hai nhân tố.

Chọn tùy chọn Anova: Two-Factor With Replication
- ANOVA: Two-Factor With Replication: Dùng khi chúng ta có nhiều quan sát (bản lặp) cho mỗi tổ hợp của các nhân tố.
- ANOVA: Two-Factor Without Replication: Dùng khi chúng ta chỉ có một quan sát cho mỗi tổ hợp của các nhân tố.
Trong trường hợp của chúng ta, vì có nhiều quan sát cho mỗi tổ hợp giữa chiến lược marketing (A, B, C) và khu vực (A, B), chúng ta chọn ANOVA hai nhân tố có lặp (with replication).
Sau khi nhấp OK, bạn sẽ thấy hộp thoại dưới đây với vùng nhập liệu đã được điền sẵn.

Điền thông tin cho Anova: Two-Factor With Replication
Ở tùy chọn Rows per sample, chúng ta nhập 5 vì có năm điểm dữ liệu cho mỗi khu vực. Với vùng xuất kết quả, có thể chọn bất kỳ ô nào, chẳng hạn $A$14, hoặc một trang tính mới tùy bạn.
Kết quả ANOVA hai nhân tố
Vậy là xong! Bạn đã thực hiện ANOVA hai nhân tố cho bộ dữ liệu đã cho chỉ với vài bước.
Diễn giải kết quả ANOVA hai nhân tố
Hãy dành chút thời gian để hiểu cách đọc bảng ANOVA và xác định hàng nào đại diện cho từng nhân tố được kiểm định.
-
Sample: Hàng
Sampleđại diện cho biến thiên giữa hai khu vực. -
Columns: Hàng
Columnsđại diện cho biến thiên giữa các chiến lược marketing khác nhau. -
Interaction: Hàng
Interactionđại diện cho hiệu ứng tương tác giữa các chiến lược marketing và các khu vực. -
Within: Hàng
Withinđại diện cho biến thiên trong mỗi tổ hợp giữa chiến lược marketing và khu vực. -
Total: Hàng
Totalđại diện cho biến thiên tổng thể trong dữ liệu.
Nếu thống kê F đủ lớn, p-value sẽ đủ nhỏ. Khi đó chúng ta sẽ bác bỏ giả thuyết không và kết luận rằng có sự khác biệt có ý nghĩa giữa các trung bình nhóm.
Tuy nhiên, trong trường hợp của chúng ta, các thống kê f cho sample, columns và interaction đều nhỏ hơn giá trị f tới hạn tương ứng, và các p-value đều lớn hơn 0,05. Do đó, chúng ta không bác bỏ giả thuyết không cho cả ba trường hợp.
Điều này có nghĩa là chưa có đủ bằng chứng để khẳng định có sự khác biệt có ý nghĩa giữa trung bình của các khu vực, các chiến lược marketing, hoặc có hiệu ứng tương tác giữa chiến lược và khu vực.
Kết luận
ANOVA là một công cụ thống kê quan trọng trong cả môi trường học thuật lẫn kinh doanh. Hướng dẫn này đã giới thiệu kỹ thuật và hai loại chính của nó. Chúng ta đã lấy một ví dụ thực tế và triển khai cả ANOVA một nhân tố và hai nhân tố bằng Microsoft Excel.
Ngoài việc triển khai, chúng ta cũng học cách xây dựng giả thuyết và diễn giải kết quả để chấp nhận hoặc bác bỏ giả thuyết.
Để thành thạo Excel cho các tác vụ phân tích tương tự, lộ trình Excel Fundamentals sẽ là lựa chọn tốt, cùng với Excel cheat sheet để tham khảo nhanh.
Chúc bạn học tốt!
Với vai trò nhà khoa học dữ liệu cao cấp, tôi thiết kế, phát triển và triển khai các giải pháp học máy quy mô lớn để giúp doanh nghiệp ra quyết định dựa trên dữ liệu hiệu quả hơn. Với vai trò tác giả về khoa học dữ liệu, tôi chia sẻ những bài học kinh nghiệm, lời khuyên nghề nghiệp và các hướng dẫn thực hành chuyên sâu.
