Tracks
Phân bố tần số, thường được trực quan hóa bằng biểu đồ tần số, sắp xếp các điểm dữ liệu vào những khoảng giá trị xác định, giúp bạn dễ dàng hiểu mức độ xuất hiện của từng giá trị. Kỹ thuật này rất quan trọng để xác định các mẫu, xu hướng và giá trị ngoại lai tiềm ẩn, từ đó có được hiểu biết sâu hơn về dữ liệu.
Hướng dẫn này sẽ khám phá phân bố tần số, ý nghĩa của nó trong phân tích dữ liệu và cách tạo chúng. Với Microsoft Excel, chúng ta sẽ đi qua hướng dẫn từng bước để tạo phân bố tần số cho một tập dữ liệu thực tế và diễn giải kết quả để rút ra những insight có ý nghĩa.
Câu trả lời nhanh: Cách tạo phân bố tần số trong Excel
Để tạo phân bố tần số trong Excel, hãy dùng hàm FREQUENCY(). Hàm này tính số lần các giá trị xuất hiện trong những khoảng xác định, gọi là các bin.
Thực hiện theo các bước sau:
- Bắt đầu bằng cách nhập dữ liệu của bạn vào một cột.
- Xác định các bin ở một cột khác.
- Tại một ô mới, nhập
=FREQUENCY(data_array, bins_array), trong đódata_arraylà vùng dữ liệu vàbins_arraylà vùng các bin. - Ví dụ:
=FREQUENCY(A2:A16, B2:B6). - Nhấn Enter để nhận phân bố tần số.
Tính phân bố tần số bằng hàm FREQUENCY(). Ảnh: Tác giả
Vì sao phân bố tần số quan trọng
Phân bố tần số là một kỹ thuật thống kê sắp xếp dữ liệu vào các danh mục hoặc khoảng. Thông thường, kết quả là một bảng hiển thị số lượng quan sát trong mỗi khoảng của dữ liệu gốc.
Phân bố tần số hữu ích ở nhiều khía cạnh:
- Tóm tắt dữ liệu: Phân bố tần số tóm tắt các tập dữ liệu lớn một cách có tổ chức và dễ hiểu, giúp bạn nhanh chóng nắm được cách phân bố các giá trị.
- Biểu diễn trực quan: Phân bố tần số có thể dễ dàng biểu diễn bằng biểu đồ cột tần số và biểu đồ tròn, mang lại góc nhìn trực quan về dữ liệu.
- Xác định mẫu, xu hướng và ngoại lai: Chúng cho thấy các mẫu trong dữ liệu như đỉnh, cụm và ngoại lai; đồng thời hỗ trợ phân tích thống kê để khám phá sâu hơn hình dạng và đặc tính của dữ liệu.
- So sánh dữ liệu: Cách phân bố giá trị cho phép bạn so sánh các tập dữ liệu khác nhau và hiểu điểm giống và khác nhau.
- Truyền đạt: Phân bố tần số là công cụ đơn giản và hiệu quả để truyền đạt insight từ dữ liệu tới đối tượng rộng hơn, bao gồm cả người ra quyết định.
- Ra quyết định: Hiểu rõ phân bố và các mẫu của nó hỗ trợ quá trình ra quyết định. Ví dụ, nắm được nguồn cung hàng hóa theo mùa sẽ giúp quyết định thời điểm nhập hàng.
Giờ bạn đã hiểu phân bố tần số và tầm quan trọng của nó, hãy cùng tìm hiểu một số cách tạo chúng trong Microsoft Excel.
Các phương pháp tạo phân bố tần số trong Excel
Hãy tưởng tượng bạn làm việc cho một công ty mỹ phẩm phục vụ nhiều nhóm tuổi. Hiện họ muốn tập trung vào một số sản phẩm nhắm đến nhóm tuổi có nhiều khách hàng hơn. Để hiểu điều đó, bạn được giao nhiệm vụ phân tích khách hàng theo nhóm tuổi.
Để thực hiện, họ đã lấy mẫu dữ liệu tuổi khách hàng từ cơ sở dữ liệu khách hàng. Bảng sau được cung cấp cho bạn:
Tập dữ liệu tuổi khách hàng. Ảnh: Tác giả
Khi phân tích nhu cầu theo nhóm tuổi khách hàng, bạn nhận ra rằng tính phân bố tần số là điểm khởi đầu tốt. Dưới đây là bốn phương pháp để tính phân bố tần số bằng Microsoft Excel.
Phương pháp 1: Dùng hàm FREQUENCY()
Hàm FREQUENCY() tính phân bố tần số của dữ liệu cho trước và trả về một danh sách cho thấy tần suất giá trị trong các khoảng xác định.
Cú pháp của hàm FREQUENCY() như sau:
=FREQUENCY(data_array, bins_array)
Hàm nhận hai tham số:
data_array: Một mảng hoặc tham chiếu tới tập giá trị mà bạn muốn đếm tần suất. Nếu data_array không có giá trị,FREQUENCY()trả về một mảng số 0.bins_array: Một mảng hoặc tham chiếu tới các khoảng mà bạn muốn nhóm các giá trị trong data_array. Nếu bins_array không có giá trị,FREQUENCY()trả về số phần tử trong data_array.
Cả hai tham số đều bắt buộc để tính phân bố tần số. Bạn chỉ được cung cấp data_array, tức là Tuổi khách hàng. Vì vậy, bạn cần tự xác định bins_array.
Trong trường hợp này, ta có thể xác định các bin là <20, 20–30, 30–40, 40–50, 50–60 và >60. Điền vào cột B trong trang tính như minh họa dưới đây.
Công thức tính phân bố tần số bằng hàm FREQUENCY(). Ảnh: Tác giả
Sau khi chuẩn bị data_array và bins_array, hãy viết công thức để tính phân bố tần số tại ô C2.
=FREQUENCY(A2:A16, B2:B6)
Kết quả khi thực thi công thức trên sẽ như sau:

Phân bố tần số bằng hàm FREQUENCY(). Ảnh: Tác giả
Quan sát phân bố tần số trên, ta thấy:
- Công ty chỉ có một khách hàng dưới 20 tuổi.
- Có năm khách hàng trong độ tuổi 20–30 và 30–40.
- Có ba khách hàng trong độ tuổi 40–50.
- Có một khách hàng trong độ tuổi 50–60.
- Không có khách hàng nào trên 60 tuổi.
Từ phân bố tần số, bạn hiểu rằng phần lớn khách hàng nằm trong độ tuổi từ 20 đến 40.
Phương pháp 2: Dùng Pivot Table
Pivot Table là cách nhanh chóng và dễ dàng để tóm tắt và phân tích lượng dữ liệu lớn. Pivot Table cung cấp các tính năng như tổng hợp, nhóm và slicer, v.v.
Để tính phân bố tần số bằng Pivot Table, nhấp vào Insert trên menu và chọn PivotTable.
Chèn PivotTable. Ảnh: Tác giả
Chỉ định phạm vi dữ liệu mà bạn muốn tạo Pivot Table. Trong trường hợp này, phạm vi là A2:A16. Chọn New Worksheet để nhận kết quả ở trang tính mới.
Sau khi chỉ định phạm vi dữ liệu, nhấn OK.
Chỉ định tham số Pivot Table. Ảnh: Tác giả
Sau khi nhấp OK, bạn sẽ thấy khung PivotTable Fields ở bên phải cửa sổ. Để tạo Pivot Table cho Tuổi khách hàng, kéo thả Customer Age vào Rows và Values.

Tùy chỉnh Pivot Table. Ảnh: Tác giả
Sau khi bạn kéo thả trường Customer Age, khung bên phải sẽ như sau:

Pivot Table đã tùy chỉnh. Ảnh: Tác giả
Pivot Table tạo ra sẽ trông như sau:

Pivot Table về tuổi khách hàng. Ảnh: Tác giả
Nếu bạn quan sát bảng trên, nó khác với điều bạn cần. Bài toán là phân tích số lượng khách hàng theo nhóm tuổi.
Chúng ta đang thiếu hai điều:
- Cột Tuổi khách hàng chưa được nhóm.
- Chúng ta quan tâm đến số lượng khách hàng trong mỗi nhóm, không phải tổng tuổi của họ.
Hãy cùng khắc phục.
Nhấp chuột phải vào một giá trị hàng và chọn Group.

Nhóm các giá trị hàng trong Pivot Table. Ảnh: Tác giả
Điền các tham số nhóm. Trong ví dụ, chúng ta chọn các bin là 20, 30, 40, 50 và 60. Do đó, bắt đầu tại 20 và kết thúc tại 60 với bước tăng 10.

Nhóm trong Pivot Table. Ảnh: Tác giả
Sau khi nhóm, kết quả sẽ như sau:

Pivot Table đã nhóm. Ảnh: Tác giả
Tiếp theo, cần đổi Sum thành Count. Để đổi, nhấp chuột phải vào ô Sum of Customer Age và chọn Value Field Settings.
Thiết đặt trường giá trị trong Pivot Table. Ảnh: Tác giả
Trong hộp thoại bật lên, dưới Summarize Values By, đổi Sum thành Count và nhấn OK.
Tùy chọn trường giá trị. Ảnh: Tác giả
Sau khi cập nhật, kết quả sẽ như sau:

Phân bố tần số bằng Pivot Table. Ảnh: Tác giả
Đây chính là kết quả bạn cần — bạn đã có phân bố tần số theo Tuổi khách hàng.
Phương pháp 3: Dùng Data Analysis ToolPak
Data Analysis ToolPak là một tiện ích bổ sung cho Microsoft Excel giúp tính các chỉ số thường dùng trong các tác vụ phân tích dữ liệu.
Tiện ích này không được bật theo mặc định. Vì vậy, hãy kiểm tra góc trên bên phải để tìm biểu tượng Data Analysis dưới thẻ Data trong sổ làm việc Excel của bạn.
Data Analysis ToolPak trong Excel. Ảnh: Tác giả
Nếu bạn không thấy biểu tượng như trên, tức là tiện ích chưa được bật. Để bật, nhấp File trên menu và chọn Options.
Chọn Options từ thẻ File. Ảnh: Tác giả
Khi hộp thoại Excel Options mở ra, chọn Add-ins.
Chọn Add-ins trong hộp thoại Excel Options. Ảnh: Tác giả
Tiếp theo, chọn Excel Add-ins trong hộp Manage ở dưới cùng, rồi nhấp Go.
Quản lý tiện ích bổ sung Excel. Ảnh: Tác giả
Khi hộp thoại Add-Ins mở ra, hãy tick chọn Analysis ToolPak và nhấp OK.

Bật Data Analysis ToolPak. Ảnh: Tác giả
Giờ biểu tượng Data Analysis sẽ hiển thị dưới thẻ Data, và bạn không cần lặp lại quá trình này nữa vì bật tiện ích là thao tác một lần.
Chọn phạm vi dữ liệu bao gồm tiêu đề cột để tính phân bố tần số. Nhấp biểu tượng Data Analysis. Hộp thoại sẽ bật lên. Chọn Histogram rồi nhấn OK.
Gọi tiện ích bổ sung Data Analysis ToolPak. Ảnh: Tác giả
Bạn sẽ thấy một hộp thoại như dưới đây.
Tùy chỉnh tham số histogram. Ảnh: Tác giả
Điền Input range bằng vùng dữ liệu Tuổi khách hàng và Bin Range bằng Bins.
- Bạn có dữ liệu Tuổi khách hàng ở các ô
A2:A16. - Bạn có dữ liệu Bins ở các ô
B2:B6. - Với tùy chọn Output, chọn New Worksheet để nhận kết quả ở trang tính mới.
- Nhấp OK.
Bạn sẽ thấy phân bố tần số ở một trang tính mới như dưới đây.

Phân bố tần số bằng Data Analysis ToolPak. Ảnh: Tác giả
Xong rồi! Bạn đã tạo được phân bố tần số theo nhóm tuổi bằng Data Analysis ToolPak.
Phương pháp 4: Dùng các hàm COUNTIF() và COUNTIFS()
Hàm COUNTIF() đếm số lần đáp ứng một tiêu chí. Hàm COUNTIFS() đếm số ô đáp ứng nhiều tiêu chí.
Để tính tần suất cho mỗi nhóm tuổi, hãy nhập các công thức dưới đây lần lượt vào các ô D2 đến D7.
# In cell D2
=COUNTIF(A2:A16, "<=20")
# In cell D3
=COUNTIFS(A2:A16, ">20", A2:A16, "<=30")
# In cell D4
=COUNTIFS(A2:A16, ">30", A2:A16, "<=40")
# In cell D5
=COUNTIFS(A2:A16, ">40", A2:A16, "<=50")
# In cell D6
=COUNTIFS(A2:A16, ">50", A2:A16, "<=60")
# In cell D7
=COUNTIF(A2:A16, ">60")
Dưới đây là ví dụ cách thêm công thức vào các ô. Sau khi bạn tính hết, kết quả sẽ như sau:
Tính phân bố tần số bằng hàm COUNTIF(). Ảnh: Tác giả
So với các phương pháp khác đã thảo luận, một hạn chế của việc dùng COUNTIF() là nó yêu cầu các khoảng bin được xác định sẵn ngay trong công thức.
Cách phổ biến nhất để tạo bảng phân bố tần số là dùng hàm FREQUENCY().
Tuy nhiên, bạn có thể sử dụng phương pháp nào mang lại sự thoải mái cho bạn. Ví dụ, nếu bạn cũng đang tính các thước đo thống kê khác như độ lệch, ANOVA hoặc ma trận tương quan trong quá trình phân tích, thì dùng Data Analysis ToolPak có thể phù hợp hơn.
Lời kết
Trong hướng dẫn này, chúng ta đã học về tầm quan trọng của phân bố tần số và cách tính nó bằng Microsoft Excel. Thông qua ví dụ thực tế, chúng ta đã học cách dùng hàm FREQUENCY() và diễn giải phân bố thu được để rút ra insight từ dữ liệu. Chúng ta cũng đã khám phá ba cách thay thế để tính phân bố tần số.
Việc học không dừng lại ở đây; chúng tôi khuyến khích bạn tiếp tục học và mở rộng kỹ năng Excel. Hãy cân nhắc học lộ trình Excel Fundamentals để xây nền tảng vững chắc với Excel. Các khóa học Data Preparation in Excel và Data Visualization in Excel có thể giúp bạn mở rộng kiến thức về các chủ đề này. Bạn cũng có thể tham khảo Data Manipulation in Excel Cheat Sheet như một tài liệu tra cứu nhanh.
Chúc bạn học tốt!!!
Với vai trò nhà khoa học dữ liệu cao cấp, tôi thiết kế, phát triển và triển khai các giải pháp học máy quy mô lớn để giúp doanh nghiệp ra quyết định dựa trên dữ liệu hiệu quả hơn. Với vai trò tác giả về khoa học dữ liệu, tôi chia sẻ những bài học kinh nghiệm, lời khuyên nghề nghiệp và các hướng dẫn thực hành chuyên sâu.
Câu hỏi thường gặp
Bin trong phân bố tần số là gì?
Bin là các khoảng dùng để nhóm các điểm dữ liệu trong một phân bố tần số. Mỗi bin đại diện cho một khoảng giá trị, và tần suất là số điểm dữ liệu nằm trong mỗi bin.
Làm thế nào để tạo bin tùy chỉnh cho phân bố tần số?
Tạo bin tùy chỉnh khác nhau tùy theo phương pháp bạn dùng. Các lựa chọn gồm dùng hàm FREQUENCY(), dùng Pivot Table, dùng Data Analysis ToolPak và dùng hàm COUNTIF().
Sự khác nhau giữa COUNTIF() và COUNTIFS() là gì?
COUNTIF() đếm số lần xuất hiện thỏa mãn một điều kiện. COUNTIFS() đếm số lần xuất hiện thỏa mãn nhiều điều kiện.
Làm thế nào để tạo phân bố tần số với kích thước bin không đều?
Hãy sửa đổi giá trị của các bin. Ví dụ, nếu trước đó bạn có các bin là 20, 30, 40, 50 và 60, bạn có thể đổi thành 20, 30, 50 và 60, khi đó khoảng 30–50 khiến kích thước bin không đều. Sau đó, vẫn dùng hàm FREQUENCY() như thường lệ để tính phân bố tần số.
Một số hạn chế khi dùng COUNTIF() để tính phân bố tần số là gì?
COUNTIF() yêu cầu các khoảng bin được xác định trước. Việc thay đổi khoảng bin đòi hỏi cập nhật thủ công từng công thức COUNTIF().
