Courses
Chuẩn bị dữ liệu một cách chính xác rất quan trọng đối với cả hiệu suất của mô hình và khả năng diễn giải kết quả. Đây là thách thức trung tâm nơi chuẩn hóa và tiêu chuẩn hóa xuất hiện - hai kỹ thuật thu nhỏ đặc trưng thiết yếu có thể dùng để điều chỉnh dữ liệu nhằm cải thiện hiệu suất hoặc hỗ trợ diễn giải kết quả.
Trong bài viết này, tôi sẽ hướng dẫn bạn qua các thuật ngữ khác nhau và giúp bạn thấy một số khác biệt thực tiễn giữa chuẩn hóa và tiêu chuẩn hóa. Cuối bài, bạn sẽ hiểu khi nào nên dùng mỗi kỹ thuật trong quy trình tiền xử lý dữ liệu. Khi quen thuộc với chuẩn hóa và tiêu chuẩn hóa, bạn sẽ nâng cao hiệu suất mô hình, diễn giải kết quả tốt hơn và tránh những lỗi thường gặp với dữ liệu chưa được thu nhỏ. Những khác biệt tinh tế này rất quan trọng trong lĩnh vực học máy. Nếu bạn nghiêm túc muốn trở thành chuyên gia, hãy đăng ký lộ trình nghề nghiệp Machine Learning Scientist in Python của chúng tôi ngay hôm nay.
Tìm hiểu về thu nhỏ đặc trưng
Chuẩn hóa và tiêu chuẩn hóa đều thuộc ý tưởng hay nhóm thu nhỏ đặc trưng. Thu nhỏ đặc trưng là bước quan trọng trong việc chuẩn bị dữ liệu cho các mô hình học máy. Nó liên quan đến việc biến đổi giá trị của các đặc trưng trong một tập dữ liệu về cùng một thang đo, đảm bảo mọi đặc trưng đóng góp ngang nhau vào quá trình học của mô hình.
Thu nhỏ đặc trưng quan trọng vì khi các đặc trưng ở trên những thang đo rất khác nhau, như một đặc trưng từ 1 đến 10 và đặc trưng khác từ 1.000 đến 10.000, mô hình có thể ưu tiên các giá trị lớn hơn, dẫn đến thiên lệch trong dự đoán. Điều này có thể làm giảm hiệu suất mô hình và khiến quá trình hội tụ khi huấn luyện chậm hơn.
Thu nhỏ đặc trưng giải quyết những vấn đề này bằng cách điều chỉnh khoảng giá trị của dữ liệu mà không làm méo sai khác giữa các giá trị. Có một số kỹ thuật thu nhỏ, trong đó chuẩn hóa và tiêu chuẩn hóa là phổ biến nhất. Cả hai phương pháp đều giúp mô hình học máy vận hành tối ưu bằng cách cân bằng tác động của các đặc trưng, giảm ảnh hưởng của ngoại lệ và, trong một số trường hợp, cải thiện tốc độ hội tụ.
Chuẩn hóa là gì?
Chuẩn hóa là một khái niệm rộng, và có nhiều cách khác nhau để chuẩn hóa dữ liệu. Nói chung, chuẩn hóa đề cập đến quá trình điều chỉnh các giá trị được đo trên những thang khác nhau về một thang chung. Đôi khi minh họa bằng ví dụ là tốt nhất. Với mỗi loại chuẩn hóa bên dưới, chúng ta sẽ xem xét một mô hình để hiểu mối quan hệ giữa giá nhà và diện tích.
Các loại chuẩn hóa
Hãy xem một số loại chính. Lưu ý, đây không phải là danh sách đầy đủ:
Chuẩn hóa min-max
Với chuẩn hóa min-max, chúng ta có thể đưa diện tích nhà về khoảng từ 0 đến 1. Điều này có nghĩa là diện tích nhỏ nhất sẽ được biểu diễn là 0, và diện tích lớn nhất sẽ là 1.
Chuẩn hóa log
Chuẩn hóa log là một kỹ thuật chuẩn hóa khác. Bằng cách sử dụng chuẩn hóa log, chúng ta áp dụng phép biến đổi logarit lên giá nhà. Kỹ thuật này giúp giảm tác động của các mức giá rất lớn, đặc biệt khi có sự chênh lệch đáng kể giữa chúng.
Tỉ lệ thập phân
Tỉ lệ thập phân là một kỹ thuật chuẩn hóa khác. Trong ví dụ này, chúng ta có thể điều chỉnh diện tích nhà bằng cách dịch chuyển dấu thập phân để làm giá trị nhỏ hơn. Điều này có nghĩa là diện tích nhà được biến đổi về một thang đo dễ xử lý hơn trong khi vẫn giữ nguyên sai khác tương đối.
Chuẩn hóa theo trung bình (đặt tâm theo trung bình)
Chuẩn hóa theo trung bình, trong ngữ cảnh này, sẽ liên quan đến việc điều chỉnh giá nhà bằng cách trừ đi giá trung bình khỏi giá của từng căn. Quá trình này đặt tâm giá tại 0, cho thấy diện tích mỗi ngôi nhà so với mức trung bình như thế nào. Bằng cách này, chúng ta có thể phân tích diện tích nào lớn hơn hoặc nhỏ hơn trung bình, giúp việc diễn giải mức giá tương đối trở nên dễ dàng hơn.
Khi nào bạn nên chuẩn hóa dữ liệu?
Như bạn có thể suy ra từ các ví dụ trên, chuẩn hóa đặc biệt hữu ích khi phân phối dữ liệu không rõ hoặc không tuân theo phân phối Gaussian. Giá nhà là ví dụ điển hình ở đây vì một số căn có giá rất, rất cao, và các mô hình không phải lúc nào cũng xử lý tốt ngoại lệ.
Vì vậy, mục tiêu của chuẩn hóa là xây dựng mô hình tốt hơn. Chúng ta có thể chuẩn hóa biến phụ thuộc để sai số phân bố đều hơn, hoặc chuẩn hóa các biến đầu vào để đảm bảo những đặc trưng có thang đo lớn hơn không lấn át các đặc trưng có thang đo nhỏ hơn.
Chuẩn hóa hiệu quả nhất trong các trường hợp sau:
- Phân phối không rõ hoặc không Gaussian: Khi phân phối dữ liệu không rõ hoặc không theo mẫu chuẩn (Gaussian). Ví dụ trong hồi quy tuyến tính, chúng ta có thể muốn chuẩn hóa biến phụ thuộc để nó trông giống đường cong hình chuông hơn, từ đó tăng độ tin cậy cho các ước lượng.
- Thuật toán dựa trên khoảng cách: Chuẩn hóa cần thiết khi dùng các thuật toán học máy dựa vào khoảng cách giữa các điểm dữ liệu, như k-Nearest Neighbors (k-NN), để ngăn đặc trưng có thang đo lớn chi phối tính toán khoảng cách.
Tiêu chuẩn hóa là gì?
Trong khi chuẩn hóa đưa các đặc trưng về một khoảng cụ thể, tiêu chuẩn hóa, còn gọi là thu nhỏ theo z-score, biến đổi dữ liệu để có trung bình 0 và độ lệch chuẩn 1. Quá trình này điều chỉnh giá trị đặc trưng bằng cách trừ đi trung bình và chia cho độ lệch chuẩn. Bạn có thể đã nghe về việc ‘đặt tâm và thu nhỏ’ dữ liệu. Thực ra tiêu chuẩn hóa chính là như vậy: trước tiên đặt tâm, sau đó thu nhỏ.
Công thức tiêu chuẩn hóa là:

Trong đó:
- X là giá trị gốc,
- mu là trung bình của đặc trưng, và
- sigma là độ lệch chuẩn của đặc trưng.
Công thức này thu nhỏ dữ liệu sao cho phân phối của nó có trung bình 0 và độ lệch chuẩn 1.
Khi nào bạn nên tiêu chuẩn hóa dữ liệu?
Tiêu chuẩn hóa phù hợp nhất trong các trường hợp sau:
- Thuật toán dựa trên gradient: Support Vector Machine (SVM) yêu cầu dữ liệu đã tiêu chuẩn hóa để đạt hiệu suất tối ưu. Dù các mô hình như hồi quy tuyến tính và hồi quy logistic không giả định tiêu chuẩn hóa, chúng vẫn có thể hưởng lợi từ nó, đặc biệt khi các đặc trưng có độ lớn rất khác nhau, giúp đảm bảo đóng góp cân bằng từ mỗi đặc trưng và cải thiện tối ưu hóa.
- Giảm chiều dữ liệu: Tiêu chuẩn hóa cần có trong các kỹ thuật giảm chiều như PCA vì PCA xác định hướng có phương sai tối đa trong dữ liệu. Chỉ chuẩn hóa theo trung bình là không đủ vì PCA xét cả trung bình và phương sai, và thang đo đặc trưng khác nhau sẽ làm sai lệch phân tích.
Chuẩn hóa và Tiêu chuẩn hóa: Những khác biệt chính
Đôi khi, thật khó để phân biệt giữa chuẩn hóa và tiêu chuẩn hóa. Một mặt, chuẩn hóa đôi khi được dùng như một thuật ngữ chung hơn, trong khi tiêu chuẩn hóa có nghĩa cụ thể và mang tính kỹ thuật hơn. Ngoài ra, các nhà phân tích và nhà khoa học dữ liệu dù quen với các thuật ngữ này vẫn có thể bối rối khi phân biệt tình huống sử dụng.
Dù đều là kỹ thuật thu nhỏ đặc trưng, chúng khác nhau về cách tiếp cận và ứng dụng. Hiểu những khác biệt này là chìa khóa để chọn kỹ thuật phù hợp cho mô hình học máy của bạn.
Phương pháp thu nhỏ
Chuẩn hóa đưa giá trị đặc trưng về một khoảng xác định, thường là giữa 0 và 1, điều này đặc biệt hữu ích cho các mô hình có thang đo đặc trưng chênh lệch lớn. Ngược lại, tiêu chuẩn hóa đặt dữ liệu quanh trung bình (0) và thu nhỏ theo độ lệch chuẩn (1).
Độ nhạy với ngoại lệ
Các kỹ thuật chuẩn hóa khác nhau có hiệu quả khác nhau trong việc xử lý ngoại lệ. Chuẩn hóa theo trung bình có thể điều chỉnh ngoại lệ thành công trong một số tình huống, nhưng các kỹ thuật khác có thể không hiệu quả bằng. Nói chung, các kỹ thuật chuẩn hóa không xử lý vấn đề ngoại lệ hiệu quả như tiêu chuẩn hóa vì tiêu chuẩn hóa dựa tường minh vào cả trung bình và độ lệch chuẩn.
Trường hợp sử dụng
Chuẩn hóa được dùng rộng rãi trong các thuật toán dựa trên khoảng cách như k-Nearest Neighbors (k-NN), nơi các đặc trưng phải ở cùng thang đo để đảm bảo độ chính xác trong tính khoảng cách. Trong khi đó, tiêu chuẩn hóa rất quan trọng với các thuật toán dựa trên gradient như Support Vector Machines (SVM) và thường được áp dụng trong các kỹ thuật giảm chiều như PCA, nơi việc duy trì phương sai đặc trưng đúng là rất quan trọng.
Bảng tóm tắt khác biệt
Hãy xem tất cả những khác biệt chính này trong một bảng tóm tắt để việc so sánh giữa chuẩn hóa và tiêu chuẩn hóa trở nên dễ dàng hơn:
| Danh mục | Chuẩn hóa | Tiêu chuẩn hóa |
|---|---|---|
| Phương pháp thu nhỏ | Đưa dữ liệu về một khoảng (thường 0 đến 1) dựa trên giá trị nhỏ nhất và lớn nhất. | Đặt dữ liệu quanh trung bình (0) và thu nhỏ theo độ lệch chuẩn (1). |
| Độ nhạy với ngoại lệ | Chuẩn hóa có thể giúp điều chỉnh ngoại lệ nếu dùng đúng cách, tùy theo kỹ thuật. | Tiêu chuẩn hóa là cách nhất quán hơn để khắc phục vấn đề ngoại lệ. |
| Thuật toán phổ biến | Thường áp dụng trong các thuật toán như k-NN và mạng nơ-ron yêu cầu dữ liệu có thang đo nhất quán. | Phù hợp nhất với các thuật toán yêu cầu đặc trưng có thang đo chung, như hồi quy logistic, SVM và PCA. |
Trực quan hóa sự khác biệt
Để hiểu sự khác biệt giữa chuẩn hóa và tiêu chuẩn hóa, sẽ hữu ích khi xem hiệu ứng của chúng bằng trực quan và về mặt hiệu suất mô hình. Ở đây, tôi bao gồm các boxplot để thể hiện những kỹ thuật thu nhỏ đặc trưng khác nhau. Tôi đã dùng chuẩn hóa min-max cho từng biến trong tập dữ liệu của mình. Ta có thể thấy không có giá trị nào nhỏ hơn 0 hoặc lớn hơn 1.
Dữ liệu đã chuẩn hóa. Ảnh: Tác giả
Trong hình trực quan thứ hai này, tôi đã dùng tiêu chuẩn hóa cho từng biến. Chúng ta có thể thấy dữ liệu được đặt tâm tại 0.
Dữ liệu đã tiêu chuẩn hóa. Ảnh: Tác giả
Ưu và nhược điểm
Ưu điểm gồm có cải thiện hiệu suất mô hình và cân bằng đóng góp của các đặc trưng. Tuy nhiên, chuẩn hóa có thể hạn chế khả năng diễn giải do thang đo cố định, trong khi tiêu chuẩn hóa cũng có thể làm khó diễn giải vì các giá trị không còn phản ánh đơn vị gốc. Luôn có sự đánh đổi giữa độ phức tạp và độ chính xác của mô hình.
Chuẩn hóa và Tiêu chuẩn hóa trong Hồi quy tuyến tính
Hãy xem chuẩn hóa (trong trường hợp này là chuẩn hóa theo trung bình) và tiêu chuẩn hóa có thể thay đổi cách diễn giải một mô hình hồi quy tuyến tính đơn như thế nào. Hệ số xác định R-squared hoặc adjusted R-squared sẽ giống nhau cho mỗi mô hình, nên việc thu nhỏ đặc trưng ở đây chỉ nhằm mục đích diễn giải mô hình của chúng ta.
| Phép biến đổi áp dụng | Biến độc lập (Diện tích nhà) | Biến phụ thuộc (Giá nhà) | Diễn giải |
|---|---|---|---|
| Chuẩn hóa theo trung bình | Đặt tâm theo trung bình | Gốc | Bạn đang dự đoán giá nhà gốc cho mỗi thay đổi về diện tích nhà so với mức trung bình. |
| Tiêu chuẩn hóa | Đã tiêu chuẩn hóa | Gốc | Bạn đang dự đoán giá nhà gốc cho mỗi thay đổi một độ lệch chuẩn về diện tích nhà. |
| Chuẩn hóa theo trung bình | Gốc | Đặt tâm theo trung bình | Bạn đang dự đoán giá nhà tương đối so với trung bình cho mỗi lần tăng một đơn vị trong diện tích gốc. |
| Tiêu chuẩn hóa | Gốc | Đã tiêu chuẩn hóa | Bạn đang dự đoán giá nhà đã tiêu chuẩn hóa cho mỗi lần tăng một đơn vị trong diện tích gốc. |
| Chuẩn hóa theo trung bình (Cả hai biến) | Đặt tâm theo trung bình | Đặt tâm theo trung bình | Bạn đang dự đoán giá nhà tương đối so với trung bình cho mỗi thay đổi về diện tích nhà so với trung bình. |
| Tiêu chuẩn hóa (Cả hai biến) | Đã tiêu chuẩn hóa | Đã tiêu chuẩn hóa | Bạn đang dự đoán giá nhà đã tiêu chuẩn hóa cho mỗi thay đổi một độ lệch chuẩn về diện tích nhà. |
Một lưu ý quan trọng khác, trong hồi quy tuyến tính, nếu bạn tiêu chuẩn hóa cả biến độc lập và biến phụ thuộc, r-squared sẽ giữ nguyên. Đó là vì r-squared đo lường tỷ lệ phương sai trong y được giải thích bởi x, và tỷ lệ này không đổi dù có tiêu chuẩn hóa các biến hay không. Tuy nhiên, việc tiêu chuẩn hóa biến phụ thuộc sẽ làm thay đổi RMSE, vì RMSE được đo bằng cùng đơn vị với biến phụ thuộc. Do y giờ đã được tiêu chuẩn hóa, RMSE sẽ thấp hơn sau khi tiêu chuẩn hóa. Cụ thể, nó sẽ phản ánh sai số theo độ lệch chuẩn của biến đã tiêu chuẩn hóa, không phải đơn vị gốc. Nếu bạn đặc biệt hứng thú với hồi quy, hãy tham gia khóa học Introduction to Regression with statsmodels in Python của chúng tôi để trở thành chuyên gia.
Kết luận
Thu nhỏ đặc trưng, bao gồm chuẩn hóa và tiêu chuẩn hóa, là thành phần thiết yếu của tiền xử lý dữ liệu trong học máy. Hiểu bối cảnh phù hợp để áp dụng mỗi kỹ thuật có thể nâng cao đáng kể hiệu suất và độ chính xác của mô hình.
Nếu bạn muốn mở rộng và đào sâu hiểu biết về thu nhỏ đặc trưng và vai trò của nó trong học máy, chúng tôi có nhiều tài nguyên tuyệt vời tại DataCamp để bạn bắt đầu. Bạn có thể khám phá bài viết về Chuẩn hóa trong Học máy để nắm các khái niệm nền tảng, hoặc cân nhắc khóa học End-to-End Machine Learning, bao quát các ứng dụng thực tế.
Chuyên gia dữ liệu và tác giả dày dạn kinh nghiệm, đam mê hỗ trợ những người đang theo đuổi con đường trở thành chuyên gia trong lĩnh vực dữ liệu.

