Courses
Trong hướng dẫn này, bạn sẽ học cách làm sạch dữ liệu trong Excel và chuẩn bị dữ liệu cho việc phân tích. Chúng tôi sẽ đề cập đến các kỹ thuật thiết yếu như loại bỏ trùng lặp, xử lý giá trị thiếu và chuẩn hóa định dạng. Khi kết thúc, bạn sẽ có trong tay các kỹ năng thực tiễn để đảm bảo bộ dữ liệu chính xác và sẵn sàng cho phân tích chuyên sâu.
Để tìm hiểu sâu hơn, hãy cân nhắc tham gia khóa học đi kèm Data Preparation in Excel, khóa học bao quát các kỹ thuật nâng cao và thực hành tốt nhất để tối ưu hóa quy trình làm sạch dữ liệu của bạn.
Các thành phần của dữ liệu sạch là gì?
Đảm bảo chất lượng dữ liệu cao bao gồm một số thành phần chính như độ chính xác, tính đầy đủ, tính nhất quán, tính đồng nhất và tính hợp lệ. Đây là những thành phần thiết yếu để phân tích và ra quyết định đáng tin cậy. Hãy cùng xem từng thành phần.
- Độ chính xác: Độ chính xác nghĩa là dữ liệu phản ánh đúng các giá trị trong thế giới thực mà nó đại diện. Điều này đảm bảo thông tin hiển thị là chuẩn xác và không có lỗi, phản ánh đúng trạng thái thật của dữ liệu. Ví dụ, nếu dữ liệu của bạn chính xác, nó sẽ có: Thông tin chuẩn xác và không lỗi, Giá trị số chính xác, Văn bản không lỗi chính tả và Ngày tháng chính xác.
- Tính đầy đủ: Dữ liệu đầy đủ chứa tất cả thông tin cần thiết cho phân tích. Nếu dữ liệu không đầy đủ và thiếu các chi tiết quan trọng, kết quả có thể bị sai lệch. Hãy đảm bảo lấp đầy khoảng trống hoặc tính đến các giá trị thiếu khi phân tích. Để xử lý dữ liệu thiếu, hãy Nội suy dựa trên các quan sát khác, Thay giá trị thiếu bằng ký hiệu giữ chỗ và Loại bỏ bản ghi không đầy đủ.
- Tính nhất quán: Tính nhất quán nghĩa là dữ liệu ổn định giữa các tập dữ liệu và qua các giai đoạn. Dữ liệu sạch sẽ sử dụng cùng định dạng và đơn vị đo lường xuyên suốt.
- Tính đồng nhất: Tính đồng nhất hay chuẩn hóa nghĩa là toàn bộ dữ liệu có một định dạng và cấu trúc thống nhất—nên cùng một kiểu dữ liệu hoặc cùng một danh mục. Điều này bao gồm việc sử dụng cùng đơn vị đo hoặc định dạng ngày tháng và gắn nhãn theo các danh mục.
- Tính hợp lệ: Tính hợp lệ nghĩa là các giá trị dữ liệu nằm trong phạm vi chấp nhận được đã định và tuân theo các mẫu mong đợi. Ví dụ, nếu một mục tuổi hợp lệ phải nằm trong khoảng 0 đến 120 tuổi, các quy tắc và kiểm tra xác thực sẽ được áp dụng để đảm bảo dữ liệu đáp ứng tiêu chí này. Điều này ngăn ngừa ngoại lệ và mục nhập sai làm sai lệch kết quả.
Cách làm sạch dữ liệu trong Excel
Làm sạch dữ liệu trong Excel nghĩa là tinh chỉnh dữ liệu thô. Khác với xác thực dữ liệu, là một tính năng cụ thể trên thanh công cụ của Excel, làm sạch dữ liệu là khái niệm tổng quát hơn, bao gồm nhiều công cụ và kỹ thuật. Trong phần tiếp theo, chúng ta sẽ đề cập đến các nội dung sau:
- Làm sạch cơ bản: Xử lý các vấn đề thường gặp như khoảng trắng thừa, ô trống và lỗi chính tả để đảm bảo bộ dữ liệu sạch và nhất quán.
- Xử lý lỗi và xác thực: Tập trung xác định và sửa lỗi, đồng thời đảm bảo tính toàn vẹn của dữ liệu bằng cách loại bỏ trùng lặp.
- Thao tác văn bản: Xử lý và định dạng dữ liệu văn bản để đáp ứng yêu cầu của bạn, bao gồm nối chuỗi và thay đổi kiểu chữ.
- Biến đổi dữ liệu: Sử dụng các kỹ thuật để tổ chức và định hình lại dữ liệu nhằm phân tích tốt hơn, bao gồm phân tách văn bản và dùng các công cụ như Flash Fill.
- Chỉnh sửa số và ngày tháng: Sửa và chuẩn hóa dữ liệu số và ngày tháng để đảm bảo chính xác và định dạng nhất quán.
- Quản lý dữ liệu nâng cao: Đối soát và kết hợp các tập dữ liệu để tạo thành một bộ dữ liệu toàn diện và mạch lạc cho phân tích.
Làm sạch dữ liệu cơ bản trong Excel
Hãy cùng xem phần làm sạch cơ bản, tập trung vào các vấn đề thường gặp như loại bỏ khoảng trắng thừa.
Loại bỏ khoảng trắng thừa
Khoảng trắng ở cuối hoặc thừa có thể gây khó chịu hoặc gây vấn đề vì dẫn đến dữ liệu không nhất quán khi phân tích và phát sinh lỗi định dạng.
Có hai cách chính để loại bỏ khoảng trắng thừa trong Excel. Hãy cùng xem cả hai.
Loại bỏ khoảng trắng thừa bằng Tìm và Thay thế
Dưới đây là các bước để loại bỏ khoảng trắng thừa.
Chọn phạm vi ô bạn muốn loại bỏ khoảng trắng thừa.
Dùng phím tắt Ctrl + H để mở hộp thoại Find and Replace.
Trong ô Find what, nhấn phím cách hai lần để nhập hai khoảng trắng.
Trong ô Replace with, nhấn phím cách một lần để nhập một khoảng trắng.
Nhấp Replace All.
Lặp lại cho đến khi không còn khoảng trắng kép.
Hộp thoại Tìm và Thay thế. Nguồn: Tác giả
Loại bỏ khoảng trắng thừa bằng TRIM
Tạo một cột mới cho dữ liệu đã làm sạch.
Nhập công thức
=TRIM(cell_with_extra_spaces)vào ô đầu tiên của cột mới.Nhấp đúp vào góc dưới bên phải của ô để áp dụng công thức cho các hàng còn lại.
Sao chép dữ liệu đã làm sạch và dán dưới dạng giá trị để loại bỏ công thức.
Chọn và xử lý tất cả các ô trống
Ô trống có thể gây vấn đề do làm hỏng công thức, dẫn đến lỗi tính toán và kết quả phân tích không chính xác. Đây là cách xử lý.
Tô sáng phạm vi ô nơi bạn muốn tìm và xử lý ô trống.
Nhấn Ctrl + G để mở hộp thoại Go To.
Nhấp nút “Special…”. Hộp thoại Go To Special sẽ mở ra.
Chọn tùy chọn Blanks và nhấp OK. Lúc này, tất cả ô trống trong phạm vi đã chọn sẽ được chọn.
Bây giờ bạn có thể nhập một giá trị hoặc công thức. Nhấn Ctrl + Enter.
Chọn và xử lý ô trống. Nguồn: Tác giả
Kiểm tra chính tả
Từ viết sai chính tả có thể làm dữ liệu trông thiếu chuyên nghiệp và khó hiểu, vì vậy việc sửa chúng là quan trọng.
Kiểm tra toàn bộ trang tính hoặc một phạm vi cụ thể.
Vào thẻ Review trên Ribbon.
Nhấp nút Spelling trong nhóm Proofing.
Hộp thoại Spelling sẽ mở, hiển thị từ sai chính tả đầu tiên được phát hiện và gợi ý chỉnh sửa.
Xem lại và sửa các từ sai chính tả khi cần.
Kiểm tra chính tả. Nguồn: Tác giả
Xử lý lỗi và xác thực trong Excel
Hãy cùng xem phần xử lý lỗi, bao gồm các tác vụ như tô sáng lỗi hoặc loại bỏ trùng lặp.
Tô sáng lỗi
Lỗi trong dữ liệu có thể dẫn đến kết quả sai và quyết định kém, vì vậy cần xác định và xử lý chúng. Hãy xem cách thực hiện.
Chọn phạm vi ô bạn muốn kiểm tra lỗi.
Vào thẻ Home trên Ribbon.
Trong nhóm Styles, nhấp Conditional Formatting.
Chọn New Rule từ menu xổ xuống.
Chọn Use a formula để xác định ô cần định dạng.
Nhập công thức
=ISERROR(cell)vào trường Format values where this formula is true.Nhấp nút Format… để chọn tùy chọn định dạng mong muốn.
Nhấp OK sau khi chọn xong định dạng.
Nhấp OK lần nữa trong hộp thoại New Formatting Rule để áp dụng quy tắc.
Sử dụng định dạng có điều kiện. Nguồn: Tác giả
Loại bỏ trùng lặp
Mục nhập trùng lặp có thể làm sai lệch phân tích và thông tin chiết xuất, vì vậy loại bỏ chúng giúp đảm bảo độ chính xác của dữ liệu.
Chọn trang tính hoặc phạm vi ô bạn muốn loại bỏ trùng lặp.
Vào thẻ Data trên Ribbon.
Nhấp Remove Duplicates trong nhóm Data Tools.
Trong hộp thoại Remove Duplicates, chỉ định cột cần kiểm tra trùng lặp.
Nhấp OK. Excel sẽ hiển thị thông báo số lượng giá trị trùng đã được loại bỏ.
Loại bỏ các hàng trùng
Các hàng trùng lặp có thể làm rối dữ liệu và ảnh hưởng đến độ tin cậy của phân tích. Đây là cách xử lý.
Chọn phạm vi bạn muốn loại bỏ các hàng trùng lặp.
Vào thẻ Data trên Ribbon và nhấp Advanced trong nhóm Sort & Filter.
Trong hộp thoại Advanced Filter, chọn Copy to another location.
Đặt List range bằng phạm vi đã chọn.
Đặt trường Copy to là ô nơi bạn muốn sao chép các hàng duy nhất.
Chọn Unique Records Only rồi nhấp OK.
Thao tác văn bản trong Excel
Hãy cùng xem các thao tác văn bản như nối chuỗi.
Nối chuỗi
Kết hợp nhiều chuỗi văn bản vào một ô giúp tạo dữ liệu có ý nghĩa và có tổ chức hơn bằng cách gộp thông tin từ nhiều nguồn thành một định dạng mạch lạc.
- Chọn ô nơi bạn muốn hiển thị kết quả nối chuỗi.
- Nhập
=CONCATENATE(). - Chọn các ô cần nối, phân tách bằng dấu phẩy hoặc toán tử &.
- Nhấn Enter để xem kết quả.
Nối các ô. Nguồn: Tác giả
Thay đổi kiểu chữ của văn bản
Kiểu chữ đồng nhất giúp cải thiện khả năng đọc và duy trì tính nhất quán của dữ liệu. Hãy xem cách điều chỉnh.
Tạo một cột mới cho văn bản đã chuyển đổi.
Nhập công thức vào ô:
=UPPER()hoặc=LOWER()hoặc=PROPER()- Nhấn Enter để áp dụng công thức.
Kéo chốt điền để áp dụng công thức cho các ô khác nếu cần.
Thay đổi kiểu chữ văn bản. Nguồn: Tác giả
Loại bỏ ký tự không in khỏi văn bản
Các ký tự không in như tab, xuống dòng và ký tự đặc biệt có thể gây vấn đề vì làm gián đoạn xử lý dữ liệu, khiến khó phân tích hoặc trực quan hóa chính xác.
Xác định các ký tự không in cần loại bỏ.
Chọn ô chứa văn bản có ký tự không in.
Trong một ô mới, dùng hàm:
=CLEAN(text).Để loại bỏ cả khoảng trắng thừa và ký tự không in, dùng:
=TRIM(CLEAN(text)).Sao chép và dán văn bản đã làm sạch để thay thế bản gốc.
Dùng hàm CLEAN trong Excel. Nguồn: Tác giả
Biến đổi dữ liệu trong Excel
Các kỹ thuật biến đổi dữ liệu được dùng để tổ chức và định hình lại dữ liệu nhằm phân tích tốt hơn, bao gồm phân tách văn bản và sử dụng các công cụ như Flash Fill.
Phân tách dữ liệu từ văn bản thành cột
Tách dữ liệu văn bản thành các cột riêng giúp dễ phân tích từng thành phần và đảm bảo mỗi mẩu thông tin được phân loại rõ ràng. Đây là thao tác ngược với nối chuỗi và hữu ích để chia nhỏ dữ liệu phức tạp thành các phần dễ xử lý. Cách thực hiện như sau.
Chọn dữ liệu bạn muốn tách.
Vào thẻ Data và nhấp Text to Columns.
Chọn Delimited hoặc Fixed Width rồi nhấp Next.
Với Delimited, chọn các dấu phân tách mà dữ liệu dùng rồi nhấp Next.
Với Fixed Width, đặt điểm ngắt cột trong cửa sổ Data Preview rồi nhấp Next.
Chọn định dạng dữ liệu cho từng cột.
Nhấp Finish.
Dùng Text to Columns để phân tách dữ liệu. Nguồn: Tác giả
Flash Fill
Flash Fill tự động điền giá trị dựa trên các mẫu nhận diện từ dữ liệu của bạn. Cách sử dụng Flash Fill trong Excel:
Nhập dữ liệu theo một mẫu vào ô cạnh dữ liệu hiện có.
Cung cấp ví dụ khác ở ô kế tiếp để Excel nhận diện mẫu.
Chọn ô chứa ví dụ.
Vào thẻ Data trên Ribbon.
Nhấp Flash Fill trong nhóm Data Tools.
Excel sẽ tự động điền các ô còn lại dựa trên mẫu đã nhận diện.
Gộp và tách cột
Gộp và tách cột giúp sắp xếp dữ liệu theo cách phù hợp nhất với nhu cầu phân tích của bạn. Thực hiện gộp ô theo các bước sau:
- Vào thẻ Home, nhấp menu thả xuống Merge & Center trong nhóm Alignment .
- Chọn tùy chọn gộp bạn muốn.
Thực hiện tách cột theo các bước sau:
- Vào thẻ Data và nhấp Text to Columns trong nhóm Data Tools .
- Chọn delimited hoặc fixed width tùy theo nhu cầu dữ liệu.
- Chọn vị trí đích cho dữ liệu đã tách và nhấp Finish.
Biến đổi và sắp xếp lại cột và hàng
Sắp xếp lại dữ liệu giúp trình bày theo định dạng logic và dễ tiếp cận hơn. Để biến đổi hàng thành hàng và cột thành cột:
Tô sáng dữ liệu bạn muốn biến đổi (bao gồm tiêu đề nếu cần).
Nhấp phải vùng chọn và chọn Copy hoặc nhấn Ctrl+C.
Chọn ô nơi dữ liệu biến đổi sẽ bắt đầu.
Nhấp phải ô đích, chọn Paste Special rồi chọn Transpose.
Bạn cũng có thể dùng Ctrl+Alt+V để mở hộp thoại Paste Special, sau đó tích chọn Transpose và nhấp OK.
Để sắp xếp lại cột/hàng:
Nhấp tiêu đề cột để chọn toàn bộ cột cần di chuyển.
Nhấp phải và chọn Cut hoặc nhấn Ctrl+X.
Chọn cột nơi bạn muốn chuyển cột đã cắt đến, nhấp phải tiêu đề cột và chọn Insert Cut Cells.
Tương tự với hàng, chọn và cắt hàng cần chuyển đến hàng khác rồi dán vào đó.
Chỉnh sửa số và ngày tháng trong Excel
Chỉnh sửa số và ngày tháng bao gồm việc sửa và chuẩn hóa dữ liệu số và ngày tháng để đảm bảo chúng chính xác và được định dạng nhất quán.
Sửa số và ký hiệu số
Định dạng số không đúng có thể gây ra hiểu nhầm, lỗi tính toán, cũng như vấn đề khi sắp xếp và so sánh dữ liệu.
- Chọn các ô chứa số cần sửa.
- Vào thẻ Home, nhấp menu thả xuống Number trong nhóm Number và chọn định dạng số phù hợp (ví dụ: General, Number, Currency).
Sửa ngày và giờ
Định dạng ngày tháng đúng là yếu tố then chốt cho phân tích và báo cáo theo thời gian chính xác.
Tô sáng các ô chứa ngày tháng.
Vào thẻ Home.
Nhấp menu thả xuống Number Format và chọn Short Date hoặc Long Date.
Quản lý dữ liệu nâng cao trong Excel
Quản lý dữ liệu nâng cao bao gồm đối soát và kết hợp các tập dữ liệu để tạo ra một bộ dữ liệu toàn diện và mạch lạc cho phân tích.
Đối soát dữ liệu bảng bằng cách nối hoặc khớp
Nối hoặc khớp dữ liệu từ các bảng khác nhau giúp đảm bảo phân tích toàn diện và mạch lạc.
Dùng VLOOKUP để khớp dữ liệu:
-
Đảm bảo cả hai bảng có thể truy cập trên cùng một trang tính.
-
Chọn ô nơi bạn muốn hiển thị dữ liệu đã khớp.
-
Dùng hàm sau:
=VLOOKUP(lookup_value, table_array, col_index_num, FALSE) -
Kéo chốt điền để sao chép công thức sang các ô khác nếu cần.
Dùng INDEX và MATCH để linh hoạt hơn
-
Chọn ô nơi bạn muốn hiển thị dữ liệu đã khớp.
-
Dùng kết hợp các hàm sau:
=INDEX(array, MATCH(lookup_value, lookup_array, 0)) -
Kéo chốt điền để sao chép công thức sang các ô khác nếu cần.
Kết luận
Có nhiều chức năng làm sạch dữ liệu trong Excel cho phép bạn làm sạch và xác thực dữ liệu theo các tiêu chuẩn đặt ra. Chúng giúp bạn giảm lỗi và nâng cao chất lượng bộ dữ liệu. Để khám phá sâu hơn năng lực của Excel, hãy cân nhắc đăng ký khóa học Introduction to Excel của chúng tôi.
Bên cạnh đó, dù bạn đang lọc bỏ các trường trùng lặp hay chuẩn hóa định dạng của các mục nhập dữ liệu, Excel đều có đầy đủ công cụ để giúp quá trình này dễ dàng hơn. Nếu bạn muốn nâng cao kỹ năng chuẩn bị dữ liệu, khóa học Data Preparation in Excel của chúng tôi cung cấp nội dung toàn diện về chủ đề này.
Để tiếp tục phát triển kỹ năng phân tích, bạn có thể thấy hữu ích khóa học Data Analysis in Excel. Khóa học này đi sâu vào các khía cạnh phân tích dữ liệu sau khi làm sạch. Ngoài ra, nếu bạn quan tâm cách dữ liệu sạch hỗ trợ dự báo tài chính, khóa học Financial Modeling in Excel có thể rất đáng quan tâm.
Nếu bạn muốn mở rộng kỹ năng làm sạch dữ liệu, hãy cân nhắc Power Query, một công cụ linh hoạt và hiệu quả tích hợp trong Excel và Power BI cho phép bạn nhập và biến đổi dữ liệu mượt mà. Cũng nên khám phá Data Cleaning in Python hoặc Cleaning Data in R. Các khóa học này cung cấp những kỹ thuật vững chắc và thực hành tốt nhất để làm sạch dữ liệu bằng các ngôn ngữ lập trình phổ biến.
Tôi là một chiến lược gia nội dung, yêu thích việc đơn giản hóa các chủ đề phức tạp. Tôi đã giúp các công ty như Splunk, Hackernoon và Tiiny Host tạo nội dung hấp dẫn và giàu thông tin cho khán giả của họ.
Câu hỏi thường gặp
Năm bước của quy trình làm sạch dữ liệu là gì?
Năm bước gồm có loại bỏ trùng lặp, xử lý dữ liệu thiếu, sửa lỗi cấu trúc, lọc ngoại lệ và xác thực dữ liệu.
Sự khác nhau giữa làm sạch dữ liệu và biến đổi dữ liệu là gì?
Làm sạch dữ liệu liên quan đến việc xác định và sửa lỗi, sự không chính xác trong bộ dữ liệu để đảm bảo độ tin cậy. Trong biến đổi dữ liệu, bạn chuyển dữ liệu từ định dạng hoặc cấu trúc này sang định dạng khác để phù hợp cho phân tích. Vì vậy, làm sạch dữ liệu đảm bảo bộ dữ liệu chính xác, còn biến đổi dữ liệu chuyển đổi dữ liệu đã làm sạch sang định dạng cần thiết cho phân tích hoặc báo cáo.
