Tracks
Dữ liệu không chính xác có thể làm hỏng ngay cả phân tích tốt nhất, và một trong những nguyên nhân lớn nhất dẫn đến dữ liệu sai là các mục nhập trùng lặp trong bảng tính. Chỉ một bản ghi trùng cũng có thể làm lệch kết quả và dẫn đến kết luận hoàn toàn sai. Để tránh điều này, bạn cần biết cách loại bỏ dữ liệu trùng lặp.
Trong bài viết này, tôi sẽ chia sẻ năm phương pháp tốt nhất để tìm và xóa dữ liệu trùng lặp trong Microsoft Excel. Nếu bạn muốn tô sáng các giá trị trùng mà không xóa chúng, hãy đọc hướng dẫn liên quan của tôi, Cách Tô sáng Dữ liệu Trùng lặp trong Excel. Nếu bạn muốn làm quen với các hàm và tính năng của Excel trước khi tiếp tục, hãy tham gia lộ trình kỹ năng Excel Fundamentals của chúng tôi.
Cách Xóa Dữ liệu Trùng lặp trong Excel
Hãy cùng tìm hiểu năm phương pháp được ưa chuộng nhất để xóa dữ liệu trùng lặp khỏi các bảng trong Excel.
Phương pháp 1: Xóa trùng bằng Định dạng có điều kiện (Conditional Formatting)
Bạn có thể dùng tính năng Conditional Formatting để tô sáng giá trị trùng hoặc giá trị duy nhất, rồi quyết định có xóa hay không. Thực hiện như sau:
- Chọn phạm vi ô bạn muốn kiểm tra. Sau đó, vào Home > Conditional Formatting > Highlight Cells Rules > Duplicate Values.

Chọn tùy chọn Duplicate Values. Ảnh: Tác giả.
- Một hộp thoại xuất hiện. Từ danh sách thả xuống, chọn cách bạn muốn tô sáng các giá trị trùng. Ở đây, tôi chọn Yellow Fill with Dark Yellow Text.

Áp dụng định dạng. Ảnh: Tác giả.
- Nhấp OK và xem các giá trị trùng đã được tô sáng.

Các giá trị trùng đã được tô sáng. Ảnh: Tác giả.
Tuy nhiên, tính năng Conditional Formatting có giới hạn — nó không thể tô sáng giá trị trùng trong vùng Values của báo cáo PivotTable. Trường hợp đó, bạn cần dùng phương pháp khác.
Phương pháp 2: Dùng tính năng Remove Duplicates
Một cách nhanh khác để xóa trùng là dùng tính năng Remove Duplicates —tính năng tích hợp trong Excel giúp làm sạch dữ liệu bằng cách xóa vĩnh viễn các bản ghi trùng. Để dùng phương pháp này:
- Chọn phạm vi ô hoặc bấm vào một ô, Excel sẽ tự động xác định phạm vi dữ liệu.

Xác định phạm vi dữ liệu. Ảnh: Tác giả.
- Tiếp theo, vào tab Data > Data Tools và chọn Remove Duplicates.

Tính năng Remove Duplicates. Ảnh: Tác giả.
- Một hộp thoại sẽ xuất hiện. Ở đây, tôi chọn các cột cần kiểm tra trùng lặp. Nếu dữ liệu có tiêu đề cột, hãy chọn ô My data has headers rồi bấm OK.

Hộp thoại của tính năng Remove Duplicates. Ảnh: Tác giả.
- Excel sẽ hiển thị thông báo cho biết số lượng bản ghi trùng đã xóa và số bản ghi duy nhất còn lại.

Hộp thông báo. Ảnh: Tác giả.
- Giờ bạn sẽ thấy tất cả các hàng trùng đã được xóa.

Đã xóa toàn bộ các hàng trùng. Ảnh: Tác giả.
Phương pháp 3: Xóa giá trị trùng bằng Advanced Filter
Bạn cũng có thể dùng chức năng Advanced Filter trong Excel để trích xuất các giá trị duy nhất bằng cách lọc bỏ bản ghi trùng, vừa giữ nguyên dữ liệu gốc vừa hiển thị mục duy nhất. Cách thực hiện:
- Chọn một phạm vi ô hoặc một ô đơn và Advanced Filter sẽ tự động nhận diện phạm vi. Tiếp theo, vào tab Data > Sort & Filter và nhấp Advanced.

Tùy chọn Advanced. Ảnh: Tác giả.
- Một hộp thoại xuất hiện. Để sao chép các giá trị duy nhất sang vị trí khác, chọn Copy to another location. Trong ô Copy to, chỉ định nơi hiển thị các giá trị duy nhất. Sau đó, chọn ô Unique records only và nhấp OK.

Hộp thoại Advanced Filter. Ảnh: Tác giả.
- Giờ đây, tất cả giá trị duy nhất đã được sao chép vào phạm vi bạn chỉ định.

Lọc các giá trị duy nhất bằng Advanced Filter. Ảnh: Tác giả.
Phương pháp 4: Xóa trùng bằng công thức
Giờ bạn đã biết 3 tính năng tích hợp để xóa trùng, hãy cùng tìm hiểu một số công thức tùy chỉnh để đạt kết quả tương tự. Ví dụ, tôi có bộ dữ liệu với các cột Name, Subject và Grade .

Bộ dữ liệu học sinh. Ảnh: Tác giả.
Để tạo công thức lọc bỏ giá trị trùng:
Trước tiên, tôi ghép tất cả cột (A,B,C) vào một ô. Có hai cách: dùng hàm CONCATENATE() hoặc toán tử &. Chọn cách bạn thích, kết quả như nhau. Để dùng toán tử &, nhập công thức sau:
=A2&B2&C2
Để dùng hàm CONCATENATE(), nhập công thức sau:
=CONCATENATE(A2,B2,C2)

Ghép các cột. Ảnh: Tác giả.
Ở cột tiếp theo, dùng COUNTIF() để đếm số lần mỗi giá trị xuất hiện trong cột D:
=COUNTIF(D2:D18,D2)
Tại đây, số đếm 1 nghĩa là giá trị duy nhất, còn số đếm 2 trở lên cho biết có trùng lặp.

Áp dụng COUNTIF() để đếm số lần xuất hiện. Ảnh: Tác giả.
Tiếp theo, vào tab Data > Sort & Filter > chọn Filter để áp dụng bộ lọc cho cột count.

Áp dụng Filter. Ảnh: Tác giả.
Sau đó, mở menu thả xuống, chọn 1 để giữ lại giá trị duy nhất và loại bỏ trùng lặp, rồi nhấn OK.

Giữ lại giá trị duy nhất. Ảnh: Tác giả.
Giờ bạn có thể thấy tất cả giá trị trùng đã được loại bỏ. Phương pháp này phức tạp hơn nhưng tự động cập nhật khi dữ liệu thay đổi, rất phù hợp nếu bạn cần quản lý trùng lặp liên tục.

Đã xóa giá trị trùng bằng Filter. Ảnh: Tác giả.
Phương pháp 5: Xóa trùng bằng Power Query
Bạn cũng có thể dùng Power Query để làm sạch dữ liệu và xóa trùng lặp. Cách làm như sau:
Chọn một ô hoặc phạm vi ô. Vào tab Data > phần Get & Transform Data và nhấp From Table/Range. Một hộp thoại xuất hiện để tạo bảng cho power query, và phạm vi dữ liệu sẽ được chọn tự động. Sau đó nhấn OK.

Tạo bảng. Ảnh: Tác giả.
Giờ cửa sổ Power Query editor sẽ xuất hiện. Tại đây, chọn tùy chọn Remove Duplicates để chọn cột cụ thể hoặc toàn bộ bảng. Với cả bảng, nhấp nút ở góc trên bên trái. Với cột cụ thể, bấm chuột phải vào tiêu đề tương ứng hoặc giữ CTRL để chọn nhiều cột. Hoàn tất, nhấp Close & Load ở góc trên bên trái để nạp dữ liệu đã làm sạch trở lại Excel.

Xóa dữ liệu trùng. Ảnh: Tác giả.
Bạn sẽ thấy bộ dữ liệu đã chỉnh sửa xuất hiện lại trong Excel. Để hiểu rõ hơn, bạn có thể chọn một cột khác, như Subject, trong ví dụ này, và lặp lại các bước để luyện tập. Cách này sẽ chỉ xóa những hàng có tên học sinh bị trùng lặp.

Dữ liệu đã nạp vào trang tính Excel. Ảnh: Tác giả.
Phương pháp này lý tưởng khi bạn làm việc với bộ dữ liệu lớn hoặc cần tự động hóa quy trình xóa trùng cho các lần làm mới dữ liệu sau này.
Các Phương pháp Xóa Trùng trong Excel: Cách nào Tốt Nhất?
Chúng ta đã xem năm phương pháp khác nhau để xóa dữ liệu trùng trong Excel. Giờ tôi muốn giúp bạn chọn phương pháp phù hợp nhất, nhưng trước hết, hãy nói nhanh về hai loại dữ liệu trùng lặp.
Các loại dữ liệu trùng khác nhau
Đến đây, để rõ ràng, tôi tập trung vào cách xóa giá trị trùng trong một cột, và mọi phương pháp tôi đã trình bày đều phù hợp nếu đó là vấn đề của bạn. Tuy nhiên, cần lưu ý, trong Excel, dữ liệu trùng có hai dạng — giá trị trùng và hàng trùng:
- Giá trị trùng là các mục lặp lại trong một cột. Ví dụ, nếu tôi có một cột tên và Minny xuất hiện nhiều lần, đó là các giá trị trùng.
- Hàng trùng xảy ra khi toàn bộ hàng có dữ liệu giống hệt nhau trên tất cả cột. Ví dụ, bảng của tôi có các cột Name, Age và City. Nếu hai hàng trở lên có các trường giống nhau, đó là hàng trùng.
Bảng tóm tắt
Dưới đây là bảng tóm tắt cho thấy ưu điểm cụ thể của từng phương pháp. Tôi cũng thêm một cột để cho biết liệu phương pháp đó có thể mở rộng để xóa hàng trùng hay không. Nói ngắn gọn, nếu bạn muốn xóa cả hàng trùng, hãy thử Conditional Formatting, Advanced Filter, công thức hoặc Power Query, còn tính năng Remove Duplicates phù hợp với các trường hợp đơn giản.
| Method | Key Advantages | Best for Removing |
|---|---|---|
| Remove Duplicates Feature | Quick and easy for removing duplicates | Duplicate rows |
| Conditional Formatting | Visual identification of duplicates before removal | Duplicate values or duplicate rows |
| Advanced Filter | Preserves original data while filtering unique entries | Duplicate values or duplicate rows |
| Formulas | Dynamic control over duplicate criteria | Duplicate values or duplicate rows |
| Power Query | Automates duplicate removal for future updates | Duplicate values or duplicate rows |
Best Practices for Duplicate Removal
Dưới đây là một vài thực hành tốt tôi khuyên dùng khi bắt đầu bất kỳ dự án làm sạch dữ liệu nào:
- Giữ bản sao lưu: Luôn lưu một bản sao dữ liệu thô chưa chỉnh sửa trước khi dọn dẹp. Bạn có thể dùng phiên bản gốc làm mốc tham chiếu khi cần.
- Định nghĩa dữ liệu trùng của bạn: Xác lập tiêu chí rõ ràng về thế nào là trùng lặp trong ngữ cảnh cụ thể của bạn. Đôi khi không chỉ đơn giản là khớp chính xác trên mọi trường.
- Chuẩn hóa trước: Làm sạch và chuẩn hóa dữ liệu trước khi phát hiện trùng — chuẩn hóa chữ hoa/thường, xóa khoảng trắng thừa, sửa định dạng ngày, xử lý ký tự đặc biệt.
- Bắt đầu đơn giản rồi tinh chỉnh: Hãy bắt đầu với khớp chính xác trước khi chuyển sang khớp phức tạp hơn. Cách tiếp cận này giúp bạn hiểu dần chất lượng dữ liệu.
- Xác minh kết quả: Kiểm tra ngẫu nhiên kết quả khi dùng công cụ tự động để phát hiện lỗi hệ thống.
Khắc phục Sự cố Thường gặp trong Excel
Hãy xem những vấn đề phổ biến nhất bạn có thể gặp khi xóa dữ liệu trùng.
Không xóa được trùng lặp
Đôi khi, chúng ta sao chép dữ liệu từ website hoặc nguồn ngoài — dữ liệu này thường chứa ký tự ẩn hoặc khoảng trắng khiến Excel không nhận diện được các mục trùng. Để khắc phục, bạn có thể dùng các hàm TRIM() và CLEAN(). Hàm TRIM() sẽ xóa khoảng trắng thừa giữa các từ, còn hàm CLEAN() sẽ loại bỏ ký tự không in được.
=CLEAN(TRIM(A1))
Dữ liệu có tổng phụ hoặc đề cương (outline)
Nếu bảng tính của bạn có tổng phụ hoặc outline, chúng có thể gây cản trở quá trình xóa trùng. Excel coi các hàng tóm tắt này là mục riêng biệt, dẫn đến xóa trùng không triệt để. Để tránh điều này, hãy loại bỏ tất cả tổng phụ và outline trước khi xóa trùng.
Bạn có thể làm như sau:
- Xóa outline: Vào tab Data, tìm nhóm Outline và nhấp Clear Outline.
- Xóa tổng phụ: Vào tab Data, nhấp Subtotal, rồi nhấp Remove All.
Sau khi xóa outline và tổng phụ, bạn có thể tiến hành xóa trùng như bình thường.
Phân biệt chữ hoa/thường
Excel coi chữ hoa và chữ thường là các giá trị khác nhau khi kiểm tra trùng lặp. Ví dụ, Product và PRODUCT sẽ được coi là hai mục khác nhau. Để tránh điều này, hãy dùng các hàm UPPER(), LOWER() hoặc PROPER() để chuẩn hóa kiểu chữ trong toàn bộ dữ liệu trước khi xóa trùng.
-
=UPPER()chuyển văn bản thành chữ hoa. -
=LOWER()chuyển văn bản thành chữ thường. -
=PROPER()viết hoa chữ cái đầu mỗi từ.
Lời kết
Việc dọn dẹp dữ liệu trùng trong Excel có thể là tác vụ nhỏ, nhưng tạo ra khác biệt lớn trong công việc của bạn. Tôi đã trình bày năm cách, từ tính năng tích hợp nhanh chóng đến kỹ thuật nâng cao. Bạn nên thử các phương pháp khác nhau cho đến khi tìm ra cách phù hợp mượt mà với quy trình làm việc và giữ cho dữ liệu của bạn chính xác.
Nếu bạn muốn củng cố kỹ năng Excel hơn nữa, hãy xem khóa học Data Analysis in Excel và lộ trình kỹ năng Data Analysis with Excel Power Tools của chúng tôi.
Tôi là một chiến lược gia nội dung, yêu thích việc đơn giản hóa các chủ đề phức tạp. Tôi đã giúp các công ty như Splunk, Hackernoon và Tiiny Host tạo nội dung hấp dẫn và giàu thông tin cho khán giả của họ.
Những Câu Hỏi Thường Gặp về Xóa Trùng trong Excel
Tôi có thể tạo cảnh báo cho các bản ghi trùng trong tương lai trong Excel không?
Dù Excel không có cảnh báo tích hợp sẵn cho dữ liệu trùng, bạn có thể dùng định dạng có điều kiện để tô sáng trùng lặp ngay khi chúng được nhập.
Có công thức Excel nào để xóa dữ liệu trùng không?
Có, bạn có thể dùng hàm UNIQUE() trong Excel 365 hoặc các công thức tương tự để hiển thị giá trị duy nhất theo thời gian thực khi dữ liệu thay đổi.
Làm thế nào để xóa trùng nhưng giữ lại lần xuất hiện đầu tiên trong Excel?
Sắp xếp dữ liệu theo cột ngày chỉnh sửa (giảm dần) trước khi xóa trùng. Bằng cách này, Excel sẽ giữ lại lần xuất hiện đầu tiên (gần đây nhất).
