Tracks
Bài viết này sẽ bàn về một số ý tưởng cho các dự án SQL sẵn sàng đưa vào portfolio. Dù bạn là người mới bắt đầu hay đã có kinh nghiệm với SQL, bạn sẽ tìm thấy nhiều chủ đề thú vị để khám phá.
Chắc chắn những dự án SQL này sẽ mang lại cho bạn ít nhất ba lợi ích:
- Luyện tập các kỹ năng SQL hiện có
- Phát triển kỹ năng mới
- Xây dựng portfolio dữ liệu để trình diễn kỹ năng SQL với các nhà tuyển dụng tiềm năng.
Dự án SQL cho người mới bắt đầu
Nếu bạn đã quen với các khái niệm SQL cơ bản, bạn đã sẵn sàng cho dự án SQL đầu tiên. Hãy đảm bảo bạn có các kỹ năng sau:
- Thực hiện các phép toán
- Tổng hợp và mô tả dữ liệu (giá trị nhỏ nhất, lớn nhất, trung bình, đếm và tổng)
- Lọc dữ liệu theo một hoặc nhiều điều kiện
- Nhóm dữ liệu
- Sắp xếp dữ liệu
- Giới hạn dữ liệu đầu ra
- Join bản ghi đơn giản (inner join)
- Đặt bí danh cho cột hoặc bảng
Để ôn nhanh, hãy xem Cheat Sheet SQL Cơ Bản của chúng tôi.
Lúc mới bắt đầu, việc hoàn thành các dự án thao tác dữ liệu đơn giản, đơn nhiệm là hoàn toàn ổn. Bạn luôn có thể cải thiện và mở rộng những dự án như vậy khi tích lũy thêm kiến thức và kỹ năng SQL.
1. Phân tích lượng phát thải carbon theo ngành
Trong dự án Analyzing Industry Carbon Emissions, bạn sẽ dùng bộ dữ liệu về phát thải carbon của sản phẩm (chiếm hơn 75% tổng phát thải toàn cầu và là vấn đề sinh thái nghiêm trọng) để khám phá dấu chân carbon của các ngành trong năm gần nhất và xác định những ngành phát thải cao nhất.
Dù đây là dự án nhập môn với một nhiệm vụ, bạn có thể cần học qua các bài trong khóa Intermediate SQL: Tóm tắt các tập con và Lọc dữ liệu đã nhóm.
2. Phân tích sức khỏe tinh thần của sinh viên bằng SQL

Trong dự án Analyzing Students' Mental Health in SQL, bạn sẽ dùng kỹ năng PostgreSQL để phân tích dữ liệu sinh viên từ một trường đại học quốc tế ở Nhật Bản và xác định một trong những yếu tố ảnh hưởng lớn nhất đến sức khỏe tinh thần của sinh viên quốc tế.
Khảo sát do trường thực hiện cho thấy thách thức chính của sinh viên quốc tế là sự gắn kết xã hội và căng thẳng khi hòa nhập văn hóa mới. Nhiệm vụ cụ thể của bạn trong dự án SQL cho người mới bắt đầu này là tập trung vào một yếu tố góp phần cụ thể — thời gian lưu trú và tác động của nó đến điểm chẩn đoán trung bình của sinh viên quốc tế.
3. Thời kỳ hoàng kim của trò chơi điện tử là khi nào?
Trong dự án SQL When Was the Golden Age of Video Games?, bạn sẽ phân tích 400 trò chơi điện tử bán chạy nhất phát hành từ năm 1977 để xác định liệu thị trường game có cải thiện theo thời gian hay không và giai đoạn hưng thịnh nhất là khi nào. Bạn sẽ làm việc với năm phát hành, điểm của nhà phê bình và người dùng, cùng dữ liệu doanh số. Bạn sẽ tìm kiếm các insight sau:
- Top 10 trò chơi điện tử bán chạy nhất mọi thời đại và giai đoạn phát hành
- Top 10 năm có điểm trung bình của nhà phê bình cao nhất và nhiều hit được sản xuất
- Top 10 năm có điểm trung bình của người dùng cao nhất và nhiều hit được sản xuất
- Những năm có điểm trung bình cao nhất từ cả giới phê bình và người chơi, đồng thời có nhiều hit
- Số lượng game bán ra trong những năm đó
Để thực hiện các nhiệm vụ trên cho dự án SQL này, bạn sẽ cần dùng nhiều loại join và toán tử tập hợp, vì vậy hãy ôn lại với Cheat Sheet về Join trong SQL.
4. Phân tích xu hướng tên em bé ở Mỹ
Trong dự án Analyzing American Baby Name Trends, bạn sẽ nghiên cứu dữ liệu do Cơ quan An sinh Xã hội Hoa Kỳ cung cấp, gồm các tên gọi được đặt cho hơn 5.000 em bé Mỹ mỗi năm trong suốt 101 năm. Mục tiêu chính là hiểu cách gu đặt tên ở Mỹ thay đổi thông qua việc khảo sát xu hướng phổ biến. Cụ thể, bạn sẽ khám phá:
- Các tên Mỹ cổ điển suốt hơn 100 năm
- Loại mức độ phổ biến của mỗi tên: bền vững hay chạy theo xu hướng
- Top 10 tên nữ
- Tên nữ phổ biến nhất kết thúc bằng "a" từ năm 2015
- Tên nam phổ biến nhất theo từng năm
- Tên nam phổ biến nhất trong số lượng năm lớn nhất
Với dự án nâng cao này, bạn có thể thấy hữu ích khóa Data Manipulation in SQL.
Dự án SQL trung cấp
Xây dựng các dự án SQL ngắn, đơn nhiệm là một khởi đầu tốt, nhưng đến một thời điểm trong hành trình học, bạn sẽ muốn tạo ra thứ gì đó thú vị hơn và khám phá dữ liệu từ nhiều góc độ. Tin tốt là đối với các dự án đa nhiệm như vậy, những kỹ năng SQL thiết yếu đã nêu ở phần trước vẫn là đủ.
5. Doanh nghiệp lâu đời nhất thế giới là gì và ở đâu?
Trong dự án SQL What and Where are the World's Oldest Businesses, bạn sẽ xem xét dữ liệu từ BusinessFinancing.co.uk để khám phá các doanh nghiệp lâu đời nhất thế giới — những doanh nghiệp tồn tại qua hàng trăm năm biến động thị trường và vẫn đang hoạt động. Bạn sẽ thu được nhiều phát hiện thú vị:
- Khoảng năm thành lập của các công ty lâu đời nhất thế giới
- Công ty lâu đời nhất thế giới và ngành của nó
- Có bao nhiêu công ty — và những công ty nào — được thành lập trước năm 1000 sau Công nguyên
- Những ngành phổ biến nhất mà các công ty lâu đời thuộc về
- Các công ty lâu đời nhất theo châu lục
- Những ngành phổ biến nhất của các công ty lâu đời ở mỗi châu lục
Vì dữ liệu cho dự án SQL trung cấp này nằm ở nhiều bảng khác nhau, trong nhiều tác vụ bạn sẽ cần dùng kỹ thuật join để hợp nhất dữ liệu cần thiết. Bạn có thể tham khảo khóa Joining Data with SQL để học cách thực hiện.
6. Phân tích điểm thi của các trường công NYC

Trong dự án Analyzing NYC Public School Test Result Scores, bạn sẽ làm việc với cơ sở dữ liệu SQL chứa điểm SAT (Scholastic Aptitude Test) của các trường công New York để xác định kết quả thi trên toàn hệ thống trường. Bạn sẽ xem xét các khía cạnh sau:
- Có bao nhiêu trường không báo cáo thông tin
- Những trường nào (hoặc bao nhiêu trường) tốt nhất/tệ nhất ở từng thành phần của SAT — đọc, toán và viết
- Điểm tốt nhất/tệ nhất cho các thành phần SAT khác nhau
- Top 10 trường theo điểm SAT tổng trung bình
- Kết quả thi thay đổi theo quận như thế nào
- Top 5 trường theo điểm SAT trung bình trên cả ba thành phần (hoặc cho một thành phần nhất định) đối với một quận được chọn
Bất cứ khi nào băn khoăn về lệnh cần dùng (và cách dùng) trong từng trường hợp cho dự án SQL trung cấp này, hãy tham khảo hướng dẫn toàn diện — SQL Commands for Data Scientists.
7. Phân tích và định dạng dữ liệu bán hàng PostgreSQL
Trong dự án Analyzing and Formatting PostgreSQL Sales Data, bạn sẽ gặp một tình huống rất thường thấy trong môi trường chuyên nghiệp: dữ liệu chưa sẵn sàng để phân tích. Bạn sẽ làm việc với cơ sở dữ liệu "superstore" nơi bản ghi có định dạng không nhất quán, kiểu dữ liệu sai và giá trị thiếu, đe dọa độ chính xác của báo cáo.
Mục tiêu của bạn là làm sạch bộ dữ liệu bằng các kỹ thuật PostgreSQL để trả lời các câu hỏi kinh doanh bán lẻ hằng ngày. Cụ thể, bạn sẽ:
- Xác định các cột có kiểu dữ liệu không đúng (ví dụ: số được lưu dưới dạng văn bản) và chuyển đổi để tính toán.
- Phát hiện bản ghi chưa hoàn chỉnh và áp dụng chiến lược bù đắp giá trị thiếu cho số lượng sản phẩm.
- Lọc và tổng hợp dữ liệu đã sạch để xác định các sản phẩm hiệu suất cao.
- Phân tích xu hướng doanh thu từng bị che khuất bởi lỗi dữ liệu.
Vì dự án này bắc cầu giữa dữ liệu thô và insight có thể hành động, đây là cách tuyệt vời để thực hành các kỹ năng Làm sạch dữ liệu trong SQL mà nhà tuyển dụng ưu tiên.
Dự án SQL nâng cao
Để tiếp tục với các dự án SQL nâng cao giúp bạn nổi bật, ngoài các kỹ năng thiết yếu ở phần đầu, bạn cần thoải mái với các kỹ thuật nâng cao hơn. Hãy kiểm tra xem bạn đã biết cách làm các việc sau trong SQL chưa:
- Sử dụng mọi loại join (bao gồm self join)
- Khớp và trích xuất mẫu
- Xử lý logic if/then/else trong SQL
- Tạo view
- Tạo truy vấn lồng nhau phức tạp
- Sử dụng biểu thức bảng chung (CTE)
- Áp dụng window function của SQL
- Cắt bớt dữ liệu (truncating)
- Gán nhãn dữ liệu
- Áp dụng toán tử tập hợp
- Làm việc với ngày và thời gian
8. Phân tích doanh số phụ tùng xe máy
Trong dự án SQL Analyzing Motorcycle Part Sales, bạn sẽ đào sâu vào dữ liệu của một công ty bán phụ tùng xe máy để có insight về doanh số bán sỉ theo thời gian tại ba kho hàng và giúp họ hiểu dòng doanh thu. Cụ thể hơn, bạn sẽ xác định doanh thu ròng mà công ty tạo ra theo từng dòng sản phẩm theo tháng và theo kho.
Với dự án này, ngoài kỹ năng SQL, bạn cũng cần kỹ năng lập báo cáo vững. Khóa Data-Driven Decision Making in SQL có thể giúp bạn nâng cao mảng này.
9. Phân tích các công ty kỳ lân

Trong dự án Analyzing Unicorn Companies, nhiệm vụ của bạn là xác định có bao nhiêu công ty đạt mức định giá trên 1 tỷ đô la trong các ngành khác nhau trong một khoảng thời gian cho trước.
Cụ thể, bạn sẽ cần xác định ba ngành hoạt động tốt nhất dựa trên số công ty tăng trưởng cao mới được tạo ra trong giai đoạn đó, tìm số công ty kỳ lân xuất hiện trong các ngành này theo năm, năm mỗi công ty trở thành kỳ lân và định giá trung bình của họ tính bằng tỷ đô la. Và tất cả thông tin này bạn có thể lấy chỉ trong một truy vấn!
Cho dự án này, bạn sẽ dùng cơ sở dữ liệu PostgreSQL chứa nhiều bảng. Để ôn lại một số kỹ năng chính, bạn có thể xem các khóa: Functions for Manipulating Data in PostgreSQL và Cleaning Data in PostgreSQL Databases.
10. Đánh giá một quy trình sản xuất
Trong dự án Evaluate a Manufacturing Process, bạn sẽ vào vai Chuyên viên Phân tích Dữ liệu Sản xuất. Dù tính nhất quán là then chốt trong sản xuất, các vận hành viên thường điều chỉnh máy móc để cải thiện hiệu suất. Nhiệm vụ của bạn là phân tích dữ liệu để xác định liệu thay đổi gần đây trong quy trình có cải thiện chất lượng hay thậm chí làm xấu đi.
Dự án này vượt ra ngoài các câu lệnh "group by" đơn giản và yêu cầu bạn xem xu hướng dữ liệu theo thời gian. Bạn sẽ hé lộ các insight quan trọng như:
- Các chỉ số chất lượng dao động thế nào giữa các lô sản xuất khác nhau.
- Liệu những điều chỉnh máy móc cụ thể có tương quan với việc tăng sản phẩm lỗi hay không.
- Trung bình trượt của kích thước sản phẩm bằng các window function nâng cao.
- Độ lệch chuẩn và phương sai trong quy trình sản xuất để phát hiện bất ổn.
Để hoàn thành tốt dự án này, bạn cần thành thạo Window Functions, Partitioning và tạo thống kê tóm tắt. Đây là các khái niệm nâng cao thường được kiểm tra trong phỏng vấn kỹ thuật cho vị trí trung cấp đến cao cấp.
Ý tưởng dự án SQL bổ sung
Nếu bạn vẫn đang tìm thêm ý tưởng dự án SQL, hãy cân nhắc một số gợi ý dưới đây. Tôi cho rằng tất cả những ý tưởng này đều có thể thực hiện được bằng SQL trên thực tế, nhưng mức độ khả thi sẽ phụ thuộc vào bộ dữ liệu sẵn có.
- Phân tích duy trì khách hàng: Phân tích tỷ lệ duy trì và xác định các yếu tố chính ảnh hưởng đến lòng trung thành bằng cách khám phá lịch sử giao dịch.
- Dự đoán nghỉ việc của nhân viên: Xây dựng dự án phân tích dữ liệu nhân sự để tìm mẫu và dự đoán nghỉ việc. Bạn có thể cân nhắc các yếu tố như mức độ hài lòng công việc và thời gian gắn bó với công ty.
- Tối ưu tồn kho thương mại điện tử: Dùng dữ liệu bán hàng lịch sử để giúp tối ưu mức tồn kho bằng cách dự báo nhu cầu.
- Phân tích cảm xúc mạng xã hội: Thực hiện phân tích cảm xúc trên bài đăng hoặc đánh giá để nhận diện xu hướng dư luận cho một thương hiệu hay chủ đề cụ thể.
- Phân tích thị trường bất động sản: Phân tích dữ liệu bất động sản để xác định khu vực hoạt động tốt nhất dựa trên xu hướng giá trị tài sản và tỷ lệ thuê.
- Phân tích xếp hạng phim: Khám phá dữ liệu từ cơ sở dữ liệu phim để tìm xu hướng về điểm số và thể loại theo thời gian, nhận diện mẫu trong thị hiếu khán giả.
- Phân tích tác động khuyến mãi bán lẻ: Xem xét cách các chương trình khuyến mãi hoặc giảm giá cụ thể ảnh hưởng đến khối lượng bán hàng.
- Phân tích tỷ lệ tái nhập viện: Phân tích dữ liệu y tế để nhận diện xu hướng tỷ lệ tái nhập viện của bệnh nhân.
- Xu hướng sử dụng giao thông công cộng: Khảo sát mẫu sử dụng giao thông công cộng để xác định giờ cao điểm và tuyến ít được sử dụng.
- Phát hiện gian lận tài chính: Phát triển dự án xác định giao dịch tài chính có khả năng gian lận dựa trên các yếu tố như số tiền và tần suất giao dịch.
Tổng kết
Trong bài viết này, chúng tôi đã phác thảo nhiều ý tưởng dự án SQL cho mọi cấp độ thành thạo SQL. Bên cạnh đó, chúng tôi điểm qua các kỹ năng bạn cần cho mỗi dự án và tài nguyên học tập để tiếp thu và mài giũa chúng.
Giờ đây bạn đã sẵn sàng bắt tay xây dựng các dự án SQL này và phát triển portfolio chuyên nghiệp của mình. Không bao giờ là quá sớm hay quá muộn để bắt đầu rèn luyện và phô diễn kỹ năng!
Khi đã có portfolio dự án SQL, bạn cũng nên ôn lại các câu hỏi phỏng vấn SQL hàng đầu để gây ấn tượng với nhà tuyển dụng ở vòng phỏng vấn.

Nhà khoa học dữ liệu được chứng nhận bởi IBM (2020), trước đây là Nhà địa chất/Người xây dựng mô hình địa chất cho các mỏ dầu khí trên toàn thế giới với hơn 12 năm kinh nghiệm làm việc quốc tế. Thành thạo Python, R và SQL. Lĩnh vực chuyên môn: làm sạch dữ liệu, xử lý dữ liệu, trực quan hóa dữ liệu, phân tích dữ liệu, mô hình hóa dữ liệu, thống kê, kể chuyện bằng dữ liệu, học máy. Có nhiều kinh nghiệm trong quản lý cộng đồng khoa học dữ liệu và viết/biên tập bài viết, hướng dẫn về khoa học dữ liệu và định hướng nghề nghiệp.