39 Câu Hỏi Phỏng Vấn Kỹ Sư Dữ Liệu Hàng Đầu Năm 2026 (Kèm Đáp Án)

Chinh phục buổi phỏng vấn tiếp theo với bộ câu hỏi và đáp án cho kỹ sư dữ liệu này, giúp bạn chuẩn bị cho các giai đoạn khác nhau, từ sàng lọc HR đến đánh giá kỹ thuật chuyên sâu, bao gồm cả câu hỏi Python và SQL.

Đã cập nhật 16 thg 4, 2026 · 15 phút đọc

Khám phá với AI

Mở trong ChatGPT Mở trong Claude Mở trong Perplexity

Kỹ sư dữ liệu đã trở thành một trong những vai trò quan trọng nhất trong ngành công nghệ, vận hành xương sống hạ tầng dữ liệu cho các công ty trên toàn thế giới. Khi các doanh nghiệp ngày càng dựa vào việc ra quyết định dựa trên dữ liệu, nhu cầu về các kỹ sư dữ liệu có tay nghề tiếp tục tăng.

Nếu bạn đang chuẩn bị cho một buổi phỏng vấn kỹ sư dữ liệu, bạn nên thành thạo các câu hỏi tổng quát và kỹ thuật nhằm đánh giá kinh nghiệm, khả năng giải quyết vấn đề và kỹ năng kỹ thuật của bạn.

Trong bài viết này, chúng tôi cung cấp hướng dẫn toàn diện giúp bạn chuẩn bị cho các giai đoạn khác nhau của phỏng vấn kỹ sư dữ liệu, từ vòng sàng lọc HR ban đầu đến các bài đánh giá kỹ thuật chuyên sâu.

Câu Hỏi Phỏng Vấn HR Ban Đầu Cho Kỹ Sư Dữ Liệu

Ở vòng phỏng vấn HR ban đầu, người quản lý nhân sự sẽ hỏi về kinh nghiệm làm việc và giá trị bạn mang lại cho công ty. Giai đoạn này nhằm đánh giá nền tảng, kỹ năng giao tiếp và mức độ phù hợp tổng thể với văn hóa công ty.

1. Điều gì khiến bạn là ứng viên phù hợp nhất cho vị trí này?

Nếu nhà tuyển dụng chọn bạn để phỏng vấn qua điện thoại, hẳn họ đã thấy điều gì đó nổi bật trong hồ sơ của bạn. Hãy tự tin và nói về kinh nghiệm cũng như quá trình phát triển sự nghiệp của bạn.

Điều quan trọng là xem trước hồ sơ công ty và mô tả công việc trước buổi phỏng vấn. Làm như vậy sẽ giúp bạn hiểu nhà tuyển dụng đang tìm kiếm điều gì và điều chỉnh câu trả lời cho phù hợp.

Tập trung vào các kỹ năng và kinh nghiệm cụ thể phù hợp với yêu cầu công việc, như thiết kế và quản lý pipeline dữ liệu, mô hình hóa, và quy trình ETL. Nêu bật cách kết hợp độc đáo giữa kỹ năng, kinh nghiệm và kiến thức giúp bạn khác biệt.

2. Trách nhiệm hằng ngày của một kỹ sư dữ liệu là gì?

Không có câu trả lời tuyệt đối, nhưng chia sẻ trải nghiệm từ các công việc trước đây và tham chiếu mô tả công việc có thể tạo nên câu trả lời toàn diện. Nhìn chung, trách nhiệm hằng ngày của kỹ sư dữ liệu bao gồm:

Phát triển, kiểm thử và duy trì cơ sở dữ liệu.
Tạo giải pháp dữ liệu dựa trên yêu cầu kinh doanh.
Thu thập và tích hợp dữ liệu.
Phát triển, kiểm định và duy trì pipeline dữ liệu cho ETL, mô hình hóa, chuyển đổi và phục vụ.
Triển khai và quản lý mô hình học máy trong một số trường hợp.
Duy trì chất lượng dữ liệu bằng cách làm sạch, kiểm định và giám sát luồng dữ liệu.
Cải thiện độ tin cậy, hiệu năng và chất lượng hệ thống.
Tuân thủ quản trị dữ liệu và hướng dẫn bảo mật để đảm bảo tuân thủ và toàn vẹn dữ liệu.

3. Điều khó khăn nhất bạn gặp phải khi làm kỹ sư dữ liệu là gì?

Câu trả lời sẽ khác nhau theo trải nghiệm cá nhân, nhưng các thách thức phổ biến gồm:

Bắt kịp tốc độ phát triển công nghệ nhanh và tích hợp công cụ mới để nâng cao hiệu năng, bảo mật, độ tin cậy và ROI của hệ thống dữ liệu.
Hiểu và triển khai các giao thức quản trị dữ liệu và bảo mật phức tạp.
Quản lý kế hoạch khôi phục thảm họa và đảm bảo khả dụng, toàn vẹn dữ liệu trong các sự cố bất ngờ.
Cân bằng yêu cầu kinh doanh với ràng buộc kỹ thuật và dự đoán nhu cầu dữ liệu tương lai.
Xử lý khối lượng dữ liệu lớn hiệu quả, đảm bảo chất lượng và tính nhất quán.

4. Bạn có kinh nghiệm với các công cụ hay framework dữ liệu nào? Có công cụ nào bạn ưa thích hơn không?

Câu trả lời dựa trên trải nghiệm của bạn. Hiểu biết về các công cụ hiện đại và tích hợp bên thứ ba sẽ giúp bạn tự tin. Hãy thảo luận các công cụ liên quan đến:

Quản trị cơ sở dữ liệu (ví dụ: MySQL, PostgreSQL, MongoDB)
Kho dữ liệu (ví dụ: Amazon Redshift, Google BigQuery, Snowflake)
Điều phối dữ liệu (ví dụ: Apache Airflow, Prefect)
Pipeline dữ liệu (ví dụ: Apache Kafka, Apache NiFi)
Quản lý đám mây (ví dụ: AWS, Google Cloud Platform, Microsoft Azure)
Làm sạch, mô hình hóa và chuyển đổi dữ liệu (ví dụ: pandas, dbt, Spark)
Xử lý theo lô và thời gian thực (ví dụ: Apache Spark, Apache Flink)

Hãy nhớ không có câu trả lời đúng tuyệt đối cho câu hỏi này. Nhà phỏng vấn đang đánh giá kỹ năng và kinh nghiệm của bạn.

5. Bạn cập nhật các xu hướng và tiến bộ mới nhất trong kỹ sư dữ liệu như thế nào?

Câu hỏi này đánh giá cam kết học hỏi liên tục và theo kịp lĩnh vực của bạn.

Bạn có thể đề cập đến đăng ký bản tin ngành, theo dõi blog ảnh hưởng, tham gia diễn đàn và cộng đồng trực tuyến, dự hội thảo/webinar và hội nghị, cũng như học các khóa học trực tuyến. Nêu rõ nguồn hay nền tảng cụ thể bạn sử dụng để cập nhật.

6. Bạn có thể mô tả một lần bạn phải hợp tác với đội ngũ đa chức năng để hoàn thành dự án không?

Kỹ sư dữ liệu thường làm việc với nhiều đội, bao gồm nhà khoa học dữ liệu, nhà phân tích và nhân sự IT.

Chia sẻ ví dụ cụ thể nơi bạn đã hợp tác thành công, nhấn mạnh kỹ năng giao tiếp, khả năng thấu hiểu các góc nhìn khác nhau và cách bạn đóng góp vào thành công của dự án. Giải thích các thách thức gặp phải và cách bạn vượt qua để đạt kết quả mong muốn.

Câu Hỏi Phỏng Vấn Kỹ Thuật Cho Kỹ Sư Dữ Liệu

Kỹ sư dữ liệu mang tính kỹ thuật cao, nên không ngạc nhiên khi phần lớn quy trình phỏng vấn sẽ là câu hỏi và bài tập kỹ thuật. Phần này sẽ bao quát các loại câu hỏi và đáp án kỹ thuật khác nhau, tập trung vào cấp độ sơ cấp, Python, SQL, dự án và quản lý.

Câu hỏi phỏng vấn kỹ sư dữ liệu junior

Phỏng vấn kỹ sư junior tập trung vào công cụ, Python và truy vấn SQL. Chúng cũng có thể bao gồm câu hỏi về quản trị cơ sở dữ liệu và quy trình ETL, bao gồm thử thách code và bài kiểm tra làm tại nhà.

Khi tuyển dụng sinh viên mới tốt nghiệp, các công ty muốn đảm bảo bạn có thể xử lý dữ liệu và hệ thống của họ hiệu quả.

7. Bạn có thể giải thích các schema thiết kế liên quan đến mô hình hóa dữ liệu không?

Có ba schema thiết kế mô hình hóa dữ liệu chính: sao (star), bông tuyết (snowflake) và dải ngân hà (galaxy).

Star schema: Schema này chứa nhiều bảng chiều (dimension) kết nối với một bảng sự kiện trung tâm (fact). Nó đơn giản, dễ hiểu, phù hợp cho truy vấn trực quan.

Ví dụ star schema. Ảnh từ guru99

Snowflake schema: Mở rộng của star schema, snowflake gồm một bảng fact và nhiều bảng dimension với các lớp chuẩn hóa bổ sung, tạo cấu trúc giống bông tuyết. Nó giảm dư thừa và cải thiện toàn vẹn dữ liệu.

Ví dụ snowflake schema. Ảnh từ guru99

Galaxy schema: Còn gọi là fact constellation, chứa hai hoặc nhiều bảng fact dùng chung các bảng dimension. Phù hợp với hệ thống cơ sở dữ liệu phức tạp cần nhiều bảng fact.

Ví dụ galaxy schema. Ảnh từ guru99

8. Bạn đã làm việc với những công cụ ETL nào? Bạn thích công cụ nào nhất và vì sao?

Khi trả lời, hãy nêu các công cụ ETL bạn đã thành thạo và giải thích vì sao bạn chọn công cụ cụ thể cho từng dự án. Thảo luận ưu nhược điểm của mỗi công cụ và cách chúng phù hợp với quy trình làm việc của bạn. Các công cụ mã nguồn mở phổ biến gồm:

dbt (data build tool): Tuyệt vời để chuyển đổi dữ liệu trong kho dữ liệu bằng SQL.
Apache Spark: Xuất sắc cho xử lý dữ liệu quy mô lớn và xử lý theo lô.
Apache Kafka: Dùng cho pipeline dữ liệu thời gian thực và streaming.
Airbyte: Công cụ tích hợp dữ liệu mã nguồn mở hỗ trợ trích xuất và nạp dữ liệu.

Nếu cần ôn lại kiến thức ETL, hãy cân nhắc khóa Introduction to Data Engineering.

9. Điều phối dữ liệu (data orchestration) là gì và bạn dùng công cụ nào để thực hiện?

Điều phối dữ liệu là quy trình tự động để truy cập dữ liệu thô từ nhiều nguồn, thực hiện làm sạch, chuyển đổi và mô hình hóa, rồi phục vụ cho các tác vụ phân tích. Nó đảm bảo dữ liệu chảy trơn tru giữa các hệ thống và giai đoạn xử lý.

Các công cụ điều phối dữ liệu phổ biến gồm:

Apache Airflow: Rất được dùng để lập lịch và giám sát workflow.
Prefect: Công cụ điều phối hiện đại tập trung vào luồng dữ liệu.
Dagster: Công cụ điều phối thiết kế cho tải công việc đậm đặc dữ liệu.
AWS Glue: Dịch vụ ETL quản lý giúp đơn giản hóa chuẩn bị dữ liệu cho phân tích.

10. Bạn dùng công cụ nào cho analytics engineering?

Analytics engineering liên quan đến chuyển đổi dữ liệu đã xử lý, áp dụng mô hình thống kê và trực quan hóa qua báo cáo, dashboard.

Các công cụ phổ biến gồm:

dbt (data build tool): Dùng để chuyển đổi dữ liệu trong kho bằng SQL.
BigQuery: Kho dữ liệu serverless được quản lý toàn diện cho phân tích quy mô lớn.
Postgres: Hệ quản trị cơ sở dữ liệu quan hệ mã nguồn mở mạnh mẽ.
Metabase: Công cụ mã nguồn mở giúp đặt câu hỏi về dữ liệu và hiển thị câu trả lời ở định dạng dễ hiểu.
Google Data Studio: Dùng để tạo dashboard và báo cáo trực quan.
Tableau: Nền tảng hàng đầu cho trực quan hóa dữ liệu.

Những công cụ này giúp truy cập, chuyển đổi và trực quan hóa dữ liệu để rút ra insight hữu ích và hỗ trợ ra quyết định.

11. Sự khác nhau giữa hệ thống OLAP và OLTP là gì?

OLAP (Online Analytical Processing) phân tích dữ liệu lịch sử và hỗ trợ truy vấn phức tạp. Tối ưu cho tải công việc đọc nặng và thường dùng trong kho dữ liệu cho tác vụ business intelligence. OLTP (Online Transaction Processing) được thiết kế để quản lý dữ liệu giao dịch thời gian thực. Tối ưu cho tải công việc ghi nặng và dùng trong cơ sở dữ liệu vận hành cho hoạt động hằng ngày.

Khác biệt chính nằm ở mục đích: OLAP hỗ trợ ra quyết định, còn OLTP hỗ trợ vận hành hằng ngày.

Nếu bạn vẫn còn băn khoăn, hãy đọc bài viết OLTP vs OLAP.

Câu hỏi phỏng vấn Python cho kỹ sư dữ liệu

Python là ngôn ngữ phổ biến nhất trong kỹ sư dữ liệu nhờ tính linh hoạt và hệ sinh thái thư viện phong phú cho xử lý dữ liệu, phân tích và tự động hóa. Dưới đây là một số câu hỏi liên quan đến Python bạn có thể gặp.

12. Thư viện Python nào hiệu quả nhất cho xử lý dữ liệu?

Các thư viện xử lý dữ liệu phổ biến trong Python gồm:

pandas: Lý tưởng để thao tác và phân tích dữ liệu, cung cấp cấu trúc như DataFrame.
NumPy: Thiết yếu cho tính toán số, hỗ trợ mảng và ma trận đa chiều lớn.
Dask: Hỗ trợ tính toán song song và xử lý dữ liệu lớn hơn bộ nhớ với cú pháp giống pandas.
PySpark: API Python cho Apache Spark, hữu ích cho xử lý dữ liệu quy mô lớn và phân tích thời gian thực.

Mỗi thư viện có ưu nhược điểm riêng; lựa chọn phụ thuộc vào yêu cầu và quy mô bài toán xử lý dữ liệu.

13. Bạn thực hiện web scraping trong Python như thế nào?

Web scraping trong Python thường gồm các bước sau:

1. Truy cập trang web bằng thư viện requests:

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

2. Trích xuất bảng và thông tin bằng BeautifulSoup:

tables = soup.find_all('table')

3. Chuyển thành định dạng có cấu trúc bằng pandas:

import pandas as pd
data = []

for table in tables:
    rows = table.find_all('tr')
    for row in rows:
        cols = row.find_all('td')
        cols = [ele.text.strip() for ele in cols]
        data.append(cols)
df = pd.DataFrame(data)

4. Làm sạch dữ liệu bằng pandas và NumPy:

df.dropna(inplace=True)  # Drop missing values

5. Lưu dữ liệu dạng tệp CSV:

df.to_csv('scraped_data.csv', index=False)

Trong một số trường hợp, pandas.read_html có thể đơn giản hóa quy trình:

df_list = pd.read_html('http://example.com')
df = df_list[0]  # Assuming the table of interest is the first one

14. Bạn xử lý tập dữ liệu lớn không vừa bộ nhớ trong Python như thế nào?

Xử lý tập dữ liệu không vừa bộ nhớ cần dùng công cụ và kỹ thuật tính toán ngoài lõi (out-of-core):

Dask: Cho phép tính toán song song và làm việc với dữ liệu lớn hơn bộ nhớ với cú pháp giống pandas.

import dask.dataframe as dd
df = dd.read_csv('large_dataset.csv')

PySpark: Cho phép xử lý dữ liệu phân tán, hữu ích cho dữ liệu quy mô lớn.

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('data_processing').getOrCreate()
df = spark.read.csv('large_dataset.csv', header=True, inferSchema=True)

Đọc theo lô nhỏ với pandas: Đọc dữ liệu lớn theo từng phần.

import pandas as pd
chunk_size = 10000
for chunk in pd.read_csv('large_dataset.csv', chunksize=chunk_size):
    process(chunk)  # Replace with your processing function

15. Bạn đảm bảo mã Python hiệu quả và tối ưu hiệu năng như thế nào?

Để đảm bảo mã Python hiệu quả và tối ưu, hãy cân nhắc:

Profiling: Dùng công cụ như cProfile, line_profiler hoặc memory_profiler để xác định nút thắt.

import cProfile
cProfile.run('your_function()')

Vector hóa: Dùng numpy hoặc pandas cho thao tác vector thay vì vòng lặp.

import numpy as np
data = np.array([1, 2, 3, 4, 5])
result = data * 2  # Vectorized operation

Cấu trúc dữ liệu hiệu quả: Chọn cấu trúc phù hợp (ví dụ: list, set, dict) theo bài toán.

data_dict = {'key1': 'value1', 'key2': 'value2'}  # Faster lookups compared to lists

Xử lý song song: Tận dụng multi-threading hoặc multi-processing cho tác vụ có thể song song hóa.

from multiprocessing import Pool

def process_data(data_chunk):
    # Your processing logic here
    return processed_chunk
with Pool(processes=4) as pool:
    results = pool.map(process_data, data_chunks)

Tránh tính toán lặp lại: Cache kết quả các phép tính tốn kém nếu cần dùng lại.

from functools import lru_cache
  
@lru_cache(maxsize=None)
def expensive_computation(x):
    # Perform expensive computation
    return result

16. Bạn đảm bảo toàn vẹn và chất lượng dữ liệu trong pipeline như thế nào?

Toàn vẹn và chất lượng dữ liệu rất quan trọng cho kỹ sư dữ liệu. Thực tiễn tốt gồm:

Kiểm định dữ liệu: Triển khai kiểm tra ở nhiều giai đoạn pipeline để xác thực định dạng, miền giá trị và tính nhất quán.

 def validate_data(df):
     assert df['age'].min() >= 0, "Age cannot be negative"
     assert df['salary'].dtype == 'float64', "Salary should be a float"

     # Additional checks...

Làm sạch dữ liệu: Dùng pandas để tiền xử lý bằng cách xử lý giá trị khuyết, loại trùng lặp và sửa lỗi.

 df.dropna(inplace=True)  # Drop missing values
 df.drop_duplicates(inplace=True)  # Remove duplicates

Kiểm thử tự động: Phát triển unit test cho hàm xử lý dữ liệu bằng pytest.

import pytest
  
def test_clean_data():
    raw_data = pd.DataFrame({'age': [25, -3], 'salary': ['50k', '60k']})
    clean_data = clean_data_function(raw_data)
    assert clean_data['age'].min() >= 0
    assert clean_data['salary'].dtype == 'float64'

Giám sát và cảnh báo: Thiết lập giám sát pipeline để phát hiện bất thường và gửi cảnh báo khi có vấn đề chất lượng dữ liệu.

 from airflow import DAG
 from airflow.operators.dummy_operator import DummyOperator
 from airflow.operators.email_operator import EmailOperator

 # Define your DAG and tasks...

17. Bạn xử lý dữ liệu khuyết trong tập dữ liệu như thế nào?

Xử lý dữ liệu khuyết là tác vụ phổ biến. Các cách tiếp cận gồm:

Loại bỏ: Đơn giản loại các hàng hoặc cột có dữ liệu khuyết nếu không quan trọng.

 df.dropna(inplace=True)

Bù khuyết: Điền giá trị khuyết bằng thống kê (trung bình, trung vị) hoặc phương pháp nâng cao như KNN imputation.

 df['column'].fillna(df['column'].mean(), inplace=True)

Biến chỉ báo: Thêm biến chỉ báo để đánh dấu giá trị bị khuyết.

 df['column_missing'] = df['column'].isnull().astype(int)

Bù khuyết dựa trên mô hình: Dùng mô hình dự đoán để ước lượng giá trị khuyết.

 from sklearn.impute import KNNImputer
 imputer = KNNImputer(n_neighbors=5)
 df = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

18. Bạn xử lý giới hạn tần suất (rate limit) API khi lấy dữ liệu bằng Python như thế nào?

Để xử lý rate limit API, có thể áp dụng các chiến lược như:

Backoff và retry: Triển khai backoff hàm mũ khi chạm giới hạn.
Phân trang: Lấy dữ liệu thành phần nhỏ qua tùy chọn pagination của API.
Cache: Lưu trữ phản hồi để tránh gọi API lặp lại.

Ví dụ dùng thư viện time của Python và module requests:

import time
import requests

def fetch_data_with_rate_limit(url):
    for attempt in range(5):  # Retry up to 5 times
        response = requests.get(url)
        if response.status_code == 429:  # Too many requests
            time.sleep(2 ** attempt)  # Exponential backoff
        else:
            return response.json()
    raise Exception("Rate limit exceeded")

Không nghi ngờ gì, Python là một trong những ngôn ngữ quan trọng nhất trong kỹ sư dữ liệu. Bạn có thể rèn luyện kỹ năng qua lộ trình Data Engineer in Python của chúng tôi, bao quát chương trình học toàn diện về khái niệm, ngôn ngữ lập trình, công cụ và framework hiện đại.

Câu hỏi phỏng vấn SQL cho kỹ sư dữ liệu

Giai đoạn viết mã SQL là phần quan trọng trong quy trình tuyển kỹ sư dữ liệu. Luyện tập nhiều script đơn giản và phức tạp sẽ giúp bạn chuẩn bị. Nhà phỏng vấn có thể yêu cầu bạn viết truy vấn cho phân tích dữ liệu, CTE, xếp hạng, thêm tổng phụ và hàm tạm.

19. Common Table Expressions (CTE) trong SQL là gì?

CTE được dùng để đơn giản hóa join phức tạp và chạy truy vấn con. Chúng giúp truy vấn SQL dễ đọc và dễ bảo trì hơn. Đây là ví dụ CTE hiển thị tất cả sinh viên học ngành Khoa học và điểm A:

SELECT *
FROM class
WHERE id IN (
  SELECT DISTINCT id
  FROM students
  WHERE grade = "A"
  AND major = "Science"
);

Dùng CTE, truy vấn trở thành:

WITH temp AS (
  SELECT id
  FROM students
  WHERE grade = "A"
  AND major = "Science"
)
SELECT *
FROM class
WHERE id IN (SELECT id FROM temp);

CTE có thể dùng cho bài toán phức tạp hơn và có thể xâu chuỗi nhiều CTE.

20. Bạn xếp hạng dữ liệu trong SQL như thế nào?

Kỹ sư dữ liệu thường xếp hạng theo các tham số như doanh số, lợi nhuận. Hàm RANK() dùng để xếp hạng dựa trên một cột cụ thể:

SELECT
  id,
  sales,
  RANK() OVER (ORDER BY sales DESC) AS rank
FROM bill;

Ngoài ra, bạn có thể dùng DENSE_RANK() vốn không bỏ qua hạng tiếp theo nếu giá trị bằng nhau.

21. Bạn có thể tạo một hàm tạm đơn giản và dùng trong truy vấn SQL không?

Tương tự Python, bạn có thể tạo hàm trong SQL để truy vấn gọn gàng và tránh lặp lại các câu lệnh case. Đây là ví dụ hàm tạm get_gender:

CREATE TEMPORARY FUNCTION get_gender(type VARCHAR) RETURNS VARCHAR AS (
  CASE 
    WHEN type = "M" THEN "male"
    WHEN type = "F" THEN "female"
    ELSE "n/a"
  END
);
SELECT
  name,
  get_gender(type) AS gender
FROM class;

Cách tiếp cận này giúp mã SQL sạch và dễ bảo trì hơn.

22. Bạn thêm tổng phụ trong SQL như thế nào?

Thêm tổng phụ có thể thực hiện bằng GROUP BY và ROLLUP(). Ví dụ:

SELECT
  department,
  product,
  SUM(sales) AS total_sales
FROM sales_data
GROUP BY ROLLUP(department, product);

Truy vấn này sẽ cho tổng phụ theo phòng ban và tổng cộng cuối cùng.

23. Bạn xử lý dữ liệu khuyết trong SQL như thế nào?

Xử lý dữ liệu khuyết rất quan trọng để duy trì toàn vẹn dữ liệu. Các cách phổ biến gồm:

Dùng COALESCE(): Hàm này trả về giá trị không null đầu tiên trong danh sách.

SELECT id, COALESCE(salary, 0) AS salary FROM employees;

Dùng câu lệnh CASE: Để xử lý giá trị khuyết có điều kiện.

 SELECT id, 
        CASE 
          WHEN salary IS NULL THEN 0 
          ELSE salary 
        END AS salary 
 FROM employees;

24. Bạn thực hiện tổng hợp dữ liệu trong SQL như thế nào?

Tổng hợp dữ liệu sử dụng các hàm như SUM(), AVG(), COUNT(), MIN() và MAX(). Ví dụ:

SELECT department, 
       SUM(salary) AS total_salary, 
       AVG(salary) AS average_salary, 
       COUNT(*) AS employee_count 
FROM employees 
GROUP BY department;

25. Bạn tối ưu truy vấn SQL để có hiệu năng tốt hơn như thế nào?

Để tối ưu truy vấn SQL, bạn có thể:

Dùng index trên các cột hay được truy vấn để tăng tốc tra cứu.
Tránh SELECT * bằng cách chỉ định cột cần thiết.
Dùng join hợp lý và tránh join không cần thiết.
Tối ưu truy vấn con bằng cách thay thế bằng CTE khi phù hợp.
Phân tích kế hoạch thực thi truy vấn để xác định nút thắt. Ví dụ:

EXPLAIN ANALYZE
SELECT customer_id, COUNT(order_id)
FROM orders
GROUP BY customer_id;

Giải bài tập code SQL là cách tốt nhất để luyện tập và ôn các khái niệm đã quên. Bạn có thể đánh giá kỹ năng SQL bằng bài kiểm tra Data Analysis in SQL của DataCamp (bạn cần tài khoản để truy cập).

Câu hỏi phỏng vấn kỹ sư dữ liệu liên quan đến dự án

Sau các vòng phỏng vấn tổng quát, bạn thường bước vào giai đoạn kỹ thuật gồm thử thách code, giải quyết vấn đề, thiết kế hệ thống cơ sở dữ liệu trên bảng trắng, bài thi tại nhà và câu hỏi phân tích.

Giai đoạn này có thể khá căng, nên biết trước các câu hỏi và đáp án thường gặp sẽ giúp bạn vượt qua tốt.

26. Hãy dẫn dắt tôi qua một dự án bạn đã làm từ đầu đến cuối.

Câu trả lời sẽ tự nhiên nếu bạn từng làm dự án kỹ sư dữ liệu khi là sinh viên hoặc chuyên gia. Dù vậy, chuẩn bị trước luôn hữu ích. Đây là cách cấu trúc câu trả lời:

Giới thiệu và bài toán kinh doanh:

Bắt đầu bằng bối cảnh dự án. Mô tả bài toán kinh doanh bạn giải quyết và mục tiêu dự án.
Ví dụ: "Trong dự án này, chúng tôi nhằm tối ưu pipeline xử lý dữ liệu TLC Trip Record để cải thiện hiệu năng truy vấn và độ chính xác dữ liệu cho đội phân tích."

Nạp dữ liệu:

Mô tả cách bạn truy cập và nạp dữ liệu thô.
Ví dụ: "Chúng tôi nạp dữ liệu TLC Trip Record thô bằng GCP, Airflow và PostgreSQL để đảm bảo nạp dữ liệu tin cậy từ nhiều nguồn."

Xử lý và chuyển đổi dữ liệu:

Giải thích các bước làm sạch, chuyển đổi và cấu trúc dữ liệu.
Ví dụ: "Chúng tôi dùng Apache Spark cho xử lý theo lô và Apache Kafka cho streaming thời gian thực để xử lý chuyển đổi. Dữ liệu được làm sạch, kiểm định và chuyển thành định dạng cấu trúc phù hợp phân tích."

Lưu trữ và kho dữ liệu:

Thảo luận giải pháp lưu trữ và lý do lựa chọn.
Ví dụ: "Dữ liệu đã xử lý được lưu trong Google BigQuery, cung cấp giải pháp kho dữ liệu hiệu quả và mở rộng tốt. Airflow được dùng để quản lý workflow dữ liệu."

Analytics engineering:

Nêu bật công cụ và phương pháp dùng cho mục đích phân tích.
Ví dụ: "Chúng tôi dùng dbt, BigQuery, PostgreSQL, Google Data Studio và Metabase cho analytics engineering. Các công cụ này giúp tạo mô hình dữ liệu vững và xây dựng báo cáo, dashboard giàu insight."

Triển khai và môi trường đám mây:

Đề cập chiến lược triển khai và hạ tầng đám mây.
Ví dụ: "Toàn bộ dự án được triển khai bằng GCP, Terraform và Docker, đảm bảo môi trường đám mây mở rộng và tin cậy."

Thách thức và giải pháp:

Thảo luận thách thức và cách bạn vượt qua.
Ví dụ: "Một thách thức chính là xử lý khối lượng dữ liệu thời gian thực lớn. Chúng tôi giải quyết bằng cách tối ưu job Kafka streaming và triển khai các chuyển đổi Spark hiệu quả."

Kết quả và tác động:

Kết lại bằng mô tả kết quả và tác động của dự án.
Ví dụ: "Dự án cải thiện đáng kể hiệu năng truy vấn và độ chính xác dữ liệu cho đội phân tích, giúp ra quyết định nhanh hơn và insight tốt hơn."

Ảnh từ DataTalksClub/data-engineering-zoomcamp

Chuẩn bị trước bằng cách rà soát năm dự án gần nhất bạn đã làm sẽ giúp bạn tránh bị khựng lại khi phỏng vấn. Hiểu rõ bài toán và giải pháp bạn đã triển khai. Luyện tập giải thích từng bước rõ ràng, súc tích.

Câu hỏi phỏng vấn cho quản lý kỹ sư dữ liệu

Với vị trí quản lý kỹ thuật, câu hỏi thường liên quan đến ra quyết định, hiểu biết kinh doanh, biên soạn và duy trì tập dữ liệu, tuân thủ và chính sách bảo mật.

27. Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu vận hành là gì?

Kho dữ liệu phục vụ dữ liệu lịch sử cho tác vụ phân tích và ra quyết định. Nó hỗ trợ xử lý phân tích khối lượng lớn như OLAP. Kho dữ liệu được thiết kế để xử lý truy vấn phức tạp truy cập nhiều hàng và tối ưu cho tác vụ đọc nặng. Chúng hỗ trợ một vài người dùng đồng thời và được thiết kế để truy hồi lượng dữ liệu lớn nhanh chóng, hiệu quả.

Hệ quản trị cơ sở dữ liệu vận hành (OLTP) quản lý tập dữ liệu động theo thời gian thực. Chúng hỗ trợ xử lý giao dịch khối lượng lớn cho hàng nghìn khách hàng đồng thời, phù hợp cho hoạt động hằng ngày. Dữ liệu thường là thông tin hiện thời, cập nhật về giao dịch và vận hành. Hệ thống OLTP tối ưu cho tác vụ ghi nặng và xử lý truy vấn nhanh.

28. Vì sao bạn nghĩ mọi công ty sử dụng hệ thống dữ liệu đều cần kế hoạch khôi phục thảm họa?

Quản lý thảm họa là trách nhiệm của quản lý kỹ sư dữ liệu. Kế hoạch khôi phục thảm họa đảm bảo hệ thống dữ liệu có thể được khôi phục và tiếp tục vận hành khi xảy ra tấn công mạng, hỏng phần cứng, thiên tai hay sự kiện thảm khốc khác. Các khía cạnh liên quan gồm:

Sao lưu theo thời gian thực: Thường xuyên sao lưu tệp và cơ sở dữ liệu tới vị trí lưu trữ an toàn, ngoài site.
Dư thừa dữ liệu: Triển khai nhân bản dữ liệu qua nhiều vị trí địa lý để đảm bảo khả dụng.
Giao thức bảo mật: Thiết lập giao thức để giám sát, truy vết và hạn chế lưu lượng vào/ra nhằm ngăn rò rỉ dữ liệu.
Quy trình phục hồi: Quy trình chi tiết để khôi phục dữ liệu và hệ thống nhanh chóng, hiệu quả, giảm thời gian ngừng hoạt động.
Kiểm thử và diễn tập: Thường xuyên kiểm thử kế hoạch qua mô phỏng và diễn tập để đảm bảo hiệu quả và điều chỉnh cần thiết.

29. Bạn tiếp cận việc ra quyết định thế nào khi dẫn dắt một đội kỹ sư dữ liệu?

Với vai trò quản lý kỹ sư dữ liệu, ra quyết định liên quan đến cân bằng giữa cân nhắc kỹ thuật và mục tiêu kinh doanh. Một số cách tiếp cận gồm:

Ra quyết định dựa trên dữ liệu: Dùng phân tích dữ liệu để thông tin hóa quyết định, đảm bảo dựa trên insight khách quan thay vì trực giác.
Hợp tác với bên liên quan: Làm việc chặt chẽ để hiểu yêu cầu kinh doanh và điều chỉnh nỗ lực kỹ sư dữ liệu với mục tiêu công ty.
Đánh giá rủi ro: Đánh giá rủi ro tiềm ẩn và tác động lên dự án, xây dựng chiến lược giảm thiểu.
Phương pháp Agile: Áp dụng thực hành agile để thích ứng thay đổi yêu cầu và chuyển giao giá trị dần dần.
Kèm cặp và phát triển: Hỗ trợ phát triển đội ngũ bằng cố vấn, đào tạo và nuôi dưỡng môi trường hợp tác.

30. Bạn xử lý tuân thủ các quy định bảo vệ dữ liệu trong dự án kỹ sư dữ liệu như thế nào?

Tuân thủ quy định bảo vệ dữ liệu bao gồm một số thực hành, ví dụ:

Hiểu quy định: Cập nhật các quy định như GDPR, CCPA, HIPAA.
Khung quản trị dữ liệu: Triển khai khung quản trị vững chắc gồm chính sách về quyền riêng tư, bảo mật và kiểm soát truy cập.
Mã hóa dữ liệu: Mã hóa dữ liệu nhạy cảm khi lưu trữ và khi truyền để ngăn truy cập trái phép.
Kiểm soát truy cập: Triển khai kiểm soát chặt chẽ đảm bảo chỉ người được ủy quyền mới truy cập dữ liệu nhạy cảm.
Kiểm toán và giám sát: Thường xuyên kiểm toán và giám sát truy cập, sử dụng dữ liệu để phát hiện và xử lý vấn đề tuân thủ kịp thời.

31. Bạn có thể mô tả một dự án kỹ sư dữ liệu đầy thách thức mà bạn đã quản lý không?

Khi thảo luận về dự án thách thức, bạn có thể tập trung vào:

Phạm vi và mục tiêu: Xác định rõ mục tiêu dự án và bài toán kinh doanh cần giải quyết.
Thách thức gặp phải: Mô tả các thách thức cụ thể như hạn chế kỹ thuật, nguồn lực, hay vấn đề đồng thuận với bên liên quan.
Chiến lược và giải pháp: Giải thích phương pháp vượt qua thách thức, gồm giải pháp kỹ thuật, quản lý đội ngũ và gắn kết bên liên quan.
Kết quả và tác động: Nêu bật kết quả thành công và tác động tới doanh nghiệp, như cải thiện chất lượng dữ liệu, nâng cao hiệu năng hệ thống hay tăng hiệu quả vận hành.

32. Bạn đánh giá và triển khai công nghệ dữ liệu mới như thế nào?

Đánh giá và triển khai công nghệ dữ liệu mới bao gồm:

Nghiên cứu thị trường: Theo sát tiến bộ và xu hướng mới trong công nghệ kỹ sư dữ liệu.
Proof of concept (PoC): Thực hiện PoC để kiểm tra khả thi và lợi ích của công nghệ mới trong ngữ cảnh của bạn.
Phân tích chi phí - lợi ích: Đánh giá chi phí, lợi ích và ROI tiềm năng khi áp dụng công nghệ mới.
Đồng thuận của bên liên quan: Trình bày phát hiện và khuyến nghị để đạt được ủng hộ.
Kế hoạch triển khai: Xây dựng kế hoạch chi tiết gồm mốc thời gian, phân bổ nguồn lực và chiến lược quản lý rủi ro.
Đào tạo và hỗ trợ: Cung cấp đào tạo và hỗ trợ cho đội ngũ để chuyển đổi trơn tru sang công nghệ mới.

33. Bạn ưu tiên nhiệm vụ và dự án trong môi trường tốc độ cao như thế nào?

Một cách hiệu quả để ưu tiên là dựa trên tác động đến mục tiêu kinh doanh và mức độ khẩn cấp. Bạn có thể dùng khung Ma trận Eisenhower để phân loại nhiệm vụ vào bốn nhóm: khẩn cấp và quan trọng, quan trọng nhưng không khẩn, khẩn nhưng không quan trọng, và không thuộc cả hai. Ngoài ra, hãy trao đổi với bên liên quan để căn chỉnh ưu tiên và đảm bảo đội tập trung vào hoạt động giá trị cao.

Câu Hỏi Phỏng Vấn Kỹ Sư Dữ Liệu Tại FAANG

Phần này khám phá các câu hỏi phỏng vấn kỹ sư dữ liệu thường gặp nhất từ các quản lý tại Facebook, Amazon và Google cho vị trí kỹ sư dữ liệu.

Câu hỏi phỏng vấn Kỹ sư Dữ liệu Facebook

34. Tại sao chúng ta dùng cluster trong Kafka và lợi ích là gì?

Một cluster Kafka gồm nhiều broker phân phối dữ liệu qua nhiều phiên bản. Kiến trúc này cung cấp khả năng mở rộng và chịu lỗi mà không downtime. Nếu cluster chính gặp sự cố, các cluster Kafka khác có thể cung cấp cùng dịch vụ, đảm bảo tính sẵn sàng cao.

Kiến trúc cluster Kafka gồm Topic, Broker, ZooKeeper, Producer và Consumer. Nó xử lý luồng dữ liệu hiệu quả cho ứng dụng big data, cho phép xây dựng ứng dụng dựa trên dữ liệu vững chắc.

35. Apache Airflow giải quyết vấn đề gì?

Apache Airflow cho phép bạn quản lý và lập lịch pipeline cho workflow phân tích, quản trị kho dữ liệu, chuyển đổi và mô hình hóa dữ liệu. Nó cung cấp:

Quản lý pipeline: Nền tảng để định nghĩa, lập lịch và giám sát workflow.
Ghi log tập trung: Giám sát log thực thi tại một nơi.
Xử lý lỗi: Callback gửi cảnh báo thất bại tới các nền tảng như Slack và Discord.
Giao diện người dùng: UI thân thiện để quản lý và trực quan hóa workflow.
Tích hợp: Tích hợp mạnh với nhiều công cụ và hệ thống.
Mã nguồn mở: Miễn phí sử dụng và được cộng đồng hỗ trợ rộng rãi.

Câu hỏi phỏng vấn Kỹ sư Dữ liệu Amazon

36. Bạn được đưa một địa chỉ IP dạng chuỗi. Làm sao xác định nó hợp lệ hay không?

Để xác định IP hợp lệ, bạn có thể tách chuỗi theo dấu “.” và tạo nhiều kiểm tra để xác thực từng phần. Đây là hàm Python để thực hiện:

def is_valid(ip):
    ip = ip.split(".")
   
    for i in ip:
        if len(i) > 3 or int(i) < 0 or int(i) > 255:
            return False
        if len(i) > 1 and int(i) == 0:
            return False
        if len(i) > 1 and int(i) != 0 and i[0] == '0':
            return False
           
    return True
A = "255.255.11.135"
B = "255.050.11.5345"
print(is_valid(A))  # True
print(is_valid(B))  # False

37. Các chế độ hoạt động của Hadoop là gì?

Hadoop chủ yếu hoạt động ở ba chế độ:

Chế độ độc lập (Standalone): Dùng cho mục đích gỡ lỗi. Không dùng HDFS và dựa vào hệ thống tệp cục bộ cho đầu vào/ra.
Chế độ giả phân tán (Pseudo-distributed): Là cluster một nút nơi NameNode và DataNode cùng trên một máy. Chủ yếu dùng cho kiểm thử và phát triển.
Chế độ phân tán hoàn toàn (Fully distributed): Chế độ sẵn sàng sản xuất, dữ liệu phân tán qua nhiều nút, với nút riêng cho tiến trình master (NameNode) và slave (DataNode).

Câu hỏi phỏng vấn Kỹ sư Dữ liệu Google

38. Bạn xử lý điểm dữ liệu trùng lặp trong truy vấn SQL như thế nào?

Để xử lý trùng lặp trong SQL, bạn có thể dùng từ khóa DISTINCT hoặc xóa hàng trùng bằng ROWID với MAX hoặc MIN. Ví dụ:

Dùng DISTINCT:

SELECT DISTINCT Name, ADDRESS 
FROM CUSTOMERS 
ORDER BY Name;

Xóa trùng bằng ROWID:

DELETE FROM Employee
WHERE ROWID NOT IN (
  SELECT MAX(ROWID)
  FROM Employee
  GROUP BY Name, ADDRESS
);

39. Cho danh sách n-1 số nguyên, các số nguyên này nằm trong khoảng 1 đến n. Không có trùng lặp trong danh sách. Một số bị thiếu. Bạn có thể viết mã hiệu quả để tìm số thiếu không?

Bài toán coding phổ biến này có thể giải bằng cách tiếp cận toán học:

def search_missing_number(list_num):
    n = len(list_num)
    # Check if the first or last number is missing
    if list_num[0] != 1:
        return 1
    if list_num[-1] != n + 1:
        return n + 1
    # Calculate the sum of the first n+1 natural numbers
    total = (n + 1) * (n + 2) // 2
    # Calculate the sum of all elements in the list
    sum_of_L = sum(list_num)
    # Return the difference, which is the missing number
    return total - sum_of_L
# Validation
num_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13]
print("The missing number is", search_missing_number(num_list))  # The missing number is 12

Cách Chuẩn Bị Cho Phỏng Vấn Kỹ Sư Dữ Liệu

Trước khi phỏng vấn, bạn nên rà soát các khái niệm và thuật ngữ chuẩn trong kỹ sư dữ liệu. Dưới đây là những mảng quan trọng cần tập trung:

Thành thạo SQL: Bạn nên luyện tập tạo, sửa đổi và quản lý cơ sở dữ liệu. Hơn nữa, bạn cần thành thạo phân tích, mô hình hóa và chuyển đổi dữ liệu.
Giải thử thách lập trình: Giải các thử thách Python, Scala hoặc C++. Hầu hết công ty đánh giá kỹ năng lập trình bằng bài thi tại nhà và thử thách coding trực tiếp.
Thiết kế pipeline ETL: luyện tập tạo dữ liệu, pipeline ETL hoặc pipeline phân phối. Bạn phải hiểu cách kiểm thử, kiểm định, mở rộng và duy trì pipeline dữ liệu.
Analytics engineering: luyện tập nạp, chuyển đổi và phân tích dữ liệu. Học cách tạo dashboard cho chất lượng dữ liệu và hiệu năng hệ thống.
Xem lại câu hỏi tiềm năng: Chuẩn bị bằng cách xem các câu hỏi mẫu. Tìm kiếm Google đơn giản sẽ cho bạn hàng trăm câu hỏi.
Tìm hiểu công cụ kỹ sư dữ liệu hiện đại: ngay cả khi bạn chưa có kinh nghiệm, bạn nên biết cách chúng hoạt động và tích hợp với công cụ khác. Các công ty luôn tìm công cụ tốt hơn để nâng hiệu năng với chi phí thấp hơn.
Học xử lý theo lô và streaming: Apache Spark dùng cho xử lý theo lô, Apache Kafka dùng cho streaming dữ liệu. Những công cụ này đang được săn đón và sẽ giúp bạn vào các công ty hàng đầu.
Môi trường: Đôi khi nhà phỏng vấn sẽ hỏi về điện toán đám mây (GCP, AWS, Azure), Docker, scripting, Terraform và Kubernetes. Bạn có thể dùng các công cụ này để thiết lập tài nguyên tính toán và lưu trữ trên đám mây hoặc on-premise. Hiểu các công nghệ này và tích hợp vào dự án portfolio là thực hành tốt.

Chuẩn bị cho phỏng vấn kỹ sư dữ liệu có thể thách thức, nhưng với tài nguyên phù hợp và luyện tập, bạn có thể xuất sắc và giành được công việc mơ ước. Để nâng cao kỹ năng và kiến thức, hãy xem các tài nguyên hữu ích sau:

Understanding Data Engineering: Nắm bắt toàn diện các khái niệm và nguyên tắc kỹ sư dữ liệu.
Data Engineer in Python: Làm chủ kỹ sư dữ liệu với Python qua lộ trình nghề nghiệp này, bao quát công cụ và framework thiết yếu.
Database Design: Học nền tảng thiết kế cơ sở dữ liệu để tạo hệ thống hiệu quả và có thể mở rộng.

Tận dụng các khóa học này để củng cố nền tảng và dẫn trước trong sự nghiệp kỹ sư dữ liệu của bạn. Chúc bạn phỏng vấn thành công!

Tôi có thể kỳ vọng điều gì từ một buổi phỏng vấn kỹ sư dữ liệu?

Bạn có thể kỳ vọng vòng gọi HR, vòng kỹ thuật qua điện thoại, bài kiểm tra tại nhà, thử thách coding, phỏng vấn onsite, thiết kế cơ sở dữ liệu và hệ thống trên bảng trắng, phỏng vấn SQL, và cuối cùng là phỏng vấn “lãnh đạo” để kiểm tra mức độ phù hợp văn hóa.

Một số công ty có ba giai đoạn phỏng vấn, trong khi số khác có tới chín giai đoạn. Tổ chức thường đặt rào cản đầu vào cao để kiểm tra ứng viên ở mọi cấp độ.

Nhu cầu kỹ sư dữ liệu có cao không?

Kỹ sư dữ liệu có viết code không?

Sự khác nhau giữa nhà phân tích dữ liệu và kỹ sư dữ liệu là gì?

Kỹ sư dữ liệu thực sự làm gì?

Thu thập dữ liệu từ nhiều nguồn, tạo, kiểm định và duy trì pipeline dữ liệu, chuyển đổi dữ liệu bằng thuật toán, thực hiện analytics engineering, đảm bảo tuân thủ quản trị dữ liệu và bảo mật, và duy trì toàn bộ hệ thống cơ sở dữ liệu. Họ chịu trách nhiệm cung cấp luồng dữ liệu chất lượng cao cho các phòng ban trong công ty. Bạn có thể tìm hiểu thêm về kỹ sư dữ liệu qua bài What is Data Engineering?.

Cần những kỹ năng gì để trở thành kỹ sư dữ liệu?

Author

Abid Ali Awan

Là một nhà khoa học dữ liệu được chứng nhận, tôi đam mê tận dụng công nghệ tiên tiến để tạo ra các ứng dụng học máy đổi mới. Với nền tảng vững chắc về nhận dạng giọng nói, phân tích và báo cáo dữ liệu, MLOps, AI hội thoại và NLP, tôi đã rèn giũa kỹ năng phát triển các hệ thống thông minh có thể tạo ra tác động thực sự. Bên cạnh chuyên môn kỹ thuật, tôi cũng là một người truyền đạt tốt, có khả năng chắt lọc các khái niệm phức tạp thành ngôn ngữ rõ ràng, súc tích. Nhờ đó, tôi trở thành một blogger được nhiều người quan tâm trong lĩnh vực khoa học dữ liệu, chia sẻ góc nhìn và kinh nghiệm với cộng đồng các chuyên gia dữ liệu ngày càng lớn. Hiện tại, tôi tập trung vào sáng tạo và biên tập nội dung, làm việc với các mô hình ngôn ngữ lớn để phát triển nội dung mạnh mẽ và hấp dẫn, giúp doanh nghiệp và cá nhân tận dụng tối đa dữ liệu của mình.

Chủ đề

Kỹ thuật Dữ liệu

Dịch vụ Nghề nghiệp

Tìm hiểu thêm về kỹ sư dữ liệu với các khóa học này!

Tracks

Kỹ sư Dữ liệu Hỗ trợ trong SQL

30 giờ

Học các kiến thức cơ bản về kỹ thuật dữ liệu: thiết kế cơ sở dữ liệu và kho dữ liệu, làm việc với các công nghệ bao gồm PostgreSQL và Snowflake!

Xem chi tiết

Bắt Đầu Khóa Học

Tracks

Kỹ sư dữ liệu chuyên nghiệp trong Python

40 giờ

Khám phá sâu rộng các kỹ năng nâng cao và công cụ tiên tiến nhất đang cách mạng hóa vai trò của kỹ sư dữ liệu ngày nay thông qua chương trình đào tạo Chuyên gia Kỹ sư Dữ liệu của chúng tôi.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

Introduction to Data Engineering

4 giờ

128.3K

Tìm hiểu về thế giới kỹ thuật dữ liệu trong khóa học ngắn này, bao gồm các công cụ và chủ đề như ETL và điện toán đám mây.

Xem chi tiết

Bắt Đầu Khóa Học

Xem thêm

Câu Hỏi Phỏng Vấn HR Ban Đầu Cho Kỹ Sư Dữ Liệu

1. Điều gì khiến bạn là ứng viên phù hợp nhất cho vị trí này?

2. Trách nhiệm hằng ngày của một kỹ sư dữ liệu là gì?

3. Điều khó khăn nhất bạn gặp phải khi làm kỹ sư dữ liệu là gì?

4. Bạn có kinh nghiệm với các công cụ hay framework dữ liệu nào? Có công cụ nào bạn ưa thích hơn không?

5. Bạn cập nhật các xu hướng và tiến bộ mới nhất trong kỹ sư dữ liệu như thế nào?

6. Bạn có thể mô tả một lần bạn phải hợp tác với đội ngũ đa chức năng để hoàn thành dự án không?

Câu Hỏi Phỏng Vấn Kỹ Thuật Cho Kỹ Sư Dữ Liệu

Câu hỏi phỏng vấn kỹ sư dữ liệu junior

7. Bạn có thể giải thích các schema thiết kế liên quan đến mô hình hóa dữ liệu không?

8. Bạn đã làm việc với những công cụ ETL nào? Bạn thích công cụ nào nhất và vì sao?

9. Điều phối dữ liệu (data orchestration) là gì và bạn dùng công cụ nào để thực hiện?

10. Bạn dùng công cụ nào cho analytics engineering?

11. Sự khác nhau giữa hệ thống OLAP và OLTP là gì?

Câu hỏi phỏng vấn Python cho kỹ sư dữ liệu

12. Thư viện Python nào hiệu quả nhất cho xử lý dữ liệu?

13. Bạn thực hiện web scraping trong Python như thế nào?

14. Bạn xử lý tập dữ liệu lớn không vừa bộ nhớ trong Python như thế nào?

15. Bạn đảm bảo mã Python hiệu quả và tối ưu hiệu năng như thế nào?

16. Bạn đảm bảo toàn vẹn và chất lượng dữ liệu trong pipeline như thế nào?

17. Bạn xử lý dữ liệu khuyết trong tập dữ liệu như thế nào?

18. Bạn xử lý giới hạn tần suất (rate limit) API khi lấy dữ liệu bằng Python như thế nào?

Câu hỏi phỏng vấn SQL cho kỹ sư dữ liệu

19. Common Table Expressions (CTE) trong SQL là gì?

20. Bạn xếp hạng dữ liệu trong SQL như thế nào?

21. Bạn có thể tạo một hàm tạm đơn giản và dùng trong truy vấn SQL không?

22. Bạn thêm tổng phụ trong SQL như thế nào?

23. Bạn xử lý dữ liệu khuyết trong SQL như thế nào?

24. Bạn thực hiện tổng hợp dữ liệu trong SQL như thế nào?

25. Bạn tối ưu truy vấn SQL để có hiệu năng tốt hơn như thế nào?

Câu hỏi phỏng vấn kỹ sư dữ liệu liên quan đến dự án

26. Hãy dẫn dắt tôi qua một dự án bạn đã làm từ đầu đến cuối.

Câu hỏi phỏng vấn cho quản lý kỹ sư dữ liệu

27. Sự khác nhau giữa kho dữ liệu và cơ sở dữ liệu vận hành là gì?

28. Vì sao bạn nghĩ mọi công ty sử dụng hệ thống dữ liệu đều cần kế hoạch khôi phục thảm họa?

29. Bạn tiếp cận việc ra quyết định thế nào khi dẫn dắt một đội kỹ sư dữ liệu?

30. Bạn xử lý tuân thủ các quy định bảo vệ dữ liệu trong dự án kỹ sư dữ liệu như thế nào?

31. Bạn có thể mô tả một dự án kỹ sư dữ liệu đầy thách thức mà bạn đã quản lý không?

32. Bạn đánh giá và triển khai công nghệ dữ liệu mới như thế nào?

33. Bạn ưu tiên nhiệm vụ và dự án trong môi trường tốc độ cao như thế nào?

Câu Hỏi Phỏng Vấn Kỹ Sư Dữ Liệu Tại FAANG

Câu hỏi phỏng vấn Kỹ sư Dữ liệu Facebook

34. Tại sao chúng ta dùng cluster trong Kafka và lợi ích là gì?

35. Apache Airflow giải quyết vấn đề gì?

Câu hỏi phỏng vấn Kỹ sư Dữ liệu Amazon

36. Bạn được đưa một địa chỉ IP dạng chuỗi. Làm sao xác định nó hợp lệ hay không?

37. Các chế độ hoạt động của Hadoop là gì?

Câu hỏi phỏng vấn Kỹ sư Dữ liệu Google

38. Bạn xử lý điểm dữ liệu trùng lặp trong truy vấn SQL như thế nào?

39. Cho danh sách n-1 số nguyên, các số nguyên này nằm trong khoảng 1 đến n. Không có trùng lặp trong danh sách. Một số bị thiếu. Bạn có thể viết mã hiệu quả để tìm số thiếu không?

Cách Chuẩn Bị Cho Phỏng Vấn Kỹ Sư Dữ Liệu

FAQs

Kỹ sư dữ liệu có viết code không?

Sự khác nhau giữa nhà phân tích dữ liệu và kỹ sư dữ liệu là gì?

Kỹ sư dữ liệu thực sự làm gì?

Cần những kỹ năng gì để trở thành kỹ sư dữ liệu?

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Kỹ sư Dữ liệu Hỗ trợ trong SQL

Kỹ sư dữ liệu chuyên nghiệp trong Python

Introduction to Data Engineering

Kỹ sư Dữ liệu Hỗ trợ trong SQL