Chuyển đến nội dung chính

Trang chủ Python

Khóa học

Mô hình đa phương thức với Hugging Face

Trung cấpTrình độ kỹ năng

Đã cập nhật tháng 01, 2026

Bắt Đầu Khóa Học Miễn Phí

PythonArtificial Intelligence

4 gio

14 video

45 Bài tập

3,800 XP

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Điều kiện tiên quyết

Introduction to LLMs in Python

1

Truy cập mô hình và bộ dữ liệu trên Hugging Face

Khám phá kho mô hình của Hugging Face, chuyển đổi văn bản, âm thanh và dữ liệu thị giác thô sang định dạng thân thiện với AI. Học cách tìm các mô hình phổ biến mới nhất cho các tác vụ như sinh văn bản và tận dụng sức mạnh của các pipeline dựng sẵn.

Điều hướng mô hình trên Hugging Face

Nhiều mô hình thế cơ à!?

Tìm mô hình text-to-image phổ biến nhất

Tiền xử lý các kiểu dữ liệu khác nhau

Tách token văn bản

Tiền xử lý ảnh

Tiền xử lý âm thanh

Các tác vụ pipeline và cách đánh giá

Tạo mô tả ảnh bằng Pipeline

Truyền đối số từ khóa

Đánh giá mô hình trên tập dữ liệu tùy chỉnh

Bắt Đầu Chương

2

Mô hình đơn phương thức cho hình ảnh, âm thanh và văn bản

Nắm vững từng phương thức với các mô hình tối tân. Đi sâu vào thị giác máy tính cho phân loại và phân đoạn ảnh, khám phá nhận dạng giọng nói và tổng hợp văn bản thành giọng nói, và học các kỹ thuật fine-tuning hiệu quả. Xây dựng kỹ năng thực hành với các mô hình đã huấn luyện sẵn từ thư viện transformers của Hugging Face.

Thị giác máy tính

Phân loại ảnh

Phát hiện vật thể

Xóa phông nền ảnh

Tinh chỉnh mô hình thị giác máy tính

Fine-tuning CV: chuẩn bị dữ liệu

Fine-tuning CV: các lớp mô hình

Vi tinh chỉnh CV: cấu hình trainer

Nhận dạng giọng nói và tạo âm thanh

Nhận dạng giọng nói tự động

Tạo speech embedding

Khử nhiễu âm thanh

Tinh chỉnh mô hình chuyển văn bản thành giọng nói

Fine-tune mô hình text-to-speech

Tạo giọng nói mới

Bắt Đầu Chương

3

Mô hình đa phương thức cho phân loại

Học cách hợp nhất thông tin hình ảnh, văn bản và âm thanh để tạo ra ứng dụng AI phong phú hơn. Làm chủ các kỹ thuật như CLIP cho phân loại zero-shot, xây dựng bộ phân tích cảm xúc vừa “nhìn” vừa “đọc”, và tạo bộ nhận diện cảm xúc kết hợp nét mặt với giọng nói. Đưa mô hình AI của bạn vượt khỏi tư duy đơn phương thức.

Phân loại ảnh zero-shot

Học zero-shot với CLIP

Đánh giá tự động chất lượng chú thích ảnh

Phân tích cảm xúc đa phương thức

Gợi ý cho Vision Language Models (VLMs)

Phân loại cảm xúc đa phương thức với Qwen

Phân loại video zero-shot

Tách âm thanh từ video

Phân tích cảm xúc video với CLIP CLAP

Bắt Đầu Chương

4

Sinh dữ liệu đa phương thức

Biến ý tưởng thành hiện thực! Làm chủ các kỹ thuật AI tối tân để tạo và chỉnh sửa nội dung thị giác bằng prompt văn bản. Tạo ra những hình ảnh ấn tượng, chỉnh sửa ảnh một cách thông minh, và xây dựng hệ thống hỏi-đáp mạnh mẽ cho ảnh và tài liệu. Biến tầm nhìn sáng tạo của bạn thành hiện thực số với AI đa phương thức.

Trả lời câu hỏi trực quan (VQA)

VQA với Vision Language Transformers (ViLT)

VQA cho tài liệu với LayoutLM

Chỉnh sửa ảnh với mô hình khuếch tán

Chỉnh sửa ảnh tùy biến

Inpainting ảnh

Tạo video

Tạo một video!

Đánh giá hiệu năng sinh video

Chúc mừng bạn!

Bắt Đầu Chương

Mô hình đa phương thức với Hugging Face

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Mô hình đa phương thức với Hugging Face ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.