Accéder au contenu principal

Cours

Modèles multimodaux avec Hugging Face

IntermédiaireNiveau de compétence

Actualisé 01/2026

Combinez du texte, des images, du son et de la vidéo avec les derniers modèles d'IA de Hugging Face, et générez de nouvelles images et vidéos.

Commencer le cours gratuitement

PythonArtificial Intelligence

4 h

14 vidéos

45 Exercices

3,800 XP

Certificat de formation

Apprécié par des utilisateurs provenant de milliers d'entreprises

Former une équipe ?

Essayez pour les entreprises

Description du cours

Exploitez la puissance de l'IA multimodale

Plongez dans l'univers de pointe des modèles d'IA multimodaux, où le texte, les images et la parole se combinent pour créer des applications performantes. Découvrez comment tirer parti du vaste référentiel de modèles Hugging Face, capables de voir, d'entendre et de comprendre comme jamais auparavant. Que vous analysiez du contenu sur les réseaux sociaux, développiez des assistants vocaux ou créiez des applications d'IA de nouvelle génération, les modèles multimodaux vous permettent de traiter différents types de données en toute transparence.

Maîtrisez les techniques multimodales essentielles

Découvrez des modèles de pointe tels que CLIP pour la compréhension des images et du texte, SpeechT5 pour la synthèse vocale et le modèle Qwen2 Vision Language pour l'analyse multimodale des sentiments. Grâce à des exercices pratiques, vous maîtriserez les techniques utilisées par les principales entreprises d'IA pour créer des systèmes multimodaux sophistiqués.

Assurez la pérennité de vos compétences en IA

Ce cours vous fournira une boîte à outils robuste pour gérer des tâches d'IA multimodales. Vous apprendrez à traiter et à combiner efficacement différentes modalités de données, à affiner des modèles pré-entraînés pour des applications personnalisées, ainsi qu'à évaluer et améliorer les performances des modèles dans toutes les modalités.

Prérequis

Introduction to LLMs in Python

1

Accessing Hugging Face Models and Datasets

Navigate the Hugging Face model hub, transform raw text, audio, and visual data into AI-friendly formats. Learn how to find the latest most popular models for tasks such as text generation and harness the power of pre-built pipelines.

Hugging Face model navigation

How many models!?

Finding the most popular text-to-image model

Preprocessing different modalities

Text tokenizing

Image preprocessing

Audio preprocessing

Pipeline tasks and evaluations

Pipeline caption generation

Passing keyword arguments

Model evaluation on a custom dataset

Commencer le chapitre

2

Unimodal Vision, Audio, and Text Models

Learn to master individual modalities with state-of-the-art models. Dive into computer vision for image classification and segmentation, explore speech recognition and text-to-speech synthesis, and learn effective fine-tuning techniques. Build practical skills with pre-trained models from Hugging Face's transformers library.

Computer vision

Image classification

Object detection

Image background removal

Fine-tuning computer vision models

CV fine-tuning: dataset prep

CV fine-tuning: model classes

CV fine-tuning: trainer configuration

Speech recognition and audio generation

Automatic speech recognition

Creating speech embeddings

Audio denoising

Fine-tuning text-to-speech models

Fine-tuning a text-to-speech model

Generating new speech

Commencer le chapitre

3

Multi-Modal Models for Classification

Learn to fuse visual, textual, and audio information for richer AI applications. Master techniques like CLIP for zero-shot classification, build sentiment analyzers that see and read, and create emotion detectors that combine facial expressions with voice. Take your AI models beyond single-modality thinking.

Zero-shot image classification

Zero-shot learning with CLIP

Automated caption quality assessment

Multi-modal sentiment analysis

Prompting Vision Language Models (VLMs)

Multi-modal sentiment classification with Qwen

Zero-shot video classification

Video audio splitting

Video sentiment analysis with CLIP CLAP

Commencer le chapitre

4

Multi-Modal Generation

Transform ideas into reality! Master cutting-edge AI techniques to generate and manipulate visual content using text prompts. Create stunning images, edit photos intelligently, and build powerful question-answering systems for images and documents. Turn your creative vision into digital reality with multi-modal AI.

Visual question-answering (VQA)

VQA with Vision Language Transformers (ViLTs)

Document VQA with LayoutLM

Image editing with diffusion models

Custom image editing

Image inpainting

Video generation

Build a video!

Assessing video generation performance

Congratulations!

Commencer le chapitre

Modèles multimodaux avec Hugging Face

Cours
terminé

Obtenez un certificat de réussite

Ajoutez cette certification à votre profil LinkedIn, à votre CV ou à votre portfolio
Partagez-la sur les réseaux sociaux et dans votre évaluation de performanceS'inscrire maintenant

Rejoignez plus de 19 millions d'utilisateurs et commencez Modèles multimodaux avec Hugging Face dès aujourd'hui !

Apprenez où que vous soyez avec l'application DataCamp

Progressez où que vous soyez grâce à nos cours conçus pour mobile et à nos défis quotidiens de 5 minutes.