Curso
Modelos multimodais com Hugging Face
IntermediárioNível de habilidade
Atualizado 01/2026Iniciar Curso Gratuitamente
Incluído comPremium or Teams
PythonArtificial Intelligence4 h14 vídeos45 Exercícios3,800 XPCertificado de conclusão
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.Preferido por alunos de milhares de empresas
Treinar 2 ou mais pessoas?
Experimentar DataCamp for BusinessDescrição do curso
Aproveite o poder da IA multimodal
Mergulhe no mundo inovador dos modelos de IA multimodal, onde texto, imagens e voz se juntam para criar aplicativos incríveis. Aprenda a usar o enorme repositório de modelos da Hugging Face que podem ver, ouvir e entender como nunca antes. Se você está analisando conteúdo de mídias sociais, criando assistentes de voz ou desenvolvendo aplicativos de IA de última geração, os modelos multimodais são a sua porta de entrada para lidar com vários tipos de dados de forma integrada.Domine as técnicas multimodais essenciais
Dá uma olhada em modelos super modernos, tipo o CLIP pra entender imagens e textos, o SpeechT5 pra sintetizar voz e o modelo Qwen2 Vision Language pra análise multimodal de sentimentos. Com exercícios práticos, você vai dominar as técnicas que as principais empresas de IA usam pra criar sistemas multimodais bem sofisticados.Prepare suas habilidades em IA para o futuro
Este curso vai te dar um kit de ferramentas robusto para lidar com tarefas de IA multimodal. Você vai aprender a processar e juntar diferentes tipos de dados de forma eficaz, ajustar modelos pré-treinados para aplicações personalizadas e avaliar e melhorar o desempenho dos modelos em todos os tipos de dados.Pré-requisitos
Introduction to LLMs in Python1
Accessing Hugging Face Models and Datasets
Navigate the Hugging Face model hub, transform raw text, audio, and visual data into AI-friendly formats. Learn how to find the latest most popular models for tasks such as text generation and harness the power of pre-built pipelines.
2
Unimodal Vision, Audio, and Text Models
Learn to master individual modalities with state-of-the-art models. Dive into computer vision for image classification and segmentation, explore speech recognition and text-to-speech synthesis, and learn effective fine-tuning techniques. Build practical skills with pre-trained models from Hugging Face's transformers library.
3
Multi-Modal Models for Classification
Learn to fuse visual, textual, and audio information for richer AI applications. Master techniques like CLIP for zero-shot classification, build sentiment analyzers that see and read, and create emotion detectors that combine facial expressions with voice. Take your AI models beyond single-modality thinking.
4
Multi-Modal Generation
Transform ideas into reality! Master cutting-edge AI techniques to generate and manipulate visual content using text prompts. Create stunning images, edit photos intelligently, and build powerful question-answering systems for images and documents. Turn your creative vision into digital reality with multi-modal AI.
Modelos multimodais com Hugging Face
Curso concluído
Obtenha um certificado de conclusão
Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CVCompartilhe nas redes sociais e em sua avaliação de desempenho
Incluído comPremium or Teams
Inscreva-se AgoraFaça como mais de 19 milhões de alunos e comece Modelos multimodais com Hugging Face hoje mesmo!
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.