Curso
Modelos multimodales con Hugging Face
IntermedioNivel de habilidad
Actualizado 1/2026Comienza El Curso Gratis
Incluido conPremium or Teams
PythonArtificial Intelligence4 h14 vídeos45 Ejercicios3,800 XPCertificado de logros
Crea Tu Cuenta Gratuita
o
Al continuar, aceptas nuestros Términos de uso, nuestra Política de privacidad y que tus datos se almacenen en los EE. UU.Preferido por estudiantes en miles de empresas
¿Formar a 2 o más personas?
Probar DataCamp for BusinessDescripción del curso
Aprovecha el poder de la IA multimodal
Sumérgete en el innovador mundo de los modelos de IA multimodal, donde el texto, las imágenes y el habla se combinan para crear potentes aplicaciones. Descubre cómo aprovechar el amplio repositorio de modelos de Hugging Face, que pueden ver, oír y comprender como nunca antes. Tanto si estás analizando contenido de redes sociales, creando asistentes de voz o desarrollando aplicaciones de IA de última generación, los modelos multimodales son la clave para gestionar diferentes tipos de datos de forma fluida.Domina las técnicas multimodales esenciales
Explora modelos de última generación como CLIP para la comprensión de imágenes y texto, SpeechT5 para la síntesis de voz y el modelo Qwen2 Vision Language para el análisis multimodal de sentimientos. A través de ejercicios prácticos, dominarás las técnicas utilizadas por las principales empresas de IA para crear sofisticados sistemas multimodales.Prepara tus habilidades en IA para el futuro
Este curso te proporcionará un sólido conjunto de herramientas para gestionar tareas de IA multimodal. Aprenderás a procesar y combinar diferentes modalidades de datos de forma eficaz, ajustar modelos preentrenados para aplicaciones personalizadas y evaluar y mejorar el rendimiento de los modelos en todas las modalidades.Requisitos previos
Introduction to LLMs in Python1
Accessing Hugging Face Models and Datasets
Navigate the Hugging Face model hub, transform raw text, audio, and visual data into AI-friendly formats. Learn how to find the latest most popular models for tasks such as text generation and harness the power of pre-built pipelines.
2
Unimodal Vision, Audio, and Text Models
Learn to master individual modalities with state-of-the-art models. Dive into computer vision for image classification and segmentation, explore speech recognition and text-to-speech synthesis, and learn effective fine-tuning techniques. Build practical skills with pre-trained models from Hugging Face's transformers library.
3
Multi-Modal Models for Classification
Learn to fuse visual, textual, and audio information for richer AI applications. Master techniques like CLIP for zero-shot classification, build sentiment analyzers that see and read, and create emotion detectors that combine facial expressions with voice. Take your AI models beyond single-modality thinking.
4
Multi-Modal Generation
Transform ideas into reality! Master cutting-edge AI techniques to generate and manipulate visual content using text prompts. Create stunning images, edit photos intelligently, and build powerful question-answering systems for images and documents. Turn your creative vision into digital reality with multi-modal AI.
Modelos multimodales con Hugging Face
Curso completo
Obtener certificado de logros
Añade esta certificación a tu perfil de LinkedIn o a tu currículum.Compártelo en redes sociales y en tu evaluación de desempeño.
Incluido conPremium or Teams
Inscríbete Ahora¡Únete a 19 millones de estudiantes y empieza Modelos multimodales con Hugging Face hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, aceptas nuestros Términos de uso, nuestra Política de privacidad y que tus datos se almacenen en los EE. UU.