Pular para o conteúdo principal
InícioMachine Learning

Curso

Introdução ao Controle de Versão de Dados com DVC

IntermediárioNível de habilidade
Atualizado 06/2025
Explore o controle de versão de dados para o gerenciamento de dados de ML. Domine a configuração, automatize pipelines e avalie modelos com perfeição.
Iniciar curso gratuitamente
DVCMachine Learning
3 h
12 vídeos
35 Exercícios
2,500 XP
3,579
Declaração de realização

Crie sua conta gratuita

Continuar com o GoogleMostrar mais opções

ou


Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.

Preferido por alunos de milhares de empresas

Group

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

Este curso oferece uma introdução abrangente ao Controle de versão de dados (DVC), uma ferramenta projetada para o gerenciamento eficiente e o controle de versão de dados de machine learning. Você entenderá o ciclo de vida do produto de machine learning, diferenciando o controle de versão de dados do controle de versão de código e explorando os recursos e casos de uso do DVC.

Explorando os recursos do site DVC

Você entenderá as motivações por trás do controle de versão de dados, o ciclo de vida do machine learning e os recursos e casos de uso distintos do DVC. Você também aprenderá sobre a configuração do DVC, abrangendo a instalação, a inicialização do repositório e o arquivo .dvcignore. Você explorará o cache DVC e os arquivos de preparação, aprenderá a adicionar e remover arquivos, gerenciar caches e entender os mecanismos subjacentes. Você aprenderá sobre os controles remotos do DVC, explicará a diferença entre os controles remotos do DVC e do Git, adicionará controles remotos, os listará e os modificará. Você aprenderá a interagir com controles remotos, enviar e receber dados, verificar versões específicas e buscar dados no cache.

Automatizar e avaliar

Você será motivado a automatizar os pipelines do ML, enfatizando a modularização do código e a criação de um arquivo de configuração. Você conhecerá os pipelines do DVC como gráficos acíclicos direcionados, com experiência prática na adição de estágios e suas entradas e saídas. Você praticará a execução eficiente desses pipelines para permitir diferentes casos de uso no treinamento de modelos de machine learning. O curso termina com foco na avaliação, mostrando como as métricas e os gráficos são programados em DVC.

Pré-requisitos

Supervised Learning with scikit-learnIntroduction to Git
1

Introdução ao DVC

Este capítulo oferece uma introdução abrangente ao Data Version Control (DVC), uma ferramenta essencial para o versionamento de dados em Machine Learning. Você vai explorar a motivação por trás do versionamento de dados, entender suas diferenças em relação ao versionamento de código e experimentar um problema simples de classificação. Também vai revisar comandos básicos do Git, conhecer o DVC e praticar a criação de um repositório. O capítulo termina com uma visão geral dos recursos e casos de uso do DVC, incluindo versionamento de dados e modelos, CI/CD para Machine Learning, rastreamento de experimentos, pipelines e mais.
Iniciar capítulo
2

Configuração do DVC e Gerenciamento de Dados

Este capítulo aprofunda a configuração do DVC, abrangendo aspectos como instalação, inicialização do repositório e o uso do arquivo .dvcignore. Em seguida, passa pela exploração do cache do DVC e dos arquivos de staging, ensinando como adicionar e remover arquivos, gerenciar caches e compreender os mecanismos por trás do uso do hash MD5. O capítulo também esclarece o que são remotes do DVC, diferenciando-os dos remotes do Git, e orienta como adicioná-los, listá-los e modificá-los. Por fim, você aprende a interagir com esses remotes fazendo push e pull de dados, fazendo checkout de versões específicas e buscando dados para o cache.
Iniciar capítulo
3

Pipelines no DVC

Este capítulo foca na automação de pipelines de ML usando DVC. Você vai criar um arquivo de configuração com definições e hiperparâmetros. Também vai aprender sobre visualização de pipelines usando grafos acíclicos direcionados e utilizar comandos para descrever dependências, comandos e saídas. A execução de pipelines no DVC é abordada, incluindo o treino de modelos localmente e como o Git rastreia metadados do DVC. Além disso, você vai explorar o rastreamento de métricas e gráficos no DVC, incluindo como imprimir métricas, criar arquivos de plot e comparar métricas e gráficos entre diferentes etapas do pipeline.
Iniciar capítulo
Introdução ao Controle de Versão de Dados com DVC
Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenho
Inscreva-se agora

Faça como mais de 19 milhões de alunos e comece Introdução ao Controle de Versão de Dados com DVC hoje mesmo!

Crie sua conta gratuita

Continuar com o GoogleMostrar mais opções

ou


Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.