Pré-processamento para aprendizado de máquina em Python
"Aprenda a limpar e preparar seus dados para aprendizado de máquina!"
Comece O Curso Gratuitamente4 horas20 vídeos62 exercícios
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.Treinar 2 ou mais pessoas?Experimente o DataCamp For Business
Amado por alunos de milhares de empresas
Descrição do Curso
Este curso aborda os conceitos básicos de como e quando realizar o pré-processamento de dados. Essa etapa essencial em qualquer projeto de aprendizado de máquina é quando você prepara os dados para a modelagem. Entre a importação e a limpeza dos dados e o ajuste do modelo de aprendizado de máquina é quando o pré-processamento entra em ação. Você aprenderá a padronizar seus dados para que estejam no formato certo para o seu modelo, criar novos recursos para aproveitar melhor as informações do seu conjunto de dados e selecionar os melhores recursos para melhorar o ajuste do modelo. Por fim, você terá alguma prática de pré-processamento ao obter um conjunto de dados sobre avistamentos de UFO prontos para modelagem.
Para Empresas
Treinar 2 ou mais pessoas?
Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizadosNas seguintes faixas
Cientista de aprendizado de máquina com Python
Ir para a trilha- 1
Introdução ao pré-processamento de dados
GratuitoNeste capítulo, você aprenderá exatamente o que significa pré-processar dados. Você dará os primeiros passos em qualquer jornada de pré-processamento, incluindo a exploração de tipos de dados e o tratamento de dados ausentes.
- 2
Padronização de dados
Este capítulo trata da padronização de dados. Geralmente, um modelo faz algumas suposições sobre a distribuição ou a escala de seus recursos. A padronização é uma maneira de fazer com que seus dados se ajustem a essas suposições e melhorem o desempenho do algoritmo.
Padronização50 xpQuando padronizar50 xpModelagem sem normalização100 xpNormalização de logs50 xpVerificação da variação50 xpNormalização de registros em Python100 xpEscalonamento de dados para comparação de recursos50 xpDimensionamento de dados - investigando colunas50 xpDimensionamento de dados - padronização de colunas100 xpDados e modelagem padronizados50 xpKNN em dados não escalonados100 xpKNN em dados escalonados100 xp - 3
Engenharia de recursos
Nesta seção, você aprenderá sobre engenharia de recursos. Você explorará diferentes maneiras de criar recursos novos e mais úteis a partir dos que já estão em seu conjunto de dados. Você verá como codificar, agregar e extrair informações de recursos numéricos e textuais.
Engenharia de recursos50 xpTeste de conhecimento de engenharia de recursos50 xpIdentificação de áreas para engenharia de recursos50 xpCodificação de variáveis categóricas50 xpCodificação de variáveis categóricas - binárias100 xpCodificação de variáveis categóricas - one-hot100 xpRecursos numéricos de engenharia50 xpAgregação de recursos numéricos100 xpExtração de componentes de data e hora100 xpRecursos de texto de engenharia50 xpExtração de padrões de string100 xpVetorização de texto100 xpClassificação de texto usando vetores tf/idf100 xp - 4
Seleção de recursos para modelagem
Este capítulo aborda algumas técnicas diferentes para selecionar os recursos mais importantes do seu conjunto de dados. Você aprenderá a eliminar recursos redundantes, trabalhar com vetores de texto e reduzir o número de recursos em seu conjunto de dados usando a análise de componentes principais (PCA).
Seleção de recursos50 xpQuando usar a seleção de recursos50 xpIdentificação de áreas para seleção de recursos50 xpRemoção de recursos redundantes50 xpSeleção de recursos relevantes100 xpVerificação de recursos correlacionados100 xpSeleção de recursos usando vetores de texto50 xpExplorando vetores de texto, parte 1100 xpExplorando vetores de texto, parte 2100 xpTreinamento do Naive Bayes com seleção de recursos100 xpRedução da dimensionalidade50 xpUsando PCA100 xpTreinamento de um modelo com PCA100 xp - 5
Colocando tudo junto
Agora que você já aprendeu tudo sobre pré-processamento, você testará essas técnicas em um conjunto de dados que registra informações sobre avistamentos de UFO.
UFOs e pré-processamento50 xpVerificação dos tipos de coluna100 xpEliminação de dados ausentes100 xpVariáveis categóricas e padronização50 xpExtração de números de cadeias de caracteres100 xpIdentificação de recursos para padronização100 xpEngenharia de novos recursos50 xpCodificação de variáveis categóricas100 xpRecursos de datas100 xpVetorização de texto100 xpSeleção e modelagem de recursos50 xpSelecionando o conjunto de dados ideal100 xpModelagem do conjunto de dados UFO, parte 1100 xpModelagem do conjunto de dados UFO, parte 2100 xpParabéns!50 xp
Para Empresas
Treinar 2 ou mais pessoas?
Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizadosNas seguintes faixas
Cientista de aprendizado de máquina com Python
Ir para a trilhacolaboradores
James Chapman
Ver MaisCurriculum Manager, DataCamp
O que os outros alunos têm a dizer?
Junte-se a mais de 14 milhões de alunos e comece Pré-processamento para aprendizado de máquina em Python hoje mesmo!
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.