Pular para o conteúdo principal

Curso

Feature Engineering para NLP em Python

AvançadoNível de habilidade

Atualizado 11/2024

Aprenda técnicas para extrair informações de textos e processá-las em um formato adequado para aprendizado de máquina.

Iniciar curso gratuitamente

PythonMachine Learning

4 h

15 vídeos

52 Exercícios

4,200 XP

29,246

Declaração de realização

Preferido por alunos de milhares de empresas

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

Neste curso, você vai aprender técnicas para extrair informações úteis de textos e processá-las em um formato adequado para aplicar modelos de Machine Learning. Mais especificamente, você vai aprender sobre marcação de classes gramaticais (POS tagging), reconhecimento de entidades nomeadas, índices de legibilidade, os modelos de n-gramas e tf-idf, e como implementá-los usando scikit-learn e spaCy. Você também vai aprender a calcular o quão similares dois documentos são entre si. No processo, você vai prever o sentimento de críticas de filmes e construir recomendadores de filmes e de TED Talks. Ao final, você será capaz de criar features essenciais a partir de qualquer texto e resolver alguns dos problemas mais desafiadores em ciência de dados!

Pré-requisitos

Introduction to Natural Language Processing in Python Supervised Learning with scikit-learn

1

Features básicas e índices de legibilidade

Aprenda a calcular features básicas como número de palavras, número de caracteres, comprimento médio das palavras e quantidade de caracteres especiais (como hashtags e menções do Twitter). Você também vai aprender a calcular índices de legibilidade e a determinar o nível de escolaridade necessário para compreender um texto.

Introdução à engenharia de features em NLP

Formato de dados para algoritmos de ML

Codificação one-hot

Extração básica de atributos

Contagem de caracteres de tweets russos

Contagem de palavras dos TED Talks

Hashtags e menções em tweets em russo

Testes de legibilidade

Legibilidade de 'O Mito de Sísifo'

Legibilidade de várias publicações

Iniciar capítulo

2

Pré-processamento de texto, POS tagging e NER

Neste capítulo, você vai aprender sobre tokenização e lematização. Em seguida, verá como realizar limpeza de texto, marcação de classes gramaticais (part-of-speech) e reconhecimento de entidades nomeadas usando a biblioteca spaCy. Depois de dominar esses conceitos, você vai tornar o discurso de Gettysburg legível por máquina, analisar o uso de substantivos em notícias falsas e identificar pessoas mencionadas em um artigo do TechCrunch.

Tokenização e Lematização

Identificando lemas

Tokenizando o Discurso de Gettysburg

Lematizando o discurso de Gettysburg

Limpeza de texto

Limpando uma postagem de blog

Limpando TED Talks em um dataframe

Marcação de classe gramatical (part-of-speech)

Marcação de classe gramatical (POS) em Lord of the Flies

Contando substantivos em um texto

Uso de substantivos em fake news

Reconhecimento de entidades nomeadas

Entidades nomeadas em uma frase

Identificando pessoas mencionadas em uma notícia

Iniciar capítulo

3

Modelos de N-gramas

Aprenda sobre modelagem com n-gramas e use isso para realizar análise de sentimento em críticas de filmes.

Construindo um modelo de bag of words

Vetores de palavras com um vocabulário dado

Modelo BoW para slogans de filmes

Analisando dimensionalidade e pré-processamento

Mapeando índices de features com nomes de features

Construindo um classificador Naive Bayes com BoW

Vetores BoW para críticas de filmes

Prevendo o sentimento de uma resenha de filme

Construindo modelos de n-gramas

Modelos de n-gramas para slogans de filmes

N-grams de ordem superior para análise de sentimento

Comparando o desempenho de modelos n-gram

Iniciar capítulo

4

TF-IDF e medidas de similaridade

Aprenda a calcular pesos tf-idf e a medida de similaridade de cosseno entre dois vetores. Você vai usar esses conceitos para construir um recomendador de filmes e de TED Talks. Por fim, você também vai aprender sobre word embeddings e, usando representações vetoriais de palavras, vai calcular similaridades entre várias músicas do Pink Floyd.

Construindo vetores de documentos com tf-idf

Peso tf-idf de palavras que ocorrem com frequência

Vetores tf-idf para TED Talks

Similaridade do cosseno

Faixa de valores do cosseno

Calculando o produto escalar

Matriz de similaridade do cosseno de um corpus

Criando um recomendador baseado no enredo

Comparando linear_kernel e cosine_similarity

Mecanismo de recomendação de enredos

A função de recomendação

Recomendador de TED Talks

Além de n-grams: embeddings de palavras

Gerando vetores de palavras

Calculando a similaridade de músicas do Pink Floyd

Iniciar capítulo

Feature Engineering para NLP em Python

Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenhoInscreva-se agora

Faça como mais de 19 milhões de alunos e comece Feature Engineering para NLP em Python hoje mesmo!

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.