メインコンテンツへスキップ
ホームPython

コース

Pythonで学ぶNLPの特徴量エンジニアリング

上級スキルレベル
更新日 2024/11
テキストから有用な情報を抽出し、機械学習に適した形式へ処理する手法を学びます。
コースを無料で開始
PythonMachine Learning4時間15 ビデオ52 演習4,200 XP28,897達成証明書

無料アカウントを作成

または

続行すると、弊社の利用規約プライバシーポリシーに同意し、データが米国に保存されることに同意したことになります。

数千の企業の学習者に愛されています

Group

2名以上のトレーニングをお考えですか?

DataCamp for Businessを試す

コース説明

このコースでは、テキストから有用な情報を抽出し、Machine Learningモデルに適した形式へ処理するための手法を学びます。具体的には、品詞(POS)タグ付け、固有表現抽出(NER)、可読性スコア、n-gramやtf-idfモデルについて取り上げ、scikit-learnとspaCyを使った実装方法を学習します。さらに、2つの文書同士の類似度を計算する方法も扱います。学習の過程では、映画レビューの感情を予測し、映画とTED Talkのレコメンダを作成します。修了後は、あらゆるテキストから重要な特徴量を設計し、データサイエンスにおける難しい課題のいくつかを解決できるようになります。

前提条件

Introduction to Natural Language Processing in PythonSupervised Learning with scikit-learn
1

Basic features and readability scores

Learn to compute basic features such as number of words, number of characters, average word length and number of special characters (such as Twitter hashtags and mentions). You will also learn to compute readability scores and determine the amount of education required to comprehend a piece of text.
チャプター開始
2

Text preprocessing, POS tagging and NER

In this chapter, you will learn about tokenization and lemmatization. You will then learn how to perform text cleaning, part-of-speech tagging, and named entity recognition using the spaCy library. Upon mastering these concepts, you will proceed to make the Gettysburg address machine-friendly, analyze noun usage in fake news, and identify people mentioned in a TechCrunch article.
チャプター開始
3

N-Gram models

4

TF-IDF and similarity scores

Pythonで学ぶNLPの特徴量エンジニアリング
コース完了

修了証明書を取得

この資格をLinkedInプロフィール、履歴書、CVに追加しましょう
ソーシャルメディアや人事評価で共有しましょう
今すぐ登録

19百万人を超える学習者と一緒にPythonで学ぶNLPの特徴量エンジニアリングを今日から始めましょう!

無料アカウントを作成

または

続行すると、弊社の利用規約プライバシーポリシーに同意し、データが米国に保存されることに同意したことになります。

DataCamp for Mobileでデータスキルを磨きましょう

モバイル コースと毎日の 5 分間のコーディング チャレンジで、外出先でも進歩できます。