コース説明

A description of the course.

評価の基礎
精度、コスト、レイテンシの各側面からパフォーマンスを測定する、包括的なAIアプリケーション評価システムの設計方法を学びます。評価データセットと、アルゴリズムによるマッチングからLLM-as-a-judgeのアプローチまで、複数のエバリュエータータイプを活用することで、事前に成功基準を確立し、リリース可能なアプリケーションに向けた進捗を測定できるようになります。
評価の実装
LangSmithを使用したデータセットの作成、評価器の定義、実験の実行を通じて、評価システムを実践的に実装する方法を学びます。客観的な比較のためのアルゴリズム評価器、主観的な評価のためのLLM-as-judge評価器、そして網羅的な品質分析のためのマルチメトリクス評価器を構築していきます。
対話の評価
基準ベースのアセスメントを用いたオンライン評価による、会話型AIアプリケーションの評価方法を学びます。 — LLM-as-judgeエバリュエーターを通じてターンレベルおよび会話全体の評価パターンを実装することで — 一貫性、タスク完了度、効率性にわたるチャットボットの品質を体系的に測定できるようになります。

LLM Application Evaluation with LangSmith

コース完了

修了証明書を取得

この修了書をLinkedInや履歴書、CVに追加しましょう
ソーシャルメディアや人事評価で共有しましょう今すぐ登録

AIチューターとは何ですか?

DataCampのAIチューターは、あなたの役割、レベル、目標に合わせて、すべてのレッスンをリアルタイムでパーソナライズします。世界第1位のAIチューターが教えるコースで、AIとデータをより速く、より賢く学べます。あなたのペース、あなたの知識、あなたの目標。さらに詳しく

ビジネス向け

すべての機能を含む完全なDataCampプラットフォームにチームでアクセス。

AIチューター

Yusuf Saber

Chief AI Officer, DataCamp