강의 설명

A description of the course.

평가 기초
정확도, 비용, 지연 시간(latency) 차원에서 성능을 측정하는 포괄적인 AI 애플리케이션 평가 시스템을 설계하는 방법을 배우게 됩니다. 평가 데이터셋과 알고리즘 매칭부터 LLM-as-judge 방식에 이르는 다양한 평가자 유형을 활용하여, 사전에 성공 기준을 수립하고 출시 가능한(release-ready) 애플리케이션을 향한 진행 과정을 측정하는 능력을 갖추게 됩니다.
평가 구현
LangSmith를 활용하여 데이터셋 생성, 평가 지표(evaluator) 정의, 실험 실행 등 실무적인 평가 시스템을 구축하는 방법을 배우게 됩니다. — 객관적 비교를 위한 알고리즘 기반 평가 지표, 주관적 평가를 위한 LLM-as-judge 평가 지표, 그리고 종합적인 품질 분석을 위한 다중 지표(multi-metric) 평가 지표를 직접 구축해 봅니다.
대화 평가
기준 기반 평가(criteria-based assessment)를 활용한 온라인 평가를 통해 대화형 AI 애플리케이션을 평가하는 방법을 학습합니다 — LLM-as-judge 평가자를 통해 턴 단위(turn-level) 및 전체 대화 평가 패턴을 구현함으로써 일관성, 작업 완료도, 효율성 전반에 걸쳐 챗봇 품질을 체계적으로 측정할 수 있게 됩니다.

LLM Application Evaluation with LangSmith

강의
완료

수료증 획득

LinkedIn 프로필, 이력서 또는 CV에 이 자격증을 추가하세요
소셜 미디어와 성과 평가에서 공유하세요지금 등록

또는

계속 진행하시면 당사의 이용약관, 개인정보처리방침 및 귀하의 데이터가 미국에 저장되는 것에 동의하시는 것입니다.