수천 개 기업의 학습자들이 사랑하는
2명 이상을 교육하시나요?
DataCamp for Business 체험강의 설명
선수 조건
LLM Application Fundamentals with LangChain1
LLM 애플리케이션 평가
평가 기초
정확도, 비용, 지연 시간(latency) 차원에서 성능을 측정하는 포괄적인 AI 애플리케이션 평가 시스템을 설계하는 방법을 배우게 됩니다. 평가 데이터셋과 알고리즘 매칭부터 LLM-as-judge 방식에 이르는 다양한 평가자 유형을 활용하여, 사전에 성공 기준을 수립하고 출시 가능한(release-ready) 애플리케이션을 향한 진행 과정을 측정하는 능력을 갖추게 됩니다.
평가 구현
LangSmith를 활용하여 데이터셋 생성, 평가 지표(evaluator) 정의, 실험 실행 등 실무적인 평가 시스템을 구축하는 방법을 배우게 됩니다. — 객관적 비교를 위한 알고리즘 기반 평가 지표, 주관적 평가를 위한 LLM-as-judge 평가 지표, 그리고 종합적인 품질 분석을 위한 다중 지표(multi-metric) 평가 지표를 직접 구축해 봅니다.
대화 평가
기준 기반 평가(criteria-based assessment)를 활용한 온라인 평가를 통해 대화형 AI 애플리케이션을 평가하는 방법을 학습합니다 — LLM-as-judge 평가자를 통해 턴 단위(turn-level) 및 전체 대화 평가 패턴을 구현함으로써 일관성, 작업 완료도, 효율성 전반에 걸쳐 챗봇 품질을 체계적으로 측정할 수 있게 됩니다.
LLM Application Evaluation with LangSmith
강의 완료
DataCamp for Mobile을 통해 데이터 분석 능력을 향상시키세요.
모바일 강좌와 매일 5분 코딩 챌린지를 통해 이동 중에도 학습 효과를 높이세요.