LLM Application Evaluation with LangSmith

1

LLM 应用评估

评估基础
您将学习如何设计全面的 AI 应用评估系统，从准确度、成本和延迟维度衡量性能。利用评估数据集和多种评估器类型（从算法匹配到 LLM-as-judge 方法），您将能够预先建立成功标准，并衡量在开发可发布应用过程中的进展。
评估实现
你将学习如何在实践中实现评估系统，使用 LangSmith 进行数据集创建、评估器定义和实验执行——构建用于客观比较的算法评估器，用于主观评估的 LLM-as-judge 评估器，以及用于全面质量分析的多指标评估器。
对话评估
你将学习如何使用基于准则的线上评估来评估对话式人工智能应用——通过 LLM-as-judge 评估器实现轮次级和全对话评估模式——使你能够从连贯性、任务完成度以及效率等方面系统地衡量聊天机器人的质量。