Langfuse и LangSmith: сравнение платформ наблюдаемости LLM

Сравните Langfuse и LangSmith по трассировке, оцениванию, наблюдаемости, управлению промптами и мониторингу продакшена, чтобы выбрать платформу для ваших LLM-приложений.

Обновлено 24 июн. 2026 г. · 13 мин читать

Когда чат-бот начинает давать плохие ответы, первое желание — проверить промпт. Это работает для одного вызова LLM. Но перестаёт работать, когда приложение — это агент, который вызывает инструменты.

Именно этот недостающий контекст и пытаются дать платформы наблюдаемости LLM. Это не классические средства мониторинга приложений. Традиционный инструмент расскажет о задержках и ошибках. Платформа наблюдаемости LLM подскажет, какой вызов инструмента вернул плохой результат и помогло ли изменение промпта улучшить качество вывода.

И Langfuse, и LangSmith покрывают трассировку, оценку и управление промптами, и обе получили крупные обновления в начале 2026 года. Но они не взаимозаменяемы. Разница упирается в требования к развёртыванию, технологический стек и то, как ваша команда проводит оценки.

Короткий ответ: Langfuse подходит командам, которым нужен открытый исходный код для самостоятельного хостинга, контроль над данными или стек вне LangChain. LangSmith подходит командам, которые уже строят решения на LangChain или LangGraph, хотя он больше не ограничен этой экосистемой. Если ни одно из условий не выполняется, смотрите на цены.

Что такое Langfuse и LangSmith?

В общих чертах оба продукта делают приложения на базе LLM наблюдаемыми, тестируемыми и отлаживаемыми. Вот что представляет собой каждый из них.

Обзор позиционирования платформ Langfuse и LangSmith. Изображение автора.

Что такое Langfuse?

Langfuse — это платформа инженерии LLM с открытым исходным кодом, запущенная в 2023 году. Она покрывает трассировку, управление промптами, оценивание (LLM-as-judge, разметка людьми и проверки кодом), эксперименты с датасетами, а также мониторинг стоимости и задержек. Базовый продукт с открытым исходным кодом распространяется по лицензии MIT.

В январе 2026 года ClickHouse объявила о раунде Series D на $400 млн и приобрела Langfuse. Теперь Langfuse — часть ClickHouse, колоночной базы данных, которая и так лежала в основе бэкенда Langfuse. На тот момент было подтверждено, что лицензия MIT и идентичность open-source остаются без изменений.

Langfuse доступен как управляемый облачный сервис с регионами в США, ЕС и Японии, а также как самохостимая open-source инстанс без лицензионной платы за ПО.

Что такое LangSmith?

LangSmith — это платформа наблюдаемости и оценивания, созданная LangChain Inc., командой, стоящей за LangChain и LangGraph. Платформа проприетарная и закрытая. В октябре 2025 года LangChain привлекла $125 млн при оценке $1,25 млрд.

Её основные возможности включают трассировку всего прогона приложения, визуальную отладку, автоматические оценки, мониторинг продакшена и управление промптами через Prompt Hub и Playground. В мае 2026 года LangChain запустила SmithDB — слой данных на Rust, который теперь обрабатывает 100% приёма данных LangSmith в US Cloud. SmithDB снижает P50 загрузки дерева трассировки до 92 мс и полнотекстовый поиск — до 400 мс.

LangSmith доступен как управляемый облачный сервис, гибридное развёртывание с плоскостью данных в VPC клиента или как самохостимое корпоративное решение.

Open Source и управляемый SaaS

Ключевое отличие между платформами — не просто «открытый код против закрытого». Реальная разница — в контроле и портируемости с одной стороны и в соответствии LangChain/LangGraph — с другой. Langfuse позволяет запускать стек на собственной инфраструктуре без лицензионных затрат. LangSmith требует меньше настройки, когда ваше приложение уже работает на LangChain или LangGraph.

Есть обновление, которое меняет ракурс сравнения: LangSmith теперь поддерживает трассировку OpenTelemetry через пакет langsmith[otel] и переменную окружения LANGSMITH_OTEL_ENABLED=true. LangSmith больше не ограничен приложениями только на LangChain. Самая тесная интеграция по-прежнему с LangGraph, как я расскажу в разделе о трассировке.

Вот как платформы расположены структурно:

Измерение	Langfuse	LangSmith
Модель исходников	Open source (MIT)	Проприетарная, закрытый исходный код
Самостоятельный хостинг	Бесплатный самохостинг по MIT; корпоративные функции — платно	Требуется корпоративный контракт
Подход к фреймворкам	Работает с разными фреймворками; широкие интеграции; нативная поддержка OTel	Лучше всего подходит для LangChain/LangGraph; поддержка OTel
Суверенитет данных	Полный; возможна изолированная (air-gapped) инсталляция	Гибрид и самохостинг для корпоративных клиентов
Бэкенд-база данных	ClickHouse	SmithDB (Rust/DataFusion)
Модель ценообразования	По единицам (трейсы + наблюдения + оценки)	По пользователям плюс по трейсам с двумя уровнями хранения
Соответствие стандартам	SOC 2 Type II, ISO 27001, GDPR, HIPAA	SOC 2 Type II, GDPR, HIPAA

Далее в статье разбирается, что эти различия означают на практике.

Трассировка и наблюдаемость

Трассировка — место, где продукты начинают расходиться. Оба фиксируют вызовы LLM, вызовы инструментов и сопутствующие метаданные, но в агентных сценариях различия проявляются быстрее, чем в простых приложениях «промпт–ответ».

Трассировка запросов

Langfuse строит иерархические трейсы, которые фиксируют вызовы LLM, обращения к инструментам, эмбеддинги и шаги извлечения. Можно фильтровать по пользователю, сессии, стоимости, задержке или пользовательским метаданным. В мае 2026 года Langfuse добавил полнотекстовый поиск на базе встроенного FTS-движка ClickHouse, сократив прежние 20 секунд поиска до менее чем полсекунды.

LangSmith фиксирует каждый вызов LLM и использование инструментов в виде дерева прогонов, доступного для инспекции. Поскольку SmithDB теперь обрабатывает весь приём данных US Cloud, деревья трассировок загружаются при P50 за 92 мс. В LangSmith также есть неконтролируемая кластеризация тем, которая группирует трейсы по обнаруженным темам и даёт точку отсчёта, когда непонятно, в чём проблема.

Видимость агентных рабочих процессов

Langfuse добавил Agent Graphs в ноябре 2025 года — визуализацию потока выполнения для многошаговых агентов с выводом структуры графа по таймингам и вложенности наблюдений. Работает с любым инструментированным фреймворком, включая нативную поддержку LangGraph. В то же время появился Trace Log View — плоский поток шагов агента для сценариев с активными циклами или ветвлениями.

Граф агента Langfuse для выполнения LangGraph. Изображение автора.

Трассировка LangGraph в LangSmith фиксирует каждый узел, ребро и переход состояний в прогоне без какой-либо конфигурации, кроме установки переменной окружения. LangSmith Studio позволяет шагать по исполнению агента, инспектировать состояние в каждом узле и воспроизводить трейс с другой моделью или промптом. В приложении на LangGraph это даёт больше контекста, чем общее дерево трассировки.

Дерево трассировки LangSmith для агентного рабочего процесса. Изображение автора.

Мониторинг в продакшене

Для продакшен-мониторинга обе платформы отслеживают задержки, использование токенов, стоимость и частоту ошибок. В LangSmith есть оповещения через PagerDuty и вебхуки для инцидентов в продакшене. В Langfuse — оповещения о расходах с настраиваемыми порогами. На этом уровне возможности мониторинга схожи.

Оффлайн- и онлайн-оценивание

Трассировка говорит, что произошло. Оценивание показывает, было ли это хорошо. На практике инструменты полезнее, когда оценка — часть процесса, а не чек-лист перед релизом.

LLM-as-a-judge и оценивание кодом

Компонент LLM-as-judge в Langfuse стал полностью open-source под MIT в июне 2025 года. Любой самохостимый пользователь на v3.65.0 и выше получает его без коммерческой лицензии. В мае 2026 года Langfuse выпустил Code Evaluators: функции evaluate на Python или TypeScript, которые вы пишете прямо в интерфейсе Langfuse. Они выполняют детерминированные проверки — например, валидацию JSON-схем, проверку по regex или верификацию аргументов инструментов — без затрат на токены или вызова оценочной модели.

LangSmith предлагает настраиваемые LLM-as-judge-оценщики с типами обратной связи Boolean, Categorical и Continuous, а также встроенные шаблоны для Security, Safety и Quality. Поддерживается и few-shot correction: размеченные человеком правки результатов оценщика возвращаются как few-shot-примеры, со временем улучшая калибровку оценщика.

Датасеты, эксперименты и разметка людьми

Оффлайн-оценивание реализовано на обеих платформах через датасеты и покомпонентное сравнение экспериментов. Langfuse добавил Score Analytics в ноябре 2025 года для измерения согласованности оценщиков по precision, recall, F1, стоимости и точности. Baseline comparison, также в ноябре 2025, позволяет пометить конкретный прогон как эталон и выявлять регрессии относительно него.

Интеграция Langfuse с GitHub Actions для CI/CD, выпущенная в мае 2026 через langfuse/experiment-action, «роняет» пайплайн, когда оценки экспериментов падают ниже порога. Это превращает оценивание в шлюз деплоя, а не в пострелизный обзор.

Цикл оценивания Langfuse с GitHub Actions. Изображение автора.

В настройке LangSmith есть момент, который важно отметить заранее: оценщики, добавляющие обратную связь к трейсам, автоматически переводят эти трейсы в расширенное хранение. Как я опишу в разделе про цены, это меняет стоимость процессов оценивания.

Версионирование промптов, деплой и A/B-тестирование

Управление промптами — это больше, чем история версий. Процесс такой: итерации в песочнице, тестирование на датасете, вывод в продакшен и аккуратный откат, когда что-то ломается.

Langfuse присваивает каждому промпту идентификатор версии и использует метки production и staging, чтобы управлять активной версией. Изменение метки в интерфейсе — это и есть деплой или откат. SDK кэширует промпты на стороне клиента, поэтому к производственным вызовам не добавляется задержка при получении активной версии. Защищённые метки позволяют администраторам ограничить роли, которые могут менять метку production, что важно при разном уровне доступа у участников.

LangSmith управляет промптами через LangChain Hub с версионированием по хэшу коммита для программной фиксации конкретных версий. В Prompt Hub есть библиотека сообщества, которую Langfuse не дублирует. A/B-тестирование через эксперименты с датасетами доступно на обеих платформах.

В этой категории продукты ближе друг к другу, чем в вопросах хостинга, цен и настройки фреймворков.

Langfuse и LangSmith для агентных приложений

Агенты во многом определяли развитие функций обеих платформ за последний год. Здесь важно, на чём построен агент.

Langfuse показывает доступные инструменты, выделяет вызванные, а также аргументы и идентификаторы вызовов. Расширенные типы наблюдений различают вызовы инструментов, эмбеддинги и вызовы гардреилов в представлении трассировки. Как я упоминал выше, Code Evaluators также могут проверять аргументы инструментов по схеме. MCP-сервер в мае 2026 расширили до 15 категорий инструментов, поэтому агенты в Claude Code, Cursor или OpenAI Codex могут программно запрашивать данные Langfuse.

Тезис про LangGraph из раздела трассировки здесь повторяется. Поддержка агентов в LangSmith включает инспекцию состояния в каждом узле, воспроизведение трейса с альтернативными моделями и LangSmith Studio для пошаговой визуальной отладки. Команда Monte Carlo, у которой в продакшене сотни субагентов, назвала эту нулевую настройку интеграции с LangGraph ключевой причиной выбора.

Для агентов, созданных на CrewAI, Pydantic AI или других мультиагентных фреймворках, у Langfuse шире нативная инструментализация и зачастую требуется меньше ручной настройки.

Интеграции с фреймворками и SDK

Langfuse заявляет широкие интеграции с провайдерами моделей, фреймворками, шлюзами, no-code-инструментами, аналитикой и дев-инструментами. Среди фреймворков — LangChain, LangGraph, OpenAI Agents SDK, Pydantic AI, CrewAI, AutoGen, DSPy, Haystack, LlamaIndex и другие. Платформа нативно поддерживает OpenTelemetry на уровне SDK.

Нативные SDK LangSmith охватывают Python, TypeScript, Go и Java. Помимо LangChain и LangGraph, он работает с OpenAI SDK, Anthropic SDK, Vercel AI SDK, LlamaIndex, кастомными реализациями и OpenTelemetry. То есть это не только инструмент трассировки для LangChain, хотя LangGraph остаётся наилучшим соответствием.

Практический вопрос не только в том, поддерживается ли фреймворк (большинство популярных работает с обеими платформами). Важно, сколько инструментирования нужно писать. LangGraph получает нулевую настройку трассировки в LangSmith. Другим фреймворкам часто проще в Langfuse. Объём настройки зависит от стека.

Langfuse Open Source и LangSmith Enterprise

Самостоятельный хостинг сильнее влияет на эксплуатацию и соответствие требованиям, чем большинство функциональных категорий.

Самохостинг Langfuse бесплатен по MIT. Docker Compose подходит для разработки или оценивания; для продакшена обычно используют Kubernetes с Helm на GKE, EKS или AKS. В стек входят ClickHouse, PostgreSQL, Redis и S3-совместимое хранилище, с рекомендованным минимумом ВМ: 4 ядра и 16 ГиБ ОЗУ. Лицензия на ПО ничего не стоит, но инфраструктуру и операции берёт на себя ваша команда. Платная самохостимая Enterprise-редакция добавляет выделенную поддержку, журналы аудита, SCIM и SLA.

По соответствию требованиям: Langfuse Cloud имеет SOC 2 Type II, ISO 27001, GDPR и HIPAA. LangSmith Cloud — SOC 2 Type II, GDPR и HIPAA. ISO 27001 для LangSmith не указан. Если это обязательный пункт в закупочных процедурах, это ощутимая разница.

Самохостинг LangSmith требует корпоративного договора. Бесплатного open-source-пути к самохостингу нет. Три модели развёртывания (облако, гибрид и самохостинг) относятся к корпоративному предложению. SmithDB для самохостинга LangSmith в статусе раннего доступа на май 2026, ещё не доступен в общем порядке.

Цены Langfuse и LangSmith

Заголовочные цены не отражают всей картины.

В этой категории цены также часто меняются. Приведённые ниже числа соответствуют официальным страницам, проверенным в июне 2026 года, но перед бюджетированием сверяйтесь с актуальными страницами цен.

Цены Langfuse

Langfuse Cloud взимает плату по единицам: одна единица равна одному трейсу, одному наблюдению или одной оценке. Формула Units = Traces + Observations + Scores, поэтому запуск агента с большим числом инструментов может стоить больше, чем простой трейс «промпт–ответ». Бесплатный план Hobby включает 50 000 единиц в месяц, хранение 30 дней и двух пользователей. Core стоит $29/мес. со 100 000 включённых единиц, неограниченными пользователями и хранением 90 дней. Pro — $199/мес. с доступом к данным за 3 года и сертификатами соответствия. Enterprise — от $2 499/мес. с индивидуальным объёмным тарифом. Перерасход — от $8 за каждые 100 000 дополнительных единиц.

Как я уже упоминал, самохостимый Langfuse не имеет стоимости лицензии ПО. SCIM, журналы аудита и корпоративная поддержка требуют коммерческой лицензии.

Цены LangSmith

LangSmith берёт плату за пользователя и за трейс. План Developer бесплатен: 5 000 трейсов в месяц, одно место и хранение 14 дней. Plus стоит $39 за место в месяц с 10 000 включённых базовых трейсов. Базовые трейсы хранятся 14 дней; расширенные — 400 дней и стоят дороже. Команда из пяти человек на Plus платит $195/мес. за места до перерасхода по трейсам. Enterprise — по согласованию.

Механика хранения данных

Как я упоминал, расширенное хранение включается автоматически, когда к трейсам добавляется обратная связь от оценщиков. Перед настройкой пайплайнов оценивания прочитайте документацию по биллингу LangSmith о авто-переводе в расширенное хранение.

Эти детали важны, потому что небольшие различия в глубине трейса, использовании оценщиков и хранении способны изменить ежемесячный счёт.

Сравнительная таблица Langfuse и LangSmith

Как я уже говорил, основные различия — владение, соответствие фреймворку, процесс оценивания и цены. Таблица ниже сжимает эти моменты перед итоговыми разделами с рекомендациями.

Функция	Langfuse	LangSmith
Открытый исходный код	Да (MIT)	Нет (проприетарный)
Самостоятельный хостинг	Бесплатный самохостинг по MIT; корпоративные функции — платно	Требуется корпоративный контракт
Оценивание	LLM-as-judge (MIT), оценка кодом, разметка людьми, CI/CD	LLM-as-judge, разметка людьми, онлайн-оценщики, few-shot correction
Управление промптами	Деплой на базе меток, кэширование в SDK, композиция промптов	Версионирование по хэшу коммита, общественный Prompt Hub
Экосистема	Широкие интеграции, нативный OTel, работает с разными фреймворками	Лучшее соответствие для LangChain/LangGraph; поддержка OTel
Поддержка агентов	Agent Graphs, Trace Log View, Code Evaluators, MCP-сервер	LangSmith Studio, нативная трассировка LangGraph, инспекция состояния
Соответствие стандартам	SOC 2 Type II, ISO 27001, GDPR, HIPAA	SOC 2 Type II, GDPR, HIPAA
Модель ценообразования	По единицам; неограниченные пользователи в платных планах	По пользователям + по трейсам; два уровня хранения
Кому подходит	Суверенитет данных, стеки без LangChain, оценивание в CI/CD	Команды на LangGraph, предпочтение управляемому SaaS

Ошибки при выборе платформы наблюдаемости LLM

Во-первых, на мой взгляд: не фокусируйтесь только на трассировке. Трассировка показывает, что произошло, но оценка показывает, насколько хорош результат. Если выбирать только по визуализации трасс, критерий будет неверным.

Во-вторых: следите за механикой ценообразования. Как сказано выше, стоимость Langfuse растёт с глубиной трейса, а расширенное хранение в LangSmith может изменить стоимость автоматического оценивания. Посчитайте заранее до продакшена.

В-третьих, самохостинг в продуктах означает разное. Раздел о самохостинге выше показывает почему. Если суверенитет данных — жёсткое требование, это может стать решающим фактором.

Наконец, не принимайте решение только по совместимости с фреймворками. Стеки меняются. Требования к развёртыванию и процессы оценивания труднее поменять позже.

Когда выбрать Langfuse

С учётом описанных компромиссов Langfuse лучше подходит, когда:

Ваша команда в основном не использует LangChain или LangGraph и строит решения на CrewAI, Pydantic AI, LlamaIndex или прямых API-вызовах OpenAI или Anthropic.
Суверенитет данных не обсуждается, и входы/выходы LLM и трейсы должны оставаться на вашей инфраструктуре.
Ваш чек-лист по соответствию требует ISO 27001 в дополнение к SOC 2 и HIPAA.
Команде нужен CI/CD-интегрированный процесс оценивания с автоматическими «воротами» регрессий через GitHub Actions.
Вам нужна предсказуемая стоимость для растущей команды, так как в платных облачных планах пользователи не ограничены.

Когда выбрать LangSmith

По тем же критериям LangSmith лучше подходит, когда:

Вы строите на LangGraph и хотите нулевую настройку трассировки, нативную визуализацию графа и пошаговую отладку в LangSmith Studio.
Команде нужна управляемая платформа без собственной инфраструктуры.
Вы цените общественный Prompt Hub для поиска и обмена промптами за пределами вашей организации.
Ваши потребности выходят за рамки наблюдаемости и включают более широкую платформу LangSmith, которая теперь охватывает развёртывание агентов и управление Fleet.

Вывод

И Langfuse, и LangSmith решают реальную задачу и сильно изменились за последний год. На данном этапе компромисс очевиден.

Дело не в том, у какой платформы больше функций. Это вопрос владения и экосистемы, о чём говорилось выше. Нужно ли вам контролировать стек данных или вы хотите меньше настроек внутри мира LangChain/LangGraph?

Одна оговорка перед выбором: обе платформы часто меняются. Проверьте журналы изменений перед тем, как принимать решение.

Для дополнительного контекста по экосистеме LangChain см. наш туториал «LangChain vs. LangGraph vs. LangSmith vs. LangFlow».

Могу ли я позже перейти с LangSmith на Langfuse?

Поддерживает ли Langfuse самохостинг после покупки ClickHouse?

Подходит ли LangSmith только для приложений на LangChain?

Как работает биллинг за расширенное хранение в LangSmith?

Достаточен ли тариф Hobby в Langfuse, чтобы полноценно оценить платформу?

Для отдельных разработчиков — да. Лимит 50 000 единиц в месяц и хранение 30 дней достаточно, чтобы подключить приложение и изучить реальные трейсы. Для продакшен-оценивания важен самохостинг из раздела выше, потому что версия MIT снимает ограничения на единицы и пользователей.

Темы

Искусственный интеллект