一站式 LLM 工程观测平台：Langfuse，让所有操作可观测

发布日期：2024-12-18 09:17:46 浏览次数： 4603

作者：老码小张

微信搜一搜，关注“老码小张”

近两年，随着大模型（LLM，Large Language Model）技术的飞速发展，越来越多的开发者开始构建基于 LLM 的应用。但在实际开发过程中，我们会发现有一些绕不开的“痛点”，比如：

• 如何实时观察模型的运行情况？
• 怎么高效管理和迭代 Prompt？
• 如何评估 LLM 的输出质量？
• 数据从哪里来，又该如何测试？

这些问题如果逐一手动解决，可能会浪费大量时间和精力。今天就给大家介绍一个开源工具——Langfuse，它是一个一站式的 LLM 工程平台，能帮开发者解决从开发到监控的一系列问题。

为什么需要 Langfuse？

对于用 LLM 构建的产品，开发者通常面临如下挑战：

1. 模型监控难
LLM 的运行是一个“黑箱”，我们需要知道调用了哪些 API，消耗了多少成本，运行速度怎么样，这些都需要监控工具。
2. Prompt 管理混乱
不断调整 Prompt 是开发过程中不可避免的，但如果没有一个集中式管理平台，很容易陷入版本混乱。
3. 质量评估复杂
如何衡量模型输出是否满足预期？人工打分？还是用另一个模型来评估？这其中需要明确的流程和工具支持。
4. 测试和实验繁琐
在上线前，我们需要对 Prompt 和模型进行大量的实验验证，确保最终的效果。这需要方便的测试和回归工具。

Langfuse^[1] 就是为了解决这些问题而生的，它能够让开发者专注于功能实现，而不用为基础工具链操心。

Langfuse 能做什么？

我们可以从三个方面来看 Langfuse 的核心功能：

1. 开发阶段：模型可观测性（LLM Observability）

Langfuse 提供强大的日志追踪功能，你可以通过集成 Langfuse 的 SDK，把每一次 LLM 的调用记录下来。

• 支持的语言：Python 和 JavaScript/TypeScript
• 集成方式：可直接替换 OpenAI SDK，或者作为 LangChain、LlamaIndex 的回调系统使用。

代码示例如下：

from langfuse import Langfuse

# 初始化 Langfuse
langfuse = Langfuse(api_key="your-public-key", secret="your-secret-key")

# 示例调用：记录一次 LLM 调用
langfuse.trace(
    name="Generate Product Description",
    metadata={"model": "gpt-4", "prompt_length": 200},
    output="This is a sample response"
)

借助这些日志，你可以轻松分析以下信息：

• API 的响应时间和成本
• 调用链的执行流程
• 错误率和性能瓶颈

甚至还可以通过集成到 OpenAI、LangChain 等库，完成自动化的数据采集！

2. 管理阶段：Prompt 管理和版本控制

Prompt 是构建 LLM 应用的核心，但随时间推移，不同版本的 Prompt 可能会导致逻辑混乱。Langfuse 提供了一个集中管理和版本控制的功能，帮助开发者高效组织 Prompt。

核心功能：

• 版本管理：记录 Prompt 的每次修改，支持回滚到之前的版本。
• Prompt 调试：通过 Prompt Playground 快速测试和调整 Prompt。

用户输入Prompt 版本 1Prompt 版本 2模型输出优化

3. 测试阶段：模型评估与实验管理

Langfuse 提供完善的 LLM 评估功能，支持多种方式：

1. 人工打分：开发者或用户手动评价模型输出质量。
2. 模型评估：用另一个 LLM 模型作为“裁判”打分。
3. 自动化测试：提供数据集和基准测试功能，提前发现潜在问题。

一个简单的实验配置代码示例：

langfuse.evaluate(
    model_output="The quick brown fox",
    reference_output="A quick, brown fox",
    metrics=["similarity", "fluency"]
)

这可以帮助团队在上线前，快速定位模型问题，并优化产品体验。

Langfuse 的部署方式

Langfuse 提供两种主要的部署模式：

1. 云端部署（Langfuse Cloud）
开箱即用，适合个人开发者和小团队。免费计划无需信用卡，直接上手！
2. 本地部署（Self-hosted）
如果你对数据隐私要求高，也可以选择本地化部署，只需一个 Docker 容器和 PostgreSQL 数据库即可。

本地部署的命令如下：

# 克隆仓库
git clone https://github.com/langfuse/langfuse.git
cd langfuse

# 启动服务
docker-compose up -d

支持 Kubernetes、GCP、AWS 等模板化部署。

与其他工具对比

市面上也有一些工具在解决类似问题，我们简单做个对比：

工具名称	功能覆盖	部署灵活性	开源程度	易用性
Langfuse	开发、监控、测试一体化	云端 + 本地	完全开源	上手简单
LangChain	专注 Prompt 工程和链式调用	云端为主	部分开源	开发复杂
OpenAI SDK	模型调用和简单日志采集	云端	闭源	上手简单
Weights & Biases	通用 AI 模型监控工具	云端 + 本地	部分开源	偏重分析功能