Dosu：Github维护Agent，与LangSmith携手打造可持续学习Agent

发布日期：2024-05-19 06:08:47 浏览次数： 3374

作者：槿墨AI

微信搜一搜，关注“槿墨AI”

什么是Dosu

如果你经常因为各种Bug在Github的Issues里面翻来翻去，你有可能会见过Dosu在帮忙解决这些问题。

https://github.com/langchain-ai/langchain/issues/19703

https://github.com/chatchat-space/Langchain-Chatchat/issues/3961

Dosu是一个人工智能驱动的维护Github的Agent，帮助开源维护人员鼓励贡献者、组织问题、分类bug、回答问题等等。

https://github.com/apps/dosubot

Dosu的CEO Devin Stein发现，受欢迎的开源项目会花费更多的时间在维护上，而不是开发新功能。Dosu通过接管开发人员的部分工作，让开发者专注功能创新，同时为社区提供即时支持，解决用户问题。

早期的Dosu

Dosu于2023年6月底发布。最初的用户反馈很少，Dosu团队每天仅使用grep 和 print 语句，通过检查日志就能找出改进的地方。

与传统的代码更新不同，改变大型语言模型（LLM）的逻辑并不简单。很难知道一个小的改动如何影响整体性能。

因此需要一种方法来衡量更改的影响。对于每一个更改，能够确保：

· 在表现良好的地方保持性能

· 在表现不佳的地方提高性能

评估驱动开发

评估驱动开发 (EDD, Evaluation driven development) 与测试驱动开发一样，为Dosu提供了开发的最终目标。

通过EDD，有一个明确的流程来改进 Dosu：

· 通过一些初始评估创建新行为

· 向用户推出新行为

· 监控生产结果并识别故障模式

· 将每种故障模式的示例添加到我们的离线评估中

· 迭代更新的评估以提高性能

· 重新启动并重复

这种开发工作流程的效果很好，但随着使用量的增长，跟上Dosu的步调变得很困难。

大规模保持高质量标准

如今，Dosu已安装在数千个Github仓库中，并全天生成响应。

Dosu团队构建了数十个子模块来智能处理不同类型的场景，并且随着模型研究的发展，不断迭代解决问题的方法。

虽然 Dosu的成长令人兴奋，但也面临着挑战。Dosu活动的增加使得监控响应和识别生产中的故障模式几乎变得不可能，而这对于EDD工作流程至关重要。

Dosu团队寻找一种工具，不仅可以帮助监控Dosu的活动，而且足够灵活，可以融入现有的工作流程。一些标准包括：

· prompts必须存在于Git中 —— 在 EDD的宗旨中，将prompts视为代码。对prompts的任何更改都必须按照与代码更改相同的标准进行处理。

· 代码级跟踪 —— Dosu不仅仅是一系列LLM请求。希望能在单个跟踪中跟踪LLM请求之间的元数据。

· 易于导出数据 —— 能够保留的现有评估数据集和工具。

· 可定制和可扩展 —— LLM正在迅速发展，构建LLM应用程序没有标准方法。我们希望控制哪些元数据被追踪，并根据我们的需求定制这个工具。

在探索了一些工具后，Dosu团队发现Langchain推出的LangSmith工具似乎可以满足所有的这些要求！

通过SDK实施LangSmith

LangSmith最让Dosu团队兴奋的不是它时尚的UI或广泛的功能集，而是它的SDK。

LangSmith SDK提供了Dosu团队所追寻的细粒度控制和可定制性。

要尝试 LangSmith，只需使用@traceable向一些与 LLM 相关的函数添加一个装饰器。

装饰器@traceable的一个令人意想不到的强大功能是它可以将函数和LLM调用跟踪发送给LangSmith。

这使我们能够在LangSmith UI的单个跟踪中查看原始函数输入、渲染的提示模板和LLM输出。

LangSmith开箱即用，让我们可以了解Dosu的所有活动。下一步是利用LangSmith识别故障模式并将其集成到EDD工作流程中。

寻找错误

Dosu收到了来自用户的无数请求，从有关代码库的简单问题，到升级到新库版本的错误跟踪，再到询问功能状态。

Dosu的更多输入意味着更多的错误结果。

可以通过以下几点，识别错误结果或Dosu处理不好的请求：

· 显式反馈：ChatGPT流行的经典的赞成/反对反馈。

· 用户情绪：当用户在GitHub问题上与Dosu互动时，他们的回复通常会表明Dosu是否有帮助

· 内部错误：LLM可能因多种原因而失败。输入或输出是否太大？生成的响应是否与所需的架构不匹配？

· 响应时间：在Dosu中，优先考虑质量而不是速度；然而，了解响应缓慢的原因很重要。有些请求需要快速响应，而另一些请求则需要较慢但更精确的响应。

LangSmith 的高级搜索功能可以轻松识别异常行为。

我们可以使用一系列标准执行搜索，包括：明确的用户反馈、最近的错误事件、响应时间延迟或负面情绪。

LangSmith还允许我们将额外的元数据附加到每个跟踪，以进一步扩展其搜索功能。

一旦我们找到失败的行为，EDD工作流程就与以前相同。

1. 搜索LangSmith以获取更多示例

2. 将它们添加到我们的评估数据集中

3. 针对评估进行迭代

4. 推送新版本的 Dosu，然后重复。

Dosu X Lang Smith无需提示工程实现30%的精度提升

尽管提示工程（prompt engineering）对于大型语言模型（LLM）的性能提升至关重要，但Dosu不仅仅是一个LLM，它是一个产品。

如果产品依赖于用户的提示工程能力，会导致产品体验不稳定。

如果提示工程不可行，那么微调（fine-tuning）呢？Dosu拥有足够的流量，收集微调数据集相对容易，但微调也有一些致命的缺点：

· 微调模型管理复杂。如果我们需要为N个客户微调模型，我们就有N个不同的模型需要服务、重新训练和监控。这个问题可以解决，但非常耗时。

· 微调模型是静态的。与提示类似，微调模型固定在某个时间点。组织的变化会导致微调模型的性能因数据漂移而以意想不到的方式下降。

静态上下文学习也容易受到数据漂移的影响

持续的上下文学习是个简单而有效的方案

上下文学习的一个优雅的部分是只有一个变量需要调整：示例。

为了让Dosu了解组织的细节，我们所需要做的就是，为该组织在给定时间，针对给定任务选择最佳示例。

在选择最好的例子之前，需要先收集它们。

如前所述，当用户更正Dosu回答时，我们会将其更正结果保存为该任务的示例，然后将其与用户的组织相关联。

我们将所有这些示例存储在一个数据库中，我们将其称为存储示例（类似于传统的 ML 特征存储）。

现在，每当Dosu要完成任务时，我们都可以搜索存储示例以查找最相关的示例。这将我们的学习问题转变为检索问题，类似于我们在RAG中所做的。

最终的持续上下文学习流程在概念上很简单：

· 收集用户的更正并将其保存到存储示例

· 在推理时，搜索示例存储并尝试找到当前输入的最佳示例

· 重复

最终结果正是我们所寻求的：Dosu以一种自然的方式来了解组织并随着时间的推移适应其变化。

与Lang Smith一起实施持续学习

LangSmith拥有轻松实施持续学习的所有构建模块。

为了收集更正示例，LangSmith可以将更正结果作为反馈附加到运行(run)中。

run：: https://docs.smith.langchain.com/old/tracing/concepts?ref=blog.langchain.dev#runs

对于我们的存储示例，可以依赖LangSmith的数据集。要将示例插入LangSmith，我们可以使用规则或通过数据集API插入它们。

持续学习是智能体的未来

持续学习能够创造神奇的产品体验。它使最终用户能够定制Dosu以满足他们的需求。

通过不断学习，Dosu可能会犯错误，但我们可以确保 Dosu像伙伴一样，从这些错误中吸取教训，不再犯同样的错误。

自动标记只是Dosu团队融入持续学习的例子之一。他们正在积极探索其他方法，将持续学习整合到检索、答案生成和 Dosu 的许多其他任务中。

参考链接：

1. https://blog.langchain.dev/iterating-towards-llm-reliability-with-evaluation-2. driven-development/

3. https://blog.langchain.dev/dosu-langsmith-no-prompt-eng/

4. https://dosu.dev/

5. https://github.com/apps/dosubot

6. https://github.com/dosu-bot

7. https://twitter.com/LangChainAI/status/1767208574588207320

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-06

比Kimi还好用？AI写作神器「橙篇」来势汹汹欲夺长文创作之未来

2024-07-06

暴走WAIC：跟AI+教育有关的，都在这儿↑

2024-07-02

【研究成果】ArchGPT：利用大语言模型支持传统建筑遗产的更新与保护

2024-06-28

所有男生女生，AI 卖货主播来咯！

2024-06-28

AI+医疗专题报告：院内场景丰富，AI 全面赋能医疗健康领域

2024-06-20

AI 背后 B 端设计师的机会

2024-06-20

30 款让教师工作更轻松的 AI 工具

2024-06-13

知识图谱(KG)和大模型(LLMs)双轮驱动的企业级AI平台构建之道暨行业调研

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

置身钉内：钉钉离职员工的7.5万字“逆耳忠言”

2026-06-05

Workbuddy投研迎来史诗级加强

2026-06-03

Claude重磅发布/金融神器 financial-services：彻底颠覆华尔街工作流，一键生成Pitch Deck与财报研报！

2026-05-20

Anthropic 亲自示范，如何使用金融Skills

2026-05-26

MuleRun Messages上线！Agent从个人工具走进团队协作

2026-06-02

西门子的真正底牌

2026-05-14

Qwen3-8B +GraphRAG 在医疗领域的应用

2026-05-12

范厚华：制造业AI转型需要关注的10个问题

2026-05-21

【广发金工】财务分析Skills的创建与应用

2026-06-03

如何从零打造AI-native服务公司丨Y Combinator

2026-06-05

大家都在问

FDE是什么？为什么企业级AI落地越来越需要FDE？

2026-07-04

当AI开始生产知识，教材还有用吗？

2026-07-03

咨询｜为OPC建的OS级操作系统，把中后台都打通的YC创业项目：Result；在中国有没有跑通的可能性？

2026-06-19

企业愿意为 AI 付费了，然后呢？

2026-06-09

测一测：你的 AI 安全知识，处在什么水位？

2026-06-04

OpenAI COO 的坦白局：为什么最强 AI 依然无法替代传统 SaaS？

2026-03-18

为什么顶尖投行都选择了 Rogo 这个金融 Agent？

2026-03-05

30亿花了，核心骨干走了，千问向何处去？

2026-03-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw