我要投稿

【Agent智能体指北】告别996，LangGraph 打造代编程智能体！

发布日期：2024-06-14 07:06:16 浏览次数： 2953

作者：AI模数师

微信搜一搜，关注“AI模数师”

代码生成和分析是大型语言模型（LLMs）最重要的应用场景之一，比如我们可以直接让Kimi写一段Python程序。

不过对于复杂的程序，有时候效果并不能满足我们的期望。

不过现在有了工作流，可以通过LangGraph打造一个编程智能体，通过迭代的方式，让Agent自我进化，实现更好的编程效果，主要包含两个步骤：

（1）测试答案

（2）反思这些测试的结果，以改进解决方案。

但是，通过 LangGraph 打造智能体究竟能带来多大的提升效果？我们想需要对比两种不同的架构：

通过提示词编写代码
通过LangGraph 构建编写代码的流程，如果有错误则自我纠正

我们实现了一个包含以下组件的代码生成的工作流：

受最近长上下文 LLMs 趋势的启发，我们使用 GPT-4 和 128k 令牌上下文窗口对 60k 令牌 LCEL 文档进行上下文填充。我们将一个关于 LCEL 的问题传递给我们填充了上下文的 LCEL 链以生成初始答案。
我们使用 OpenAI 工具将输出解析为 Pydantic 对象，该对象包含三个部分：（1）描述问题的序言，（2）import 代码块（3）代码。
我们首先检查导入执行，因为我们发现在代码生成过程中，导入语句中可能会出现幻觉。
如果导入检查通过，我们接下来检查代码本身是否可以执行。在生成提示中，我们指示 LLM 不要在代码解决方案中使用伪代码或未定义的变量，这应该产生可执行的代码。
重要的是，如果任一检查失败，我们将堆栈跟踪与之前的答案一起传回生成节点以进行反思。我们允许重试 3 次（仅作为默认值），重试次数可以根据需要扩展。

使用 LangSmith 进行评估

作为基线，我们实现了没有 LangGraph 的提示词代码生成，使用 GPT-4 和 128k 令牌上下文窗口对 60k 令牌 LCEL 文档进行内容生产。将一个关于 LCEL 的问题传递给我们填充了上下文的 LCEL 链以生成答案。

使用 LangSmith 进行评估，主要评估两项：import的内容和代码执行是否正确。

在评估集上用 20 个问题对提示词生成的代码进行了四次评估。我们看到大约98% 的导入测试是正确的，大约 55% 的代码通过了执行测试。

失败的内容主要是它没有意识到 RunnableLambda 函数的输入将是一个 dict 并认为它是一个 string：AttributeError: 'dict' object has no attribute 'upper'

然后我们测试了提示词 + LangGraph 在导入和代码执行中执行此类错误的检查，然后在执行更新答案生成时反思任何错误。

在相同的评估集上，我们看到 100% 的导入测试是正确的，以及大约 81% 的代码通过了测试。

使用LangGraph也遇到了相同的错误，但在错误的反思过程中，通过三次反思，最终生成正确处理了 RunnableLambda 函数中的输入 dict。

总体而言，添加这个简单的反思步骤并使用 LangGraph 重试，导致代码执行有了显著改进，大约有 26% 的改进。

结论

LangGraph 可以有效地通过编程智能体解决代码编写过程中的一些问题，通过对失败结果的反思，并自我迭代改进代码结果。

在不远的将来，Agent智能体已经可以替代大部分初级开发的工作，人人都能编程的时代已经到来！

欢迎关注我，获取更多关于 AI 优化的前沿资讯。别忘了将今天的内容分享给你的朋友们，让我们一起见证 AI 技术的飞跃！

觉得我的文章对你有帮助的话，请不要吝啬你的点赞、在看和转发~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-04

Skills使用体验

2026-02-04

AgentScope 正式发布 Skills 支持 - 实现渐进式披露

2026-02-04

从“回答者”进化为“研究员”：全面解析 Deep Research

2026-02-04

刚刚，Xcode 史诗级更新：原生集成 Claude Agent SDK，苹果开发直接起飞！

2026-02-04

国产 Cowork 它来了！MCP、Skills和Expert Agents都支持，全部免费体验！

2026-02-04

混元研究博客上线姚顺雨团队最新成果：从 Context 探索语言模型的范式转变

2026-02-04

通俗讲解大模型短期记忆 vs 长期记忆

2026-02-04

谁动了我的电脑？谁应该抱怨？

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

国内版的 NotebookLM 来了，甚至更强

2025-11-12

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

大家都在问

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

2026-02-02

X上点赞近万的Claude Agent SDK教程，到底讲了什么？

2026-02-02

人人都在谈论ClawdBot，但你真的懂它的技术原理吗？

2026-02-02

刚刚，谷歌版「世界模型」震撼公测！网友实测炸翻天：游戏末日来了？

2026-01-31

Transformers V5正式发布！这次更新到底香不香？

2026-01-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： [email protected]

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部