微信扫码
添加专属顾问
我要投稿
AI重构31万行代码的实战经验:如何让AI Coding从混乱走向规范,同时保持业务高速迭代。核心内容: 1. Agent评测思路在AI Coding管理中的创新应用 2. AI时代工程师角色转变与技术判断力提升 3. 技术债拆解与业务需求并行的渐进式重构策略
点亮👆“☆”星标,不错过推送内容~
全文速读
当 90% 以上代码由 AI 生成,决定系统走向的不是谁写得更快,而是约束 AI 的能力。没有统一规范,AI 只会成倍放大混乱。本文基于 31 万行代码重构实践,分享我们如何用Agent 评测思路管理 AI Coding——通过技术债梳理、建设Rule、重构 SOP 和 Pre-PR 机制,把重构从高成本专项变成随迭代持续推进的日常动作。我们沉淀的关键经验:
🎈我们在文末还增加了读者互动环节,欢迎大家晒出自己的见解、思考,分享实践经验,一起交流学习。
当团队 90% 以上的代码由 AI 生成,31 万行的复杂业务系统还在高速膨胀,你会发现一个反直觉的事实:AI Coding 不会自动收敛复杂度 —— 没有统一规范的约束,不同人用 AI 写出的代码风格各异,系统反而会加速腐化。
本文记录了我们如何在不停止业务交付的前提下,完成这场重构。在这个过程中,我们积累了三个关键经验,希望这篇实战经验能提供一些可复用的思路。
Agent评测系统长期承载多个核心业务场景,它同时承担了数据生产、流程编排、质量控制与多人协作等复杂能力,业务复杂度和工程复杂度都很高。具体来看,我们面对的复杂性主要体现在三个维度:
当业务进入快速迭代与试错期,上述庞大的业务体量与原有底层架构之间的矛盾就会集中爆发,迫使我们必须启动本次大规模重构。核心动因直指以下三个痛点:
1. 业务模型亟需升级,旧架构无法支撑探索性业务
随着业务交互的丰富度和复杂度增加,旧有数据模型扩展能力不足导致“烟囱式”功能开发,几乎每新增业务形式都需要新增代码来实现。
2. 代码严重腐化,技术债拖垮迭代效率
过去长期采用“按需求建包”的模式开发,代码缺乏合理的工程分层,Controller 等各种复杂逻辑揉在一个包内,形成了严重的“面条式代码”。在 31 万行代码的体量下,这种深度的技术债让日常开发“牵一发而动全身”,导致一线同学开发异常痛苦,交付效率遭遇严重瓶颈。
3. 协作模式风险放大,缺乏规范的 AI Coding 加速系统腐化
一年左右的时间,团队成员规模增至 3 倍,并且团队成员技术背景复杂,涵盖高并发、机器学习离线训练、管理后端开发以及实习生,复杂业务系统开发经验不足。在这样一个高人员流动和跨技术栈的背景下,再叠加 90% 以上代码由 AI 辅助编写这一事实,如果不建立硬性的底层架构规范,不同背景的同学各自用 AI Coding,系统必将以极快的速度产生不可控的腐化与新债。
因此,我们不仅需要工程重构,而且要建设符合 AI Coding 规范的工程重构。规范才可以帮助我们团队消灭旧技术债,规避新技术债。
在需求高压背景下,要梳理技术债面临着一个极其现实的困境:量太大,根本看不完,也看不全。
面对膨胀至 31 万行以上的代码库,试图靠人力逐行阅读来建立全局的可靠认知是不现实的。我们的代码库中同样伴随着典型的高危特征:很多地方文档不全、大量隐式逻辑和历史兼容分支藏在细节里。一个看起来不起眼的接口,背后可能挂着一串极长的调用链。所以,梳理技术债最大的难点,在于人力永远无法在短时间内穷举和穿透这些错综复杂的关联逻辑 —— 单段代码谁都能读懂,但没人能在短时间内把 31 万行的调用链全部穿透。
我们采用的是一种更适合复杂系统的方式:“专家经验定向 + AI 辅助排查”。
不再试图人工遍历,而是由核心开发圈定高危的排查边界,然后把穷举和扫描的脏活累活交给 AI。通过这种方式,我们快速摸清了系统底层的 P0/P1 级技术债(如业务模型缺陷、数据库查询性能隐患、状态管理技术债、索引技术债等)。
这一步中,我们最大的体会是 AI 很适合帮我们把问题“看全”,但什么问题最重要,什么问题值得优先改,还是要由人来判断。具体来说,人负责圈定 P0/P1 级问题和优先级,AI 负责在圈定的方向上做穷举扫描——比如梳理业务模型问题、定位大数据量性能隐患、排查状态管理和索引层面的技术债。
实践下来,这一步的 ROI 很高。我们仅仅投入了有限的资源,就完成了 3 个 P0 技术债和 2 个 P1 技术债的梳理。但最让我们意外的是下面这件事:
短时间内,工程师就利用 AI 辅助精准定位了 10 个隐藏极深、靠肉眼极难发现的性能隐患。 这些隐患藏在复杂的调用链深处,即使是资深工程师逐行阅读也很难穷举到。这在纯人工阅读代码的模式下是几乎不可能的。
这个结果迫使我们重新思考“经验”的定义。过去,“能看全”是资深工程师的核心壁垒 —— 你需要在系统里泡三年,才能建立起对调用链、隐式依赖和历史兼容逻辑的全局感知。但 AI 把“看全”的门槛打到了几乎为零。经验的价值正在从“能看全”转移到“能判断什么重要”——这才是人不可替代的部分。
这一步对我们后面的启发很大,因为只有问题定义清楚了,后面的规范、分层和迁移,才不会做成无源之水。
通过技术债梳理,我们解决了重构哪里的问题,那么接下来要解决的就是“代码应该怎么写”。在全员 90% 代码依赖 AI Coding 的现状下,核心要解决的问题是“如何将一两个用好 AI 的人的经验,高质量泛化到全组”。
在传统研发模式下,开发规范的主要作用是帮助团队协作、Code Review 和新人上手。但当 AI 已经成为主要编码产能后,规范的意义发生了本质变化。大模型生成代码时,会强依赖当前上下文和现有代码模式。如果代码库本身风格混乱、团队对规范理解不一致,AI 不会自动纠偏,反而会把差异进一步放大,导致多人协作下持续产出”千人千面”的代码。因此,AI Coding 时代的研发规范已经升级为约束 AI 产出、阻止系统继续长新债的基础设施,远不止协作建议那么简单。
但只让 AI 遵循规范还不够 —— AI 只能执行输入,不能替代团队形成统一判断。如果团队成员自己没有先对齐分层原则、建模方式和依赖边界,同一份规范就会被不同人解释成不同版本。
这个问题让我们想到了自己的本职工作。我们团队负责 Agent 评测业务,在长期实践中沉淀出一套核心理念:
标准对齐(人人对齐):需要 1 位强有力的角色拉齐产品、运营、算法、QA 等所有角色的评测标准 —— 1个”独裁者”好过 10 个”民主者”。
人机对齐:评测标准对齐后,通过模型选型和评测指标的优化,实现人机对齐,人机一致率达到基本阈值(例如 90%),才能认为机器的评价可信。
我们发现,管理 AI Coding 与评测 Agent 的底层逻辑一模一样。 先通过规范拉齐团队的工程标准(人人对齐),再通过 AI Rule 和 Skill 约束大模型的生成结果(人机对齐)。一个做 AI 评测的团队,用评测的思维解决了工程治理问题。
顺序至关重要:先”人人对齐”,再”人机对齐”。 很多团队以为配置好 AI Rule 就完事了,但真正的瓶颈在人,不在工具。团队自己没有统一共识,AI Rule 写得再好也会被不同人解释成不同版本。人的共识是 AI 约束的前提。
我们先调研了业内成熟团队的研发规范,并结合自身流程,沉淀出一套 AI 友好的工程约束,包括工程分层规范、业务域模型规约和仓储层规约。关键一步是没有把规范停留在文档层面,而是将其落地为 always 级别的 AI Rule,用于约束 AI 编码过程,并前置到预 CR 环节,帮助研发在提交前完成基础规范校验。
与此同时,针对最容易产生分歧的领域职责划分问题,我们围绕”编排类”与”能力类”的职责边界进行了组内统一,并将共识沉淀为编码时渐进式加载的 Skill。
我们将过去“按需求建包”的面条式代码,逐步迁移到标准四层架构(Starter / Application / Infrastructure / Common)以及按业务域组织的新结构中。但这次重构的重点,并不只是物理目录的调整,而是借此机会系统性治理历史代码中长期存在的深度耦合问题,尤其是底层数据对象 PO 在全链路中的泄露与上浮。围绕这一问题,我们分三步推进:第一步,补齐业务对象与数据转换层,收口散落各处的转换逻辑;第二步,在 Application 层重建接口契约,严格阻断底层数据对象向上层泄露;第三步,基于新契约修复上游全链路的参数依赖。
这类重构的特点是:改造规则相对明确,但涉及范围极广、重复劳动密集。我们的做法是先由重构主 R 亲自完成两个最复杂包的迁移,在过程中沉淀出一套可让 AI 执行的标准化迁移 SOP。有了这套 SOP,重构工作不再依赖某一个人的经验——团队其他成员只需按照 SOP 指导 AI 完成剩余包的迁移,研发本人聚焦业务语义验收和 Code Review 即可。通过这种“主 R 打样→SOP 分发→全组并行执行”的方式,我们快速完成了十余个核心包的工程结构迁移。
本次重构的深水区。行业里谈重构,通常只有两条路:要么推倒重来,要么申请专项排期。我们走了第三条路 —— 把技术债拆解为业务需求的“顺带动作”,借着迭代渐进式消化,没有申请一天专门的重构时间。
具体做法是将技术债拆解到日常高优需求中。例如,借着某个核心功能迭代需求,顺势设计并落地了全新的业务模型;借着另一个功能升级需求,我们设计了全新的质检业务模型,并在迅速完成了全量迁移(一举兼容了多条业务链路,以及多视图、多区域的复杂交叉验证)。
这条路的难点在于拆解的精度——哪些业务需求能“顺带”消化哪些技术债,需要逐个判断:既不能让重构拖慢业务交付,也不能让业务需求绕过技术债继续堆新债。最终我在不停止业务交付的前提下,完成了核心数据模型的平滑升级。
1. 建设 AI CR 与 Pre-PR 机制
随着 AI 编码效率飞跃式提升,我们很快遇到了“木桶效应”:Code Review 成了全链路中最拥堵的瓶颈:AI 极大地压缩了编码时间,压力系统性地向下游 CR 环节集中。如果 CR 效率不提升,AI Coding 的提效红利会被 CR 瓶颈吞掉。
我们团队达成的共识:
我们的实践经验:
1、引入 Pre-PR(预审)机制:
2、高阶模型审查低阶模型:使用高配模型作为 Judge Model,审查低阶模型产出的编码。
3、不同厂商模型对抗互相审核:使用不同厂商的模型互相审查对方的编码产出,通过差异化的模型能力形成互补,实测下来 CR 覆盖面更全。
2. 调研取经,建立AI 辅助测试用例生成规范
我们团队 100% 的需求由研发兼任测试(RD as QA)。在探索 AI 辅助自测时,团队自然演化出两条路线:路线 A 让 AI 全自动生成用例,人只做最后把关;路线 B 由人界定测试范围和风险级别,AI 负责代码扫描和用例步骤填充。
实践下来,路线 A 很快暴露出严重的工程问题 —— AI 缺乏全局业务认知,极度依赖 PRD 质量,容易漏掉隐性关联的高危场景,同时发散出大量无价值的边缘用例,反而增加 Review 负担。与专业 QA 团队交流后,我们确认了路线 B(人工主导,AI 辅助)的方向,并沉淀为一套 Human-in-the-loop 的测试 SOP:
你所在的团队有没有遇到“AI 加速腐化”的问题,是怎么解决的?技术债“随需求顺带消化”这个思路,你们有落地的故事吗?
欢迎大家在文末评论区分享自己对 AI Coding的见解和实践经验,一起学习、交流、进步。
---------- END ----------
推荐阅读
| 美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-07
Anthropic 官方生产级 Agent 最佳实践:12 个可复用的 MCP 设计模式
2026-05-07
从“记住”到“学会”:OceanBase seekdb M0 如何让 Agent 真正积累经验
2026-05-07
Claude Cowork别瞎用
2026-05-07
为什么同一个模型,在 Claude Code/Codex CLI 里感觉像换了个脑子?
2026-05-07
尝试在Warp里使用claude code
2026-05-07
我用 Claude Code CLI 搭了一套「不丢上下文」的工作流
2026-05-07
Anthropic 上线「做梦」功能,让 Agent 越睡越聪明
2026-05-06
Android CLI 实战指南:借助任意智能体,实现 3 倍速高效开发
2026-04-15
2026-03-31
2026-03-13
2026-02-14
2026-03-17
2026-04-07
2026-02-09
2026-03-17
2026-03-21
2026-02-20
2026-05-07
2026-04-26
2026-04-22
2026-04-18
2026-04-13
2026-04-12
2026-04-07
2026-04-01