微信扫码
添加专属顾问
我要投稿
阿里工程师分享AI自动化评测平台实践,一晚上实现系统全自动优化,解放人力提升效率。 核心内容: 1. AI自主生成评测集与自动化评测流程设计 2. 包含UI内容质量评估的三类实战案例解析 3. 系统级自动优化闭环实现与多轮迭代验证
一、准备一个评测平台
这个评测平台有这些能力,都让AI来自动化操作:
1.创建评测任务,评测任务要求写明白评测目标、验收标准;
2.创建评测集,一个评测任务绑定若干个评测集,评测集要求有明确的评测步骤和预期结果;
3.创建评测报告,一个评测任务可以有多个评测报告,评测报告就是基于评测集的报告,最终会有一个打分。
具体我们来看多个案例,如何让AI生成任务和评测集,并且自己进行评测(包括UI评测),提交评测报告,最后还能基于评测报告优化系统,来回往复进行全自动优化。
二、长时间的系统自动优化
这里更新一个新的case,没看过原文的同学可以先从下面的基础case看起。
对于评测集,我们设定了两种,分别是标准(有明确的成功还是失败的状态),以及rubrics,也就是对于一些内容质量评测的时候,无法直接是成功还是失败,比如评测生成出来的一个图片好坏,这种时候利用rubrics生成一系列的不同等级的评测用例。
例如对一个查询OKR的场景,只是查没查出来是欠点意思的,但是可以生成出一系列的不同等级的评测用例:
在AI连接评测平台去生成评测集的说明里也有体现:
然后对于一个系统,在做一个AI优化功能的时候,不仅仅考虑AI功能本身做出来的质量如何,也需要考虑比如系统的顺滑衔接、UI的品味和质量高低,所以AI在反复迭代验证的时候,会生成多套评测集,来回反复的去验证:
对这些继续的AI自动自己进行评测优化和迭代,效果还是非常的好的,持续的优化评测集,优化,然后继续下一个版本的迭代,分数是稳步上升的:
三、一个基础的自动化测评案例
我们来举一个例子,比如钉钉文档有MCP,我现在想全方位的测评一下这个钉钉文档,所以我打开QoderWork,复制评测平台上的链接,输入这么一段话:
阅读https://ai-test.alibaba.net/skill-setup.md?api_key=***-***-***,当前空间的apikey=***-***-***目前我们要来测试钉钉文档的mcp,了解钉钉文档mcp能做哪些事情,然后发布一个评测任务,生成至少10个评测集,并且进行评测提交评测报告
如图所示:
经过一段时间后,我们能看到跑完了,创建了一个任务,并且设计了13个测试用例,覆盖了钉钉文档MCP的主要功能,并且对每个功能都进行了测试,最终提交了评测报告,总分95分,说明功能是没有什么大问题的。
具体我们进入评测平台看看,可以看到有一条“钉钉文档MCP工具全功能评测”的任务:
对应的,在评测集里,也有了13条评测用例:
我们可以具体的看里面的评测用例都是什么,一共13个用例,都写的还不错,而且还有衔接,要知道我发布任务的时候也没怎么说:
可以看到评测用例还是比较有连贯性的,进一步,我们看看这些case评测的效果怎么样,我们看评测报告,目前只有一份评测报告,评分是95分:
具体看看报告里的内容,完整的评测报告比较长,大概3-4千字,我们截一部分:
扣5分的点在于:“TC10 创建文件夹时名称被自动追加序号"(1)",说明可能存在同名检测机制,但接口未返回冲突提示,用户可能不易感知。”,最终结果:“钉钉文档MCP整体功能完备、接口响应正常、数据一致性良好,是一个成熟可用的文档操作MCP工具集。”
可以看到对于这种工作,AI确实可以来干活了,这个case也可以推广到,比如你有一个skill的文件夹包,你可以基于这个skill包,去生成几百个评测skill的用例,然后判断触发没触发,效果怎么样,最后基于评测结果自动化优化skill包。
四、一个不仅仅是UI测试的案例
刚刚采用QoderWork实践的是一个不需要界面UI的评测,理论上全部都可以在终端里搞定,复杂度是没那么高的,但现在的Cowork产品都号称能连接浏览器,进行浏览器的自动化操作,那么实际上,我们这套模式也可以推广到UI测试方面。
并且甚至不仅仅是UI测试,因为是AI Agent,可以顺带评测UI里的内容的相关质量,比如网站的内容是AIGC,是可以一起进行评测的。
现在我们开始,我有一个工具平台,叫做绘报,可以这个绘报可以输入一些文本或者导入一个钉钉文档,生成各种风格好看的精美的汇报文稿:
那么我现在期望能自动化测评最近生成的5个项目,并且5个项目是否功能正常,生成出来的质量是否正常,然后我继续打开QoderWork,输入测评平台的链接,并且简单描述下我想做这个事情。
稍微等待一会,我们可以看到QoderWork连接了我的浏览器,共享了登录态,并且打开了绘报的系统,开始进行分析:
再稍等一会,就看到评测平台上,多了一个评测任务:
并且评测任务,关联了5个刚生成的评测集:
接下来回到QoderWork,看看任务进度,可以看到第一个PPT已经评测完了,正在评测第二个PPT:
那我们就继续等一等,直到所有的PPT都测评完成,差不多跑了20分钟,全部跑完了:
进入我们的平台,我们可以看到有5个评测集:
然后我们点进评测报告,整体85分,每一个PPT都有评测结果,包括功能+质量的评测:
五、一个系统自动优化的案例
上面两个Case,介绍的其实都是人去发布一个评测任务,但是评测报告,还是得人去看,我想的就是,这么长的评测报告,我也不太想看,就想知道怎么直接系统优化,那正常来说,让cc、cursor、codex这些能写代码的,去读这个评测报告,不就可以进行优化了,更进一步,还可以来回往复的,自动去优化系统。
说干就干,首先,我有一个业务系统(因为有一些业务逻辑,所以都打个码),里面有几个AI能力,然后打开cursor,输入我的评测平台的链接,告诉他我要对这两个功能进行自动优化,你需要发任务、做评测集、评测、评测完了自动进行优化,优化完了再来一轮,这个过程至少进行三轮。
然后开始跑了,可以看到一轮评测的时间很长,大概需要1小时,因为这两个功能是带AI的,进行测试的时候需要先等平台系统的AI跑完,这里相当于cursor先等待这些评测集在系统上跑完,然后进行评测:
接下来人直接去睡觉,让系统跑着吧,因为时间大概要跑三四个小时。
睡了一觉,早上起来,打开评测平台,可以看到我有三个归档的任务了,分别标识是v1、v2、v3,并且v1的分数是90.7分,v2是97.4分,v3是99.1分,评测的分数也在稳步的提升!
可以在 cursor 里看到最终的一个对比说明和优化说明,对五个维度,进行了评测和优化,最终的第三个版本在5个维度上都比较清晰:
平台上的评测报告也非常的清晰,因为我的两个功能是AI功能,所以每一个用例,大概需要等1分钟AI输出,然后cursor是真的等所有的平台真实的用例跑完了之后,再针对多个维度进行评测,对每个用例的每个维度都有列表和说明,最后才给的评分,是比较认真的。
六、总结
这几个案例跑下来,还是有一些aha的,一方面确实是全自动化,人在里面干的事,就是花三四分钟描述下任务启动评测,剩下的就是看一看,非常的省力,但是要做到这个程度,还是有一些先决条件:
1.系统本身的UI规范和基础设施要达标:比如UI测试,经常出现不规范的情况,导致AI在UI里迷路了,这种情况就没法很好的自动化测试,但是也给了个警醒,AI都迷路了,更何况用户呢,所以这种基础的优化没达标,AI也没法测,另外就是QoderWork可以用插件来链接浏览器,不需要额外的登录,点个赞。
2.系统自动化优化,前提是系统本身AI Coding含量很高,因为一个人手工做的系统,约定大于配置的内容太多,AI也很难进行功能的跑通和优化,经常在一个地方就断掉了,这个实践跑的比较好的案例都是在AI Coding含量很高的系统,本身AI可以快速的启动本地的服务去做验证和测试,很多老系统其实日常环境也没有,到处都是断头路,这样也是做不好的。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-06
2026-03-19
2026-03-20
2026-03-17
2026-02-06
2026-03-19
2026-03-03
2026-03-26
2026-03-21
2026-03-05
2026-03-21
2026-03-07
2026-02-06
2026-01-27
2026-01-08
2025-12-29
2025-12-28
2025-12-21