微信扫码
添加专属顾问
我要投稿
淘宝营销会场智能测试平台通过AI技术实现测试全流程自动化,大幅提升测试效率与质量,引领测试领域新变革。核心内容: 1. 基于LLM与多模态Agent的智能测试解决方案 2. 实现会场渲染校验、一致性比对等核心功能自动化 3. 测试人效提升100%,推动测试向AI智能化转型
背景与现状
会场主链路功能测试 |
页面与楼层交互功能 |
会场(上、下游)一致性验证 |
会场状态切换、定投渲染验证 |
·会场页面结构完整性测试 ·页面渲染方式:csr、ssr、快照、骨架 ·验证点:页面结构符合预期、内容渲染正常 |
1.上下、左右手势滑动 ·页面头下滑搜索头展开 ·会场feeds下滑吸顶 ·会场下滑软刷新 ·会场左右滑动 2.页面与楼层交互功能 |
具体一致性检查点包含但不限于以下内容 1.业务实体(品、店、内容、直播间等)承接正确, 2.业务实体数据表达(价格,名称,利益点,素材,氛围等)符合预期 |
1. 随大促里程碑、业务需求变更,页面结构、内容、氛围随排期切换 2. 页面、楼层设置定投实验 3. 手淘终端渠道渲染 4. 其他终端渠道渲染(其他淘内app与非淘内app) ·打开渲染、内嵌半屏渲染 |
服务端压测 |
兜底容灾验证 |
适配验证 |
会场性能测试 |
业务流量模型梳理-》OPM模型流量录入-》压测报告与数据沉淀 |
多层的容灾兜底场景下服务异常且不影响C端用户的正常浏览访问 |
通过覆盖同一张H5会场在不同型号、系统版本、尺寸、分辨率及DPR(设备像素比)下内容、样式正确性表达,来确保视觉一致性与操作可用性。 |
通过简单的图片纹理canny算子计算边缘纹理,计算会场渲染过程中终帧与首帧加载时间耗时,计算会场渲染首帧响应时长 |
实现方案
示例1:(轻)流程+工具执行;(轻)测试判断
测试数据获取-》LLM信息解读-》测试工具执行-》LLM结果判断
示例2:(重)流程+工具执行;(轻)测试判断
测试数据获取-》LLM信息解读-》测试工具执行-》LLM结果判断
示例3:(轻)流程+工具执行;(重)多模态判断
模型注册 |
模型同步调用 |
模型异步调用 |
(appCode = "text-generator",name = "文本生成模型",description = "用于生成创意文本内容")public class TextGeneratorLLM extends IdealLabLLMAbstractBase {public void finishHandler(IdeaLabMessage message) {// 处理完成回调log.info("Model execution finished: {}", message.getSessionId());}public void startHandler(IdeaLabMessage message) {// 处理开始回调log.info("Model execution started: {}", message.getSessionId());}public void callback(Object[] args) throws Exception {// 异步回写逻辑}public IdealabRunIdeasRequest buildRequest(Object[] args) {// 构建请求参数IdealabRunIdeasRequest request = new IdealabRunIdeasRequest();request.setAppCode(getAppCode());request.setQuestion((String) args[0]);return request;}public CompletionRequest buildCompletionRequest(Object[] args) {// 构建OpenAI兼容请求return new CompletionRequest();}}
结果
总结与规划
当前不足
1. 自动化深度不足
问题暴露后仍依赖人工确认与复现
2. 兜底验证能力有待补充
页面渲染异常(如闪烁)识别准确率需提升
Tab切换等动态交互体验检测能力不完善
3. 功能覆盖不够全面
巡检范围需进一步扩展(如复杂交互、个性化推荐)
快照能力、诊断时效性、多端一致性校验待增强
4. 定投策略验证能力不足
缺少对「用户分群定向展示」的自动化校验手段
无法自动识别“应展示未展示”或“非目标人群误展”问题
需支持基于标签(如会员等级、地域、设备)的模拟请求与结果比对
5. 功能或产品能力可以更加的产品化一些,让需要的开发产品运营也能方便的使用
用户反馈闭环缺失:期望增加对用户问题通知、跟进机制
后续规划
在上述不足之处建设并改进。
LLM、多模态、Agent在会场领域测试专项中落地通过串联复杂工具,多模态判断起到一定效果,但实际需求测试环节中需求理解、数据构造、测试用例识别(测试内容选择)上更多靠人工辅助判断。预期将智能体Agent在会场领域落地朝向“需求意图Agent识别”、“测试数据AI构造”、“测试用例AI选择”方向探索。
在AIGC技术爆发、市场剧烈波动、技术栈快速迭代、模型架构多样化的行业背景下,我们在会场AI模型的业务会场测试中进行了一些探索。实践是检验真理的唯一标准,期待与各位专家学者深度交流,共同推动营销导购智能测试的演进。欢迎批评指正。
团队介绍
本文作者沈芃,来自淘天集团-营销质量团队。一支深耕淘天营销域的技术质量团队,保障价格模型、营销工具、营销运营等电商核心链路稳定,全面守护业务质量与用户体验。我们以AI为核心驱动力,深度运用Agent评测、优化等前沿技术,构建智能化质量保障体系,致力于为数亿消费者提供精准无误的优惠计算、清晰直观的权益表达及极致顺滑的活动体验。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-01
华为AI 49元/月!贵?不贵?
2026-04-01
Claude Code 的记忆系统,比想象中初级
2026-04-01
Anthropic "开源"了一份 Agent Infra 创业的工具书
2026-04-01
Claude Code 意外开源后,我终于看清了 Agent 里“延迟曝光”的真正价值
2026-04-01
说说Claude Code源码泄露
2026-04-01
Claude 代码已下架,爆料人身份曝光,他已经连夜重写了一版火速上架
2026-03-31
Claude Code 源码泄漏,全部细节与始末
2026-03-31
突发!Claude Code 源码泄露,扒出这些隐藏功能
2026-01-24
2026-01-10
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2026-01-14
2026-03-13
2026-01-07
2026-01-21