微信扫码
添加专属顾问
我要投稿
字节跳动Web Infra团队开源AI操作助手Midscene.js,用自然语言轻松操控Web和Android应用,GitHub已获9.9k星! 核心内容: 1. 支持自然语言驱动的自动化操作,兼容多模态大模型 2. 提供查询、断言等核心功能,支持Web和Android平台 3. 包含可视化调试报告和三种API类型,便于开发使用
Midscene.js一款开源的 AI 操作助手,支持通过自然语言(如英文)自动化操作 Web 和 Android 应用。它可集成 Puppeteer、Playwright,或通过 Chrome 扩展、Android Playground 无代码使用。项目支持多模态大模型(LLMs)和视觉语言模型(VL models),能自动规划并执行 UI 操作,适用于自动化测试与交互场景。
• 项目地址:https://github.com/web-infra-dev/midscene
• 开发者:Web Infra 团队 (字节跳动)
• Stars / Forks:9.9k ⭐ / 696 Forks
• License:MIT
• 语言 / 技术栈:TypeScript,集成 Puppeteer、Playwright、YAML 脚本、AI 模型(如 UI-TARS 转换器) npm install @midscene/web
await mid.aiAction('在搜索框输入“天气”,然后回车');
const title = await mid.aiQuery('查询页面标题');
await mid.aiAssert('页面标题包含“天气”');
用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs。▲
控制地图 App 在 Android 上导航到目的地。▲
使用 midscene mcp 的方法,浏览页面,进行登录,添加商品、下单商品最终根据 mcp 执行的步骤和 playwright example 生成最终的测试用例。▲
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-17
ollama v0.13.4 发布——全新模型与性能优化详解
2025-12-17
n8n 悄悄发布了 v2.1.
2025-12-16
阿里重磅开源 0.5B TTS + 0.8B ASR,支持跨语种音色克隆、说唱识别!
2025-12-15
智谱手机 Agent 开源一周,iOS 版就来了
2025-12-15
OpenEvals下一代AI模型评估标准
2025-12-15
AutoGLM:推倒那面墙
2025-12-15
狂揽162K Star!n8n 2.0强势来袭,这次改动有点狠。
2025-12-14
ollama v0.13.3 最新发布:新增模型与功能优化详细解读
2025-10-20
2025-11-19
2025-10-27
2025-10-27
2025-10-03
2025-09-29
2025-10-29
2025-11-17
2025-09-29
2025-11-07
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17