2026年3月27日,来腾讯会议(限30人)了解掌握如何用Openclaw构建企业AI生产力
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

手机版openclawd来了,无需Root,让 AI 像人类一样使用你的手机

发布日期:2026-03-17 09:46:09 浏览次数: 1529
作者:GitHubStore

微信搜一搜,关注“GitHubStore”

推荐语

手机AI助手Andclaw来了!无需Root和电脑,动动嘴就能让AI帮你操作手机,真正解放双手。

核心内容:
1. Andclaw的核心功能:AI驱动+自然语言交互
2. 四大技术亮点:无需Root/独立运行/屏幕感知/拟人操作
3. 典型应用场景:视频搜索播放等自动化任务

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


之前给大家分享过不少手机自动化工具,最近又挖到一个有点意思的——Andclaw

一句话说清楚:它能让AI像人一样操作你的手机,做完任务还知道停下来。

不用Root,不用连电脑,手机上装个App就能用。

项目简介

Andclaw 是由个人开发者开源的一个Android自动化工具,核心理念是"让AI像人类一样使用你的手机"。

它是完全在设备上运行的,不需要Root权限,也不需要连接电脑。通过无障碍服务(Accessibility Service)读取屏幕内容,然后让AI分析界面、决定操作步骤、自动执行。

让 AI 像人类一样使用你的手机 —— 完全在设备上运行,无需 Root,无需电脑。

能做什么?

举几个官方文档里的例子:

  • "打开bilibili,搜索AI学习相关的视频,并播放" → AI会自己识别B站图标 → 点击 → 进入搜索页 → 输入"AI学习" → 点击搜索 → 选择视频 → 播放

你只要动动嘴,或者打打字,AI就去帮你操作了。


跟其他工具对比

方案
需要Root
需要电脑
独立运行
AI驱动
Andclaw
Auto.js
ADB+Python
可选
Frida+脚本
Appium
可选
UI Automator

Andclaw的核心优势:完全在设备上运行 + 大模型决策 + 自然语言交互。


主要功能

1. 无需Root

纯无障碍服务(Accessibility Service)实现,不依赖系统权限。不用天天刷什么Magisk、KernelSU那些破事。

2. 独立运行

完全在手机上独立运行,无需ADB或PC端配合。躺床上玩手机也能指挥它干活。

3. AI驱动

支持Kimi(月之暗面,国内直接能访问)和任意OpenAI兼容API。AI会自己分析屏幕内容,决定下一步该干嘛。

4. 屏幕感知

  • 实时读取UI层次结构(通过无障碍服务)
  • 浏览器/WebView场景自动截图,辅助视觉分析

这个挺重要的,因为有些App的界面无障碍服务读不出来,AI会自己截图看。

5. 拟人操作

官方文档里列出的操作类型:

  • click - 点击屏幕坐标(x,y)
  • swipe - 滑动(滚动、翻页),支持自定义时长
  • long_press - 长按,支持自定义时长
  • text_input - 向输入框注入文本(先尝试SET_TEXT,失败则用剪贴板粘贴)
  • intent - 启动应用、打开网页、拨号、发短信、设闹钟等系统Intent
  • global_action - 系统级操作:返回、Home、最近任务、通知栏、快捷设置
  • screenshot - 截图,保存到 Pictures/Andclaw/
  • download - 通过DownloadManager直接下载文件(不用先打开浏览器)
  • wait - 等待页面加载,最长10秒
  • camera - 拍照、开始录像、停止录像
  • screen_record - 录屏,保存到 Movies/Andclaw/
  • volume - 音量控制:设置、调高/调低、静音/取消静音、查询当前音量
  • dpm - Device Owner模式专用:应用管理、设备控制等
  • finish - 任务完成,停止Agent

关键是有循环检测功能:同一个操作连续做5次?AI会截图用视觉重试,最多3轮,15次后还没进展就自动停下了。不会死命点同一个地方点个几十次。

6. Telegram远程控制

人在外面也能用。通过Telegram Bot远程下发指令,截图、拍照、录像完成后会自动发到Telegram。

常用操作:

  • 直接发文字 → 作为指令下发给Agent执行
  • /status → 查询Agent状态(运行中/空闲、当前任务、Chat ID)
  • /stop → 停止当前正在执行的任务

7. 企业级管控(可选)

如果愿意折腾,启用Device Owner模式可以更强。但注意:Android安全限制,设备必须先恢复出厂设置才能启用Device Owner模式。

不启用的话,AI操作手机的权限会大幅受限。

启用后的能力:

  • 应用管理:静默安装/卸载应用、隐藏/显示/挂起应用、阻止卸载、自动授予权限、查询已安装应用列表
  • 设备控制:远程锁屏、重启、恢复出厂设置、禁用摄像头/状态栏/锁屏、USB数据传输控制、定位开关
  • Kiosk模式:单应用锁定(Lock Task)、替换默认桌面、禁止安全模式/恢复出厂

详细能力清单看GitHub上的 ACTIONS.md。


AI是怎么干活的?

下面是流程图:

用户指令
    ↓
[1.5s] → 捕获屏幕 UI 树(无障碍服务)
    ↓
浏览器/WebView?──是──→ 自动截图(视觉分析辅助)
    ↓
发送给 LLM(系统提示 + 最近 12 条历史 + 屏幕数据 [+ 截图])
    ↓
AI 返回 JSON 操作决策
    ↓
解析失败?──是──→ 纠正提示重试(1 次)
    ↓
执行操作(点击/滑动/输入/Intent/DPM/拍照/录屏/...)
    ↓
[2.5s] → 重新捕获屏幕  ←──────────────┐
    ↓                                   │
循环检测(同一操作连续 5 次?)             │
    ↓是→ 截图 + 视觉重试(最多 3 轮,15 次后停止)
    ↓否
任务完成?──否→ 继续循环
    ↓
是 → 结束

简单说就是:AI看屏幕 → 思考下一步 → 执行操作 → 看看效果 → 继续还是停下。形成闭环,不用你盯着。


支持的AI模型

官方文档里写的:

提供商
API格式
配置示例
Kimi
Anthropic Messages
Base URL: https://www.kimi.com/code/console,Model: kimi-k2.5
OpenAI兼容
OpenAI Chat Completions
Base URL: https://api.openai.com/v1,Model: gpt-4o

两个都支持多模态输入(文本 + 截图base64),可以携带图片。


环境要求

  • Android 12 (API 31) 或更高
  • 需要在设置里手动启用无障碍服务
  • 需要悬浮窗权限(显示紧急停止按钮)
  • 需要自己准备API Key(Kimi或OpenAI兼容)

安装方式

最简单的(推荐):用Chrome浏览器访问 andclaw.app/#/install,按提示走就行。

想自己编译的

  1. git clone https://github.com/andforce/Andclaw.git
  2. 创建 local.properties,配 kimi_key 和 tg_token(可选)
  3. ./gradlew :app:installDebug
  4. 打开App,按提示开无障碍服务和悬浮窗权限
  5. 可选:通过ADB激活Device Owner(adb shell dpm set-device-owner com.andforce.andclaw/.DeviceAdminReceiver

其他一些信息

  • 许可证:MIT(开源)
  • 技术栈:Java 89.4%、Kotlin 7.8%、TypeScript 2.2%
  • 致谢:TestDPC(Device Owner功能参考)、Kimi API

项目地址:https://github.com/andforce/Andclaw
官网:https://andclaw.app





扫码加入技术交流群,备注「开发语言-城市-昵称

合作请注明


如果你觉得这篇文章不错,别忘了点赞、在看、转发给更多需要的小伙伴哦!我们下期再见!



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询