Open-AutoGLM实测体验：千元机也能流畅运行吗？

最新推荐文章于 2026-01-18 05:58:14 发布

原创最新推荐文章于 2026-01-18 05:58:14 发布 · 680 阅读

20 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

Coding Plan支持GLM 5.2 ，限时限量，低至¥39元起！立即锁定名额->>

Open-AutoGLM实测体验：千元机也能流畅运行吗？

1. Open-AutoGLM – 智谱开源的手机端AI Agent框架

随着大模型技术向终端设备下沉，AI智能体（Agent）在移动端的应用正逐步从概念走向落地。近期，智谱AI开源了基于视觉语言模型的手机端AI助理框架——Open-AutoGLM，引发广泛关注。该框架依托其自研的AutoGLM-Phone模型，实现了通过自然语言指令驱动安卓设备自动完成复杂操作的能力。

与传统自动化工具不同，Open-AutoMLG并非依赖预设脚本或固定规则，而是结合多模态理解、意图解析和动作规划能力，真正实现“像人一样使用手机”。用户只需输入一句“打开小红书搜索美食推荐”，系统即可自主识别当前界面、分析UI元素、生成操作路径并执行点击、滑动、输入等动作，全程无需人工干预。

更令人关注的是，该项目明确支持在普通安卓手机上运行，甚至宣称可在资源受限的千元机型上部署。这是否意味着我们手中的旧手机也能摇身一变成为“AI掌上电脑”？本文将从技术原理、部署流程到性能实测，全面评估Open-AutoGLM的实际表现。

2. AutoGLM-Phone 技术架构解析

2.1 多模态感知 + 动作规划双引擎驱动

AutoGLM-Phone的核心在于其“感知-决策-执行”闭环架构。整个系统由三个关键模块组成：

视觉语言模型（VLM）：负责对手机屏幕截图进行语义理解，提取文本、按钮、图标等UI组件信息，并结合用户指令判断当前场景。
任务规划器（Planner）：接收用户自然语言指令后，将其分解为可执行的子任务序列，如“启动应用 → 输入关键词 → 点击搜索 → 进入主页”。
ADB控制层：通过Android Debug Bridge协议发送模拟操作指令，包括tap、swipe、input text等，实现对设备的非侵入式操控。

这种设计使得系统具备较强的泛化能力，能够适应不同App界面变化，而无需针对每个应用单独训练模型。

2.2 安全机制与人机协同设计

考虑到自动化操作可能带来的误触风险，Open-AutoGLM内置了多重安全策略：

敏感操作拦截：当检测到支付、删除账户、权限授权等高危行为时，系统会暂停执行并提示用户确认。
验证码/登录接管：遇到图形验证码或生物识别场景时，自动退出自动化流程，交由用户手动处理。
远程调试支持：可通过WiFi连接设备，在无物理接触的情况下完成开发调试，提升可用性。

此外，项目采用“云模型+本地控制”的混合架构，即视觉理解和推理过程在云端完成，本地仅保留ADB通信和图像采集功能。这一设计有效降低了终端设备的算力需求，使低配手机也能参与AI Agent交互。

3. 部署实践：从环境搭建到首次运行

3.1 硬件与环境准备

要成功运行Open-AutoGLM，需同时配置服务端（运行模型）和客户端（控制手机）。本文重点介绍客户端部署流程，假设服务端已通过vLLM部署好autoglm-phone-9b模型并开放API接口。

所需环境如下：

操作系统：Windows 10 / macOS Monterey 及以上
Python版本：建议 Python 3.10+
安卓设备：Android 7.0+ 实体机或模拟器
ADB工具包：用于设备连接与控制

ADB安装与配置

Windows平台：

下载 Android SDK Platform Tools 并解压。
打开“系统属性 → 高级 → 环境变量”，在Path中添加解压目录路径。
命令行执行 adb version，验证输出版本号。

macOS平台：

# 将platform-tools路径加入临时环境变量
export PATH=${PATH}:~/Downloads/platform-tools
# 或写入 ~/.zshrc 永久生效
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc

3.2 手机端设置

确保手机处于可调试状态：

开启开发者模式：进入“设置 → 关于手机”，连续点击“版本号”7次。
启用USB调试：返回“设置 → 开发者选项”，勾选“USB调试”。
安装ADB Keyboard：
从GitHub下载 ADBKeyboard.apk 并安装。
在“语言与输入法”中切换默认输入法为 ADB Keyboard，以便AI能自动输入文字。

注意：部分国产ROM（如MIUI、EMUI）可能存在ADB权限限制，建议关闭“USB调试安全设置”以避免频繁弹窗阻断流程。

3.3 控制端代码部署

在本地电脑克隆并安装Open-AutoGLM控制程序：

# 克隆仓库
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装依赖
pip install -r requirements.txt
pip install -e .

安装过程中若出现torch兼容性问题，建议使用官方渠道安装对应CUDA版本，或改用CPU模式运行（性能下降明显）。

3.4 设备连接方式对比

USB直连模式（推荐初学者）

adb devices

正常应显示类似输出：

List of devices attached
ABCDEF1234567890    device

表示设备已识别，可开始控制。

WiFi无线连接（适合远程调试）

首次需通过USB激活TCP/IP模式：

adb tcpip 5555
adb disconnect
adb connect 192.168.x.x:5555

成功后即可拔掉数据线，通过局域网持续连接。此方式便于长时间测试，但需注意网络稳定性，避免中断导致操作失败。

4. 启动AI代理：命令行与API调用

4.1 命令行快速启动

在项目根目录下执行主程序：

python main.py \
  --device-id ABCDEF1234567890 \
  --base-url http://192.168.1.200:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

参数	说明
`--device-id`	通过 `adb devices` 获取的设备唯一标识
`--base-url`	云端vLLM服务的公网IP与端口（需提前映射）
`--model`	指定调用的模型名称，必须与服务端注册一致

执行后，系统将循环执行以下步骤： 1. 截图获取当前屏幕内容 2. 编码图像与指令发送至云端模型 3. 接收模型返回的操作类型与坐标 4. 通过ADB执行对应动作 5. 判断任务是否完成，否则继续迭代

4.2 使用Python API进行高级控制

对于集成开发或批量测试，可直接调用SDK中的ADB管理类：

from phone_agent.adb import ADBConnection, list_devices

# 创建连接管理器
conn = ADBConnection()

# 连接远程设备
success, message = conn.connect("192.168.1.100:5555")
print(f"连接状态: {message}")

# 列出所有已连接设备
devices = list_devices()
for device in devices:
    print(f"{device.device_id} - {device.connection_type.value}")

# 启用TCP/IP模式（USB连接时）
success, message = conn.enable_tcpip(5555)
ip = conn.get_device_ip()
print(f"设备 IP: {ip}")

# 断开指定设备
conn.disconnect("192.168.1.100:5555")

该API支持设备发现、网络切换、IP获取等功能，适用于构建自动化测试平台或远程运维系统。

5. 性能实测：千元机能跑吗？

5.1 测试环境配置

项目	配置
手机型号	Redmi Note 9（联发科G80，6GB RAM）
操作系统	MIUI 13（Android 11）
网络环境	局域网WiFi（5GHz）
服务端硬件	NVIDIA RTX 3090（24GB显存）
模型部署	vLLM + autoglm-phone-9b（INT4量化）

5.2 实际运行表现

我们设定多个典型任务进行测试：

任务	是否完成	耗时(s)	最大延迟(s)	备注
打开微信发送消息给联系人A	✅	18	3.2	准确识别聊天列表
打开小红书搜索“咖啡探店”	✅	22	4.1	成功跳转搜索页
登录淘宝并进入购物车	⚠️	-	-	卡在验证码页面（需人工介入）
打开抖音关注指定账号	✅	26	3.8	正确解析用户名并点击关注

整体来看，在良好网络条件下，千元机作为“执行终端”完全可行。所有UI操作均能被准确识别与执行，未出现因设备性能不足导致的卡顿或超时。

但值得注意的是，响应速度高度依赖网络延迟与模型推理效率。平均单步操作耗时约2.5~4秒，其中90%时间消耗在图像上传、模型推理和结果返回上，本地ADB执行仅占不到0.5秒。

5.3 资源占用情况

通过top命令监控手机端资源使用：

CPU占用：稳定在15%以内（后台服务）
内存占用：约80MB
温度变化：连续运行30分钟，机身温度上升约2.3°C

可见，客户端本身负载极低，主要压力集中在云端GPU服务器。这也印证了其“轻客户端+重云端”的设计思路。

6. 优化建议与常见问题排查

6.1 提升稳定性的实用技巧

优先使用USB连接：相比WiFi，USB连接更稳定，避免因丢包导致操作中断。
关闭省电模式：部分厂商会在后台杀死ADB进程，建议将相关应用加入白名单。
定期清理缓存截图：长期运行会产生大量临时图片文件，影响存储性能。
调整截图频率：可根据任务复杂度动态调节采样间隔，减少无效请求。

6.2 常见问题及解决方案

问题现象	可能原因	解决方案
`adb devices` 无设备显示	驱动未安装或权限未授权	重新插拔USB，确认手机弹窗允许调试
连接被拒绝（Connection Refused）	云服务器防火墙未放行端口	检查安全组规则，开放对应端口（如8800）
模型返回乱码或空操作	输入图像模糊或指令歧义	提高截图质量，简化指令表述
ADB Keyboard无法输入中文	字符编码不匹配	确保发送文本为UTF-8格式，或改用拼音输入