新手必看:Open-AutoGLM安装配置避坑全攻略

新手必看:Open-AutoGLM安装配置避坑全攻略

本文专为零基础用户打造,全程避开90%新手踩过的坑——ADB环境变量配错、手机调试没开全、WiFi连接反复失败、中文输入乱码、模型调用404……所有真实痛点,一步一图(文字版)讲透。

1. 先搞懂它到底能干啥(别急着装)

你不需要理解“多模态”“视觉语言模型”这些词。
就记住一句话:你用大白话告诉它想干啥,它就能自己点手机、输文字、滑页面,像真人一样操作。

比如:

  • “打开小红书,搜‘北京咖啡馆’,点第一个笔记,保存图片”
  • “进微信,找到‘张三’,发消息‘明天会议改到下午三点’”
  • “打开淘宝,搜‘无线耳机’,按销量排序,把前3个商品标题抄下来”

它不是遥控器,也不是录屏回放。它是真正在“看”你的屏幕、“听”你的指令、“想”下一步怎么走,再动手执行。

所以安装前,请先确认三件事:

  • 你有一台 Android 7.0以上 的真机(模拟器也行,但真机更稳)
  • 你有一台 Windows 或 macOS 电脑(Linux 用户请跳过本教程,需自行适配ADB路径)
  • 你愿意花 30分钟 跟着一步步操作(不是复制粘贴就完事,每个步骤都有“为什么”)

如果上面三条都满足,咱们现在就开始——不绕弯、不炫技、不堆术语,只解决你马上会遇到的问题。

2. 环境准备:从零开始的四步通关

别被“环境配置”吓住。这一步其实就四件事:装好ADB、连上手机、配对成功、验证通路。我们按最常卡壳的顺序来。

2.1 安装ADB工具(Windows/macOS通用)

ADB不是软件,是命令行工具包。官方下载地址:https://developer.android.com/tools/releases/platform-tools
别下错!只下“Platform Tools”这个压缩包(约30MB),不是整个Android Studio。

Windows用户(重点避坑)
  • 解压后得到一个叫 platform-tools 的文件夹,里面全是 .exe 文件
  • 关键动作:把这个文件夹的完整路径加进系统环境变量
    (例:C:\Users\YourName\Downloads\platform-tools
  • 怎么加?
    Win + R → 输入 sysdm.cpl → “高级” → “环境变量” → 在“系统变量”里找到 Path → “编辑” → “新建” → 粘贴上面那个路径 → 确定
  • 验证是否成功
    打开一个新的命令提示符(CMD),输入:
    adb version
    
    如果显示类似 Android Debug Bridge version 1.0.41,说明成功;
    如果报错 'adb' 不是内部或外部命令,说明路径没加对,回去重做。
macOS用户(重点避坑)
  • 解压后同样得到 platform-tools 文件夹
  • 打开终端,输入:
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc
    source ~/.zshrc
    
    (注意:如果你用的是老系统用bash,请把 .zshrc 换成 .bash_profile
  • 验证:
    adb version
    
    有版本号就对了。

常见坑:

  • 下载了带图形界面的“ADB工具箱”,结果根本没法用;
  • 路径里有中文或空格(如 C:\我的软件\adb),导致命令失效;
  • 没重启终端/CMD,环境变量没生效。

2.2 手机端设置:三步必须全开

很多用户卡在这一步,反复重试却始终连不上。原因只有一个:三个开关没全打开。

请严格按顺序操作(以主流安卓为例,华为/小米/OPPO等设置路径略有不同,但关键词一致):

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”

  2. 开启USB调试
    设置 → 系统和更新 → 开发者选项 → 找到“USB调试”,打开它
    (有些手机还要求同时打开“USB调试(安全设置)”,也一并打开)

  3. 安装并启用ADB Keyboard(中文输入核心!)

    • 下载地址:https://github.com/senzhk/ADBKeyBoard/releases
      (找最新版 ADBKeyboard_v1.0_all.apk,直接下载安装)
    • 安装后,进入手机设置 → 语言与输入法 → 当前输入法 → 选择“ADB Keyboard”
    • 必须手动切换一次:长按任意输入框 → “选择输入法” → 点“ADB Keyboard”

常见坑:

  • 只开了USB调试,没开“USB调试(安全设置)”,连接时提示“授权失败”;
  • 没装ADB Keyboard,后面输入中文直接乱码或失败;
  • 手机连电脑后弹出“允许USB调试吗?”窗口,点了“拒绝”或勾选了“不再询问”,导致永远连不上——解决办法:在开发者选项里“撤销USB调试授权”,再重新连。

2.3 连接手机:USB优先,WiFi备用

USB直连(推荐新手首选)
  • 用原装数据线连接手机和电脑
  • 手机弹窗点“允许”
  • 电脑CMD/终端输入:
    adb devices
    
    正常输出应为:
    List of devices attached
    1234567890abcdef    device
    
    device 字样,说明连通。
    ❌ 显示 unauthorized,说明手机没点“允许”;
    ❌ 显示空列表,说明驱动没装好(华为/小米用户请去官网装对应手机助手)。
WiFi无线连接(适合不想插线的用户)

注意:必须先用USB连一次,才能开启WiFi模式

  • USB连好后,在CMD/终端输入:
    adb tcpip 5555
    
    (看到 restarting in TCP mode port: 5555 即成功)
  • 断开USB线,确保手机和电脑在同一WiFi下
  • 查看手机IP:设置 → WLAN → 点当前网络 → IP地址(通常是 192.168.x.x
  • 电脑输入:
    adb connect 192.168.x.x:5555
    
    成功会显示 connected to 192.168.x.x:5555

常见坑:

  • WiFi连接后 adb devices 显示 offline:重启手机ADB服务,输入 adb kill-server && adb start-server
  • 连上WiFi但无法控制:检查路由器是否开启了“AP隔离”,关掉即可;
  • 电脑连公司WiFi,手机连手机热点:必须同网段,否则不通。

2.4 验证控制能力:三行命令测通路

连上只是第一步,还要确认你能真正操控手机。运行以下三行命令(每行回车后等几秒看反馈):

adb shell input keyevent KEYCODE_HOME  # 回到桌面
adb shell input text "test"            # 输入英文(测试ADB Keyboard)
adb shell screencap -p /sdcard/test.png  # 截图(生成在手机相册)
  • 第一行:手机应立刻回到桌面;
  • 第二行:任意可输入界面(如微信聊天框)应出现 test
  • 第三行:打开手机相册,能看到一张叫 test.png 的截图。

全部成功,说明ADB控制链路100%打通。
❌ 任一失败,请回头检查2.1–2.3步,不要往下走。

3. 部署Open-AutoGLM控制端:三分钟搞定

这一步最简单,但最容易因网络/权限问题失败。我们用最稳妥的方式。

3.1 克隆代码 & 安装依赖

打开CMD/终端,依次执行(复制一行,回车,等它跑完再下一行):

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .

常见坑:

  • 报错 Could not find a version that satisfies...:升级pip,python -m pip install --upgrade pip
  • 报错 Permission denied(macOS):在命令前加 sudo,即 sudo pip install ...
  • 卡在 Building wheel for ...:耐心等2–5分钟,这是编译过程,不是卡死。

3.2 获取设备ID(不是序列号!)

别去手机设置里找“设备序列号”。正确做法是:

adb devices

输出示例:

List of devices attached
emulator-5554    device
1234567890abcdef    device

你要记下的就是那一串字母数字组合(如 1234567890abcdef),不是emulator-5554这种模拟器ID
把它复制下来,后面要用。

3.3 启动AI代理:一条命令跑起来

重要前提:你已经有一个运行中的AutoGLM-Phone模型服务(云服务或本地vLLM)。
如果你还没部署模型服务,请先访问 CSDN星图镜像广场 搜索“AutoGLM-Phone”,一键拉起预置服务。

假设你的模型服务地址是 http://192.168.1.100:8800/v1(这是常见内网部署地址),设备ID是 1234567890abcdef,那么运行:

python main.py \
  --device-id 1234567890abcdef \
  --base-url http://192.168.1.100:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

你会看到类似这样的实时输出:

[Step 1] Capturing screenshot...
[Step 1] Current app: System Home
[Step 1] Sending to model...
<think>当前在桌面,需要启动抖音</think>
<answer>do(action="Launch", app="抖音")</answer>
[Step 1] Executing: Launch app '抖音'

看到 Executing 开头的日志,说明AI已开始操控手机。
❌ 如果卡在 Sending to model... 超过30秒,检查:

  • --base-url 地址能否在浏览器打开(如 http://192.168.1.100:8800/v1);
  • 服务器防火墙是否放行了8800端口;
  • 模型服务是否真的在运行(curl http://192.168.1.100:8800/health 应返回 {"status":"ok"})。

4. 实战避坑指南:95%用户都问过的5个问题

4.1 问题:中文输入全是乱码或不显示?

原因:ADB Keyboard没启用,或没切换成功。
解法

  1. 手机设置 → 语言与输入法 → 确认“ADB Keyboard”已启用;
  2. 在任意输入框长按 → “选择输入法” → 手动选一次“ADB Keyboard”;
  3. 重启ADB服务:adb kill-server && adb start-server
  4. 再试 adb shell input text "你好",应正常显示。

4.2 问题:WiFi连接后,adb devices 显示 unauthorized

原因:手机USB调试授权是按设备ID绑定的,WiFi连接用了新ID。
解法

  • 手机设置 → 开发者选项 → “撤销USB调试授权”;
  • 重新执行 adb connect 192.168.x.x:5555
  • 手机弹窗点“允许”。

4.3 问题:执行到支付页面,屏幕变黑,然后卡住?

原因:安卓系统禁止敏感页面截图,AI收到黑屏后触发人工接管机制。
解法

  • 看到日志出现 Takeover required: Please complete payment manually
  • 手动完成支付/验证码;
  • 按回车键继续(默认接管回调是阻塞式等待)。

4.4 问题:点击位置明显偏移,点不到目标按钮?

原因:坐标归一化依赖准确的屏幕分辨率,而某些定制ROM会报告错误尺寸。
解法

  • 运行 adb shell wm size,查看输出(如 Physical size: 1080x2400);
  • 对比手机实际分辨率(设置 → 显示 → 屏幕分辨率),若不一致:
    • 临时修复:adb shell wm size 1080x2400(替换成真实值);
    • 永久修复:换用原生安卓或Pixel手机。

4.5 问题:模型返回 404 Not FoundConnection refused

原因--base-url 地址格式错误。
正确写法

  • http://192.168.1.100:8800/v1(末尾必须有 /v1
  • http://localhost:8000/v1(本地部署)
  • http://192.168.1.100:8800(缺 /v1
  • https://xxx.ngrok.io(Open-AutoGLM目前不支持HTTPS前端,需反向代理转HTTP)

5. 进阶技巧:让AI更听话的3个实用方法

5.1 指令越具体,成功率越高

❌ 差:“帮我订外卖”
好:“打开美团,搜‘海底捞’,选‘国贸店’,点‘双人套餐’,加一份酸梅汤,下单支付”

理由:AI没有常识,它只按字面执行。给它明确App名、关键词、操作动词(点/选/加/下单),成功率翻倍。

5.2 加入“容错指令”,避免死循环

在指令末尾加一句:

“如果3次点击都没反应,就按返回键,再试一次”

AI会把它当作规则写进思考链,自动加入重试逻辑,而不是卡在原地。

5.3 用Python API实现批量任务

不用每次敲命令,写个脚本自动跑:

from phone_agent.agent import PhoneAgent
from phone_agent.model.client import ModelConfig
from phone_agent.config import AgentConfig

model_config = ModelConfig(
    base_url="http://192.168.1.100:8800/v1",
    model_name="autoglm-phone-9b"
)

agent_config = AgentConfig(
    max_steps=50,
    device_id="1234567890abcdef"
)

agent = PhoneAgent(model_config, agent_config)

tasks = [
    "打开小红书,搜‘深圳租房’,保存前5个笔记封面",
    "进微信,群‘技术讨论’,发消息‘今日分享:Open-AutoGLM教程’",
    "打开淘宝,搜‘机械键盘’,按价格从低到高,记录第1个商品标题和价格"
]

for i, task in enumerate(tasks, 1):
    print(f"\n--- 任务 {i} 开始 ---")
    result = agent.run(task)
    print(f"结果:{result}")

保存为 batch_run.py,运行 python batch_run.py 即可。

6. 总结:你已掌握的核心能力

回顾一下,你现在能独立完成:

  • 在Windows/macOS上正确安装并验证ADB
  • 让任意安卓手机通过USB/WiFi稳定接入电脑
  • 成功部署Open-AutoGLM控制端并连接云端模型
  • 用自然语言指令驱动手机完成多步操作
  • 排查并解决中文输入、黑屏接管、坐标偏移等高频问题
  • 编写Python脚本实现批量自动化任务

这不是一个玩具项目,而是真正可用的生产力工具。它背后是视觉理解、动作规划、设备控制、安全约束四大能力的融合。你不需要懂原理,但你已经拿到了钥匙。

下一步,你可以:
🔹 尝试更复杂的指令,比如跨App协作(微信发链接→浏览器打开→截图→保存);
🔹 把它集成进你的工作流,比如每天自动抓取竞品App的首页文案;
🔹 甚至基于它的模块,开发自己的垂直场景Agent(电商导购、教育陪练、金融助手)。

技术不难,难的是迈出第一步。恭喜你,这一步,你已经稳稳踏出去了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值