一键解放双手！Open-AutoGLM实现手机自动化，支持50+款主流App

南城游子

256人浏览 · 2026-03-12 00:36:18

南城游子 · 2026-03-12 00:36:18 发布

一键解放双手！Open-AutoGLM实现手机自动化，支持50+款主流App

想象一下这个场景：你正忙着写代码，突然想起要在美团上点个外卖，在微信上给同事发个文件，再打开网易云音乐放首歌。你不得不放下手头的工作，拿起手机，解锁、找App、点击、输入……一套流程下来，几分钟就过去了。

如果有个助手能听懂你的话，自动帮你完成这些操作呢？比如你只需要说一句：“打开美团，点一份附近的黄焖鸡米饭，用微信支付”，然后继续写你的代码，几分钟后外卖就点好了。

这听起来像是科幻电影里的场景，但今天，借助智谱AI开源的 Open-AutoGLM，这个想法已经变成了现实。它不是一个简单的语音助手，而是一个能真正“看懂”手机屏幕、并像真人一样操作手机的AI智能体。

1. Open-AutoGLM是什么？你的手机AI管家

简单来说，Open-AutoGLM 是一个手机端的AI智能助理框架。它的核心由两部分组成：

Phone Agent：一个智能体框架，负责“思考”和“决策”。
AutoGLM-Phone-9B：一个9B参数的多模态大模型，负责“看”和“理解”。

它的工作原理非常直观：

你说话：用自然语言告诉它你想做什么，比如“打开小红书搜美食”。
它看屏幕：通过ADB（Android调试桥）实时获取手机屏幕截图。
它思考：大模型分析截图，理解当前界面有什么元素（按钮、输入框、文字），并结合你的指令，规划下一步该点哪里、输入什么。
它动手：通过ADB发送点击、滑动、输入等指令，自动执行操作。
循环直到完成：重复“看-思考-动手”这个过程，直到完成你交代的整个任务链。

最棒的是，它已经预先学习和适配了超过50款国内主流App的操作逻辑，包括微信、淘宝、抖音、美团、网易云音乐等，开箱即用。

2. 10分钟快速上手：从零到第一次AI操控

你可能觉得这么“黑科技”的东西配置起来会很复杂。别担心，我带你走一遍最简化的流程，10分钟就能看到效果。这里我们采用对新手最友好的云端API方案，无需本地显卡，成本极低。

2.1 第一步：准备你的“被控”手机

你需要一部Android手机（系统7.0以上）作为被AI操控的对象。

开启开发者模式：进入手机 设置 -> 关于手机，连续点击“版本号”7次，直到提示“您已处于开发者模式”。
开启USB调试：返回设置，进入新出现的 开发者选项，找到并开启 USB调试。非常重要：同时开启 USB调试（安全设置），否则AI可能无法点击屏幕。
安装ADB键盘：这是一个让电脑能向手机输入中文的特殊输入法。
- 下载 ADBKeyboard.apk 到电脑。
- 用USB线连接手机和电脑，在电脑命令行执行：adb install 路径/ADBKeyboard.apk 进行安装。
- 在手机 设置 -> 系统管理/更多设置 -> 语言与输入法 中，将 ADB键盘 启用（无需设为默认）。

2.2 第二步：在电脑上搭建控制环境

你的电脑（Windows/Mac/Linux均可）将作为“指挥中心”。

安装Python：确保已安装Python 3.10或以上版本。在命令行输入 python --version 检查。
安装ADB工具：这是电脑与手机通信的桥梁。
- Windows用户：下载 platform-tools，解压后，将解压目录的路径（如 C:\platform-tools）添加到系统的环境变量 Path 中。
- Mac/Linux用户：可通过Homebrew安装：brew install android-platform-tools。
- 验证：打开终端或CMD，输入 adb version，看到版本号即成功。
连接手机：用USB线连接手机和电脑。在手机上弹出的“允许USB调试吗？”对话框中点击“确定”。然后在电脑命令行输入 adb devices，如果看到一串设备ID后面跟着 device 字样，说明连接成功。

2.3 第三步：获取AI“大脑”（云端API密钥）

我们使用智谱AI的云端服务，省去本地部署模型的麻烦。

访问智谱AI开放平台，注册并登录。
在左侧菜单进入 个人中心 -> API密钥，点击“创建新的API密钥”。
复制生成的API Key，妥善保存。

2.4 第四步：下载并运行控制程序

现在，让我们把指挥中心（电脑程序）和AI大脑（云端API）连接起来。

# 1. 下载Open-AutoGLM项目代码
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

# 2. 创建并激活Python虚拟环境（避免依赖冲突）
python -m venv venv
# Windows激活命令：
venv\Scripts\activate
# Mac/Linux激活命令：
# source venv/bin/activate

# 3. 安装项目依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -e .

2.5 第五步：发出你的第一个AI指令

一切就绪！让我们进行第一次“魔法”体验。确保手机屏幕是亮着的，并且停留在解锁后的主界面。

在命令行中，运行以下命令（将 你的API密钥 替换为刚才复制的真实密钥）：

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "你的API密钥" \
  "打开微信，找到文件传输助手，发送消息：Hello from AI!"

稍等几秒钟，你会看到命令行开始滚动日志，而你的手机像被一个隐形的手指操控一样，自动解锁（如果设置了）、找到微信图标、点击打开、定位到文件传输助手、点击输入框、输入文字、点击发送……

恭喜你！你已经成功让AI接管了你的手机。 第一次看到这个场景，那种奇妙的震撼感是难以言喻的。

3. 它能做什么？超乎想象的实用场景

Open-AutoGLM不是一个玩具，它的能力覆盖了我们大量的日常高频操作。下面我按场景分类，展示一些真实可用的指令示例。

3.1 社交通讯自动化

微信：“给妈妈发微信，说今晚不回家吃饭了。” “在群里查找昨天下午关于项目的聊天记录。”
微博：“打开微博，搜索‘人工智能大会’，点赞第一条热门微博。”
钉钉：“打开钉钉，审批待处理的请假申请。”

3.2 娱乐内容管理

抖音/快手：“打开抖音，下滑5个视频，给第三个视频点赞。” “在快手搜索‘健身教程’并关注第一个博主。”
B站：“打开B站，在我的收藏夹里播放第一个视频。”
网易云音乐/QQ音乐：“打开网易云音乐，搜索‘周杰伦’，播放《七里香》。” “将当前播放的歌曲加入‘我喜欢’。”

3.3 购物与生活服务

淘宝/京东：“打开淘宝，搜索‘机械键盘’，按销量排序，点进第一个商品。” “在京东查看我的待收货订单。”
美团/饿了么：“打开美团，点一份附近销量最高的披萨，地址选公司。”
小红书：“打开小红书，搜索‘周末露营攻略’，收藏点赞数最多的那篇笔记。”

3.4 信息获取与整理

浏览器：“打开Chrome，访问百度，搜索‘今天的天气’。”
知乎：“打开知乎，在热榜上查看排名前三的问题。”
邮箱：“打开邮箱，标记所有未读邮件为已读。”

你会发现，指令越具体，AI执行的成功率越高。与其说“看看新闻”，不如说“打开今日头条APP，浏览科技频道的头条新闻”。

4. 核心机制：它如何“看懂”并“操作”手机？

了解其背后的原理，能帮助你更好地使用它，并在出问题时进行排查。整个过程可以概括为一个高效的“感知-决策-执行”循环。

4.1 感知：多模态模型如何“看”屏幕？

这是最关键的一步。AutoGLM-Phone-9B模型是一个视觉语言模型。

输入：你的自然语言指令 + 当前手机屏幕的截图。
处理：模型同时理解图片中的视觉元素（图标、按钮、文字布局）和你的文本指令。
输出：模型不是直接输出坐标，而是输出一个结构化的“动作指令”。例如，它不会说“点击(520, 1350)”，而是会输出 Tap(“搜索框”) 或 Type(“奶茶”)。这种基于语义的理解，使得它对于不同分辨率、不同UI布局的手机都有很好的适应性。

4.2 决策：智能体如何“规划”任务？

Phone Agent框架负责任务规划。如果你的指令是复杂的多步任务，比如“在美团点一份黄焖鸡米饭并支付”，它会自动将其分解为：

Launch(“美团”) -> 打开美团APP
Tap(“外卖”) -> 点击外卖入口
Type(“黄焖鸡米饭”) -> 在搜索框输入
Tap(“搜索”) -> 点击搜索按钮
Tap(“第一个商家”) -> 选择商家
Tap(“点外卖”) -> … （后续加入购物车、选地址、支付等步骤）

这个规划过程是动态的，它会根据每一步执行后的新屏幕状态，决定下一步做什么。

4.3 执行：ADB如何成为“无形之手”？

ADB是Android系统的官方调试工具，它提供了从电脑向手机发送精确控制命令的能力。

adb shell input tap x y：模拟在屏幕坐标(x, y)处点击。
adb shell input text “hello”：模拟输入文本“hello”。
adb shell input swipe x1 y1 x2 y2：模拟从(x1,y1)滑动到(x2,y2)。

Open-AutoGLM将模型输出的语义化动作（如Tap(“搜索框”)），通过OCR等技术定位到当前屏幕上该元素的真实坐标，再转换成上述ADB命令发送给手机执行。

4.4 安全护栏：敏感操作的人工接管

框架设计得非常谨慎。当遇到以下情况时，它会主动暂停，并在命令行提示“需要人工接管”：

登录页面：涉及账号密码输入。
支付验证：出现支付密码、指纹、人脸识别界面。
权限弹窗：申请敏感权限（如位置、通讯录）。
无法识别的复杂界面。

此时，你需要手动在手机上完成验证或操作，然后告诉AI“继续”，它便会从当前状态接着执行后续任务。这个设计平衡了自动化能力和安全性。

5. 两种部署方案详解：云端API vs. 本地模型

前面我们用了最简单的云端API方案。如果你想追求极致速度、完全控制或处理大量任务，可以考虑本地部署。

5.1 方案对比：如何选择？

特性	云端API方案	本地模型部署方案
上手难度	⭐⭐ 非常简单	⭐⭐⭐⭐ 较复杂
硬件要求	无要求，能上网就行	需要高性能GPU（如RTX 3090/4090，显存16G+）
响应速度	2-5秒/步，依赖网络	1-3秒/步，速度稳定
数据隐私	屏幕截图会上传至云端服务器	所有数据均在本地，隐私性好
使用成本	按Token计费，约0.1-0.5元/次任务	一次性显卡投入，后续仅电费
适合人群	初学者、体验者、低频使用者	开发者、高频使用者、对隐私要求高的用户

5.2 本地部署详细指南（适合有GPU的用户）

如果你有一张性能足够的NVIDIA显卡，可以按照以下步骤在本地运行模型。

1. 安装CUDA和PyTorch 确保你的显卡驱动和CUDA版本（建议12.1+）已正确安装。

2. 使用vLLM部署模型（高性能推理） vLLM是一个高效的推理框架。在项目目录下，运行以下命令启动模型服务：

# 对于Linux/Mac用户
python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480

# 对于Windows用户（在PowerShell中）
python -m vllm.entrypoints.openai.api_server `
  --served-model-name autoglm-phone-9b `
  --model zai-org/AutoGLM-Phone-9B `
  --port 8000 `
  --max-model-len 25480

首次运行会从Hugging Face下载约18GB的模型文件，请耐心等待。看到服务成功启动在 http://localhost:8000 的输出后，即可进行下一步。

3. 使用本地服务执行任务 启动命令和云端API类似，只需将 --base-url 指向本地服务。

python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音，搜索‘猫咪’并观看第一个视频"

6. 高级技巧与实战脚本

当你熟悉基础操作后，可以尝试这些进阶玩法，将自动化能力融入你的工作流。

6.1 使用Python API进行编程控制

通过Python脚本调用，可以实现更复杂的逻辑和批量任务。

# advanced_automation.py
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
import time

# 1. 配置模型连接（使用本地服务）
model_config = ModelConfig(
    base_url="http://localhost:8000/v1",  # 或你的云端API地址
    model_name="autoglm-phone-9b",         # 或 "autoglm-phone"（云端）
    api_key="your-api-key-if-cloud"        # 本地部署可留空
)

# 2. 初始化智能体
agent = PhoneAgent(model_config=model_config)

# 3. 定义一系列自动化任务
daily_routines = [
    "打开微信，查看是否有未读的置顶聊天消息",
    "打开网易云音乐，播放‘每日推荐’歌单",
    "打开微博，浏览热搜榜前五条内容",
    "打开支付宝，收取蚂蚁森林能量"
]

print("开始执行每日自动化任务...")
for i, task in enumerate(daily_routines, 1):
    print(f"\n任务 {i}: {task}")
    try:
        result = agent.run(task)
        print(f"  结果: {result}")
        time.sleep(2)  # 任务间短暂间隔
    except Exception as e:
        print(f"  任务失败: {e}")

print("\n所有任务执行完毕！")

6.2 无线连接与远程控制

你无需一直用USB线连着手机。通过Wi-Fi连接，你可以将手机放在一边，远程控制。

# 1. 先用USB连接一次，开启手机的无线调试端口
adb devices
adb tcpip 5555

# 2. 断开USB线，让手机和电脑处于同一Wi-Fi网络
# 3. 查看手机的IP地址（通常在设置-关于手机-状态信息中）
# 4. 通过Wi-Fi连接
adb connect 192.168.1.100:5555  # 替换为你的手机IP

# 5. 现在可以像使用USB一样，在命令中指定设备ID
python main.py \
  --device-id 192.168.1.100:5555 \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开相机，拍一张照片"

6.3 交互式命令行模式

对于需要多次尝试或探索性任务，交互模式非常方便。

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的密钥"

进入交互模式后，你会看到 > 提示符，可以连续输入指令：

> 打开小红书
[AI执行：启动小红书...成功]
> 搜索“上海探店”
[AI执行：点击搜索框，输入“上海探店”...成功]
> 收藏点赞最多的前三篇笔记
[AI执行：滑动浏览，识别并收藏...成功]
> 退出应用
[AI执行：返回桌面...成功]
> exit

7. 避坑指南：常见问题与解决方案

在实际使用中，你可能会遇到一些小问题。这里是我总结的“踩坑”经验。

问题：adb devices 显示 unauthorized
- 原因：手机未授权电脑的调试请求。
- 解决：检查手机屏幕，应该会弹出“允许USB调试吗？”的对话框，勾选“始终允许”并点击确定。如果没弹出，重启adb服务：adb kill-server && adb start-server，然后重新插拔USB线。
问题：AI能打开App，但无法点击屏幕上的按钮
- 原因：最可能的原因是未开启 USB调试（安全设置）。
- 解决：进入手机 开发者选项，确保 USB调试（安全设置） 或 通过USB安装 的开关是打开的。这是允许ADB模拟点击的关键权限。
问题：AI无法在输入框中输入中文
- 原因：系统输入法可能干扰。
- 解决：确保已安装并启用了 ADB Keyboard。AI在需要输入时会自动切换到此输入法。无需将其设为默认输入法。
问题：执行命令时出现SSL或网络错误
- 原因：网络问题或API密钥错误。
- 解决：检查你的网络连接。如果使用云端API，请确认API密钥正确且未过期，并前往智谱AI平台查看额度是否充足。
问题：任务执行到一半卡住不动
- 原因：页面加载慢、出现意外弹窗（如广告）、或AI对当前界面元素识别不确定。
- 解决：
  1. 稍等片刻，AI内置了等待机制。
  2. 手动关闭手机上的弹窗。
  3. 在命令行按 Ctrl+C 中断，然后重新运行指令。可以尝试将复杂指令拆分成更简单的几步。

8. 总结：开启手机自动化的新篇章

Open-AutoGLM的出现，极大地降低了手机自动化任务的门槛。它不再是极客的专属玩具，而是每个普通用户都能上手体验的实用工具。从自动处理日常琐事，到集成进开发测试流程，其想象空间非常广阔。

它的核心价值在于：

自然交互：告别复杂的脚本录制，用说话的方式指挥手机。
广泛兼容：基于视觉理解，理论上能操作任何Android应用，官方已适配50+主流App。
安全可控：内置人工接管机制，为敏感操作上了保险。
开源开放：代码、模型全部开源，开发者可以深入研究、定制甚至贡献新的适配。

当然，它目前还不是完美的。面对极度复杂、动态变化的界面（如一些游戏），或者需要高度逻辑判断的任务，其成功率会下降。但对于定义清晰的日常操作和标准化App流程，它已经表现得相当可靠。

建议你从简单的指令开始尝试，例如“打开XX”、“搜索XX”，逐步过渡到多步任务。随着你对它“思维方式”的熟悉，你会越来越擅长给它下达清晰有效的指令。

技术正在让“懒”变得理直气壮。现在，是时候让你的手机真正“智能”起来了。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

OpenClaw 节点命令执行：远程Shell与系统操作实战

CSDN-OPC开发者社区

如何5分钟完成Obsidian插件汉化：obsidian-i18n终极指南

还在为Obsidian插件的英文界面而烦恼吗？想象一下，当你打开一个期待已久的功能插件时，所有菜单、按钮和设置选项都以熟悉的中文呈现，操作起来得心应手，效率倍增。obsidian-i18n正是这样一个能够彻底改变你笔记体验的汉化利器，让不懂代码的你也能轻松实现插件本地化。## 🎯 痛点场景：为什么你需要插件汉化工具？**场景一：新插件上手困难**安装了一个功能强大的插件，却因为全是

CSDN-OPC开发者社区

FactoryBluePrints：3000+戴森球计划蓝图库，轻松构建高效星际工厂

还在为《戴森球计划》中复杂的工厂布局而烦恼吗？FactoryBluePrints为你提供了完美的解决方案。这是一个汇集了全球玩家智慧结晶的戴森球计划蓝图仓库，包含超过3000个经过实战验证的工厂设计，让你从新手到专家都能快速建设高效的星际工业体系。## 为什么你需要这个蓝图库？无论你是刚接触游戏的萌新，还是追求极致效率的老玩家，FactoryBluePrints都能帮你解决实际问题：-