一键解放双手!Open-AutoGLM实现手机自动化,支持50+款主流App

想象一下这个场景:你正忙着写代码,突然想起要在美团上点个外卖,在微信上给同事发个文件,再打开网易云音乐放首歌。你不得不放下手头的工作,拿起手机,解锁、找App、点击、输入……一套流程下来,几分钟就过去了。

如果有个助手能听懂你的话,自动帮你完成这些操作呢?比如你只需要说一句:“打开美团,点一份附近的黄焖鸡米饭,用微信支付”,然后继续写你的代码,几分钟后外卖就点好了。

这听起来像是科幻电影里的场景,但今天,借助智谱AI开源的 Open-AutoGLM,这个想法已经变成了现实。它不是一个简单的语音助手,而是一个能真正“看懂”手机屏幕、并像真人一样操作手机的AI智能体。

1. Open-AutoGLM是什么?你的手机AI管家

简单来说,Open-AutoGLM 是一个手机端的AI智能助理框架。它的核心由两部分组成:

  • Phone Agent:一个智能体框架,负责“思考”和“决策”。
  • AutoGLM-Phone-9B:一个9B参数的多模态大模型,负责“看”和“理解”。

它的工作原理非常直观:

  1. 你说话:用自然语言告诉它你想做什么,比如“打开小红书搜美食”。
  2. 它看屏幕:通过ADB(Android调试桥)实时获取手机屏幕截图。
  3. 它思考:大模型分析截图,理解当前界面有什么元素(按钮、输入框、文字),并结合你的指令,规划下一步该点哪里、输入什么。
  4. 它动手:通过ADB发送点击、滑动、输入等指令,自动执行操作。
  5. 循环直到完成:重复“看-思考-动手”这个过程,直到完成你交代的整个任务链。

最棒的是,它已经预先学习和适配了超过50款国内主流App的操作逻辑,包括微信、淘宝、抖音、美团、网易云音乐等,开箱即用。

2. 10分钟快速上手:从零到第一次AI操控

你可能觉得这么“黑科技”的东西配置起来会很复杂。别担心,我带你走一遍最简化的流程,10分钟就能看到效果。这里我们采用对新手最友好的云端API方案,无需本地显卡,成本极低。

2.1 第一步:准备你的“被控”手机

你需要一部Android手机(系统7.0以上)作为被AI操控的对象。

  1. 开启开发者模式:进入手机 设置 -> 关于手机,连续点击“版本号”7次,直到提示“您已处于开发者模式”。
  2. 开启USB调试:返回设置,进入新出现的 开发者选项,找到并开启 USB调试非常重要:同时开启 USB调试(安全设置),否则AI可能无法点击屏幕。
  3. 安装ADB键盘:这是一个让电脑能向手机输入中文的特殊输入法。
    • 下载 ADBKeyboard.apk 到电脑。
    • 用USB线连接手机和电脑,在电脑命令行执行:adb install 路径/ADBKeyboard.apk 进行安装。
    • 在手机 设置 -> 系统管理/更多设置 -> 语言与输入法 中,将 ADB键盘 启用(无需设为默认)。

2.2 第二步:在电脑上搭建控制环境

你的电脑(Windows/Mac/Linux均可)将作为“指挥中心”。

  1. 安装Python:确保已安装Python 3.10或以上版本。在命令行输入 python --version 检查。
  2. 安装ADB工具:这是电脑与手机通信的桥梁。
    • Windows用户:下载 platform-tools,解压后,将解压目录的路径(如 C:\platform-tools)添加到系统的环境变量 Path 中。
    • Mac/Linux用户:可通过Homebrew安装:brew install android-platform-tools
    • 验证:打开终端或CMD,输入 adb version,看到版本号即成功。
  3. 连接手机:用USB线连接手机和电脑。在手机上弹出的“允许USB调试吗?”对话框中点击“确定”。然后在电脑命令行输入 adb devices,如果看到一串设备ID后面跟着 device 字样,说明连接成功。

2.3 第三步:获取AI“大脑”(云端API密钥)

我们使用智谱AI的云端服务,省去本地部署模型的麻烦。

  1. 访问 智谱AI开放平台,注册并登录。
  2. 在左侧菜单进入 个人中心 -> API密钥,点击“创建新的API密钥”。
  3. 复制生成的API Key,妥善保存。

2.4 第四步:下载并运行控制程序

现在,让我们把指挥中心(电脑程序)和AI大脑(云端API)连接起来。

# 1. 下载Open-AutoGLM项目代码
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

# 2. 创建并激活Python虚拟环境(避免依赖冲突)
python -m venv venv
# Windows激活命令:
venv\Scripts\activate
# Mac/Linux激活命令:
# source venv/bin/activate

# 3. 安装项目依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -e .

2.5 第五步:发出你的第一个AI指令

一切就绪!让我们进行第一次“魔法”体验。确保手机屏幕是亮着的,并且停留在解锁后的主界面。

在命令行中,运行以下命令(将 你的API密钥 替换为刚才复制的真实密钥):

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "你的API密钥" \
  "打开微信,找到文件传输助手,发送消息:Hello from AI!"

稍等几秒钟,你会看到命令行开始滚动日志,而你的手机像被一个隐形的手指操控一样,自动解锁(如果设置了)、找到微信图标、点击打开、定位到文件传输助手、点击输入框、输入文字、点击发送……

恭喜你!你已经成功让AI接管了你的手机。 第一次看到这个场景,那种奇妙的震撼感是难以言喻的。

3. 它能做什么?超乎想象的实用场景

Open-AutoGLM不是一个玩具,它的能力覆盖了我们大量的日常高频操作。下面我按场景分类,展示一些真实可用的指令示例。

3.1 社交通讯自动化

  • 微信“给妈妈发微信,说今晚不回家吃饭了。” “在群里查找昨天下午关于项目的聊天记录。”
  • 微博“打开微博,搜索‘人工智能大会’,点赞第一条热门微博。”
  • 钉钉“打开钉钉,审批待处理的请假申请。”

3.2 娱乐内容管理

  • 抖音/快手“打开抖音,下滑5个视频,给第三个视频点赞。” “在快手搜索‘健身教程’并关注第一个博主。”
  • B站“打开B站,在我的收藏夹里播放第一个视频。”
  • 网易云音乐/QQ音乐“打开网易云音乐,搜索‘周杰伦’,播放《七里香》。” “将当前播放的歌曲加入‘我喜欢’。”

3.3 购物与生活服务

  • 淘宝/京东“打开淘宝,搜索‘机械键盘’,按销量排序,点进第一个商品。” “在京东查看我的待收货订单。”
  • 美团/饿了么“打开美团,点一份附近销量最高的披萨,地址选公司。”
  • 小红书“打开小红书,搜索‘周末露营攻略’,收藏点赞数最多的那篇笔记。”

3.4 信息获取与整理

  • 浏览器“打开Chrome,访问百度,搜索‘今天的天气’。”
  • 知乎“打开知乎,在热榜上查看排名前三的问题。”
  • 邮箱“打开邮箱,标记所有未读邮件为已读。”

你会发现,指令越具体,AI执行的成功率越高。与其说“看看新闻”,不如说“打开今日头条APP,浏览科技频道的头条新闻”。

4. 核心机制:它如何“看懂”并“操作”手机?

了解其背后的原理,能帮助你更好地使用它,并在出问题时进行排查。整个过程可以概括为一个高效的“感知-决策-执行”循环。

4.1 感知:多模态模型如何“看”屏幕?

这是最关键的一步。AutoGLM-Phone-9B模型是一个视觉语言模型。

  • 输入:你的自然语言指令 + 当前手机屏幕的截图。
  • 处理:模型同时理解图片中的视觉元素(图标、按钮、文字布局)和你的文本指令。
  • 输出:模型不是直接输出坐标,而是输出一个结构化的“动作指令”。例如,它不会说“点击(520, 1350)”,而是会输出 Tap(“搜索框”)Type(“奶茶”)。这种基于语义的理解,使得它对于不同分辨率、不同UI布局的手机都有很好的适应性。

4.2 决策:智能体如何“规划”任务?

Phone Agent框架负责任务规划。如果你的指令是复杂的多步任务,比如“在美团点一份黄焖鸡米饭并支付”,它会自动将其分解为:

  1. Launch(“美团”) -> 打开美团APP
  2. Tap(“外卖”) -> 点击外卖入口
  3. Type(“黄焖鸡米饭”) -> 在搜索框输入
  4. Tap(“搜索”) -> 点击搜索按钮
  5. Tap(“第一个商家”) -> 选择商家
  6. Tap(“点外卖”) -> … (后续加入购物车、选地址、支付等步骤)

这个规划过程是动态的,它会根据每一步执行后的新屏幕状态,决定下一步做什么。

4.3 执行:ADB如何成为“无形之手”?

ADB是Android系统的官方调试工具,它提供了从电脑向手机发送精确控制命令的能力。

  • adb shell input tap x y:模拟在屏幕坐标(x, y)处点击。
  • adb shell input text “hello”:模拟输入文本“hello”。
  • adb shell input swipe x1 y1 x2 y2:模拟从(x1,y1)滑动到(x2,y2)。

Open-AutoGLM将模型输出的语义化动作(如Tap(“搜索框”)),通过OCR等技术定位到当前屏幕上该元素的真实坐标,再转换成上述ADB命令发送给手机执行。

4.4 安全护栏:敏感操作的人工接管

框架设计得非常谨慎。当遇到以下情况时,它会主动暂停,并在命令行提示“需要人工接管”:

  • 登录页面:涉及账号密码输入。
  • 支付验证:出现支付密码、指纹、人脸识别界面。
  • 权限弹窗:申请敏感权限(如位置、通讯录)。
  • 无法识别的复杂界面

此时,你需要手动在手机上完成验证或操作,然后告诉AI“继续”,它便会从当前状态接着执行后续任务。这个设计平衡了自动化能力和安全性。

5. 两种部署方案详解:云端API vs. 本地模型

前面我们用了最简单的云端API方案。如果你想追求极致速度、完全控制或处理大量任务,可以考虑本地部署。

5.1 方案对比:如何选择?

特性 云端API方案 本地模型部署方案
上手难度 ⭐⭐ 非常简单 ⭐⭐⭐⭐ 较复杂
硬件要求 无要求,能上网就行 需要高性能GPU(如RTX 3090/4090,显存16G+)
响应速度 2-5秒/步,依赖网络 1-3秒/步,速度稳定
数据隐私 屏幕截图会上传至云端服务器 所有数据均在本地,隐私性好
使用成本 按Token计费,约0.1-0.5元/次任务 一次性显卡投入,后续仅电费
适合人群 初学者、体验者、低频使用者 开发者、高频使用者、对隐私要求高的用户

5.2 本地部署详细指南(适合有GPU的用户)

如果你有一张性能足够的NVIDIA显卡,可以按照以下步骤在本地运行模型。

1. 安装CUDA和PyTorch 确保你的显卡驱动和CUDA版本(建议12.1+)已正确安装。

2. 使用vLLM部署模型(高性能推理) vLLM是一个高效的推理框架。在项目目录下,运行以下命令启动模型服务:

# 对于Linux/Mac用户
python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480

# 对于Windows用户(在PowerShell中)
python -m vllm.entrypoints.openai.api_server `
  --served-model-name autoglm-phone-9b `
  --model zai-org/AutoGLM-Phone-9B `
  --port 8000 `
  --max-model-len 25480

首次运行会从Hugging Face下载约18GB的模型文件,请耐心等待。看到服务成功启动在 http://localhost:8000 的输出后,即可进行下一步。

3. 使用本地服务执行任务 启动命令和云端API类似,只需将 --base-url 指向本地服务。

python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音,搜索‘猫咪’并观看第一个视频"

6. 高级技巧与实战脚本

当你熟悉基础操作后,可以尝试这些进阶玩法,将自动化能力融入你的工作流。

6.1 使用Python API进行编程控制

通过Python脚本调用,可以实现更复杂的逻辑和批量任务。

# advanced_automation.py
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
import time

# 1. 配置模型连接(使用本地服务)
model_config = ModelConfig(
    base_url="http://localhost:8000/v1",  # 或你的云端API地址
    model_name="autoglm-phone-9b",         # 或 "autoglm-phone"(云端)
    api_key="your-api-key-if-cloud"        # 本地部署可留空
)

# 2. 初始化智能体
agent = PhoneAgent(model_config=model_config)

# 3. 定义一系列自动化任务
daily_routines = [
    "打开微信,查看是否有未读的置顶聊天消息",
    "打开网易云音乐,播放‘每日推荐’歌单",
    "打开微博,浏览热搜榜前五条内容",
    "打开支付宝,收取蚂蚁森林能量"
]

print("开始执行每日自动化任务...")
for i, task in enumerate(daily_routines, 1):
    print(f"\n任务 {i}: {task}")
    try:
        result = agent.run(task)
        print(f"  结果: {result}")
        time.sleep(2)  # 任务间短暂间隔
    except Exception as e:
        print(f"  任务失败: {e}")

print("\n所有任务执行完毕!")

6.2 无线连接与远程控制

你无需一直用USB线连着手机。通过Wi-Fi连接,你可以将手机放在一边,远程控制。

# 1. 先用USB连接一次,开启手机的无线调试端口
adb devices
adb tcpip 5555

# 2. 断开USB线,让手机和电脑处于同一Wi-Fi网络
# 3. 查看手机的IP地址(通常在设置-关于手机-状态信息中)
# 4. 通过Wi-Fi连接
adb connect 192.168.1.100:5555  # 替换为你的手机IP

# 5. 现在可以像使用USB一样,在命令中指定设备ID
python main.py \
  --device-id 192.168.1.100:5555 \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开相机,拍一张照片"

6.3 交互式命令行模式

对于需要多次尝试或探索性任务,交互模式非常方便。

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的密钥"

进入交互模式后,你会看到 > 提示符,可以连续输入指令:

> 打开小红书
[AI执行:启动小红书...成功]
> 搜索“上海探店”
[AI执行:点击搜索框,输入“上海探店”...成功]
> 收藏点赞最多的前三篇笔记
[AI执行:滑动浏览,识别并收藏...成功]
> 退出应用
[AI执行:返回桌面...成功]
> exit

7. 避坑指南:常见问题与解决方案

在实际使用中,你可能会遇到一些小问题。这里是我总结的“踩坑”经验。

  • 问题:adb devices 显示 unauthorized

    • 原因:手机未授权电脑的调试请求。
    • 解决:检查手机屏幕,应该会弹出“允许USB调试吗?”的对话框,勾选“始终允许”并点击确定。如果没弹出,重启adb服务:adb kill-server && adb start-server,然后重新插拔USB线。
  • 问题:AI能打开App,但无法点击屏幕上的按钮

    • 原因:最可能的原因是未开启 USB调试(安全设置)
    • 解决:进入手机 开发者选项,确保 USB调试(安全设置)通过USB安装 的开关是打开的。这是允许ADB模拟点击的关键权限。
  • 问题:AI无法在输入框中输入中文

    • 原因:系统输入法可能干扰。
    • 解决:确保已安装并启用了 ADB Keyboard。AI在需要输入时会自动切换到此输入法。无需将其设为默认输入法。
  • 问题:执行命令时出现SSL或网络错误

    • 原因:网络问题或API密钥错误。
    • 解决:检查你的网络连接。如果使用云端API,请确认API密钥正确且未过期,并前往智谱AI平台查看额度是否充足。
  • 问题:任务执行到一半卡住不动

    • 原因:页面加载慢、出现意外弹窗(如广告)、或AI对当前界面元素识别不确定。
    • 解决
      1. 稍等片刻,AI内置了等待机制。
      2. 手动关闭手机上的弹窗。
      3. 在命令行按 Ctrl+C 中断,然后重新运行指令。可以尝试将复杂指令拆分成更简单的几步。

8. 总结:开启手机自动化的新篇章

Open-AutoGLM的出现,极大地降低了手机自动化任务的门槛。它不再是极客的专属玩具,而是每个普通用户都能上手体验的实用工具。从自动处理日常琐事,到集成进开发测试流程,其想象空间非常广阔。

它的核心价值在于

  1. 自然交互:告别复杂的脚本录制,用说话的方式指挥手机。
  2. 广泛兼容:基于视觉理解,理论上能操作任何Android应用,官方已适配50+主流App。
  3. 安全可控:内置人工接管机制,为敏感操作上了保险。
  4. 开源开放:代码、模型全部开源,开发者可以深入研究、定制甚至贡献新的适配。

当然,它目前还不是完美的。面对极度复杂、动态变化的界面(如一些游戏),或者需要高度逻辑判断的任务,其成功率会下降。但对于定义清晰的日常操作和标准化App流程,它已经表现得相当可靠。

建议你从简单的指令开始尝试,例如“打开XX”、“搜索XX”,逐步过渡到多步任务。随着你对它“思维方式”的熟悉,你会越来越擅长给它下达清晰有效的指令。

技术正在让“懒”变得理直气壮。现在,是时候让你的手机真正“智能”起来了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容,并连接云服务、办公空间等稀缺资源,助你专注创造,无忧运营。

更多推荐