大模型的Computer Use(计算机使用能力)
·
Computer Use(计算机使用能力)是当前AI智能体应用层最令人兴奋的技术突破之一。顾名思义,它指的是让大模型像人类一样,通过观察屏幕、移动鼠标、敲击键盘来直接操作计算机软件的能力,而无需依赖特定的API接口。
这意味着AI不再只是聊天框里的助手,而是能真正"动手干活"的数字员工。
一、典型模型与代表产品
目前,主流科技公司已推出各自的Computer Use模型或功能,它们各有侧重:
| 公司/模型 | 产品/功能名 | 核心特点 | 运行环境 | 成本/定价 |
|---|---|---|---|---|
| Anthropic | Claude Computer Use | 开发者优先,通过API控制,提供"内心独白"推理过程,在OSWorld基准测试中得分61.4% | 开发者提供的沙箱环境(如Docker容器) | 输入$3/M tokens,输出$15/M tokens |
| OpenAI | Operator / Computer Use Preview | 通过ChatGPT界面使用,内置人机协同(HITL)机制,用户体验友好 | 云端托管环境,浏览器操作 | 输入$3/M tokens,输出$12/M tokens,仅限Pro用户 |
| 微软 | Copilot Researcher (Computer Use) | 在安全的Windows 365虚拟机中运行,强调"可信、可控",用户可实时观察AI的"思考链"并随时接管 | Windows 365 虚拟机沙盒 | 未公开 |
| Gemini 2.5 Computer Use | 支持通过提示词实现完整工作流,擅长视觉基础操作(读取屏幕像素、推理) | 通过API或AI Studio调用 | 未公开 | |
| 亚马逊 | Amazon Nova Act | 开发者SDK,鼓励开发者构建原子化、确定性的操作流程,而非全自主Agent | Python SDK,开发者集成 | 未公开 |
| 其他 | UI-TARS, Qwen-VL, OpenCUA | 开源或学术模型,部分(如Qwen3-VL)在UI定位基准测试中表现优异(~90%准确率) | 本地或云端 | 免费/开源 |
二、技术原理与架构拆解
Computer Use的技术实现主要分为两种架构模式,各有优劣 。
1. 端到端(End-to-End)智能体
- 工作原理:由一个强大的视觉语言模型统一处理所有任务。模型接收屏幕截图和任务指令,直接在"视觉-语言"联合空间中进行推理,并输出下一步的具体操作(如点击坐标、输入文本)。
- 优势:系统设计简单,错误不易级联,对界面变化的适应性强。
- 劣势:推理过程是个"黑箱",难以调试和干预。
- 代表:Anthropic Claude、OpenAI CUA。
2. 组合式(Composed)智能体
- 工作原理:将任务流程拆解为由不同模块执行的多个步骤,典型流程为:
- UI理解模块:识别屏幕截图中所有可交互元素(按钮、输入框)及其位置和属性 。
- 规划模块:根据任务目标和当前UI状态,决定下一步要做什么 。
- 执行模块:执行规划模块的决定,如移动鼠标、点击、键入 。
- 优势:流程透明,每个步骤的输出都可被检查、干预和优化。
- 劣势:系统复杂,错误会从前端模块向后传递(例如,UI识别错了,后续规划必然出错)。
- 代表:Amazon Nova Act、Simular Agent S3 。
核心技术组件
无论哪种架构,都依赖以下核心技术:
- 视觉语言模型:作为系统的"眼睛"和"大脑",负责理解屏幕像素,将视觉信息转化为模型可理解的语义 。
- 定位模型:在组合式架构中,专门负责将自然语言指令(如"点击‘登录’按钮")映射到屏幕上的具体坐标 。
- 安全与执行环境:所有商业化的Computer Use功能都运行在隔离的沙盒环境(如虚拟机或容器)中,以确保用户数据和系统安全。微软的Copilot会在任务启动时即时创建一个临时的云电脑"沙盒" 。
三、典型应用场景
Computer Use技术的核心价值在于,它能打通那些没有API接口或API功能受限的软件,实现跨系统的端到端自动化 。
1. 企业流程自动化
- 场景:从邮件到ERP的财务对账。AI可以登录邮箱下载发票附件,登录企业资源规划系统(如SAP、Oracle)或NetSuite查询采购订单,进行数据比对,并生成差异报告 。
- 价值:替代人工在多个系统间的重复操作,降低出错率,将财务周期从数天压缩到数小时。
2. 跨系统数据录入与同步
- 场景:人力资源入职流程自动化。新员工签署Offer后,AI可以自动在企业人力资源管理(BambooHR)、身份管理(Okta)等多个系统中创建账号、配置权限,并发送入职培训邀请 。
- 价值:弥合了未集成系统的数据孤岛,将人力资源运营转变为可预测的自动化管道。
3. 自动化研究与数据采集
- 场景:竞品分析与价格监控。AI可以定期访问竞争对手网站,抓取价格、产品规格等信息,并与上周数据对比,生成包含截图的分析简报 。
- 价值:无需维护复杂的爬虫脚本,AI能像人一样适应网站布局的小幅变化。
4. 客户关系管理自动化
- 场景:潜在客户挖掘与导入。AI可以从公开数据源(如LinkedIn、Crunchbase)筛选符合条件的目标公司,查找关键联系人,并将清洗、去重后的数据直接录入客户关系管理系统(如HubSpot)。
- 价值:将市场人员从繁琐的名单搜集工作中解放出来,专注于高价值的沟通转化。
5. 遗留系统与老旧软件操作
- 场景:许多银行、政府的核心业务仍运行在仅有图形界面的老旧系统上。Computer Use AI可以像老员工一样,通过模拟点击来操作这些"黑箱"系统,执行数据查询和录入。
- 价值:为无法提供API的关键系统赋予了现代化的AI能力,延长了其生命周期。
四、总结与展望
Computer Use技术正将AI智能体的能力从"思考"推向"执行",是AI从数字助手进化为数字同事的关键一步。尽管当前在复杂界面适应性、执行速度和成本方面仍有挑战,但a16z预测,在未来18个月内,具备该能力的AI Agent效率将超越人类。
对于开发者而言,这意味着你需要开始思考:哪些原本需要人手动操作的业务流程,可以交给一个能"看见"并"点击"屏幕的AI来完成? 这不仅是自动化程度的提升,更是重塑企业数字化劳动模式的新机遇。
更多推荐


所有评论(0)