Skip to content

Codex 学会了用你的电脑:OpenAI 的 Computer Use,把 AI Agent 从代码框拖到了整个桌面

从操作代码文件到操作桌面 GUI,Codex 的 Computer Use 不是给 AI 加了个「遥控器」,而是重新定义了 AI Agent 的行动空间——你继续干活,它在旁边跑,互不干扰。

一个设计决策,决定了这不是又一个「屏幕自动化工具」

2026 年 4 月 16 日,OpenAI 给 Codex 桌面端加了一个 Computer Use 功能。表面上看,就是让 AI 能操作你电脑上的应用——点按钮、填表单、切窗口。

但有一个设计决策把这件事拉到了另一个层级:Codex 拥有自己独立的光标。

这意味着什么?传统的 GUI 自动化工具(包括早期的 RPA)都得独占显示器——AI 在干活的时候,你不能用电脑。等于你把电脑交给了 AI,自己在旁边干等着。这种模式有个致命问题:AI 变成了「接手者」,不是「队友」。

Codex 的独立光标设计,让你和 AI 真正并行工作。你在写文档,它在帮你配虚拟机;你在回邮件,它在帮你播放 Spotify;你在做设计,它在帮你添加日历提醒。这不是「AI 替你做」,而是「AI 和你一起做」。

技术架构:两种模态的混合方案

Computer Use 不是简单的「截图 + 点击」。OpenAI 用了两种模态的组合:

模态原理优势
视觉模态截图让模型「看见」界面,以坐标为单位点击能处理任意界面,不依赖应用支持
无障碍框架通过 macOS 系统 API 提取 UI 元素的文字描述能读到滚动出屏幕的内容,精度更高

这让我想到一个判断:好工具的秘诀不是用最贵的模型,而是给模型造最好的缰绳。 Computer Use 的 Harness 设计在于——对速度敏感的任务,Spark 模型只依赖无障碍数据,不做图像处理。OpenAI 称这种模式能以「超人速度」完成消息发送、调试操作这类高频动作。

简洁方案 > 复杂架构。不需要每次都截图分析,该快的时候快,该看的时候看。

Codex 内置浏览器,支持可视化反馈和精确标注

安全设计:逐应用授权,不是一刀切

安全层面,Codex 采用了逐应用的权限授权机制。三个层级:

  1. 系统级权限:macOS 的 Screen Recording(屏幕录制)和 Accessibility(辅助功能)权限
  2. 应用级授权:Codex 对每个应用单独请求许可,用户可以选择「始终允许」或「仅本次」
  3. 操作级拦截:敏感或破坏性操作前,Codex 会再次请求确认

在用户明确允许之前,Codex 对任何应用都完全不可见——无法访问、无法操作。

这个设计思路很清晰:不是「AI 能做什么」,而是「你允许 AI 做什么」。 权限的粒度越小,用户的安全感越高。这比「信任我,我会小心的」强一万倍。

还有一个细节:如果 Codex 操作了浏览器,它能访问你已经登录的页面。OpenAI 的文档直接写了——「把 Codex 的浏览器操作当作你自己在操作」。这种诚实的边界说明,比回避风险聪明得多。

行动空间的跃迁:从代码到桌面

Computer Use 最大的意义不是某个具体功能,而是它拓展了 AI Agent 的行动空间。

之前的 Codex 只能操作代码文件——写代码、跑测试、提交 PR。行动空间被限制在项目文件夹和终端里。现在它能操作你日常使用的所有桌面软件:浏览器、设计工具、数据分析软件、项目管理应用……

行动空间决定了一个 Agent 能解决多少问题。一个只能在终端里干活的 Agent,和能在整个桌面上干活的 Agent,是完全不同量级的工具。

适合的场景

根据 OpenAI 官方文档,Computer Use 的最佳场景包括:

  • 测试桌面应用:验证 macOS 应用、iOS 模拟器流程
  • 使用浏览器:在真实浏览器环境中验证网页功能
  • 复现 GUI Bug:某些 Bug 只在图形界面中出现
  • 跨应用工作流:一个任务需要串联多个应用
  • 配置 UI 设置:需要点击穿越的界面操作

不适合的场景

  • 大规模重复性任务(应该用 API 或脚本)
  • 处理密码等敏感信息(除非你在旁边盯着)
  • 操作终端应用或 Codex 本身(安全限制)

同期更新:不只是 Computer Use

这次更新其实是一整套能力的升级:

新能力说明
Computer Use操作桌面 GUI,独立光标
内置浏览器可视化反馈,点击标注,支持评论
定时任务提前安排工作,Codex 自己醒来执行
长期记忆记住上下文、偏好、纠错信息
主动提议启动时建议你继续之前的工作
多终端标签同时运行多个终端会话
100+ 插件集成更多第三方工具
图片生成使用 gpt-image-1.5 生成图片

Codex 负责人 Thibault Sottiaux 在媒体发布会上说了一句很直白的话:「我们在做一件偷偷摸摸的事——公开地把超级应用建出来,从 Codex 开始。」

对独立开发者意味着什么

说一个判断:Computer Use 对独立开发者的价值,不在于它能帮你点几个按钮。而在于它把 AI Agent 从「工具」推向了「协作方」。

之前的工作流:你写代码 → AI 帮你改代码 → 你手动验证 → 你手动测试 UI

现在的工作流:你描述需求 → AI 写代码 → AI 自己打开浏览器验证 → AI 自己截图确认效果 → AI 自己修 Bug → 你审查结果

这个变化的核心是:验证环节也交出去了。 以前 AI 写完代码,你得自己去浏览器里看看对不对。现在 AI 可以自己打开浏览器、点击、截图、验证。从「AI 写、你验」变成「AI 写、AI 验、你审」。

对于做前端产品的人来说,这意味着你能并行推进更多事情。一个 Agent 在调样式,一个在跑测试,一个在查文档——你只需要在关键节点介入审查。

当前限制

目前 Computer Use 只在 macOS 上可用,且不支持欧洲经济区、英国和瑞士。Windows 支持即将推出。它不能操作终端应用和 Codex 自身(安全策略),也不能以管理员身份认证。

检验标准

  • [ ] 你能说清楚 Codex Computer Use 的「独立光标」设计解决了什么问题吗?
  • [ ] 你了解视觉模态和无障碍框架两种方式的区别和适用场景吗?
  • [ ] 你能解释逐应用授权的三层安全机制吗?
  • [ ] 你知道 Computer Use 的行动空间扩展对 Agent 意味着什么吗?
  • [ ] 你能列举 3 个适合和 2 个不适合 Computer Use 的场景吗?
最近更新

基于 MIT LICENSE 许可发布