Codex 学会了用你的电脑：OpenAI 的 Computer Use，把 AI Agent 从代码框拖到了整个桌面

从操作代码文件到操作桌面 GUI，Codex 的 Computer Use 不是给 AI 加了个「遥控器」，而是重新定义了 AI Agent 的行动空间——你继续干活，它在旁边跑，互不干扰。

一个设计决策，决定了这不是又一个「屏幕自动化工具」

2026 年 4 月 16 日，OpenAI 给 Codex 桌面端加了一个 Computer Use 功能。表面上看，就是让 AI 能操作你电脑上的应用——点按钮、填表单、切窗口。

但有一个设计决策把这件事拉到了另一个层级：Codex 拥有自己独立的光标。

这意味着什么？传统的 GUI 自动化工具（包括早期的 RPA）都得独占显示器——AI 在干活的时候，你不能用电脑。等于你把电脑交给了 AI，自己在旁边干等着。这种模式有个致命问题：AI 变成了「接手者」，不是「队友」。

Codex 的独立光标设计，让你和 AI 真正并行工作。你在写文档，它在帮你配虚拟机；你在回邮件，它在帮你播放 Spotify；你在做设计，它在帮你添加日历提醒。这不是「AI 替你做」，而是「AI 和你一起做」。

技术架构：两种模态的混合方案

Computer Use 不是简单的「截图 + 点击」。OpenAI 用了两种模态的组合：

模态	原理	优势
视觉模态	截图让模型「看见」界面，以坐标为单位点击	能处理任意界面，不依赖应用支持
无障碍框架	通过 macOS 系统 API 提取 UI 元素的文字描述	能读到滚动出屏幕的内容，精度更高

这让我想到一个判断：好工具的秘诀不是用最贵的模型，而是给模型造最好的缰绳。 Computer Use 的 Harness 设计在于——对速度敏感的任务，Spark 模型只依赖无障碍数据，不做图像处理。OpenAI 称这种模式能以「超人速度」完成消息发送、调试操作这类高频动作。

简洁方案 > 复杂架构。不需要每次都截图分析，该快的时候快，该看的时候看。

Codex 内置浏览器，支持可视化反馈和精确标注

安全设计：逐应用授权，不是一刀切

安全层面，Codex 采用了逐应用的权限授权机制。三个层级：

系统级权限：macOS 的 Screen Recording（屏幕录制）和 Accessibility（辅助功能）权限
应用级授权：Codex 对每个应用单独请求许可，用户可以选择「始终允许」或「仅本次」
操作级拦截：敏感或破坏性操作前，Codex 会再次请求确认

在用户明确允许之前，Codex 对任何应用都完全不可见——无法访问、无法操作。

这个设计思路很清晰：不是「AI 能做什么」，而是「你允许 AI 做什么」。 权限的粒度越小，用户的安全感越高。这比「信任我，我会小心的」强一万倍。

还有一个细节：如果 Codex 操作了浏览器，它能访问你已经登录的页面。OpenAI 的文档直接写了——「把 Codex 的浏览器操作当作你自己在操作」。这种诚实的边界说明，比回避风险聪明得多。

行动空间的跃迁：从代码到桌面

Computer Use 最大的意义不是某个具体功能，而是它拓展了 AI Agent 的行动空间。

之前的 Codex 只能操作代码文件——写代码、跑测试、提交 PR。行动空间被限制在项目文件夹和终端里。现在它能操作你日常使用的所有桌面软件：浏览器、设计工具、数据分析软件、项目管理应用……

行动空间决定了一个 Agent 能解决多少问题。一个只能在终端里干活的 Agent，和能在整个桌面上干活的 Agent，是完全不同量级的工具。

适合的场景

根据 OpenAI 官方文档，Computer Use 的最佳场景包括：

测试桌面应用：验证 macOS 应用、iOS 模拟器流程
使用浏览器：在真实浏览器环境中验证网页功能
复现 GUI Bug：某些 Bug 只在图形界面中出现
跨应用工作流：一个任务需要串联多个应用
配置 UI 设置：需要点击穿越的界面操作

不适合的场景

大规模重复性任务（应该用 API 或脚本）
处理密码等敏感信息（除非你在旁边盯着）
操作终端应用或 Codex 本身（安全限制）

同期更新：不只是 Computer Use

这次更新其实是一整套能力的升级：

新能力	说明
Computer Use	操作桌面 GUI，独立光标
内置浏览器	可视化反馈，点击标注，支持评论
定时任务	提前安排工作，Codex 自己醒来执行
长期记忆	记住上下文、偏好、纠错信息
主动提议	启动时建议你继续之前的工作
多终端标签	同时运行多个终端会话
100+ 插件	集成更多第三方工具
图片生成	使用 gpt-image-1.5 生成图片

Codex 负责人 Thibault Sottiaux 在媒体发布会上说了一句很直白的话：「我们在做一件偷偷摸摸的事——公开地把超级应用建出来，从 Codex 开始。」

对独立开发者意味着什么

说一个判断：Computer Use 对独立开发者的价值，不在于它能帮你点几个按钮。而在于它把 AI Agent 从「工具」推向了「协作方」。

之前的工作流：你写代码 → AI 帮你改代码 → 你手动验证 → 你手动测试 UI

现在的工作流：你描述需求 → AI 写代码 → AI 自己打开浏览器验证 → AI 自己截图确认效果 → AI 自己修 Bug → 你审查结果

这个变化的核心是：验证环节也交出去了。 以前 AI 写完代码，你得自己去浏览器里看看对不对。现在 AI 可以自己打开浏览器、点击、截图、验证。从「AI 写、你验」变成「AI 写、AI 验、你审」。

对于做前端产品的人来说，这意味着你能并行推进更多事情。一个 Agent 在调样式，一个在跑测试，一个在查文档——你只需要在关键节点介入审查。

当前限制

目前 Computer Use 只在 macOS 上可用，且不支持欧洲经济区、英国和瑞士。Windows 支持即将推出。它不能操作终端应用和 Codex 自身（安全策略），也不能以管理员身份认证。

检验标准

[ ] 你能说清楚 Codex Computer Use 的「独立光标」设计解决了什么问题吗？
[ ] 你了解视觉模态和无障碍框架两种方式的区别和适用场景吗？
[ ] 你能解释逐应用授权的三层安全机制吗？
[ ] 你知道 Computer Use 的行动空间扩展对 Agent 意味着什么吗？
[ ] 你能列举 3 个适合和 2 个不适合 Computer Use 的场景吗？

Codex 学会了用你的电脑：OpenAI 的 Computer Use，把 AI Agent 从代码框拖到了整个桌面 ​

一个设计决策，决定了这不是又一个「屏幕自动化工具」 ​

技术架构：两种模态的混合方案 ​

安全设计：逐应用授权，不是一刀切 ​

行动空间的跃迁：从代码到桌面 ​

适合的场景 ​

不适合的场景 ​

同期更新：不只是 Computer Use ​

对独立开发者意味着什么 ​

当前限制 ​

检验标准 ​