2026 年 6 月 21 日,OpenAI 宣布三星电子将在韩国向全体员工、并在全球 Device eXperience 部门向员工提供 ChatGPT Enterprise 和 Codex。OpenAI 称这是其迄今最大规模企业部署之一,覆盖研发、制造、营销、产品开发和企业职能等场景。

这个新闻值得开发者关注,不只是因为三星规模大,而是因为它说明 Codex 的定位正在发生变化:它不再只是一个“更会写代码的助手”,而是在向企业工作流执行层演进。

如果把 6 月份几条官方信息连起来看,脉络更清楚:

  • 6 月 2 日,OpenAI 发布 Codex 面向不同角色、工具和工作流的新能力,包括 role-specific plugins、Sites 和 annotations。
  • 6 月 11 日,OpenAI 宣布将收购 Ona,把安全云执行和编排技术纳入 Codex 生态。
  • 6 月 21 日,三星电子宣布大范围部署 ChatGPT Enterprise 和 Codex。

这些信息合在一起,指向的是同一件事:AI agent 正在从“个人效率工具”进入“组织级生产系统”。

Codex 现在到底是什么?

OpenAI 官方文档对 Codex 的定义很直接:Codex 是面向软件开发的 coding agent,可以帮助写代码、理解代码库、审查代码、调试修复问题,以及自动化重复开发任务。

这和传统 IDE 补全工具有本质区别。

传统补全工具通常工作在“当前文件、当前函数、当前光标”的范围内;Codex 关注的是“任务”。它可以读取代码库、理解项目约束、修改多个文件、运行命令、根据测试结果修复错误,并把过程留给用户审查。

因此,讨论 Codex 时不要只问“它能不能写某段代码”,更应该问:

  • 它能不能理解现有仓库的工程约束?
  • 它能不能持续执行一个多步骤任务?
  • 它能不能在失败后定位原因并修复?
  • 它能不能把团队重复性工作沉淀成稳定流程?
  • 它能不能在权限、日志和审查机制下运行?

这才是 coding agent 和代码补全之间的分界线。

三星部署说明了什么?

三星这次部署的范围包括技术和非技术工作。OpenAI 官方文章提到,Codex 可以用于写代码、审查代码、调试,也可以帮助非技术团队把想法变成内部工具、网站和自动化工作流。

这意味着 Codex 的落地对象不只是“程序员个人”,而是“组织中的任务流”。

在企业里,很多工作并不是纯代码问题,而是横跨多个系统:

  • 需求来自文档、会议、工单或聊天记录;
  • 实现涉及代码、配置、脚本、数据和部署;
  • 验证依赖测试、日志、审查和业务规则;
  • 交付需要报告、页面、仪表盘或内部工具。

如果 AI agent 只能在单个文件里补全代码,它很难承担这类工作。但如果它能连接工具、读取上下文、执行命令、生成产物,并把结果交给人审查,它就开始接近企业级工作执行层。

6 月 2 日的插件、Sites 和 annotations 才是关键

OpenAI 在 6 月 2 日的 Codex 产品文章里,重点不是单个模型能力,而是让 Codex 适配更多角色、工具和工作流。

这里有三个关键词。

1. Plugins:把团队工具和流程打包进 Codex

插件让 Codex 不只是“懂代码”,还可以连接团队已有工具、上下文和工作方式。官方文章提到,新 role-specific plugins 面向更多知识工作角色,覆盖数据分析、销售、营销、咨询、投资银行等场景。

对开发团队来说,这个方向非常重要。

因为真正影响 Codex 效果的,往往不是模型本身是否聪明,而是它是否知道:

  • 代码仓库怎么跑;
  • 测试命令是什么;
  • 哪些目录不能随便改;
  • PR 描述怎么写;
  • 发布流程有什么禁忌;
  • 安全扫描结果如何处理;
  • 内部 API 和业务词汇是什么意思。

这些东西靠每次 prompt 手写,不现实。更好的方式是把工作流沉淀成 skills、plugins、AGENTS.md、MCP 工具和自动化任务。

2. Sites:把结果变成可共享的工作产物

Sites 的重点是把 Codex 生成的结果变成可以通过 URL 在工作区内共享的交互式网站或应用。

这件事的意义在于:AI agent 的输出不再只是聊天记录或代码 diff,而是可被团队成员直接查看、评论、验证的工作产物。

在企业场景里,这会改变很多中间交付形态:

  • 数据分析不只是给一段结论,而是给一个可交互 dashboard;
  • 产品方案不只是文档,而是可点击原型;
  • 运营分析不只是表格,而是可复用报告页面;
  • 内部流程不只是脚本,而是小型工具。

这也是为什么 Codex 会从“开发工具”扩展到“知识工作工具”。

3. Annotations:让人类反馈进入执行循环

企业不会把所有任务直接交给 AI 自动完成。更现实的模式是:AI 生成初稿,人类在关键位置批注,AI 根据批注继续修改。

annotations 的价值就在这里。它让“审查”和“修改”更贴近产物本身,而不是在聊天窗口里来回描述。

对于软件工程,这类似把代码 review、设计审查、测试反馈和产品批注融合到同一个执行循环里。

Ona 收购:为什么 Codex 需要持久工作环境?

6 月 11 日,OpenAI 宣布将收购 Ona,理由是把安全云执行和编排技术带入 Codex 生态。

这条新闻和 coding agent 的未来关系很大。

OpenAI 官方文章提到,随着 Codex 能力增强,最有价值的工作会从分钟级延展到小时级甚至天级。用户不应该被绑定在最初启动任务的机器旁,而应该能随时查看进度、给出方向、做决策和审查结果。

这正是长任务 agent 的核心需求。

一个企业级 Codex 任务可能是这样的:

读取需求文档
  -> 分析现有代码库
  -> 制定修改计划
  -> 创建分支
  -> 修改前后端代码
  -> 生成或更新测试
  -> 运行测试和 lint
  -> 根据失败结果修复
  -> 输出 PR 说明和风险点
  -> 等待人类审查

这个流程不适合只依赖本地窗口。它需要:

  • 可持续运行的执行环境;
  • 清晰的权限边界;
  • 中间结果和日志;
  • 可恢复的任务状态;
  • 对外部系统的受控访问;
  • 人类可以介入的审查节点。

所以,Ona 这类云执行和编排能力,不是锦上添花,而是 Codex 从个人工具走向企业系统的基础设施。

长任务能力:agentic coding 的核心指标变了

OpenAI Developers 在 2026 年 2 月发布过一篇关于 Codex 长任务的文章。里面有一个实验:给 Codex 一个空仓库,让它从零构建设计工具。Codex 运行约 25 小时,使用约 1300 万 tokens,生成约 3 万行代码。

这不是生产部署案例,不能把它当成普通项目都能稳定复现的结果。但它很好地说明了一个方向:agentic coding 的关键指标,正在从“单次回答质量”转向“任务时域”。

以前我们评价 AI 编程工具,常问:

  • 这段代码写得对不对?
  • 这个函数补全准不准?
  • 这个 bug 能不能一眼看出来?

现在更应该问:

  • 它能不能连续理解几个小时的任务上下文?
  • 它能不能根据测试失败自我修复?
  • 它能不能保持目标不漂移?
  • 它能不能把阶段性结果交给人审查?
  • 它能不能在权限受控环境里完成复杂变更?

这也是 Codex 和普通代码生成工具的差异。

企业落地 Codex,应该先搭哪几层?

如果一个团队准备认真使用 Codex,不建议一开始就追求“全自动写完需求”。更稳妥的做法,是先搭基础工作流。

1. 用 AGENTS.md 固化仓库规则

Codex 官方最佳实践建议把 Codex 当作可以配置和持续改进的 teammate,而不是一次性问答工具。

AGENTS.md 是非常关键的一层。它可以记录仓库结构、启动命令、测试命令、工程约束、PR 期望、不要做的事情,以及“完成”的定义。

例如:

# AGENTS.md

## Repository expectations

- 修改 TypeScript 后运行 npm test。
- 不要引入新的生产依赖,除非先说明理由。
- 数据库 migration 必须包含 rollback 说明。
- PR 描述需要列出行为变化、测试结果和风险点。

这类信息不应该每次手写进 prompt,而应该成为仓库级上下文。

2. 把重复任务做成 skills

Codex skills 可以把任务说明、参考资料和脚本打包成可复用能力。适合沉淀下面这些流程:

  • 发布前检查;
  • 依赖升级;
  • 文档生成;
  • 安全扫描结果修复;
  • 测试失败归因;
  • PR review checklist;
  • 从设计稿生成前端页面;
  • 数据分析报告生成。

一个好 skill 不需要很复杂,关键是边界清楚、触发条件明确、输出可验证。

3. 用 MCP 连接外部上下文

很多企业任务失败,不是因为模型不会写代码,而是因为它看不到必要上下文。

MCP 的价值是让 Codex 受控地访问外部系统,比如 GitHub、Linear、Slack、数据库元数据、文档系统或内部工具。

但这里要非常克制。不要一开始就给 agent 全量权限。更好的方式是:

  • 只开放必要工具;
  • 只读优先;
  • 写操作需要人工确认;
  • 对敏感系统做审计;
  • 把工具调用结果纳入日志。

4. 把审查和测试放进默认流程

Codex 能自动化,不代表应该跳过工程质量控制。

更现实的工作流是:

Codex 提计划
  -> 人类确认范围
  -> Codex 修改代码
  -> Codex 运行测试
  -> Codex 给出变更摘要和风险点
  -> 人类 review
  -> CI 再验证
  -> 合并

这才是 agent 进入生产开发流程的方式。

给团队的一份 Codex 落地 checklist

如果你所在团队正在评估 Codex,可以按下面清单检查:

  • 是否有清晰的仓库启动、测试和 lint 命令;
  • 是否有 AGENTS.md 或等价的 agent 指南;
  • 是否明确哪些目录、配置和密钥不能修改;
  • 是否把常见任务沉淀成 skills 或插件;
  • 是否规定 Codex 修改后必须运行哪些验证;
  • 是否能追踪每次任务的输入、输出、命令和结果;
  • 是否区分“建议”“草稿”“可合并代码”三种状态;
  • 是否明确 PR 最终责任人仍是人类;
  • 是否有外部工具访问权限的最小化策略;
  • 是否有失败回滚和人工接管流程。

没有这些基础,Codex 很容易退化成“看起来很强但难以稳定复用”的个人玩具。

我的判断

Codex 的热点不在于它又能生成多少行代码,而在于它正在进入组织级工作流。

三星部署说明大企业已经开始把 Codex 放到真实业务环境里;插件和 Sites 说明 Codex 正在从代码任务扩展到跨角色知识工作;Ona 收购说明长时间、安全、可控的云执行环境会成为下一阶段基础设施。

对开发者来说,最重要的变化是:未来的软件工程能力,不只体现在会不会写代码,还体现在能不能设计一套让 AI agent 稳定工作的工程系统。

也就是说,团队需要建设的不只是 prompt,而是一整套 agent operating model:

  • 上下文怎么给;
  • 权限怎么控;
  • 任务怎么拆;
  • 工具怎么接;
  • 结果怎么验;
  • 风险怎么审;
  • 经验怎么沉淀。

Codex 的真正价值,不是替代某个开发者敲代码,而是把团队里大量可描述、可验证、可复用的工作,逐步变成可委托、可审查、可持续改进的 agent 工作流。

参考来源

  • OpenAI: Samsung Electronics brings ChatGPT and Codex to employees
    https://openai.com/index/samsung-electronics-chatgpt-codex-deployment/

  • OpenAI: Codex for every role, tool, and workflow
    https://openai.com/index/codex-for-every-role-tool-workflow/

  • OpenAI: OpenAI to acquire Ona
    https://openai.com/index/openai-to-acquire-ona/

  • OpenAI Developers: Run long horizon tasks with Codex
    https://developers.openai.com/blog/run-long-horizon-tasks-with-codex

  • OpenAI Help Center: Using Codex with your ChatGPT plan
    https://help.openai.com/en/articles/11369540-using-codex-with-your-chatgpt-plan

  • OpenAI Codex Manual
    https://developers.openai.com/codex/codex-manual.md

Logo

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容,并连接云服务、办公空间等稀缺资源,助你专注创造,无忧运营。

更多推荐