春节前的神仙打架

2月6日凌晨,AI圈发生了一件挺有意思的事。

Anthropic和OpenAI,这两家平时就明争暗斗的公司,居然在同一天发布了新模型。一个叫Claude Opus 4.6,一个叫GPT-5.3-Codex。

更巧的是,前一天他们还在网上因为"AI里该不该放广告"吵得不可开交,第二天就撞车发新品了。这要说不是故意的,我都不信。

话不多说,直接看看这两个模型到底有什么本事。

Claude Opus 4.6:让16个AI一起干活

Anthropic这次更新的重点,放在了"智能体协作"上。

什么意思呢?简单说,就是让多个AI同时工作,每个负责一块任务,最后汇总成果。这个功能他们叫"智能体团队",跟前几天Kimi K2.5推出的功能有点像。

100万token上下文:终于能"记住"更多东西了

Claude Opus 4.6还有个重要升级:上下文窗口扩大到100万token。

这个数字听起来很抽象,换个说法你就懂了——你可以把整个项目的代码库一次性塞进去,它能理解全局架构之后再动手改代码。

以前的模型有个通病,叫"上下文腐烂"。就是对话内容一多,模型就开始"失忆",前面说的事后面就忘了。

Opus 4.6在这方面进步明显。测试显示,它在处理100万token的长文本时,准确率能达到76%,而上一代Sonnet 4.5只有18.5%。

在实际应用上,Opus 4.6能做这些事:

  • 跑财务分析
  • 做深度研究
  • 处理文档、表格、PPT
  • 在网上找那些很难搜到的信息

GPT-5.3-Codex:不只是写代码,还能当同事

OpenAI这边的动作也不小。

他们发布的GPT-5.3-Codex,主打的是"全能工作助理"。不只是写代码,而是能干开发者在电脑上能干的几乎所有事。

性能数据:

  • SWE-Bench Pro得分56.8%
  • Terminal-Bench 2.0得分77.3%
  • 速度比上一代快25%
  • token消耗更少

OpenAI说,这个模型融合了GPT-5.2-Codex的编码能力和GPT-5.2的推理能力,速度还提升了四分之一。

最有意思的功能:它会"汇报工作"

GPT-5.3-Codex有个很特别的设计——它会主动跟你汇报进度

以前用AI写代码,你得等它全部跑完才能看结果。现在不用了,它会边干活边告诉你:

  • 现在在做什么
  • 遇到了什么问题
  • 准备怎么解决

而且是语音播报。你可以随时打断它,提问题、讨论方案,它不会因为被打断就丢失上下文。

OpenAI把这个叫做"像真正的同事一样工作"。听起来有点夸张,但确实比以前那种"黑盒操作"要透明多了。

不只是编码工具,而是工作助理

OpenAI对这个模型的定位,已经超出了"编程助手"的范畴。

它能做的事包括:

  • 调试、部署、监控代码
  • 写产品需求文档
  • 编辑文案
  • 做用户研究
  • 跑测试、分析指标
  • 生成财务报表

OpenAI自己的团队已经在用它了。研究团队用它监控训练过程、调试基础设施问题;工程团队用它优化框架、排查异常。

有个研究员想统计"GPT-5.3-Codex每回合能完成多少额外工作",就直接让模型自己写正则表达式分类器,分析所有会话日志,最后生成一份带结论的报告。

整个过程,人只负责提需求。

两个模型,谁更强?

说实话,这两个模型走的路子不太一样。

Claude Opus 4.6的特点:

  • 擅长"多智能体协作",适合复杂的大型项目
  • 上下文窗口大,能处理海量信息
  • 价格没变,性价比高
  • 更像是"一个团队"在工作

GPT-5.3-Codex的特点:

  • 速度快,交互性强
  • 功能更全面,不只是编码
  • 会主动汇报进度,透明度高
  • 更像是"一个同事"在工作

如果你是要做大型项目、需要AI长时间自主工作,Claude可能更合适。

如果你是要快速迭代、需要频繁交互,GPT可能更顺手。

国内大模型也要跟上了

海外这两家已经打起来了,国内的大模型估计也坐不住。

DeepSeek v4据说也快来了,春节前这几天,AI圈应该还会有不少动静。

说到底,这种"神仙打架"对我们用户来说是好事。竞争越激烈,模型进步越快,价格也越有可能降下来。

现在的问题不是"AI能不能干活",而是"我们怎么更好地跟AI协作"。

这个问题,可能比模型本身更值得思考。

💡 试过不少AI平台,目前稳定在用 ChatTools (https://chattools.top),模型全(Claude4.5、GPT5.2、Gemini 3.0 Pro都有),而且免费,体验下来还不错。

📰 比起到处翻新闻,我更喜欢在 AI Inking (https://aiinking.com) 集中看AI资讯,更新频率挺高的。

Logo

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容,并连接云服务、办公空间等稀缺资源,助你专注创造,无忧运营。

更多推荐