AI角色转变:从对话到管理智能体团队
中层管理者崛起:AI公司希望用户停止与机器人聊天,转而开始管理它们
近日,两家知名AI机构几乎同时发布了围绕同一核心概念打造的产品:用户不应再与单一的AI助手对话,而应开始管理能够分工并行运行的AI智能体团队。这种同步发布是行业逐渐转型的一部分,即从将AI视为对话伙伴,转向将其视为可委派任务的数字劳动力。这种转变发生之际,恰逢有报道称,正是这一概念导致软件股市值蒸发了数千亿美元。
这种“监管”模式在实践中是否有效,仍是一个悬而未决的问题。当前的AI智能体仍然需要大量的人工干预来纠正错误,且尚无独立评估能证实这些多智能体工具的可靠性普遍优于单打独斗的开发者。
尽管如此,各大机构仍在全力押注智能体。某机构的贡献在于推出了其最强大模型的新版本,并在其代码工具中搭配了一项名为“智能体团队”的新功能。该功能允许开发者启动多个AI智能体,将一个任务拆解为独立的部分,让它们自主协调并并发运行。
在实践中,“智能体团队”就像一个分屏的终端环境:开发者可以使用快捷键在子智能体之间切换,直接接管任何一个,并观察其他智能体继续工作。该机构表示,此功能最适合“那些可以拆分为独立、重度读取型工作的任务,如代码库审查”。该功能目前作为研究预览版提供。
与此同时,另一家机构发布了一个企业平台,将其描述为一种“雇用AI同事,接管人们在电脑上已完成的大部分任务”的方式。该平台为每个AI智能体分配了独立的身份、权限和记忆,并能连接到现有的业务系统,如客户关系管理系统、工单工具和数据仓库。该机构B2B业务总经理表示:“我们从根本上做的事情,是将智能体转变为真正的AI同事。”
尽管关于这些智能体作为“同事”的宣传很多,但根据经验,如果将智能体视为放大现有技能的工具,而非营销语言所暗示的自主同事,它们往往能发挥最佳效果。它们可以快速生成令人印象深刻的草稿,但仍然需要持续的人工修正。
此次企业平台的发布,恰逢该机构为其AI编码工具发布新的桌面应用之后。该机构高管将其描述为“智能体的指挥中心”。该应用允许开发者并行运行多个智能体线程,每个线程都通过Git工作树在代码库的独立副本上工作。
该机构同日还发布了新的人工智能模型,为编码应用提供支持。该机构声称,其团队使用了该模型的早期版本来调试模型自身的训练过程、管理其部署并诊断测试结果。该机构表示:“我们的团队对编码工具加速自身开发的能力感到震惊。”在一项智能体编码基准测试中,新模型的得分超过了竞争对手刚发布的新模型约12个百分点。
所有这些产品的共同点是用户角色的转变。开发者或知识工作者不再仅仅是输入提示并等待单一回复,而变得更像一个主管:分派任务、监控进度,并在智能体需要指导时介入。在这一愿景中,开发者和知识工作者实际上变成了AI的中层管理者。也就是说,他们自己不再编写代码或进行分析,而是委派任务、审查输出,并寄望于手下的智能体不会悄悄把事情搞砸。这是否会成为现实,或者它是否真的是个好主意,仍然存在广泛争议。
新模型的技术细节
新模型是其旗舰模型的一次重大更新,支持高达100万个令牌的上下文窗口(测试版),这意味着它可以在单次会话中处理体量更大的文本或代码。
在基准测试方面,该机构声称其新模型在多项评估中超越了竞争对手的早期模型,包括智能体编码测试、多学科推理测试以及一项寻找难以在线获取信息的测试。不过,值得注意的是,同日发布的竞争对手新模型似乎在智能体编码测试上重新夺回了领先地位。在一项旨在测试解决“对人类容易但对AI模型困难”的问题能力的测试中,新模型得分为68.8%,远超前代模型的37.6%。
一如既往,对AI基准测试要持保留态度,因为客观衡量AI模型能力仍是一门相对较新且尚未成熟的科学。
该机构还表示,在一项长上下文检索基准测试中,新模型在100万令牌的变体上得分76%,而其另一款模型仅为18.5%。这种差距对于“智能体团队”的用例很重要,因为在大型代码库中工作的智能体需要在数十万令牌的信息中追踪线索而不丢失脉络。
应用程序编程接口的定价与前代模型保持一致,对于超过20万令牌的提示词有溢价费率。新模型已在官方网站、API和所有主要云平台上提供。
平台即“企业操作系统”
此次发布正值软件股异常波动的一周。一周前,某机构发布了其智能体生产力工具的开源插件,将该工具扩展到特定的专业领域:法律合同审查、保密协议分类、合规工作流、财务分析、销售和营销。
据报道,到本周二,投资者对该工具的发布做出反应,导致软件、金融服务和资产管理股票的市值蒸发了约2850亿美元。某投资银行的一篮子美国软件股当日下跌6%,创下自去年四月关税驱动的抛售以来的最大单日跌幅。某资讯机构领跌,跌幅达18%,跌势蔓延至欧洲和亚洲市场。
投资者担忧的焦点在于,AI模型公司将完整的工作流程打包,与既有的软件即服务供应商竞争,尽管这些工具能否胜任这些任务尚无定论。新发布的企业平台可能会加深这种担忧:其设计理念是让AI智能体登录应用程序、执行任务并管理工,只需最少的人工参与。一家商业媒体将其描述为试图成为“企业的操作系统”。该机构应用部门负责人反驳了该平台会取代现有软件的观点,她告诉记者:“该平台实际上是一种认可,即我们不会自己构建所有东西。”
无论这些协同工作应用是否名副其实,这种趋同趋势都不容忽视。某机构企业产品主管给这种实践起了一个可能会引人翻白眼的名称。“过去一年半里,每个人都看到了软件工程领域发生的转变,‘氛围编程’开始作为一个概念存在,人们现在可以用他们的想法做事,”他告诉媒体,“我认为我们现在正在过渡到所谓的‘氛围工作’。”FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
更多推荐

所有评论(0)