字节的“反Agent”战争,如何大音希声?
创始人
2026-01-12 21:24:25
0

来源:新立场NewPosition

Agent向左,Skill向右垂直深耕与“上下文”战争

2024年,新加坡。一支名为Butterfly Effect的创业团队收到了来自字节跳动的收购邀约。字节开价3000万美元,意图将这支团队整合进Doubao体系,补齐其当时在通用Agent领域的短板。不过这笔交易最终未能达成,创始团队拒绝了被“吞并”的命运,理由是估值偏低,更关键的是,他们不愿过早失去独立性。

这次分道扬镳,成为了两条平行线的分野。

仅仅一年后,创始团队的赌注就收到了回报。3月,Butterfly Effect孵化的Manus凭借一段演示视频在 AI 圈内激起涟漪,其展现出的“自主规划、全自动执行”能力,被视为 Agent(智能体)雏形的最佳代表。这种狂热在年底达到顶峰,Meta以高溢价将Manus收入囊中,作为其制衡硅谷企业级 AI 生态的关键筹码。

而就在大洋彼岸为Manus的造富神话欢呼时,字节跳动却在沉默中完成了另一种转身。

其内部一支秘密团队加速走到了台前,没有铺天盖地的宣发,也没有晦涩难懂的技术白皮书,名为AnyGen的工作流平台悄无声息地在海外上线。它支持 Google、Apple 和 Lark 登录,并直接沿用了最顺手的策略——免费。

在收购往事的影响下,主流风向倾向于将AnyGen视作Manus的“影子”。但如果将视线从表面的功能清单移开,会发现字节想要的并不止于此。

Manus的多Agent协作架构能够将任务分解给规划、执行、验证等不同模块的Agent,甚至支持一次调度上百个智能体并行处理研究任务。而AnyGen的野心则在于将语音交互、多模态理解、结构化引导和实时协作编辑深度整合到一个流畅的工作流中,即在最耗时的 “反复返工” 环节中,插入一层极度稳定的加工与交付能力。

在深度体验并拆解了AnyGen的产品逻辑后,《新立场》发现:字节其实是试图在Microsoft 365、Google Workspace严防死守的办公领地里,用一种 “反 Agent” 的逻辑,通过产品端创新与价格策略 “突围” 下一代工作流的操作系统。

回顾过去,Office套件的护城河在于“格式垄断”,而AnyGen试图建立的新秩序在于“流程重塑”。AnyGen去支持Lark的登录,去兼容PPT的原生格式。因为只有解决了交付的确定性,AI 才能真正从“玩具”变成“工具”。

在大象转身的时刻,AnyGen成为了那只试图隐入无形的先遣队。

人们热衷于拿AnyGen和Manus做对比,无非是因为市场喜欢“大卫挑战歌利亚”的叙事,或者巨头之间的镜像战争。但从AI架构的角度推演,这两款产品虽然同属生产力工具范畴,却明显是光谱的两极。

Manus代表的是硅谷当前最火热的叙事——通用智能体。它的核心逻辑是“全自动代理”。用户只需给出一个高层次的指令,例如“帮我规划去日本的旅行并预定酒店,顺便做一份预算表”。Manus便会接管你的浏览器和操作系统。通过多模态模型感知识别屏幕,规划步骤,点击鼠标,输入文字,甚至在网页崩溃时像人一样尝试刷新或切换路径。

Manus的目标是让你“躺平”。它像一个独立的数字员工,强调自治性。但在企业级应用中,Manus所代表的“长链路全自动Agent”在当前模型能力下面临着一个数学上的死结——“误差级联”

简单来讲,假设一个 Agent 完成任务需要连续执行 10 个步骤(规划-搜索-阅读-筛选-决策),即使每一步的模型准确率高达 95%(这在复杂推理中已是极高标准),最终任务成功的概率也只有59%。这意味着,完全放任 Agent 自主执行,会导致近一半的任务失败。

Manus 试图通过并发调度“上百个智能体”来解决这个问题,这在本质上类似于OpenAI在o1模型中使用的“思维链”与“自我博弈”技术:通过增加推理侧的计算量来换取准确度。

但 Manus 的激进在于,它试图在开放的互联网环境中进行这种博弈,环境的不可控性(网页变动、验证码、非结构化数据)会让模型的规划树(Tree of Thoughts)迅速发散,导致计算成本指数级上升而效果收敛缓慢。

AnyGen则完全不同,它内置的技能(Skills)并非完全自主的Agent,而是经过封装的、高稳定性的系统提示词与工具链。它的定位直指“Notion的协作能力 + Google NotebookLM的知识总结力 + Manus的任务执行力”的三位一体。

AnyGen 的高效运作依赖于一套精密编排的 Agent 协作机制。这种机制将模糊的自然语言需求转化为精确的执行指令,并通过多阶段流转来确保结果的准确性。在这一流程中,系统能够自动识别任务间的依赖关系。例如,在撰写舆情周报时,针对不同媒体渠道(微博、微信、外媒)的信息搜集任务可以同时启动,显著提升数据获取速度。

《新立场》制图:AnyGen工作流程

而当某一路径(如特定网页无法访问)受阻时,Agent 不会直接报错终止,而是会尝试替代方案(如使用搜索引擎快照、查找其他信源),或者在最终报告中明确标注缺失部分,交由人工接管。

字节看得很清楚:在当下的技术周期里,完全自动化的Agent依然面临信任壁垒,在严肃的办公场景中,用户需要的是一个能深度增强人类能力的副手。

这种区别在社区内被称为“Agent派”与“Skill派”的分野。Manus希望你“放手”,它负责搞定一切,风险在于过程的不可控。AnyGen希望你“共创”,它负责搞定那些繁琐、重复、易出错的中间环节,核心决策权始终在人手中。因此,Manus和AnyGen的竞争关系很弱,更多的是生态位的互补。

《新立场》认为,现有最高效的方案是构建一个混合工作流,以小驭大:将长链路、复杂自动化任务委托给 Manus 执行,而在最终交付物的专业润色、可编辑呈现和视觉优化(如报告或 PPT)阶段,转向 AnyGen 进行打磨。

  • 调研阶段:派Manus去全网搜集全球最成功的10个同类App的功能点和定价策略(利用其广度搜索和自主规划能力)。
  • 内化阶段:将资料喂给NotebookLM,通过对话理清思路,生成一份产品功能清单。
  • 交付阶段:将清单拷贝到AnyGen,生成一份产品路演PPT或UI设计说明文档,并在AnyGen里微调视觉细节,直到可以发给团队。

在“反复返工”中寻找确定性

办公赛道从来不缺玩家,但却是最难被“跑通”的领域。

微软的Microsoft 365生态坐拥十亿用户,但其本质是在旧时代的庞大躯体上嫁接AI,Word还是那个Word,Excel还是那个Excel。AI 生成的每一段文字,都需要用户在繁杂的菜单栏里进行二次加工。Notion AI足够灵活,但在深度数据处理和多模态整合上始终隔着一层窗户纸。

现实中,大多数 AI 办公工具的崩溃时刻往往发生在生成之后:文档出来了,打工人得面对高昂的修正成本;PPT生成了,还得处理格式走样、模板崩坏的“返工地狱”。AnyGen试图切入的,就是这个“反复返工”的痛点。

《新立场》在实测中,发现AnyGen展现出了一种有别于竞品的“确定性”。

以“数据调研报告”为例。当输入“分析过去30天Twitter上关于Gemini的讨论声量”时,AnyGen并不是简单地调用大模型生成一段似是而非的评论,而是内置了一个类似爬虫的Agent去实时抓取数据。

AnyGen数据调研报告·功能实测图

AnyGen数据调研报告·功能实测图

它直接扒取了Twitter的公开数据,生成了一份包含可视化图表、分析文本、明细表格的完整报告。更关键的是,报告的颗粒度虽然尚不及专业分析师,但报告的格式是结构化的,可以直接导出,直接汇报。

再看PPT场景,AnyGen接收到指令“把链接里的播客变成PPT”时,会收集用户的演示偏好(目标受众、字体风格)生成原生“.pptx”文件。虽然内容还是图片,但是已经可以用幻灯片的方式来播放。

AnyGen PPT制作·功能实测图

AnyGen PPT制作·功能实测图

传统的 LLM 是基于概率预测下一个 token,这天生是发散的。但 AnyGen 显然在模型后端加了一层强约束,当用户要求生成 PPT 时,模型不再是生成“文本”,而是生成一段可被执行的 Python 代码或 JSON 结构,并在内置的沙盒环境中试运行

《新立场》认为,这很好地反映了字节 AI 产品的思路——“代码即策略”,模型不直接画图,而是编写一段调用PowerPoint API 的代码。代码要么运行成功,要么报错重试,不存在“画歪了”这种中间状态。

这种将非结构化的自然语言转化为确定性的形式语言的能力,也是 AnyGen 敢于承诺“零返工”的底气所在。

AnyGen目前仅面向海外,但将其置于全球竞争的棋盘上,我们能更清晰地看到字节的处境。在海外,工具链极其破碎。Slack沟通,Notion记笔记,Zoom开会,Google Docs协作。这种碎片化给了AnyGen巨大的机会,它可以用“All-in-One”的工作空间故事,去整合这些零散的需求。

但如果AnyGen未来回归国内市场,它第一步要做的不是横向对比功能,而是找准自己的生态位。在国内,它将遭遇两股更强势的竞争力量。

第一类是办公套件内生的 AI,以金山WPS和微软Office为代表。这类竞品的最大优势在于它们本身就是“交付现场”。模板、字体、版式规范、协作审阅,这一切都发生在同一个系统内。套件型AI默认解决了所有新工具都绕不开的死穴:迁移成本。当用户在WPS里生成PPT时,不需要搬运数据,也不需要担心导出走样。

第二类是超级入口的轻量化打击,以夸克、百度文库为代表。夸克的逻辑是将PPT生产从沉重的办公套件中剥离,变成一种高频、移动端、随手可得的轻量消费能力。这种入口位置带来的分发效应极其恐怖。

面对Office的深厚积淀与Manus的前沿探索,AnyGen选择了一条更为务实的兼容之路。它试图在经典的交付标准与新兴的智能体验之间,架起一座通行的桥梁。在这家巨头看来,进入生产力场景不只是为了占领地盘,更是为了在 AI 时代,为用户提供一种确定性的工作方式。

为什么是现在?为什么是办公场景?

一个明显的趋势是大模型作为底层基座的战争已经结束,应用层的战争才刚刚开始。而跑出来的产品,大多不是“什么都能做”的通用工具,而是“把一件事做透”的垂直应用。例如写作的星月写作,语音博客的Listenhub,以及图像设计领域的Lovart。

这种风向的转变,在刚刚落幕的CES 2026上得到了最直观的印证。

相比于两年前CES 2024对AI无限期待的“野心”,今年的拉斯维加斯少了几分关于通用模型的宏大叙事。相比于那些试图在云端回答一切的大模型,市场将更多的聚光灯打向了“第二大脑”类的应用载体。从Plaud的录音贴片到Vocci的指环,参展商们不再执着于展示模型参数的大小,而是竞相展示如何更精准地捕捉会议记录、如何更高效地整理个人数据。

在《新立场》看来,其传递了一个清晰的信号:AI的战场已经从“定义物理边界”,转移到了“争夺数据上下文”。无论是美国的科技巨头还是出海的中国企业,大家都在寻找具体的支点。毕竟只有当AI开始处理具体的会议摘要、整理具体的待办事项时,它才算真正从表演性质的“Show”变成了能干实事的“Work”。

而细分来看,AI应用们在垂直场景的深度,比通用能力的广度更重要。Manus试图做通用Agent,什么都能干,但往往什么都不够深。AnyGen聚焦在“办公交付”这一个场景,反而更容易做出差异化。

这背后的核心逻辑在于“Context”(上下文/语境)。

程序员为什么是最先享受到AI红利的人群?因为Github Copilot拥有代码库这个最完美的Context。AI知道你的函数怎么写,知道你的变量怎么定义,它不需要揣摩你的意图。

但在通用的办公场景中,AI往往是“盲”的。它不知道你公司的PPT模板是什么,不知道你的汇报对象喜欢什么风格,不知道你上周的会议纪要是怎么写的。那些AI不知道的痛点,才是做AI产品最应该知道的Context。

对于办公用户,让他们去构建工作Agent、去写System Prompt、去调试API是不现实的。AnyGen试图解决的,就是这种办公场景的Context。

这也是字节最擅长的环节:将隐性的用户需求显性化。当年做头条,把“信息分发”的逻辑变成了算法;做抖音,把“娱乐消遣”的逻辑变成了短视频流。如今做AnyGen,字节也在试图把“办公协作”的隐性流程,变成企业级AI生态的显性技能。

不同于多数 AI 工具采用分层订阅或按功能付费,AnyGen从一开始即提供完全免费的体验版本,甚至允许企业用户通过邀请码直接试用。

在 SaaS 普遍追求订阅付费、Token 成本依然高昂的当下,字节意图通过免费策略,构建一个覆盖全球的“过程奖励模型”(Process Reward Model, PRM)训练场。

在大模型训练的scaling laws中,最稀缺的资源已从原始静态的文本数据,过渡到人类在复杂任务中的“过程反馈”。当用户在 AnyGen 里手动修正了 AI 生成的周报摘要,或者调整了 PPT 的一张配图,这个“修改”动作本身,就是一个价值连城的梯度下降信号。

它教会模型的也不仅仅是“结果是什么”,还有“如何到达结果”。

在昂贵的 Token 成本面前,字节表现出的这种“松弛”,如果不被解读为一场针对存量市场的降维围猎,似乎很难从商业逻辑上自洽。 显然,比起账户里即刻到账的现金流,这家巨头更在意的是如何将用户的使用习惯留在自己的生态之内。

写在最后

计算机先驱约瑟夫·利克莱德在1960年提出了“人机共生”的概念。他设想,人类设定目标、构建假设、确定标准,而计算机负责那些可程序化的、繁琐的计算工作。

六十多年过去了,Manus和AnyGen的出现,似乎正在逼近这个愿景的两个侧面。Manus向左,试图让机器更像人,拥有完全的自主权;AnyGen向右,试图让人更像神,拥有无所不能的工具箱。

这也给所有的AI创业者提了个醒:AI生产力软件加速普及的同时,在大厂和独立开发者的夹缝中,初创AI公司生存空间正在被压缩。AI时代创业需要想清楚,如何在大厂和独立开发者的夹缝中,找到一个可以快速积累产生数据壁垒的发展区。

既摒弃了大厂的各种合规和流程,又逃开了独立开发者的Vibe Coding。

对于字节跳动而言,AnyGen显然是其在AI时代的一次重要落子——试图将触角伸向更严肃、更底层的生产力领域。

飞书(Lark)作为字节的办公套件,在国内有着极高的口碑,但在海外市场,面对Slack和Teams的围剿,Lark的压力一直不小。但如果AnyGen能把语音记录和多模态输入转成结构化文档与演示材料,并进一步在飞书里完成分发、协作修改、评论审阅与版本管理,它就有机会绕开迁移成本。

这就解释了为什么AnyGen强调“协作”而非“全自动”。因为只有协作,才能让人留在Lark的生态里;只有留在生态里,才能产生粘性。

当Agent隐入工作流,字节这头庞大的大象,或许离真正地“隐入无形”也就不远了。

*题图及文中配图来源于网络。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...