本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),整理:郭海惟
在AI创造者嘉年华期间,语核科技创始人&CEO翟星吉、Flowith联合创始人&CMO拐子、Macaron创始人&CEO陈锴杰、RockFlow创始人&CEO赖蕴琦与硅星人合伙人王兆洋,进行了一场线下的“辩论”。这场讨论几乎涵盖了今天关于AI Agent创业最重要的一切。
以下是对话实录,经不改变原意的编辑:
通用的迷思
王兆洋:我觉得取辩论的本质而不是取辩论的形式,通用和垂直这个话题,基本上大家参加的Agent局里都会遇到。有点像是一个框,什么东西都能往里装。但它其实对应的一个很有意思的话题——到底Agent是什么?
陈锴杰:先主持人定义一下什么叫通用,什么是垂直。对我来说,Personal Agent相对于ChatGPT来说已经收窄。
翟星吉:我一直觉得你们(Macaron)就是垂直的Agent。
陈锴杰:(但我们)对于旅行的Agent来说又扩大了。
拐子:我觉得(Flowith)算是创作的Agent。
翟星吉:你看都是垂直的。
王兆洋:从表面来看好像Flowith和Macaron都是通用,语核像垂直。
没有一个产品,从一开始做的时候,(出发点)是从通用还是垂直,而是先找到你想做的东西。直到后面某个时刻,可能会开始思考通用和垂直的这个话题。
先从陈锴杰开始讲讲,我们为什么会做这个产品,这个产品在哪个时刻你开始想起通用和垂直?
陈锴杰:我开始抛砖引玉。在这个辩题之前,我都没想过是垂直还是通用。
今年初,我们看到AI做生产力这个方向已经把很多事情解决的不错了。但用户在生活上有很多的需求,没有被很好满足。
为什么呢?
我们发现,第一是记忆,AI不懂你,给你的东西可能是正确,但没有用的。
第二点,因为没有小工具来辅助你。比如,记录体重变化。你跟豆包聊天记录自己的体重变化,听上去就是很离谱的事情。假如用户想借用AI的能力,又想给你一些建议分析,又不想在聊天范式下做太多东西。那我们的Personal Agent帮你做mini app。
所以,从这个角度思考,我们想解决用户生活的问题。
王兆洋:为什么要用Agent来做生活?
陈锴杰:我觉得大家都希望生活里有一个私人助理。虽然我不是富豪,但是我也能想象一下富豪的生活。
我今天想要买个什么东西,我给我助理发个信息,他就买了。明天我要出去玩,(助理把)所有行程给我安排好。
我想要的就是这个——如果能很理解我过往的旅行偏好,他说不定能帮我把这个事情做得非常好。
我觉得大家是有这个渴望的。
王兆洋:拐子呢?
拐子:首先,我觉得通用和垂直Agent为什么现在这么火?因为当时Manus发布的时候,视频里面讲了是这是“第一个AI Agent”,把通用Agent带入这个话题池当中。
我们发第一个Agent是去年8月份。那时候,我们给它的名字代词叫Oracle,定义是AI for DeepWork。
我们希望大家既能用它做深度的调研性的工作,也能做内容创作领域的(实践)。比如说有些新闻工作者要去做新闻调研,可以帮你输出一份高质量的研报;有自媒体的工作者,可以帮你做短视频、图文。可能最后还有一个方向是偏代码方向。它可以帮你做一些产品的原型图,或者小的一些vibe coding的产品原型。
在我眼里这个范式不太通用,是偏向于创作的。
当然我觉得所有的AI大模型都是在创作,都是在预测下一个Token会吐什么东西,或者预测我们下一个代码会写什么东西。“预测”这个词可能不太精准,但是我觉得主要还是说,我们去“写”出来下一个东西是什么,我觉得AI大模型有点像写字的感觉。
王兆洋:“写字”算是已经比较通用方向了。
拐子:对,它可能可以做的东西比较多。尤其在我们内部定义当中,我们会觉得通用Agent真的是要到什么事都能做。
因为其实我觉得General AI Agent这个词,来源于AGI。我们对AGI的理想是贾维斯。你要它给造钢铁侠,它真能造。如果我们有“创作通用Agent”(的品类名字),我会愿意叫“创作通用Agent”,但是我觉得我自己不是很想说通用Agent,因为这样会让用户特别的模糊。
因为我演讲说的那几个创作场景,一定是用的好的。但是用户会因为有“通用”这个词,他进你的产品之后,反而不知道要干什么了。
所以我们在每次发布的时候都不喜欢自己叫General Agent,我们在特定的场景下输出的东西可能跟Manus这样的东西输出的差不多。大家会拿我们横向类比,把我们放入通用Agent这个范畴之内。如果再给我们一次机会,我们还是会叫整个创作领域的Agent。
创作领域分通用,那就是场景(内部)的通用;垂类的探索我们会做,但是可能还是聚焦在创作这件事情当中。
王兆洋:“通用”这个词并不是一开始(就有的),可能是因为被整个行业卷出来的。Flowith出来特别早,有一种叙事甚至是说:当对手出来的时候,它会看到创作这个事情已经被Flowith解决得很好了。
陈锴杰:如果是创作Agent,Lovart也很有名。能不能对比一下Flowith和Lovart的区别?
拐子:首先我们俩肯定不是竞品。我觉得我们是个范式创作Agent,Lovart还是偏设计师。如果我给它想一个Slogan:“人人都可以成为设计师”。
它还是偏向于视觉创作领域,尤其是图片创作。我们是图文视频都可以做,尤其是代码Coding也可以做。我觉得他们很垂,我们是范式创作。
王兆洋:星吉这边呢?你一开始怎么思考的?
翟星吉:我们从去年开始做这个方向的时候,就定义一定是垂直的。因为我们认为,Agent或者AI在企业里面一定是生产力工具,从做to B以后更加明确了,AI在生产力形式上会替代掉某些事情。
基于这个早期的认知,我们就想要在去年探索出来2-3个比较有价值的场景,就是垂直的场景。这也从几个角度去思考:
第一个角度,我们看到未来它可能是每个员工都是垂直的,就是每个Agent都是垂直到每个岗位上去干;
第二个角度,作为创业公司,我们得聚焦。这是很原始的商业逻辑,我们得聚焦在相对看起来没那么宏观的叙事上,去做一些我们更擅长的事,把它做穿。到今年年初的时候,有一些更清晰的认知。
就是我们发现,比如说你去任何一个岗位,特别是比较高级的岗位,你去拉一个刚毕业的很优秀的博士生过来,他是做不好这个岗的。他得在这个岗位上有一些培训训练,有所谓的Knowhow和经验积累之后才能做好的——更加坚定了,我们一定得聚焦到某个特定的岗上去积累我们的Knowhow、积累我们的数据,基于我们的数据去做工程化或者模型化的工作,最终来达到我真的是在这个岗上能去教出来一个可交付的结果,这是我们一定要去做所谓的垂直本身这件事一个很重要的原因吧。
王兆洋:有意思。我今天还特别注意了,大家在分享里提Manus的次数。我们上个月跟Manus交流,他也提到了我刚才提的问题,跟刚才你们分享的很像。
Manus分享的是说,一开始也是说要做哪个场景。但后来它有一个思路是,我一旦选了单一的场景,用户可能只在那个场景需求发生的时候才打开我的产品。
那我怎么样再去留住他?
比如说,邮件的产品我就每天打开一次,所以可能变成了所谓的通用这么个东西。这是它给的一个叙事的解释。
他也不是一个先入为主讨论的话题,而是后来慢慢就是大家想要去有一个分类的时候,出现了两个划分。或者说,市场竞争后出现了一些概念,才去讨论的。
陈锴杰:我回应一个,我其实感觉是大家都在逃避一个事情——把这个话题转化成了通用还是垂直,大家都在逃避竞争。
当我们讲垂直的时候,我们想说的就是:我是这个领域的,你是那个领域的,我们不打架,然后我们都能做,大家都能融资,都能发展。
我觉得Manus在这个问题上,可能尤其艰难。因为在海外做General Agent,是明牌正刚ChatGPT。
肯定有一些细节区别,但在很多用户心中可以等价替换了。PPT、视频生成,这些东西ChatGPT我相信肯定也都会有的,它今天的用户量你也挡不住。我Q3开始的时候还跟团队说,你们要知道ChatGPT已经有3亿DAU了;Q4刚来就说,你要知道ChatGPT有4亿DAU了。
很多东西变化太快了。
如果我们是通过这个词来思考竞争关系,我觉得其实是一种逃避吧。我在想的是,假设我有很多场景里面要解决的问题跟ChatGPT也差不多,我有什么不同的解决方案,或者更好的解决方法。我觉得可能是这个问题的本质。
翟星吉:这个很重要。
你在这个解决问题的时候,看到了其他Agent在解决这个问题上的缺陷,或者不满足用户的点。然后你觉得OK,我可以做一个东西,可以在这个方面去把它做得更好,能更加贴合这个用户。
某种意义上是这个场景里面用户的专家,你是有足够多的Knowhow。你知道它会怎么用,所以你可以帮它定义这个产品应该怎么用,应该怎么做,进而在这个场景下面能达到更好的交付结果的优势,所谓的就是你提出来更好的解决方案。
在吞噬一切的模型面前,Agent何去何从
王兆洋:刚才聊到ChatGPT,可能未来是它的Agent跟各位Agent之间的竞争。
刚才听(演讲)的时候,我列了这么一句话:“在模型面前,通用Agent是不是伪命题?”
这个刚才分享里也涉及到了,比如拐子也分享了从模型需要一个Agent来解决更进入到Action这个角度的问题,但是还是难以避免这样一个话题:
模型越来越强,Agent会不会被吃掉?尤其是模型几家厂商下厂,还提出了模型加Agent的概念。
从拐子开始吧。你们起名字真的是神出鬼没的,上一个还叫Agent Neo,这个就叫太监了。我问一个问题,为什么要做太监不叫皇上?
拐子:我们产品名肯定不会叫太监,太监是内部的代号,刚才只是开个玩笑。
我们内部很喜欢《黑客帝国》这部电影,其实我觉得技术定义上,或者一个更好的名词是Listener Agent。它是个聆听者,也更加直接更加易懂。太监是开个玩笑的意思,因为在中国语境方便理解。
但我觉得上线之后所有的宣发还是叫聆听者这种感觉会更好一些。
王兆洋:回到这个问题,对应模型和Agent之间的关系。好像Agent自我阉割成了太监,而不是去抢皇上的位置。
拐子:首先我们先抛开刚刚发的新Agent,回到模型是不是Agent这个概念上。
我觉得可能有一点:模型当然有可能在未来变成一个他们眼中的Agent,这个是非常有可能的,甚至像O3、O4的模型,我们看到很多能力都是达到Agent能力。我觉得这个问题对我来说它(OpenAI)肯定很重要,但在用户那里不重要。用户关心的,只是帮他解决问题的是什么东西?
我觉得,大家关注Agent是因为它比传统的大语言模型更进一步:它把输出一张图片,一段文字,一个5秒钟的视频,变成了输出到我手上可以交付的结果。无论是PPT,或者视频,或者其他什么东西,甚至也可以把各种东西全部结合在一起,这个绝对是在以前的用户体验上是更进一步的。
这其实是Agent在做的事情:当然有可能以后模型会做这样的事情,当然有可能。但是我想说,首先从市场端角度考虑,(因为我自己还是做市场的人),首先这玩意儿就是市场非常非常大,太大了。因为全世界做无论是知识性工作者也好,媒体工作者也好,还是用手机、用电脑的用户,都是agent的用户,他们需要用这个东西变现去赚钱。
所以我觉得,在模型面前,通用Agent当然有可能受到威胁,但它不会是一个伪命题。因为模型再去做类似事情的时候,可能也是用的类似Agent方式。当然有可能成为一个模型去做,但最终依然是Agent实现的方式——我们知道他要调用,它要有记忆,在现在的模型训练架构上是做不到这样的事情。
王兆洋:不可能是原生模型就能解决。
拐子:对,“模型Agent”存在。我们把前半句话删掉,“通用Agent是不是伪命题”?
我不知道。
用户其实不太Care这个词。我觉得还是我们业内的人,或者一些媒体,或者投资人更关注这个词。因为我离市场是更近的,我觉得用户不太在意这个词。他在意的他这个Agent到底为他解决什么问题?它是为我做个PPT还是为我做Excel表格?还是什么都能给我做?
可能我打开它的使用场景到底是什么我要在什么时间打开它,这个是我觉得所有产品现在都开始在关注的一个问题。
王兆洋:你好像不光是CMO的身份,还有产品经理的角色。
拐子:因为我自己本身是学计算机出身,我觉得思考产品这件事情就是在你团队的市场营销当中的。
如果我们只做市场营销,买量就好了,或者做PR、做宣发就行了。
但是我觉得现在新一轮的AI营销当中,一定不是只靠买量或者靠放量去取胜,或者只靠红人营销这种东西。这些当然要做,我一直会觉得如果只做这些事情都是大厂的机会了——谷歌他们占据了世界最好的营销资源,但是现在很多AI产品依旧没有找到PMF。
甚至我觉得99%的产品依旧都是在很早期很早期的阶段,甚至世界最厉害的ChatGPT或者Manus这样的产品,大家都还在很早期的阶段,大把的机会。
王兆洋:必须要参与到产品的定义里面去。
拐子:是的,这样子才能知道你的用户是谁。
因为CMO我觉得要离用户很近,要不然我都不知道产品是什么,我就不知道我的用户长什么样。
王兆洋:这可能也是你们跟大厂竞争的好的机会,大厂里的CMO没有像你这么忙。
我问锴杰一个问题。你刚才在演讲里也Diss了一下“太监”,说不需要太监,Macaron直接理解你。
我理解你的意思是说,足够多的场景出现之后,其实通用就实现了。但这个事情,你真的能穷举吗?如果场景穷举到足够多走向通用,这是不是有点奇怪?尤其在模型他被大家认为是全知全能的背景下。
陈锴杰:明白,没有Diss。
大家其实是在不同的维度上去收集Context。作为“倾听者”能够从“生活声音”这个方向,去收集Context这肯定是非常好的手段。
如果能24个小时(收听),这个很理想,用户不一定会同意。我们收集Context的方式很不一样。我们希望通过用户不管是饮食记录、健身记录,还是日记,还是自己的旅行规划,用这些场景作为他的Context来做后面所有的事情。
今天很多产品,我觉得都在不同的角度去思考Context的问题。特别是能不能把以前用户习惯中已经存在的Context用好,比如说相册,我觉得就是一个还没有大家被开发出来的Context的金矿。
王兆洋:连苹果都没做得很好。
陈锴杰:对,因为里面有非常非常多的数据。谷歌能拿到相册,可能谷歌的动作也比较难,因为监管很用力。但是其实,有很多东西在相册里,有很多生活相关的(context)。我觉得大家其实是在思考Context从哪里来,不管是(flowith)“倾听者”还是Macaron。
回到刚刚的问题,通用、Agent和模型,这几个词放在一起,我们到底在讨论什么?
我可能觉得,对通用和模型的关系,今天市场是有一些不同的想法的。
去年,我们谈通用,是真的觉得它是什么东西都能做的,那时还是预训练为主。但等到RI\O1以后,预训练已经不是模型智能提升的主线了。模型智能的提升主要是靠强化学习、在后训练继续提升他的能力。
如果他是强化学习,他就必定有一个对标的题目库。他一定要打题目,不管这个题目是有标准答案的、AI评价的,还是人类评价,他一定是有一个题目。在这个过程当中大家定义什么Beachmark,其实就会让这个题目产生不同的“Taste”——
其实大家的Taste已经分化了。
像Anthropic,它All in Coding以后,今天写的代码就是要更好。OpenAI也不是不想追,不是不想抢,还得等它故障的时候才能捞一点用户量出来。GPT5、Codex写代码就是没有Claude写得好,因为他没有在这个方向做足够的强化学习。
反过来也是一样。OpenAI回答一些通用的问题,聊天和内心疗愈和How To的问题,就是比其他家做的更好。Anthropic也不想去竞争这个事情,因为也搞不来。
所以你看,大模型都已经有分化的场景,我觉得我们再去讨论它是不是叫通用已经不是太有意义了。我们主要就是看他覆盖了多少?作为创业公司我们覆盖的就小一点。我就只能覆盖生活。可能是生活管理、生活规划,把你生活的衣食住行这个小方面;Flowith可能是创作方面,就是方向选择的不同。
在模型面前,通用是不是伪命题,我觉得模型都不“通用”了。我们就好好干我们的领域,找到我们的课题就好了。
只服务一个场景的Agent是不是预制菜?
王兆洋:既然你们都辩不起来,我们就更犀利一点,“只服务一个场景的Agent是不是预制菜?”
赖蕴琦:RockFlow是做投资交易的Agent,讲到我这个场景,大家就会觉得是垂直的。因为在我们这个场景里,不会说你帮我买个奶茶。
所有的Agent就是解决一个任务或者完成一个事情,我觉得它只有场景的区别。
上周五,有一个用户跟我们反馈说,他说“Bobby应该先问我今天喝酒没有,我刚才一键清仓下太快了,把所有都卖掉了。我下太快了,我不是想清仓的。所以我就希望他以后能问我一句,你今天喝酒没有。”
我觉得这个答案,都不需要问,从他们(另外三个嘉宾)的Agent里就可以拿到答案。
在不同场景下,我觉得(不同agent)可以很好(交叉)使用的,甚至可能包括金融和医疗,他们的Agent都非常垂直,但其实他们也能互通——比如说你的身体状态不好的时候,确实不应该交易。
其实我可以得到你更多的健康Data,让你的交易Agent可能更懂你这会儿的状态,做很多相应的改变和相应的变化。我其实也比较认同:不太有真正的通用和垂直的区别。你到底在为用户解决什么问题?只要你能解决这个问题,就是很有价值的产品。
王兆洋:我觉得RockFlow这种产品,像是你把AI放到了本来就已经有的体系里。而不是说从模型能力开始,从今天所有人都非常兴奋的技术进步里面,重新思考我怎么样做一件事情。
因为我们台上其他三家,应该都是ChatGPT3.5之后诞生的公司,RockFolw是之前想在金融领域做一个,甚至还带一点类似媒体属性的公司。
尤其是我们都知道金融行业里面一旦涉及到交易,你的ROI跟你不涉及到交易的ROI是完全不一样的。
所以这个我也比较好奇,于是有了个预制菜的比喻。好像这个Agent也是前面很多东西都准备好了,然后加上了一个AI的东西。
赖蕴琦:我觉得这个问题提的特别好,我简单讲一下我的历程。我应该是比各位都大一些,我在出来之前工作了十年。十年中大概有四五年是做AI的产业,有四五年做AI的一级市场投资。所以我其实之前一直在做AI相关的事情。
你说的非常对。第一部分RockFlow不是从2023年或者大模型之后才有的公司。从我的背景,你应该能想到我当时为什么要做这家公司。
当时我要创业的时候,打开所有我们生活中用的APP,像Tiktok,它都是个性化的。但是无论你打开任何一个的Trading APP都不是。我9岁就开始交易,我对这个事情很敏感,我发现这个事情很不对。
我当时觉得RockFlow就两个事情,一个是ALL In ONE,就是我一个平台可以交易所有的行为。第二个叫做AI Native。
我是从机器学习那一代做推荐系统“凤巢”出身的。一开始,我们是2011年Q4开始做这件事情,有这么一个递进的过程,用机器学习的能力去实现个性化的体验。
因为这个很有意思,今天很多00后的创业者或者投资人,尤其是投资人,上来跟我说他觉得现在还没有什么落地的应用。他说这个事情我就很懵,因为想说整个移动互联网都是被推出来的,怎么没有应用了呢?因为我的技术负责人也很懵,他原来是百度深度学习研究院的Leader。他说,我是谁,我这十年做了什么?
当大家定义AI的时候,首先代际之间有不同的定义。
回到你刚才说的,我们这个产品确实比较特殊。我一开始想改变,用现有的AI能力去实现这个产品的个性化和更简单的体验。直到今天,我依然会告诉大家所有To C的产品本质上都是做产品的公司,不是做技术的公司。今天有没有大模型,我们都应该把用户好用这件事情放到绝对的第一位。如果确实这个场景,是不用大模型可能更好用,我觉得对所有创业者来说没有任何一个人是为了做AI而做AI的。一定还是说我要去满足用户的需求而做。
所以,这个可能是我今天对这个产品什么样好的产品一个定义。
大模型出来的时候我们做的第一个产品叫交易GPT。如果有老的用户应该知道,我们个性化的推送交易机会,当时叫交易GPT,Trading GPT,第一个用大模型做交易类产品的。
王兆洋:当时就是“全世界第一”了?
赖蕴琦:对,在这个过程中我发现一个非常重要的事情,为什么做现在这个Bobby?因为依然不够简单。即使我把Rock Flow做成一分钟开户一分钟入金,非常简单的交互的页面,我发现用户依然还会有很多的问题:
比如他不知道怎么下条件单?不知道当一个事件发生的时候跟他的持仓有什么关系?不知道当他睡着的时候,账户里的持仓该怎么管理?不知道当他看到拉布布排队的时候,他可以买些什么?
他们依然在认知买什么和怎么买上有很大的问题。我们在2023年的9月份的时候就立项了这个产品。所以现在的Bobby,是在座做的最久的Agent产品。
因为这个垂类比较特别,金融和医疗是相对于比较难做的两个垂直领域。所以我们用了接近两年时间去搭建我们这套Agent架构,才在往上长出了第一个叫Bobby的产品。
我们马上会发出只有Bobby体验的产品,在Web端可以直接用,没有trading app,就是对话式的(交互)。
我们发现越来越多的用户,能够直接通过对话,了解发生了什么,应该买什么,怎么选期权,再到交易,直到都用对话完成。
所以其实我们是有一个演变的过程:
技术做的很简单的时候,依然发现用户还是用不起来;到Agent这样通过自然语言的交互能力时,拆解这个产品,了解如何把大家的个性化需求更好的满足;Bobby出来以后,我们定义了这个产品认为应该是能够比1.0的Rock Flow更好的,上线以后发现,it works。
对于绝大多数的人,无论是有一些投资经验,还是几乎没有投资经验的人来讲、Agent的形式是能帮助大家更好的完成他在投资上很多很多需求的。我觉得我们也是一个范式,也算是给一些相对比较垂类的创业者一些不同的经验吧。
王兆洋:我听下来是(RockFlow)可能用了新的这波AI的自然语言交互能力,加上你们一直在做的更新。最后做了你们最想做的Agent这个产品“Bobby”。之前一直的痛点是,(trading app)没有办法像今日头条或者淘宝这样的千人千面,让大家个性化的去得到自己交易的信息。
我之前在一家财经媒体,我们当时推出一个付费的产品,就是给这些做交易的人。因为在国内,媒体很难做付费的,但是那个付费(成效)很好。因为做交易的人对信息非常敏感,他比别人早知道5分钟他就可能多很多盈利。
这个导致说,信息这个东西是不是个性化,反而不是什么好事。比如,你认为这个信息对他没什么帮助,然后就不给他推,然后他就变成了韭菜。
会不会反而Bobby(这类产品),会带来了更多的韭菜?
赖蕴琦:不会,投资是一个非常个性化的事情。
这件事情,我认为今天在这个行业大家最大的一个想法上的不同:
每个人都会说投资是为了赚钱,就像你买衣服也是为了好看——我会经常举这个例子。但如果每个人的好看都是一致的,淘宝就不应该有淘宝,他就应该做优衣库,他应该自己生产SKU,投资也一样。
赚钱这件事情对每个人来讲定义是完全不同的,它是风险收益(也不同)。有人一年希望翻倍,我可以接受损失本金的风险,所以所有的投资中的赚钱都叫做风险收益。
如果每个人,他的生活不一样、三观不一样,他在投资风险这件事情中的收益目标会完全不一样。所以,在投资这个平台上,它真正交易的商品不是股票,也不是一个标准化的信息,而是个性化的交易机会。
所以我觉得这是可能我创立Rock Flow和Bobby,跟很多前辈友商或者其他金融行业,想的不一样的地方。
王兆洋:我今天去体验了一下,觉得非常神奇——没想到Rock Flow给我的体验跟Macaron体验是最相同的,它给你充足的情绪价值。你上去他会给你说你这个选项非常棒,我们来一起做空英伟达吧。但我不太相信它能做到这件事情。
我对星吉也是这个问题。你非常有勇气,在自己的PPT里把遇到的质问都放进去了。最核心的质问可能就是RPA(机器人流程自动化软件)这件事情,它“是不是SaaS的还魂?”
翟星吉:是的,回到这个问题的本身,如果让我给一个直接的答案:肯定是,它肯定是预制菜。
但是这个预制菜不是Work Flow层面的。因为本质上模型是数据的产物,Agent或者模型能做的事也是数据的体现,是环境中数据的体现。本质上来说只服务一个场景的Agent,是因为它有这个场景下更多更好的数据。
比如说我们现在所谓的通用的base model,它有很强的泛化性,这是建立在两个基础上:
第一个基础上是它的架构,以及它的参数规模带来了所谓的涌现,然后带来了一些能力。
第二,再往下更基础的是它的语料,它的数据,它有整个互联网事件上所有的数据,基于这些数据可以让它去做类似的事情。
但是你比如说再到进一步,为什么O系列和R1会发?本质上是我基于强化学习我标了一批更高级的数据,更高质量的数据,更长思维链的数据可以让我有一个类似react的能力。
同样的,所谓的垂直的Agent,或者垂直的东西,能在垂直场景下有了更好的表现,本质上来说就是作为垂直的厂商在这个场景下有了很多数据,很多Knowhow。然后大家把所谓的数据也好,Knowhow也好,变成产品的过程中去服务于用户更好的体验。
变成所谓的产品过程中可能体现了两个东西:第一个就是要通过工程化去做,我通过Work Flow,通过Agent架构,通过Context管理;第二种,我有一个更泛化的能力,我把数据变成Agent的微调,或者后训练等手段,把它变成模型本身的一部分。
但本质上来说回到初始的二问题,我回答问题比较坚定,它是预制菜。
王兆洋:所以预制菜被污名化了是吗?
翟星吉:预制菜也蛮好的,就是产品和价格的问题。
用一句话说清什么是agent
王兆洋:有意思,刚才我们聊到很多产品的细节。
我开玩笑说去年这个时候我们在旧金山参加Tech week,十个人里面有九个是Founder,五个做agent。
翟星吉:另外四个做什么?
王兆洋:还没想到自己也可以叫agent的公司。现在可能九个都是Agent。
我基本上见到每一个Agent公司的Founder,都会问一个方面的问题?能不能用你自己的一句话来告诉我什么是Agent?
我先抛砖引玉,希望能引出更好的。我觉得有两个是我觉得非常棒非常妙的总结:
一个是Anthropic的朋友,他说Agent就是Models using tools in a loop。很精炼的一句话,顺着他这句话就能解释做这件的事情。
另外一个Genspark的co-founder,在我们的活动上说的。这更多是从产品角度给的一句话,他要做的Agent是把Cursor给开发者带来的体验带到所有行业。
这些我目前听到比较好的,现在同样的问题给四位,看谁先?
陈锴杰:我觉得比较简单,能帮你做事就是Agent。
而且你也没说AI——我们如果做媒体,经常找Agency就是帮我投放,它就是Agent,只是不是AI而已。
我觉得就是能做事。今天有的事情很简单,可能聊天就能实现。帮我做个照片,你如果打包一个界面,放在市场上说,我做一个“照片Agent”也可以。
只要能做事就好。我觉得没有什么其他复杂的东西。
王兆洋:你看anthropic怎么定义,他做的事情也可以理解(这个定义),不用再纠结更多technical的东西。
陈锴杰:因为我觉得今天的“实现”是会变的。
你今天是in a loop,明天可能是in a tree。今天Cursor,明天Cursor做黄了之后,我相信会换成其他词,变来变去。归根到底,你今天做的东西能够帮用户把复杂任务做掉,然后它后面的实现方式(没那么重要)。
我随便想一下:未来可能有一种Call Center,大模型会给人类的Call Center打电话,让人类帮大模型做一些大模型不好做的事情,再返给大模型。那这个你说叫什么?当然也有可能是一种Agent。
拐子:Human in a loop。
王兆洋:拐子想好了吗?
拐子:刚刚讲了(主持人讲的)两个(观点)特别的务实、非常具体,尤其是对业内的从业者来说一句话就能听懂Agent在干什么。
我稍微抽象一点。我之前看到一句话,这不是我原创的,他是说“(agent)是一个可以感知环境的智能实体”。说白了就是拿Context。一方面收集Context,一方面储存Context。
我觉得刚才说的特别好,能帮你干事的就是Agent。但是我觉得后面还有一个很重要的东西,anthropic的观点我觉得能同意50%,但我觉得Multi-Agent一定是未来。当然Multi-Agent也有他的局限性,协作性cooperation和冲突,很多事情都会成为阻碍。但我觉得在我生命有限时间应该能被解决,一定会发生。
王兆洋:目前flowith还是单一agent?
拐子:我们接下来马上就要发multi-agent了。我觉得我们要做大胆尝试的,Multi Agent一定是未来,证明单一的In the loop会发生改变。
包括cursor也有可能。
因为这个产品形态,完全为了代码IDE加上单一的Agent去做的。现在很多程序员会诟病,比如像Cursor右下角显示一个进度条,你的Context到了一定的数据,幻觉率会增高。所以Context可能是一个限制级的新的条件。未来模型能不能解决是一方面;Cursor自己能不能想一些办法解决,在Agent能不能想一些办法解决?都是新的尝试。
王兆洋:一会儿也会聊到。Agent在模型之外到底在做哪些技术的事情,可以深入地聊一些。翟星吉,我问这个事情之前,你们有这样想过用一句话来解释agent吗?
翟星吉:坦率的讲,我以前没有特别的用一句话抽象的。
但我觉得大家的观点在某种意义上趋同,站在更高的视角,站在组织或者结构视角,我认可Macaron讲的——什么技术不重要,重点是你希望用Agent带来的是社会的变革、组织的变革,带来全新的生产力。
所以从结果来说,很简单。真正的能去交付掉以前一个人去做的事,不仅仅能做,还能做好,能完全的交付掉,我觉得这就是一个Agent。
就像刚刚讲的,可能未来完全是Multi-Agent系统,某些人本身就是一些Agent的doers。
因为本质上人也是一个金字塔结构的组织。在组织里面是不断的去一层一层协调的,有项目管理PM这样专门为了组织而存在的一些角色。项目经理就是最终结果负责的人,项目经理是一个Agent,下面干活的人也是一个Agent,然后他们构成一个Multi-Agent系统。
王兆洋:(笑)扣题了,人人都是Agent。
赖蕴琦:我同意锴杰说的,解决问题的节点,都可以称之为Agent。
王兆洋:挺有意思,Agent这个词。
在这波AI,尤其是OpenAI开始,带了一个坏头。他发明了很多概念,非常炫酷的概念,一天一个。我印象最深的是,有一次Open AI被《纽约时报》起诉,说它盗用语料。Open AI给的解释里面甚至用了“反刍”这个词,来解释他明明就是盗窃语料没有给对方版权费的行为。
但在这么一系列的各种概念里面,结果Agent这个词最后变成了一个今天的(流行词)。
我加上今天这场,这个月有四场Agent主持。Agent这个词很有意思,上个月在硅谷正好在斯坦福做Agent交流,我有个朋友是斯坦福考古学的博士后。我问你为什么过来听这个?他说Agent这个词是我们人类学里的词。
他解释了一下,除了人以外的物体,你可能赋予了它某种人类的属性,让它能干一些事情。从这个延展出了Agency也好,旅行社也好,或者帮你中间做一些事情的中介。
这个让我突然意识到,很多人工智能的或者计算机背景的人,在用一个其他领域的词的时候,其实根本不Care它这个词从哪来的。刚才的回答让我意识到,我们真正做这个事情一段时间之后,又回到本源了——陈锴杰说的Agent,可能在人文社科领域的定义。
很有意思的是,同样的问题给Genspark、Simular、Lovart。我在台下就听到两种不同的声音:一种是我们文科生背景的,大家觉得这个很有意思;另外几个也是做Agent创业的,小声嘀咕说这是什么问题?我们为什么要关心这个?
但其实我觉得它是很有意思的融会贯通,最后真的交叉在一起。
能想象RockFlow长成Macaron的样子吗?
王兆洋:接下来可以从产品角度去聊一聊。因为一开始是辩论嘛,我自己列了两两成对的话题。先是RockFlow跟Macaron:
你能想象RockFlow长成Macaron的样子么?我其实会觉得有点那个味。
赖蕴琦:我们就是很像的。RockFlow的第一个slogan讲的就是,投资是一种lifestyle。
我上周还把陈锴杰的访谈转给我们同事:这是跟我们说话感觉、理念上非常非常像的一家公司,因为投资也是在生活中方方面面——你的认知转化成交易。回答你之前的那个问题,很难趋同。
举个例子,前几天我在贵州做公益,跟几百个CEO在一起。那一次我跟大家讲,某一个Crypto公司可能会有一个很大的变化,发现全场就一个人买,但当天涨了20个点。
所以我讲了同样的话,但我的信息只Match到了那个人,其他七八个人都没有这个概念,所以他也不会听到这个事情。你会发现第二天,有另外一个人量子计算的创业者,表达说量子计算怎么怎么样,当天另外一个人就去操作了相应的事情。
所以你会发现即使是看起来大家的认知水平、学历水平都差不多的情况下,依然他对于自己投资偏好,甚至品类是有明显差别,即使这两条信息都可以赚钱。
所以其实投资很多时候我们叫做赚认知范围内的事情,这个很重要。很多人他感受不到自己,AI很多时候比你更了解你自己,所以其实我觉得我们本来就挺像的。
陈锴杰:我也觉得挺像的。
因为Macaron里面,我们未来也会想象插入很多不同的MCP的Agent。我们现在也有对接一些外卖这样的Agent,未来类似交易这样的场景(当然可能交易不一定是Macaron最主要的场景)都有可能长进来,本身其实是蛮像的。
而且所谓的通用垂直,说不定最后有个大入口,大家做的所有垂类全部插进去。
我觉得也不是没有这样的可能性。
王兆洋:其实我看RockFlow的资料,有一个很有意思的是,你好像比较明确的说我是给年轻一点的投资者。
这也是历史上从来没有的吧(除非是法律规定,年龄不到18岁,你不可以投资),没有一款Trading APP告诉你说,我是针对女性的或者男性的,针对18岁到20多岁的。
但现在可以了。
包括Macaron,从生活角度。对于情绪这件事情,可能所谓年轻人会更容易对这个事情买单?变成一个你在可能比较成熟,或者之前没有缺口的行业可以撕开裂痕的一个方法?这个可能也就是AI这波产品才会有的机会。
赖蕴琦:我很同意,你前面聊到说,技术和人文社会学完全Mix。这个点上非常典型。
为什么我们会上来先做GenZ?因为投资是一种生活方式,这个事情不需要去教育,就是这样的。所以才会有Robinhood大战华尔街这些事情。
这个事情的底层是什么?
第一,因为年轻一代,经济基础会更好的,所以他们的成长过程有更足的底气。
第二,确实这些新一代的用户会觉得,这就是我的生活方式,这是我想去表达的东西。他不存在一个可能80、90之前的“一致性”——所以他会有更多的愿意,去表达的诉求,更多想要去表达“我是谁”这样一件事情。当他的个性化需求极其强烈时候,所有很多的以前的APP展现形式(都会变化)。
我今天讲的Agent,其实在解决很多APP展现形式的问题。
比如说携程,我们订酒店订机票是基于以前做产品“最大公约数”抽象设计出来的。你会发现说,大家需求很不一样。就像大家去旅行,以前可能穷游和有钱一点游,现在发现说大家游去一个地方的主题非常不同。如果每一件事情他的主观需求很明确,你用以前那种产品基于功能的产品形态就解决不了了。
所以其实最好的一个表达是Agent这样的技术能力。支持Agent的产品,带给了满足一代人新的心理、生活等各个方面的个性化需求。他们就碰上了。
所以今天不仅是RockFlow,包括美国很多人做Fintech领域的从业者,很多都是20-30岁的年轻人。因为他们的需求和这样的满足方式是非常Match。这是我的领域和锴杰的领域的共同点。
王兆洋:锴杰在接受我们采访时有提到,如果是100分的话,这个产品你自己给自己打8分,不是非常准备好的产品。我让Macaron给我做一个我看球记录的,我每次看完足球比赛,跟你说比分。但他做了踢球的很简陋的东西。
OK,Macaron这个东西很漂亮,年轻用户说情绪价值很不错,聊的也挺好的,他没有交付我想要的,我可能可以接受。
但RockFlow可以吗?
它给我的建议,让我亏钱了。不可能说这个产品给了我情绪价值我就不在意这个了。这个是非常现实的,也没有去回避的话题。
赖蕴琦:100分满分,我现在打分也就是5分、6分、8分这样的水平。
王兆洋:这也是我想聊的。产品不成熟的情况下,可不可以做增长?
赖蕴琦:回答您刚刚的问题:AI是做不了0到1的。
所以对于一个东西的看法和想法,开始一定是用户自己表达的。Bobby等所有产品,因为是有监管的要求,每一步会跟你确认的。他只是告诉你基于你问他的东西,告诉你一些相应的fact。
比如,你说帮我选个牛人我直接跟单。我发现最后跟单,其实是最大的需求。在你表达这个需求以后,他会给你结论、告诉你推导的过程、你要确认,所有的下单是有两次确认的。
所以这个场景反而好做,因为监管是有明确要求的,你就按它的方式做就好了。
就刚才讲到的,我不是帮你做选择,而是在你的逻辑下我告诉你:你的想法,对应的在投资中的Action是什么。
王兆洋:很讨巧啊,按照金融监管的方式,一个有交易属性的产品不太好讨论情绪价值,也根本不能像刚才那样说我在饭桌上一个建议就能让你赚20%。但现在我是金融+AI了我可以把这些都甩给AI了。
语核和Flowith可不可以互相替代?
王兆洋:Flowith是自由画布,它是你们首创的东西。背后也隐藏着一件事情:刚才说的后来发现有不错的场景,非常适合用我的这个产品去做干嘛不做?在B端里面,刚才我们说的简称为数字员工的话,Flowith是不是也可以完成这些任务?反过来也是,如果你能够把一个垂直的领域抽象的很好的时候,是不是也变成了跟生产力相关的,另一个版本的Flowith?
翟星吉:我觉得完全没有太大的关系(笑)。
王兆洋:没有关系是说它也替代不了你,你也替代不了它。
翟星吉:对。Neo之前弄的无限画布的交互,我蛮喜欢的。本质上它跳脱出了大家对ChatBot或者Chat UI的一种交互的惯式——这是我们很认可的,我觉得Agent不一定是要通过Chat去展示,它可能有许多更加适合于它特定场景交互模式和交互方式。
我们的垂直Agent,很多时候它的要求不是一个Chat,可能是通过GUI触发。我觉得我们俩可以借鉴的地方,但从本身从场景或者产品来讲,我觉得完全可能没有任何的、潜在的、可以被替代的可能性。
拐子:我想Cue一个词,是我们今天一直在潜移默化地提的一个词,Taste。
无论是Macaron、RockFlow,还是语核,我觉得我们的taste都是好的,但都是不一样的。我觉得我们的Taste跟团队的基因有点关系——首先我们几个人都挺特立独行的。
我们2023年开始做画布,Derek发Neo的时候,他发了一条即刻,说人们根本不知道我们当时有多痛苦。
非常痛苦:我们大概有两万个内存用户80%的差评率,就是这么恐怖。
画布是天然不被人所喜好的一种交互方式。我们还是更喜欢微信的聊天框,用小红书,各种各样的社交软件。我们是被传统的GUI“去个性化”了的。但我们出发点是不一样的。我们还是觉得人和AI最终交互方式应该不是这个东西。我们想做一种新的尝试。
基于此,这条支线上还有很多(探索)。我们觉得Agent是未来的方向,我们觉得还会发生什么,(这也是)我们为什么要做知识库、Agent,我们为什么要做这些东西。
我觉着围绕着最开始Flowith这个名字诞生,因为我们想,人的思维是多线程的,我们觉得AI未来的思维好像只有多线程才可能去创新。
当然,你说要在专业领域场景当中,B端或者量化交易场景当中,我们是不是应该解决幻觉?我觉得是。但我觉得古往今来优秀的设计师,比如说第一个造出来苹果,或者造出来最近IOS新版本的液态玻璃的团队,好像都在画布这种场景当中更容易发生,这是人机协同的平台。
画布当然现在被我们验证了,可能(今天)有很多产品在做画布的东西。
我觉得我们跟语核本质上在做完全不一样的事情,出发点不一样。
可能未来我们做Agent可能做得很好,或者很差。但我们都还会想,我们出发是因为要做画布这样的东西。
我们最近其实回到画布了,我们做了很多画布新的东西,会在下一版本里面去更新。
王兆洋:你说新的版本,哪怕是声音进入,也是在自由流动在画布里?
拐子:我觉得不能算完全自由画布,因为Neo的生成像一个尚方宝剑一样,一直往下(流)。
我们想做到一个是Agent既重要又不重要的一种感觉。
从产品理念上来讲,用户在打开一个画布上,会有打开一个Figma/profile文件组的一种感觉。比如说,我是设计师,今天要为硅星人这个活动要设置一组UI,加上小红书图文加上公众号图文的东西——你可以在一整套画布做完。
你可以调用不一样的工具,可以是Agent,也可以不是。你可以打组,或者有细胞有丝分裂的感觉。这些小红书(之类的成果)我可以喂给下一段Agent等工具,变成更加自由的画布。你可以是跟GPT聊天得出来的结果,你也可以是跟Agent聊天得出来的结果。
(用户)在画布上更加自由——无论是语言输入、图片输入、视频输入,都显得不重要,我们会让它更自由一点。
而且UI、审美这些东西,我们团队还是比较注重的,因为我们是纯做C端的。尤其刚才我们在讨论,AI用户趋于年轻化,大家对审美要求是非常高的,所以我觉得有一个审美的产品还是非常重要的。
“Agent公司也配谈AGI?”
王兆洋:下一个话题。除了模型的一些技术之外,Agent这些公司在技术方面到底做什么样的事情?或者你们重点放在哪里?
我发现有一个很有意思的现象,很多去讲PPT的时候还会引用一张图,应该是两年前Lilian Weng文章里,最早列出来Agent的结构:中间是Agent,上面是Memory,下面是Action,左边是Tools,右边是Planing。
我很好奇,这个东西是不是已经过时了?如果没过时,按照这样四个区分的话,你们觉得现在技术上,更需要突破的是哪个?
刚才也提到很多,Context这边需要突破。Manus CTO也发了一篇影响比较大的,讲上下文工程里面做的脏活累活。各位可以跟大家分享一下。
陈锴杰:我觉得今天的核心点不是那四个模块在专注什么,因为反正大家都在做。
今天的技术上的核心点其实是:你在做Context engineering还是在做Reinforcement learning。
基本上是两个大的派别,然后Context engineering其实代表的就是Manus他们做的很多东西。这里面其实他有很多的论点,可能最重要的论点就是,你如果做Context engineering,你的迭代速度非常快。你可以“以天为单位”来修改你的提示词、你的Work Flow、你的公司调用。
王兆洋:从技术角度,好像AGI只有技术模型才能实现?
陈锴杰:首先AGI已经实现了,如果你对AGI的定义是图灵测试,或者能够完成复杂任务。
(否则)要实现怎么样才算AGI呢?上路开车,还是要帮你把家里收拾了。
这个AGI一会儿再谈。回到Context engineering和Reinforce machine learning。Context enginnering代表派别就是Manus,然后Reinforcement learning的代表派别就是,(OpenAI、Anthropic先不看,DeepSeek、Kimi肯定是做的),从纯应用公司来看就是Tinking Machine Lab比较典型一点。他们做的也是比较偏后训练Reinfocement learning这块。
这两个的特点其实不太一样,如果你觉得做Context engineering肯定很快,是没错,它的缺点你的整个系统优化不一定是向着唯一的函数去走。
做engineering最常出现的问题就是翘翘板。当你把某一个问题用某一种流程按下去之后,它在另一个特性上表现开始变差。比如说时间变长是最常见的tradoff,或者模型要变贵才能解决一个问题。或者是当你把模型注意力关注到某一个方面的时候,在另一方面自然而然效果会发生变化,或者体验会发生变化。这是Context engineering不好的地方。
强化学习反过来好的地方很明显,你只要有一个唯一指标,你这个指标就能不断被模型优化迭代。但这个唯一指标很难定,就是你得找到最好的题目,不管是你要写代码,还是要解数学,这个题目得出的好。
算法其实也不容易,你要在700B的模型(DeepSeek671B)的模型上做强化学习,你要攻克的难关是非常多的。今天国内可能只有DeepSeek、Kimi、字节,比较能证明在(可以)在这么大的模型上做强化学习。可能很多大家看到的其他公司其实做的都是更小规模的强化学习。
所以它本身这个技术是难的,找到指标是难的,但是对指标的优化是非常自然而然的事情——有点像抖音推荐视频会自然而然推荐的越来越准。
这里面当然也有一个和刚刚Context engineering的对照,它的时间会更慢一点,除非你做很多优化——像我们为了做应用,其实是在牺牲了一些准确度的情况下,把算力的计算量和卡的需求量砍到了原来的1/10,流程化学习,牺牲了一些效果上,但是把训练时间砍断了,比起3-6个月,我们大概2-3天能训练一次。
王兆洋:其实Macaron大家太多关注粉色泡泡,而不关注你后面怎么调校的问题。
陈锴杰:对,因为这些东西用户看不到,要不是问到我也不会主动讲。
后面为了把训练变快,跟上用户的迭代节奏。我们发布到现在大概一个月,这一个月里面已经迭代了很多个版本和功能。为什么能做到这样?就是因为我们强化学习是牺牲了一点之后,做了很大的效率优化。
所以我觉得这两个是今天重要的对比,而不是我在做哪个方向。
最后谈一个AGI。我觉得今天已经AGI了,今天我们不是Work toward AGI,已经都是Work from AGI了。我们要用AGI来干什么?当然你也可以说AGI是要干嘛干嘛才能AGI,我觉得那些都不是很重要。
今天AI已经不是很强,但是一直在进步,进步的也很快,在这个里面到底做什么价值、做什么场景其实我觉得更重要——比起我们配不配这个问题。
王兆洋:我觉得这个还是很有意思,如果认为AGI已经实现了,(然后)去做一个产品的角度,可以更好的理解Macaron为什么长这个样子。
陈锴杰:对。今天做的小应用,像刚才说的,要记观看足球,记成踢足球,这是今天它不够聪明的体现。但我相信所有人对AGI的相信是:这个问题今年不解决,明年也会解决,要不然后年解决,它不会太久。
拐子:你刚才说的那个四宫格,有点像我们的底层架构那种感觉,大家或多或少follow这种模式去思索。
刚刚Macaron也说了,有几个大家比较关注的点,以及有两个主要方向,我是比较认可的。
我分享一下,在Context Engineering这条路上,我们也是比较典型的代表——我们上次发了Neo,主打无限上下文。我承认这个无限肯定有营销的噱头在,但它的上下文突破,肯定是传统模型的十倍百倍都有可能的。因为我们也做了非常多的工程优化。
我分享两个小点:
一个是当时我们在设计产品设计的时候,我们想了一个场景:人是怎么写论文的?
写论文是先去做Literature Review,然后再写Body Paragraph。你引用了很多文献到里面,最后才写了最后一个自然段和最开始的自然段。一切不是按顺序出发的。而且你在写完这些之后,会分门别类的把每一个顺序去进行修改。
这就引出了我们当时产品最想有的逻辑:首先,你工作不一定非要按照我们传统AI工作的方式去做,你的思维结构是可以被打乱的。按照更符合完成这个任务的指标去做。这是你Agent当中在Context部分需要衡量的事情,不同任务的步骤是不一样的,但是AI是不知道的。
第二是,你在最后完成这个任务之后需要Refine。
现在这个产品很多都有了,像Cursor写完代码后会优化。但是在优化的过程中你会发现,代码优化的轮次过多,你模型上下文的Token就会爆炸,会很贵。
这个地方你到底要做什么样的工程优化?选什么样的模型?什么样的任务场景?会要做非常多的任务适配任务场景。
而且这个Refine也不是那么好做的——什么时候需要Refine什么时候不需要Refine?是主动发起,用户发起,还是我们发起?这个东西都是工程当中需要做的特别多的地方。
这个Refine模型我们都做了快一个月左右。要做的好还是要做很久的,因为要测很多场景。
我觉得还有一个点,在tools上,tools其实就是MCP。MCP的概念很火,我帮大家科普一下:在我的观念里,MCP就是螺丝钉的型号,统一了螺丝钉接口,让所有螺丝钉都可以用在这个凳子上。
大家希望有更多的tools出现,MCP这个生态虽然火了,但很多问题依然没有被解决。
比如说,我想拿到特定场景的信息,或者有更优质的信息源。我们现在很多tools都是在解决一个问题:我们想获得更多的信息,无论是Browser Use、Computer Use还是Phone Use,或者说是爬虫、RPA或者其他东西,其实最后很重要的问题就是需要获得优质、精准的信息来源。
(这里)一方面技术要解决,一方面刚才说的Context要解决的事情。
在技术上要解决的话挺难的。有刚刚像Macaron说的,时间的问题。Computer Use、Phone Use是非常耗Token,成本非常高的事情。而且在未来,可能不太科幻的事情。
因为你很难想象Agent或者模型足够强了,你让它操控一台显示屏——因为它完全是基于人类的显示器交互方式去做的。但如果我们把显示器去掉只留一台计算机的话,好像我们可以是去使用的。
在这些tools选择以及我们要不要自己做tools,这就是Agent公司需要做很多的事情:因为有可能,你做一个tools之后,第二天模型给推了一个更牛逼的出来,直接这个tools就白费了。很有可能发生的。
做什么tools,什么tools可能大模型厂家会做,什么tools他们不会做?我们这个时候只考虑文字模型,还要考虑图片、视频、3D各种多模态的模型?甚至以后,比如像Genie这样的世界模型出现之后,这都是你Agent生态当中的一环,它们怎么样符合你架构当中的一些东西?
这一方面是模型的事情,一方面是你对tools的(把控)事情。
翟星吉:我觉得这个问题本质上,其实是大家的场景不一样,就是所有在自己实践里面都碰到不一样的点,大家努力的方向都不一样。
像我们我们把它分为三层吧。
第一层,其实很多时候是被忽略掉的。特别是To C的Agent,(容易)被忽略掉的内容的解析能力。
不管是复杂的各种Excel的各种文档还是流程图,还是各种音视频的录音录屏等等一系列的东西,看起来要读它模型好像很简单,实际上很难。
因为人是一种复杂的生物,人在看到信息的时候是会进行大量的推理工作的。举个例子,我们常看各种PPT,PPT里面就有很复杂的各种架构图,就是第一层、第二层、第三层,横着看竖着看,这是我们很经常人类去用的表达方式。但事实上现在模型对于理解这类信息的能力很差。
再比如说,有个人去讲PPT,录了个屏。人再去听的时候,一方面要看这个PPT本身的信息,另一方面还会看这个人讲的信息,再综合起来,再去推理、再去思考,得到它的信息。
这其实都是我们在很多方面的第一个点:最基础的点,叫内容解析能力,这是经常被大家忽略,但事实上如果你在对一些对结果准确率要求很高的场景下,这是会很难很难的一类要解决的Case。
第二层,跟上下文管理相关的。
我们会在不同的方向去做一些努力,除了常规的上下文管理以外。
举个例子,在一个岗位工作里面,人类去用不同的资料,它的组织方式是不一样的。就举我们产品里面的例子,比如说我们是一个解决方案专家,他需要常用到的资料中:
一类是公司介绍、产品介绍。这样一类PPT的介绍信息,它里面的每一个段落、每一页片子的上下文跟前面后面的逻辑关联性是没那么强的。
还有一类,可能面向某一个案例做了一个最佳实践,做了一个PPT的标杆案例。它是一个很完整的内容,是最开始介绍客户本身是什么,然后介绍客户本身的背景、痛点,然后再是路径、客户的评价最终的效果等等一系列的东西——它是很完整的上下文,不能从里面任意的拿一点信息出来去随便用,必须要被重新的组织,被重新的架构。
对于这两类信息,其实大家如果真正在做Agent的过程中就会发现,其实人类在处理这两类信息,不管是在去初次理解它的时候,还是在理解完了之后再加工再输出的时候,人的逻辑都完全不一样。
这就意味着,其实我们要在一些特定场景下,一个垂直的岗位下,要把Agent做好,你要预知很多你面向这个岗位本身能接触到的一些知识和信息的理解。把你的理解,转变成所谓的“信息的构建”和“组织生成的方式”的一些预制算法也好、逻辑也好,然后让它可以变得开箱即用——这是保证准确率很重要的前提。
第三个层面,你的Agent里面,我相信大家不管Macaron还是Flowith应该内置了一些workflow的tools。
这个是大家对某些场景的先验知识的封装。
因为在某些场景下,人类是有足够的先验知识,能稳定的以很高效的方式去输出的。大家在这个场景里面就会积累大量的先验的路径,把它封装成一个tools,类似MCP的东西,然后再给你上层的Agent去调用。
这也是大家在各自里面做了很多的工作——包括你把它封装成一个Work flow可能就是很基础的工作,有很多场景封装不成Work Flow,你就需要做更大量的工作去保证它的泛化性。就要去涉及到数据的标注,数据的合成等一系列其他的工作了。
王兆洋:RockFlow最后讲讲我们就结束了。
赖蕴琦:我快速总结一下,前面几位在技术层面上表达很多了。这个事情的本质要因你的业务场景而定。所以你其实理解你的业务场景中要定义的关键问题是什么?然后基于这个关键问题去找最重要的,最好解决的技术方案,或者最关键的技术点去提升它。
比如刚刚讲的Agent,Multi-Agent,我们的架构设计中高度抽象、分很多不同的具体的场景。但像刚刚讲到的下单,计算购买力这些明确的事情,(Agent)不需要太发挥,它一定是一个很明确的work flow,而且它越不发挥越好。
现在还没有在RockFlow交易的话,你问的很多问题他(Bobby)是有想象力的,(这些是)不能把它写死在Work Flow里面——所以他应该有可创造的可能性,我们不能用产品去表达定义这个需求。
所以,(问题的)核心就是抽象你场景的需求,(然后)去定义这个需求中关键的问题,(最后)去解决到底用哪几个关键技术点去解决是最好的。所以,我觉得对每个公司来讲还是匹配你业务和场景的一个问题。
我再说说第二个问题,我觉得AGI一定会到来的,我非常同意。
整件事情,技术上的进步不是今天就是明天,不是后年就是大后年。
我们现在能做的,所有在座的各位,所有我们能做的事情,就是我们只要在今天的技术水平上,尽可能地把我们能给用户提供的产品提供出来,我觉得这件事情就非常值得大家互相鼓励。所以还是这句话,我觉得勇敢者先享受世界。
本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),整理:郭海惟