时隔一年,我们又和墨现科技创始人匡正聊了聊当下火热的具身智能赛道。
虽然并不直接参与机器人的整机开发,但作为上游触觉传感器供应商,下游技术路线的任何变化都决定着墨现的研发投入方向,所谓“死生之地,不可不察”,这也让他能以相对中立的视角审视这波具身热潮。
以下是对话实录,由险峰整理(有删减):
一、“今年新出的灵巧手,都开始带触觉传感器了”
险峰:听说你刚才WAIC参展回来,感受如何?有看到什么新的东西吗?
匡正:最大的感受就是机器人太火了,WAIC一张399的票炒到2800块,WRC门票会便宜点,所以全是带着小朋友的家长,人山人海连过道都挤不过去,谈事情只能约在旁边的星巴克。
新东西就是看到一些硅谷团队带来了一些新的训练方法,包括新的数据采集形式,或许能进一步提升灵巧手的泛化能力,对我们传感器行业也会产生影响。
另外就是感觉中美创业团队的差异很大,国外大部分是以研究型为主,更to大B,更关注算法,相对共识也比较多;国内是政府主导为主,更关注硬件,你用绳驱我就用丝杆,你用丝杆我就用磁驱,总之每家的方案都不太一样,非常强调差异性。
险峰:国外团队更偏研究型,是不是因为融资更容易,或者说不像中国这么卷?
匡正:有可能,之前我参加一些硅谷的学术会议,结束后美元投资人都会问一些技术问题,比如某个参数应该怎么调,很像我们在大学里听完老师的课后,再追一些自己的疑问和想法,但国内还是偏市场化的问题多一些,比如你这个东西几年能落地,跟另一家有什么区别之类。
可能这也反映了两国创投生态的不同,在硅谷几个人做个不错的小算法,可能很快就会被大公司买走,几个月后这项技术就会出现在某个巨头身上,典型的就是OpenAI之于微软,但是国内这种纯软件模式就比较难,上一波AI四小龙也是依托政府订单崛起的,马太效应非常明显,对小团队不够友好。
险峰:触觉对机器人是刚需吗?之前有人认为触觉传感器还不成熟,有效数据太少,在模型中的价值不高,靠纯视觉也可以解决,现在有什么改变吗?
匡正:今天这种声音基本没有了,现在的灵巧手如果不带触觉,已经很难卖得出去了,技术上比年初收敛很多了。
最近学术界特别关注GLA的模型,很多论文都是和触觉相关,因为大家发现从底层逻辑上,只靠纯视觉是不行的,就像我们没有办法通过看林丹的视频,达到林丹打羽毛球的水平一样,纯视觉AI会产生非常多的幻觉和corner case。
举个例子,比如说剥鸡胸肉,对于人来说很简单,但对灵巧手来说还挺难的,因为它的质地有硬有软,纯视觉很难判断哪里是骨头哪里是皮哪里是肉,但如果给灵巧手加一些触觉传感器,差不多就可以做到人类70%的水平,把一个鸡胸肉相对完整地剥下来,效果还挺惊艳的。
现在走纯视觉路线的灵巧手,很少有成功率能达到70%的,但如果是用触觉+视觉,70%成功率可能就只是下限,所以慢慢大家觉得,既然有一个更好的方案,成本上也没增加多少,那为什么我不用呢,至于剩下30%的corner case,可以靠堆数据慢慢解决。
其实类似的故事已经在自动驾驶领域上演过了,之前特斯拉的FSD坚定选择纯视觉,后面也悄悄加入毫米波雷达。所以最终还是一个成本-效率的平衡问题,核心还是你的硬件成本要足够低。
险峰:年初我们聊到灵巧手皮肤,当时墨现的价格还挺贵的,刚过去大半年,为什么能下降了这么多?
匡正:其实是因为数据质量的需求降低了。
去年大家对精度的要求非常高,一根手指300~400个触点起步,包括那时还有一些很奇怪的需求,有些客户会要求增加温度和湿度传感器,让灵巧手能大面积感知湿度和温度,还有客户要求触觉必须具备三维力度的感应,每一个像素点都要反映x、y、 z 三个方向上的力度。
但今年这些需求都开始收敛了,大家发现精度并不是泛化的关键,实际上人手也没有很精确,人类的触觉说到底也是一个黑盒,我们并不知道手感是怎么产生的。
所以目前的共识是,有没有触觉数据,模型差别会很大,至于数据是来自50个还是500个触点,对模型似乎没太大影响,那不如我先用廉价数据做training,以后的问题以后再说,大家对于触觉数据的探索还没有进入到深水区。
二、“泡沫破灭的另一种表达也叫技术收敛,我希望这一天早日到来”
险峰:今年很多投资人都提到具身的泡沫问题,对此你怎么看?
匡正:其实我也有同感的,可能明年泡沫就会破,但这是好事,泡沫破灭的另一种说法也叫技术收敛。
比如波士顿动力很早就开始研究四足和双足,领先国内很多年,但现在你拿今年宇树或智元的demo,和早期波士顿动力的那些视频做对比,甚至是和去年宇树自己的视频作对比,都会发现已经有了质的飞跃。
这波AI大模型的进化,把中美在机器人硬件上的差距基本拉平了,这是个事实,整个行业也是在加速向前走的,不能因为有泡沫就否定它。
其实任何行业必然会经历泡沫化的过程,最开始自动驾驶也有各种各样的技术路线,比如纯视觉还是激光雷达,大家吵了好多年,激光雷达也分好几种,有装在前面的,也有装在侧面的,有会转的,也有不会转的,但今天所有智驾方案都长得都差不多。
只有技术收敛了,距离商业化才会更近,只有下游需求统一了,上游才能赚到钱。如果具身的泡沫破裂了,对行业里所有认真做事的人都是好事,我希望这一天早点到来。
险峰:但那些展会上的小朋友,他们可能真相信机器人很快会和真人一样了,并不知道机器人背后有个真人在操控。
匡正:怎么说呢,我觉得情绪价值也是价值。记得小时候我去动物园,看到新奇的动物也会很兴奋,幻想自己有一天能在家里养一只熊猫,或者养外星生物之类的。
现在的机器人展会也可以理解成一种赛博动物园或者赛博庙会,对普罗大众而言,至少它提供了一种情绪价值,教育小朋友要从小爱科学;厂商也找到了新的增长点,卖出去了更多的机器人,获得了更多的社会关注,对行业发展和科技创新都是好事,至少没有人从中受到伤害。
现在机器人确实还无法脱离人的控制,比如特斯拉发布会上,机器人可以倒酒,可以包爆米花,背后确实都有人在遥操,但AI也不是纯粹在执行人的序列,它也会试图理解你想干什么。
比如你操控机器人撞向一个障碍物,它会主动保护自己,停在安全距离内,而不是直接撞上去,你可以理解为是人在辅助机器人做一些序列拆解,这种机器人前期效率一定比人低很多,但可以通过数量弥补,比如你可以把操作中心放在墨西哥,雇三个墨西哥人远程遥操的三台机器人,算下来可能还是比一个美国工人便宜。
具身智能的发展不可能一蹴而就,它会像自动驾驶一样,有一个个台阶,作为从业者,我们其实更关注现在脚下的台阶,以及下一步要迈上去的台阶,就像L2的辅助驾驶,你不能说现在做不到L5,它就没有价值,至于未来具身智能进化的最终形态是什么,这类宏大叙事反而是最不重要的。
险峰:你觉得现在的人形机器人属于L几?未来会发展到L几?
匡正:如果人形机器人可以到L3,自动驾驶一定能到L4或L5,因为前者的复杂度要高得多,现在可能是在L1.5到L2之间。
险峰:机器人一定要做成人形吗?也有人认为工业场景下,双手+轮式可能更合适,你认为哪些应用是现有技术下可以快速落地的?工业or家用or军用?
匡正:我觉得人形的前提一定是通用,逻辑上,如果你做了一个人形,但又不通用,那其实也就没有必要做成人形。
双足的最大优势就是越障能力强,但工厂里很多工位都是背对背的,一转身就到了下一个工序,这种动线设计本身就是减少工人的运动距离,实现生产效率的最大化,我觉得完全没必要做成人形。
从这个角度讲,未来一些低价值的制造业场景,如果追求绝对的低成本,可能两条灵巧手+台架就足够了,连底盘都不需要。
还是用剥鸡胸肉的例子,现在一些带力反馈的工业机械臂,也能实现简单的剥脱操作,只是价格很贵,单臂要卖到10万~20万人民币,但是如果是用双手方案,只配两只手+两条臂,算上改造和预训练的成本,一套两部协同的灵巧手完全可以做到10万以内,一些简单工作完全没问题,还可以快速部署,成本比工业机械臂低一半,在制造业领域应该会有挺大的应用前景。
服务机器人的话,家用可能还有点早,一方面大部分人家里没有那么大空间,另一方面你服务的人群是老人小孩,容错率很低,现在雇个菲佣也不贵,还可以教英语,还能提供情绪价值。
但一些重复性场景,比如酒店清洁,因为每个房间都长得一样,一台机器人是有可能来回穿梭最后把所有房间都清理干净的,当然也需要一个人辅助它处理cornercase,类似于早期的auto taxi。
相比之下,军用反而是最有想象空间的,因为军用对于算法要求比较低,未来机器人上战场都不用拿枪,双足底盘捆上10公斤TNT,冲进堑壕就炸,比无人机更好用,技术上也完全可以实现。
三、关于遥操的争议
险峰:今年越来越多机器人厂家开始重视触觉,是不是因为特斯拉的先用了触觉?另外Optimus一直没有量产,是不是也意味着技术上依然存在不少困难?
匡正:行业里都会盯着特斯拉怎么做,技术上我跟他们交流也比较多,但其实现在Optimus还处于研发阶段,并没有马上量产的规划,所以他们也不着急,另外特斯拉内部对视觉+遥操路线也有争议,不排除后续可能也会有较大的调整。
险峰:为什么遥操路线会有争议?
匡正:首先是数据收集,无论是特斯拉还是宇树,之前用的都是动捕+RL模型(Reinforcement Learning),就是让真人穿一套动捕的外骨骼,通过强化学习把数据喂给AI,最后生成动作序列,但这种模型的通用性不高,难以产生泛化能力。
比如宇树的机器人,它可以记住某个动作,可以表演跳舞或者格斗,做出很漂亮的后空翻,但是它并不知道什么时候应该后空翻,没办法跟某个具体事件产生交互,或者说无法自主产生动作的变种来适应环境。
另外摇操训练出的动作也是不自然的,你可以想象一下,一个人带着VR眼镜,把一个小夹爪想成自己的手,远程给客人倒酒,动作的识别和效率都会变低,真实性要打不少折扣,所以一些特定的任务,可以通过摇操作实现,但某些连续性的任务,有动作拆解、分步骤的,现有技术还很难做到。
当然,你也可以说是因为数据量还不够多,比如自动驾驶就是人形机器人最简单的使用场景,你可以把汽车当成一台机器人,它的输入只有视觉图像和雷达的数据,输出只有前进后退左拐右拐。
特斯拉用了几百万车主积累了很多年的数据,才训练出了现在的FSD,所以如果我们认为,Pre-training(预训练)是一条正确的路径,那现在距离最终结果还差非常大的数据量。
大模型只能处理一些语言和图像问题,但机器人要面对的是整个物理世界,与真实数据产生互动和关联,所以哪怕是一些看起来很简单的工作,比如剥鸡蛋,分拣物品,已经是非常泛化的需求,所需的数据量依然是非常恐怖的,而且很多数据也不能复用。
你可以把遥操理解成是人类通过一套动补外骨骼,远程遥控一只真实的机械手抓东西,它产生的数据只能用于训练这只手,假设明天我换了另一只手,型号参数改变了,所有的数据都要重新训练。
再加上大家在硬件上还没有形成共识,比如用绳驱还是丝杆,电机是前置还是后置,包括对自由度的讨论,五指四指还是三指,都还有比较大的争议,导致这部分数据的积累非常缓慢,目前最大的共识可能还是先降成本。
险峰:为什么降成本最后成为了共识?
匡正:一只6个自由度的灵巧手,价格大几千元人民币,只要不是用来弹钢琴,一些简单的工作已经完全够用了,特斯拉的目标其实很简单,就是用机器人代替人进厂拧螺丝,一个工人的时薪是确定的,所以单台机器人的成本上限就成了数学题,手自然就不可能卖得很贵。
比如特斯拉的demo中,他们会训练让机器人抓电池,但其实你把五指换成三指,好像也没太大影响,我们刷短视频也能刷到过,一些收纳博主也能用小夹爪叠衣服,所以又回到了问题的原点:如何在成本和效率之间做平衡。
险峰:类似打螺丝这种比较细致的工作,6个自由度的手可以胜任吗?
匡正:打螺丝并不算很细致的工作,现在工厂打拧螺丝早就不用手了,只需要你握持一台电动工具再按下开关,螺丝刀自己转几圈都是调好的,多了少了都会报警,甚至未来完全可以给机器人定制一套工具,技术上并不难解决。
反而是一些人类认为很简单的工作,比如给汽车座椅包覆皮套,工人要把手伸进座椅里,掏一根类似于type-C的线束,这中间你的手会碰到各种各样的管路、支架,最后从一大堆线束里,准确地把那根 type-C 掏出来,而不是USB或者其他接口的——类似这种工作,一个熟练工人闭着眼就干了,但是对机器人来说就挺复杂。
因为所有的线束都是软的,你挪其中一根,其他线都会跟着动,同时周围的环境也非常不确定。这是一个非常复杂的操作序列,跟解题一样,需要AI实时思考下一步应该怎么走;总装环节有很多类似岗位,我觉得很难完全用机器人代替,或者说性价比不如真人。
反而是焊接打螺丝这类固定动作,非常好实现序列化,但只要是稍微涉及到泛化场景,哪怕光照、位置有一点变化,现有的模型马上就不行了。
险峰:所以要训练出真正的通用机器人,多少数据是够的?大力出奇迹是可能的吗?
匡正:同样的问题我跟很多同行交流过,得到的答案比较统一,就是等学术界发paper,大模型本身肯定还有一些问题,需要出现一些新的idea。
现在大家也在尝试各种各样的新方法,有些也很有意思,比如迁移模型(Imitation Learning Model)。
它的逻辑是说,既然人类可以通过摇操去控制一个夹爪,意味着我们的大脑完全能够理解人手到夹爪的动作映射,那我可以先训练出一个手的模型,比如让一个工人戴着手套,抓取各种东西,收集他的视觉+触觉+关节位置的数据,这时你会得到一个模型A,但这个模型A和机器人其实没有任何关系,它学会的是人手如何抓东西。
这个世界上有70亿双手,每只手的动作都差不多,意味着只要我收集的数据足够多,理论上可以把模型A打磨得非常完美,然后我在模型A的下面接一个模型B,B负责把人类的动作转换成夹爪的动作。
要注意的是,这个夹爪此前从来没有做过任何的训练,但它能够被上一层的模型A所控制,未来这个模型B可以换成各种不同型号的机器人,底层硬件参数完全不一样,但已经不用再从头训练一遍,在一定程度上就实现了通用性。
当然这还只是一个理论,还没有人真的做出来,但国内已经有两三家公司在尝试,可能近期就会发一些papar,我觉得这是一个非常好的趋势,之前可能大家把太多精力都放在硬件上了,包括很多拥有资源最丰富的大厂,但其实宇树的硬件已经做得足够好了,从操控性到灵活性,只要你能想到的动作,它的机器人一定可以做得出来,在硬件上中国已经非常强了,真的没必要再卷了。
反而是一些基础性问题,比如手的端到端控制,以及长程任务的训练,今年大厂才陆陆续续有一些尝试,反倒是一些小团队做得更好,比如前几天我看了灵初的机器人打麻将,虽然动作很慢,也没那么流畅,但是完成度很高,从抓牌、理牌、出牌,起码能把一件复杂任务从头到尾干完、且保持较高的成功率。
上一篇:消失的跆拳道培训