从“记录”到“理解”,vivo 的影像进化论
创始人
2026-03-29 12:22:38
0

算力的尽头是电力,电力的尽头是什么?

当算电协同终成现实,大模型以光速吞吐文字与代码,人类或将迎来思维生产力的奇点时刻。然而,当下再强大的AI模型,始终没有走出数字世界的五行大山:读懂了万卷书,却走不出一里路;能推演斗转星移,却识别不了前方的障碍物。

在博鳌亚洲论坛2026年年会上,vivo总裁、首席运营官,vivo中央研究院院长胡柏山给出了答案:“算力终将普及化,感知才是护城河。”

01 当下AI的困境和探索

3月24日至3月27日,博鳌亚洲论坛2026年年会在海南博鳌召开。vivo连续第五年作为博鳌亚洲论坛战略合作伙伴,携前沿技术成果和旗舰新品亮相本次峰会。会议期间,胡柏山作了《影像为径,智及万物——AI与物理世界的“对视”》主题演讲,系统展示vivo的“影像+AI”战略规划:

成立内部重要的一级支撑技术赛道——“感知赛道”,以影像为基础构建感知系统,助推AI普惠物理世界。

什么是感知能力?当前,AI处在语言能力、推理能力的爆发期,翻译、搜索手到擒来;感知能力、创造力正在加速发展,能够快速分析、创作图片和视频,但空间感知能力还很弱;规划、行动能力处在起步阶段,还不能熟练地避开障碍物行动。

举个例子。现在的AI工具能够识别“这是一只猫”,仅此而已;具备空间感知能力的AI工具能够预测猫跳跃的轨迹、捕捉猫流露出来的细微情绪。

这些能力越往后,实现难度越大。现在,不少科学家和科技公司正在全力以赴搭建AI的空间感知能力:一方面,通过三维建模,让AI从“识别是什么”升级为“理解在哪里”;另一方面,让AI掌握推理、决策、执行物理世界任务的能力。

AI教母李飞飞在去年就提出“世界模型”观点,强调其不仅具备生成感知、几何与物理特性高度一致的虚拟世界的能力,而且具备多模态处理能力和动态交互能力,推动人工智能从处理抽象符号向理解物理世界的根本性转变。

走得最快的是智能汽车和具身智能机器人。它们通过空间识别能力,进行高阶辅助驾驶和精密操作。

02 时代趋势和企业使命

问题是,vivo作为一家手机厂商,为什么要在友商拼命卷相机参数、把AI塞进语音助手的时候,选择在“空间感知能力”上发力?

一是行业趋势。未来人机交互入口将走向多元——手机只是其中一种形态,而非唯一。近年来,行业巨头苹果先是推出Apple Vision Pro,并计划在AirPods、Apple Watch上增加摄像头。其本质,是通过空间感知等手段获得物理世界的更多数据,并赋予更加多元化、自然化的人机交互。

同时,智能手机在数字世界能给人类提供的帮助,似乎呈现边际效益递减的趋势。体感最明显的是芯片年年迭代,计算能力、体验感受确实不断升级,但对普通消费者而言,几年前的手机似乎已经够用了。

这意味着,智能手机作为“数字工具”的天花板正在临近。除非某项颠覆性技术或体验出现,让手机能真正延伸到物理世界,实质性地帮助人类,否则更具革命性的工具终将取而代之。

二是企业理念。这种“延伸到物理世界帮助人类”的思路,与vivo一贯坚持的“以人为本”、“用户导向”是一致的。自动驾驶、家务机器人更多的是取代人,但vivo关注的是“更理解人”,去创造用户所需的产品,解决用户痛点。

三是优势积累。影像是vivo确立的长赛道,也是其领先于行业的优势。数年的持续投入,加上vivo以用户需求为导向,其X数字系列旗舰手机已经从演唱会神器进化为专业V单。

vivo在影像领域长期深耕,构建了行业领先的光学与图像处理能力。在此基础上,vivo Vision将空间理解能力从手机镜头扩展到人与环境交互的全新维度。由此,感知不再只是“看见”,而是真正理解空间。正是这套影像能力与空间理解能力的双重积累,使vivo在今天布局AI空间感知时,快人一步。

不仅如此,vivo在AI领域同样深耕近十年,在端侧大模型、影像感知、空间计算等领域积累了深厚的技术资产。这让它在这场竞赛里占据了双重先机。

03 眼光长远,沿途下蛋

实验心理学家赤瑞特拉(Treicher)的研究表明,人类83%的外部信息来自视觉。视觉是人与物理世界交互的第一通道,也理应成为AI感知物理世界的第一通道。

影像,正是这个通道的基础设施。它的底层能力远不止拍照,而是光学系统、成像处理、空间计算的全链路整合,完成物理世界的数字化投射与三维场景重建,让AI看懂场景、感知情绪甚至预测行动。

由此,vivo在今年正式确立了“感知赛道”,将视觉、听觉、触觉等多维感官信息,通过传感器结合感知大模型,系统性地转化为对物理世界的理解能力。在vivo看来,未来AI竞争的同质化将集中在“大脑”层面:大模型与大模型之间的差距会随着技术的发展收窄。真正的护城河,是更底层、更难复制的感知能力及其产生的数据。

有了清晰的长远方向,下一个问题是怎么落地。

vivo的答案是“沿途下蛋”。“不等所有材料准备好了才下锅”,而是边走边推,有阶段性成果就及时兑现。这背后是一种务实的产品哲学:能力可以逐步泛化,但起步必须聚焦。

第一站,是手机。手机是AI落地的第一现场。所有的用户数据、行为习惯、个人偏好,都沉淀在手机里。即将发布的vivo X300 Ultra和X300s,将具备影像Agent:镜头扫一眼环境,AI自动理解光线、构图、场景类型,为用户推荐最佳拍摄参数,一键出片。这不是滤镜,是真正的场景理解。

这只是其中一部分。vivo计划为不同产品系列定制差异化的Agent体验:X Fold折叠旗舰主攻办公与出行场景,开会时自动记录,出差时主动规划行程;iQOO性能旗舰则聚焦游戏Agent,实时优化性能、自动捕捉高光时刻。

手机,将从Smart Phone进化为Agent Phone。

第二站,是头显与机器人。vivo已于去年成立机器人Lab。外界或许觉得这是跨界,但vivo的逻辑很清晰:这不是跨界,而是回归本原。视觉是所有智能设备最自然的第一感知方式,手机、头显、机器人,本质上共享同一套“影像+AI”的底层能力。

MR头显vivo Vision,是空间计算的训练场,负责理解三维空间结构与几何关系,让信息交互突破二维平面。而家庭机器人,则是这套能力的终极承载形态。它将汇聚感知,并真正作用于物理世界。

但vivo对机器人的期待是清醒而克制的。“一开始就做全场景通用机器人不现实”,胡柏山坦言,“场景数据是逐步积累的,泛化需要足够体量的支撑。”所以vivo先从容错性更高的场景入手:宠物喂养、衣物收纳,允许“喂多一点或少一点”。这类任务才是当下技术真正有可能实现的。

手机与机器人之间,也不是割裂的两条线。手机存储着用户最完整的个人档案。当机器人在执行任务时,手机可以实时“遥控”与修正。就像自动驾驶的早期阶段,人类介入、数据积累、模型迭代三者同步推进。随着数据飞轮的转动,机器人的自主能力将逐步增强,直到真正能够独当一面。

从手机Agent到MR头显再到家庭机器人,这不是一张画大饼的路线图,而是一套搭积木式的能力叠加路径:每一层都站在上一层的肩膀上,每一站都有真实可交付的产品。眼光放在最远处,蛋下在沿途一路。

影像能力的终点,从来不是一张好照片。从拍得更好,到看得更懂,vivo正在用同一双“眼睛”做着两件事……

参考资料:

爱范儿:李飞飞万字访谈:空间智能是 AI 的下一个前沿领域

湾流经济评论:机器人就是未来的手机,这一巨头开局即王炸

虎嗅APP:承认吧,其实每个人都是视觉动物

科技日报:智能手机或将于2050年退场 之后人类如何通信交流?

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...