从“记录”到“理解”，vivo 的影像进化论_商业

从“记录”到“理解”，vivo 的影像进化论

创始人

2026-03-29 12:22:38

0次

算力的尽头是电力，电力的尽头是什么？

当算电协同终成现实，大模型以光速吞吐文字与代码，人类或将迎来思维生产力的奇点时刻。然而，当下再强大的AI模型，始终没有走出数字世界的五行大山：读懂了万卷书，却走不出一里路；能推演斗转星移，却识别不了前方的障碍物。

在博鳌亚洲论坛2026年年会上，vivo总裁、首席运营官，vivo中央研究院院长胡柏山给出了答案：“算力终将普及化，感知才是护城河。”

01 当下AI的困境和探索

3月24日至3月27日，博鳌亚洲论坛2026年年会在海南博鳌召开。vivo连续第五年作为博鳌亚洲论坛战略合作伙伴，携前沿技术成果和旗舰新品亮相本次峰会。会议期间，胡柏山作了《影像为径，智及万物——AI与物理世界的“对视”》主题演讲，系统展示vivo的“影像+AI”战略规划：

成立内部重要的一级支撑技术赛道——“感知赛道”，以影像为基础构建感知系统，助推AI普惠物理世界。

什么是感知能力？当前，AI处在语言能力、推理能力的爆发期，翻译、搜索手到擒来；感知能力、创造力正在加速发展，能够快速分析、创作图片和视频，但空间感知能力还很弱；规划、行动能力处在起步阶段，还不能熟练地避开障碍物行动。

举个例子。现在的AI工具能够识别“这是一只猫”，仅此而已；具备空间感知能力的AI工具能够预测猫跳跃的轨迹、捕捉猫流露出来的细微情绪。

这些能力越往后，实现难度越大。现在，不少科学家和科技公司正在全力以赴搭建AI的空间感知能力：一方面，通过三维建模，让AI从“识别是什么”升级为“理解在哪里”；另一方面，让AI掌握推理、决策、执行物理世界任务的能力。

AI教母李飞飞在去年就提出“世界模型”观点，强调其不仅具备生成感知、几何与物理特性高度一致的虚拟世界的能力，而且具备多模态处理能力和动态交互能力，推动人工智能从处理抽象符号向理解物理世界的根本性转变。

走得最快的是智能汽车和具身智能机器人。它们通过空间识别能力，进行高阶辅助驾驶和精密操作。

02 时代趋势和企业使命

问题是，vivo作为一家手机厂商，为什么要在友商拼命卷相机参数、把AI塞进语音助手的时候，选择在“空间感知能力”上发力？

一是行业趋势。未来人机交互入口将走向多元——手机只是其中一种形态，而非唯一。近年来，行业巨头苹果先是推出Apple Vision Pro，并计划在AirPods、Apple Watch上增加摄像头。其本质，是通过空间感知等手段获得物理世界的更多数据，并赋予更加多元化、自然化的人机交互。

同时，智能手机在数字世界能给人类提供的帮助，似乎呈现边际效益递减的趋势。体感最明显的是芯片年年迭代，计算能力、体验感受确实不断升级，但对普通消费者而言，几年前的手机似乎已经够用了。

这意味着，智能手机作为“数字工具”的天花板正在临近。除非某项颠覆性技术或体验出现，让手机能真正延伸到物理世界，实质性地帮助人类，否则更具革命性的工具终将取而代之。

二是企业理念。这种“延伸到物理世界帮助人类”的思路，与vivo一贯坚持的“以人为本”、“用户导向”是一致的。自动驾驶、家务机器人更多的是取代人，但vivo关注的是“更理解人”，去创造用户所需的产品，解决用户痛点。

三是优势积累。影像是vivo确立的长赛道，也是其领先于行业的优势。数年的持续投入，加上vivo以用户需求为导向，其X数字系列旗舰手机已经从演唱会神器进化为专业V单。

vivo在影像领域长期深耕，构建了行业领先的光学与图像处理能力。在此基础上，vivo Vision将空间理解能力从手机镜头扩展到人与环境交互的全新维度。由此，感知不再只是“看见”，而是真正理解空间。正是这套影像能力与空间理解能力的双重积累，使vivo在今天布局AI空间感知时，快人一步。

不仅如此，vivo在AI领域同样深耕近十年，在端侧大模型、影像感知、空间计算等领域积累了深厚的技术资产。这让它在这场竞赛里占据了双重先机。

03 眼光长远，沿途下蛋

实验心理学家赤瑞特拉（Treicher）的研究表明，人类83%的外部信息来自视觉。视觉是人与物理世界交互的第一通道，也理应成为AI感知物理世界的第一通道。

影像，正是这个通道的基础设施。它的底层能力远不止拍照，而是光学系统、成像处理、空间计算的全链路整合，完成物理世界的数字化投射与三维场景重建，让AI看懂场景、感知情绪甚至预测行动。

由此，vivo在今年正式确立了“感知赛道”，将视觉、听觉、触觉等多维感官信息，通过传感器结合感知大模型，系统性地转化为对物理世界的理解能力。在vivo看来，未来AI竞争的同质化将集中在“大脑”层面：大模型与大模型之间的差距会随着技术的发展收窄。真正的护城河，是更底层、更难复制的感知能力及其产生的数据。

有了清晰的长远方向，下一个问题是怎么落地。

vivo的答案是“沿途下蛋”。“不等所有材料准备好了才下锅”，而是边走边推，有阶段性成果就及时兑现。这背后是一种务实的产品哲学：能力可以逐步泛化，但起步必须聚焦。

第一站，是手机。手机是AI落地的第一现场。所有的用户数据、行为习惯、个人偏好，都沉淀在手机里。即将发布的vivo X300 Ultra和X300s，将具备影像Agent：镜头扫一眼环境，AI自动理解光线、构图、场景类型，为用户推荐最佳拍摄参数，一键出片。这不是滤镜，是真正的场景理解。

这只是其中一部分。vivo计划为不同产品系列定制差异化的Agent体验：X Fold折叠旗舰主攻办公与出行场景，开会时自动记录，出差时主动规划行程；iQOO性能旗舰则聚焦游戏Agent，实时优化性能、自动捕捉高光时刻。

手机，将从Smart Phone进化为Agent Phone。

第二站，是头显与机器人。vivo已于去年成立机器人Lab。外界或许觉得这是跨界，但vivo的逻辑很清晰：这不是跨界，而是回归本原。视觉是所有智能设备最自然的第一感知方式，手机、头显、机器人，本质上共享同一套“影像+AI”的底层能力。

MR头显vivo Vision，是空间计算的训练场，负责理解三维空间结构与几何关系，让信息交互突破二维平面。而家庭机器人，则是这套能力的终极承载形态。它将汇聚感知，并真正作用于物理世界。

但vivo对机器人的期待是清醒而克制的。“一开始就做全场景通用机器人不现实”，胡柏山坦言，“场景数据是逐步积累的，泛化需要足够体量的支撑。”所以vivo先从容错性更高的场景入手：宠物喂养、衣物收纳，允许“喂多一点或少一点”。这类任务才是当下技术真正有可能实现的。

手机与机器人之间，也不是割裂的两条线。手机存储着用户最完整的个人档案。当机器人在执行任务时，手机可以实时“遥控”与修正。就像自动驾驶的早期阶段，人类介入、数据积累、模型迭代三者同步推进。随着数据飞轮的转动，机器人的自主能力将逐步增强，直到真正能够独当一面。

从手机Agent到MR头显再到家庭机器人，这不是一张画大饼的路线图，而是一套搭积木式的能力叠加路径：每一层都站在上一层的肩膀上，每一站都有真实可交付的产品。眼光放在最远处，蛋下在沿途一路。

影像能力的终点，从来不是一张好照片。从拍得更好，到看得更懂，vivo正在用同一双“眼睛”做着两件事……

参考资料：

爱范儿：李飞飞万字访谈：空间智能是 AI 的下一个前沿领域

湾流经济评论：机器人就是未来的手机，这一巨头开局即王炸

虎嗅APP：承认吧，其实每个人都是视觉动物

科技日报：智能手机或将于2050年退场之后人类如何通信交流？

上一篇：强对流天气！大风警报！请注意防范

下一篇：每经品牌100指数小幅回调，成分股华润医药业绩超预期本周涨超20%

从“记录”到“理解”，vivo 的影像进化论

相关内容

热门资讯