iOS19 尚未登场,然而我却在 iPhone 上提前领略到了苹果的最新 AI。当我打开手机,那流畅的交互和智能的响应让我眼前一亮。无论是语音指令的快速识别,还是根据我的使用习惯精准推送的内容,都仿佛是 AI 悄然降临。它能迅速理解我的需求,无论是搜索信息、处理任务还是提供创意,都得心应手。仿佛苹果的科技魔法提前在这台 iPhone 上施展,让我对未来 iOS19 以及苹果的 AI 发展充满了期待,也深刻感受到了苹果在科技领域的引领之势。
本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《iOS 19 还没来,我提前在 iPhone 上体验到了苹果最新的 AI | 附安装教程》
都2025年了,还有谁没用上苹果AI?
本来,只有我们国行iPhone用户在苦等,但没想到,海外也没好到哪去。去年WWDC上苹果画的那些AI大饼,iPhone用户都快到iOS 19还没吃完。
发布会看得热血沸腾,现实里却心灰意冷。
就在我以为苹果今年大概率也「稳中摆烂」的时候,突然发现苹果最近低调开源了一款小模型:FastVLM。
模型GitHub下载地址:https://github.com/apple/ml-fastvlm
没搞发布会,也没在官网上大张旗鼓宣传,本来我也没太在意,但当技术部老哥将这款模型在顶配iPhone 16 Pro Max跑起来后,我承认有些坐不住了。
一句话概括,这个模型很「苹果」。
模型启动速度极快,识别图像的能力也不错,全程本地执行,没有云端那一套操作,看起来不惊艳,但用起来……有点意思。
我承认,有那么一瞬间,我觉得苹果AI又支棱起来了。
作为一组可以在iPhone、iPad、Mac等设备上本地运行的视觉语言模型(Vision-Language Model),FastVLM包括三种参数量级:FastVLM-0.5B、1.5B和7B。
普通用户也能将其部署到iPhone上,只是需要一定的技术门槛。苹果研究团队在GitHub提供了完整的安装教程,有技术基础的用户可以参考:
https://github.com/apple/ml-fastvlm/tree/main/app
我用iPhone跑这款「苹果味」的模型,结果……
实测下来,7B的大模型虽然聪明,但真不太听使唤,动不动就发热、闪退。于是我们只能退而求其次,把体验重心放在了更轻量的0.5B和1.5B上。
但说实话,即便是这两个「小号」模型,实际体验依然带来了不少惊喜。
比如昨天下班路上,我随手用手机对准了地铁站的售票机,FastVLM-1.5B几乎瞬间就完成了场景解析,并对图片进行文字描述,真·所见即所得,丝毫不卡顿。
屏幕显示的TTFT(Time To First Token)仅为1211毫秒。也就是说,从发出请求到模型返回第一个Token,整个流程用时不到1.3秒,交互手感相当丝滑。
不仅如此,日常生活中常见的物体,比如花草植物、城市高楼,FastVLM均能轻松识别。
即使是一些略带抽象的玩偶,也能做到有效识别。
特斯拉汽车的倒影也观察到了,虽然没有具体说出电脑屏幕上的猪猪侠的名字,但也能大致识别出基本特征。
当然,它也不是没有短板,英文识别准确率挺高,但中文嘛,还有待优化,比如「注意行人,减速慢行」识别为了「禁止行人进入,限制通行」,意思也大相径庭。
FastVLM-0.5B的响应速度更快,TTFT基本可以维持在1000ms以内,几乎是刚对准事物,就已经开始输出。
你听过不少「系统级优化」这个词,真正能将它做成产品体验差异的厂商,屈指可数。FastVLM的处理能力与响应速度便是苹果一个典型的例子。
FastVLM是苹果自研的端侧视觉语言模型(VLM),整个栈从底到顶都由自家搞定,底层依托自研AI框架MLX构建,并基于全新视觉编码骨干网络FastViT-HD。
FastViT-HD的设计核心就是如何在极限算力下榨出最多的性能。
苹果研究团队的做法是融合了卷积和Transformer架构,一边保低延迟,一边保表征能力,并通过多尺度特征融合与新增下采样阶段,大大减少了视觉token数量。同时,它支持原生高分辨率输入,避免传统ViT架构中的切块策略。
结果就是,在苹果公布的测试中,FastViT-HD的TTFT(Time To First Token)比同类模型快了85倍,在实际对比ConvNeXt等架构时,推理速度也快出了2到3倍。
而且重点来了,正如论文所提到的,这是跑在M1 MacBook Pro上的真实数据,换句话说,FastVLM从一开始就已经为消费级终端的实际部署做好了准备。
FastViT-HD的另一个操作也很「苹果」。
传统做法是先把token一股脑生成出来,再靠后处理把低价值的剪掉,本质上是补救方案,而FastViT-HD属于原生设计的前置优化,能直接输出少量高质量的视觉token,无需再经过额外的token剪枝或采样流程。
ViT慢的根源在于self-attention的二次复杂度,token数量越多,计算负担越大。而FastViT-HD在256×256分辨率下,仅输出16个token,既提升了推理速度,又显著降低资源消耗,真正实现了「边跑边理解」。
此外,FastVLM还在算法层面引入了帕累托最优曲线(Pareto frontier)。
通俗来说,开发者可以据此找到「性能最强×延迟最小」的模型搭配组合,避免过去那种凭经验试错的方式,这对于部署在不同算力层级的终端设备极具指导意义。
在模型训练上,FastVLM用了更少数据却能达到更强效果。
论文显示,FastVLM在多个TextVQA、MMMU、SeedBench等基准测试中;在训练数据仅为其他方法的1/3~1/5情况下,仍可实现堪比甚至超越主流模型(如MM1、Cambrian-1)的效果。
那么,这么一个又快又小、还能本地运行的模型,苹果究竟是拿它来干嘛的?答案可能藏在苹果的下一块屏幕里:智能眼镜。
GPT-4V塞不进智能眼镜,但它可以
据外媒9to5Mac报道,FastVLM或将部署到苹果智能眼镜。
这并非空穴来风,过去一年,关于苹果智能眼镜的消息陆续涌现。据彭博社记者Mark Gurman的最新说法,苹果计划在2027年前后推出一款轻量级智能眼镜。
为此,苹果正在研发一颗专用于智能眼镜的低功耗芯片N401,主打多摄像头调度与AI支持,预计将在2026年底或2027年进入量产。
换句话说,这将是一台AI-first的设备。
在这样的设备上,云端模型几乎无用武之地,反而依赖类似FastVLM这样的视觉语言模型作为感知层的基础设施,并且,你无法把一个GPT-4V塞进智能眼镜里,但FastVLM可以。
FastVLM快、小等特点,更像是为设备形态的收敛所服务:
体积小,适合部署在端侧;
响应快,符合智能眼镜的场景感知;
以及无需联网,数据不出本地,天然安全。
尽管苹果在去年WWDC大会上所画的大饼至今尚未实现,但这并不妨碍苹果是有野心的,去年苹果WWDC就已经明确传递出一个信号:AI不再只是功能级的补丁,而是要被深深嵌入到系统底层。
和许多AI公司以API为接口、以调用为主线不同,苹果的目标不是打造一个「有AI的产品」,而是「将AI变成产品本身的一部分」,乃至成为OS的底层组成。
这种思路,也契合苹果长期的产品策略,也就是从硬件定义软件,再用系统定义体验。
今年,这一趋势仍在持续推进,并显现出「端侧优先」更强的导向。这不仅体现在iPhone上,也开始蔓延至iPad、Mac,乃至尚未亮相的新一代智能硬件形态。
而在苹果公司即将成立20周年的重要节点,外界自然开始关注是否会有新的硬件形态破壳而出,比如传闻已久的可折叠iPhone、更轻薄的Vision Pro,以及上文所说的智能眼镜。
尽管这些设备大概率不会在WWDC上以「新品发布」的形式正式亮相,但苹果一贯的风格,便是在系统与开发者生态中埋下伏笔。
这些看不见的地方,才是WWDC真正值得关注的信号。
相应地,从底层架构上来看,FastVLM具备开放性、模块化,这也意味着能够被系统原生组件、第三方App,乃至未来的智能眼镜系统一键调取使用。
事实上,这类「视觉理解+语言推理」的功能,并不是什么新鲜事。
最近OPPO就与阶跃星辰合作推出了「一键问屏」功能。用户只需拍一张图,小布助手便能自动识别图像中的关键信息,完成智能视觉搜索、问答和推理任务。
在模型层面,字节最近发布的轻量级多模态推理模型Seed1.5-VL,就凭借仅532M的视觉编码器和200亿语言参数,在多个基准测试中的测试成绩与许多顶级模型不相上下,而且支持带图深度问答。
从功能体验来看,FastVLM与上述产品相比似乎并无明显差异。但其真正的底层支点,其实来自苹果在2023年推出的一项关键基础设施:AI框架MLX。
MLX是苹果首次系统性地开源一整套深度学习框架,专为苹果芯片打造。尽管M系列芯片早已建立起硬件性能优势,但此前一直缺乏自家统一的AI编程生态,而MLX补上了关键一环。
MLX在形式上类似「PyTorch」,补齐了软件层的原生AI生态;能够鼓励开发者直接在MacBook上训练与部署模型,在内存管理、模型编译与运行效率方面表现出色。
基于这样的逻辑,我们甚至可以重新理解苹果生态中各类设备的角色:
iPhone是一个通用智能终端、Watch是一个健康监测中心、Vision Pro是一个空间计算平台,那么未来的苹果智能眼镜也将更往原生运行AI模型的智能终端靠近。
不是提供一个超级App,不是拼API市场份额,苹果选择为未来五到十年的硬件形态铺路。
FastVLM的参数可以更新,性能可以迭代,但苹果要表达的,不是模型本身的竞争力,而是模型将如何成为系统的一部分、设备的一部分,甚至成为你生活的一部分。