iOS19还没来,我提前在iPhone 上体验到了苹果最新的AI
创始人
2025-05-15 19:02:20
0

iOS19 尚未登场,然而我却在 iPhone 上提前领略到了苹果的最新 AI。当我打开手机,那流畅的交互和智能的响应让我眼前一亮。无论是语音指令的快速识别,还是根据我的使用习惯精准推送的内容,都仿佛是 AI 悄然降临。它能迅速理解我的需求,无论是搜索信息、处理任务还是提供创意,都得心应手。仿佛苹果的科技魔法提前在这台 iPhone 上施展,让我对未来 iOS19 以及苹果的 AI 发展充满了期待,也深刻感受到了苹果在科技领域的引领之势。


本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《iOS 19 还没来,我提前在 iPhone 上体验到了苹果最新的 AI | 附安装教程》


都2025年了,还有谁没用上苹果AI?


本来,只有我们国行iPhone用户在苦等,但没想到,海外也没好到哪去。去年WWDC上苹果画的那些AI大饼,iPhone用户都快到iOS 19还没吃完。


发布会看得热血沸腾,现实里却心灰意冷。


就在我以为苹果今年大概率也「稳中摆烂」的时候,突然发现苹果最近低调开源了一款小模型:FastVLM。


模型GitHub下载地址:https://github.com/apple/ml-fast‍vlm


没搞发布会,也没在官网上大张旗鼓宣传,本来我也没太在意,但当技术部老哥将这款模型在顶配iPhone 16 Pro Max跑起来后,我承认有些坐不住了。


一句话概括,这个模型很「苹果」。


模型启动速度极快,识别图像的能力也不错,全程本地执行,没有云端那一套操作,看起来不惊艳,但用起来……有点意思。


我承认,有那么一瞬间,我觉得苹果AI又支棱起来了。


作为一组可以在iPhone、iPad、Mac等设备上本地运行的视觉语言模型(Vision-Language Model),FastVLM包括三种参数量级:FastVLM-0.5B、1.5B和7B。


普通用户也能将其部署到iPhone上,只是需要一定的技术门槛。苹果研究团队在GitHub提供了完整的安装教程,有技术基础的用户可以参考:


https://github.com/apple/ml-fastvlm/tree/main/app


我用iPhone跑这款「苹果味」的模型,结果……


实测下来,7B的大模型虽然聪明,但真不太听使唤,动不动就发热、闪退。于是我们只能退而求其次,把体验重心放在了更轻量的0.5B和1.5B上。


但说实话,即便是这两个「小号」模型,实际体验依然带来了不少惊喜。


比如昨天下班路上,我随手用手机对准了地铁站的售票机,FastVLM-1.5B几乎瞬间就完成了场景解析,并对图片进行文字描述,真·所见即所得,丝毫不卡顿。


屏幕显示的TTFT(Time To First Token)仅为1211毫秒。也就是说,从发出请求到模型返回第一个Token,整个流程用时不到1.3秒,交互手感相当丝滑。


不仅如此,日常生活中常见的物体,比如花草植物、城市高楼,FastVLM均能轻松识别。


即使是一些略带抽象的玩偶,也能做到有效识别。


特斯拉汽车的倒影也观察到了,虽然没有具体说出电脑屏幕上的猪猪侠的名字,但也能大致识别出基本特征。


当然,它也不是没有短板,英文识别准确率挺高,但中文嘛,还有待优化,比如「注意行人,减速慢行」识别为了「禁止行人进入,限制通行」,意思也大相径庭。


FastVLM-0.5B的响应速度更快,TTFT基本可以维持在1000ms以内,几乎是刚对准事物,就已经开始输出。


你听过不少「系统级优化」这个词,真正能将它做成产品体验差异的厂商,屈指可数。FastVLM的处理能力与响应速度便是苹果一个典型的例子。


FastVLM是苹果自研的端侧视觉语言模型(VLM),整个栈从底到顶都由自家搞定,底层依托自研AI框架MLX构建,并基于全新视觉编码骨干网络FastViT-HD。


FastViT-HD的设计核心就是如何在极限算力下榨出最多的性能。


苹果研究团队的做法是融合了卷积和Transformer架构,一边保低延迟,一边保表征能力,并通过多尺度特征融合与新增下采样阶段,大大减少了视觉token数量。同时,它支持原生高分辨率输入,避免传统ViT架构中的切块策略。


结果就是,在苹果公布的测试中,FastViT-HD的TTFT(Time To First Token)比同类模型快了85倍,在实际对比ConvNeXt等架构时,推理速度也快出了2到3倍。


而且重点来了,正如论文所提到的,这是跑在M1 MacBook Pro上的真实数据,换句话说,FastVLM从一开始就已经为消费级终端的实际部署做好了准备。


FastViT-HD的另一个操作也很「苹果」。


传统做法是先把token一股脑生成出来,再靠后处理把低价值的剪掉,本质上是补救方案,而FastViT-HD属于原生设计的前置优化,能直接输出少量高质量的视觉token,无需再经过额外的token剪枝或采样流程。


ViT慢的根源在于self-attention的二次复杂度,token数量越多,计算负担越大。而FastViT-HD在256×256分辨率下,仅输出16个token,既提升了推理速度,又显著降低资源消耗,真正实现了「边跑边理解」。



此外,FastVLM还在算法层面引入了帕累托最优曲线(Pareto frontier)。


通俗来说,开发者可以据此找到「性能最强×延迟最小」的模型搭配组合,避免过去那种凭经验试错的方式,这对于部署在不同算力层级的终端设备极具指导意义。


在模型训练上,FastVLM用了更少数据却能达到更强效果。


论文显示,FastVLM在多个TextVQA、MMMU、SeedBench等基准测试中;在训练数据仅为其他方法的1/3~1/5情况下,仍可实现堪比甚至超越主流模型(如MM1、Cambrian-1)的效果。


那么,这么一个又快又小、还能本地运行的模型,苹果究竟是拿它来干嘛的?答案可能藏在苹果的下一块屏幕里:智能眼镜。


GPT-4V塞不进智能眼镜,但它可以


据外媒9to5Mac报道,FastVLM或将部署到苹果智能眼镜。


这并非空穴来风,过去一年,关于苹果智能眼镜的消息陆续涌现。据彭博社记者Mark Gurman的最新说法,苹果计划在2027年前后推出一款轻量级智能眼镜。


为此,苹果正在研发一颗专用于智能眼镜的低功耗芯片N401,主打多摄像头调度与AI支持,预计将在2026年底或2027年进入量产。


换句话说,这将是一台AI-first的设备。


在这样的设备上,云端模型几乎无用武之地,反而依赖类似FastVLM这样的视觉语言模型作为感知层的基础设施,并且,你无法把一个GPT-4V塞进智能眼镜里,但FastVLM可以。


FastVLM快、小等特点,更像是为设备形态的收敛所服务:


体积小,适合部署在端侧;


响应快,符合智能眼镜的场景感知;


以及无需联网,数据不出本地,天然安全。


尽管苹果在去年WWDC大会上所画的大饼至今尚未实现,但这并不妨碍苹果是有野心的,去年苹果WWDC就已经明确传递出一个信号:AI不再只是功能级的补丁,而是要被深深嵌入到系统底层。


和许多AI公司以API为接口、以调用为主线不同,苹果的目标不是打造一个「有AI的产品」,而是「将AI变成产品本身的一部分」,乃至成为OS的底层组成。


这种思路,也契合苹果长期的产品策略,也就是从硬件定义软件,再用系统定义体验。


今年,这一趋势仍在持续推进,并显现出「端侧优先」更强的导向。这不仅体现在iPhone上,也开始蔓延至iPad、Mac,乃至尚未亮相的新一代智能硬件形态。


而在苹果公司即将成立20周年的重要节点,外界自然开始关注是否会有新的硬件形态破壳而出,比如传闻已久的可折叠iPhone、更轻薄的Vision Pro,以及上文所说的智能眼镜。


尽管这些设备大概率不会在WWDC上以「新品发布」的形式正式亮相,但苹果一贯的风格,便是在系统与开发者生态中埋下伏笔。


这些看不见的地方,才是WWDC真正值得关注的信号。


相应地,从底层架构上来看,FastVLM具备开放性、模块化,这也意味着能够被系统原生组件、第三方App,乃至未来的智能眼镜系统一键调取使用。


事实上,这类「视觉理解+语言推理」的功能,并不是什么新鲜事。


最近OPPO就与阶跃星辰合作推出了「一键问屏」功能。用户只需拍一张图,小布助手便能自动识别图像中的关键信息,完成智能视觉搜索、问答和推理任务。


在模型层面,字节最近发布的轻量级多模态推理模型Seed1.5-VL,就凭借仅532M的视觉编码器和200亿语言参数,在多个基准测试中的测试成绩与许多顶级模型不相上下,而且支持带图深度问答。


从功能体验来看,FastVLM与上述产品相比似乎并无明显差异。但其真正的底层支点,其实来自苹果在2023年推出的一项关键基础设施:AI框架MLX。


MLX是苹果首次系统性地开源一整套深度学习框架,专为苹果芯片打造。尽管M系列芯片早已建立起硬件性能优势,但此前一直缺乏自家统一的AI编程生态,而MLX补上了关键一环。


MLX在形式上类似「PyTorch」,补齐了软件层的原生AI生态;能够鼓励开发者直接在MacBook上训练与部署模型,在内存管理、模型编译与运行效率方面表现出色。


基于这样的逻辑,我们甚至可以重新理解苹果生态中各类设备的角色:


iPhone是一个通用智能终端、Watch是一个健康监测中心、Vision Pro是一个空间计算平台,那么未来的苹果智能眼镜也将更往原生运行AI模型的智能终端靠近。


不是提供一个超级App,不是拼API市场份额,苹果选择为未来五到十年的硬件形态铺路。


FastVLM的参数可以更新,性能可以迭代,但苹果要表达的,不是模型本身的竞争力,而是模型将如何成为系统的一部分、设备的一部分,甚至成为你生活的一部分。

相关内容

热门资讯

深圳,一座423家A股上市公司... 423家,总市值8.53万亿元 据深圳证监局消息,截至2025年4月底,深圳423家A股上市公司(深...
机构喜欢的一些基金 就好像昨天不知道为何大涨,今天又不知道为何大跌。市场就是这样让人捉摸不透,我们去找所谓的涨跌原因,只...
走访企业送服务 护航发展解难题 (程志)为进一步优化营商环境,助力企业发展,近日,哈尔滨市公安局平房分局经侦大队深入辖区企业开展走访...
科森科技参股公司特丽亮豪掷1.... 许广彬的债务“雪球”引发的实控人变更风险持续发酵。 5月14日晚,东方材料(603110.SH,股价...
巴基斯坦与印度停火延长至18日 巴基斯坦副总理兼外长达尔15日说,在巴基斯坦和印度军方当天的通话中,双方已同意延长停火至18日。
外贸“爆单”的虚与实 外贸“爆单”,看似一片繁荣景象,实则虚实参半。虚的一面,可能只是短期的市场波动或个别订单的集中爆发,...
新消费催生新职业 年轻人解锁这... 消费需求是催生新职业的核心驱动力之一。随着我国新消费业态的蓬勃发展,一批又一批充满活力的青年人干起了...
科华数据(002335)5月9... 证券之星消息,近日科华数据披露,截至2025年5月9日公司股东户数为7.0万户,较4月30日减少50...
界面晚报 | 年内首次降准正式... 中办、国办:推进城镇老旧小区整治改造 《意见》提出,更新改造小区燃气等老化管线管道,整治楼栋内人行...
可能存在被证监会行政处罚的风险... 今日聚焦 【2连板新华锦:公司、公司关联方可能存在被中国证监会行政处罚或被证券交易所实施纪律处分的风...
深创投加码蛛丝蛋白纤维!灵蛛科... 【生物基能源与材料】获悉,2025年5月,深圳灵蛛科技有限公司(以下简称“灵蛛科技”)宣布完成深圳市...
现在的住家阿姨,也太贵了吧 现在的住家阿姨,真的是太贵啦!以前请个阿姨帮忙做家务、照顾家人,价格相对还比较亲民。可如今,市场行情...
佩斯科夫:俄方代表团从早上开始... 当地时间5月15日,俄总统新闻秘书佩斯科夫在回答记者关于俄乌代表团在土耳其伊斯坦布尔谈判的问题时表示...
做好这三点,预防慢性心力衰竭|... “做好这三点,预防慢性心力衰竭|科普时间”。首先,保持健康的生活方式至关重要,合理饮食,减少高盐、高...
战投何时来?复飞何时定?欠薪何... 战投何时来?复飞何时定?欠薪何时发?这些问题如同一把把悬在幸福航空管理层头上的利剑。面对外界的急切问...
*ST星光主力净流出2579.... 雷达财经雷助吧出品 文|肖文竹 编|深海 东财Choice金融数据显示,2025年5月15日,*ST...
AI浪潮下炒股如何不当韭菜?5... 新京报贝壳财经讯(记者胡萌)随着DeepSeek的惊艳亮相,各行各业都想借此东风找寻AI技术落地的可...
科创板和创业板改革措施将出台,... 截至收盘,上证科创板50成份指数下跌1.3%,中证科创创业50指数下跌1.8%,创业板指数下跌1.9...
数据出炉!金融总量增长既“稳”... 央视网消息:中国人民银行5月14日发布的4月份金融数据显示,金融总量增长既“稳”又“实”,广义货币(...
多次宴请公职人员,南通爱尔眼科... 南通爱尔眼科医院 CEO 因多次宴请公职人员这一不当行为,其政协委员身份被撤销。这种行为严重违反了公...