AI 语音爆发的这半年,一位“局中人”看到的赛道爆发逻辑
创始人
2025-07-03 12:23:56
0

请你提供具体的“AI 语音爆发的这半年”相关内容呀,没有具体信息我没法准确写出描述呢。


本文来自微信公众号:极客公园 (ID:geekpark),作者:苏子华,编辑:靖宇,原文标题:《AI 语音爆发的这半年,一位「局中人」看到的赛道爆发逻辑》


过去半年,「AI语音」赛道正密集地获得融资。尤其引人注目的是,这些融资多为大额,并且投向早期团队。


比如,前不久AI语音应用Wispr Flow靠「默念输入」,完成了3000万美元的A轮融资,累计融资额已达5600万美元;语音模型公司Cartesia在3月份完成了6400万美元的A轮融资,累计融资9100万美元;AI语音合成公司ElevenLabs更是在1月份宣布完成1.8亿美元的C轮融资,估值超过30亿美元


与此同时,无论是Meta、OpenAI、Google等科技巨头,还是MiniMax等创业公司,都在密集发布自己的语音模型或语音产品。Siri也被曝出或将被ChatGPT或Claude等模型接管,来跟上语音交互的进展。


这些消息无一例外都指向了AI语音的火爆。


为什么过去半年多以来,AI语音领域会如此集中地爆发?


声智副总裁黄赟贺认为,语音对话从一个App中的功能模块,迅速进化为AI时代入口级别的存在,与大模型的加持有极大关系。


在智能音箱红极一时的年代,大部分我们熟知的智能音箱品牌都搭载了声智的远场声学交互技术,比如小爱同学、天猫精灵、小度音箱等等。而「小爱小爱」的唤醒词,实际上也是来自于声智


这家公司创办于2016年,一直在声学+AI交叉领域探索。然而,作为一家在幕后提供AI声学技术的公司,在大模型浪潮来临之后,果断选择下场投身开发自己的C端产品。毫无疑问,他们看到了这波「大模型+语音」浪潮里新的商业机会,其旗下的AI耳机目前出货量已接近100万套


前不久,极客公园与声智副总裁黄赟贺聊了聊AI语音市场的爆发逻辑、语音交互的「卡点」,以及它将如何影响我们的未来。


以下内容根据黄赟贺的讲述和声智的论文整理而成:


01、AI语音为何现在爆发了?


最近两年,越来越多的AI语音初创团队获得大额融资,集中爆发。


其中,一个很重要的推动因素是,大模型让声音这项基础能力首次实现了「可编程化」


「可编程化」这个词,意味着将一种能力或者一个对象,通过清晰的接口和逻辑,变得可以被代码自由地调用、组合、修改和控制。过去,文字是可编程的,图像是可编程的,甚至视频也是可编程的(比如视频编辑软件)。


但声音更多的是一种「输入」或「输出」的介质,其内部的复杂结构和信息,很难被软件直接「编程」和「理解」。


传统的语音识别,更多是把声音转换成文字,然后对文字进行处理。


比如,之前在深圳、成都有很多做声音标注的团队,拿到语音之后,再人工转换成文字,打上不同的标签,比如各种特征、意向的标签。


大模型来了之后,打标签的这项工作可以交给大模型,它比大量的人工团队标得快和准。


以前做NLP的背后都是一堆苦逼的运营在那里打标签,让AI系统能够识别每个句子的意向。过去,语音的开发,每增加一个功能,都需要从头写代码,费时费力。比如,想让智能音箱支持「点外卖」,得单独开发一套语音识别和语义逻辑,成本高、周期长。


而现在AI大模型可以解决了。


更重要的,依靠大模型对多模态数据的深度理解能力,对声学信号的更细致解析,使得声音本身携带的除了文字信息之外的更多信息,开始被AI系统直接捕捉、理解和「编程」。


这种可编程化,意味着AI可以像处理数据一样处理声音。它可以分析声音的频率、振幅、波形,提取出情绪特征、识别不同的声源、声源距离、甚至预测你的意图。


这时,声音包含的不再仅仅是「你说了什么」,更是「你如何说」、「你在哪里说」、「谁在说」以及「你说了之后希望发生什么」。


由此,声音也成为了真正的交互引擎。


02、真正的语音交互,不是「Voice」而是「Sound」


其实,很多人以为,语音交互就是「Voice」(语音)。但其实Voice这个词是一个狭窄概念。真正的语音交互,核心不是「Voice」,而是「Sound」(声音)。Sound里面包含了Voice。


具体来说,「Sound」包含了更丰富的元素:语调、音色、节奏、情绪,更重要的是环境音。环境音里面可能包含了环境中的各种非语音信息,比如背景音乐、环境噪音(风声、雨声、车声)、物体发出的声音(开门声、打字声)、以及人类语音中包含的非语义信息(语调、语速、音色、语气词、叹息声、笑声、哭声等)。


比如说,你咳嗽的时候,跟AI说话,它可能会识别出咳嗽,然后跟你说多喝水;比如,你在咖啡馆说,「帮我找个安静的地方」,AI不仅要理解你的指令,还要从背景音中判断出你当前的环境嘈杂,从而推荐附近的图书馆。


当我说「下一代对话交互的入口并非『Voice』,而是『Sound』」时,我指的是AI系统将不再仅仅依赖于识别你说的「词」,而是能够全面感知和理解你所处环境的「声学场景」中的所有关键元素。


只有当AI能够全面感知并解析「Sound」中包含的这些多维度信息时,它才能真正理解用户的深层需求,提供更精准、更个性化、更富有情感的交互。这才是真正的「语音交互」,它不仅仅是「听懂」字面意思,更是「听懂」你的「言外之意」和「心声」。


03、语音交互的「卡点」,大厂烧钱也没用


尽管大模型带来了语音交互的巨大飞跃,但语音交互当下依然存在一个核心的「卡点」,而这个卡点根植于物理学,具体来说,就是声学。


我们常说「听清、听懂、会说」。「听懂」和「会说」的能力,正在被大模型以前所未有的速度提升。但「听清」这个最基础的环节,却受到物理层面的制约。如果AI听不清你的指令,即便它能「听懂」再复杂的语义,能「会说」再动听的话语,那也都是空中楼阁。


比如说当下最热门的具身智能,现在很多机器人都是电驱动的,那么它带来几个大问题,一方面是电路的噪声本身就很大,另一方面是关节噪声,还有就是很多机器人是金属材质,厚厚的,声音在穿透时会大幅衰减。


所以,机器人动起来的时候,噪声很大,尤其在室外,更难听清楚人的指令。要么大声喊,或者拿麦克风喊。因此,现在很多机器人都要靠遥控器来控制。


这方面,其实就需要对声学层面的突破,比如说环境噪声的抑制,比如电路底噪的抑制,还有啸叫的抑制、混响回响的抑制等等。


而这些就是物理学科的逻辑,它需要数据样本,需要know how的壁垒,不仅是技术问题,而是时间的问题,需要时间去采集声音、做训练。


这不是烧钱能解决的。


让AI准确地「听清」用户的指令,依然是一个世界级的难题。而声学相关的人才很少,所以像谷歌、微软、苹果经常会收购声学技术的初创公司,几乎只要出来一家就会收购他们。


大家都明白,要构建真正的下一代人机交互系统,拥有核心的声学能力是基石。


04、语音交互的下一站,是实现「共情」


现在很多AI应用的日活、留存不高,有个很大的原因就是普通人本身是不会提问的,让人向大模型提问,这本身就是一个非常高的交互门槛。


好的提问还需要学识、表达等基础,所以停留在文字层面的问答,本身就是一种门槛限制。


而语音带来的一种可能性是,它正在开启一个全新的阶段——人机交互的「共情模式」。


如果把语音交互比作一个「UI界面」,那这个界面会长什么样?我们可以做个推演,它的构成要素可能会有:


情绪识别:AI通过分析语调、音量、语速,判断用户的情感状态。比如,你的声音颤抖,AI可能推测你在紧张或伤心。


意图理解:不仅听懂你说了什么,还要明白你想做什么。比如,你说「播放音乐」,AI会根据你的情绪,决定是放摇滚还是古典。


声纹识别:通过独一无二的音声波特征,区分不同用户。比如,家里的智能音箱能自动切换到「孩子模式」模式,只为孩子的声音提供安全的回应。


情绪生成:AI的回应需要带有情感化的表达。比如,用温暖的语气说「别担心,我来帮你解决」,而不是机械的「好的,正在处理」。


这些要素的背后,是AI从「功能导向」到「情感导向」的转变,AI会与人实现共情。这种交互,能显著提升长时间交互的质量和亲密感。


不仅如此,从狭义的「Voice」拓展到广义的「Sound」,当AI能接收到的不仅仅是用户的指令,而是整个物理世界的实时反馈时,我们可以去构建一个「声学世界模型」。


这个「声学世界模型」可以理解声音在物理世界中产生、传播和交互的根本规律,它不仅要「听清」和「听懂」,更要具备「声学常识」和「声学推理」的能力:它能从一声闷响中分辨出是书本落地还是箱子倒塌;能通过回声判断出房间的大小与空旷程度;更能理解「脚步声由远及近」背后所蕴含的物理运动逻辑。


未来,当这样一个声学世界模型与视觉、语言大模型深度融合时,具身智能机器人将不再「失聪」和冰冷。这也是我们正在做的。

相关内容

热门资讯

“青春”守护“银发”,00后涌... 在当今社会,一幅温暖而独特的画面正悄然呈现。青春,宛如一束耀眼的光,正守护着银发的岁月。00 后们如...
1300万网友围观的“最强”打... 在网络的喧嚣中,有一位堪称“最强”的打工人引发了 1300 万网友的围观。他凭借一份精心伪造的简历,...
特朗普宣布对越关税降至20%,... 【文/观察者网 阮佳琪】 距离7月9日所谓“对等关税”谈判截止日不足一周,当地时间7月2日,美国总...
破解科技型企业融资难题,郑州探... 【大河财立方 记者 程帅星 文图】7月3日,大河财立方记者从郑州市人民政府新闻办公室举行的新闻发布会...
债市收盘|今日净回笼4521亿... 财联社7月3日讯(编辑 刘晨)今日消息面平淡,国债期货收盘多数上涨,30年期主力合约跌0.02%,现...
福建一地发布一批人事任免 近日,福建某地发布了一批重要的人事任免。这些任免涉及多个领域和岗位,彰显了当地对人才的重视与合理调配...
刷新PB!福建10后小将夺得全... 在全国赛场上,一位福建的 10 后小将犹如一颗璀璨新星,成功刷新了 PB(个人最好成绩),勇夺全国冠...
美团解锁7万亿服务零售增长新密... 美团作为领先的生活服务平台,以其强大的技术和创新能力,成功解锁了 7 万亿服务零售增长的新密码。通过...
被鳄鱼、蟒蛇包围!美国移民拘留... “鳄鱼恶魔岛”这一美国移民拘留设施正式启用,令人胆寒。想象一下,身处其中,仿佛被鳄鱼与蟒蛇所包围。那...
注意绕行!福州市儿童公园部分园... 福州市儿童公园近期正在进行部分园路改造施工,为确保游客的安全与施工的顺利进行,在此提醒大家注意绕行。...
美众议院通过程序性投票推进“大... 美众议院近期通过了程序性投票,有力地推进了“大而美”法案。这一投票举动彰显了美国政治舞台上的激烈博弈...
韦韬任广西壮族自治区副主席,代... 7月3日下午,自治区十四届人大常委会第十七次会议在南宁召开。会议决定任命韦韬为自治区副主席,并决定其...
费东斌被免去国家铁路局局长职务 国务院任免国家工作人员。免去费东斌的国家铁路局局长职务。
不要碰!发现立即上报!福州有人... 近日,福州地区发生了令人担忧的一幕。据悉,有人员被咬伤,这一消息迅速引起了广泛关注。这种情况的出现无...
上半年,买一张飞机票的平均价格... 上半年,机票市场呈现出一定的价格特征。经统计,买一张飞机票的平均价格为 740 元。这意味着在上半年...
烟台本土元素闪耀,沉浸式消费场... 7月1日晚,“购在中国·2025山东活力之夏消费季”在烟台启动。当晚除了盛大的无人机表演外,作为主场...
上海银行位列“2025年全球银... 7月2日,英国《银行家》杂志发布“2025年全球银行1000强”榜单,上海银行按一级资本排名位列全球...
7.3非农打破僵局 经过人生的荒凉,才能抵达内心的繁华,真正的进步总是敢于战胜自我,永远不要为过去的事情后悔,永远不要为...
A股收评:三大指数上涨,深成指... 格隆汇7月3日|A股三大指数今日集体上涨,深成指、创业板指均涨超1%;截至收盘,沪指涨0.18%报3...