真碾压Sora了,谷歌Veo 3首次实现音画同步
创始人
2025-05-21 18:41:28
0

谷歌 Veo 3 着实展现出了强大的实力,首次实现了音画同步,这一突破堪称惊艳。在视频播放领域,音画同步一直是用户体验的关键,而谷歌 Veo 3 成功做到了这一点,让每一个画面都能与声音完美契合,不再有延迟或不同步的情况。相比之下,Sora 在这方面似乎被远远地超越了。谷歌 Veo 3 以其卓越的技术,为用户带来了更加流畅、自然的视听享受,无疑在音画同步这一重要领域取得了重大的领先地位,给整个行业带来了新的标杆和启示。


还记得 2023 年 AI 视频最出圈的片段吗?威尔·史密斯吃面,动作鬼畜,画面寂静:



当时的视频大模型,只会动,不会说话。Sora 的发布让视频质量飞跃、物理规则建模进步巨大,也直接引爆了整条赛道。


Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司,以及 OpenAI、谷歌、阿里、字节等科技巨头,纷纷入局。


但无论画质如何进步,视频还是“哑巴”:


你可以让人物奔跑、翻转,甚至做出慢动作,但如果想让角色说话、听到风声、脚步声,甚至感受到炒菜时锅里的滋滋声?


对不起,还得自己导音频。


更麻烦的是,配完音还可能对不上节奏:口型和对白不同步,脚步踩不到点上,情绪氛围总差一口气。


直到今天,谷歌正式发布 Veo 3。AI 视频,终于能“开口说话”了:


Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话、多种音效。


把这段话翻译成中文就是,只用一个提示词,你就能得到画面+对白+唇动对齐+拟音音效一气呵成的视频。


提示语:90 年代酒吧里的情景喜剧场景,背景墙上的霓虹灯写着 “fofr”。一对夫妇说了些什么,观众大笑起来。



对白生成、唇动对齐和情绪音效(观众笑声),一气呵成。


提示语:一位游戏主播(streamer)只用他的镐子(pickaxe)赢得了“ Victory Royale”。



生成出的内容是完整直播风格视频,还带着夸张的欢呼与音效,画面有声有色。


尽管凌晨才发布,但 Veo 3 已在社交网络掀起热潮,多个视频动辄数十万次播放,令人惊叹不已。


雪地步伐清晰地传来咯吱声,鸭子嘎嘎叫,烹饪的滋滋作响声,撒胡椒声……


得益于模型对物理世界的深刻理解,所有声音非后期拼接,而是与画面实时同步生成。




Veo 3 还能精准捕捉画面情绪,渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫,逼真到让人有点毛骨悚然。



提示词:a video with dialogue of two muffins while baking in an over,the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"


至于对口型,Veo 3 也表现突出:无论是脱口秀现场讲笑话,还是说唱音乐视频中的节奏口型,都能精准同步,真实感爆棚。



提示词:a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue)



提示词:a man in a music video raps to the camera about generating videos with Veo3


生成歌剧和音乐会视频,成为检验 Veo 3 音画同步水平的高频场景。


在这个视频里,鼓手的每一次击打动作都与鼓点节奏完美同步,与歌手表演同步,展现了模型在复杂多声音动态场景下出色的音画合成能力。




支持多角色、多种风格的创作视频,虚拟人物演技不比《演员请就位》强多了?




长提示词理解与事件流生成方面,Veo 3 同样出色。


以前视频模型提示词一长就容易崩。


Veo 3 能理解长句子,完成一个完整、时间有序、逻辑清晰的小片段。


来看这个视频。


提示词:黎明时分,一位男士在美丽的夏日公园里奔跑,他上气不接下气,然后放慢速度,看着镜头,气喘吁吁地说:“用 API 运行 AI。使用 Replicate。”然后他继续跑。最后,“Replicate”的字样渐渐消失在视野中。


包含动作变化、对白插入、镜头切换、logo 渐隐……


多步骤连贯执行,事件流准确,效果不错:




音画同步生成,直接把视频模型拉到了新时代 。而其中的关键能力,离不开 DeepMind 过去就悄悄铺下的一项底层技术:V2A(Video-to-Audio)。2023 年 6 月,DeepMind 就首次披露:


他们正开发一套 AI 系统,能从视频像素 + 文本提示中,自动生成完整音轨。包括对白、动作音效、环境音、背景音乐……


它的原理是:将视频视觉信息编码为语义信号,与文本提示一同输入扩散模型,生成匹配的音频波形。可以说,V2A 就是 Veo 3 的“耳朵”和“声带”。再配合谷歌的音视频数据资源—— YouTube 很可能是训练数据之一——Veo 3 的音画合成功能,已经遥遥领先。


一个小遗憾:视频仍只有 8 秒。


另外,目前 Veo 3 仅面向美国 Ultra 订阅用户开放,定价为 249.99 美元/月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。



虽然门槛不低、时长有限,但 Veo 3 的初次亮相,已足够震撼。过去生成式 AI 是“语言+图像”的时代,现在,正在进入“视听一体”的新阶段。


生成视频从会动 → 能说 → 有氛围,一步步突破不同模态的边界。


如果说 Sora 是让 AI 看懂物理世界,那 Veo 3,就是让 AI 能“听懂”“会说”。


看来,音画一体将是下一轮视频模型竞赛的标配。


本文来自微信公众号:机器之心,作者:机器之心,编辑:Sia

相关内容

热门资讯

2025高考志愿填报需要注意什... 2025高考志愿填报需要注意什么?20个考生关心问题解答:1.志愿填报,考生要做哪些准备?第一步:熟...
“全球品牌中国线上500强榜单... “全球品牌中国线上 500 强榜单”正式发布,这一榜单备受关注。在众多上榜企业中,福建也有企业脱颖而...
北京市“首单”!西城离境退税集... 为全方位扩大国内需求,沉着冷静应对外部冲击带来的困难挑战,以更大力度促消费、扩内需、做强国内大循环,...
美国将在特朗普生日当天阅兵,细... 据央视新闻报道,美国6月14日在首都华盛顿举行的阅兵式规模已开始逐渐清晰。 一份文件显示,美国总统特...
快手运营:2025快手618用... 今天分享的是:快手运营:2025快手618用户数据报告 报告共计:47页 《快手618用户数据报告》...
【南篱/黄金】说破就破,大黄最... 2025.05.21 周三 文/南篱 各位好,我是南篱,一个财经人。 黄金真的,时间和情绪都符合预...
大润发母公司高鑫零售“瘦身”扭... 图片来源:高鑫零售 蓝鲸新闻5月21日讯(记者 孙煜)5月20日晚,大润发母公司高鑫零售(6808....
量化交易新纪元:倍漾量化冯霁如... 量化交易,这一在金融领域日益受到瞩目的投资策略,正经历着一场由人工智能引领的革命。在中国,这场革命的...
豆神教育获融资买入2750.1... 雷达财经雷助吧出品 文|肖文竹 编|深海 同花顺iFinD数据显示,豆神教育5月20日获融资买入27...
去年秋粮收购创新高 全国现存粮... 天眼查专业版数据显示,截至目前我国现存在业、存续状态的粮食相关企业超23.5万家。其中,2025年截...
突发!董事长被立案 5月20日晚间,ST华西(002630.SZ)披露公告称,公司董事会近日收到遂宁市某区监察委员会签发...
聊聊境外收入补税:不要去挑战大... 境外收入补税是一项重要的税务事项。在当今数字化时代,大数据的作用愈发凸显,不要去挑战大数据的威力。税...
售价5年暴涨约6倍,“疯狂的复... 复方枣仁胶囊在过去 5 年售价暴涨约 6 倍,其背后隐藏着诸多问题。一方面,可能是市场供需关系的失衡...
俄乌和平进程提速的动力来自矿产... 俄乌和平进程提速的动力来自矿产协议。这一协议为双方开启了新的合作契机。矿产资源在两国经济中占据重要地...
【投融资动态】中杭电子B轮融资... 证券之星消息,根据天眼查APP于5月15日公布的信息整理,浙江中杭电子有限公司B轮融资,融资额未披露...
15岁的小米该如何面对期待 15 岁的小米正处于一个充满变化和挑战的阶段。面对来自家人、老师和社会的期待,她或许会感到压力,但也...
外商独资公募转战债基:从加速布... 近年来,外商独资公募纷纷加速布局债基领域。它们凭借先进的投资理念和丰富的国际经验,积极参与国内债券市...
国台办:认同两岸同属一个中国,... 国台办明确指出,认同两岸同属一个中国,乃是两岸协商对话得以开展的重要基础。这一理念清晰地表明,只有在...
“红猫计划”官宣14天,小红书... “红猫计划”官宣已 14 天,然而小红书内部的矛盾却仍未得到妥善解决。从最初的宣布到如今的时间流逝,...