真碾压Sora了，谷歌Veo 3首次实现音画同步_资讯

真碾压Sora了，谷歌Veo 3首次实现音画同步

创始人

2025-05-21 18:41:28

0次

谷歌 Veo 3 着实展现出了强大的实力，首次实现了音画同步，这一突破堪称惊艳。在视频播放领域，音画同步一直是用户体验的关键，而谷歌 Veo 3 成功做到了这一点，让每一个画面都能与声音完美契合，不再有延迟或不同步的情况。相比之下，Sora 在这方面似乎被远远地超越了。谷歌 Veo 3 以其卓越的技术，为用户带来了更加流畅、自然的视听享受，无疑在音画同步这一重要领域取得了重大的领先地位，给整个行业带来了新的标杆和启示。

还记得 2023 年 AI 视频最出圈的片段吗？威尔·史密斯吃面，动作鬼畜，画面寂静：

当时的视频大模型，只会动，不会说话。Sora 的发布让视频质量飞跃、物理规则建模进步巨大，也直接引爆了整条赛道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司，以及 OpenAI、谷歌、阿里、字节等科技巨头，纷纷入局。

但无论画质如何进步，视频还是“哑巴”：

你可以让人物奔跑、翻转，甚至做出慢动作，但如果想让角色说话、听到风声、脚步声，甚至感受到炒菜时锅里的滋滋声？

对不起，还得自己导音频。

更麻烦的是，配完音还可能对不上节奏：口型和对白不同步，脚步踩不到点上，情绪氛围总差一口气。

直到今天，谷歌正式发布 Veo 3。AI 视频，终于能“开口说话”了：

Veo 3 不仅能生成高质量视频，还能理解视频中的原始像素，自动生成与画面同步的对话、多种音效。

把这段话翻译成中文就是，只用一个提示词，你就能得到画面+对白+唇动对齐+拟音音效一气呵成的视频。

提示语：90 年代酒吧里的情景喜剧场景，背景墙上的霓虹灯写着 “fofr”。一对夫妇说了些什么，观众大笑起来。

对白生成、唇动对齐和情绪音效（观众笑声），一气呵成。

提示语：一位游戏主播（streamer）只用他的镐子（pickaxe）赢得了“ Victory Royale”。

生成出的内容是完整直播风格视频，还带着夸张的欢呼与音效，画面有声有色。

尽管凌晨才发布，但 Veo 3 已在社交网络掀起热潮，多个视频动辄数十万次播放，令人惊叹不已。

雪地步伐清晰地传来咯吱声，鸭子嘎嘎叫，烹饪的滋滋作响声，撒胡椒声……

得益于模型对物理世界的深刻理解，所有声音非后期拼接，而是与画面实时同步生成。

Veo 3 还能精准捕捉画面情绪，渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫，逼真到让人有点毛骨悚然。

提示词：a video with dialogue of two muffins while baking in an over，the first muffin says "I can't believe this Veo 3 thing can do dialogue now!"， the second muffin says "AAAAH， a talking muffin!"