如今,AI 视频正以迅猛之势吞噬着世界。它宛如一股强大的浪潮,席卷各个领域。在创作领域,AI 视频能够快速生成各种风格的内容,为创作者提供了无尽的灵感和素材。从广告到电影,从教育到娱乐,AI 视频的应用无处不在。它凭借高效的制作能力,打造出一个又一个令人惊叹的作品,逐渐在全球范围内树立起权威。未来,随着技术的不断进步,AI 视频有望打造出数十亿美元的 IP 帝国,引领着新的文化和商业潮流,深刻改变我们的生活和世界。
你有没有想过,我们可能正在见证娱乐行业最大的变革?当我听完 Latent Space 对 a16z 投资人姐妹 Olivia 和 Justine Moore 的访谈后,我意识到一个震撼的事实:AI video 不再是技术圈的小众玩具,而是正在重塑整个内容创作生态系统。
更令人惊讶的是,这场革命的先锋军竟然是那些我们可能瞧不起的“无厘头内容”创作者。当你还在为 OpenAI 的 Sora 迟迟不全面开放而焦虑时,一群普通人已经用 Google 的 Veo 3 创造出了数百万粉丝的 AI 角色,有些甚至开始制作实体玩具和周边产品。
这不是什么遥远的未来场景,而是正在 TikTok、Instagram 和 YouTube 上发生的现实。从那些看起来古怪的Italian Brain Rot角色,到会潜水的动物奥运选手,再到用 AI 生成的大脚怪日常 vlog,这些内容正在获得数百万的观看量和数十万的粉丝。
更重要的是,这代表着一个全新创作者经济模式的诞生:任何人都可以在几天内创造出一个虚拟角色,建立起庞大的粉丝群体,然后将其变现为真实的商业价值。我开始思考,这究竟意味着什么?AI video 技术的成熟是否正在彻底重写内容创作的规则?
一、AI Video 技术的临界点已经到来
当我们回顾 AI video 的发展历程时,不得不承认,早期的视频扩散模型确实只是“会动的图片”——将静态帧在时间轴上延伸几秒钟而已。
虽然 OpenAI 的 Sora 在 2024 年发布时引起了巨大轰动,但直到现在,我们看到的仍然只是 Sora-lite 版本的广泛发布。
与此同时,其他优秀的视频生成模型如 Genmo Mochi、Pika、MiniMax T2V、腾讯混元视频(Hunyuan Video)和快手的可灵(Kling)纷纷涌现,但今年,真正的王者似乎是 Google 的 Veo 3。
Justine 在访谈中特别强调了 Veo 3 的革命性意义:它首次在模型中原生集成了音频生成能力,这彻底消除了对整类唇形同步工具和音效编辑的需求。这个看似简单的技术进步,实际上打开了一个全新的 AI Video 创作者类别的大门。以前制作一个带声音的视频需要多个工具的复杂工作流,现在只需要一个简单的文本提示就能完成。这种技术门槛的大幅降低,正是我们看到普通用户能够大量创作高质量 AI video 内容的根本原因。
我认为这个技术临界点的意义被严重低估了。我们正处在一个类似于从命令行界面到图形用户界面的转变时刻。过去,视频制作需要专业的设备、软件知识和大量时间投入,这自然将大部分人排除在外。但现在,任何有创意想法的人都可以在几分钟内将其变成高质量的视频内容。这种democratization(民主化)不仅改变了谁能创作内容,更重要的是改变了什么样的内容会受到关注。
从技术发展的角度来看,我们还处在这场变革的初期阶段。Olivia 提到,即使是 Veo 3 这样的领先模型,其功能也在快速迭代——比如 frame-to-video(帧到视频)功能在访谈前十天还不存在。
这种快速的技术进化意味着,那些能够适应和利用最新工具的创作者将获得巨大优势。同时也说明,我们现在看到的内容质量和创作可能性,相比未来几年将要出现的情况,可能只是冰山一角。
二、无厘头内容的商业逻辑其实很精明
当我深入了解那些看似荒谬的“Italian Brain Rot”角色背后的故事时,我发现了一个令人震惊的事实:这些内容的创作者其实展现出了极其精明的商业直觉。
正如 Olivia 在访谈中所描述的,这些角色最初是作为去中心化的模因(meme)开始的,一个人创建了几个角色,然后 TikTok 上的其他人加入自己的角色到这个宇宙中,最好的角色成为了“正典”。
这个过程让我想起了早期漫威宇宙的建立方式,只不过现在任何人都可以参与角色创建,而且整个过程只需要几天,而不是几年。
更令人印象深刻的是,这些角色已经发展到可以制作实体玩具和T恤的程度。Olivia 分享了一个视频,显示一个真实的孩子在玩这些角色的周边玩具,就像对待尼克国际儿童频道(Nickelodeon)的角色一样熟悉它们。
这背后的商业逻辑其实非常清晰:传统媒体公司可能每周只会发布一集节目,但这些 AI 角色每天可以产生几十甚至几百个视频。用户因此能够更快地建立情感连接。
从产品开发的角度来看,这种模式具有传统娱乐业无法比拟的优势:零边际成本的内容生产、实时的市场反馈,以及近乎无限的创意迭代可能性。
Justine 提到的另一个案例更加能够说明问题:她创建了一个名为 Melt 的虚拟酸奶品牌。这个品牌在现实中并不存在,但通过分享这些图片,并在 50 个不同的账户上 A/B 测试最病毒化的内容,完全可以建立一个庞大的社交媒体关注者群体,然后在第一天就推出一个拥有内置粉丝群的真实品牌。
这种“销售尚不存在的东西”的技术有着悠久的互联网传统,但 AI video 将其效率和可行性提升到了前所未有的水平。
我认为,这种模式的真正价值在于它极大地降低了市场验证的成本。传统的产品开发需要先投入大量资源制作产品或内容,然后投放市场测试反应。但在 AI video 时代,你可以先创造虚拟的产品或角色,测试市场反应,然后只对那些被证明受欢迎的概念进行真实投资。这是一种更加高效和环保的方法,可以发现用户真正想要购买的东西,还能减少大量的猜测工作,这些猜测工作既昂贵,又对环境有害。
三、内容创作生态的根本性转变
通过分析 Moore 姐妹的观察,我发现,我们正在经历内容创作生态系统的一次根本性重构。趋势起源地已经发生了转移——而“内容套利”正成为王道。
过去,AI video 的趋势实际上起源于 Reddit 的各种 AI 论坛,像我们这样的技术人员会从那里挑选最好的内容,将其带到 Twitter,然后最好的内容可能最终会传播到 TikTok 或 Instagram。
但现在,这个流向完全逆转了。Justine 指出,随着 Veo 3 等工具的普及,大部分病毒式内容现在首先在真正的大众消费平台上产生,比如 TikTok 和 Instagram。因为更多像日常用户这样的非技术人员可以制作高质量、有趣的内容,并且可以对其他人创造的内容进行二次创作。这些Italian Brain Rot角色在 Instagram 和 TikTok 上的影响力比在 X 上大一百万倍。
这种转变对我们理解内容创作的未来具有深远意义。它表明技术工具的可及性已经达到了一个转折点,这让普通用户不仅能够消费内容,还能够大规模创作和重新混合内容。我们看到的是一种新形式的集体创作,其中角色和故事线通过众多创作者的协作而演化,类似于维基百科模式,但将其用于娱乐内容。
更重要的是,我观察到了一种新的“内容套利”生态系统的出现。创作者们在不同平台之间寻找时间窗口,将在一个平台上病毒式传播的内容快速移植到其他平台。这创造了一种全新的技能集:不仅要能够创作原创内容,还要能够识别趋势、快速适应不同平台的格式要求,并且理解不同受众的偏好。
我认为我们正在见证的是内容创作从“一对多”向“多对多”模式的转变。传统媒体是少数内容制作公司向大量消费者推送内容,但现在我们看到的是大量创作者相互启发、二创和协作,最终创造出具有集体智慧的内容宇宙。这种模式的经济效率和创新潜力都远超传统模式。
四、工具生态系统的快速演进
当我深入了解当前的 AI video 工具生态时,我意识到我们正处在一个极其动态的发展阶段。Moore 姐妹在访谈中展示的工具栈令人印象深刻,同时也揭示了这个领域的复杂性和机遇。对于直接的文本到视频生成,Veo 3 目前在需要声音的视频方面占据主导地位,而 MiniMax(海螺AI)在创意灵活性方面表现出色。一些创作者还会使用 Eleven Labs 来制作定制音效。
Olivia 在访谈中分享了她的实践经验,特别有启发性。她发现,某些类型的内容在 AI 生成方面有天然优势——比如熔岩相关的内容总是表现很好,人们喜欢“吃熔岩、挤压熔岩、剥离熔岩表皮”。这种洞察反映了 AI 模型在某些视觉概念上的特殊强项,同时也说明,成功的 AI video 创作者需要深入了解模型的能力边界。
特别值得注意的是,Veo 3 目前不支持带音频的图像到视频功能。当你尝试从一个图像开始时,系统会自动切换回 Veo 2,这使得保持角色一致性变得极其困难。这就是为什么我们看到这么多病毒式趋势使用像风暴兵或耶稣这样的已知身份,因为模型已经理解并能够重新创造这些角色,而不需要起始帧。这种技术限制实际上塑造了内容的创作方向,这是一个有趣的技术与创意相互影响的例子。
我观察到的另一个重要趋势是,“clipping”(剪辑)已经成为一个独立的生态系统,自动化正在大幅提升这个过程的效率。
像 Overlap 这样的工具可以自动检测最具分享性的时刻,将其剪辑成短视频,为其添加字幕和贴纸,并自动化多平台发布。许多创作者会根据平台和受众对内容进行细分:技术性或教育性的内容用于 YouTube,高能量或“无厘头”风格则用于 TikTok。
这种工具生态的快速演进让我思考一个更深层的问题:我们是否正在见证创作过程本身的自动化?当工具能够自动识别病毒式内容的特征、自动剪辑和分发内容时,人类创作者的价值主要体现在哪里?我的观点是,随着技术门槛的降低,创意洞察和对受众心理的理解变得更加重要。技术让每个人都能创作,但只有那些真正理解人性和文化趋势的创作者才能创造出真正引起共鸣的内容。
五、变现模式的多元化探索
在探讨 AI video 创作的商业可持续性时,我发现,当前的变现模式比我最初想象的要复杂和多元化。Olivia 和 Justine 的分析揭示了一个重要现实:传统的广告分成模式对大多数创作者来说并不足够。平台的创作者计划通常要求极高的观看量才能获得有意义的收入,而且每百万观看量的收入相对较低。
更有趣的是,我发现许多成功的 AI video 创作者实际上采用了“内容即营销”的策略。他们的病毒式视频主要用于建立个人品牌和展示专业能力,然后通过咨询服务、在线课程或定制项目来变现。比如 Nick St. Pierre 这样的技能熟练的提示工程师,他们销售在线课程或提供大量咨询工作,而病毒式内容为这些服务产生潜在客户。
Olivia 的亲身实践经验特别有价值。她发现即使使用 Veo 3 这样的顶级工具,生成成本仍然很高,特别是当你需要多次迭代才能获得满意结果时。她提到,即使是看似简单的水果切片 ASMR 视频,也需要八次生成才能得到一个可以发布的版本。对于更复杂的内容,成本会更高。这意味着创作者必须战略性地思考如何从内容中获得足够的价值来覆盖生成成本。
我认为,最有趣的变现趋势是虚拟 IP 的实体化。那些Italian Brain Rot角色现在有了实体玩具和 T恤,Kim 大猩猩有了自己的网站和“Free Kim”商品。这种从纯数字内容到实体产品的转变,代表了一种全新的 IP 开发模式:先通过低成本的数字内容测试市场反应,然后只对那些被证明受欢迎的角色投资实体产品开发。
从更宏观的角度来看,我相信我们正在见证创作者经济的第二波浪潮。第一波主要依赖平台的广告分成和品牌赞助,但 AI video 正在创造新的价值创造和捕获方式。创作者不再只是内容的制作者,而是 IP 的开发者、品牌的建立者,甚至是产品的创造者。这种多元化的收入来源使得创作者经济更加可持续和抗风险。
六、传统媒体与创作者权力结构的重新洗牌
当我观察 AI video 对整个娱乐和媒体行业的影响时,我看到的不仅是技术工具的升级,而是权力结构的根本性重新分配。Justine 在访谈中提到的一个观点特别能引起我的思考:很多人对官方 IP 的发展方向不满意,所以他们更愿意观看自己能控制故事情节的内容。
这个现象的深层含义是惊人的。传统上,娱乐内容的叙事权完全掌握在大型媒体公司手中。观众只能被动接受编剧和制作方的创意决定,即使他们不喜欢角色的发展方向或故事情节。但现在,任何不满意官方内容的粉丝都可以创造自己版本的故事,而且这些用户生成的内容往往会比官方内容获得更多关注和情感投入。
我尤其被 Bigfoot 和 Yeti vlog 账户的成功所震撼。这些账户获得了数百万粉丝和数十万点赞,制作真正引人入胜的内容,让观众开始对角色产生情感连接。更重要的是,这些内容每天都有更新,而传统媒体可能每周只推出一集节目。这种内容密度的差异改变了观众的期望和消费习惯。
从商业角度来看,这种转变对传统媒体公司构成了existential threat(生存威胁)。当独立创作者可以在几天内建立起与传统 IP 竞争的角色和故事宇宙时,那些花费数亿美元开发和营销的大制作内容的价值主张就受到了根本性挑战。我预测我们很快就会看到第一个 AI 原生 IP 被 Netflix 或 Hulu 这样的平台收购和包装的案例。
但这也带来了复杂的版权和归属问题。当一个 IP 是由成千上万个不同创作者协作创造的去中心化模因时,谁应该获得报酬?如何确定版权所有权?这些问题目前还没有清晰的答案,但它们将塑造未来娱乐行业的法律和商业框架。
我认为我们正在见证娱乐行业从“工业化生产”向“手工艺复兴”的转变,只不过这次的“手工艺”是由 AI 工具增强的个人创作。这种模式结合了工业化的效率和手工艺的个性化,可能会产生比纯粹的大规模生产更有吸引力和更具文化影响力的内容。
七、prompt theory:AI 时代的哲学思考
在所有我从这次访谈中学到的概念中,最让我着迷的可能是“prompt theory”(提示词理论)。这个概念从 AI 角色意识到自己是 AI 生成的或拒绝接受自己被提示词控制开始,但在最近演化成了一个更深层的哲学问题:如果我们也是某个人宇宙中的 AI 角色会怎样?我们会知道吗?我们都被提示词控制吗?
Justine 提到了一个特别有趣的趋势:AI clapback(AI 互怼)视频,通常是一个年轻人和一个老年人之间的对话,但现在已经演化为类似于“你的头发只是被提示出来的,你什么都没做”这样的meta评论。然后迅速升级为混乱的哲学辩论。
令人惊讶的是,即使是那些你永远不会期望他们会思考 AI 和提示词理论的中西部青少年,也在他们的 AI 互怼视频中加入了这些概念。
这种现象让我想起了早期互联网文化中的一些哲学思辨,但规模和深度都完全不同。当制作这些内容的门槛如此之低,以至于任何人都可以创造出看起来“真实”的角色和场景时,现实和虚拟之间的边界确实开始模糊。更有趣的是,这种模糊不仅存在于技术层面,也开始渗透到文化和哲学层面。
我认为 prompt theory 反映了一个更深层的文化焦虑:在一个越来越多的体验开始被算法介入的世界中,我们如何知道什么是“真实”的?当 AI 生成的内容变得如此逼真和引人入胜,以至于我们开始与虚拟角色建立情感连接时,这些连接的本质是什么?与“真实”人类的连接相比,它们的价值更低吗?
Justine 提到她经常思考的一个问题,特别有启发性:如果她在 Reddit 上与大量 LLM 交谈会很悲伤吗?还是说,如果有一群总是有空讨论她感兴趣话题的“人”,并且有有趣的见解,那实际上是世界的好的一面?这个问题触及了人类连接和智能交互的本质。
我的观点是,prompt theory 实际上是我们这个时代最重要的哲学问题之一。它不仅关乎技术的发展,更关乎我们如何定义真实性、自主性和human agency(人类能动性)。当我们创造出越来越智能和逼真的 AI 角色时,我们也在被迫重新审视什么使我们成为人类。
八、对未来的预测和思考
基于我对这次访谈的深入分析和对当前趋势的观察,我对 AI video 的未来发展有几个关键预测。我相信我们正处在一个类似于早期互联网或智能手机普及的转折点,接下来的 2~3 年将决定这个领域的最终格局。
我预测技术发展将朝着更加民主化和用户友好的方向发展。目前像 Veo 3 这样的工具虽然强大,但在用户体验方面仍有很大改进空间。Olivia 提到的那些问题——难以找到 Veo 3 的入口、无法在移动设备上使用、默认使用较老的模型版本——这些都是早期技术产品的典型问题。我相信很快就会有更多注重用户体验的平台出现,让普通用户能够更轻松地访问和使用这些强大的工具。
从内容趋势的角度来看,我认为我们将看到从“模仿现有格式”向“探索 AI 原生格式”的转变。目前大部分 AI video 内容仍在模仿传统视频格式——vlog、ASMR、音乐视频等。但随着创作者对工具理解的加深,我们将开始看到只有在 AI 时代才可能存在的全新内容格式。这些格式将充分利用 AI 的独特能力,比如实时角色变换、无限的场景变化,或者多个虚拟角色之间的复杂互动。
在商业模式方面,我预测我们将看到更多“虚拟优先”的 IP 开发策略。传统的娱乐公司将开始采用 AI video 进行低成本的概念验证,然后只对那些在虚拟形式中证明受欢迎的概念投资大制作。这种方法将大大降低内容开发的风险和成本,同时提高成功率。
我也认为我们将看到全新的职业和技能需求的出现。“AI video prompter”“虚拟 IP 开发者”“cross-platform content optimizer”等职位将变得常见。教育系统需要开始培养学生理解和利用这些工具的能力,而不仅仅是传统的媒体制作技能。
从社会影响的角度来看,我认为 AI video 将加速文化创作的去中心化。地理位置、经济背景或机构准入将不再是创作高质量内容的障碍。这可能会导致更多样化的声音和视角进入主流文化对话,这对全球文化多样性来说是一个积极的发展。
但我也担心一些潜在的负面影响。当内容创作变得如此容易时,我们可能会面临信息过载和注意力进一步碎片化的问题。此外,如果大部分内容都是 AI 生成的,我们需要思考如何保持人类创造力的独特价值和意义。
最终,我相信 AI video 不仅会改变我们创作和消费内容的方式,还会改变我们理解现实、身份和人类连接的方式。这些变化的全面影响可能需要一代人的时间才能完全显现,但我们现在看到的只是开始。作为这个变革的见证者和参与者,我们有责任深思熟虑地引导这些技术的发展,确保它们服务于人类繁荣发展,而不仅仅是技术进步。
正如 Moore 姐妹在访谈中展示的那样,最成功的策略是既要拥抱这些新工具的巨大潜力,又要保持对其局限性和风险的清醒认识。我们正在参与创造一个全新的媒体生态系统,这既是一个巨大的机遇,也是一个重大的责任。
本文来自微信公众号:深思圈,作者:Leo