AI生成的不是播客,而是加了自动摘要功能的语音朗读。
最近,字节跳动的豆包推出了 AI 播客功能:只需上传 PDF 或粘贴网页链接,豆包可以自动提炼要点,再让两位虚拟主播用几乎真人的声音对话,生成一档几分钟的对话节目。
在此之前,谷歌的 NotebookLM 也将其 Audio Overview 功能升级为支持中文等 50 余种语言,用户可以直接收听模型对输入信息的语音概括。
这些AI播客的声音确实逼真流畅,但本质上仍只是信息压缩,而非真正的播客创作。
播客之所以动人,靠的是人与人间不可预测的碰撞、主播愿为观点承担的风险,以及大量一手的经验和见解——这些恰恰是 AI 无法复制的。AI没有观点,更不会为观点负责;它没有亲身经历,也无法在对话中产生真正的化学反应。
因此,AI的角色不是替代主播,而是成为创作者的强大辅助。它可以帮你整理资料、辅助剪辑、撰写ShowNotes,甚至将音频转写成高质量的文章。但AI是工具,而不是创作者。
要厘清这一切,我们必须先从那个被叫错的名字开始。
一、“AI播客”是信息压缩,而非内容创作
AI播客,最大的问题是取错了名字。
无论是字节的豆包,还是谷歌的NotebookLM,它们更直接的对标物,应该是微信读书的语音朗读功能,而不是苹果播客、小宇宙上的那些播客节目。
我们可以从信息输入的角度非常明显地判断这一点。
不管是NotebookLM还是豆包的AI播客,都要求你先粘贴一个链接,或者上传一份PDF文档。AI的工作,是把这些长篇文本,压缩、转换成一段听起来流畅的语音对话。
这个流程,本质上是在压缩信息,而不是创造新信息。
一个人类主播,他在录制播客时,即便有详细提纲,提纲里的资料也来自读书和看报道。但他在写提纲和讲述的过程中,一定会产生自己的见解,加入自己的观点和情感。他不是纯粹地压缩信息。
但目前的AI播客做不到这一点。大语言模型的本质,只是一个高级的复读机。它所做的,就是根据概率,把各种各样的文本拼贴起来。它当然能说出漂亮的句子,但它没有自己独立的见解,没有原创的思考。
更重要的一点是,大语言模型没有情感,也没有价值判断。它只是在执行指令,把已有的信息缝合、拼接起来。而人在讲述任何信息的过程中,都不可避免地会加入自己的主观见解和情感。正是这些主观的东西,才是AI给不了我们的。
这里有一个问题:既然AI只是在压缩信息,为什么还要费力模拟成两个人的对话?
答案很简单:因为听对话比读文字更省力。
把一篇浓缩的摘要,用一问一答的形式讲出来,能让文字信息变得更容易吸收。这是一种更友好的信息呈现界面,降低了用户获取信息的门槛。
但这恰恰证明了AI播客的工具属性。这种设计的目的,是为了最低门槛地传递信息,而不是为了交流思想或碰撞观点。它依然是“语音朗读”,只是换上了一个更巧妙的外壳。
二、AI无法复刻人
既然AI只是在压缩信息,那么它能替代的,就只有那些同样只在搬运和压缩信息的节目。
我们完全可以想象一个全自动的工作流:一个Agent每天定时抓取彭博社、华尔街日报的文章,改写成快讯,再用一个逼真声音播报出来。这和我们现在听到的很多资讯类播客,几乎没有区别。
事实上,这已经发生了。2024 年,英国 GB News Radio 推出“AI Sports Bulletins”,把体育新闻自动压缩成 30 秒播报。上线后一个季度,电台周收听人数由 51.8 万升至 61.1 万,超过了人工快讯时段收听规模。这完全合乎逻辑。当收听的目的只是为了方便快捷地获取信息时,我们并不在乎是人念的,还是AI念的。
该广播公司表示,体育新闻简报由生成式人工智能基于gbnews.com上的文章撰写,随后由GB News主持人Tatiana Sanchez的“虚拟声音”朗读
但是,一旦内容超出了纯粹的资讯摘要,AI就无能为力了。
播客之所以吸引人,是因为那种“活人感”。比如纽约时报的新闻播客“The Daily”,主持人不仅会概述报道,还会把写这篇报道的记者请到节目里。记者会亲口讲述他在现场的见闻,以及那些没能写进报道里的、和新闻当事人的对话。这些细节是鲜活的。AI播客生成不了这种内容,因为它没有在新闻现场,也无法产生真实的感受。
更核心的是,播客的魅力来自主播本人。来自他们不可预测的临场反应,来自他们愿意为自己的观点承担的风险。
前段时间,有个流行的测试,让豆包生成上海人和河南人的图片。AI画出了西装革履的上海人和蹲在路边的河南老农。
豆包已经修复了地域刻板印象,图片来自此前生成
大家看到这种带有刻板印象的AI生成图片,会被深深冒犯到吗?大概率不会。
人们只会觉得,这个AI在互联网上学到了地域歧视的梗,但你不会真的觉得豆包这个AI很坏。
但我们想一想,假如是一个有名的播客主播,认真地在节目里说:“我觉得上海人就是比河南人高贵。”
那听众是一定会愤怒的。
这就是区别。我们对一个人的话产生强烈反应,是因为话语背后有一个需要为之负责的、活生生的人。而AI没有这个“人”的身份,它说的任何话都不用承担风险。
因此,你很难像喜欢或讨厌一个人一样,去对待一个AI。
三、AI的真正价值:辅助内容创作
AI永远不会替代主播。
因为它没有独立的思想,而主播有。AI的真正价值,不是成为主播,而是成为主播的强大辅助。对整个内容行业来说,都是如此。
具体到播客行业,AI已经能极大地提升制作效率。
在内容筹备阶段,很多主播在用知识库工具来整理资料。比如腾讯iMa和YouMind。你可以把大量的PDF、文章链接扔进去,让AI帮你总结摘要,撰写提纲。这种从被动阅读到主动提问的转变,让资料整理的效率大大提高。
在播客剪辑中,AI同样帮助巨大。Adobe Podcast的“Enhance Speech”AI降噪功能,只用把手机录音拖进网页,它会自动分析音频,滤掉底噪、混响,让人声变得更加清晰、干净。剪映的AI剪辑功能,能把语音转录成文字,让用户对着文字稿来剪音频,操作更加简单直观。
播客剪辑完成后,用ChatGPT、Gemini来写ShowNotes已经是常见现象。AI正适合这种不需要原创观点,强调结构化的写作。
在播客发布后,你甚至可以用AI把一期节目转写成一篇完整的文章。播客《脑放电波》就用这种方式,把好几期节目转成了文章,质量高到可以被虎嗅直接转载,文章读者也几乎无人发现这是AI写的。
这些例子都指向同一个事实:AI可以极大地赋能创作者,但它无法替代创作者本身。
当然,在内容行业里,还有一个环节是AI目前没能有效突破的:长内容分发。
播客这种动辄一两个小时的长内容,收听成本非常高。如果用户点进去听了几分钟发现不喜欢,时间就被浪费了。理论上,AI应该能促进长内容的分发。比如有创业团队做了一个叫ChatPods的产品,就尝试用AI把几期你可能感兴趣的播客节目,总结成几分钟的音频摘要,让你先听摘要再决定。
但这个尝试的效果并不好,除了开发者有名气,ChatPods本身几乎没有引起人们的讨论。
核心原因在于如果用AI去总结资讯类播客,就等于把别人已经压缩过一遍的信息再压缩一遍,价值不大。如果用AI去总结《忽左忽右》《随机波动》这类对话节目,那就更没有意义了。我们听这类节目,不只是为了获取信息,就是为了听主播聊天,听他们用自己独特的方式去讲述一个故事。
所以,如何用AI更好地分发播客内容,目前Spotify和小宇宙也还没有找到答案。
但这恰恰再次证明了我们的核心观点:AI是强大的工具,但播客的灵魂,永远是那个愿意分享观点、承担风险、在麦克风前创造不可预测瞬间的,活生生的人。
很多成功的主播开始做播客的起点,都是他们自身强烈的表达欲望。绝大部分人一开始的表达都无可避免地显得稚嫩生涩,但这并不重要。强烈的表达欲望会驱使人逐渐找到适合自己的领域,找到自己的舒适区,从而表达得越来越流畅。
这个过程在内容创作者身上重复发生了无数次。但是,AI没有欲望,没有主观能动性,AI不会驱使自己体验更多经历、认识更多的人、学习更多经验、产生更多见解。至少,现阶段的大语言模型做不到。
即便AI播客生成的语音,听起来比大多数播客主播更流畅清晰。但是,听众所喜爱的,恰恰是不完美的真实:是声音背后那个会犹豫、会犯错、会激动,并最终愿意为自己的观点负责的,真实的人。
本文来自微信公众号:播客一下,作者:咸鱼