老罗数字人刷屏背后，AI导演正偷偷改写直播“剧本”_资讯

老罗数字人刷屏背后，AI导演正偷偷改写直播“剧本”

创始人

2025-06-20 19:04:05

0次

老罗数字人刷屏背后，AI 导演正悄然改写直播“剧本”。老罗凭借数字人技术，以全新形象在直播舞台上大放异彩，吸引众多目光。而这背后，AI 导演发挥着关键作用。它犹如一位隐形的编剧，精准地规划着直播的流程、节奏和内容。从开场的精彩引入，到中间的互动环节设计，再到结尾的高潮营造，AI 导演都能细致入微地把控。它根据观众的喜好和反馈，实时调整直播策略，让每一场直播都如同精心打磨的作品，为老罗的数字人直播增添了无尽的魅力与活力，也引领着直播行业迈向新的发展阶段。

本文来自微信公众号：机器之心（ID：almosthuman2014），编辑：杨文，作者：关注大模型的，原文标题：《老罗数字人刷屏背后，AI导演正偷偷改写直播「剧本」》

AI直播终于不是噱头了。

这年头，真人主播还真干不过AI。

今年618大促期间，「交个朋友」在百度优选搞了场直播，不过这场直播的主角不是人，而是AI。直播间里，罗永浩和朱萧木两个数字人配合默契，不抢话、不抬杠，只是一味地带货、爆梗、讲段子，还时不时跟评论区网友来个互动。

「弹幕上问我怎么辨别茅台真假，简单喝一口，心疼就是真的，肝疼就是假的。」

「有人问方便面好不好吃，买回去尝尝，好吃就分给朋友一点，不好吃就全分给朋友。」

「你脸大有多大？能有我210斤的脸大吗？」

这逼真效果，就连老罗本人看了都吓一跳：「他们在那儿眉来眼去，讲着跟我一样风格的段子，有点恍惚……」

更离谱的是，罗永浩数字人的直播「战绩」比真人还能打，整场直播吸引了超1300万人次观看，GMV突破5500万元，部分核心品类带货量、用户平均观看直播时长均反超罗永浩本人在百度电商的直播首秀。

如此以假乱真的数字人到底是怎么做出来的？据老罗在微博上「自曝」，这用的是百度的多模协同数字人技术。

传统数字人生成技术常面临语音、语言、视觉多模态割裂的问题，具体表现为台词与语音语调不同步、表情手势与语义错位等，而百度的技术突破在于引入剧本驱动的多模协同。

具体来说，这套技术方案包含了剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成等五大创新技术，使数字人的「神、形、音、容、话」达到高度统一，最终呈现出一个具备高表现力、内容吸引人、人-物-场可自由交互的超拟真数字人。

语言模型为核心的剧本生成

在百度这套多模协同数字人技术方案中，剧本生成无疑是核心环节，涵盖台词、多模驱动和动态交互三部分。

最核心的台词需要解决三大关键问题。其一，通过风格建模为不同风格提供精细化定制，使台词呈现多样化风格，并与主播的个性高度契合；其二，通过人设建模、人物性格与行为逻辑的精准还原，以及在双人直播场景中保持多角色协同，塑造拟真化人设；其三，引入内容规划和深度思考机制，在保证讲品信息准确、富有说服力的同时增强吸引力，同时为避免「幻觉」，还在台词生成中融入事实校对和知识增强机制，保证每一句话都经得起推敲。

就以罗永浩数字人为例，罗永浩和朱萧木都具有强烈的个人风格，直播时经常会蹦出几句口头禅，为打造可控性强、极具真实感的虚拟主播，百度基于文心大模型4.5 Turbo，投入海量真人直播数据，依托「转录挖掘、优质提炼、仿写合成与自动评估」四个环节不断优化训练语料，使模型深度吸收两位主播的语言特点与思维习惯，并在迭代学习中持续逼近更契合的输出效果。同时引入多角色协同机制，对不同主播的表达逻辑进行建模，使对话在语义推进、节奏控制和风格调性上保持协调一致，避免「各说各话」的割裂感。

所谓多模驱动，是指大语言模型基于任务目标与主播人设生成基础台词，并同步输出视觉与语音的多维标签。这些标签不仅是对语言内容的补充，更是驱动音视频生成系统实现自然、同步、富表现力输出的关键指令。比如，在语音合成阶段，模型利用剧本中的段间标签精细控制不同语段之间语调衔接，同时文本内容也能驱动TTS系统实现更细粒度的语调调控。音频合成结果再进一步与视觉标签联动，使视频生成系统能够实现唇动同步、高表现力的动作设计和情绪表达，从而在输出层实现「声、形、意」三模态的统一。

在此基础上，剧本生成还具备动态交互能力。比如AI老罗在卖纯牛奶时，有网友问360个月的宝宝能不能喝，AI老罗便以「我600个月都能喝，谁还不是个宝宝呢」进行幽默回应，这种回应背后不仅是语言生成，更是基于人设风格、场景上下文、情绪基调等多模信息的综合决策。

文本自控的语音合成

在数字人技术逐渐渗透直播、电商、客服等互动场景的过程中，语音合成的自然度正成为决定用户沉浸感与信任度的关键因素。特别是在直播间，观众希望听到的不是生硬的朗诵或机械音，而是一种如同真人主播般富有情绪、节奏自然、具备沟通张力的表达方式。因此，数字人语音的「人味儿」越足，交互的真实感就越强，用户的接受度和互动意愿也随之提高。

然而，传统的语音合成技术往往呈现出字正腔圆但缺乏情感的表达风格，在充满情绪张力的直播场景中，这种过于规整的声音反而显得「出戏」。它无法像人类主播一样，适时展现语调的抑扬顿挫、节奏的快慢变化，也很难根据商品介绍、互动节奏等变化调整情绪状态，尤其是在呼吁用户下单、介绍爆款产品这类关键话术环节，传统TTS无法自然表达出情绪递进和感染力，进而影响整个数字人系统的说服力与亲和力。

针对这些现实痛点，百度提出了「文本自控的语音合成」方案，在大语言模型输出剧本之后，负责语音合成的大模型会结合文本内容、主播风格特点，以及对于细粒度韵律特征表示进行统一处理，这一过程中语音模型不仅知道「要说什么」，更知道「要怎么说」，从而在生成语音时自然带出情绪波动与语言节奏，使得语音在内容和表达方式上都更贴近真实人类。

例如，在罗永浩数字人直播间中，主播语音高度还原本尊的音色和语调，甚至在直播节奏中展现出自然的停顿、强调和情绪变化。同时，百度还解决了直播中双人互动的挑战。现实中，主播之间的配合往往包括打断、附和、重复等高频行为，这对语音合成提出了连贯性和互动性的更高要求。为此，百度引入了「对话上下文编码器」，将历史对话与当前对话的信息进行语音合成时的统一推理计算，以此实现「双人配合」的自然过渡。

高一致性超拟真数字人长视频生成

在数字人直播场景中，形象生成与驱动是当前技术难度最高的环节。首先必须解决多模协同的问题，它涉及多向的信息对齐：剧本对视频表达提出具体要求，TTS语音又对视频节奏与动作生成形成约束，反过来视频本身还需对语音进行校准，最终需要实现「音、容、话」三者的一致性。

其次，主播在直播中往往伴随着大量手势、动作和表情等「高表现力动作」，它们对于强化用户情绪感染力具有显著作用，因此在视频生成阶段，不仅要忠实复现语言内容，还需对这些高表现力动作进行准确建模与流畅合成。

在场景交互层面，数字人直播还面临「人-物-场」自由交互的复杂性。主播需要与商品、背景和空间布局进行符合物理逻辑的互动，例如望向商品、举起物品或指向展示区等。若缺乏对空间关系的精准理解，极易出现穿模、错位等破坏沉浸感的瑕疵。

此外，直播时长也放大了技术一致性的难题。一场超6小时的直播，任何人物形象的波动、商品定位的误差以及动作风格的不一致都会直接拉低观众体验。

为此，百度提出了「高一致性超拟真数字人长视频生成」技术方案，将历史视频数据、剧本脚本、语音信息以及骨骼驱动等多模态信号作为输入，经过多模态视频分析与理解，分别生成具有高表现力的片段、复杂人-物-场交互片段以及大动作大表情片段，并在长时序上进行统一调度，从而保证语音、口型、表情与动作始终保持高度同步，实现真正的「音、容、话一致」。

在罗永浩数字人直播项目中，这一技术方案得到了集中体现。罗永浩与朱萧木均具强IP属性，二者的形象、语言风格、互动节奏都需得到高度还原。同时，整场直播中所涉及的商品种类繁多，体积、位置、用途各异，对人-物交互的精度和响应速度提出了更高要求。百度对人物ID与商品ID进行了独立建模与保持，使得系统能够在长时间内容中持续稳定地控制人物表现与商品指向，避免风格漂移与交互误差，最终实现主播间自然流畅的配合，语言节奏、动作执行和商品展示高度统一的效果。

结语

百度是中国最早押注AI底层能力的科技公司之一。

早在十四年前，移动互联网正值爆发期，「人工智能」仍是实验室里的晦涩概念，百度就把资源投向了一个看不见回报的领域，这一选择在当时显得颇为超前甚至「另类」。

时间给出了答案。ChatGPT的横空出世掀起生成式AI浪潮，百度紧跟每一个关键节点，连续发布重磅大模型成果：从文心3.0到文心大模型4.5，再到融入深度思考能力的X1以及升级版4.5 Turbo，技术体系不断进化，模型的认知深度和生成能力日益增强。

此次罗永浩数字人带货直播，正是文心大模型的一次「最佳实践」。它不仅彰显了百度技术的成熟与前沿，更验证了大模型技术在真实商业场景中的高效与可行。

可以预见，随着深度思考、知识增强、意图理解与多角色交互等关键能力持续跃升，百度的数字人将愈发拟真与智能。这带来的不仅是效率提升，更意味着技术投入带来的商业模式的「无人区」探索和价值重构。

上一篇：深圳“卒婚”夫妻：分居不离婚，人前维持关系，各自生活不打扰

下一篇：广西壮族自治区人大常委会原副主任周家斌被双开

老罗数字人刷屏背后，AI导演正偷偷改写直播“剧本”

相关内容

热门资讯