宝马与慕尼黑大学:当AI助手忙碌时,它需要告诉我们在干什么吗?
创始人
2026-02-24 20:35:19
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:科技行者)

这项来自宝马集团研究与技术部门、慕尼黑大学以及奥格斯堡大学的联合研究发表于2026年2月,研究编号为arXiv:2602.15569v1,旨在探讨车载AI助手在执行复杂任务时应该如何与用户沟通。

当你坐在车里,对智能助手说"带我去张经理那里,他发给我地址了,如果电量不足10%就安排个快充站",然后助手开始工作。此时你面临一个选择:是希望助手静静工作直到给出最终结果,还是希望它边做边汇报进展?这个看似简单的问题,却涉及到用户体验、信任建立和认知负荷等多个层面。

现代的AI助手正在变得越来越强大,它们不再只是简单地回答问题,而是能够自主执行复杂的多步骤任务。比如安排一次出行,助手可能需要查找联系人、提取地址信息、检查电池状态、搜索充电站、规划路线等多个步骤。这个过程可能需要几十秒甚至更长时间,那么在这段时间里,助手应该保持沉默,还是应该实时报告进展呢?

这个问题在驾驶场景中变得更加复杂。开车时,司机的注意力主要集中在驾驶上,任何额外的信息都可能造成分心。但完全的静默又可能让用户不确定系统是否正常工作,从而影响信任度。就像厨师在后厨准备复杂菜品时,是应该不断向客人汇报"正在切菜"、"正在调料",还是应该专心烹饪,最后直接端出成品呢?

为了回答这个问题,研究团队设计了一项精巧的实验。他们搭建了一个模拟驾驶环境,包含一个固定的汽车座舱模型,参与者坐在驾驶座上完成整个研究。这个环境包括语音用户界面(通过扬声器提供听觉反馈)、图形用户界面(平板电脑放在典型的车载中控位置)以及车道保持驾驶模拟(显示在车外2.7米处的垂直屏幕上)。

研究设计巧妙地模拟了真实的使用场景。参与者需要在两种不同的情境下使用语音助手:一种是静止状态(单任务),另一种是同时进行车道保持任务(双任务)。虽然车辆本身不会移动,但车道保持任务通过鼠标操作实现,要求参与者持续修正横向偏移来保持车道位置。这种设计既确保了实验的一致性,又模拟了驾驶时注意力分散的核心特征。

研究团队之前已经开发了一个功能完整的智能车载语音助手,能够处理复杂的多步骤任务并提供实时中间反馈。在这个基础上,他们为研究创建了一个专门的原型系统。这个系统使用ProtoPie部署在平板电脑上,模拟车载中控显示屏。为了确保实验的严格可比性,每个任务配置的目标话语都显示在屏幕上供参与者朗读。系统会实时转录语音输入并显示在屏幕上,向参与者表明输入已被接收。

一、两种截然不同的反馈策略对比

研究团队设计了两种截然不同的反馈策略来进行对比。第一种叫做"无中间反馈"策略,就像一位沉默的助手。当参与者说出请求后,系统会发出点击声并在中控屏上显示"我正在规划中..."的提示,然后就保持沉默,直到所有工作完成后一次性给出详细的最终结果。这种方式反映了许多AI系统的实际工作模式,特别适合不希望被打断的场景。

第二种叫做"规划与结果反馈"策略,就像一位健谈的助手。这种方式不仅会在最后给出总结,还会在处理过程中提供信息丰富的中间更新。比如当助手在查找联系人时,它会说"我已经在你的联系人中找到了张经理";当检查电池状态时,会说"我发现电池电量将降至10%以下,正在寻找合适的充电站"。这些中间更新通过听觉和视觉两种方式呈现,研究表明这是一种有效的设计选择。

为了确保两种策略的公平比较,研究团队精心设计了任务的复杂程度。他们创建了两种不同复杂度的任务:中等时长任务包含3个中间步骤,总共需要26秒完成;高复杂度任务包含6个中间步骤,需要45秒完成。对于有中间反馈的策略,更新信息以固定的5秒间隔呈现,这个时间间隔是基于研究团队在真实智能助手原型上使用不同AI模型的经验平均值得出的,同时也低于用户注意力保持的10秒上限。

任务设计充分考虑了现实场景的复杂性。比如一个典型的任务是:"带我去张经理那里走最快路线,他给我发过地址,如果电池电量降到10%以下就安排快充站"。这个看似简单的请求实际上包含多个步骤:搜索联系人、提取邮件中的地址信息、检查电池状态、搜索充电站、规划包含充电停靠点的路线等。为了避免任务记忆化带来的偏差,研究团队在八个任务中交替使用可互换的属性,比如"最快/最短"路线、"麦当劳/面包店"、"20%/10%"电池阈值等,保持任务在概念上等价的同时增加变化。

二、全面测量用户体验的四个关键维度

为了全面了解不同反馈策略对用户的影响,研究团队精心选择了四个关键测量维度,就像用不同的镜头来观察同一个现象。

第一个维度是感知速度,这直接反映了用户对系统响应性的主观感受。研究团队使用了一个简单直观的7点量表,从"非常慢"到"非常快",让参与者在每个任务后立即评价系统的速度感受。这就像问一个等餐的顾客感觉上菜速度如何,虽然客观时间固定,但主观感受可能大相径庭。

第二个维度是任务负荷,采用了广泛使用的NASA任务负荷指数中的三个子量表:心理需求、时间压力和挫败感。心理需求测量用户感受到的认知压力,比如需要多少思考、决策和记忆;时间压力评估用户是否感到匆忙或紧张;挫败感则反映用户在任务过程中的情绪状态。这三个维度组合起来就像测量一个人在复杂工作中的整体压力感受。

第三个维度是用户体验,研究团队选择了用户体验问卷的三个核心子量表:吸引力(整体印象)、可依赖性(感知控制和可预测性)以及风险处理能力(检测和处理风险的能力)。这些指标从不同角度评估用户对系统的整体满意度,就像评价一款产品时会考虑美观度、可靠性和安全性一样。

第四个维度是用户信任,使用了专门针对人工智能的简化信任量表,包含对系统的信心、可靠性认知和信任度三个方面。信任在人机交互中至关重要,它往往决定用户是否愿意采用和依赖系统。研究团队在参与者体验了两种交互情境后测量信任度,让他们能形成全面的系统级信任评估。

为了确保测量的准确性和减少问卷负担,不同的测量维度在不同的时间点进行。感知速度在每个任务后立即测量,因为这是对等待时间最敏感的指标;用户体验和任务负荷在每两个任务后测量,因为这些指标相对稳定;信任度在体验完每种反馈策略的所有任务后测量一次,因为信任是对整个系统的综合评估。

三、令人意外的实验结果揭示真相

研究结果令人印象深刻,而且有些发现出乎意料。最显著的发现是,提供中间反馈的策略在所有测量维度上都显著优于仅在最后提供结果的策略。用统计学的话说,这种改善效应从小到大不等,但都具有统计显著性。

最引人注目的是感知速度的巨大改善。当系统提供中间反馈时,用户感觉速度明显更快,这种效应非常强烈。有趣的是,两种策略的实际完成时间是相同的,但用户的主观感受却截然不同。这就像两个人同时开始烹饪,一个厨师不断告知进展,另一个厨师保持沉默到最后才出菜,虽然实际用时相同,但等待的人会觉得健谈的厨师更快。

更令研究者惊讶的是任务负荷的变化。原本预期中间反馈会增加用户的认知负担,因为需要处理更多的交互点。但结果却恰恰相反:提供中间反馈实际上减少了任务负荷,特别是在挫败感方面。用户报告说,当他们知道系统在做什么时,感到更放松和更少挫败。这种现象可以用"信息焦虑"来解释:当人们不知道正在发生什么时,不确定性本身就会产生压力。

用户体验方面的改善也很全面。中间反馈策略在吸引力、可依赖性和风险处理能力三个子维度上都有显著提升,其中风险处理能力的改善最为明显。这表明当用户能看到系统的工作过程时,他们更有信心系统能正确处理潜在问题。

信任度的提升虽然相对较小,但同样具有统计显著性。深入分析发现,这种信任提升主要体现在可靠性和可信度两个子维度上,而在信心维度上没有显著差异。这暗示中间反馈主要通过展示系统的工作过程来建立信任,而不是通过提升用户对系统能力的信心。

任务复杂度对结果产生了有趣的调节作用。研究发现,随着任务时间的延长,仅提供最终结果的策略中用户感知的速度显著下降,而提供中间反馈的策略则能很好地缓解这种负面影响。这说明中间反馈在长时间任务中特别重要,就像长途旅行中需要更多的路标指示一样。

驾驶情境对结果的影响相对有限。虽然研究团队预期在驾驶时反馈策略的效果可能会有所不同,但实际上两种情境(静止和驾驶)下的主要效应模式基本一致。这表明中间反馈的益处具有较强的鲁棒性,不会因为注意力的分散而显著减弱。不过,有一个趋势是驾驶时的任务负荷略有增加,这符合预期,但没有达到统计显著水平。

四、用户期望的智能适应性反馈系统

除了量化实验,研究团队还通过深度访谈揭示了用户对未来智能反馈系统的期望。这些发现为设计更加人性化的AI助手提供了宝贵洞察。

用户普遍表达了一个核心观点:反馈的详细程度应该根据系统的可信度动态调整。就像与一个新朋友交往时需要更多沟通来建立信任,而与老朋友交流时可以更加简洁一样。参与者提到,当系统刚开始使用时,他们希望获得详细的反馈来了解系统的工作方式和可靠性。随着时间推移,当系统证明了自己的可靠性后,用户愿意接受更精简的反馈以提高效率。

这种适应不仅基于时间,还基于任务的特征。用户强调,当任务具有模糊性、高风险性或新颖性时,无论他们对系统有多信任,都希望获得更详细的反馈。比如,当系统需要发送重要邮件或联系重要人员时,用户希望得到确认;而对于选择快餐店这样的低风险决策,他们更愿意让系统自主决定而不需要过多沟通。

外部环境因素对反馈偏好的影响呈现出有趣的分歧。在媒体播放场景中,一些用户希望减少语音反馈以避免干扰,偏向于获得简洁的最终总结。他们说"听音乐时,重复说话很烦人"或"播放播客时,多次重复信息令人厌烦"。然而,另一些用户则坚持认为即使在播放媒体时也应该保持一致的反馈,他们表示"即使有音乐,我也希望在需要时得到反馈"。

社交场景带来了额外的敏感性。一些参与者认为在有乘客时持续的中间反馈可能更加令人疲惫,他们倾向于使用单一的结束总结来避免干扰对话。这反映了人们对社交礼仪的考虑,不希望AI助手的频繁发声影响车内的人际交流。

用户对控制权的需求非常明确。无论系统如何智能地适应情境,参与者都强调需要轻量级的用户控制来调节反馈详细程度。许多人提到了静音功能的重要性,希望能在需要时告诉系统"不要说话"或"保持安静"。这种控制需求在媒体播放或乘客在场时尤其强烈。

一个特别有趣的发现是用户对渐进式信息处理的偏好。参与者对比了接收分步更新与一次性信息转储的体验,普遍认为前者在认知上更轻松。正如一位参与者所说:"这是相同的信息,但一次性全部给出更难吸收。" 这解释了为什么中间反馈策略在任务负荷测量中表现更好。

用户还展现了对系统学习能力的期望。他们希望系统能记住重复复杂任务的处理方式,并在后续类似任务中提供更简化的交互。比如,如果用户经常请求系统规划包含充电站的路线,系统应该学会在后续类似请求中减少确认步骤。这体现了用户对个性化和智能化的期望。

五、设计启示:构建更好的AI交互体验

基于这些发现,研究团队提出了一系列实用的设计建议,这些建议不仅适用于车载助手,也为其他领域的AI系统设计提供了参考。

首要的建议是在长时间、多步骤任务中默认提供中间反馈,特别是在系统采用的早期阶段。研究表明,这种做法在感知速度、用户体验、信任建立和任务负荷管理方面都有显著益处。这个建议在用户还在学习信任系统时尤其重要,因为透明度有助于建立信心。

关于反馈内容的深度,研究强烈建议使用包含实际内容的更新,而不是简单的进度提示。比如说"我找到了张经理的联系方式"比简单的"正在处理中"要有效得多。这种做法有助于维持交流中的共同理解,让用户始终清楚系统在做什么以及为什么这样做。简单的进度条或"正在工作"的提示无法提供这种理解层面的反馈。

对于长期使用的适应策略,建议系统采用"高透明度起步,逐步精简"的方法。系统应该首先通过详细反馈建立透明度,然后随着证明可靠性而逐步减少反馈详细程度。但这种精简必须是可逆的——当系统遇到新颖、模糊或高风险任务时,应该立即恢复到更详细的反馈模式。

情境适应方面的建议更加细致。对于内部任务因素,系统应该根据任务的新颖性、模糊性和风险等级来调整反馈详细程度。新任务需要更多解释,模糊请求需要更多确认,高风险操作需要更多验证。而对于外部情境因素,如媒体播放或社交场合,由于用户偏好差异较大,建议提供简单的用户控制选项,比如临时静音或减少反馈的语音命令。

在技术实现层面,研究为多模态反馈的设计提供了指导。同时使用听觉和视觉反馈被证明是有效的策略,这符合认知负荷理论中关于多重资源的观点。听觉反馈适合在驾驶等主要依赖视觉的任务中使用,而视觉反馈可以提供更持久的信息展示。

研究还为反馈时机的设计提供了具体建议。5秒的更新间隔被证明是有效的,既能保持用户的参与感,又不会过于频繁而造成干扰。这个时间间隔低于注意力保持的上限,同时给系统足够时间完成有意义的工作步骤。

对于跨领域的应用,研究结果表明这些原则可能适用于其他主要任务系统和双任务环境。比如客户服务AI、社交机器人或智能家居助手在执行复杂任务时都可能受益于类似的反馈策略。关键是要确保AI助手和主要任务使用不同的认知通道,以避免干扰。

六、研究的局限性与未来展望

研究团队坦诚地承认了研究的几个局限性。首先,所有参与者都来自同一家汽车公司,虽然涵盖了多个部门并具有不同的人口统计特征,但这可能限制了结果的普遍适用性。不同文化背景、年龄群体或技术熟练程度的用户可能会有不同的反馈偏好。

驾驶情境的模拟虽然提供了一致的认知负荷控制,但无法完全捕捉真实驾驶的复杂性,比如动态交通、环境干扰或紧急情况的处理。此外,这种设计将感知车辆状态与任务需求混合在一起。研究团队认为观察到的效应主要由注意力需求驱动,但未来研究可以通过比较手动驾驶与自动驾驶来更清楚地分离这些因素。

反馈策略的设计也有简化之处。中间反馈以固定的5秒间隔提供,但自适应或情境感知的反馈策略可能会产生不同的结果。同样,反馈总是同时通过语音和视觉通道提供,而不同的模态组合可能会有不同的效果。

时间维度的局限性也值得注意。研究捕捉的是用户对不同反馈策略的即时反应,而长期适应效应只能通过访谈中的自我报告来评估,缺乏来自长期真实使用的行为数据。这为未来的纵向研究留下了重要空间。

尽管存在这些局限性,这项研究为理解AI助手的反馈设计提供了重要基础。它不仅验证了中间反馈在多个维度上的益处,还揭示了用户对自适应反馈系统的复杂需求。这些发现为设计更加人性化、更受信任的AI助手指明了方向。

说到底,这项研究回答了一个看似简单但实际复杂的问题:当AI助手在后台忙碌工作时,它应该让我们知道它在做什么吗?答案是肯定的,但方式需要智慧。就像优秀的服务员会在适当的时候更新顾客关于订单的进展,而不会过度打扰一样,AI助手也需要学会在透明度和效率之间找到最佳平衡点。随着AI系统变得越来越复杂和自主,这种人机交流的艺术将变得越来越重要。毕竟,技术再先进,如果不能与人类和谐相处,就失去了它的真正价值。

Q&A

Q1:车载AI助手提供中间反馈到底有什么好处?

A:研究发现提供中间反馈的车载AI助手在四个关键方面都明显更好。首先是速度感知大幅提升,用户感觉系统响应更快;其次是降低了任务负荷,特别是减少了挫败感;第三是全面改善用户体验,包括吸引力、可靠性和风险处理能力;最后是增强了用户信任,特别是对系统可靠性的信心。最令人意外的是,原本担心的认知负担增加问题根本没有出现,反而减轻了用户压力。

Q2:什么情况下AI助手应该提供详细反馈,什么时候应该保持简洁?

A:用户希望AI助手采用智能适应策略。在系统使用初期,用户需要详细反馈来建立信任和了解系统工作方式。随着系统证明可靠性,可以逐步精简反馈提高效率。但当遇到新颖、模糊或高风险任务时,无论用户多信任系统都应该恢复详细反馈。比如发送重要邮件需要确认,而选择快餐店这样的低风险决策可以简化处理。外部环境如播放音乐或有乘客时,用户偏好分化较大,最好提供简单的控制选项。

Q3:这项研究对其他AI产品的设计有什么启发?

A:研究结果可以指导客户服务AI、智能家居助手、社交机器人等多种AI系统的设计。核心原则是在执行长时间复杂任务时提供包含实际内容的中间更新,而不是简单的"正在处理"提示。关键是要确保AI助手和用户的主要任务使用不同的认知通道以避免干扰。比如用户在阅读时,语音助手的声音反馈就不会造成冲突。5秒左右的更新间隔被证明有效,既保持参与感又不过于频繁。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...