在嘈杂环境中进行对话,常常面临令人困扰的“鸡尾酒会问题”,即难以从背景喧嚣中清晰分辨出对话伙伴的声音。这一挑战不仅需要高度集中注意力,对于听力受损者而言更为艰巨。
为应对这一普遍难题,华盛顿大学的研究团队开发出一种智能耳机,能够主动将佩戴者所有对话对象的声音从混杂的声场中分离出来。该耳机搭载的人工智能系统包含两个核心模块:一个用于检测对话的节奏与轮换模式,另一个则负责抑制不符合该模式的其他声音及无关背景噪声。原型设备采用市售通用硬件构建,仅需采集两到四秒的音频,即可准确识别出当前对话伙伴。
研究团队指出,这项技术未来有望应用于助听器、耳塞及智能眼镜等设备,帮助用户自动过滤声音环境,无需手动调整人工智能的“关注焦点”。
该成果已于11月7日在中国苏州举办的“自然语言处理实证方法会议”(Conference on Empirical Methods in Natural Language Processing)上发布。其底层代码已开源,可供公众下载使用。
“目前判断佩戴者正在聆听何人的方法,大多需要依赖植入大脑的电极来追踪注意力,”资深作者、华盛顿大学保罗·G·艾伦计算机科学与工程学院教授夏姆·戈拉科塔(Shyam Gollakota)解释道。“我们的思路在于,人类在与特定对象交谈时,语音会自然呈现交替轮换的节奏。我们仅通过音频数据训练人工智能来预测和跟踪这种节奏,无需任何电极植入。”
该原型系统被命名为“主动聆听助手”(Target Speech Hearing),在佩戴者开口说话时自动激活。系统首先通过“谁在何时说话”的实时分析,追踪对话参与者的语音交替模式,并识别重叠度较低的对话段落。随后,第二个模型对目标说话人的语音进行分离与增强,并将处理后的清晰音频播放给佩戴者。该系统响应迅速,可避免因音频延迟导致的理解混淆,目前最多支持同时处理四名对话参与者及佩戴者自身的语音。
研究团队招募了11名参与者对耳机性能进行测试,分别评估其在使用AI过滤与未使用情况下的降噪效果与语音可懂度。结果显示,参与者对经过AI处理后的音频质量评分,比未处理基准音频高出两倍以上。
原型设备由市售降噪耳机改造而成,双耳外侧各加装一枚黑色卷曲型麦克风。戈拉科塔团队近年来持续探索人工智能在助听设备中的应用,先后开发出能根据佩戴者视线方向锁定特定说话人声音的智能耳机,以及通过在一定距离内抑制所有声音来营造“个人声学空间”的耳机原型。
“我们以往的研究都需要用户手动选择特定说话人或聆听范围,这在实际体验中并不理想,”论文第一作者、艾伦学院博士生胡桂林表示。“这次展示的技术是主动式的——它能够以非侵入方式自动推断用户意图并执行相应操作。”
尽管如此,该系统在用户体验方面仍有提升空间。当对话动态增强、参与者频繁打断或进行较长独白时,系统的处理难度将增加。尽管戈拉科塔对原型在复杂场景中的表现感到惊喜,但对话者中途加入或离开等情形仍构成技术挑战。研究团队也指出,当前模型已在英语、普通话和日语对话中经过测试,而其他语言特有的对话节奏可能需要进一步适配优化。
目前该原型采用商用头戴式耳机、麦克风及电路组装而成。戈拉科塔期望未来能将系统进一步微型化,集成到耳塞或助听器内的微型芯片中。与此同时,团队在2025年移动计算与网络国际会议(MobiCom 2025)上发表的并行研究成果,已论证了在微型助听设备中运行人工智能模型的可行性。
本研究合作者包括华盛顿大学艾伦学院博士生陈拓超(Tuo Chen),以及华盛顿大学电气与计算机工程系博士生马利克·伊塔尼(Malek Itani)。项目经费由摩尔发明家学者项目(Moore Inventor Fellows program)提供。

