佩戴者只需看一眼人工智能耳机就能在人群中听到某个人说话

发布时间:2024-07-02 15:56:22 栏目:生活

    导读 降噪耳机在创建听觉空白方面已经非常出色。但允许佩戴者环境中的某些声音通过消除器传播仍然是研究人员面临的挑战。例如,最新版本的 Appl...

    降噪耳机在创建听觉空白方面已经非常出色。但允许佩戴者环境中的某些声音通过消除器传播仍然是研究人员面临的挑战。例如,最新版本的 Apple AirPods Pro 会自动调整佩戴者的音量(例如,感知他们何时在交谈),但用户几乎无法控制要听谁说话或何时发生这种情况。

    华盛顿大学的一个研究小组开发了一种人工智能系统,让戴着耳机的用户注视说话者三到五秒钟,以“记录”他们的声音。该系统名为“目标语音听力”,然后消除环境中的所有其他声音,只实时播放已记录的说话者的声音,即使听众在嘈杂的地方四处走动,不再面对说话者。

    该团队于 5 月 14 日在檀香山举行的 ACM CHI 计算机系统人为因素会议上展示了其研究成果。概念验证设备的代码可供其他人使用。该系统尚未上市。

    “我们现在倾向于将人工智能视为基于网络的聊天机器人,用于回答问题,”华盛顿大学保罗·艾伦计算机科学与工程学院教授、资深作者Shyam Gollakota说道。“但在这个项目中,我们开发了人工智能,根据佩戴耳机的人的偏好来修改他们的听觉感知。有了我们的设备,即使你身处嘈杂的环境中,有很多人在说话,你现在也可以清楚地听到单个说话者的声音。”

    要使用该系统,佩戴配有麦克风的现成耳机的人需要点击按钮,同时将头转向正在说话的人。然后,来自该说话者声音的声波应同时到达耳机两侧的麦克风;误差幅度为 16 度。耳机将该信号发送到板载嵌入式计算机,团队的机器学习软件会在那里学习所需说话者的声音模式。系统会锁定该说话者的声音并继续将其播放给听众,即使这对说话者四处走动。随着说话者不断讲话,系统专注于已注册声音的能力会提高,从而为系统提供更多训练数据。

    该团队对 21 名受试者测试了该系统,受试者对注册说话者声音的清晰度的评价平均几乎是未过滤音频的两倍。

    这项工作以团队之前的“语义听觉”研究为基础,该研究允许用户选择他们想要听到的特定声音类别(例如鸟叫声或声音),并取消环境中的其他声音。

    目前,TSH 系统一次只能注册一个说话者,并且只有在没有其他与目标说话者声音相同方向的大声声音时,它才能注册说话者。如果用户对声音质量不满意,他们可以对说话者进行另一次注册以提高清晰度。

    该团队正在致力于未来将该系统扩展到耳塞和助听器。

    该论文的其他合著者包括华盛顿大学艾伦学院的博士生Bandhav Veluri、Malek Itani和Tuochao Chen ,以及 AssemblyAI 研究主任Takuy​​a Yoshioka 。这项研究由Moore Inventor Fellow奖、Thomas J. Cabel 捐赠教授奖和华盛顿大学 CoMotion 创新差距基金资助。

免责声明:本文由用户上传,如有侵权请联系删除!