西浦学者让助听器也能“看得见”

新闻

听觉作为人类感知手段之一,几十年来一直是不少研究人员的重点领域。西交利物浦大学计算机科学与软件工程系的Andrew Abel博士和他的团队设计了一个新系统,他们在助听器中加入了捕捉人说话时唇形特征的视觉信号,以提高助听器的使用效果。他们的最新研究成果也在2018年IEEE计算智能研讨会(IEEE-SSCI 2018)上进行发表。

Abel博士介绍说,很多传统的助听器都是通过放大患者接收不到的声音频率来达到助听效果;有些助听器内安置了除噪音的算法,能够降低对话之外的声音音量;还有一些带有定向麦克风,能够探测到来自某些特定方向的声音。

“但是人们聊天的时候不仅仅是靠声音来交流的。”Abel博士说,“人们还会相互观察面部表情、肢体语言,而且或多或少都会观察对方的唇部动作。”

比如,当人们听到“ba”这个音节,但是看到的是“fa”这个音节的唇部动作,人们就会误以为自己听到的是“fa”甚至是“va”。(请看下面的视频)


“这被称为‘麦格克效应’。” Abel博士解释说,“大脑在同时接收到一个视觉信息和一个听觉信息的时候,有可能视觉信息会覆盖掉听觉信息并造成视听幻觉。”

这种现象充分展示了视觉信息在谈话中的重要性。因此Abel博士和他的团队一直在思考:如何才能开发出接收声音以外信息的机器?如何让这些机器像人类一样去“听”?

Abel博士在就职于苏格兰斯特灵大学时和Amir Hussain教授一起研究过助听科技,他们尝试把一个可穿戴的小型照相机连接到助听器上,让系统同时处理接收到的听觉和视觉信息。在这些视觉信息中,会影响系统处理结果的是唇部动作、嘴巴张开或闭合、宽度及深度等唇形特征。

受到之前研究的启发,Abel博士、西浦计算机系毕业生高成翔以及斯特灵大学研究人员联合开发了一个新系统,专门记录唇形特征信息并建立唇部的3D模型。

(上图:西交利物浦大学研究人员开发的嘴部动作捕捉方法。)

“这个3D模型可以用来确定说话时的音量和音调特征,这些特征有利于提高助听器的降噪功能,也能运用于我们在研究的唇语读取。” Abel博士补充说。

他正在指导一项将唇读科技运用于对外汉语教学的毕业设计,只要系统接收到正确的视觉和听觉信号就可以区分不同的中文发音,这些信息会自动反馈给学习汉语的人。

“中文是一种声调语言,发音和其他语言不太一样,学好正确发音是有一定难度的。”

Abel博士研究的另一个领域是利用图像识别技术来改善助听器过滤噪音的效果。例如,摄像机可以识别出用户所处的环境是安静的办公室还是喧闹的酒吧,根据环境的不同可以采取不同的噪音过滤方法。

“在大脑处理声音的时候,感知效应是非常重要的一部分。” Abel博士说。

比如人们会根据环境声音的大小来调整自己的说话声音,这被称为“伦巴效应”。此外,听力正常的人在嘈杂的环境中也可以进行高效沟通,这是因为大脑自动忽略掉了其他人的说话声音以及无关的环境音,这被称为“鸡尾酒会效应”。

“目前我们无法将所有视觉信息整合到助听器中,但是我们正在朝着‘感知型助听器’这个方向努力。”

Abel博士和他的同事希望能够将词语识别和预判对话结合,同时整合环境识别及其他视觉信息处理手段,有一天能创造出能够像人一样“思考”的改进型助听器。

“在我们理解并复制人耳处理声音的过程时,我们不仅能改良助听器科技,还学到了很多关于人类自身及人脑思维运作方式的知识。”他说。

(记者:习丹义 翻译:肖波强 编辑:胡秋辰)

(图片提供:西浦计算机科学和软件工程系 其它图片:Shutterstock)

Tagged as: 工程与技术 科研

分享

  • 了解更多信息请联系

  • 姓名

    市场与交流办公室
  • 电子邮件

    [email protected]