又为智能开源听力界首个多阶段听力图自动识别系统


听力行业通讯 编者注
简单地说,又为这套方案能够实现“一键识图”功能。这个功能可以得到更多衍生运用。例如客服快速批量导入听力图,用户通过手机APP扫描听力图等等。
如果

 

听力行业通讯 编者注

简单地说,又为这套方案能够实现“一键识图”功能。这个功能可以得到更多衍生运用。例如客服快速批量导入听力图,用户通过手机APP扫描听力图等等。

如果从图像识别的角度出发,运用在听力图上,也并非难上天的技术。这套方案更大意义在于,跳脱出常规听力学的学术研究范畴,去解决一个简单但被忽略的小问题。

来自美国UC Berkeley、UCLA、斯坦福、Caltech等国际知名院校的上海又为智能科技团队,致力于将AI技术引入传统助听器,深耕于深度学习算法开发与智能医疗领域研发,打造国际一流的智能助听器与健康科技品牌。

原论文链接:

代码链接:

听力图,通常用来描述人们的听觉能力。通过听力图,听力师可以为听力受损人群推荐、调整合适的助听器。

自从美国FDA发布OTC助听器提案以来,消费类助听产品行业热度与日俱增。可以预见的是,没有专业听力师调配的助听产品将更依赖自动化的验配流程才能给用户提供更好的助听效果。

因此,听力图自动识别旨在帮助助听器厂商更快、更便捷地识别听力数据,而无需人工干预。

值得注意的是,苹果在去年5月的系统新版本预览中也提及了听力图识别将会加入到未来发布的iOS系统里。但苹果系统基本都是闭源的,存在限制性,又为智能开源的数据库及模型更利于同行集思广益,共同推动行业进步。

听力图自动分类

以往有一些对听力图进行自动分类的工作,这些模型能够根据听力图判断一个用户是否有传导性听力损失、感音神经性听力损失,或混合性听力损失。

但是他们无法提取听力图的完整信息,即用户在不同频率的听力水平数值,这些数据对助听器验配极为重要。因此,这些模型并不适用于助听器验配。

听力图识别的研发

与听力图分类任务相比,听力图识别的任务要求提取听力图的完整信息,这更有挑战性。

为此,研究者创建了由420张在各种环境下拍摄的听力图照片构成的数据集Open Audiogram,并提出了一个基线多阶段听力图识别网络(MAIN)。

该模型首先识别出图表区域,随后预测图表区域的透视扭曲且加以校正。

在校正过后的图像上,该模型通过定位坐标轴、刻度和折线上的听损符号以读取听力图的数据。

又为智能开源听力界首个多阶段听力图自动识别系统

(420张听力图照片举例。例如,有些有其他物体的投影,有些放置了签字笔等遮挡物,有些听力图纸被扭曲、折叠。)

三阶段进行听力图识别

研究者设计了一个多阶段的听力图识别网络,这是首个能够得到听力图完整信息,即获取用户各个频率上听损程度的网络结构。

具体来说,该网络可分为三个阶段,听力图检测、透视矫正、坐标轴与符号检测。

#第一阶段#

由于输入图片可能含有除听力图以外的其他背景信息,研究者先利用Faster-RCNN对听力图进行整体检测,并进行截取。这一步排除了输入图片中的其他干扰信息,方便了后续识别步骤。

#第二阶段#

为了提高识别结果的准确率,研究者提出了两种方法来解决透视失真问题。

透视失真是在照片中经常会出现的情况。由于视角问题,在现实中平行的直线在照片上可能并不平行。

对于听力图识别而言,透视失真会使得听力图的边框不再平行,因而导致读数精度下降。

为此,研究者提出了两种方法进行透视矫正,其一是基于线条检测的方法,其二是基于Mask-RCNN的方法。

#第三阶段#

为了获得各个频率上的听损程度,研究者先对听力图的坐标轴进行了检测。

他们利用Faster-RCNN检测了频率轴与声音响度轴的刻度,然后对它们的位置和数值分别使用了RANSAC算法,在空间维度和数值维度上排除了错误的检测结果,并拟合出了相对应的坐标轴。

接着,研究者再用Faster-RCNN检测了听力图中的各个频率上的听损符号。

最后,他们将每个符号分别投射到拟合出的两个坐标轴上并进行读数,就能获得该符号对应的频率与听力损失。

(听力图识别网络分为听力图检测、透视矫正、坐标轴与符号检测三个阶段。)

听力图识别的结果如何

研究者在他们开源的数据集上进行了训练与测试,在此基础上,对听力图识别的最终结果进行了详尽的测试,对听损识别准确率、频率识别准确率和整体识别准确率都进行了统计。

结果显示,研究者提出的方法对于听损识别的查准率可达86%,对于频率识别的查准率可达96%,就整体识别而言,识别查准率可达84%,并且95%的数据与真实数值的误差不超过5 dB HL。

此外,研究者还在30张扫描的听力图上进行了测试并得到了出色的结果。结果显示,研究者提出的方法达到了超过98%的查准率。

总结

研究者推出了首个为听力图识别而设计的数据集,用于作为评估听力图识别模型的标准。

另外,他们设计了多阶段的听力图识别网络,第一阶段完成听力图检测,第二阶段进行透视矫正,第三阶段得到识别的坐标轴与符号从而进行读图。

研究者表示,该系统虽然能够全自动地完成听力图的识别,但是识别精度,特别对于复杂的骨导、气导结果混叠在一起的情况,仍有待进一步提高。

同时,由于使用了多阶段的计算机视觉技术,计算速度也仍有可提升的空间。

欢迎大家尝试文中的数据集,一同推动行业的进步。

授权说明

本文转载自:壹听健康,如需转载请联系原公号。本文为听力行业通讯经授权转载,转载目的在于传递更多信息,并不代表听力行业通讯赞同其观点和对其真实性负责。

版权声明

转载文章所包含的文字和图片来源于原公号。如因作品内容、版权等存在问题,请于本文刊发30日内联系听力行业通讯进行删除。

免责声明:本文来自腾讯新闻客户端创作者,不代表腾讯网的观点和立场。

相关推荐

留言与评论(共有 0 条评论)
   
验证码:
'); })();