如何使文字识别准确率更高?西浦学者提出场景文字矫正新方法在国际会议上获奖

2021年02月04日

近日,智能工程学院苏州市认知计算应用技术重点实验研究人员提出了一种场景文字矫正方法,有助于提升场景文字识别的准确率,关于该方法的论文在第二十七届国际神经信息处理大会ICONIP 2020上获奖。

据论文的第一作者智能工程学院博士生李菁介绍,场景文字识别是指识别自然场景图片中的文字,它是模式识别领域中的一个重点问题,有着广泛的应用,例如识别快递单,路牌,街边店铺名称等。然而,自然场景中的文字图片往往具有复杂的背景、弯曲旋转的文本行和不同大小颜色亮度的字体,给准确识别文字带来了难度。

(图片说明:生活中常见的场景文字。)

“我们这次的研究集中在场景文字矫正上,它是在识别之前的一个环节,能够把不规则的文本矫正成规则的文本,让倾斜或者弯曲的文字先变成一个比较水平的状态,从而减小识别难度,提高准确率。”她补充道。


(图片说明:上图左侧为原图,右侧是矫正后的效果,矫正后的文字更为水平且规则。)

博士生李菁表示,目前的矫正方法主要有两种:

第一种,矫正和识别的过程是完全独立的,矫正不考虑识别的结果,因此,矫正出来的图片可能不利于后续的识别;

第二种是端到端识别,也就是把矫正方法嵌在识别方法的前端,先矫正后识别,但是这类方法只考虑识别的结果,如果识别的性能好,则默认矫正也是好的。然而,这可能会使矫正模型产生恒等变换,即在文字没有得到矫正却仍被识别出来的情况下,矫正模型失效。

针对这两种情况,她提出了一个基于对抗学习的场景文字矫正方法,该方法能够兼顾识别效果与矫正性能,尽量避免以上这些问题。之后,她将对严重弯曲的场景文本的矫正和自然场景文本的识别继续进行研究。

李菁的指导老师王秋锋博士指出:“该方法不仅考虑了矫正的性能,还考虑了后续的识别效果,能够更好地为场景文字识别服务。”

关于这一方法的论文在第二十七届国际神经信息处理大会ICONIP 2020上荣获Runner-Up论文奖,是该会议评选出的4篇获奖论文之一。

智能工程学院科研副院长、认知计算应用技术重点实验室主任黄开竹教授表示:“这是认知计算应用技术重点实验室近年来获得的第5个最佳论文奖,表明该实验室在人工智能和模式识别领域的研究水平已经得到了国内国际同行的广泛认可。”

苏州市认知计算应用技术重点实验室依托于西浦智能工程学院,主要研究方向为模式识别,认知计算,机器学习及其在文本,图像,声音和视频中的应用。

ICONIP会议是亚太地区神经网络方面的重要会议之一,此次会议收录LNCS论文187篇,接受率为30.3%,其中共评选4篇获奖论文,分别为最佳论文奖,Runner-Up论文奖,最佳学生论文奖,Runner-Up 学生论文奖

记者:金画恬

编辑:寇博

图片提供:李菁

2021年02月04日