如何快速分割视频中的人物和背景?西浦博士生在计算机视觉领域国际顶级会议发表研究成果

2020年05月26日

弹幕作为一种新的互动方式,近年来逐渐在各大视频网站推广开来。在享受弹幕带来的陪伴和热闹的同时,你会不会也有观感被影响的时候?如今有一项新的技术可以把视频中的人和背景分割开来,为观众带来更好的体验。

西交利物浦大学智能工程学院学者的研究为这项技术带来新的发展,他们提出的模型在大幅度提升速度的同时还提高了识别的准确率。

该研究成果于近日收录于计算机视觉领域最顶级的IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,CVPR),这也是西浦第一篇以第一作者和第一单位身份收录于该会议的文章。

(图片说明:来自bilibili弹幕视频网站UP主洪千辰的视频画面,弹幕会在人物背后“穿过”。)

据论文的第一作者、电气与电子工程系博士生孙铭杰介绍,他们的研究使用了强化学习算法来解决如何快速、准确地跟踪到视频中的对象并将其与视频背景进行分离的问题。这项技术能够被广泛应用在视频弹幕、影视制作等领域,未来甚至有可能让电影特技拍摄告别绿幕,直接在复杂背景中进行抠图。

(图片说明:运用不同方法进行视频对象分割的效果。由上到下依次为官方提供的真实值、西浦团队提出的方法、SiamMask算法和RGMP算法,J值越大精确度越高。)

孙铭杰的指导老师肖继民博士指出,强化学习在人工智能领域内是一项非常前沿的技术,目前关注度很高,比如战胜了围棋世界冠军的人工智能机器人AlphaGo就是其中的知名应用。

“使用强化学习算法研究视频对象跟踪与分割的过程中有一些很容易被忽视的技术难点,作为老师应该鼓励博士生紧跟这些最前沿的技术,挑战有技术深度和应用前景的课题。”他说道。

孙铭杰把研究重点放在目标模版的判定这一细节上。通过使用强化学习算法训练模型,它可以智能、自主地完成“是否要用新的识别对象去替换原有的目标模板”这一决策判定。

他解释道:“当计算机识别视频中的对象时,首先需要一个参照物来和视频中的对象比对,这个参照物就被称作目标模版,它可能是被识别对象的照片或者其在其他视频中的截图。”

“当计算机根据目标模板识别出了视频中某一帧的对象后,理论上来说这一帧的对象是可以替换原有的目标模板来进行后续信息识别的,因为它更接近视频里的真实信息。但因为视频是动态的,可能这一帧的精确度并不高,或者周围有遮挡物,如果这种情况下依旧用它进行后续识别的话,识别的精确度就会下降,甚至会导致目标模版损坏、无法继续识别。”

孙铭杰表示,在使用强化学习算法训练这个模型后,它可以主动学习提升,能够像一个“智能开关”一样自主决定是否需要替换模板,“和以前手写很多规则的解决办法相比,我们提出的模型覆盖的规则更为全面,而且节省人力。”

测试结果表明,他们的模型在速度和质量两方面都有所提升,对视频对象进行追踪与分割的工作效率明显优于其他几组。

(图片说明:在CVPR会议提供的DAVIS2017数据集中不同方法的测试结果。横轴为时间由短到长,纵轴为精准度由低到高,绿色星星代表西浦团队提出的方法。)

(图片从左到右依次为:林永义教授、孙铭杰、肖继民博士。)

孙铭杰是由西浦智能工程学院院长林永义教授和肖继民博士共同指导的博士生。林教授表示,作为博士生第一年的研究项目就可以成为西浦首篇发表在CVPR会议上的文章,这是对学生探索能力和老师教学能力的肯定。“在这个过程中,不论师生都颇有收获,这也是我们在做科研的过程中紧贴研究导向型教学理念的一种体现。”

(记者:胡秋辰 金画恬 编辑:寇博 摄影:赵宸绪)

指导老师简介

林永义(Eng Gee Lim)教授

电子与电气工程系教授

英国工程技术学会会士(IET Fellow)

英国皇家特许工程师

林教授于2002年毕业于英国诺森比亚大学,获得电气工程学博士,后就职于全球知名的通讯系统公司安德鲁公司。于2007年加入西浦,现任西浦智能工程学院院长。

林教授在中外环境下积累了广泛的科研、教学、学科建设、工商企业合作、国际合作以及管理方面的经验。他的科研方向包括人工智能,虚拟现实应用,机器人,智能医疗,射频/微波工程等。他主持并参与完成了多个科研及企业合作课题

林教授是英国和澳洲工程与技术学会会士、英国高等教育学会资深会士、英国和澳洲皇家特许工程师、美国电气与电气工程学会高级会员。获中国国家专利授权17项,发表学术论文及专著100余篇。

肖继民 博士

电气与电子工程系副教授

2013年取得英国利物浦大学博士学位,2013年至2014年任芬兰坦佩雷科技大学信号处理系高级研究员,诺基亚研究中心研究员。

肖博士的研究项目获得了多项国家自然基金(青年和面上)的支持。研究兴趣有图像视频处理、计算机视觉、深度学习等。简单来说就是如何让电脑看懂图像或者视频里面的内容,从而具有类似人脑的理解力。肖博士近几年在CVPR, AAAI, IEEE Transactions, pattern recognition顶级会议和权威期刊发表了论文20多篇。

2020年05月26日

中国首个单模型弱监督语义分割研究:西浦学者为图像识别提供更优方案
科技
西浦故事

中国首个单模型弱监督语义分割研究:西浦学者为图像识别提供更优方案

近日,西交利物浦大学电气与电子工程系关于弱监督语义分割的研究成果被第34届人工智能领域顶级会议AAAI大会spotlight论文收录,该项目也在2019年获得了国家自然科学基金...

阅读更多