2020年01月16日
近日,西交利物浦大学电气与电子工程系关于弱监督语义分割的研究成果被第34届人工智能领域顶级会议AAAI大会spotlight论文收录,该项目也在2019年获得了国家自然科学基金面上项目的资助。
据论文的第一作者、电气与电子工程专业博士生张冰峰介绍,他们的论文是中国首个单模型弱监督语义分割研究。张冰峰的指导老师肖继民博士表示:“建立端到端可测试的(即单模型)弱监督语义分割一直是计算机视觉研究的难点,我们的研究成果不仅提高了模型的鲁棒性,同时也提高了测试精度。我们提出的方法在节省人力标注投入、缩短耗时的同时,提高了计算机图像识别的准确率,最后的测试性能甚至超过了目前学术界最好的非端到端模型。”
语义分割是人工智能领域的重要分支之一,是通过将图像中的像素进行分类来识别图像内容,这项技术被广泛应用于地理信息系统、无人驾驶、医疗影像分析等领域,而弱监督语义分割的研究也是这一分支中的前沿研究方向。
张冰峰解释道:“当我们给计算机进行强监督语义分割训练的时候,需要对大量样本图片进行像素级别的人工标注,比如说图片中有人、车和道路,需要人工标注出哪些像素分别属于人、车或道路,每一张图的每一个像素都需要标注其类别;计算机在‘学习’了这些标注过的图片之后,就可以通过分辨像素来识别出新的图片中有什么。”
“但这种强监督语义分割需要投入大量的人力成本,弱监督语义分割就是希望减少人工标注——只进行图像级别的标注,即只需要提供这张图片中有什么,而不需要对每个图像的像素进行标注。”
他补充说,当前大多数弱监督语义分割都需要至少两个模型,第一个模型通过图像的显著特征定位种子点,第二个模型通过延伸种子点定位整个图像的位置。“比如图片中有行人,计算机通过第一个模型定位出行人的头部,通过第二个模型定位出整个行人的位置。”
“两个模型的优势是任务明确,但劣势是训练周期长,而且需要人工设置很多参数。”张冰峰说,“我们提出的单模型可以同时进行两个任务,因此耗时更短、更节省人力。”
通过计算机视觉领域公开数据集Pascal VOC的测试,张冰峰提出的单模型弱监督语义分割明显优于另外一个英国学者的单模型方法。为了优化性能,张冰峰和团队在单模型的算法基础上提出了两个双模型方法,测试结果也优于其他弱监督语义分割。
(图片说明:Pascal VOC数据集的定性测试结果。a行至d行依次为原始图片、官方提供的真实值、英国学者的单模型、张冰峰和团队提出的单模型,e行和f行是张冰峰和团队提出的两个双模型方法。)
肖继民博士表示,论文提交到arXiv平台之后,收到了包括北京大学在内的国内多所高校研究人员的积极反馈,将在后续合作中共同深入弱监督语义分割的研究。
(记者:胡秋辰)
2020年01月16日