“你说我猜”如何让计算机根据语言描述对应图中物体?西浦研究成果获国际顶级人工智能期刊发表

2021年04月12日

每天,安保摄像头都会记录下大量突发事件,而从监控中寻找嫌疑人员往往会耗费大量人力。那么,能否教会计算机根据目击者证词的描述,直接从监控图像中找到对应人员,从而提高侦查效率呢?

该议题是西交利物浦大学智能工程学院的博士生团队近期研究的重点之一,他们提出一种定位方法,让计算机能基于语言描述从图像中找出对应物体,同时识别范围更广且准确率高。该方法被IEEE模式分析与机器智能汇刊(IEEE Transactions on Pattern Analysis and Machine Intelligence, “PAMI”)收录。

论文第一作者孙铭杰的指导老师肖继民博士介绍,该期刊的影响因子为17.8,是人工智能领域最有影响力的顶级期刊,主要接收人工智能、计算机图像、自然语言处理和机器学习等方向的文章,覆盖面非常广,这也是西浦博士生研究首次登上该期刊。

博士生孙铭杰表示,该方法需要同时处理不在同一维度的图片和语言信息,如何匹配这两个特征,让它们相互认识、交流互动,是整个研究的一个难点。

为解决这个问题,孙铭杰提出了“三段法”,把输入的语言拆分成三个部分:例如“站在桌子上的猫”这句话,可以将它拆分成“猫”(比较对象)、“桌子”(被比较对象)和“在上面”(他们之间的关系)三个部分。生成这样的三元组后,再把每个部分分别与图中物体进行匹配,同时满足三个特征并且相似度最高的一组图像即为输出结果。

(图片说明:上图中红字为比较对象,蓝字为被比较对象,绿字为他们之间的关系。)

“之前的研究会把整句话提取出一个特征来进行匹配,这样会导致有效信息提取不准确。”孙铭杰介绍说,“而使用三段法对每个部分分别进行匹配,不仅能使计算机的训练过程更简单、识别效果更好,而且能适用于更多复杂的语句。”

(图片说明:上图为采用不同方法的识别效果,第二列使用的是博士生孙铭杰提出的方法。)

“人们会用不同的方式去形容物体,我们提出的这个方法没有规定应该怎样表述语言,这就要求语言处理不受无关因素干扰的能力要非常强,才能够同时应对各种各样残缺、复杂、少见的语句。”

“从图像层面来说,之前的一些研究会规定可识别物体的类别,而我们的方法没有类别限制,这就要求这个算法要有更高的辨识能力和拓宽自身知识的能力,既能识别常见类别,也能认识特殊类别。”孙铭杰补充道。

(图片从左到右依次为:林永义教授、孙铭杰、肖继民博士。)

孙铭杰的导师肖继民博士表示:“该方法在各个数据集上的表现都十分不错,下一步我们会考虑用深度学习神经网络模型来取代目前人为设定规则的算法,更全面地理解不同语法,提取三元组。”

孙铭杰是由西浦智能工程学院院长林永义教授和肖继民博士共同指导的博士生。林教授表示:“在囊括语言、图像信息的多模态领域,如何处理图片和语言信息交融的问题是最近比较流行的一个研究方向。我们非常高兴能够看到智能工程学院的博士生不断探索前沿技术,并有所成就。”

(记者:金画恬 编辑:胡秋辰)

2021年04月12日