2026年04月16日
在人工智能从“能识别”走向“能理解”的关键阶段,西交利物浦大学研究团队在计算机视觉领域取得新进展。
计算机视觉领域的“风向标”
近日,2026年国际计算机视觉与模式识别会议(CVPR 2026)公布了论文录用结果。西交利物浦大学肖继民教授团队的MMT Lab共有11篇论文入选,其中包括7篇主赛道(Main Track)论文和4篇发现赛道(Findings)论文。
作为计算机视觉领域全球规模最大、影响力最强的顶级学术会议之一,CVPR的录用标准极为严格,其刊登的成果往往代表了该领域最前沿的技术走向和科研机构的创新竞争力。
肖继民教授表示,此次入选是团队连续第七年在CVPR取得成果,今年不仅在数量上实现增长,研究内容也较以往更加系统,覆盖了多场景、多模态和持续学习等多个方向。
“相比过去更偏向单一场景、单项任务精度的研究,今年的成果更强调AI在真实世界中的适应能力和技术的实用性。”他说。
逆向思维:通过“识正常”来“找错误”
在工业生产中,产品的缺陷往往是随机且不可预见的。如果让AI去学习所有的缺陷特征,往往会因为“没见过”新型缺陷而导致漏检。

团队在工业质检与异常检测领域采取了逆向思维:不再试图让模型穷举所有可能的错误,而是让它深度学习产品在理想状态下的“稳定特征”。他们开发了一种全新的残差学习方法,让人工智能(AI)通过对比当前产品和“正常样本”,自动找出微小的异常。这种方法既精准,又能应对各种复杂缺陷。
在此基础上,团队进一步引入多模态检测方法。它无需额外训练,就能让AI同时利用多种数据类型分析图片,并在不同图片中自动找到相似目标。即使背景复杂,AI也能保证识别准确率,并提取关键特征。由于不用为每个场景单独训练模型,这种方法可以快速推广到更多领域,大大提升检测的通用性和效率。
降低门槛:让AI在“信息不足”时也能精准判断
传统的高质量图像分割往往依赖大量精细的人工标注,画出每个目标的边界,来训练AI识别。这在医疗影像、卫星遥感等数据稀缺的领域,成本极高。

因此,团队提出了“频率感知框架”,这种方法让AI先关注物体的整体形状、颜色等“低频信息”,再处理毛发纹理、边缘细节等“高频信息”。这样先整体后细节的方式,分割出来的物体既完整,边界也精准。
此外,团队还改进了语言辅助图像分割。过去,AI根据文字描述来识别目标时,一旦画面里的物体长得有点“超纲”,就容易认错。于是,团队引入了“动态组装机制”,让AI能根据文字描述与实际画面,灵活地推断出当前图中哪些形状、颜色、纹理组合起来最符合要求。
这一研究有望显著降低AI在专业领域的应用门槛,让数据资源有限的行业也能享受高精度的视觉识别技术。
进阶之路:让AI“学新”也“记旧”
AI是否能像人类一样,在学习新知识的同时不忘记旧知识?这是持续学习(Continual Learning)领域的核心难题。MMT Lab针对这一难题,将研究重点从单纯的“防遗忘”转向了“温故知新”。通过模拟人类的复习与总结机制,AI在接触新场景时,能自动提炼并升华原有知识的精华。
此外,团队还创新性地提出了利用“类原型”进行模式校准的方案,有效解决了新旧知识冲突导致的性能波动,确保了AI在长期进化过程中的稳定性。
本次入选CVPR 2026的11篇论文,由西交利物浦大学肖继民教授团队联合利物浦大学、上海人工智能研究院及北京交通大学等多家国内外知名机构共同完成。研究涵盖了异常检测、图像分割、弱监督学习、多模态大模型和持续学习等多个前沿方向,展现了团队在计算机视觉细分领域的持续深耕与系统性优化。
(记者:金画恬 编辑:寇博)
2026年04月16日