CN / EN
banner图
掌握核心技术 驾驭光的运用

产品中心

腾讯优图实验室荣获CVPR 2023视觉异常检测挑战赛冠军助力工业AI

日期:2024-01-18 来源:产品中心
设备概述

  近日,腾讯优图实验室在CVPR2023(IEEE国际计算机视觉与模式识别会议)中斩获了视觉异常检测(VisualAnomalyandNoveltyDetection,VAND)挑战赛的冠军,这一荣誉标志着腾讯优图在工业AI领域的技术实力和创造新兴事物的能力得到了权威机构的认可。

  无监督图像异常检测是计算机视觉领域的重要研究方向,其目标是通过仅使用正常图像进行模型训练,在测试时能够准确地区分正常和异常图像。在工业外观质检、产品零件安装检测和智能安全视频等领域,无监督异常检测技术具有巨大的研究意义和应用价值。工业领域对于视觉异常检测的需求日渐增长。在工业生产过程中,不正常的情况可能会引起质量上的问题、安全风险隐患甚至设备故障。传统的异常检测的新方法往往需要人工参与,效率低下且易受主观因素影响。而基于AI的视觉异常检测技术可以通过高效的自动化方式,快速识别和定位不正常的情况,来提升生产效率和产品质量。

  腾讯优图实验室与浙江大学合作,在Zero-shot异常检测赛道中提出了创新的解决方案。通过结合文本提示和图像特征对比的方法,该方案在测试集上取得了优异的成绩,综合F1-max指标达到0.4589,超越了其他参赛队伍。这在某种程度上预示着提出的模型能够在未见过异常样本的情况下,准确地识别和分割异常图像。以下可分为三点;

  基于WinCLIP[3]异常分类框架,我们提出了一种文本提示集成策略,在不使用复杂的多尺度窗口策略的基础上明显提升了Baseline的异常分类精度。具体地,该集成策略包含template-level和state-level两部分:

  模板和状态提示与样本类别名称结合后,使用CLIP文本编码器提取文本特征,并对正常和异常特征分别求平均值。*终,将正常与异常特征各自的平均值与图像特征作对比,经过softmax后得到异常类别概率作为分类得分,见下图中蓝色Zero-shotAnomalyScore流程。

  类比图像级别的异常分类方法到异常分割,一个自然而然的想法是将Backbone提取到的不同层级特征与文本特征进行相似度度量。然而,CLIP模型是基于分类的方案进行设计的,即除了用于分类的抽象图像特征外,没有将其它图像特征映射到统一的图像/文本空间。因此我们提出了一个简单但有效的方案来解决这一个问题:使用额外的线性层将不同层级的图像特征映射到图像/文本联合嵌入空间中,见上图中蓝色Zero-shotAnomalyMap流程。具体地,不同层级的特征分别经由一个线性层进行联合嵌入特征空间变换,将得到的变换后的特征与文本特征作对比,得到不同层级的异常图。*后,将不同层级的异常图简单加和求得*终结果,具体实现可参考技术报告和源代码。官方的测试数据集上提出的方法在综合F1-max指标上达到0.4589,相较于其他众多参赛队伍有着非常明显的优势,获得了该赛道冠军,证明了所提方法的优越性和泛化性。

  得益于简单的结构,我们结合基于memory的PatchCore[5]思路将方法扩展到Few-shot赛道,在不进行任何调参的基础上获得了积极竞争的结果,获得了该赛道荣誉提名奖,我们会在后续工作中进一步探究该方法在Few-shot上的应用潜力与价值。

  该解决方案不仅在Zero-shot异常检测赛道表现出色,腾讯优图实验室还将其扩展到Few-shot异常检测赛道,并获得了该赛道的荣誉提名奖。在Few-shot异常检测赛道中,该方案在异常检测准确率方面表现优异,展现出出色的适应能力和泛化能力。

  腾讯优图实验室在工业AI领域的相关成就,为工业质检、产品安全和智能视频等领域的发展提供了新的可能性。未来,腾讯优图将继续致力于推动计算机视觉和人工智能技术的创新,为工业应用带来更多突破和进步,为各行业提供更智能、高效的解决方案。

  腾讯优图实验室成立于2012年,是腾讯公司旗下*AI实验室。优图聚焦计算机视觉,专注人脸识别、图像识别、OCR等领域开展研发技术和行业落地,在推动产业数字化升级过程中,优图始终专注基础研究、产业落地两条腿走路的发展的策略,与腾讯云与智慧产业深层次地融合,挖掘客户痛点,切实为行业降本增效。与此同时,优图关注科技的社会价值,践行科技向善理念,致力于通过视觉AI技术解决社会问题,帮助。