文献基本信息
中文标题:基于双专家的巡检影像多模态零样本缺陷检测
英文标题:Multimodal zero-shot anomaly detection using dual-experts for electrical power equipment inspection images
作 者:吴华, 贾栋豪, 张婷婷, 白晓静, 孙笠, 蒲梦杨
摘 要:目的 电力设备巡检影像缺陷检测对于提高电力传输的安全性和电网运行的可靠性具有重要作用。但由于相应训练数据集的构造成本高昂,传统的监督学习方法难以适应电力设备巡检影像缺陷检测。同时电力设备巡检影像中通常含有复杂多样的背景,严重干扰了模型对缺陷的检测。方法 基于视觉语言模型并结合文本提示,提出了电力设备巡检影像零样本缺陷检测模型。模型中含有多个双专家模块,在由视觉语言模型获得文本特征和视觉特征后,经多个双专家模块处理并融合,得到像素级的缺陷检测结果。同时,构建了具有像素级掩码标注的电力设备巡检影像数据集对模型性能进行全面评测。结果 实验在本文构建的电力设备巡检影像测试数据集上,与SAA+(segment any anomaly +)、AnomalyGPT、WinCLIP(window-based CLIP)、PaDiM(patch distribution modeling)、PatchCore进行了比较。在像素级的缺陷分割性能表现上,AUROC(area under the receiver operating characteristic curve)平均提升了18.1%,F1-max(F1 score at optimal threshold)平均提升了26.1%;在图像级的缺陷分类性能表现上,AUROC平均提升了20.2%,AP(average precision)平均提升10.0%。具体到数据集中的各个电力设备,模型在像素级缺陷分割性能表现上,均获得了最好的结果。同时也进行了消融实验,证明了双专家模块对提升模型缺陷检测精度的显著效果。结论 本文模型以零样本的方式,避免了构造电力设备巡检影像数据集的高昂成本。同时提出的双专家模块,使模型减少了受巡检影像复杂背景区域的干扰。