当前位置: 首页 >> 最新论文 >> 电子科学与技术
面向SAR图像的视觉语言大模型知识迁移方法
DOI:10.12000/JR25174 CSTR:
文献基本信息

中文标题:面向SAR图像的视觉语言大模型知识迁移方法
英文标题:Knowledge Transfer Method for Vision–Language Models for Processing Synthetic Aperture Radar Images
来源期刊:雷达学报
基金项目:国家自然科学基金(U24B20137, U21B2039)
作  者:杜兰1, 吴庆森2, 郭昱辰3, 李逸明1
作者单位:1. 西安电子科技大学雷达信号处理全国重点实验室 西安 710071
2. 西安电子科技大学杭州研究院 杭州 311231
3. 西安电子科技大学信息交叉学部 西安 710071
摘  要:基于海量图文数据预训练的大规模视觉语言模型(VLM)在自然图像领域表现出色,但将其迁移至合成孔径雷达(SAR)图像领域面临两大挑战:一是SAR图像高质量文本标注成本高昂,限制了SAR图文配对数据集的构建;二是SAR图像与光学自然图像在视觉特性上存在显著差异,增加了跨域知识迁移难度。针对上述问题,该文提出一种面向SAR图像的视觉语言大模型知识迁移方法。首先,利用配对的SAR与光学遥感图像,借助生成式视觉语言大模型为光学遥感图像自动生成文本描述,从而以较低成本间接构建了SAR图文配对数据集。其次,设计了两阶段迁移策略,将自然图像领域向SAR图像领域的大跨度迁移进行拆解,降低单次迁移难度。最后,在SAR图像零样本场景分类、检索以及目标识别任务上进行实验验证,实验结果表明所提方法能够有效实现视觉语言大模型向SAR图像领域的知识迁移。
相关论文
相关专家