文献基本信息
中文标题:基于多码深度特征融合生成对抗网络的文本生成图像方法
英文标题:Multi-code Deep Fusion Attention Generative Adversarial Networks for Text-to-Image Synthesis
基金项目:国家自然科学基金 (62072394),河北省自然科学基金 (F2024203049)
作者单位:燕山大学信息科学与工程学院 秦皇岛 066004
摘 要:文本生成图像是一项极具挑战的跨模态任务,其核心在于生成与文本描述高度一致、细节丰富的高质量图像。当前基于生成对抗网络的方法多依赖单一噪声输入,导致生成图像细粒度不足;同时,单词级特征利用不充分,也制约了文本与图像之间的语义对齐精度。为此,本文提出一种多码深度特征融合生成对抗网络(mDFA-GAN)。该方法通过设计多噪声输入生成器与多码先验融合模块,提升生成图像的细节表现力;在生成器中引入多头注意力机制,从多角度对齐单词与图像子区域,增强语义一致性;此外,提出多码先验融合损失以稳定训练过程。在CUB和COCO数据集上的实验结果表明,本文方法在IS与FID评价指标上均优于当前主流生成对抗网络方法,能够生成更逼真、细节更丰富、语义一致性更强的图像。