空天荟~电子科学与技术

基于多码深度特征融合生成对抗网络的文本生成图像方法

DOI：10.11999/JEIT250516 CSTR：

文献基本信息

中文标题：基于多码深度特征融合生成对抗网络的文本生成图像方法

英文标题：Multi-code Deep Fusion Attention Generative Adversarial Networks for Text-to-Image Synthesis

来源期刊：电子与信息学报

基金项目：国家自然科学基金 (62072394)，河北省自然科学基金 (F2024203049)

作者：顾广华¹ 孙文星¹ 伊柏宇¹

作者单位：燕山大学信息科学与工程学院秦皇岛 066004

摘要：文本生成图像是一项极具挑战的跨模态任务，其核心在于生成与文本描述高度一致、细节丰富的高质量图像。当前基于生成对抗网络的方法多依赖单一噪声输入，导致生成图像细粒度不足；同时，单词级特征利用不充分，也制约了文本与图像之间的语义对齐精度。为此，本文提出一种多码深度特征融合生成对抗网络(mDFA-GAN)。该方法通过设计多噪声输入生成器与多码先验融合模块，提升生成图像的细节表现力；在生成器中引入多头注意力机制，从多角度对齐单词与图像子区域，增强语义一致性；此外，提出多码先验融合损失以稳定训练过程。在CUB和COCO数据集上的实验结果表明，本文方法在IS与FID评价指标上均优于当前主流生成对抗网络方法，能够生成更逼真、细节更丰富、语义一致性更强的图像。

全文链接： https://jeit.ac.cn/cn/article/doi/10.11999/JEIT250516