吉林大学学报(信息科学版) ›› 2025, Vol. 43 ›› Issue (2): 258-264.
徐熠玮1, 陈 刚2
XU Yiwei1, CHEN Gang2
摘要: 为有效提升文本匹配生成图像的视觉效果和匹配程度, 提出一种基于改进 GAN(Generative Adversarial Network)算法的文本匹配生成图像模型。通过混合索引树对文本和图像进行初匹配; 在生成对抗网络(GAN)的基础上对其改进, 形成基于交叉注意力机制编码的对抗生成网络, 采用改进的 GAN 建立文本匹配生成图像模型。通过双向长短期记忆(LSTM: Long Short-Term Memory)网络优化模型中的交叉注意力编码器将文本信息和视觉信息进行翻译和对齐处理, 获取文本和图像之间的跨模态映射关系, 完成文本和图像之间的精细化匹配, 最终生成满足文本需求的图像。实验结果表明, 该模型可以生成图像细节与文本匹配且质量更高的图像。
中图分类号: