吉林大学学报(理学版) ›› 2022, Vol. 60 ›› Issue (5): 1103-1112.
肖雄1, 徐伟峰1, 王洪涛1, 苏攀1, 高思华2
XIAO Xiong1, XU Weifeng1, WANG Hongtao1, SU Pan1, GAO Sihua2
摘要: 针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、 缺乏细节语义信息的问题, 提出一种用Transformer多头注意力(multi-head attention, MHA)网络, 融合粗粒度的全局特征和细粒度的区域目标实体特征方法. 该方法通过多尺度特征的融合, 使图像注意力更易聚焦于细粒度的目标区域, 得到更具细粒度语义特征的图像表示, 从而有效改善了图像描述. 在数据集ICC上使用多种评价指标进行验证, 结果表明, 该模型在各项指标上均取得了更好的图像描述效果.
中图分类号: