基于Transformer的细粒度图像中文描述

吉林大学学报(理学版) ›› 2022, Vol. 60 ›› Issue (5): 1103-1112.

基于Transformer的细粒度图像中文描述

肖雄¹, 徐伟峰¹, 王洪涛¹, 苏攀¹, 高思华²

1. 华北电力大学（保定）计算机系, 河北保定 071003； 2. 中国民航大学计算机科学与技术学院, 天津 300300

收稿日期:2021-10-10 出版日期:2022-09-26 发布日期:2022-09-26
通讯作者: 徐伟峰 E-mail:weifengxu@163.com

Chinese Caption of Fine-Grained Images Based on Transformer

XIAO Xiong¹, XU Weifeng¹, WANG Hongtao¹, SU Pan¹, GAO Sihua²

1. Department of Computer, North China Electric Power University (Baoding), Baoding 071003, Hebei Province, China；
2. School of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China

Received:2021-10-10 Online:2022-09-26 Published:2022-09-26

摘要/Abstract

摘要： 针对图像中文描述中传统循环神经网络(RNN)结构不利于生成长句、缺乏细节语义信息的问题, 提出一种用Transformer多头注意力（multi-head attention, MHA）网络, 融合粗粒度的全局特征和细粒度的区域目标实体特征方法. 该方法通过多尺度特征的融合, 使图像注意力更易聚焦于细粒度的目标区域, 得到更具细粒度语义特征的图像表示, 从而有效改善了图像描述. 在数据集ICC上使用多种评价指标进行验证, 结果表明, 该模型在各项指标上均取得了更好的图像描述效果.

关键词: 图像中文描述, 细粒度特征, 多头注意力

Abstract: Aiming at the problem that the traditional recurrent neural network (RNN) structure in image Chinese caption was not conducive to long sentence generation and lacked detailed semantic information, we proposed a Transformer multi-head attention (MHA) network, which fused the coarse-grained global features and fine-grained regional target entity features. Through the fusion of multi-scale features, the method made it easier for image attention to focus on fine-grained target regions and an image representation with more fine-grained semantic features was obtained, thus effectively improving image caption. A variety of evaluation indicators were used for verification on the ICC dataset, the results show that the model achieves better image caption effects in all indicators.

Key words: image Chinese caption, fine-grained feature, multi-head attention (MHA)

中图分类号:

TP391

肖雄, 徐伟峰, 王洪涛, 苏攀, 高思华. 基于Transformer的细粒度图像中文描述[J]. 吉林大学学报(理学版), 2022, 60(5): 1103-1112.

XIAO Xiong, XU Weifeng, WANG Hongtao, SU Pan, GAO Sihua. Chinese Caption of Fine-Grained Images Based on Transformer[J]. Journal of Jilin University Science Edition, 2022, 60(5): 1103-1112.

[1]	张森悦, 隋学梅, 李一波. 基于自适应樽海鞘算法的多无人机任务分配[J]. 吉林大学学报(理学版), 2022, 60(5): 1123-1132.
[2]	耿莉, 王长鹏. 基于多样性的一致谱嵌入学习[J]. 吉林大学学报(理学版), 2022, 60(5): 1133-1142.
[3]	邱玉祥, 蔡艳, 陈霖, 万明, 周宇. 基于自回归神经网络的多维时间序列分析[J]. 吉林大学学报(理学版), 2022, 60(5): 1143-1152.
[4]	汪慎文, 周瑶. 基于改进U-Net的肝脏MRI分割方法[J]. 吉林大学学报(理学版), 2022, 60(5): 1153-1160.
[5]	吴致远, 齐红, 姜宇, 崔楚朋, 杨宗敏, 薛欣慧. 特征图自适应知识蒸馏模型[J]. 吉林大学学报(理学版), 2022, 60(4): 881-888.
[6]	张玉波, 王建阳, 韩爽, 王冬梅. 一种循环多尺度的图像盲去模糊网络[J]. 吉林大学学报(理学版), 2022, 60(4): 889-896.
[7]	葛延良, 孙笑笑, 张乔, 王冬梅, 王肖肖. 基于循环生成对抗网络的人脸素描合成[J]. 吉林大学学报(理学版), 2022, 60(4): 897-905.
[8]	李蛟, 王紫薇, 范丽丽, 赵宏伟. 针对苹果树叶病害图像分类的小样本学习方法[J]. 吉林大学学报(理学版), 2022, 60(4): 906-910.
[9]	杨波, 张立娜, 韩霄松. 基于LBP和GLCM的肠道肿瘤图像特征提取方法[J]. 吉林大学学报(理学版), 2022, 60(4): 911-918.
[10]	陈继伟, 汪海涛, 朱兴翔, 姜瑛, 陈星. 长期记忆增强的时间感知序列推荐算法[J]. 吉林大学学报(理学版), 2022, 60(4): 919-928.
[11]	赵健. 基于k多数值代表的混合矩阵对象数据聚类[J]. 吉林大学学报(理学版), 2022, 60(4): 929-942.
[12]	刘庆强, 郑长敏, 何红凯, 吴力. 一种基于小波阈值的变步长LMS语音降噪算法[J]. 吉林大学学报(理学版), 2022, 60(4): 943-949.
[13]	李金宝, 李梓瑜, 王洪君, 于晓鹏. 一种具有相互验证能力的（3,3）视觉密码方案[J]. 吉林大学学报(理学版), 2022, 60(4): 950-954.
[14]	王晓光, 管港云, 徐嘉铭, 李俊呈. 基于GPS和计算机图像识别的无人机导航系统[J]. 吉林大学学报(理学版), 2022, 60(4): 955-961.
[15]	李向宇, 李慧盈. 基于卷积神经网络的猪脸特征点检测方法[J]. 吉林大学学报(理学版), 2022, 60(3): 609-616.