基于Transformer的细粒度图像中文描述

Abstract

Abstract: Aiming at the problem that the traditional recurrent neural network (RNN) structure in image Chinese caption was not conducive to long sentence generation and lacked detailed semantic information, we proposed a Transformer multi-head attention (MHA) network, which fused the coarse-grained global features and fine-grained regional target entity features. Through the fusion of multi-scale features, the method made it easier for image attention to focus on fine-grained target regions and an image representation with more fine-grained semantic features was obtained, thus effectively improving image caption. A variety of evaluation indicators were used for verification on the ICC dataset, the results show that the model achieves better image caption effects in all indicators.

Key words: image Chinese caption, fine-grained feature, multi-head attention (MHA)

CLC Number:

TP391

XIAO Xiong, XU Weifeng, WANG Hongtao, SU Pan, GAO Sihua. Chinese Caption of Fine-Grained Images Based on Transformer[J].Journal of Jilin University Science Edition, 2022, 60(5): 1103-1112.

References

Metrics

Viewed

Full text

276

HTML			PDF

Just accepted	Online first	Issue	Just accepted	Online first	Issue
0	0	0	0	0	276

From	Others	local

Times	76	200
Rate	28%	72%

Abstract

289

Just accepted	Online first	Issue

0	0	289

From	Others	local

Times	288	1
Rate	100%	0%

Cited

Web of Science	Crossref	ScienceDirect	Search for Citations in Google Scholar >>


This page requires you have already subscribed to WoS.

Shared

[1]	ZHANG Senyue, SUI Xueme, LI Yibo. Multi-UAV Task Assignment Based on Adaptive Salps Swarm Algorithm [J]. Journal of Jilin University Science Edition, 2022, 60(5): 1123-1132.
[2]	GENG Li, WANG Changpeng. Consensus Spectral Embedding Learning Based on Diversity [J]. Journal of Jilin University Science Edition, 2022, 60(5): 1133-1142.
[3]	QIU Yuxiang, CAI Yan, CHEN Lin, WAN Ming, ZHOU Yu. Multidimensional Time Series Analysis Based on Autoregressive Neural Network [J]. Journal of Jilin University Science Edition, 2022, 60(5): 1143-1152.
[4]	WANG Shenwen, ZHOU Yao. Liver MRI Segmentation Method Based on Improved U-NET [J]. Journal of Jilin University Science Edition, 2022, 60(5): 1153-1160.
[5]	WU Zhiyuan, QI Hong, JIANG Yu, CUI Chupeng, YANG Zongmin, XUE Xinhui. Activation Map Adaptation Model for Knowledge Distillation [J]. Journal of Jilin University Science Edition, 2022, 60(4): 881-888.
[6]	ZHANG Yubo, WANG Jianyang, HAN Shuang, WANG Dongmei. A Cyclic Multiscale Image Blind Deblurring Network [J]. Journal of Jilin University Science Edition, 2022, 60(4): 889-896.
[7]	GE Yanliang, SUN Xiaoxiao, ZHANG Qiao, WANG Dongmei, WANG Xiaoxiao. Face Sketch Synthesis Based on Cycle-Generative Adversarial Networks [J]. Journal of Jilin University Science Edition, 2022, 60(4): 897-905.
[8]	LI Jiao, WANG Ziwei, FAN Lili, ZHAO Hongwei. Few-Shot Learning Method for Image Classification of Apple Leaf Diseases [J]. Journal of Jilin University Science Edition, 2022, 60(4): 906-910.
[9]	YANG Bo, ZHANG Lina, HAN Xiaosong. Feature Extraction Method of Intestinal Tumor Images Based on LBP and GLCM [J]. Journal of Jilin University Science Edition, 2022, 60(4): 911-918.
[10]	CHEN Jiwei, WANG Haitao, ZHU Xingxiang, JIANG Ying, CHEN Xing. Time Aware Sequence Recommendation Algorithm Based on Long-Term Memory Enhancement [J]. Journal of Jilin University Science Edition, 2022, 60(4): 919-928.
[11]	ZHAO Jian. Mixed Matrix Object Data Clustering Based on k-Multiple Value Representation [J]. Journal of Jilin University Science Edition, 2022, 60(4): 929-942.
[12]	LIU Qingqiang, ZHENG Changmin, HE Hongkai, WU Li. A Variable Step Size LMS Speech Denoising Algorithm Based on Wavelet Threshold [J]. Journal of Jilin University Science Edition, 2022, 60(4): 943-949.
[13]	LI Jinbao, LI Ziyu, WANG Hongjun, YU Xiaopeng. A (3,3) Visual Cryptography Scheme with Mutual Authentication Capability [J]. Journal of Jilin University Science Edition, 2022, 60(4): 950-954.
[14]	WANG Xiaoguang, GUAN Gangyun, XU Jiaming, LI Juncheng. UAV Navigation System Based on GPS and Computer Image Recognition [J]. Journal of Jilin University Science Edition, 2022, 60(4): 955-961.
[15]	LI Xiangyu, LI Huiying. Feature Point Detection Method of Pig Face Based on Convolutional Neural Network [J]. Journal of Jilin University Science Edition, 2022, 60(3): 609-616.

Chinese Caption of Fine-Grained Images Based on Transformer

PDF (PC)

Like

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 15

Metrics

Comments

Recommended 0