吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (3): 573-578.

• • 上一篇    

基于多模态 RGB-T 的显著性目标检测算法

刘 东, 毕洪波, 任思琪, 于 鑫, 张 丛    

  1. 东北石油大学 电气信息工程学院, 黑龙江 大庆 163318
  • 收稿日期:2023-04-13 出版日期:2024-06-18 发布日期:2024-06-18
  • 通讯作者: 张丛(1998— ), 女, 哈尔滨人, 东北石油大学硕士研究生, 主要从事图像处理、 多模态显著性检测、 伪装物体检测等 研究, (Tel)86-15776554821(E-mail)congzhang98@ 163. com E-mail:congzhang98@ 163. com
  • 作者简介:刘东(2002— ), 男, 四川安岳人, 东北石油大学本科生, 主要从事多模态显著性检测研究, ( Tel) 86-18581769127 (E-mail)1662344218@ qq. com; 毕洪波(1979— ), 男, 黑龙江大庆人,东北石油大学副教授, 硕士生导师, 博士, 主要 从事计 算 机 视 觉、 图 像 处 理、 目 标 检 测 等 研 究, ( Tel ) 86-13664590305 ( E-mail ) bhbdq @126. com
  • 基金资助:
    黑 龙 江 省 自 然 科 学 基 金 资 助 项 目 ( LH2022F005 ); 红 外 与 低 温 等 离 子 体 安 徽 省 重 点 实 验 室 开 放 基 金 资 助 项 目 ( IRKL2022KF07); 省部共建公共大数据国家重点实验室开放基金资助项目(PBD2022-15); 广东省数字信号与图像处理技 术重点实验室开放基金资助项目(022GDDSIPL-05); 黑龙江省教育科学十四五冶 规划 2023 年重点课题基金资助项目 (GJB1423350); 东北石油大学教学建设基金资助项目(JG202201) 

 Research on Multi-Modal RGB-T Based Saliency Target Detection Algorithm

LIU Dong, BI Hongbo, REN Siqi, YU Xin, ZHANG Cong   

  1. School of Electrical and Information Engineering, Northeastern Petroleum University, Daqing 163318, China
  • Received:2023-04-13 Online:2024-06-18 Published:2024-06-18

摘要: 针对 RGB(Red Green Blue)模态与热度模态信息表征形式不一致, 特征信息无法有效挖掘、 融合问题, 提出了一种新的联合注意力强化网络-FCNet( Feature Sharpening and Cross-modal Feature Fusion Net)。 首先, 通过双维度注意力机制提升图像特征映射能力; 然后, 利用跨模态特征融合机制捕获目标区域; 最后, 利用逐层解码结构消除背景干扰, 优化检测目标。 实验结果表明, 该优化改进算法运算参数更少、 运算时间更短, 且模型整体检测性能均优于现有多模态检测模型性能。

关键词: 多模态, RGB-热, 特征锐化模块, 跨模态融合机制

Abstract: To address the problem that RGB ( Red Green Blue ) modal and thermal modal information representations are inconsistent in form and feature information can not be effectively mined and fused, a new joint attention reinforcement network-FCNet ( Feature Sharpening and Cross-modal Feature Fusion Net ) is proposed. Firstly, the image feature mapping capability is enhanced by a two-dimensional attention mechanism. Then, a cross-modal feature fusion mechanism is used to capture the target region. Finally, a layer-by-layer decoding structure is used to eliminate background interference and optimize the detection target. The experimental results demonstrate that the improved algorithm has fewer parameters and shorter operation times, and the overall detection performance of the model is better than that of existing multimodal detection models.

Key words: multimodality, RGB-Thermal(RGB-T), feature sharpening module, cross-modal fusion mechanism

中图分类号: 

  • TP391. 41