吉林大学学报(信息科学版) ›› 2025, Vol. 43 ›› Issue (1): 98-106.
曹茂俊, 李 悦
CAO Maojun, LI Yue
摘要:
针对传统的识别表结构方法难以充分学习多行多列合并、 空白、 嵌套单元格等复杂表结构以及提取特征过程中容易出现信息缺失的问题, 提出了一种改进 SLANet(Structure Location Alignment Network)的 OCR(Optical Character Recognition)表结构识别方法。 首先, 利用轻量级 CPU(Central Processing Unit)卷积神经网络并引入注意力机制, 增强网络泛化和解释能力, 将训练得到信息向量输入轻量级高低层特征融合模块中提取特征, 并将输出特征通过特征解码模块对齐结构与位置信息, 得到预测标签。 实验表明, 与 EDD(Encoder -Dual-Decoder)、TableMaster 等模型相比, 该方法准确率有显著提升, 达到 76. 95% , TEDS (Tree-Edit-Distance-based Similarity)
达到 95. 57% , 显著增强了模型识别非常规复杂表结构能力, 为识别表结构提供了一种优化策略。
中图分类号: