吉林大学学报(信息科学版) ›› 2025, Vol. 43 ›› Issue (5): 1138-1143.
刘 欢1, 李宏亮2, 陈维汉2
LIU Huan1,2, LI Hongliang2, CHEN Weihan2
摘要: 针对跨媒体知识文本分类涉及多种类型的数据,并且其间的差异性和异构性增加了分类的复杂性,使 大量跨媒体知识文本中难以精确寻找资料的问题,提出融合多模态信息的跨媒体知识文本分类算法。 利用词频-逆文档频率(TF-IDF: Term Frequency-Inverse Document Frequency)算法, 过滤处理文本中的停用词, 提取文本特征,并将其与图像文本特征相融合; 利用朴素贝叶斯分类器,判断跨媒体知识文本类别的归属,实现知识文本分类。 通过实验分析结果表明,所提文本分类算法显著提升了跨媒体知识文本分类的性能和效率,使分类结果更加准确,查准率高达95.12%,漏检率维持在10%以下。
中图分类号: