吉林大学学报(理学版)

• 计算机科学 • 上一篇    下一篇

在线增量标签主题模型

陈永恒1, 左祥麟2, 林耀进1   

  1. 1. 闽南师范大学 计算机学院, 福建 漳州 363000; 2. 吉林大学 计算机科学与技术学院, 长春 130012
  • 收稿日期:2014-12-22 出版日期:2015-09-26 发布日期:2015-09-29
  • 通讯作者: 左祥麟 E-mail:zuoxl2111@mails.jlu.edu.cn

OnLine Incremental Labeled Topic Model

CHEN Yongheng1, ZUO Xianglin2, LIN Yaojin1   

  1. 1. College of Computer Science, Minnan Normal University, Zhangzhou 363000, Fujian Province, China;2. College of Computer Science and Technology, Jilin University, Changchun 130012, China
  • Received:2014-12-22 Online:2015-09-26 Published:2015-09-29
  • Contact: ZUO Xianglin E-mail:zuoxl2111@mails.jlu.edu.cn

摘要:

将文本之间存在的时序关联性元信息和文档的标签信息, 引入到隐藏Dirichlet分配模型中, 提出一种在线增量标签主题(online labeled incremental topic model, OLT)模型. 首先, 在线增量标签主题模型优化了文本标签元信息与主题之间的映射关系; 其次, 利用动态字典增加了模型与文本的拟合程度. 该模型优化了
先验分布超参数迁移计算的连续性, 解决了隐藏Dirichlet分配(LDA)模型不能利用文本属性与主题之间的相关性进行主题发现及演变分析的问题. 实验结果表明, 所提出的在线增量标签主题模型能显著改善多标签判别精度, 提高模型的泛化能力并提升模型的运行性能.

关键词: 信息处理, 隐藏Dirichlet分配(LDA)模型, 自然语言处理, 主题模型

Abstract:

Based on the introduction of the features of time series and labels of the document into latent Dirichlet allocation (LDA) model, an online labeled incremental topic model was presented. Firstly, online labeled incremental topic model realizes the predicate of multilabels on the basis of the optimized label and topic mapping relation and improves the clustering results. Secondly, the online labeled incremental topic model achieves the reasonable correlation of text streams with the help of dynamic dictionary and the optimization calculation of hyperparameter. The experimental results suggest online labeled incremental topic model can improve the decision accuracy of multilabels, optimizing the generalization ability and operating efficiency.

Key words: information processing, latent Dirichlet allocation (LDA) model, natural language analysis, topic model

中图分类号: 

  • TP301.6