摘要:
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性.
实验结果表明, 改进后的权重计算方法性能更优越.
中图分类号:
徐沛娟, 李雄飞, 惠玥, 张桂林. 中文文本分类相关算法的研究与实现[J]. J4, 2009, 47(4): 790-794.
XU Pei-Juan, LI Xiong-Fei, HUI Yue, ZHANG Gui-Lin. Research and Implementation of Related Algorithm ofChinese Text Categorization[J]. J4, 2009, 47(4): 790-794.