摘要:
传统的互信息特征选择方法受边缘概率的影响较大, 可能产生稀有词的概率评估分高于常用词的评估分, 从而导致倾向于选择低频词条的现象。为此,在分析了几种传统的特征提取方法基础上, 通过引入分散度及平均词频两个参数, 将互信息方法与特征的词频相关联, 从而使互信息的分类更加准确。实验结果表明, 该方法使分类效果更好。
中图分类号:
郭晓冬, 姜昱明, 费非. 文本特征选择方法的改进算法[J]. J4, 2012, 30(5): 544-.
GUO Xiao-dong, JIANG Yu-ming, FEI Fei. Improved Feature Selection Method[J]. J4, 2012, 30(5): 544-.