吉林大学学报(信息科学版) ›› 2014, Vol. 32 ›› Issue (1): 88-94.
代宽a, 赵辉a, 韩冬b, 宋天勇a
DAI Kuana, ZHAO Huia, HAN Dongb, SONG Tian-yonga
摘要:
为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。
中图分类号: