吉林大学学报(信息科学版) ›› 2014, Vol. 32 ›› Issue (1): 88-94.

• 论文 • 上一篇    下一篇

基于向量空间模型的中文网页主题特征项抽取

代宽a, 赵辉a, 韩冬b, 宋天勇a   

  1. 长春工业大学 a. 计算机科学与工程学院; b. 软件职业技术学院, 长春 130012
  • 收稿日期:2013-08-22 出版日期:2014-01-24 发布日期:2014-04-03
  • 作者简介:代宽(1987—), 男, 河南开封人, 长春工业大学硕士研究生, 主要从事智能计算、 软件工程研究, (Tel)86-13604327435(E-mail)daikuanccut@sina.cn;通讯作者: 赵辉(1972—), 女, 长春人, 长春工业大学副教授, 博士, 硕士生导师, 主要从事智能计算、软件工程研究,(Tel)86-13074367546(E-mail)zhaohui@mail.ccut.edu.cn。
  • 基金资助:

    吉林省科技厅自然科学基金资助项目(20130101060JC)

Theme Feature Extraction of Chinese Webpage Based on Vector Space Model

DAI Kuana, ZHAO Huia, HAN Dongb, SONG Tian-yonga   

  1. a. College of Computer Science and Engineering; b. College of Software Vocational Technology,Changchun University of Technology, Changchun 130012, China
  • Received:2013-08-22 Online:2014-01-24 Published:2014-04-03

摘要:

为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。

关键词: 词频-逆向文件频率, 向量空间模型, 特征项, 相关度计算, 信息增益

Abstract:

In order to solve the problem of imprecision in Chinese webpage theme feature extraction, feature extraction algorithm for Chinese webpage theme is studied. Webpage theme feature extraction is the foundation of topic web crawler to calculate webpage correlation. Considering two classifications of theme webpage, we improved the commonly used text feature item weighting method of TF-IDF(Term Frequency\|Inverse Document Frequency). We combine Semi-structured characteristics of webpage, feature's position information, present a new calculation method of linear feature item weighting. This method can effectively improve the theme webpage recall rate and precision rate.

Key words: term frequency-inverse document frequency(TF-IDF), vector space model, feature, correlation calculation, information gain

中图分类号: 

  • TP391