吉林大学学报(工学版) ›› 2009, Vol. 39 ›› Issue (05): 1326-1330.

• 论文 • 上一篇    下一篇

基于块分布的新闻网页内容提取

邱江涛1, 2, 唐常杰2, 李川2, 朱军3   

  1. 1. 西南财经大学 经济信息工程学院,成都 610075;2. 四川大学 计算机学院,成都 610065;3. 国家出生缺陷检测中心,成都 610041
  • 收稿日期:2008-01-08 出版日期:2009-09-01 发布日期:2009-09-01
  • 通讯作者: 唐常杰(1946-),男,教授,博士生导师.研究方向:数据挖掘.Email:tangchangjie@cs.scu.edu.cn E-mail:tangchangjie@cs.scu.edu.cn
  • 作者简介:邱江涛 (1972-),男,讲师,博士.研究方向:数据挖掘.Email:jiangtaoqiu@google.com
  • 基金资助:

    “十一五”国家科技支撑计划项目(2006BAI05A01);国家自然科学基金项目(60773169); 四川大学青年基金项目(06036).

News content extraction based on block distribution

QIU Jiang-tao1,2, TANG Chang-jie2, LI Chuan2, ZHU Jun3   

  1. 1.School of Economic Information Engineering, Southwestern University of Finance and Economics, Chengdu 610075, China|2. College of Computer Science, Sichuan University, Chengdu 610065, China|3.National Center for Birth Defects Monitoring, Chengdu 610041,China
  • Received:2008-01-08 Online:2009-09-01 Published:2009-09-01

摘要:

     提出一种新的新闻网页内容提取方法。与已有的研究相比,它自动判别网页是否含有主内容,并且回避了模板和DOMTree方法所带来的局限。主要工作包括:①提出了一种网页分块方法,通过一趟遍历将网页主内容和噪声划分到不同的块中;②提出网页块分布的概念并研究了块分布的属性,根据块分布可以有效地使用分类方法来判别网页是否有主内容,采用孤立点分析的方法从网页块分布中提取主内容。本文通过理论和实验证明了该方法的有效性。

关键词: 计算机应用, 网页内容提取, 块分布, Web挖掘

Abstract:

     An approach to extract news contents automatically from news web pages is proposed. Compared with existing methods, this approach can determine whether a web page contains news content first, then extract the news contents without using DOMTree or template. A new concept of Block is introduced and by one traversal the approach partitions web page into main content block and noise block. Further more, the concept of Web Page Block Distribution is introduced and the features of Block Distribution are investigated. The use of Block Distribution can effectively determine whether a web page contains news contents. Experiments show the approach is effective in extraction of news contents.

Key words: computer application, Web contents extracting, block distribution, Web mining

中图分类号: 

  • TP311.13
[1] 刘富,宗宇轩,康冰,张益萌,林彩霞,赵宏伟. 基于优化纹理特征的手背静脉识别系统[J]. 吉林大学学报(工学版), 2018, 48(6): 1844-1850.
[2] 王利民,刘洋,孙铭会,李美慧. 基于Markov blanket的无约束型K阶贝叶斯集成分类模型[J]. 吉林大学学报(工学版), 2018, 48(6): 1851-1858.
[3] 金顺福,王宝帅,郝闪闪,贾晓光,霍占强. 基于备用虚拟机同步休眠的云数据中心节能策略及性能[J]. 吉林大学学报(工学版), 2018, 48(6): 1859-1866.
[4] 赵东,孙明玉,朱金龙,于繁华,刘光洁,陈慧灵. 结合粒子群和单纯形的改进飞蛾优化算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1867-1872.
[5] 刘恩泽,吴文福. 基于机器视觉的农作物表面多特征决策融合病变判断算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1873-1878.
[6] 欧阳丹彤, 范琪. 子句级别语境感知的开放信息抽取方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1563-1570.
[7] 刘富, 兰旭腾, 侯涛, 康冰, 刘云, 林彩霞. 基于优化k-mer频率的宏基因组聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1593-1599.
[8] 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605.
[9] 刘元宁, 刘帅, 朱晓冬, 陈一浩, 郑少阁, 沈椿壮. 基于高斯拉普拉斯算子与自适应优化伽柏滤波的虹膜识别[J]. 吉林大学学报(工学版), 2018, 48(5): 1606-1613.
[10] 车翔玖, 王利, 郭晓新. 基于多尺度特征融合的边界检测算法[J]. 吉林大学学报(工学版), 2018, 48(5): 1621-1628.
[11] 赵宏伟, 刘宇琦, 董立岩, 王玉, 刘陪. 智能交通混合动态路径优化算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1214-1223.
[12] 黄辉, 冯西安, 魏燕, 许驰, 陈慧灵. 基于增强核极限学习机的专业选择智能系统[J]. 吉林大学学报(工学版), 2018, 48(4): 1224-1230.
[13] 傅文博, 张杰, 陈永乐. 物联网环境下抵抗路由欺骗攻击的网络拓扑发现算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1231-1236.
[14] 曹洁, 苏哲, 李晓旭. 基于Corr-LDA模型的图像标注方法[J]. 吉林大学学报(工学版), 2018, 48(4): 1237-1243.
[15] 侯永宏, 王利伟, 邢家明. 基于HTTP的动态自适应流媒体传输算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1244-1253.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!