摘要:
基于对深网(Deep Web)网页公共框架的定义, 提出一种在信息抽取算法中增加公共框架检测阶段, 采用序列比对算法提取公共框架的方法. 与原始网页数据相比, 去除公共框架的数据域信息对模板抽取更有利. 基于真实网站的数据密集型网页集合, 测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响. 实验结果表明了算法的有效性.
中图分类号:
赵刚, 郭东伟, 李丹. 基于序列比对的动态Web信息抽取算法[J]. J4, 2010, 48(03): 421-426.
DIAO Gang, GUO Dong-Wei, LI Dan. Dynamic Web Information Extraction Based onSequence Alignment[J]. J4, 2010, 48(03): 421-426.