吉林大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (增刊1): 377-381.

• 论文 • 上一篇    下一篇

商品评论聚焦爬虫算法设计与实现

方美玉1,2, 郑小林2, 陈德人2, 华艺1, 施艳1   

  1. 1. 浙江外国语学院 科学技术学院, 杭州 310012;
    2. 浙江大学 计算机科学与技术学院, 杭州 310027
  • 收稿日期:2012-04-17 出版日期:2012-09-01 发布日期:2012-09-01
  • 作者简介:方美玉(1971-),女,副教授,博士.研究方向:电子商务.E-mail:hwdfmy@yahoo.com.cn
  • 基金资助:

    国家自然科学基金项目(61003254);国家科技支撑计划项目(2008BAH24B03);浙江省自然科学基金项目(Y1080130,Y1101304).

Design and implementation of focused crawler algorithms of product reviews

FANG Mei-yu1,2, ZHENG Xiao-lin2, CHEN De-ren2, HUA Yi1, SHI Yan1   

  1. 1. Institute of Science and Technology, Zhejiang International Studies University, Hangzhou 310012, China;
    2. College of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China
  • Received:2012-04-17 Online:2012-09-01 Published:2012-09-01

摘要: 从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者与通用爬虫算法进行比较,证实了二者的程序设计具有针对性强、数据采集实时性好、易嵌入开发等优点,为实时评论数据采集技术的研究提供了新思路。

关键词: 计算机软件, 商品评论, 开放应用编程接口, 聚焦爬虫, 爬虫算法

Abstract: From the product reviews extracting algorithm, focused crawler algorithms of product reviews were designed based on the general crawler principle and the OpenAPI respectively, using OpenAPI call and link tracking method. Then the comments' collection procedure of taobao.com and 360buy.com were realized. Finally both algorithms are compared with the general crawler algorithm, and some merits who are targeted program, timeliness data collection and easily embedded development were demonstrated. The results provide a good idea for the research on real-time reviews data collecting technology.

Key words: computer software, product reviews, open application programming interface, focused crawler, crawler algorithm

中图分类号: 

  • TP312
[1] Wang Bo, Wang Hou-feng. Bootstrapping both product properties and opinion words from chinese reviews with cross-training[C]//IEEE/WIC/ACM International Conference on Web Intelligence,Beijing,2007: 259-262.

[2] 白鸽,左万利,赵乾坤,等.使用机器学习对汉语评论进行情感分类[J].吉林大学学报:理学版,2009,47(6):1260-1263. Bai Ge, Zuo Wan-li, Zhao Qian-kun, et al. Sentiment classification for chinese reviews using machine learning[J]. Journal of Jilin University(Science Edition),2009,47(6):1260-1263.

[3] Fang Mei-yu, Zheng Xiao-lin, Chen De-ren. A reputation evaluation approach based on fuzzy relation[J]. International Journal of Computational Intelligence Systems, 2011, 4(5), 759-767.

[4] Miller R C, Bharat K. SPHINX: a framework for creating personal, site-specific Web crawlers[J]. Computer Networks and ISDN Systems,1998,30(1-7):119-130.

[5] Arun Manicka Raja M, Winster S G, Swamynathan S. Review analyzer: analyzing consumer product reviews from review collections[C]//2012 International Conference on Recent Advances in Computing and Software Systems(RACSS),2012: 287-292.

[6] 张红云. 基于页面分析的主题网络爬虫的研究. 武汉:武汉理工大学计算机学院, 2010. Zhang Hong-yun. The research of thematic reptile's based on analysis of network page. College of Computer, Wuhan University of Technology,2010.

[7] Taobao.com: API调用原理..http:[C]//open.taobao.com/doc/detail.htm? id=55#s2.2012.
[1] 马健, 樊建平, 刘峰, 李红辉. 面向对象软件系统演化模型[J]. 吉林大学学报(工学版), 2018, 48(2): 545-550.
[2] 罗养霞, 郭晔. 基于数据依赖特征的软件识别[J]. 吉林大学学报(工学版), 2017, 47(6): 1894-1902.
[3] 应欢, 王东辉, 武成岗, 王喆, 唐博文, 李建军. 适用于商用系统环境的低开销确定性重放技术[J]. 吉林大学学报(工学版), 2017, 47(1): 208-217.
[4] 李勇, 黄志球, 王勇, 房丙午. 基于多源数据的跨项目软件缺陷预测[J]. 吉林大学学报(工学版), 2016, 46(6): 2034-2041.
[5] 王念滨, 祝官文, 周连科, 王红卫. 支持高效路径查询的数据空间索引方法[J]. 吉林大学学报(工学版), 2016, 46(3): 911-916.
[6] 特日跟, 江晟, 李雄飞, 李军. 基于整数数据的文档压缩编码方案[J]. 吉林大学学报(工学版), 2016, 46(1): 228-234.
[7] 康辉, 王家琦, 梅芳. 基于Pi演算的并行编程语言[J]. 吉林大学学报(工学版), 2016, 46(1): 235-241.
[8] 陈鹏飞, 田地, 杨光. 基于MVC架构的LIBS软件设计与实现[J]. 吉林大学学报(工学版), 2016, 46(1): 242-245.
[9] 刘磊, 王燕燕, 申春, 李玉祥, 刘雷. Bellman-Ford算法性能可移植的GPU并行优化[J]. 吉林大学学报(工学版), 2015, 45(5): 1559-1564.
[10] 冯晓宁, 王卓, 张旭. 基于L-π演算的WSN路由协议形式化方法[J]. 吉林大学学报(工学版), 2015, 45(5): 1565-1571.
[11] 李明哲, 王劲林, 陈晓, 陈君. 基于网络处理器的流媒体应用架构模型(VPL)[J]. 吉林大学学报(工学版), 2015, 45(5): 1572-1580.
[12] 王克朝, 王甜甜, 苏小红, 马培军. 基于频繁闭合序列模式挖掘的学生程序雷同检测[J]. 吉林大学学报(工学版), 2015, 45(4): 1260-1265.
[13] 黄宏涛,王静,叶海智,黄少滨. 基于惰性切片的线性时态逻辑性质验证[J]. 吉林大学学报(工学版), 2015, 45(1): 245-251.
[14] 范大娟1, 2, 黄志球1, 肖芳雄1, 祝义1, 王进1. 面向多服务交互的相容性分析与适配器生成[J]. 吉林大学学报(工学版), 2014, 44(4): 1094-1103.
[15] 贺秦禄1, 李战怀1, 王乐晓1, 王瑞2. 云存储系统聚合带宽测试技术[J]. 吉林大学学报(工学版), 2014, 44(4): 1104-1111.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!