吉林大学学报(工学版) ›› 2012, Vol. 42 ›› Issue (增刊1): 377-381.
方美玉1,2, 郑小林2, 陈德人2, 华艺1, 施艳1
FANG Mei-yu1,2, ZHENG Xiao-lin2, CHEN De-ren2, HUA Yi1, SHI Yan1
摘要: 从商品评论抽取算法出发,使用开放应用编程接口调用和链接跟踪的方法,分别设计了基于通用爬虫原理和开放应用编程接口(OpenAPI)的商品评论聚焦爬虫算法。在此基础上实现了淘宝网和京东网商品评论收集程序。最后将两者与通用爬虫算法进行比较,证实了二者的程序设计具有针对性强、数据采集实时性好、易嵌入开发等优点,为实时评论数据采集技术的研究提供了新思路。
中图分类号:
[1] Wang Bo, Wang Hou-feng. Bootstrapping both product properties and opinion words from chinese reviews with cross-training[C]//IEEE/WIC/ACM International Conference on Web Intelligence,Beijing,2007: 259-262.[2] 白鸽,左万利,赵乾坤,等.使用机器学习对汉语评论进行情感分类[J].吉林大学学报:理学版,2009,47(6):1260-1263. Bai Ge, Zuo Wan-li, Zhao Qian-kun, et al. Sentiment classification for chinese reviews using machine learning[J]. Journal of Jilin University(Science Edition),2009,47(6):1260-1263.[3] Fang Mei-yu, Zheng Xiao-lin, Chen De-ren. A reputation evaluation approach based on fuzzy relation[J]. International Journal of Computational Intelligence Systems, 2011, 4(5), 759-767.[4] Miller R C, Bharat K. SPHINX: a framework for creating personal, site-specific Web crawlers[J]. Computer Networks and ISDN Systems,1998,30(1-7):119-130.[5] Arun Manicka Raja M, Winster S G, Swamynathan S. Review analyzer: analyzing consumer product reviews from review collections[C]//2012 International Conference on Recent Advances in Computing and Software Systems(RACSS),2012: 287-292.[6] 张红云. 基于页面分析的主题网络爬虫的研究. 武汉:武汉理工大学计算机学院, 2010. Zhang Hong-yun. The research of thematic reptile's based on analysis of network page. College of Computer, Wuhan University of Technology,2010.[7] Taobao.com: API调用原理..http:[C]//open.taobao.com/doc/detail.htm? id=55#s2.2012. |
[1] | 马健, 樊建平, 刘峰, 李红辉. 面向对象软件系统演化模型[J]. 吉林大学学报(工学版), 2018, 48(2): 545-550. |
[2] | 罗养霞, 郭晔. 基于数据依赖特征的软件识别[J]. 吉林大学学报(工学版), 2017, 47(6): 1894-1902. |
[3] | 应欢, 王东辉, 武成岗, 王喆, 唐博文, 李建军. 适用于商用系统环境的低开销确定性重放技术[J]. 吉林大学学报(工学版), 2017, 47(1): 208-217. |
[4] | 李勇, 黄志球, 王勇, 房丙午. 基于多源数据的跨项目软件缺陷预测[J]. 吉林大学学报(工学版), 2016, 46(6): 2034-2041. |
[5] | 王念滨, 祝官文, 周连科, 王红卫. 支持高效路径查询的数据空间索引方法[J]. 吉林大学学报(工学版), 2016, 46(3): 911-916. |
[6] | 特日跟, 江晟, 李雄飞, 李军. 基于整数数据的文档压缩编码方案[J]. 吉林大学学报(工学版), 2016, 46(1): 228-234. |
[7] | 康辉, 王家琦, 梅芳. 基于Pi演算的并行编程语言[J]. 吉林大学学报(工学版), 2016, 46(1): 235-241. |
[8] | 陈鹏飞, 田地, 杨光. 基于MVC架构的LIBS软件设计与实现[J]. 吉林大学学报(工学版), 2016, 46(1): 242-245. |
[9] | 刘磊, 王燕燕, 申春, 李玉祥, 刘雷. Bellman-Ford算法性能可移植的GPU并行优化[J]. 吉林大学学报(工学版), 2015, 45(5): 1559-1564. |
[10] | 冯晓宁, 王卓, 张旭. 基于L-π演算的WSN路由协议形式化方法[J]. 吉林大学学报(工学版), 2015, 45(5): 1565-1571. |
[11] | 李明哲, 王劲林, 陈晓, 陈君. 基于网络处理器的流媒体应用架构模型(VPL)[J]. 吉林大学学报(工学版), 2015, 45(5): 1572-1580. |
[12] | 王克朝, 王甜甜, 苏小红, 马培军. 基于频繁闭合序列模式挖掘的学生程序雷同检测[J]. 吉林大学学报(工学版), 2015, 45(4): 1260-1265. |
[13] | 黄宏涛,王静,叶海智,黄少滨. 基于惰性切片的线性时态逻辑性质验证[J]. 吉林大学学报(工学版), 2015, 45(1): 245-251. |
[14] | 范大娟1, 2, 黄志球1, 肖芳雄1, 祝义1, 王进1. 面向多服务交互的相容性分析与适配器生成[J]. 吉林大学学报(工学版), 2014, 44(4): 1094-1103. |
[15] | 贺秦禄1, 李战怀1, 王乐晓1, 王瑞2. 云存储系统聚合带宽测试技术[J]. 吉林大学学报(工学版), 2014, 44(4): 1104-1111. |
|