吉林大学学报(工学版) ›› 2020, Vol. 50 ›› Issue (5): 1826-1831.doi: 10.13229/j.cnki.jdxbgxb20190546
• 计算机科学与技术 • 上一篇
Man YUAN(),Chao HU,Ting-ting QIU
摘要:
为更加高效、准确地对数据完整性进行评估,通过对国内外完整性评估技术和方法的研究,本文基于Linked data的数据特点,提出了用于数据完整性评估的β算法和用于隐含数据挖掘的Dam算法,并从理论上分析证明了算法的有效性和准确性。最后,将东北石油大学教务数据发布为Linked data作为验证数据进行实验,与文献中两种完整性评估算法进行了比对,结果表明:评估完整性提高约6%,评估效率平均提高约40倍,验证了本文算法的准确性和高效性。本文提出的基于Linked data的数据完整性评估算法不仅能保证数据评估的准确性,同时能大幅度提高计算效率。
中图分类号:
1 | 比特网. 大数据时代下的大数据到底有多大?[EB/OL]. (2014-03-06) [2019-03-18] |
2 | 白猫. 英特尔预测2020年全球数据量达44 ZB:中国占据五分之一[EB/OL]. (2017-9-19). [2019-03-19]. |
3 | Reza V, Mehran M, Jafar H. Measuring data quality with weighted metrics[J]. Total Quality Management & Business Excellence, 2019, 30(5/6): 708-720. |
4 | Redman T C. Seizing opportunity in data quality[J]. MIT Sloan Management Review, 2019, 60(2): 9-12. |
5 | Wang R Y, Reddy M P, Kon H B. Toward quality data: an attribute-based approach[J]. Decision Support Systems, 1995, 13(3/4): 349-372. |
6 | 刘永楠, 邹兆年, 李建中, 等. 数据完整性的评估方法[J]. 计算机研究与发展, 2013, 50(): 230-238. |
Liu Yong-nan, Zou Zhao-nian, Li Jian-zhong, et al. Evaluation of data completeness[J]. Journal of Computer Research and Development, 2013, 50(Sup.1): 230-238. | |
7 | McDowall R D. Data integrity focus, part 1: understanding the scope of data integrity[J]. LC-GC North America, 2019, 37(1): 44-51. |
8 | Libkin L. Incomplete information and certain answers in general data models[C]∥Thirtieth ACM Sigmod-sigact-sigart Symposium on Principles of Database Systems, ACM, 2011: 59-70. |
9 | Arenas M, Pérez, J, Reutter J. Data exchange beyond complete data[J]. Journal of the ACM, 2013, 60(4): 83-94. |
10 | Fan W, Geerts F. Relative information completeness[J]. ACM Transactions on Database Systems, 2010, 35(4): 97-106. |
11 | Deng T, Fan W, Geerts F. Capturing missing tuples and missing values[J]. ACM Transactions on Database Systems, 2016, 41(2): 1-47. |
12 | Razniewski S, Nutt W. Completeness of queries over incomplete databases[J]. Proceedings of the Vldb Endowment, 2011, 4(11): 749-760. |
13 | Biswas J, Naumann F, Qiu Q. Assessing the completeness of sensor data[C]∥Database Systems for Advanced Applications, Singapore, 2006: 717-732. |
14 | Naumann F, Freytag J C, Leser U. Completeness of integrated information sources[J]. Information Systems, 2004, 29(7): 583-615. |
15 | Pfeiffer M. Data intergrity[J]. Die Pharmazeutiseche Industrie(Pharmind), 2017, 79(5): 736-741. |
16 | Strobin L, Niewiadomski A. Integration of multiple graph datasets and their linguistic summaries: an application to linked data[C]∥15th International Conference, Zakopane, Poland, 2016: 333-343. |
17 | Böckerman P, Ilmakunnas P. Do good working conditions make you work longer? Analyzing retirement decisions using linked survey and register data[J]. The Journal of the Economics of Ageing, 2019,49(5): 1-26. |
18 | 李楠, 张学福. 基于关联数据的知识发现模型研究[J]. 图书馆学研究, 2013(1): 73-77, 67. |
Li Nan, Zhang Xue-fu. Research on knowledge discovery model based on linked data[J]. Researches in Library Science, 2013(1): 73-77, 67. | |
19 | Alessandreia O, Gabriel T, Gleiph G, et al. An efficient similarity-based approach for comparing XML documents[J]. Information Systems, 2018, 78: 40-57. |
20 | Eddamiri S, Zemmouri E M, Benghabrit A. An improved RDF data clustering algorithm[J]. Procedia Computer Science, 2019, 148: 208-217. |
21 | 徐光伟, 白艳珂, 燕彩蓉, 等. 大数据存储中数据完整性验证结果的检测算法[J]. 计算机研究与发展, 2017, 54(11): 2487-2496. |
Xu Guang-wei, Bai Yan-ke, Yan Cai-rong, et al. Check algorithm of data integrity verification results in big data storage[J]. Journal of Computer Research and Development, 2017, 54(11): 2487-2496. | |
22 | Mao J, Cui J, Zhang Y, et al. Collaborative outsourced data integrity checking in multi-cloud environment[C]∥International Conference on Wireless Algorithms, Bozeman, USA, 2016: 511-523. |
23 | 谭霜, 何力, 陈志坤, 等. 云存储中一种基于格的数据完整性验证方法[J].计算机研究与发展, 2015, 52(8): 1862-1872. |
Tan Shuang, He Li, Chen Zhi-kun, et al. A method of provable data integrity based on lattice in cloud storage[J]. Journal of Computer Research and Development, 2015, 52(8): 1862-1872. | |
24 | 杜岳峰, 申德荣, 聂铁铮, 等. 基于关联数据的一致性和时效性清洗方法[J]. 计算机学报, 2017, 40(1): 92-106. |
Du Yue-feng, Shen De-rong, Nie Tie-zheng, et al. A cleaning method for consistency and currency in related data[J]. Chinese Journal of Computers, 2017, 40(1): 92-106. | |
25 | 陈龙, 李俊中. 支持不同粒度运算的远程数据完整性验证[J]. 吉林大学学报: 工学版, 2012, 42(): 295-299. |
Chen Long, Li Jun-zhong. Verifiable method for remote data integrity supporting different granular operation[J]. Journal of Jilin University(Enhineering and Technology Edition), 2012, 42(Sup.1): 295-299. | |
26 | 陈晓慧, 张伟. 基于混沌的协同商务数据完整性验证方法[J]. 吉林大学学报: 工学版, 2009, 39(4): 1080-1084. |
Chen Xiao-hui, Zhang Wei. Data integrality validation of collaborative business based on chaos[J]. Journal of Jilin University(Enhineering and Technology Edition), 2009, 39(4): 1080-1084. |
[1] | 刘磊,瓮杰,郭德贵. 面向编译器测试的部分求值静态输入确定方法[J]. 吉林大学学报(工学版), 2020, 50(1): 262-267. |
[2] | 马健, 樊建平, 刘峰, 李红辉. 面向对象软件系统演化模型[J]. 吉林大学学报(工学版), 2018, 48(2): 545-550. |
[3] | 罗养霞, 郭晔. 基于数据依赖特征的软件识别[J]. 吉林大学学报(工学版), 2017, 47(6): 1894-1902. |
[4] | 应欢, 王东辉, 武成岗, 王喆, 唐博文, 李建军. 适用于商用系统环境的低开销确定性重放技术[J]. 吉林大学学报(工学版), 2017, 47(1): 208-217. |
[5] | 李勇, 黄志球, 王勇, 房丙午. 基于多源数据的跨项目软件缺陷预测[J]. 吉林大学学报(工学版), 2016, 46(6): 2034-2041. |
[6] | 王念滨, 祝官文, 周连科, 王红卫. 支持高效路径查询的数据空间索引方法[J]. 吉林大学学报(工学版), 2016, 46(3): 911-916. |
[7] | 陈鹏飞, 田地, 杨光. 基于MVC架构的LIBS软件设计与实现[J]. 吉林大学学报(工学版), 2016, 46(1): 242-245. |
[8] | 康辉, 王家琦, 梅芳. 基于Pi演算的并行编程语言[J]. 吉林大学学报(工学版), 2016, 46(1): 235-241. |
[9] | 特日跟, 江晟, 李雄飞, 李军. 基于整数数据的文档压缩编码方案[J]. 吉林大学学报(工学版), 2016, 46(1): 228-234. |
[10] | 冯晓宁, 王卓, 张旭. 基于L-π演算的WSN路由协议形式化方法[J]. 吉林大学学报(工学版), 2015, 45(5): 1565-1571. |
[11] | 刘磊, 王燕燕, 申春, 李玉祥, 刘雷. Bellman-Ford算法性能可移植的GPU并行优化[J]. 吉林大学学报(工学版), 2015, 45(5): 1559-1564. |
[12] | 李明哲, 王劲林, 陈晓, 陈君. 基于网络处理器的流媒体应用架构模型(VPL)[J]. 吉林大学学报(工学版), 2015, 45(5): 1572-1580. |
[13] | 王克朝, 王甜甜, 苏小红, 马培军. 基于频繁闭合序列模式挖掘的学生程序雷同检测[J]. 吉林大学学报(工学版), 2015, 45(4): 1260-1265. |
[14] | 黄宏涛,王静,叶海智,黄少滨. 基于惰性切片的线性时态逻辑性质验证[J]. 吉林大学学报(工学版), 2015, 45(1): 245-251. |
[15] | 贺秦禄1, 李战怀1, 王乐晓1, 王瑞2. 云存储系统聚合带宽测试技术[J]. 吉林大学学报(工学版), 2014, 44(4): 1104-1111. |
|