吉林大学学报(工学版) ›› 2020, Vol. 50 ›› Issue (5): 1826-1831.doi: 10.13229/j.cnki.jdxbgxb20190546

• 计算机科学与技术 • 上一篇    

基于Linked data的数据完整性评估新方法

袁满(),胡超,仇婷婷   

  1. 东北石油大学 计算机与信息技术学院,黑龙江 大庆163318
  • 收稿日期:2019-05-31 出版日期:2020-09-01 发布日期:2020-09-16
  • 作者简介:袁满(1965-),男,教授,博士生导师.研究方向:数据科学与知识工程,数据标准化与数据质量.E-mail:yuanman@nepu.edu.cn
  • 基金资助:
    黑龙省教育厅国家基金培育项目(2017PYYL-06);黑龙江省哲学社会科学研究规划项目(19EDE334);研究生创新基金项目(JYCX_CX07_2018_2)

A new method for data integrity assessment based on Linked data

Man YUAN(),Chao HU,Ting-ting QIU   

  1. School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, China
  • Received:2019-05-31 Online:2020-09-01 Published:2020-09-16

摘要:

为更加高效、准确地对数据完整性进行评估,通过对国内外完整性评估技术和方法的研究,本文基于Linked data的数据特点,提出了用于数据完整性评估的β算法和用于隐含数据挖掘的Dam算法,并从理论上分析证明了算法的有效性和准确性。最后,将东北石油大学教务数据发布为Linked data作为验证数据进行实验,与文献中两种完整性评估算法进行了比对,结果表明:评估完整性提高约6%,评估效率平均提高约40倍,验证了本文算法的准确性和高效性。本文提出的基于Linked data的数据完整性评估算法不仅能保证数据评估的准确性,同时能大幅度提高计算效率。

关键词: 计算机软件, 数据质量, 数据完整性, Linked data

Abstract:

In order to assess data integrity more efficiently and accurately, the existing technologies and methods for data integrity assessment are investigated. Then according to the data characteristics of Linked Data, two kinds of algorithms are proposed, the one is β algorithm for data integrity assessing, the other one is Dam algorithm for implicit data mining. Third, the effectiveness and accuracy of the algorithms are proved by theoretical analysis. Finally, the educational administration data is published to Linked Data. The β algorithm is compared with two kinds of integrity assessing algorithms in literature on the Linked Data published. The results show that the β algorithm improves the integrity for about 6%, and the efficiency increases about 40 times on average. The accuracy and efficiency of the proposed algorithm are verified. The data integrity assessment algorithm based on Linked Data proposed in this paper can not only ensure the accuracy of data evaluation, but also greatly improve the computational efficiency.

Key words: computer software, data quality, data integrity, Linked data

中图分类号: 

  • TP391

表1

文中指代符号及其含义"

符号描述说明
OP对象属性
DP数据属性
S[Pi]表示某数据实体S的一个属性
T(S[DPi])数据实体S数据属性完整性
T(S[OPi])数据实体S对象属性完整性
Sk[InferSet(Pj)]数据实体SkPj属性推断集

表2

实验涉及到的字段名称"

字段解释
SNO用于唯一标识学生
SNAME学生姓名
SAGE学生年级
SGENDER学生性别
TNO唯一标识教师
TNAME教师姓名
TAGE教师年纪
TGENDER教师性别
TTIME教龄
CNO唯一标识课程
CNAME课程名
ADDRESS上课地点

图1

实验结果对比"

表3

运算时间对比"

操作序号函数依赖 算法/ms基于Linked data 算法/ms
平均时间3179.678.9
1496560
2244062
3250966
4270968
53124125
6395868
7285661
82931115
9283775
10346789
1 比特网. 大数据时代下的大数据到底有多大?[EB/OL]. (2014-03-06) [2019-03-18]
2 白猫. 英特尔预测2020年全球数据量达44 ZB:中国占据五分之一[EB/OL]. (2017-9-19). [2019-03-19].
3 Reza V, Mehran M, Jafar H. Measuring data quality with weighted metrics[J]. Total Quality Management & Business Excellence, 2019, 30(5/6): 708-720.
4 Redman T C. Seizing opportunity in data quality[J]. MIT Sloan Management Review, 2019, 60(2): 9-12.
5 Wang R Y, Reddy M P, Kon H B. Toward quality data: an attribute-based approach[J]. Decision Support Systems, 1995, 13(3/4): 349-372.
6 刘永楠, 邹兆年, 李建中, 等. 数据完整性的评估方法[J]. 计算机研究与发展, 2013, 50(): 230-238.
Liu Yong-nan, Zou Zhao-nian, Li Jian-zhong, et al. Evaluation of data completeness[J]. Journal of Computer Research and Development, 2013, 50(Sup.1): 230-238.
7 McDowall R D. Data integrity focus, part 1: understanding the scope of data integrity[J]. LC-GC North America, 2019, 37(1): 44-51.
8 Libkin L. Incomplete information and certain answers in general data models[C]∥Thirtieth ACM Sigmod-sigact-sigart Symposium on Principles of Database Systems, ACM, 2011: 59-70.
9 Arenas M, Pérez, J, Reutter J. Data exchange beyond complete data[J]. Journal of the ACM, 2013, 60(4): 83-94.
10 Fan W, Geerts F. Relative information completeness[J]. ACM Transactions on Database Systems, 2010, 35(4): 97-106.
11 Deng T, Fan W, Geerts F. Capturing missing tuples and missing values[J]. ACM Transactions on Database Systems, 2016, 41(2): 1-47.
12 Razniewski S, Nutt W. Completeness of queries over incomplete databases[J]. Proceedings of the Vldb Endowment, 2011, 4(11): 749-760.
13 Biswas J, Naumann F, Qiu Q. Assessing the completeness of sensor data[C]∥Database Systems for Advanced Applications, Singapore, 2006: 717-732.
14 Naumann F, Freytag J C, Leser U. Completeness of integrated information sources[J]. Information Systems, 2004, 29(7): 583-615.
15 Pfeiffer M. Data intergrity[J]. Die Pharmazeutiseche Industrie(Pharmind), 2017, 79(5): 736-741.
16 Strobin L, Niewiadomski A. Integration of multiple graph datasets and their linguistic summaries: an application to linked data[C]∥15th International Conference, Zakopane, Poland, 2016: 333-343.
17 Böckerman P, Ilmakunnas P. Do good working conditions make you work longer? Analyzing retirement decisions using linked survey and register data[J]. The Journal of the Economics of Ageing, 2019,49(5): 1-26.
18 李楠, 张学福. 基于关联数据的知识发现模型研究[J]. 图书馆学研究, 2013(1): 73-77, 67.
Li Nan, Zhang Xue-fu. Research on knowledge discovery model based on linked data[J]. Researches in Library Science, 2013(1): 73-77, 67.
19 Alessandreia O, Gabriel T, Gleiph G, et al. An efficient similarity-based approach for comparing XML documents[J]. Information Systems, 2018, 78: 40-57.
20 Eddamiri S, Zemmouri E M, Benghabrit A. An improved RDF data clustering algorithm[J]. Procedia Computer Science, 2019, 148: 208-217.
21 徐光伟, 白艳珂, 燕彩蓉, 等. 大数据存储中数据完整性验证结果的检测算法[J]. 计算机研究与发展, 2017, 54(11): 2487-2496.
Xu Guang-wei, Bai Yan-ke, Yan Cai-rong, et al. Check algorithm of data integrity verification results in big data storage[J]. Journal of Computer Research and Development, 2017, 54(11): 2487-2496.
22 Mao J, Cui J, Zhang Y, et al. Collaborative outsourced data integrity checking in multi-cloud environment[C]∥International Conference on Wireless Algorithms, Bozeman, USA, 2016: 511-523.
23 谭霜, 何力, 陈志坤, 等. 云存储中一种基于格的数据完整性验证方法[J].计算机研究与发展, 2015, 52(8): 1862-1872.
Tan Shuang, He Li, Chen Zhi-kun, et al. A method of provable data integrity based on lattice in cloud storage[J]. Journal of Computer Research and Development, 2015, 52(8): 1862-1872.
24 杜岳峰, 申德荣, 聂铁铮, 等. 基于关联数据的一致性和时效性清洗方法[J]. 计算机学报, 2017, 40(1): 92-106.
Du Yue-feng, Shen De-rong, Nie Tie-zheng, et al. A cleaning method for consistency and currency in related data[J]. Chinese Journal of Computers, 2017, 40(1): 92-106.
25 陈龙, 李俊中. 支持不同粒度运算的远程数据完整性验证[J]. 吉林大学学报: 工学版, 2012, 42(): 295-299.
Chen Long, Li Jun-zhong. Verifiable method for remote data integrity supporting different granular operation[J]. Journal of Jilin University(Enhineering and Technology Edition), 2012, 42(Sup.1): 295-299.
26 陈晓慧, 张伟. 基于混沌的协同商务数据完整性验证方法[J]. 吉林大学学报: 工学版, 2009, 39(4): 1080-1084.
Chen Xiao-hui, Zhang Wei. Data integrality validation of collaborative business based on chaos[J]. Journal of Jilin University(Enhineering and Technology Edition), 2009, 39(4): 1080-1084.
[1] 刘磊,瓮杰,郭德贵. 面向编译器测试的部分求值静态输入确定方法[J]. 吉林大学学报(工学版), 2020, 50(1): 262-267.
[2] 马健, 樊建平, 刘峰, 李红辉. 面向对象软件系统演化模型[J]. 吉林大学学报(工学版), 2018, 48(2): 545-550.
[3] 罗养霞, 郭晔. 基于数据依赖特征的软件识别[J]. 吉林大学学报(工学版), 2017, 47(6): 1894-1902.
[4] 应欢, 王东辉, 武成岗, 王喆, 唐博文, 李建军. 适用于商用系统环境的低开销确定性重放技术[J]. 吉林大学学报(工学版), 2017, 47(1): 208-217.
[5] 李勇, 黄志球, 王勇, 房丙午. 基于多源数据的跨项目软件缺陷预测[J]. 吉林大学学报(工学版), 2016, 46(6): 2034-2041.
[6] 王念滨, 祝官文, 周连科, 王红卫. 支持高效路径查询的数据空间索引方法[J]. 吉林大学学报(工学版), 2016, 46(3): 911-916.
[7] 陈鹏飞, 田地, 杨光. 基于MVC架构的LIBS软件设计与实现[J]. 吉林大学学报(工学版), 2016, 46(1): 242-245.
[8] 康辉, 王家琦, 梅芳. 基于Pi演算的并行编程语言[J]. 吉林大学学报(工学版), 2016, 46(1): 235-241.
[9] 特日跟, 江晟, 李雄飞, 李军. 基于整数数据的文档压缩编码方案[J]. 吉林大学学报(工学版), 2016, 46(1): 228-234.
[10] 冯晓宁, 王卓, 张旭. 基于L-π演算的WSN路由协议形式化方法[J]. 吉林大学学报(工学版), 2015, 45(5): 1565-1571.
[11] 刘磊, 王燕燕, 申春, 李玉祥, 刘雷. Bellman-Ford算法性能可移植的GPU并行优化[J]. 吉林大学学报(工学版), 2015, 45(5): 1559-1564.
[12] 李明哲, 王劲林, 陈晓, 陈君. 基于网络处理器的流媒体应用架构模型(VPL)[J]. 吉林大学学报(工学版), 2015, 45(5): 1572-1580.
[13] 王克朝, 王甜甜, 苏小红, 马培军. 基于频繁闭合序列模式挖掘的学生程序雷同检测[J]. 吉林大学学报(工学版), 2015, 45(4): 1260-1265.
[14] 黄宏涛,王静,叶海智,黄少滨. 基于惰性切片的线性时态逻辑性质验证[J]. 吉林大学学报(工学版), 2015, 45(1): 245-251.
[15] 贺秦禄1, 李战怀1, 王乐晓1, 王瑞2. 云存储系统聚合带宽测试技术[J]. 吉林大学学报(工学版), 2014, 44(4): 1104-1111.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!