吉林大学学报(工学版) ›› 2021, Vol. 51 ›› Issue (4): 1358-1363.doi: 10.13229/j.cnki.jdxbgxb20200197

• 计算机科学与技术 • 上一篇    

基于海量文本数据的知识图谱自动构建算法

朱小龙1,2(),谢忠1()   

  1. 1.中国地质大学(武汉) 地理与信息工程学院,武汉 430074
    2.长江大学 地球科学学院,武汉 430100
  • 收稿日期:2020-03-30 出版日期:2021-07-01 发布日期:2021-07-14
  • 通讯作者: 谢忠 E-mail:zxlong0224@tom.com
  • 作者简介:朱小龙(1981-),男,博士研究生,讲师.研究方向:地理信息抽取,机器学习.E-mail:zxlong0224@tom.com
  • 基金资助:
    国家自然科学基金项目(41671400)

Automatic construction of knowledge graph based on massive text data

Xiao-long ZHU1,2(),Zhong XIE1()   

  1. 1.School of Geography and Information Engineering,China University of Geosciences,Wuhan 430074,China
    2.College of Geoscience,Yangtze University,Wuhan 430100,China
  • Received:2020-03-30 Online:2021-07-01 Published:2021-07-14
  • Contact: Zhong XIE E-mail:zxlong0224@tom.com

摘要:

现有方法在构建知识图谱过程中,由于忽视了对半结构化数据的处理,导致知识图谱构建精确性不高,且耗时过长,为此本文提出基于海量文本数据的知识图谱自动构建算法。利用三元组抽取器实现海量文本数据源抽取,并提取其中的半结构化数据,同时剔除冗余数据。根据数据处理结果,利用数据采集功能选取适当的数据对象,作为知识图谱构建的文本数据源,并对数据源实行文本格式转换、分词和特征提取等规范化处理。分析得出数据的潜在语义,并绘制XTM可视化图谱,构成初步的知识图谱。挖掘该知识图谱中的已存知识,将潜在向量应用在信息推荐中,组成用户、评分与项目的三元组数据,采用图谱演进算法对评分、用户及项目进行预测,构建潜在向量模型生成多领域推荐,从而实现知识图谱的自动演进。实验结果表明,该算法具有更高的构建精确性,并且用时较短,说明该算法具有可靠性与实际应用性。

关键词: 海量文本数据, 知识图谱, 三元组抽取器, 格式转换, 特征提取

Abstract:

In the process of constructing the knowledge graph, the existing method ignores the processing of semi-structured data, which leads to the inaccuracy and time-consuming in construction of the knowledge graph. Therefore, an automatic knowledge graph construction algorithm based on massive text data is proposed. A triplet extractor is used to extract massive text data sources, and to extract semi-structured data, while eliminating redundant data. According to the data processing results, the appropriate data objects are selected using the data collection function as the text data source constructed by the knowledge map. The data source is subjected to standardized processing such as text format conversion, word segmentation and feature extraction. The underlying semantics of the data are analyzed and an XTM visualization map is drawn to form a preliminary knowledge map. The triples of users, ratings and items are composed by mining the existing knowledge in this knowledge map, applying potential vectors to information recommendation, and the graph evolution algorithm is used to predict the ratings, users and items, constructing latent vector models Domain recommendation to realize the automatic evolution of the knowledge graph. Experimental results show that the algorithm has higher construction accuracy and less time consumption, which shows that the algorithm is reliable and practical.

Key words: massive text data, knowledge map, triples extractor, format conversion, feature extraction

中图分类号: 

  • TP311

图1

三元组抽取器框架"

图2

知识图谱构建流程"

图3

数据预处理程序"

图4

数据分析程序"

图5

XTM协议簇"

图6

实验运行环境"

图7

知识图谱构建与预测演进精度"

1 吴雪峰, 赵志凯, 王莉, 等. 煤矿巷道支护领域知识图谱构建[J]. 工矿自动化, 2019, 45(6): 42-46.
Wu Xue-feng, Zhao Zhi-kai, Wang Li, et al. Construction of knowledge graph of coal mine roadway support field[J]. Industry and Mine Automation, 2019, 45(6): 42-46.
2 陈亚东, 鲜国建, 寇远涛, 等. 我国苹果产业知识图谱构建研究[J]. 中国农业资源与区划, 2017, 38(11):40-45.
Chen Ya-dong, Xian Guo-jian, Kou Yuan-tao. et al. Study on construction of knowledge graph of apple industry in China[J]. Chinese Journal of Agricultural Resources and Regional Planning, 2017, 38(11):40-45.
3 段鹏飞, 王远, 熊盛武, 等. 基于空间投影和关系路径的地理知识图谱表示学习[J]. 中文信息学报, 2018, 32(3): 26-33.
Duan Peng-fei, Wang Yuan, Xiong Sheng-wu, et al. Space projection and relation path based representation learning for construction of geography knowledge graph[J]. Journal of Chinese Information Processing, 2018, 32(3): 26-33.
4 孙昊天, 杨良斌. 基于带权三元闭包的知识图谱的构建方法研究[J]. 情报杂志, 2019, 38(6):168-173.
Sun Hao-tian, Yang Liang-bin. Research on the construction method of knowledge graph based on weighted triadic closure[J]. Journal of Intelligence, 2019, 38(6):168-173.
5 王坤, 谢振平, 陈梅婕. 基于图约简的知识联想关系网络建模[J]. 智能系统学报, 2019, 14(4):679-688.
Wang Kun, Xie Zhen-ping, Chen Mei-jie. Modeling knowledge network on associative relations based on graph reduction[J]. CAAI Transactions on Intelligent Systems, 2019, 14(4):679-688.
6 张仲伟, 曹雷, 陈希亮, 等. 基于神经网络的知识推理研究综述[J]. 计算机工程与应用, 2019, 55(12):8-19.
Zhang Zhong-wei, Cao Lei, Chen Xi-liang, et al. Survey of knowledge reasoning based on neural network[J]. Computer Engineering and Applications, 2019, 55(12):8-19.
7 余传明, 王峰, 安璐. 基于深度学习的领域知识对齐模型研究:知识图谱视角[J]. 情报学报, 2019, 38(6):641-654.
Yu Chuan-ming, Wang Feng, An Lu. Research on the domain knowledge alignment model based on deep learning: the knowledge graph perspective[J]. Journal of the China Society for Scientific and Technical Information, 2019, 38(6):641-654.
8 陈国龙, 於志勇, 马飞翔, 等. 基于知识图谱的文本观点检索方法[J]. 山东大学学报:理学版, 2016, 51(11): 33-40.
Chen Guo-long, Yu Zhi-yong, Ma Fei-xiang, et al. A text opinion retrieval method based on knowledge graph[J]. Journal of Shandong University (Natural Science), 2016, 51(11): 33-40.
9 长青, 王鼎, 徐立丽, 等. 国内区域创新理论热点演进及前沿趋势研究——基于知识图谱视角[J]. 科技管理研究, 2016, 36(18):81-86.
Chang Qing, Wang Ding, Xu Li-li, et al. Study of hotspots evaluation and frontier trends of regional innovation theory in china—based on knowledge mapping domain[J]. Science and Technology Management Research, 2016, 36(18):81-86.
10 丁连红, 孙斌, 时鹏. 知识图谱复杂网络特性的实证研究与分析[J]. 物理学报, 2019, 68(12): 318-332.
Ding Lian-hong, Sun Bin, Shi Peng. Empirical study of knowledge network based on complex network theory[J]. Acta Physica Sinica, 2019, 68(12): 318-332.
11 孟小冬. 大数据背景下链路网络敏感数据防窃取方法[J]. 西安工程大学学报, 2019, 32(2):212-217.
Meng Xiao-dong. Anti-theft method of sensitive data in link network in large data background[J]. Journal of Xi'an Polytechnic University, 2019, 32(2):212-217.
[1] 徐涛,马克,刘才华. 基于深度学习的行人多目标跟踪方法[J]. 吉林大学学报(工学版), 2021, 51(1): 27-38.
[2] 段阳,侯力,冷松. 金属切削加工知识图谱构建及应用[J]. 吉林大学学报(工学版), 2021, 51(1): 122-133.
[3] 欧阳丹彤,马骢,雷景佩,冯莎莎. 知识图谱嵌入中的自适应筛选[J]. 吉林大学学报(工学版), 2020, 50(2): 685-691.
[4] 耿庆田, 于繁华, 王宇婷, 高琦坤. 基于特征融合的车型检测新算法[J]. 吉林大学学报(工学版), 2018, 48(3): 929-935.
[5] 董强, 刘晶红, 周前飞. 用于遥感图像拼接的改进SURF算法[J]. 吉林大学学报(工学版), 2017, 47(5): 1644-1652.
[6] 尹明, 战荫伟, 裴海龙. 基于稀疏补算子学习的图像融合方法[J]. 吉林大学学报(工学版), 2016, 46(6): 2052-2058.
[7] 肖钟捷. 基于小波空间特征谱熵的数字图像识别[J]. 吉林大学学报(工学版), 2015, 45(6): 1994-1998.
[8] 刘红,孙爽滋,王庆元,李延忠. 基于PSO的模拟电路故障信息特征提取[J]. 吉林大学学报(工学版), 2015, 45(2): 675-680.
[9] 潘海阳, 刘顺安, 姚永明. 基于深度信息的自主空中加油技术[J]. 吉林大学学报(工学版), 2014, 44(6): 1750-1756.
[10] 李学军, 杨晟, 李振举, 杨阿华, 刘涛. 与高精度单点匹配式定位算法[J]. 吉林大学学报(工学版), 2014, 44(4): 1197-1202.
[11] 顾播宇,孙俊喜,李洪祚,刘红喜,刘广文. 基于特征加权模块双方向二维主成分分析的人脸识别[J]. 吉林大学学报(工学版), 2014, 44(3): 828-833.
[12] 纪超, 刘慧英, 孙景峰, 贺胜, 黄民主. 基于空域和频域的图像显著区域检测[J]. 吉林大学学报(工学版), 2014, 44(01): 177-183.
[13] 王卓峥, 贾克斌. 矩阵填充与主元分析在受损图像配准中的应用[J]. 吉林大学学报(工学版), 2013, 43(增刊1): 78-83.
[14] 王海罗, 汪渤. 鲁棒的新型特征提取和匹配算法[J]. 吉林大学学报(工学版), 2013, 43(增刊1): 371-375.
[15] 赵宏伟, 陈霄, 龙曼丽, 裴士辉. 基于Riesz变换的图像边缘检测[J]. 吉林大学学报(工学版), 2013, 43(增刊1): 133-137.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!