吉林大学学报(工学版) ›› 2021, Vol. 51 ›› Issue (3): 1011-1016.doi: 10.13229/j.cnki.jdxbgxb20200113

• 计算机科学与技术 •    

基于机器学习的地理空间数据抽取算法

朱小龙1,2(),谢忠1()   

  1. 1.中国地质大学(武汉) 地理与信息工程学院,武汉 430074
    2.长江大学 地球科学学院,武汉 430100
  • 收稿日期:2020-02-27 出版日期:2021-05-01 发布日期:2021-05-07
  • 通讯作者: 谢忠 E-mail:zxlong0224@tom.com
  • 作者简介:朱小龙(1981-),男,博士研究生. 研究方向:地理信息抽取,机器学习. E-mail:zxlong0224@tom.com
  • 基金资助:
    国家自然科学基金项目(41671400)

Geospatial data extraction algorithm based on machine learning

Xiao-long ZHU1,2(),Zhong XIE1()   

  1. 1.School of Geography and Information Engineering,China University of Geosciences(Wuhan),Wuhan 430074,China
    2.College of Geoscience,Yangtze University,Wuhan 430100,China
  • Received:2020-02-27 Online:2021-05-01 Published:2021-05-07
  • Contact: Zhong XIE E-mail:zxlong0224@tom.com

摘要:

为提高地理空间数据集成抽取的查准率和查全率,提出了基于机器学习的地理空间数据抽取算法。以GeoNames、OpenStreetMap等作为地理信息数据源,通过网络爬虫以及搜索引擎检索同时下载有关网页,并对内容进行过滤,过滤后对网页中的地点名称及地址信息等数据进行解析抽取,实现其可视化。分析抽取得到的地理数据实体,利用地理数据与实体之间的映射,将异构地理数据的歧义消除,实现地理空间数据一体化,并依据实体名称、类别等多特征相似程度计算,实现地理数据特征数字化。结合多特征、机器学习KNN分类法完成地理数据链接自动化,实现地理空间数据的分类抽取。通过实验对本文算法进行验证,结果表明:本文算法具有较高的查准率和查全率,数据抽取效果良好,可为地理数据集成提取奠定基础。

关键词: 计算机应用, 机器学习, 地理空间数据, 抽取算法

Abstract:

In order to improve the accuracy and recall of geospatial data integration extraction, a geospatial data extraction algorithm based on machine learning is proposed. GeoNames, OpenStreetMap, etc. are used as the data sources of geographic information. Through web crawler and search engine, the relevant web pages are searched and downloaded at the same time, and the content is filtered. After filtering, the location name and address information and other data in the web pages are parsed and extracted to realize visualization. By analyzing and extracting the geographic data entities, using the mapping between geographic data and entities, the disambiguation of heterogeneous geographic data is eliminated, the integration of geospatial data is realized, and the digital features of geographic data are realized according to the similarity degree calculation of multi features such as entity name and category. Combined with multi feature and machine learning KNN classification method, the proposed algorithm can complete the automation of geographic data link and realize the classification and extraction of geospatial data. The experimental results show that the proposed algorithm has high precision and recall, and the data extraction effect is good, which can lay a foundation for the integrated extraction of geographic data.

Key words: computer application, machine learning, geospatial data, extraction algorithm

中图分类号: 

  • P208

图1

地理空间数据集成抽取概述"

图2

网页中抽取地理数据流程图"

图3

常见地理数据本体定义关系示意图"

图4

地理数据链接方法运行程序示意图"

图5

基于机器学习的地理空间数据抽取效果"

1 刘学, 刘张霞. 村镇区域规划中统计数据空间化研究初探[J]. 中国农业资源与区划, 2016, 37(5):27-34.
Liu Xue, Liu Zhang-xia. Preliminary study on spatialization of statistical data in village and town planning[J]. Chinese Journal of Agricultural Resources and Regional Planning, 2016, 37(5):27-34.
2 周志光, 余佳珺, 郭智勇, 等. 平行坐标轴动态排列的地理空间多维数据可视分析[J]. 中国图象图形学报, 2019, 24(6):956-968.
Zhou Zhi-guang, Yu Jia-jun, Guo Zhi-yong, et al. Visual analysis of geospatial multi-dimensional data via a dynamic arrangement of parallel coordinates[J]. Journal of Image and Graphics, 2019, 24(6):956-968.
3 何振芳, 郭庆春, 赵牡丹, 等. 基于小波分析的复杂地貌区DEM自动综合研究[J]. 地理与地理信息科学, 2019, 35(4):57-63.
He Zhen-fang, Guo Qing-chun, Zhao Mu-dan, et al. Research on DEM automatic synthesis in complex geomorphic areas based on wavelet analysis[J]. Geography and Geo-Information Science, 2019, 35(4):57-63.
4 孙凯, 诸云强, 潘鹏, 等. 形态本体及其在地理空间数据发现中的应用研究[J]. 地球信息科学学报, 2016, 18(8):1011-1021.
Sun Kai, Zhu Yun-qiang, Pan Peng, et al. Research on morphology-ontology and its application in geospatial data discovery[J]. Journal of Geo-Information Science, 2016, 18(8):1011-1021.
5 赵红伟, 诸云强, 侯志伟, 等. 地理空间元数据关联网络的构建[J]. 地理科学, 2016, 36(8):1180-1189.
Zhao Hong-wei, Zhu Yun-qiang, Hou Zhi-wei, et al. Construction of geospatial metadata association network[J]. Scientia Geographica Sinica, 2016, 36(8):1180-1189.
6 陆旻, 袁晓如. 地理空间数据可视化中的过滤[J]. 计算机辅助设计与图形学学报, 2016, 28(5):702-711.
Lu Min, Yuan Xiao-ru. Filter in visualization of geospatial data[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(5):702-711.
7 邵彧, 师晓利. 基于遥感数据挖掘的智能地理信息系统设计[J]. 现代电子技术, 2016, 39(10):54-57.
Shao Yu, Shi Xiao-li. Design of intelligent geographic information system based on remote sensing data mining[J]. Modern Electronics Technique, 2016, 39(10):54-57.
8 许栋浩, 李宏伟, 张铁映, 等. 一种顾及模糊属性的空间关联规则挖掘方法[J]. 测绘科学技术学报, 2016, 33(3):313-318.
Xu Dong-hao, Li Hong-wei, Zhang Tie-ying, et al. A method of spatial association rule mining considering fuzzy attributes[J]. Journal of Geomatics Science and Technology, 2016, 33(3):313-318.
9 李德仁. 展望大数据时代的地球空间信息学[J]. 测绘学报, 2016, 45(4):379-384.
Li De-ren. Towards geo-spatial information science in big data era[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(4):379-384.
10 王东旭, 诸云强, 潘鹏,等. 地理数据空间本体构建及其在数据检索中的应用[J]. 地球信息科学学报, 2016, 18(4):443-452.
Wang Dong-xu, Zhu Yun-qiang, Pan Peng, et al. Construction of geodata spatial ontology and its application in data retrieval[J]. Journal of Geo-Information Science, 2016, 18(4):443-452.
11 王晓辉,吴禄慎,陈华伟. 基于法向量距离分类的散乱点云数据去噪[J]. 吉林大学学报:工学版,2020,50(1):278-288.
Wang Xiao-hui, Wu Lu-shen, Chen Hua-wei. Denoising of scattered point cloud data based on normal vector distance classification[J]. Journal of Jilin University(Engineering and Technology Edition), 2020,50(1):278-288.
12 丁宁,常玉春,赵健博,等. 基于USB 3.0的高速CMOS图像传感器数据采集系统[J]. 吉林大学学报:工学版,2018,48(4):1298-1304.
Ding Ning, Chang Yu-chun, Zhao Jian-bo, et al. High-speed CMOS image sensor data acquisition system based on USB 3.0[J]. Journal of Jilin University(Engineering and Technology Edition), 2018,48(4):1298-1304.
13 山海涛, 程承旗, 陈波. 一种基于GeoSOT剖分网格的地理空间数据存储架构设计方法[J]. 测绘科学技术学报, 2018, 35(3):94-97, 103.
Shan Hai-tao, Cheng Cheng-qi, Chen bo. A method of the storage architecture design of geospatial data based on GeoSOT[J]. Journal of Geomatics Science and Technology, 2018, 35(3):94-97, 103.
14 熊伟,资文杰,曹竞之. 科学工作流支持的复杂地理计算流程处理[J].武汉大学学报:信息科学版,2020,45(12):1903-1909.
Xiong Wei, Zi Wen-jie, Cao Jing-zhi. Complicated geospatial flow processing with scientific workflow[J]. Geomatics and Information Science of Wuhan University, 2020,45(12):1903-1909.
15 陈磊, 王江锋, 谷远利,等. 基于思维进化优化的多源交通数据融合算法[J]. 吉林大学学报:工学版, 2019, 49(3):705-713.
Chen Lei, Wang Jiang-feng, Gu Yuan-li, et al. Multi-source traffic data fusion algorithm based onmind evolutionary algorithm optimization[J]. Journal of Jilin University(Engineering and Technology Edition), 2019, 49(3): 705-713.
16 蔡英凤,张为公,王海.边缘特征与局部纹理特性融合的阴影消除算法[J].江苏大学学报:自然科学版,2012,33(2):144-149.
Cai Ying-feng,Zhang Wei-gong,Wang Hai. Shadow elimination method integrated edge features and local texture characteristic[J]. Journal of Jiangsu University(Natural Science Edition),2012,33(2):144-149.
17 赵慧慧,赵凡,陈仁海,等. 基于地理空间大数据的高效索引与检索算法[J]. 计算机研究与发展,2020,57(2):333-345.
Zhao Hui-hui, Zhao Fan, Chen Ren-hai, et al. Efficient index and query algorithm based on geospatial big data[J]. Journal of Computer Research and Development, 2020,57(2):333-345.
[1] 周炳海,吴琼. 基于多目标的机器人装配线平衡算法[J]. 吉林大学学报(工学版), 2021, 51(2): 720-727.
[2] 魏晓辉,周长宝,沈笑先,刘圆圆,童群超. 机器学习加速CALYPSO结构预测的可行性[J]. 吉林大学学报(工学版), 2021, 51(2): 667-676.
[3] 顾天奇,胡晨捷,涂毅,林述温. 基于移动最小二乘法的稳健重构方法[J]. 吉林大学学报(工学版), 2021, 51(2): 685-691.
[4] 许骞艺,秦贵和,孙铭会,孟诚训. 基于改进的ResNeSt驾驶员头部状态分类算法[J]. 吉林大学学报(工学版), 2021, 51(2): 704-711.
[5] 王小玉,胡鑫豪,韩昌林. 基于生成对抗网络的人脸铅笔画算法[J]. 吉林大学学报(工学版), 2021, 51(1): 285-292.
[6] 宋元,周丹媛,石文昌. 增强OpenStack Swift云存储系统安全功能的方法[J]. 吉林大学学报(工学版), 2021, 51(1): 314-322.
[7] 方明,陈文强. 结合残差网络及目标掩膜的人脸微表情识别[J]. 吉林大学学报(工学版), 2021, 51(1): 303-313.
[8] 李阳,李硕,井丽巍. 基于贝叶斯模型与机器学习算法的金融风险网络评估模型[J]. 吉林大学学报(工学版), 2020, 50(5): 1862-1869.
[9] 周炳海,何朝旭. 基于线边集成超市的混流装配线动态物料配送调度[J]. 吉林大学学报(工学版), 2020, 50(5): 1809-1817.
[10] 蒋磊,管仁初. 基于多目标进化算法的人才质量模糊综合评价系统设计[J]. 吉林大学学报(工学版), 2020, 50(5): 1856-1861.
[11] 赵宏伟,刘晓涵,张媛,范丽丽,龙曼丽,臧雪柏. 基于关键点注意力和通道注意力的服装分类算法[J]. 吉林大学学报(工学版), 2020, 50(5): 1765-1770.
[12] 管乃彦,郭娟利. 基于姿态估计算法的组件感知自适应模型[J]. 吉林大学学报(工学版), 2020, 50(5): 1850-1855.
[13] 方伟,黄羿,马新强. 基于机器学习的虚拟网络感知数据缺陷自动检测[J]. 吉林大学学报(工学版), 2020, 50(5): 1844-1849.
[14] 车翔玖,董有政. 基于多尺度信息融合的图像识别改进算法[J]. 吉林大学学报(工学版), 2020, 50(5): 1747-1754.
[15] 刘洲洲,尹文晓,张倩昀,彭寒. 基于离散优化算法和机器学习的传感云入侵检测[J]. 吉林大学学报(工学版), 2020, 50(2): 692-702.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!