吉林大学学报(工学版) ›› 2021, Vol. 51 ›› Issue (2): 692-696.doi: 10.13229/j.cnki.jdxbgxb20200045

• 计算机科学与技术 • 上一篇    

基于人工智能技术的局部离群数据挖掘方法

尚福华1(),曹茂俊1(),王才志2   

  1. 1.东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318
    2.中国石油天然气勘探开发研究院 测井遥感技术部,北京 100083
  • 收稿日期:2020-01-14 出版日期:2021-03-01 发布日期:2021-02-09
  • 通讯作者: 曹茂俊 E-mail:shangfh@163.com;caomaojun@126.com
  • 作者简介:尚福华(1962-),男,教授,博士.研究方向:人工智能,图像处理和油田智能软件.E-mail:shangfh@163.com
  • 基金资助:
    国家重大科技专项项目(2017ZX05019-005);黑龙江省自然科学基金项目(LH2019F004)

Local outlier data mining based on artificial intelligence technology

Fu-hua SHANG1(),Mao-jun CAO1(),Cai-zhi WANG2   

  1. 1.School of Computer & Information Technology,Northeast Petroleum University,Daqing 163318,China
    2.Department of Well Logging & Remote Sensing Technology,Research Institute of Petroleum Exploration and Development,PetroChina,Beijing 100083,China
  • Received:2020-01-14 Online:2021-03-01 Published:2021-02-09
  • Contact: Mao-jun CAO E-mail:shangfh@163.com;caomaojun@126.com

摘要:

针对传统离散数据挖掘方法存在内存消耗过大的问题,研究基于人工智能技术的局部离群数据挖掘方法。提取离散数据特征,并使用基于信息熵的算法检测局部离群数据。标准化处理检测出的数据,在神经网络中实现对局部离群数据的挖掘,完成对基于人工智能技术的局部离群数据挖掘方法的研究。通过与传统数据挖掘方法的对比实验结果可知,本文方法在数据挖掘过程中内存消耗较少,与传统方法相比具有明显的优越性,充分验证了该方法的应用性和有效性。

关键词: 人工智能技术, 局部离群数据, 挖掘方法, 神经网络

Abstract:

In view of the huge memory consumption of traditional discrete data mining methods, this paper proposes a local outlier data mining method based on artificial intelligence technology. The feature of the discrete data is extracted and the local outlier data is detected by the algorithm based on information entropy. Through standardized processing of the detected data, the mining of local outlier data in neural network is realized, and the research on local outlier data mining method based on artificial intelligence technology is completed. Experimental results show that, compared with the traditional data mining method, the proposed method consumes less memory in the process of data mining and has obvious advantages, which fully verifies the applicability and effectiveness of this method.

Key words: artificial intelligence technology, local outlier data, mining method, neural network

中图分类号: 

  • TP311

图1

神经网络挖掘局部离散数据流程"

表1

实验数据集参数"

编号数据个数数据维数标记的子集数备注
1104010115%离群点
2360016105%离群点
3410016265%离群点
436002011%离群点
5238511010%离群点
61733238%离群点
734805415%离群点
8800071620%离群点

表2

计算机虚拟仿真平台参数"

项目参数说明
CPUIntel i7-8700,3.75 GHz运行数据挖掘方法
硬盘256 GB 固态硬盘存储实验数据集合
显卡NVIDIA显示实验结果
内存16 GB存储数据挖掘方法运行时的缓存数据
操作系统Windows 8.1辅助数据挖掘方法运行

图2

不同方法数据挖掘内存消耗对比"

1 张磐, 丁泠允, 姜宁, 等. 基于支持度-置信度-提升度的配网自动化系统数据挖掘算法及应用[J]. 电测与仪表, 2019, 56(10): 62-68.
Zhang Pan, Ding Ling-yun, Jiang Ning, et al. Data mining algorithm of the automation system of the distribution network based on the support-confidence-lift framework and its application[J]. Electrical Measurement & Instrumentation, 2019, 56(10): 62-68.
2 王战平, 冯扬文, 朱宸良. 基于数据挖掘技术的信息分析方法研究——以集装箱海运价格预测为例[J]. 情报科学, 2019, 37(7): 65-71.
Wang Zhan-ping, Feng Yang-wen, Zhu Chen-liang. Research on information analysis method based on data mining technology—taking container shipping price forecast as an example[J]. Information Science, 2019, 37(7): 65-71.
3 刘亚梅, 闫仁武. 一种基于密度聚类的分布式离群点检测算法[J]. 计算机与数字工程, 2019, 47(6): 1320-1325.
Liu Ya-mei, Yan Ren-wu. A distributed outlier detection algorithm based on density clustering[J]. Computer and Digital Engineering, 2019, 47(6): 1320-1325.
4 冯婷婷, 张继福. 基于网格单元和P权值的离群数据挖掘方法[J]. 太原科技大学学报, 2016, 37(5):359-364.
Feng Ting-ting, Zhang Ji-fu. An outlier data mining method of grid cell-based and P weights[J]. Journal of Taiyuan University of Science and Technology, 2016, 37(5): 359-364.
5 翁佩纯, 张远海, 马慧. Web网络中的离群数据挖掘技术研究与改进[J]. 现代电子技术, 2017, 40(18): 29-31.
Weng Pei-chun, Zhang Yuan-hai, Ma Hui. Research and improvement of outlier data mining technology in Web network[J]. Modern Electronics Technique, 2017, 40(18): 29-31.
6 蔡柳萍, 解辉, 张福泉, 等. 基于稀疏表示和特征加权的大数据挖掘方法的研究[J]. 计算机科学, 2018, 45(11): 256-260.
Cai Liu-ping, Xie Hui, Zhang Fu-quan, et al. Study on big data mining method based on sparse representation and feature weighting[J]. Computer Science, 2018, 45(11): 256-260.
7 鲍军鹏, 杨科, 周静. 卫星时序数据挖掘节点级并行与优化方法[J]. 北京航空航天大学学报, 2018, 44(12): 2470-2478.
Bao Jun-peng, Yang Ke, Zhou Jing. Node level parallel and optimization method of satellite time serial data mining[J]. Journal of Beijing University of Aeronautics and Astronautics, 2018, 44(12): 2470-2478.
8 张滨. 不平衡数据挖掘在分布式数据库中的应用[J]. 控制工程, 2018, 25(7): 1179-1183.
Zhang Bin. Application of unbalanced data mining in distributed database system[J]. Control Engineering of China, 2018, 25(7): 1179-1183.
9 赵从军. 一种新的水平分布式隐私保护数据挖掘算法——NPPA算法[J]. 科技通报, 2018, 34(3): 174-178.
Zhao Cong-jun. A new level of distributed privacy preserving mining algorithm—NPPA algorithm[J]. Bulletin of Science and Technology, 2018, 34(3): 174-178.
10 杨品林. 彩色图像数据库中目标特征数据挖掘方法[J]. 沈阳工业大学学报, 2018, 40(1): 60-64.
Yang Pin-lin. Mining method for target feature data in color image database[J]. Journal of Shenyang University of Technology, 2018, 40(1): 60-64.
11 程志, 张玉彤, 贾彪. 远距离光纤通信传输故障数据挖掘方法[J]. 激光杂志, 2019, 40(4): 127-130.
Cheng Zhi, Zhang Yu-tong, Jia Biao. Method of fault data mining for long-distance optical fiber communication transmission[J]. Laser Journal, 2019, 40(4): 127-130.
12 刘颖超, 胡小锋, 刘梦湘. 多工序下刀具磨损的不完备信息系统数据挖掘[J]. 计算机集成制造系统, 2019, 25(5): 1055-1061.
Liu Ying-chao, Hu Xiao-feng, Liu Meng-xiang. Data mining method of tool wear incomplete information system in multistage machining process[J]. Computer Integrated Manufacturing Systems, 2019, 25(5): 1055-1061.
13 武立群, 张亮亮. 基于数据挖掘技术的桥梁结构健康状态检测[J]. 吉林大学学报: 工学版, 2020, 50(2): 565-571.
Wu Li-qun, Zhang Liang-liang. Health detection of bridge structures based on data mining technology[J]. Journal of Jilin University (Engineering and Technology Edition), 2020, 50(2): 565-571.
14 王晓辉, 吴禄慎, 陈华伟. 基于法向量距离分类的散乱点云数据去噪[J]. 吉林大学学报: 工学版, 2020, 50(1): 278-288.
Wang Xiao-hui, Wu Lu-shen, Chen Hua-wei. Denoising of scattered point cloud data based on normal vector distance classification[J]. Journal of Jilin University(Engineering and Technology Edition), 2020,50(1): 278-288.
[1] 魏晓辉,孙冰怡,崔佳旭. 基于图神经网络的兴趣活动推荐算法[J]. 吉林大学学报(工学版), 2021, 51(1): 278-284.
[2] 王柯俨,王迪,赵熹,陈静怡,李云松. 基于卷积神经网络的联合估计图像去雾算法[J]. 吉林大学学报(工学版), 2020, 50(5): 1771-1777.
[3] 吴爱国,韩俊庆,董娜. 基于极局部模型的机械臂自适应滑模控制[J]. 吉林大学学报(工学版), 2020, 50(5): 1905-1912.
[4] 李静,石求军,洪良,刘鹏. 基于车辆状态估计的商用车ESC神经网络滑模控制[J]. 吉林大学学报(工学版), 2020, 50(5): 1545-1555.
[5] 刘国华,周文斌. 基于卷积神经网络的脉搏波时频域特征混叠分类[J]. 吉林大学学报(工学版), 2020, 50(5): 1818-1825.
[6] 李志军,杨楚皙,刘丹,孙大洋. 基于深度卷积神经网络的信息流增强图像压缩方法[J]. 吉林大学学报(工学版), 2020, 50(5): 1788-1795.
[7] 车翔玖,董有政. 基于多尺度信息融合的图像识别改进算法[J]. 吉林大学学报(工学版), 2020, 50(5): 1747-1754.
[8] 谌华,郭伟,闫敬文,卓文浩,吴良斌. 基于深度学习的SAR图像道路识别新方法[J]. 吉林大学学报(工学版), 2020, 50(5): 1778-1787.
[9] 张根保,李浩,冉琰,李裘进. 一种用于轴承故障诊断的迁移学习模型[J]. 吉林大学学报(工学版), 2020, 50(5): 1617-1626.
[10] 毛艳,成凯. 基于Hopfield神经网络的单缸插销式伸缩臂伸缩路径优化[J]. 吉林大学学报(工学版), 2020, 50(1): 53-65.
[11] 周柚,杨森,李大琳,吴春国,王岩,王康平. 基于现场可编程门电路的人脸检测识别加速平台[J]. 吉林大学学报(工学版), 2019, 49(6): 2051-2057.
[12] 赵宏伟,王鹏,范丽丽,胡黄水,刘萍萍. 相似性保持实例检索方法[J]. 吉林大学学报(工学版), 2019, 49(6): 2045-2050.
[13] 车翔玖,刘华罗,邵庆彬. 基于Fast RCNN改进的布匹瑕疵识别算法[J]. 吉林大学学报(工学版), 2019, 49(6): 2038-2044.
[14] 李杰, 郭文翠, 赵旗, 谷盛丰. 基于车辆响应的路面不平度识别方法[J]. 吉林大学学报(工学版), 2019, 49(6): 1810-1817.
[15] 马子骥,卢浩,董艳茹. 双通道单图像超分辨率卷积神经网络[J]. 吉林大学学报(工学版), 2019, 49(6): 2089-2097.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!