吉林大学学报(工学版) ›› 2022, Vol. 52 ›› Issue (4): 885-890.doi: 10.13229/j.cnki.jdxbgxb20200938

• 计算机科学与技术 • 上一篇    

基于频繁模式树的多来源数据选择性集成算法

方世敏()   

  1. 国防大学 政治学院,上海 200433
  • 收稿日期:2020-12-07 出版日期:2022-04-01 发布日期:2022-04-20
  • 作者简介:方世敏(1983-),男,副教授,博士.研究方向:军事信息资源管理与政治工作信息化.E-mail:fangshimin6542@outlook.com
  • 基金资助:
    国家社科基金军事学项目(16GJ003-179)

Multiple source data selective integration algorithm based on frequent pattern tree

Shi-min FANG()   

  1. School of Politics,National Defence University,Shanghai 200433,China
  • Received:2020-12-07 Online:2022-04-01 Published:2022-04-20

摘要:

为解决集成学习算法处理多来源数据集时运算难度大、分类准确率低等问题,提出基于频繁模式树的多来源数据选择性集成算法。比较数据源数据和真值间差异,利用拉依达准则判断多来源数据误差,同时提取多来源数据全部频繁模式,将其转换为压缩形式,创建频繁模式树架构,融合动态选择理念,运用目前数据测试实例从属某个被错误分类数据子集程度,凭借程度多少给予基分类器恰当权重;通过加权调和平均度量调整基分类器间的差异性与准确性,归一化处理频繁项集,最终采用精度高且和其他基分类器差异性大的基分类器组合完成多来源数据选择性集成。仿真结果表明,本文集成学习算法拥有更优的泛化性能和运行效率,分类正确率高。

关键词: 计算机应用技术, 频繁模式树, 多来源数据, 选择性集成, 权重赋权, 分类器

Abstract:

In order to solve the problems of high computational difficulty and low classification accuracy when ensemble learning algorithm is used to process multi-source data sets, a multi-source data selective integration algorithm based on frequent pattern tree is proposed. By comparing the difference between data source data and truth value, the error of multi-source data is judged by using Raida criterion, and all frequent patterns of multi-source data are extracted and converted into compressed form. The frequent pattern tree structure is created, and the concept of dynamic selection is integrated. The current data is used to test the extent to which an instance belongs to a subset of wrongly classified data by adjusting the difference and accuracy of the base classifiers by weighted harmonic average, the frequent itemsets are normalized, and finally the selective ensemble of multi-source data is completed by combining the base classifiers with high precision and big difference with other base classifiers. Simulation results show that the proposed ensemble learning algorithm has better generalization performance and efficiency, and has high classification accuracy.

Key words: computer application technology, frequent pattern tree, multi-source data, selective ensemble, weight weighting, classifier

中图分类号: 

  • TP391

图1

基于拉依达准则的多来源数据采集过程"

图2

频繁模式树结构图"

表1

两个分类器间的关系"

分类器hj分类器hi
正确(1)错误(0)
正确(1)N11N10
错误(0)N01N00

表2

真实多来源数据集基础信息"

数据集训练集测试集输入输出
Boston Housing380120151
Ozone2755381
Ocean35262121

表3

三种算法在数据集上的集成结果对比"

数据集算 法集成精度/%
训练集测试集
Boston Housing本文0.9450.893
文献[30.8710.865
文献[40.8990.884
Ozone本文0.9120.906
文献[30.8450.834
文献[40.8690.857
Ocean本文0.9350.927
文献[30.8860.874
文献[40.8960.885

图3

三种方法集成速率对比"

1 韩萌, 丁剑. 数据流频繁模式挖掘综述[J]. 计算机应用, 2019, 39(3): 719-727.
Han Meng, Ding Jian. Survey of frequent pattern mining over data streams[J]. Journal of Computer Applications, 2019, 39(3): 719-727.
2 魏怀明. 模糊关联规则结合动态树重建的数据流挖掘[J]. 控制工程, 2018, 25(12): 2263-2268.
Wei Huai-ming. Data stream mining using fuzzy association rules and dynamic tree reconstruction[J]. Control Engineering of China, 2018, 25(12): 2263-2268.
3 陈涛. 基于教与学优化算法的基因表达谱选择性集成分类[J]. 科学技术与工程, 2018, 18(21): 232-238.
Chen Tao. A selective ensemble method based on teaching-learning-based optimization for classifying gene expression profiles[J]. Science Technology and Engineering, 2018, 18(21): 232-238.
4 李尧, 王志海, 孙艳歌, 等. 一种基于深度属性加权的数据流自适应集成分类算法[J]. 山东大学学报: 工学版, 2018, 48(6): 44-55, 66.
Li Yao, Wang Zhi-hai, Sun Yan-ge, et al. An adaptive ensemble classification method based on deep attribute weighting for data stream[J]. Journal of Shandong University(Engineering Science), 2018, 48(6): 44-55, 66.
5 侯莉莎. 大数据集合中冗余特征排除的聚类算法设计[J].现代电子技术, 2018, 41(14): 48-50, 54.
Hou Li-sha. Design of clustering algorithm for redundancy feature removal in big data sets[J].Modern Electronics Technique, 2018, 41(14): 48-50, 54.
6 杨阳, 丁家满, 李海滨, 等. 一种基于Spark的不确定数据集频繁模式挖掘算法[J]. 信息与控制, 2019, 48(3): 257-264.
Yang Yang, Ding Jia-man, Li Hai-bin, et al. A spark-based frequent patterns mining algorithm for uncertain datasets[J]. Information and Control, 2019, 48(3): 257-264.
7 吴磊, 程良伦, 王涛. 基于事务映射区间求交的高效频繁模式挖掘算法[J]. 计算机应用研究, 2019, 36(4): 1031-1035, 1050.
Wu Lei, Cheng Liang-lun, Wang Tao. Efficient frequent pattern mining algorithm based on interval interaction and transaction mapping[J]. Application Research of Computers, 2019, 36(4): 1031-1035, 1050.
8 郑玉艳, 田莹, 石川. 一种元路径下基于频繁模式的实体集扩展方法[J]. 软件学报, 2018, 29(10): 2915-2930.
Zheng Yu-yan, Tian Ying, Shi Chuan. Method of entity set expansion based on frequent pattern under meta path[J]. Journal of Software, 2018, 29(10): 2915-2930.
9 陶晓玲, 亢蕊楠, 刘丽燕. 基于选择性集成的并行多分类器融合方法[J]. 计算机工程与科学, 2018, 40(5): 787-792.
Tao Xiao-ling, Kang Rui-nan, Liu Li-yan. A parallel multi-classifier fusion approach based on selective ensemble[J]. Computer Engineering and Science, 2018, 40(5): 787-792.
10 任永功, 高鹏, 张志鹏. 一种利用相关性度量的不确定数据频繁模式挖掘[J]. 小型微型计算机系统, 2019, 40(3): 623-627.
Ren Yong-gong, Gao Peng, Zhang Zhi-peng. Frequent patterns mining for uncertain data using correlation metric[J]. Journal of Chinese Computer Systems, 2019, 40(3): 623-627.
11 万芳, 胡东辉. 基于弱关联频繁模式的超限行为挖掘优化[J]. 北京交通大学学报, 2018, 42(2): 31-37.
Wan Fang, Hu Dong-hui. An optimization for overload behavior mining based on weakly correlated frequent patterns[J]. Journal of Beijing Jiaotong University, 2018, 42(2): 31-37.
[1] 王生生,陈境宇,卢奕南. 基于联邦学习和区块链的新冠肺炎胸部CT图像分割[J]. 吉林大学学报(工学版), 2021, 51(6): 2164-2173.
[2] 赵宏伟,张子健,李蛟,张媛,胡黄水,臧雪柏. 基于查询树的双向分段防碰撞算法[J]. 吉林大学学报(工学版), 2021, 51(5): 1830-1837.
[3] 曹洁,屈雪,李晓旭. 基于滑动特征向量的小样本图像分类方法[J]. 吉林大学学报(工学版), 2021, 51(5): 1785-1791.
[4] 王春波,底晓强. 基于标签分类的云数据完整性验证审计方案[J]. 吉林大学学报(工学版), 2021, 51(4): 1364-1369.
[5] 钱榕,张茹,张克君,金鑫,葛诗靓,江晟. 融合全局和局部特征的胶囊图神经网络[J]. 吉林大学学报(工学版), 2021, 51(3): 1048-1054.
[6] 周炳海,吴琼. 基于多目标的机器人装配线平衡算法[J]. 吉林大学学报(工学版), 2021, 51(2): 720-727.
[7] 许骞艺,秦贵和,孙铭会,孟诚训. 基于改进的ResNeSt驾驶员头部状态分类算法[J]. 吉林大学学报(工学版), 2021, 51(2): 704-711.
[8] 宋元,周丹媛,石文昌. 增强OpenStack Swift云存储系统安全功能的方法[J]. 吉林大学学报(工学版), 2021, 51(1): 314-322.
[9] 车翔玖,董有政. 基于多尺度信息融合的图像识别改进算法[J]. 吉林大学学报(工学版), 2020, 50(5): 1747-1754.
[10] 才华, 陈广秋, 刘广文, 程帅, 于化东. 遮挡环境下多示例学习分块目标跟踪[J]. 吉林大学学报(工学版), 2017, 47(1): 281-287.
[11] 董飒, 刘大有, 李丽娜, 欧阳若川, 柴晓丽. 基于类传播分布的关系近邻异质性网络分类方法[J]. 吉林大学学报(工学版), 2016, 46(2): 522-527.
[12] 胡冠宇, 乔佩利. 基于云群的高维差分进化算法及其在网络安全态势预测上的应用[J]. 吉林大学学报(工学版), 2016, 46(2): 568-577.
[13] 张浩, 刘海明, 吴春国, 张艳梅, 赵天明, 李寿涛. 基于多特征融合的绿色通道车辆检测判定[J]. 吉林大学学报(工学版), 2016, 46(1): 271-276.
[14] 佟金, 王亚辉, 樊雪梅, 张书军, 陈东辉. 生鲜农产品冷链物流状态监控信息系统[J]. 吉林大学学报(工学版), 2013, 43(06): 1707-1711.
[15] 赵宏伟, 陈霄, 龙曼丽, 袁世培. 基于改进PLSA分类器的目标分类算法[J]. 吉林大学学报(工学版), 2012, 42(增刊1): 231-235.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!