Hadoop 环境下多维数据流频繁模式并行挖掘算法

Journal of Jilin University (Information Science Edition) ›› 2026, Vol. 44 ›› Issue (1): 178-184.

Previous Articles Next Articles

Parallel Mining Algorithm for Frequent Patterns in Multidimensional Data Streams in Hadoop Environment

FAN Zhou

Information Center, Huzhou Central Hospital, Huzhou 313000, China

Received:2023-12-04 Online:2026-01-31 Published:2026-02-04

Abstract

Abstract: Considering the characteristics and complexity of multidimensional data streams, in order to fully utilize parallel computing resources and ensure the scalability of the algorithm, a parallel mining algorithm for frequent patterns of multidimensional data streams in Hadoop environment is proposed. Design a Hadoop data stream processing platform based on HDFS ( Hadoop Distributed File System) and MapReduce, propose an HpFitStream clustering algorithm based on feature projection and fitting, using the polynomial fitting algorithm to handle abnormal data streams, and reducing the dimensionality of the processed data streams through feature projection to reduce computational costs. Implement frequent pattern parallel mining of multidimensional data streams in Hadoop environment using PFPonCanTree algorithm. The experimental results show that the proposed method can effectively reduce computational complexity while improving the scalability and load balancing ability of the algorithm.

Key words: Hadoop, MapReduce model, feature projection, polynomial fitting, frequent mode, parallel mining

CLC Number:

TP311

FAN Zhou. Parallel Mining Algorithm for Frequent Patterns in Multidimensional Data Streams in Hadoop Environment[J].Journal of Jilin University (Information Science Edition), 2026, 44(1): 178-184.

[1]	LIU Dan, LI Zhijun, GAO Rongxin. Design and Implementation of Medical Big Data Platform [J]. Journal of Jilin University (Information Science Edition), 2022, 40(1): 111-116.
[2]	LIU Ming , SHAN Yuying , SU Junyi , QIN Xiwen , JIANG Yang . Design and Implementation of Big Data Analysis Platform for Tax Risk Management [J]. Journal of Jilin University (Information Science Edition), 2022, 40(1): 96-102.
[3]	LI Xiaofeng, WANG Yanwei, LI Dong. Application of Quantum Computing in Incremental Parallel Mining of Large Data [J]. Journal of Jilin University (Information Science Edition), 2020, 38(4): 457-466.
[4]	WANG Rongli, HOU Xiuping. Hadoop YARN Scheduling Algorithm Based on Priority Weight [J]. Journal of Jilin University(Information Science Ed, 2017, 35(4): 443-448.
[5]	LI Ling, REN Qing, FU Yuan, CHEN He, MEI Sheng-min. Algorithm for Social Network Recommendation Service Based on Hadoop [J]. Journal of Jilin University(Information Science Ed, 2013, 31(4): 359-.

Parallel Mining Algorithm for Frequent Patterns in Multidimensional Data Streams in Hadoop Environment

PDF (PC)

Like

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 5

Metrics

Comments

Recommended 0