吉林大学学报(信息科学版) ›› 2026, Vol. 44 ›› Issue (1): 178-184.
范 舟
FAN Zhou
摘要: 针对多维度数据流的特性和复杂性, 为充分利用并行计算资源, 保证算法的可扩展性, 提出 Hadoop 环境 下多维数据流频繁模式并行挖掘算法。 设计基于 HDFS(Hadoop Distributed File System)和 MapReduce 的 Hadoop 数据流处理平台, 提出基于特征投影和拟合的 HpFitStream 聚类算法, 利用其中的多项式拟合算法完成异常数 据流处理, 并通过特征投影完成处理后数据流的降维以降低计算成本。 采用 PFPonCanTree 算法实现在 Hadoop 环境下多维数据流的频繁模式并行挖掘。 实验结果表明, 所提方法能在有效降低计算复杂度的同时, 提升算法 的可扩展性以及负载均衡能力。
中图分类号: