吉林大学学报(信息科学版) ›› 2025, Vol. 43 ›› Issue (5): 1144-1150.
祁蔚茹,毕 鹏
QI Weiru, BI Peng
摘要: 针对区域经济数据来源多样,并且数据格式、结构和语义存在显著差异,难以统一处理,导致数据特征量的提取难以精准实现及数据分类结果不准确的问题,提出了基于并行聚类算法的区域经济大数据集成分类方法。 基于区域经济大数据的特性,计算数据的纯度和邻域半径,确定区域经济大数据的缺失值,并对其进行修正填充。 基于填充后的数据,利用并行聚类算法,将其随机划分为多个数据子集。 并行聚类算法利用多节点并行处理,显著提升计算效率,满足大规模数据处理需求。 提取每个数据子集的特征量,进而设计大数据基分类器。 在考虑基分类器内部数据密度的前提下,确定每个基分类器的权重值,将每个基分类器的分类结果进行组合, 输出最终的数据集成分类结果。 实验结果表明, 设计的分类方法在实际应用中DBI(Davies-Bouldin Index)指数为0.31, 并能实现准确的区域经济大数据分类。
中图分类号: