吉林大学学报(信息科学版) ›› 2026, Vol. 44 ›› Issue (3): 625-631.
江明泽,李 伟,董 丹
JIANG Mingze, LI Wei, DONG Dan
摘要: 针对在多来源数据集成中, 数据可能分布在不同的子空间中, 且数据不平衡度较高的问题, 为提高数据的分析效率, 提出基于鲁棒子空间聚类算法的多来源数据集成处理方法。首先, 通过改进数据平衡算法, 计算最大类的采样数目及类平均采样数目, 利用合成少数类过采样技术获取相对平衡子集, 解决数据分布不均衡的问题; 然后, 通过 Dicecoefficient 相似度度量的方式, 计算多来源数据的余弦相似性, 通过评估不同来源数据间的相似性, 解决数据异构性和冗余问题; 最后, 在建立自表示性亲和图揭示数据内在关联性的基础上, 利用鲁棒子空间聚类算法识别不同数据的特征子空间, 通过引入鲁棒性机制, 能抵抗噪声和冗余特征的影响, 并计算数据的隶属度, 根据隶属度实现数据集成处理。实验结果表明, 该方法能实现对多来源数据集成处理, 提高数据分析效率, 保证数据一致性和可靠性。
中图分类号: