吉林大学学报(信息科学版) ›› 2025, Vol. 43 ›› Issue (2): 231-237.
彭建祥
PENG Jianxiang
摘要: 由于大数据通常来自不同的数据源, 具有不同的格式、结构和质量, 且其中包含大量的冗余特征, 因而在进行特征集成分类时, 这些因素均会影响数据分类精度, 为此, 设计一种深度学习模式下大数据特征集成分类算法。基于深度学习模式建立医疗大数据特征提取模型, 针对模型训练过程中会引入大量噪声, 特征提取结果含有部分无关特征信息, 影响特征集成分类结果的问题, 采用堆叠稀疏降噪编码器抑制无关特征, 即使用散度函数、贪婪算法找出训练最佳参数, 运用损失函数将特征空间无关特征稀疏掉, 得到实际数据特征。通过Auto-encoder 网络搭建特征集成分类模型, 借助类型约束函数、目标函数得出各类全局最佳集成中心, 完成数据特征集成分类。实验结果表明, 所提方法在医疗大数据的分类中得到很好效果, 宏平均值在 0. 95 以上, 且分类速度快, 表明所提方法的分类性能较好。
中图分类号: