吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (5): 894-900.
唐锴令,郑 皓
TANG Kailing, ZHENG Hao
摘要: 针对非结构化大数据在分类过程中,由于其数据中存在大量的冗余数据,若不能及时清洗大数据中的 冗余数据,会降低数据分类精度的问题,提出一种基于改进ID3(Iterative Dichotomiser 3)算法的非结构化大数 据分类优化方法。 该方法针对非结构化大数据集合中冗余数据多以及维度繁杂的问题,对数据进行清洗处理, 并结合有监督辨识矩阵完成数据降维;根据数据降维结果,采用改进ID3算法建立用于数据分类的决策树分类 模型,通过该模型对非结构化大数据进行分类处理,从而实现数据的精准分类。 实验结果表明,使用该方法对 非结构化大数据分类时,分类效果好,精度高。
中图分类号: