吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (2): 372-377.
颜远海, 杨莉云
YAN Yuanhai, YANG Liyun
摘要: 针对数字信息产生的海量、 多角度的非结构化大数据, 由于外界干扰、 数据结构损坏等因素造成其信息 丢失问题, 提出了基于迁移学习的非结构化大数据缺失值插补算法。 通过迁移学习算法, 预测非结构化大数据 缺失部位, 利用朴素贝叶斯算法分类数据特征, 度量属性间权重值, 明确数据类别特征差异向量, 辨别特征 差异程度。 采用核回归模型对数据缺失部分实施非线性映射, 经过多项式变化编码, 描述数据的跨空间互补条 件, 完成非结构化大数据缺失值插补。 实验结果表明, 所提算法可以有效完成非结构化大数据缺失值插补, 具有较好的插补效果, 能提高插补精度。
中图分类号: