吉林大学学报(信息科学版) ›› 2022, Vol. 40 ›› Issue (4): 616-620.
白洪涛a,b, 栾 雪a , 何丽莉a,b , 毕亚茹c , 张婷婷b , 孙成林c
BAI Hongtao a,b , LUAN Xue a , HE Lili a,b , BI Yaru c , ZHANG Tingting b , SUN Chenglin c
摘要: 为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响, 提出使用缺失森林插补法对医疗数据集中缺失值进行插补。 该方法首先采用数据集中完整数据的观测值训练一个随机森林模型; 利用训练好的随机森林模型预测缺失数据; 不断重复迭代上述过程, 从而完成数据缺失值补全。 在两个医学数据集上进行测试, 结果表明, 根据 NRMSE( Normalized Root Mean Squared Error) 和 PFC( the Proportion of Falsely Classified)评估指标, 缺失森林插补法误差较低, 插补效果优于 K 最近邻插补法、 多重插补法和 GAIN(Generative Adversarial Imputation Nets)插补法。 同时, 使用糖尿病数据集通过分析谷丙转氨酶(ALT: A Lanineamino Transferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性。
中图分类号: