岩性识别,机器学习,随机森林,极端随机树,平衡数据 ," /> 岩性识别,机器学习,随机森林,极端随机树,平衡数据 ,"/> lithology identification, machine learning, random forest, extra trees, data balancing ,"/> <span class="cf0">基于SMOTE平衡数据的极端随机树岩性识别</span>

吉林大学学报(地球科学版) ›› 2025, Vol. 55 ›› Issue (4): 1372-1386.doi: 10.13278/j.cnki.jjuese.20240116

• 地球探测与信息技术 • 上一篇    下一篇

基于SMOTE平衡数据的极端随机树岩性识别

曹志民1, 2,张丽1, 2,郑兵3,韩建1, 2   

  1. 1. 东北石油大学三亚海洋油气研究院,海南 三亚 572000

    2. 东北石油大学物理与电子工程学院,黑龙江 大庆 163318

    3. 海南科技职业大学虚拟现实技术与系统海南省工程研究中心,海口 571126

  • 收稿日期:2024-05-24 出版日期:2025-07-26 发布日期:2025-08-05
  • 通讯作者: 郑兵(1986—),男,教授,硕士生导师,主要从事大数据、物联网和软件开发技术的应用研究,E-mail: zhbahn@vip.qq.com
  • 作者简介:曹志民(1980—),男,副教授,硕士生导师,主要从事多源大数据模式识别与人工智能处理、勘探开发大数据分析方法及应用研究,E-mail: dahai0464@sina.com
  • 基金资助:
    海南省科技专项(ZDYF2022GXJS220,ZDYF2022GXJS222)

Lithology Identification Using Extra Trees Based on SMOTE for Data Balancing

Cao Zhimin1, 2, Zhang Li1, 2, Zheng Bing3, Han Jian1, 2   

  1. 1. Sanya Offshore Oil and Gas Research Institute, Northeast Petroleum University, Sanya 572000, Hainan, China

    2. School of Physics and Electronic Engineering, Northeast Petroleum University, Daqing 163318, Heilongjiang, China

    3. Hainan Engineering Research Center for Virtual Reality Technology and Systems,Hainan Vocational University of Science and Technology, Haikou 571126, China

  • Received:2024-05-24 Online:2025-07-26 Published:2025-08-05
  • Supported by:

    the Hainan Province Science and Technology Special Fund (ZDYF2022GXJS220, ZDYF2022GXJS222)

摘要:

在油气勘探和地质工程中,精确的岩性识别对于资源评估和开采具有重要意义。由于地质数据的固有复杂性及岩性样本的不平衡问题,传统方法在岩性识别中面临诸多挑战。本文提出一种合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)结合极端随机树进行岩性识别的方法。首先,通过SMOTE增强少数类样本的表征,提高训练数据的平衡性;其次,利用极端随机树的高效性和强泛化能力构建岩性分类模型。实验结果表明:极端随机树的识别准确率为85.54%,相比其他机器学习方法梯度提升决策树(gradient boosting decision tree, GBDT)、极端梯度提升(extreme gradient boosting, XGBoost)、轻量级梯度提升机(light gradient boosting machine, LightGBM)和随机森林分别提高了5.58%、2.55%、2.35%和2.08%;SMOTE采样后,降低了样本不平衡引起的预测偏差,各模型中少数岩性类别的整体识别精度显著提高,提升了各模型的整体性能,极端随机树性能最优,识别准确率提升到86.62%,相比GBDT、XGBoost、LightGBM和随机森林分别提高了4.71%、2.56%、1.55%和2.02%,验证了SMOTE结合极端随机树的有效性。

关键词: 岩性识别')">

岩性识别, 机器学习, 随机森林, 极端随机树, 平衡数据

Abstract: In the domains of oil and gas exploration and geoengineering, precise lithology identification holds paramount importance for the assessment and utilization of resources. The inherent complexity of geologic data and the imbalanced distribution of lithology samples pose significant challenges to traditional methods in terms of lithology identification. In this paper, we propose a methodology for lithology identification that combines SMOTE (synthetic minority over-sampling technique) with extra trees. Firstly, the SMOTE method is employed to enhance the representation of minority class samples, thereby improving the balance of the training data. Secondly, the lithology classification model is constructed using the high efficiency and strong generalization ability of extra trees. The experimental findings demonstrate that the recognition accuracy of extra trees is 85.54%, which is 5.58%, 2.55%, 2.35%, and 2.08% higher than that of other machine learning methods—gradient boosting decision tree (GBDT), extreme gXGBoost), light gradient boosting machine (LightGBM), and random forest method, respectively. The prediction bias of the model caused by sample imbalance is mitigated by SMOTE sampling, resulting in enhanced recognition accuracy for specific lithology categories within each model. Consequently, this leads to an overall enhancement in the performance of the model. The extra trees model exhibits the best performance, achieving an identification accuracy of 86.62%, which represents improvements of 4.71%, 2.56%, 1.55%, and 2.02% over GBDT, XGBoost, LightGBM, and random forest, respectively. These results confirm the effectiveness of combining SMOTE with extra trees for lithology identification.

Key words: lithology identification')">

lithology identification, machine learning, random forest, extra trees, data balancing

中图分类号: 

  • P631.8
[1] 杨兰, 王运, 邹勇军, 胡宝群, 李满根, 张安, 朱满怀. 基于机器学习的富硒土壤预测模型的构建与比较——以江西省信丰县油山地区为例[J]. 吉林大学学报(地球科学版), 2025, 55(5): 1629-1643.
[2] 张晟瑀, 申文超, 苏小四. 基于随机森林法的区域地下水硝酸盐污染风险评价[J]. 吉林大学学报(地球科学版), 2025, 55(3): 943-956.
[3] 王明常, 于海滨, 曾昭发, 王典, 韩复兴, 张剑, 罗修杰, 冷亮, 刘子维. 基于多源遥感数据的城市道路坍塌易发性预测[J]. 吉林大学学报(地球科学版), 2025, 55(3): 1028-1038.
[4] 曹志民, 丁璐, 韩建, 郝乐川, .

基于集成机器学习的测井曲线大尺度差异超分辨 [J]. 吉林大学学报(地球科学版), 2025, 55(2): 670-685.

[5] 吕华星, 陈兆明, 张振波, 姜大朋, 李克成, 郭伟. 机器学习高分辨融合反演在地层对比中的应用——以珠江口盆地开平凹陷开平A构造带为例[J]. 吉林大学学报(地球科学版), 2025, 55(1): 289-297.
[6] 安雪莲, 密长林, 孙德亮, 文海家, 李晓琴, 辜庆渝, 丁悦凯. 基于不同评价单元的三峡库区滑坡易发性对比——以重庆市云阳县为例[J]. 吉林大学学报(地球科学版), 2024, 54(5): 1629-1644.
[7] 王新领, 祝新益, 张宏兵, 孙博, 许可欣.

基于随机树嵌入的随钻测井岩性识别方法 [J]. 吉林大学学报(地球科学版), 2024, 54(2): 701-708.

[8] 于子望, 郑天琪, 程钰翔. 基于PSO-XGB混合优化技术的浅层地下温度预测:以长春市为例[J]. 吉林大学学报(地球科学版), 2023, 53(6): 1907-1916.
[9] 王明常, 丁文, 赵竞争, 吴琳琳, 王凤艳, 纪雪. 基于知识图谱与随机森林的落叶松毛虫害遥感识别[J]. 吉林大学学报(地球科学版), 2023, 53(6): 2006-2017.
[10] 王雪冬, 张超彪, 王翠, 朱永东, 王海鹏. 基于Logistic回归与随机森林的和龙市地质灾害易发性评价[J]. 吉林大学学报(地球科学版), 2022, 52(6): 1957-1970.
[11] 杨国华, 李婉露, 孟博. 基于机器学习方法的地下水氨氮时空分布规律[J]. 吉林大学学报(地球科学版), 2022, 52(6): 1982-1995.
[12] 杨丽萍, 苏志强, 侯成磊, 白宇兴, 王彤, 孔金玲. 基于随机森林的干旱区全极化SAR土壤含水量反演[J]. 吉林大学学报(地球科学版), 2022, 52(4): 1255-.
[13] 侯贤沐, 王付勇, 宰芸, 廉培庆. 基于机器学习和测井数据的碳酸盐岩孔隙度与渗透率预测[J]. 吉林大学学报(地球科学版), 2022, 52(2): 644-653.
[14] 王明常, 刘鹏, 陈学业, 王凤艳, 宋玉莲, 刘瀚元. 基于GEE的东北三省城市建设用地扩张研究[J]. 吉林大学学报(地球科学版), 2022, 52(1): 292-.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 程立人,张予杰,张以春. 西藏申扎地区奥陶纪鹦鹉螺化石[J]. J4, 2005, 35(03): 273 -0282 .
[2] 李 秉 成. 陕西富平全新世古气候的初步研究[J]. J4, 2005, 35(03): 291 -0295 .
[3] 和钟铧,杨德明,王天武,郑常青. 冈底斯带巴嘎区二云母花岗岩SHRIMP锆石U-Pb定年[J]. J4, 2005, 35(03): 302 -0307 .
[4] 陈 力,佴 磊,王秀范,李 金. 绥中某电力设备站场区地震危险性分析[J]. J4, 2005, 35(05): 641 -645 .
[5] 纪宏金,孙丰月,陈满,胡大千,时艳香,潘向清. 胶东地区裸露含金构造的地球化学评价[J]. J4, 2005, 35(03): 308 -0312 .
[6] 初凤友,孙国胜,李晓敏,马维林,赵宏樵. 中太平洋海山富钴结壳生长习性及控制因素[J]. J4, 2005, 35(03): 320 -0325 .
[7] 李斌,孟自芳,李相博,卢红选,郑民. 泌阳凹陷下第三系构造特征与沉积体系[J]. J4, 2005, 35(03): 332 -0339 .
[8] 李涛, 吴胜军,蔡述明,薛怀平,YASUNORI Nakayama. 涨渡湖通江前后调蓄能力模拟分析[J]. J4, 2005, 35(03): 351 -0355 .
[9] 旷理雄,郭建华,梅廉夫,童小兰,杨丽. 从油气勘探的角度论博格达山的隆升[J]. J4, 2005, 35(03): 346 -0350 .
[10] 章光新,邓伟,何岩,RAMSIS Salama. 水文响应单元法在盐渍化风险评价中的应用[J]. J4, 2005, 35(03): 356 -0360 .