非常规天然气

基于贝叶斯优化LightGBM算法的深层页岩储层分级评价

  • 张鲁川 , 1, 2 ,
  • 李一博 1, 2 ,
  • 张雷 , 3 ,
  • 张笠 4 ,
  • 蒲俊伟 4 ,
  • 李勇 1, 2 ,
  • 肖佃师 5 ,
  • 李致远 1, 2 ,
  • 马海川 1, 2
展开
  • 1. 天然气地质四川省重点实验室,四川 成都 610500
  • 2. 西南石油大学地球科学与技术学院,四川 成都 610500
  • 3. 重庆科技大学石油与天然气工程学院,重庆 401331
  • 4. 重庆页岩气勘探开发有限责任公司,重庆 401120
  • 5. 中国石油大学(华东)地球科学与技术学院,山东 青岛 266580
张雷(1979-),男,黑龙江齐齐哈尔人,博士,教授,主要从事储层沉积学、石油地质综合研究及非常规油气储层评价领域研究. E-mail:.

张鲁川(1990-),男,山东博兴人,博士,副研究员,主要从事非常规油气地质及机器学习领域的研究.E-mail:.

收稿日期: 2025-09-01

  修回日期: 2025-12-01

  网络出版日期: 2026-01-02

基金资助

中国石油—西南石油大学创新联合体支持交叉学科发展“揭榜挂帅”项目(2024CXJB05)

四川省科技计划资助项目(2025ZNSFSC1172)

Grading evaluation of deep shale reservoirs based on Bayesian optimized LightGBM algorithm

  • Luchuan ZHANG , 1, 2 ,
  • Yibo LI 1, 2 ,
  • Lei ZHANG , 3 ,
  • Li ZHANG 4 ,
  • Junwei PU 4 ,
  • Yong LI 1, 2 ,
  • Dianshi XIAO 5 ,
  • Zhiyuan LI 1, 2 ,
  • Haichuan MA 1, 2
Expand
  • 1. Natural Gas Geology Key Laboratory of Sichuan Province,Chengdu 610500,China
  • 2. School of Geoscience and Technology,Southwest Petroleum University,Chengdu 610500,China
  • 3. School of Petroleum Engineering,Chongqing University of Science and Technology,Chongqing 401331,China
  • 4. Chongqing Shale Gas Exploration and Development Company Limited,Chongqing 401120,China
  • 5. School of Geosciences,China University of Petroleum (East China),Qingdao 266580,China

Received date: 2025-09-01

  Revised date: 2025-12-01

  Online published: 2026-01-02

Supported by

The Science and Technology Cooperation Project of the CNPC-SWPU Innovation Alliance(2024CXJB05)

the Sichuan Provincial Science and Technology Program(2025ZNSFSC1172)

摘要

多元回归、经验公式及岩石物理模型等传统手段难以充分捕捉测井曲线与储层参数间复杂的非线性关系,导致页岩储层分级预测精度较低。以渝西地区深层五峰组—龙一1亚段页岩为研究对象,建立基于贝叶斯优化LightGBM算法的深层页岩储层类型识别模型,并利用SHAP算法定量评估测井曲线重要性,最终将模型应用于靶区储层分级评价。结果表明:相较于回归方案,分类方案在深层页岩储层识别模型复杂度、计算效率和识别性能上均显著提升。采用分类方案建立页岩储层类型识别模型,测试集中,LightGBM对储层类型识别的加权精确率(Weighted⁃P)和召回率(Weighted⁃R)分别为89.7%和89.6%,优于RF(87.52%和86.96%)和SVM(83.61%和81.8%)算法;DEN、GR和CNL曲线对识别I类和III类页岩储层最为重要,而识别II类储层中,DEN、AC和CNL曲线重要性更高,且测井曲线对模型决策呈现复杂非线性影响;分级评价结果显示I类储层主要发育于五峰组上部及龙一₁亚段1小层。基于贝叶斯优化LightGBM算法可实现深层页岩储层类型的高效精确识别,为深层页岩储层分级评价提供了新思路。

本文引用格式

张鲁川 , 李一博 , 张雷 , 张笠 , 蒲俊伟 , 李勇 , 肖佃师 , 李致远 , 马海川 . 基于贝叶斯优化LightGBM算法的深层页岩储层分级评价[J]. 天然气地球科学, 2026 , 37(4) : 801 -815 . DOI: 10.11764/j.issn.1672-1926.2025.12.001

Abstract

Conventional approaches, such as multivariate regression, empirical formulas, and petrophysical models, commonly fail to adequately capture the complex nonlinear relationships between logging curves and reservoir parameters, resulting in suboptimal accuracy for grading prediction of shale reservoirs. This study focuses on deep shales derived from the Wufeng Formation and the first sub-member of the first member of the Longmaxi Formation (marked as LMX1 1) in western Chongqing area. A reservoir type identification model based on the Bayesian optimized LightGBM algorithm was developed, with the SHAP algorithm employed to quantitatively evaluate the importance of logging curves. Subsequently, the model was applied to grading evaluation of deep shale reservoirs within the target area. The results demonstrate that, compared to the regression strategy, the classification strategy achieved significant improvements in model complexity, computational efficiency, and identification performance in deep shale reservoir identification. An identification model of shale reservoir types was established using the classification scheme, yielding weighted precision and weighted recall of 89.7% and 89.6% for LightGBM algorithm, which are superior to those for RF (87.52% and 86.96%, respectively) and SVM (83.61% and 81.8%, respectively) algorithms, respectively, on the testing dataset for reservoir type identification. DEN, GR, and CNL logs proved most critical for identifying Types I and III shale reservoirs, whereas DEN, AC, and CNL logs exhibited heightened importance for the identification of Type II reservoirs. Furthermore, logging curves exert a complex nonlinear influence on model decisions. The grading evaluation results show that Type I reservoirs are predominantly developed in the upper Wufeng Formation and the first sub-layer of the LMX1 1. The Bayesian optimized LightGBM algorithm facilitates efficient and precise identification of shale reservoir types, offering a novel approach for reservoir classification evaluation.

0 引言

四川盆地及周缘地区已实现页岩气的规模化商业开发,截至2024年,我国页岩气年产量达257×108 m3,其高效开发对优化能源结构和保障能源安全具有重要的现实意义1-2。实现页岩气高效勘探开发的关键在于优选甜点段,这需要对页岩储层进行分级评价。基于实验测试的页岩储层分级评价,需要对TOC含量、孔隙度、含气量及矿物组分等多个参数进行分析。这种方法耗时长、成本高,且受限于钻井取心情况,难以大规模应用。因此,利用富含岩石物理信息的测井资料连续预测储层参数,进而开展分级评价,备受国内外学者关注3-10
近年来,机器学习算法发展迅速,其在处理高维、大规模和非线性关系数据方面展现出强大能力,已逐步应用于油气地质领域,在储层参数预测、裂缝预测、岩相识别、储层流体识别及测井重构等方面取得了良好效果11-18。机器学习按范式可分为监督学习、无监督学习、半监督学习及强化学习。其中,监督学习通过从已标记的训练数据中学习规律,获得预测新数据的能力,主要方法包括线性模型、决策树模型、支持向量机及神经网络等19。LightGBM是一种基于决策树模型的监督学习算法,它通过Boosting集成多棵决策树,逐步提升模型性能,可同时用于回归和分类任务,具有预测精度高、训练速度快和抗过拟合能力强的优势。
页岩储层组分复杂、非均质性强,传统的多元线性回归、经验公式及岩石体积物理模型等方法,往往难以充分捕捉储层参数与测井曲线之间复杂的高维非线性关系,导致预测精度受限。为探索以LightGBM为代表的机器学习方法在深层页岩储层分级评价中的适用性,本文以四川盆地渝西地区上奥陶统五峰组—下志留统龙马溪组一段1亚段(简称龙一1亚段)深层页岩为研究对象。首先,利用LightGBM算法分别构建基于回归和分类方案的深层页岩储层类型识别模型(模型训练过程中使用贝叶斯优化算法进行超参数调优),对比分析两者的识别性能,优选最佳方案;其次,基于SHAP(SHapley Additive exPlanations)算法分析测井曲线对不同类型页岩储层识别的重要性;最后,将最优储层类型识别模型应用于研究区目的层段深层页岩储层分级评价,以期为深层页岩储层甜点段优选提供新思路。

1 方法原理

1.1 LightGBM算法

LightGBM是一种基于梯度提升框架的高效集成机器学习算法20,由微软公司于2017年提出并开源21。它采用前向分步算法,依次构建多棵决策树来逐步提升模型精度,新树的生成依赖于前一棵树。模型表达式如下[式(1)]:
y ^ i = k = 1 K f k x i ,     f k F
式中:ŷi 表示第i个样本的预测值;fk 表示第k棵决策树;F表示由决策树构成的函数空间。
LightGBM的目标函数(Obj)包含2部分:训练损失和决策树结构复杂度。其中,决策树结构复杂度作为惩罚项引入,能有效降低过拟合风险。Obj可表示为[式(2)]:
O b j = i = 1 N l y i , y ^ i + k = 1 K Ω f k Ω f = γ T + 1 2 λ w 2
式中:l表示训练损失,即第i个样本预测值(ŷi )和真实值(yi )之间的误差;Ω(fk )表示第k棵决策树的结构复杂度;T表示叶子节点数量;||w||2表示所有叶子节点权重向量的平方和;γ和λ为超参数。
为提升大规模数据处理效率和减少内存占用,同时不明显损失精度,LightGBM针对传统梯度提升算法XGBoost22进行了多项优化,最核心的是直方图算法和Leaf-wise树生长策略。
直方图算法:将连续特征离散化分桶(bins),构建梯度统计直方图[图1(a)]。相比精确贪心算法,其计算复杂度从O(#samples)降至O(#bins),避免了全局排序。同时,特征离散化产生的噪声抑制效应可增强模型泛化能力。实验表明,该算法在百万级数据上训练速度可提升5倍,精度损失小于0.5%21
图1 直方图算法(a)、Leaf-wise(b)和Level-wise(c)树生长策略示意图

Fig.1 Schematic diagrams of histogram algorithm (a) and tree growth strategies of Leaf-wise (b) and Level-wise (c)

Leaf-wise树生长策略:采用深度优先的损失函数导向策略,每轮仅分裂全局损失下降最大的叶子节点[图1(b)]。因此,在分裂次数相同的情况下,相比Level-wise策略[图1(c)],Leaf-wise能更大程度地降低误差并获得更好精度,但需通过最大树深度和叶子节点数量约束来控制过拟合风险。

1.2 贝叶斯优化

在机器学习模型构建中,超参数优化是提升模型性能的关键环节。LightGBM拥有大量复杂且相互影响的超参数,这些超参数对模型的预测性能具有较大的影响,而手动或传统搜索方法效率较低。贝叶斯优化通过建立概率模型智能地利用历史评估结果,以最少的实验次数(n_trials)自动找到高性能的参数组合,极大地节省了调查时间和计算成本。贝叶斯优化方法由Jonas Mockus在IFIP会议首次系统提出23,其核心思想是通过建立目标函数的概率代理模型,并利用采集函数指导序贯采样,达到对高维超参数空间的高效调优(图2)。贝叶斯优化的主要流程为:①在超参数空间中通过随机抽样或拉丁超立方体等方法获取初始观测点;②基于初始观测点构建目标函数fx)的概率代理模型(如高斯过程、高斯混合模型等),获得fx)的分布估计f*x);③通过最大化采集函数(如概率增量、期望增量和置信度上界等)确定新观测点,并依次更新代理模型、f*x)和采集函数。以上过程迭代进行,直至达到预设的评估次数或收敛阈值,最终输出全局最优解。相比网格搜索和随机搜索,贝叶斯优化能以相对较少的时间和较低的计算成本,近似找到复杂目标函数的最优解,显著提升了超参数优化效率24
图2 贝叶斯优化原理示意图

Fig.2 Schematic diagram of Bayesian optimization

1.3 SHAP算法

为分析LightGBM模型的决策机制,本文研究采用SHAP算法进行特征归因25。该算法的核心思想基于合作博弈论中的Shapley值理论,将机器学习模型的预测视为一个“合作博弈”:每个特征是一个“玩家”,模型的预测结果是“游戏的总收益”。SHAP值的目标是公平分配该“总收益”给每个特征,以反映其对最终预测的真实贡献。给定模型fx),特征i的SHAP值(φi )定义为该特征在所有特征子集下的边际贡献期望[式(3)]:
φ i = S F i S ! M - S - 1 ! M ! f x S i - f x S
式中:F表示所有特征的集合,数量为MS表示不含特征i的子集;fxS)表示模型在特征子集S上的预测值; S ! M - S - 1 ! M !表示子集S的特征组合情况占比。
SHAP的核心优势在于其模型无关性、全局/局部解释的统一性以及方向一致性:它支持神经网络、随机森林、支持向量机等多种机器学习模型,使其成为通用解释工具;在解释机制上,所有特征的SHAP值之和等于模型对单个样本的预测值与基线预测值(如平均值)的差异,从而统一了局部解释,并且通过聚合单一样本的SHAP值即可实现全局特征重要性的解释;此外,SHAP值的符号具有方向一致性,正值始终表示增加预测值,负值则表示减小预测值。

2 地质背景与数据准备

2.1 地质背景

研究区位于重庆市西部,横跨川中平缓褶皱带和川南低陡褶皱带2个构造单元[图3(a)]。该地区经历了多期构造运动叠加改造,尤以燕山期雪峰山NW向逆冲推覆及喜马拉雅期抬升剥蚀为甚,形成了NE—SW向展布、背斜与向斜相间的构造格局26-27。自东向西依次发育西温泉背斜、蒲吕场向斜、西山背斜和弥陀场向斜[图3(a)]。研究目的层为上奥陶统五峰组及下志留统龙一1亚段,是研究区内页岩气勘探开发的主力层段,岩性主要为黑色至黑灰色硅质、炭质页岩,向上粉砂质含量增加[图3(b)]。目的层厚度为35~70 m,页岩气开发深度普遍超过3 500 m,属于典型深层页岩气藏。
图3 渝西地区构造位置[(a),据陈维铭等27修改]及五峰组—龙一1亚段地层柱状图(b)

Fig.3 Structural location of western Chongqing area((a), modified from Chen et al.27) and stratigraphic column of the Wufeng Formation and the first sub-member of the first member of the Longmaxi Formation (b)

2.2 数据收集与探索

本论文数据源自渝西地区10口页岩气评价井,井位分布见图3(a)。测井资料包括自然伽马(GR)、声波时差(AC)、密度(DEN)、补偿中子(CNL)及电阻率(RT)。实验测试数据共计571组,包含4个页岩储层参数:总有机碳(TOC)含量、孔隙度、含气量(现场解吸法测得损失气、解吸气及残余气之和)以及脆性指数(石英、长石和碳酸盐矿物之和与总矿物含量之比)。鉴于RT曲线数值跨度大(5.41~239.83 Ω·m),预先对其进行常用对数处理,后续数据分析及机器学习建模均使用LgRT。
由于页岩储层成分复杂、非均质性强,储层参数与测井曲线间常呈非线性关系。因此,采用斯皮尔曼相关系数分析TOC含量、孔隙度、含气量及脆性指数4个参数与测井数据的相关性(图4)。斯皮尔曼相关性分析可基于有限实验数据,在保留信息的同时完成关联筛查,不仅能为页岩储层分级提供参数优先级,还能规避多重共线性,探索变量单调关联趋势,为研究假设提供初步参考证据。结果显示:与TOC含量、含气量及脆性指数相关性最强的均为DEN曲线,相关系数分别为-0.75、-0.75和-0.66。其次为CNL曲线,相关系数分别为-0.51、-0.56及-0.62。孔隙度与AC呈最强正相关(0.67),与DEN呈最强负相关(-0.53)。尽管部分测井曲线与储层参数的相关性不强(例如AC与脆性指数的相关系数为-0.05,LgRT与TOC含量的相关系数为0.08),但这些曲线仍包含一定的储层信息,对参数预测有所贡献。同时,测井曲线仅有5条,即使减少部分曲线,计算开销也不会显著降低。因此,后文建模将使用全部5条测井曲线。
图4 页岩储层参数与测井曲线间斯皮尔曼相关系数

Fig.4 Spearman correlation coefficients between shale reservoir parameters and logging curves

基于前人建立的川南地区深层页岩气储层分级评价指标体系及勘探开发实践28,利用TOC含量、孔隙度、含气量和脆性指数4个参数对页岩储层进行分级(表1)。储层分为3类:I类品质最优(即甜点段),Ⅱ类次之,Ⅲ类最差。
表1 川南深层页岩储层分级标准

Table 1 Grading standard of deep shale reservoirs in southern Sichuan Basin

页岩储层参数 单参数分级标准 单参数权重系数 不同级别储层赋值 综合分级标准
Ⅰ类储层 Ⅱ类储层 Ⅲ类储层 Ⅰ类储层 Ⅱ类储层 Ⅲ类储层 Ⅰ类储层 Ⅱ类储层 Ⅲ类储层
TOC含量/% ≥3 [2,3) <2 0.3 1 0.7 0.4 ≥0.85 [0.6,0.85) <0.6
孔隙度/% ≥5 [3,5) <3 0.2
含气量/(cm3/g) ≥3 [2,3) <2 0.3
脆性指数/% ≥55 [35,55) <35 0.2
不同类型储层的测井曲线箱线图显示(图5),对于GR曲线,I类储层表现出较大的分布离散性,而II类和III类储层分布相对集中,且其中位数和平均值从I类到III类呈减小趋势。对于AC曲线,II类储层分布更为离散,其中位数和平均值也高于I类和III类储层,但3类储层的AC数据分布范围重合度较高。DEN和CNL曲线在3类储层间的分布差异较为明显,中位数和平均值均表现出从I类到III类依次增大的规律。LgRT曲线在3类储层间的分布范围重合度较高,仅I类储层的平均值和中位数略高。综上所述,DEN、CNL及GR曲线对储层类型具有相对较强的区分能力,而LgRT曲线的区分能力则较弱。
图5 渝西地区不同类型页岩储层测井数据分布

Fig.5 Logging data distribution for different types of shale reservoirs in western Chongqing area

2.3 数据预处理及评价指标

为消除数据尺度和量纲差异,加快模型收敛,对5条测井曲线(GR、AC、DEN、CNL、LgRT)和4个储层参数(TOC含量、孔隙度、含气量、脆性指数)进行了Z-score标准化(式429。标准化后数据服从均值为0、标准差为1的正态分布。标准化前,样本数据按8∶2比例随机划分为训练集(用于建模)和测试集(用于评估模型泛化能力)。
x * = x - μ σ
式中:x*表示标准化后数据;x表示原始数据;μ表示原始数据的均值;σ表示原始数据的标准偏差。
对于回归模型,采用均方根误差(RMSE)和决定系数(R²)进行评价(计算方法见表2)。RMSE衡量预测值与真实值的偏离程度,值越小表示模型预测效果越好;R²反映模型解释数据方差的比例,其值越接近1,说明模型解释能力越强。对于分类模型,采用精确率(P)、召回率(R)、加权精确率(Weight-P)和加权召回率(Weight-R)进行评价(计算方法见表2)。P指被正确预测为正例的样本占所有预测为正例样本的比例,反映模型识别的准确性;R指被正确预测为正例的样本占所有真实正例样本的比例。Weight-P和Weight-R则是针对样本数量不均衡的多分类问题,分别计算地考虑类别权重的精确率和召回率。
表2 回归和分类模型的评价指标

Table 2 Evaluation indicators for regression and classification models

评价指标 计算公式

回归

模型

RMSE 1 n i = 1 n y ̂ i - y i 2
R 2 1 - i = 1 n y ̂ i - y i 2 / i = 1 n y ¯ - y i 2

分类

模型

P T P j / T P j + F P j
R T P j / T P j + F N j
Weighted-P j w j P j
Weighted-R j w j R j

注:式中,n为总样本数;njj类储层样本数(j对应I、II、III类); y ¯为样本实测值yi 的平均值; y ^ i为对应的预测值;TPj 是分类正确的j类样本数;FPj 是非j类样本被错误预测为j类的样本数;FNj 是j类样本被错误预测为非j类的样本数;wjj类权重,即nj /n

3 页岩储层类型识别模型

页岩储层类型识别有2种方案:一是以测井曲线为特征,分别建立TOC含量、孔隙度、含气量及脆性指数的回归预测模型,再根据预测结果结合储层分级标准(表1)识别储层类型(简称回归方案);二是先结合储层分级标准(表1)和4个储层参数直接识别储层类型作为标签,再以测井曲线为特征建立分类模型进行识别(简称分类方案)。后文将基于这两种方案分别建立储层类型识别模型,对比两者性能,以确定最优方案。

3.1 超参数调优

为提高LightGBM模型的精度和泛化能力,需优化关键超参数:决策树数量(n_estimators)、最大树深度(max_depth)、学习率(learning_rate)、叶子节点数(num_leaves)和叶子节点最小样本数(min_child_samples)。增加n_estimators能提升性能但增加模型复杂度及过拟合风险。max_depth和num_leaves共同控制树结构,增大能捕捉更复杂特征但也易过拟合,通常num_leaves≤2^(max_depth)。learning_rate控制单棵树贡献权重,较小值使模型更保守但可能更精确。min_child_samples限制叶子最小样本数以防止过深树,减小该值会增加复杂度及过拟合风险。
本文研究使用Scikit-learn接口的LightGBM算法30,超参数调优采用基于Optuna框架的贝叶斯优化。综合考虑模型运行效率及尽可能搜索到更优超参数,优化的实验次数(n_trials)设置为400,在此过程中搜索到的最优超参数即为模型最终超参数。优化过程使用TPE(Tree-structured Parzen Estimator)作为概率代理模型31,随机种子seed设置为10,确保优化过程的可重现性,期望增量作为采集函数,具体搜索空间及最优参数见表3表4
表3 基于LightGBM算法的4个页岩储层参数回归预测模型超参数搜索范围及最优值

Table 3 Range and optimal values of hyperparameters for four shale reservoir parameter regression prediction models based on LightGBM algorithm

超参数 搜索范围 步长 TOC/% 孔隙度/% 含气量/(cm3/g) 脆性指数/%
n_estimators [50,200] 1 170 87 139 75
max_depth 38 1 5 5 6 5
learning_rate [0.001,0.1] 对数空间均匀采样 0.026 0.099 0.093 0.063
num_leaves 531 1 14 14 6 15
min_child_samples 520 1 6 10 18 14
表4 基于LightGBM、RF和SVM的页岩储层类型识别模型超参数搜索范围及最优值

Table 4 Range and optimal values of hyperparameters for shale reservoir type identification model based on LightGBM, RF, and SVM

算法类型 超参数 搜索范围 步长 最优值
LightGBM n_estimators [50,200] 1 90
max_depth 38 1 3
learning_rate [0.001,0.1] 对数空间均匀采样 0.087
num_leaves 531 1 7
min_child_samples 520 1 9
reg_alpha [0.4,0.7] 线性空间均匀采样 0.444
reg_lambda [0.4,0.7] 线性空间均匀采样 0.401
RF n_estimators [50,200] 1 63
max_depth 38 1 8
min_samples_split 515 1 7
min_samples_leaf 515 1 15
SVM C [0.01,5] 对数空间均匀采样 0.150
gmma [0.01,5] 对数空间均匀采样 0.083

3.2 模型性能评价

3.2.1 回归方案

使用贝叶斯优化获得的最优超参数(表3),建立4个页岩储层参数(TOC含量、孔隙度、含气量及脆性指数)的回归预测模型。测试集评估表明(图6),模型对含气量(RMSE=0.260,R²=0.898)和TOC含量(RMSE=0.511,R²=0.821)预测效果良好,数据点均匀集中于y=x线两侧。孔隙度(RMSE=0.560,R²=0.713)和脆性指数(RMSE=6.571,R²=0.708)预测性能稍弱但可接受,数据点相对离散但仍较均匀分布于y=x线两侧。总体上,构建的回归模型对4个页岩储层参数均实现了稳健预测。
图6 渝西地区页岩储层参数测试集预测值和实测值散点

Fig.6 Cross-plot of predicted and measured values of testing data for shale reservoir parameters in western Chongqing area

基于上述回归预测结果结合分级标准,进行页岩储层类型识别。分类识别混淆矩阵显示[图7(a),图7(b)],训练集上I、II、III类储层识别的P分别为93.2%、89.8%、93.4%(Weighted-P为91.9%),R分别为88.7%、90.3%、94.3%(Weighted-R为91.9%)。测试集上I、II、III类储层识别的P分别为81.8%、84.4%、88.1%(Weighted-P为85.9%),R分别为64.3%、80.9%、96.3%(Weighted-R为86.1%)。虽然测试集的Weighted-P和Weighted-R这2个指标显示该方案对不同类型储层识别的泛化能力整体较强,但I类储层识别的R值较低,仅为64.3%,P值也是3类储层当中最低的,表明该方案对I类储层的识别性能可能存在较大的局限性。
图7 渝西地区页岩储层类型识别混淆矩阵

Fig.7 Confusion matrices for identification of shale reservoir types in western Chongqing area

3.2.2 分类方案

直接应用贝叶斯优化最优超参数(表3),建立页岩储层类型识别模型。分类识别混淆矩阵显示[图7(c),图7(d)],该方案在训练集上Ⅰ、Ⅱ、Ⅲ类页岩储层识别的P分别为96.8%、95.7%、96.7%(Weighted-P为96.3%),R分别为96.8%、95.1%、97.1%(Weighted-R为96.3%),整体都在95%以上,表明模型训练效果优异。测试集上I、II、III类储层识别的P分别为73.3%、90.7%、93.0%(Weighted-P为89.7%),R分别为78.6%、83.0%、98.2%(Weighted-R为89.6%),模型的泛化性能也表现优异。
综上,通过比较单一储层类型识别的PR及加权综合指标,分类方案的识别性能显著优于回归方案,这主要是因为回归方案中4个储层参数的回归预测误差会产生级联累积效应。此外,回归方案需构建4个独立回归模型,而分类方案只需单一分类模型即可实现页岩储层类型识别,在模型复杂度与计算效率上具有显著优势。相较于回归方案,分类方案具有更好的识别性能、更高的计算效率和更低的模型复杂度。
本文同时采用基于分类方案的RF及SVM算法对页岩储层类型进行识别,并与LightGBM算法的识别性能进行对比。RF与SVM算法已被广泛应用于油气地质领域,相关算法原理不再赘述32-34。分析结果显示(图8),对于RF算法,训练集Weighted-P、Weighted-R分别为90.73%、90.57%,测试集Weighted-P、Weighted-R分别为87.52%、86.96%;对于SVM算法,训练集Weighted-P、Weighted-R分别为87.54%、86.09%,测试集Weighted-P、Weighted-R分别为83.61%、81.8%;整体上看,LightGBM算法对于页岩储层类型的识别性能略优于RF,而SVM的识别性能较前两者有相对较大差距。由于LightGBM和RF均为基于CART决策树的集成学习算法,因此,两者对页岩储层类型的识别性能十分接近。同时,LightGBM采用梯度提升框架,通过序列化构建弱学习器,每棵新决策树都专注于修正前序模型的残差,能够更有效地提升模型精度。而RF通过并行构建独立决策树,然后投票集成,每棵决策树的构建只使用特征子集,增加了多样性但可能丢失重要特征的完整信息。因此,LightGBM对页岩储层类型的识别性能略优于RF。SVM算法性能相对较差的主要原因在于其调参复杂性与数据规模的矛盾,有限的456个训练集样本难以支撑非线性核函数(rbf核)所需的高维复杂边界,而三分类问题更需为多个二分类器分别寻找正则化参数C和核参数gamma的完美组合。这种双重挑战导致模型极易过拟合或欠拟合,难以像LightGBM和RF算法那样能通过特征自动交互与集成学习更稳健地挖掘数据规律。综上,本文研究采用基于分类方案的LightGBM算法构建页岩储层类型识别模型。
图8 基于LightGBM、RF和SVM算法的页岩储层类型识别性能对比

Fig.8 Performance comparison of shale reservoir type identification based on LightGBM, RF and SVM algorithms

3.3 测井曲线重要性

多分类任务中,SHAP值表示特征i对类别k原始预测分数(logits,可通过Softmax转化为概率)的贡献程度。正值表示特征i促进模型预测样本为类别k,负值表示特征i抑制模型预测样本为类别k(即倾向于预测为非k),零值表示特征i对类别k的预测无影响。图9展示了基于SHAP算法的特征重要性。条形图表示所有样本SHAP绝对值的平均,数值越大,测井曲线重要性越高;散点图表示各样本的SHAP值,数据点越离散,测井曲线重要性越高。图10展示了单一测井曲线(以DEN为例)取值与SHAP值的依赖关系,以观察其对预测结果的影响。
图9 基于SHAP算法的测井曲线重要性

(a)Ⅰ类储层;(b)Ⅱ类储层;(c)Ⅲ类储层

Fig.9 Importance of logging curves based on SHAP algorithm

图10 基于SHAP算法的特征依赖图

(a)Ⅰ类储层;(b)Ⅱ类储层;(c)Ⅲ类储层

Fig.10 Feature dependence plot based on SHAP algorithm

(1)I类储层识别:测井曲线的重要性排序为DEN、GR、CNL、LgRT及AC[图9(a)]。在最重要的3条曲线中,整体规律显示DEN和CNL取值越低、GR取值越高时,模型越倾向于将样本识别为I类储层。特征依赖关系图进一步表明[图10(a)],当DEN低于2.58 g/cm³时,SHAP值与DEN呈负相关(均大于2.6),说明DEN取值有利于识别为I类储层,但这种促进作用随DEN增大而减弱;当DEN超过2.58 g/cm³后,SHAP值陡然下降为负值,并分别维持在约-0.8(DEN<2.65 g/cm³)和-1.6(DEN>2.65 g/cm³)的水平,与DEN值不再呈现单调关系,表明此阶段DEN取值倾向于将样本识别为非I类储层。
(2)II类储层识别:测井曲线的重要性排序为DEN、AC、CNL、LgRT及GR[图9(b)]。与I类和III类储层识别相比,AC曲线的重要性排序显著上升,而GR曲线的重要性排序则明显下降。特征依赖关系图显示[图10(b)],SHAP值与DEN呈现出“倒V”字形关系,这揭示出DEN对II类识别的影响较为复杂:过高或过低的DEN取值,都会导致模型倾向于将样本预测为非II类储层。
(3)III类储层识别:测井曲线的重要性排序与其在I类储层识别中相同,即DEN、GR、CNL、LgRT及AC。在最重要的3条曲线中,整体规律表现为DEN和CNL取值越高、GR取值越低时,模型越倾向于将样本识别为III类储层。特征依赖关系图显示[图10(c)],当DEN小于2.58 g/cm³时,SHAP值与DEN几乎无相关性且均为负值,表明此时DEN取值抑制III类储层识别(倾向非III类储层);当DEN大于2.58 g/cm³时,SHAP值与DEN转为正相关关系,且在DEN超过2.61 g/cm³时,SHAP值由负转正,表明此阶段DEN取值开始促进模型将样本识别为III类储层。
页岩中有机质的骨架密度(约为1.3 g/cm3)远低于石英、长石等无机矿物,其在储层中的大量富集会直接导致页岩整体密度降低。同时,五峰组—龙一1亚段页岩中高成熟度有机质在热演化过程中生成大量有机质孔35,显著增加了总孔隙度,从而进一步降低岩石密度。因此,DEN本质上是页岩储层中有机质含量与孔隙度这2个核心地质属性的综合反映,这决定了其在储层类型识别中具有极高的重要性(图9)。
GR值的高低反映了岩石中放射性元素(如铀、钍和钾)的富集程度。在泥页岩中,这些元素的主要载体为有机质和黏土矿物。研究表明,铀的富集主要与有机质相关,而钍的含量则受黏土矿物控制36。在靶区五峰组—龙一1亚段页岩储层中,高GR值主要源于缺氧水体中有机质对还原态U4+的强烈吸附;低GR值则一方面与富氧环境中有机质丰度降低有关,另一方面也与铀以可溶性的U6+形式迁出有关37。因此,GR值与有机质丰度呈现良好的正相关关系,两者之间的斯皮尔曼相关系数为0.44(图4),这解释了GR在区分I类与III类储层时较高的重要性(图9)。
页岩储层中AC值的变化受多种地质因素共同控制,如TOC含量、矿物组成、孔隙度及含气性等。通常,高TOC含量、高孔隙度、高含气性及低脆性矿物含量会促使AC值升高。在研究区,与II类储层相比,I类储层具有略高的孔隙度、更高的有机碳含量和含气性(图11),这些因素倾向于推高AC值;然而,其极高的脆性矿物含量则强烈抑制AC值。最终,后者的主导作用使得I类储层的AC值低于II类储层。III类储层相较于II类储层更为致密,具有更低的孔隙度、有机碳含量和含气性(图11),这些因素引起的AC值降低效应,超过了因脆性矿物减少可能带来的AC值升高,导致III类储层的AC值为3类中最低。正是由于AC值在五峰组—龙一1亚段页岩中受多因素控制的复杂性,使其在识别II类储层时发挥了关键作用(图9)。
图11 不同类型页岩储层TOC含量、孔隙度、含气性及脆性矿物含量对比

Fig.11 Comparison of TOC content, porosity, gas-bearing property, and content of brittle minerals among different types of shale reservoirs

3.4 SHAP交互效应分析

交互效应是指特征之间协同作用对模型决策的影响,它剔除了特征单独作用(主效应)的部分,仅反映2个特征共同作用时对预测结果的增益或减益。因此,本文以I类储层的识别为例,分析测井曲线之间的交互效应对模型决策的影响。图12(a)展示了页岩储层类型识别模型中测井曲线间的交互效应强弱(非对角线),其中,DEN与CNL、DEN与GR、GR与CNL间的交互效应最强。因此,本文对上述3组交互效应进行重点分析。
图12 I类页岩储层识别中测井曲线间的交互效应

Fig.12 Interactive effects among logging curves in the identification of Type I shale reservoirs(a)测井曲线间交互效应热力图;(b)DEN与CNL交互效应依赖图;(c)DEN与GR交互效应依赖图;(d)GR与CNL交互效应依赖图

图12(b)展示了DEN与CNL的交互效应依赖图,可以看出,低DEN(<2.58 g/cm³)与低CNL(<13.5%)的交互效应值为正值,促使模型将样本预测为I类储层。这对应于低DEN—低CNL的典型测井相,表示高有机质及高孔隙度的页岩储层,是I类储层的核心特征。低DEN(<2.58 g/cm³)与高CNL(>13.5%)的交互效应值为负值,促使模型将样本预测为非I类储层。这对应低DEN—高CNL的测井相,表明页岩储层中可能富含流体或富含黏土矿物,降低了其作为I类储层的置信度。图12(c)展示了DEN与GR的交互效应依赖图,可以看出,在低DEN(<2.64 g/cm³)区域,只有当GR也为高值时(140~180 API),SHAP交互效应值为正值,表明低DEN和高GR对模型预测为I类储层具有极强的协同促进作用。当页岩同时具备低DEN(意味高孔隙度高有机质含量)和高GR(指示富铀有机质)特征时,模型会以最高的置信度将其识别为I类储层。在高DEN(>2.64 g/cm³)区域,GR值的变化对交互效应值的影响较小,位于0值附近,表明此时的交互效应对模型决策影响有限。图12(d)展示了DEN与GR的交互效应依赖图,可以看出,在高GR(>160 API)区域,当CNL值较低(<15%)时,SHAP交互效应值为较高的正值;而当CNL较高(>15%)时,SHAP交互效应值为较低的负值。这揭示了模型在富有机质层段(高GR值)内部的精细划分能力:高GR—低CNL指示富有机质的高孔隙度页岩,模型倾向于将其判为I类储层;高GR—高CNL可能指示富有机质但黏土含量也较高的层段,模型倾向于将其判为非I类储层。

4 页岩储层分级评价

将建立的深层页岩储层类型识别模型(分类方案)应用于渝西地区10口页岩气井,实现纵向上页岩储层连续性分级评价。过W1井—W8井—W6井—E10井剖面分级评价结果显示(图3图13),I类储层主要分布于龙一1亚段1小层和五峰组上部,II类储层主要分布于龙一1亚段2小层和3小层的中下部,III类储层主要分布于龙一1亚段4小层及五峰组下部。纵向上,对于五峰组,由深到浅页岩储层品质逐渐变好;对于龙一1亚段,由深到浅页岩储层品质逐渐变差。平面上,由北到南,I类和II类储层厚度相对比较稳定,略有增大,III类储层厚度明显增大。岩储层甜点段位于五峰组上部及龙一1亚段1小层,是水平井钻探的最优箱体位置。
图13 渝西地区W1井—W8井—W6井—W10井剖面页岩储层分级评价

Fig.13 Grading evaluation of shale reservoirs for Wells W1-W8-W6-W10 in western Chongqing area

5 结论

(1)在靶区的深层五峰组—龙一₁亚段识别出3类页岩储层,其中,I类储层(甜点段)的测井特征为高GR、低DEN、低CNL及较高AC;III类储层则具有低GR、高DEN、高CNL及低AC的特征;II类储层表现为中等GR、中等DEN、中等CNL及高AC。
(2)分类方案仅需构建一个分类模型即可实现深层页岩储层类型识别,在模型复杂度与计算效率上显著优于回归方案;同时,该方案避免了回归方案中多个储层参数预测误差的级联累积效应,从而提高了模型的识别精度和泛化能力。运用分类方案构建页岩储层类型识别模型,对于测试集数据,LightGBM算法对储层类型识别的Weighted-P为89.7%、Weighted-R为89.6%,其表现优于RF算法(Weighted-P及Weighted-R分别为87.52%和86.96%)以及SVM算法(Weighted-P及Weighted-R分别为83.61%和81.8%)。
(3)I类和III类页岩储层识别中,测井曲线重要性排序均为DEN>GR>CNL>LgRT>AC,而II类储层识别中,测井曲线重要性排序变化为DEN>AC>CNL>LgRT>GR。DEN是页岩中有机质含量与孔隙度2个核心地质属性的综合反映,故其在3类页岩储层识别中的重要性是最高的。SHAP依赖关系及交互效应分析显示,测井曲线对储层类型识别的影响呈现出复杂的非线性特性,测井曲线间的交互效应对模型决策产生了重要影响。
(4)将最优页岩储层类型识别方案应用于靶区深层页岩储层分级评价,结果表明I类储层主要分布于五峰组上部及龙一₁亚段1小层,在纵向上,页岩储层品质呈现五峰组向上逐渐变好、龙一₁亚段向上逐渐变差的趋势。
[1]
马新华,张晓伟,熊伟,等.中国页岩气发展前景及挑战[J]. 石油科学通报, 2023,8 (4): 491-501.

MA X H,ZHANG X W,XIONG W,et al. Prospects and challenges of shale gas development in China[J].Petroleum Science Bulletin, 2023, 8(4):491-501 .

[2]
ZOU C N,LI S X,XIONG B,et al. Connotation, pathways,and significance of building China into an“energy powerhouse”[J].Petroleum Exploration and Development,2025,52(2):519-535.

[3]
PASSY Q R, CAREANEY S, KULLAJ B, et al. A practical model for organic richness from porosity and resistivity logs[J]. AAPG Bulletin, 1990, 74(12):1777-1794.

[4]
KAMEL M H,MOHAMED M M. Effective porosity determination in clean/shaly formations from acoustic logs with applications[J].Journal of Petroleum Science and Engineering,2006,51(3-4), 267-274.

[5]
钟光海,谢冰,周肖. 页岩气测井评价方法研究——以四川盆地蜀南地区为例[J]. 岩性油气藏, 2015,27 (4): 96-102.

ZHONG G H, XIE B, ZHOU X. Well logging evaluation methods of shale gas reservoir:A case study from Shunan area,Sichuan Basin[J].Lithologic Reservoirs,2015,27(4):96-102.

[6]
ZHENG D Y,WU S,HOU M.Fully connected deep network: An improved method to predict TOC of shale reservoirs from well logs[J].Marine and Petroleum Geology,2021,132:105205.

[7]
谭茂金,武宏亮,王思宇,等.中国海相页岩气测井评价技术进展与发展方向[J]. 石油学报,2024,45(1):241-260.

TAN M J,WU H L,WANG S Y,et al. Progress and development direction of log interpretation technology for marine shale gas in China[J].Acta Petrolei Sinica,2024,45(1):241-260.

[8]
周恒,张春雷,张欣,等. 基于胶囊网络的碳酸盐岩储层岩性识别方法[J].天然气地球科学, 2021, 32(5):685-694.

ZHOU H, ZHANG C L, ZHANG X, et al. Lithology identification method of carbonate reservoirs based on capsule network[J]. Natural Gas Geoscience, 2021, 32(5): 685-694.

[9]
杨森,吴时国,王吉亮,等. 基于机器学习方法的天然气水合物稳定带厚度计算[J].天然气地球科学, 2018, 29(11):1679-1690.

YANG S, WU S G, WANG J L, et al. Calculation of gas hydrate stability zone thickness based on machine learning method[J]. Natural Gas Geoscience, 2018, 29(11): 1679-1690.

[10]
宋腾,李世臻,李飞,等. 鄂西—渝东地区二叠系页岩气富集特征与储层分类评价体系[J].天然气地球科学, 2025, 36(7):1258-1274.

SONG T, LI S Z, LI F, et al. Enrichment characteristics and reservoir classification evaluation system of Permian shale gas in western Hubei-eastern Chongqing area[J]. Natural Gas Geoscience, 2025, 36(7): 1258-1274.

[11]
AHMADI M A, ZENDEHBOUDI S, LOHI A, et al. Reservoir permeability prediction by neural networks combined with hybrid genetic algorithm and particle swarm optimization[J]. Geophysical Prospecting, 2013,61(3): 582-598.

[12]
KUANG L, HE L, YILI R, et al. Application and development trend of artificial intelligence in petroleum exploration and development[J]. Petroleum Exploration and Development, 2021, 48(1): 1-14.

[13]
肖晓,闫建平,郭伟,等. 基于LightGBM算法的页岩气储层甜点参数预测方法[J]. 中国煤炭地质, 2023,35(10): 28-37.

XIAO X, YAN J P, GUO W, et al. Prediction method for sweet spot parameters of shale gas reservoirs based on LightGBM algorithm[J].Coal Gology of China,2023,35(10):28-37.

[14]
王民,杨金路,王鑫,等. 基于随机森林算法的泥页岩岩相测井识别[J]. 地球科学,2023,48(1):130-142.

WANG M,YANG J L,WANG X,et al.Identification of shale lithofacies by well logs based on random forest algorithm[J]. Earth Science, 2023, 48(1):130-142..

[15]
吴禄源,李建会,马丹,等. 基于集成学习与贝叶斯优化的岩石抗压强度预测[J]. 地球科学,2023,48(5):1686-1695.

WU L Y, LI J H, MA D, et al. Prediction for rock compressive strength based on ensemble learning and bayesian optimization[J].Earth Science, 2023, 48(5):1686-1695.

[16]
ZHANG H, WU W, WU H, TOC prediction using a gradient boosting decision tree method:A case study of shale reservoirs in Qinshui Basin[J].Geoenergy Science and Engineering, 2023, 221: 111271.

[17]
NADEGE M N, JIANG S, MWAKIPUNDA G C, et al. Brittleness index prediction using modified random forest based on particle swarm optimization of Upper Ordovician Wufeng to Lower Silurian Longmaxi shale gas reservoir in the Weiyuan Shale Gas Field, Sichuan Basin, China[J]. Geoenergy Science and Engineering, 2024, 233: 212518.

[18]
黎子豪,蒋恕.基于机器学习和SHAP 算法的声波测井曲线重构及可解释性分析[J]. 地质科技通报,2025,44(1):321-331.

LI Z H, JIANG S. Reconstructing and interpreting analysis of sonic logging curves based on machine learning and SHAP algorithm[J]. Bulletin of Geological Science and Technology, 2025, 44(1):321-331.

[19]
HASTIE T, TIBSHIRANI R, FRIEDMAN J. The Elements of Statistical Learning:Data Mining,Inference,and Prediction[M].Berlin,Germany:Springer,2009.

[20]
FRIEDMAN J H. Greedy function approximation: A gradient boosting machine[J]. Annals of Statistics,2001:1189-1232.

[21]
KE G,MENG Q,FINLEY T,et al. LightGBM:A highly efficient gradient boosting decision tree[J].Advances in Neural Information Processing Systems,New Orleans,2017,30.

[22]
CHEN T, GUESTRIN C. Xgboost: A scalable tree boosting system[C]//Proceedings of the 22nd Acm Sigkdd International Conference on Knowledge Discovery and Data Mining. 2016: 785-794.

[23]
MOCKUS J. The Bayesian approach to global optimization[C]//System Modeling and Optimization: Proceedings of the 10th IFIP Conference New York City, USA, August 31-September 4, 1981. Berlin, Heidelberg: Springer Berlin Heidelberg, 2005: 473-481.

[24]
MAHENDRAN N, WANG Z, HAMZE F, et al. Adaptive MCMC with Bayesian optimization[C]//Artificial Intelligence and Statistics. PMLR, 2012: 751-760.

[25]
LUNDBERG S M, LEE S I. A unified approach to interpreting model predictions[J]. Advances in Neural Information Processing Systems, 2017, 30.

[26]
马立,陈焕疆,甘克文,等.中国南方大地构造和海相油气地质[M]. 北京: 地质出版社, 2004.

MA L, CHEN H J, GAN K W, et al. Geotectonic and Marine Oil and Gas Geology in Southern China[M].Beijing:Geological Publishing House,2004.

[27]
陈维铭,万翠蓉,李悦,等.渝西大足区块早志留世陆架微地貌 对深层页岩气沉积一储层的影响[J]. 东北石油大学学报, 2024,48(6):49-68,108,144-145.

CHEN W M, WAN C R, LI Y,et al. Influence of Early Silurian shelf microgeomorphology on deep shale gas sedimentary reservoir in Dazu Block,western Chongqing[J].Journal of Nor-theast Petroleum University,2024,48(6):49-68,108,144-145.

[28]
张少龙,闫建平,石学文,等. 深层页岩气甜点分类的地质—工程评价指标体系及应用:以四川盆地LZ地区五峰组—龙马溪组为例[J].中南大学学报(自然科学版), 2022,53(9): 3666-3680.

ZHANG S L, YAN J P, SHI X W, et al. Geological and engineering evaluation index system for deep shalegas sweet spots classification and its application: A case of Wufeng-Longmaxi formations in LZ area, Sichuan Basin[J]. Journal of Central South University(Science and Technology), 2022, 53(9): 3666-3680.

[29]
AL SHALABI L, SHAABAN Z, KASASBEH B. Data mining:A preprocessing engine[J]. Journal of Computer Science, 2006,2(9): 735-739.

[30]
PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al. Scikit-learn: Machine learning in Python[J]. The Journal of Machine Learning Research, 2011, 12: 2825-2830.

[31]
BERGSTRA J, BARDENET R, BENGIO Y, et al. Algorithms for hyper-parameter optimization[J]. Advances in Neural Information Processing Systems, 2011,24.

[32]
郭申锐,李少华,丁芳. 基于时间序列与随机森林的逐级辫状河储层构型单元识别[J/OL].吉林大学学报(地球科学版),1-11[2025-11-25]. https://doi.org/10.13278/j.cnki.jjuese.20250047.

GUO S R, LI S H, DING F. Stepwise identification of braided river reservoir architecture units based on time series and random forest[J/OL]. Journal of Jilin University (Earth Science Edition), 1-11[2025-11-25]. https://doi.org/10.13278/j.cnki.jjuese.20250047.

[33]
张莹,曲丽丽,朱露,等. SVM算法在渤海湾盆地南堡凹陷火山岩储层流体预测中的应用[J].油气藏评价与开发, 2023, 13(2):181-189.

ZHANG Y, QU L L, ZHU L, et al. Application of SVM algorithm in fluid prediction of volcanic rock reservoirs in Nanpu Sag, Bohai Bay Basin[J]. Reservoir Evaluation and Development, 2023, 13(2): 181-189.

[34]
YAO H,LIANG M,YIN S,et al. Application of hybrid model based on LASSO-SMOTE-BO-SVM to lithology identification during drilling[J]. Processes,2025,13(7):2038.

[35]
马子杰,唐玄,张金川,等.上扬子地区寒武系牛蹄塘组页岩有机质孔隙发育特征及主控因素[J].地学前缘,2023,30(3):124-137.

MA Z J, TANG X, ZHANG J C, et al. Development characteristics and main controlling factors of organic matter pores in Cambrian Niutitang Formation shale, Upper Yangtze Region[J]. Earth Science Frontiers, 2023, 30(3): 124-137.

[36]
腾格尔,刘文汇,徐永昌,等.无机地球化学参数与有效烃源岩发育环境的相关研究[J].地球科学进展,2005,20(2):193-200.

TENG G E, LIU W H, XU Y C, et al. Correlation study between inorganic geochemical parameters and the development environment of effective hydrocarbon source rocks[J]. Advances in Earth Science, 2005,20 (2): 193-200.

[37]
RIMMER S M. Geochemical paleoredox indicators in Devonian-Mississippian black shales, central Appalachian Basin (USA)[J]. Chemical Geology, 2004, 206(3-4):373-391.

文章导航

/