基于机器学习的稠油油藏注蒸汽过程中汽窜识别研究

宋保建 王若浩 马良宇 魏振国 贾喻博 刘慧卿

宋保建,王若浩,马良宇,魏振国,贾喻博,刘慧卿. 基于机器学习的稠油油藏注蒸汽过程中汽窜识别研究[J]. 石油钻采工艺,2022,44(6):777-783 doi:  10.13639/j.odpt.2022.06.018
引用本文: 宋保建,王若浩,马良宇,魏振国,贾喻博,刘慧卿. 基于机器学习的稠油油藏注蒸汽过程中汽窜识别研究[J]. 石油钻采工艺,2022,44(6):777-783 doi:  10.13639/j.odpt.2022.06.018
SONG Baojian, WANG Ruohao, MA Liangyu, WEI Zhenguo, JIA Yubo, LIU Huiqing. Machine learning-based steam channeling identification for steam injection of heavy oil reservoirs[J]. Oil Drilling & Production Technology, 2022, 44(6): 777-783 doi:  10.13639/j.odpt.2022.06.018
Citation: SONG Baojian, WANG Ruohao, MA Liangyu, WEI Zhenguo, JIA Yubo, LIU Huiqing. Machine learning-based steam channeling identification for steam injection of heavy oil reservoirs[J]. Oil Drilling & Production Technology, 2022, 44(6): 777-783 doi:  10.13639/j.odpt.2022.06.018

基于机器学习的稠油油藏注蒸汽过程中汽窜识别研究

doi: 10.13639/j.odpt.2022.06.018
详细信息
    作者简介:

    宋保建(1978-),2000年毕业于中国石油大学(华东)石油工程专业,现从事油田开发工作,高级工程师。通讯地址:(474780)河南省南阳市桐柏县埠江镇河南油田采油一厂。E-mail:81269587@qq.com

    通讯作者:

    刘慧卿(1966-),1987年毕业于华东石油学院采油工程专业,主要从事油气田开发工程及稠油热采技术研究工作,教授。通讯地址:(102249)北京市昌平区府学路18号中国石油大学。E-mail:liuhq@cup.edu.cn

  • 中图分类号: TE38

Machine learning-based steam channeling identification for steam injection of heavy oil reservoirs

  • 摘要: 稠油油藏蒸汽吞吐过程中汽窜的产生与油藏地质和开发工程等因素有关,目前识别汽窜的方式局限于油藏工程、数值模拟等,此类方法无法准确判别各因素的不确定性和相关性,机器学习方法可识别海量数据间的隐含关系,准确度高且模型易维护。分析了汽窜的影响因素,构建基础数据集后对数据进行特征工程处理,包括数据重构、缺失值处理、维度转换及相似性分析,建立了汽窜预测特征属性集;采取Wrapper方法、Embedded方法、主成成分分析法对数据集进行降维处理,形成3套不同的特征组合方案;分别采用随机森林、SVM、神经网络和XGBoost算法建立汽窜预测模型,给出不同模型的预测准确率和预测汽窜通道分布。研究结果表明:注汽强度、层位渗透率极值和邻井距离对汽窜的影响程度最大,表现最好的组合模型是:PCA数据集+XGBoost模型,该方案在训练集上的准确率为97.20%,在验证集上的准确率为96.11%,实现了对汽窜的精准预警。
  • 图  1  邻井汽窜井示意图

    Figure  1.  Schematic diagram of inter-well steam channeling

    图  2  缺失值填补前后单井产液量数据对比

    Figure  2.  Comparison of liquid production data of single well before and after filling missing value

    图  3  3410井注汽干度、注汽温度、注汽压力周期序列数据

    Figure  3.  Steam quality, temperature and pressure of different injection cycles of Well 3410

    图  4  不同属性的标准差率和F

    Figure  4.  Variation coefficients and F values of different attributes

    图  5  Embedded法筛选后的特征属性及其重要性得分

    Figure  5.  Feature attributes and scores of importance after data screening via the Embedded method

    图  6  Wrapper法筛选后的特征属性及其重要性得分

    Figure  6.  Feature attributes and scores of importance after data screening via the Wrapper method

    图  7  基于SVD-PCA的累计解释方差贡献率曲线

    Figure  7.  Cumulative variance contribution rate based on SVD-PCA

    图  8  XGBoost模型预测的汽窜通道分布情况

    Figure  8.  Distribution of steam channeling pathways predicted by the XGBoost model

    表  1  相邻生产井的属性筛选条件

    Table  1.   Attribute screening criteria for adjacent production wells

    属性筛选条件
    井距汽窜大部分发生在一线井处,少部分出现在二线井,故筛选汽窜井时,只考虑从a1井周围的一线井和二线井中筛选
    生产状态在筛选汽窜井时,要综合考虑邻井注入状态,以距离最近且所处状态为焖井或者生产中的井为目标汽窜井
    生产层位由于不同层位之间存在隔夹层,注入蒸汽难以穿过物性差的隔夹层,故不考虑和注汽井不在同一生产层位的邻井
    层位物性若邻井在生产层位上物性较差,那么可排除此井发生汽窜的可能性
    下载: 导出CSV

    表  2  数据相似性处理后汽窜井预测指标

    Table  2.   Prediction index set of steam channeling wells after similarity processing of data

    有效厚度/
    m
    层位渗透率
    级差
    邻井1渗透率/
    μm2
    ···最大注汽压力/
    MPa
    焖井时间/
    d
    平均注汽
    干度
    注氮气量/
    m3
    注汽强度/
    (t · m−1)
    6.202.021.00···3.840.720172.50
    3.812.021.00···2.660.6410000165.91
    3.812.041.01···3.22.80.8512000166.59
    3.812.051.02···2.830.930182.95
    3.812.051.04···21.008000170.02
    ···························
    7.807.202.04···3.280.7220000193.36
    7.807.352.06···2.960.768000115.64
    下载: 导出CSV

    表  3  不同机器学习模型、不同数据集条件下的汽窜预测准确率

    Table  3.   Steam channeling prediction accuracy in cases of different combinations of machine learning models and datasets

    模型数据集筛选方法子集均值均方误差
    随机森林 Embedded 训练集 0.920 0.076
    测试集 0.862 0.111
    Wrapper 训练集 0.931 0.072
    测试集 0.912 0.090
    PCA 训练集 0.938 0.052
    测试集 0.921 0.079
    神经网络 Embedded 训练集 0.912 0.090
    测试集 0.884 0.135
    Wrapper 训练集 0.936 0.061
    测试集 0.921 0.098
    PCA 训练集 0.912 0.088
    测试集 0.898 0.102
    支持向量机 Embedded 训练集 0.945 0.050
    测试集 0.931 0.066
    Wrapper 训练集 0.950 0.049
    测试集 0.911 0.065
    PCA 训练集 0.958 0.034
    测试集 0.932 0.049
    XGBoost Embedded 训练集 0.967 0.012
    测试集 0.951 0.025
    Wrapper 训练集 0.969 0.012
    测试集 0.956 0.035
    PCA 训练集 0.972 0.011
    测试集 0.961 0.036
    下载: 导出CSV
  • [1] 于连东. 世界稠油资源的分布及其开采技术的现状与展望[J]. 特种油气藏, 2001, 8(2):98-103. doi:  10.3969/j.issn.1006-6535.2001.02.029

    YU Liandong. Distribution of world heavy oil reserves and its recoverty technologies and future[J]. Special Oil & Gas Reservoirs, 2001, 8(2): 98-103. doi:  10.3969/j.issn.1006-6535.2001.02.029
    [2] 刘慧卿. 热力采油原理与设计[M]. 北京: 石油工业出版社, 2013.

    LIU Huiqing. Principle and design of thermal oil recovery[M]. Beijing: Petroleum Industry Press, 2013.
    [3] 郑强, 刘慧卿, 李芳, 等. 蒸汽驱后汽窜通道定量描述[J]. 中国科学(技术科学), 2013, 43(6):684-688. doi:  10.1360/ze2013-43-6-684

    ZHENG Qiang, LIU Huiqing, LI Fang, et al. Quantitative description of steam channeling after steam flooding[J]. Scientia Sinica (Technologica), 2013, 43(6): 684-688. doi:  10.1360/ze2013-43-6-684
    [4] 冯其红, 李玉润, 王森, 等. 基于深度卷积生成对抗神经网络预测气窜方向[J]. 中国石油大学学报: 自然科学版, 2020, 44(4):20-27. doi:  10.3969/j.issn.1673-5005.2020.04.003

    FENG Qihong, LI Yurun, WANG Sen, et al. Predicting gas migration development using deep convolutional generative adversarial network[J]. Journal of China University of Petroleum (Edition of Natural Science), 2020, 44(4): 20-27. doi:  10.3969/j.issn.1673-5005.2020.04.003
    [5] 谷建伟, 任燕龙, 王依科, 等. 基于机器学习的平面剩余油分布预测方法[J]. 中国石油大学学报(自然科学版), 2020, 44(4):39-46. doi:  10.3969/j.issn.1673-5005.2020.04.005

    GU Jianwei, REN Yanlong, WANG Yike, et al. Prediction methods of remaining oil plane distribution based on machine learning[J]. Journal of China University of Petroleum (Edition of Natural Science), 2020, 44(4): 39-46. doi:  10.3969/j.issn.1673-5005.2020.04.005
    [6] BOX G E P, JENKINS G M. Time series analysis: Forecasting and control[J]. Journal of Time, 2010, 31(3):238-242
    [7] CHOONG A C H, LEE N K. Evaluation of convolutionary neural networks modeling of DNA sequences using ordinal versus one-hot encoding method[C]//2017 International Conference on Computer and Drone Applications (IConDA), Kuching, Malaysia: IEEE, 2017: 60-65.
    [8] 王学忠, 董文轩, 郭勇, 等. 油藏生产数据误差分析[J]. 断块油气田, 2007, 14(3):53-55. doi:  10.3969/j.issn.1005-8907.2007.03.018

    WANG Xuezhong, DONG Wenxuan, GUO Yong, et al. Research on oil proration plan[J]. Fault-Block Oil & Gas Field, 2007, 14(3): 53-55. doi:  10.3969/j.issn.1005-8907.2007.03.018
    [9] 朱晓峰. 缺失值填充的若干问题研究[D]. 桂林: 广西师范大学, 2007: 50-52.

    ZHU Xiaofeng. Studies on missing data imputation[D]. Guilin: Guangxi Normal University, 2007: 50-52.
    [10] GUYON I, ELISSEEFF A. An introduction to variable and feature selection[J]. The Journal of Machine Learning Research, 2003, 3: 1157-1182. doi:  10.5555/944919.944968
    [11] KOHAVI R, JOHN G H. Wrappers for feature subset selection[J]. Artificial Intelligence, 1997, 97(1/2): 273-324. doi:  10.1016/S0004-3702(97)00043-X
    [12] 黄世锋. 基于卷积LSTM和随机森林的短时降雨量预测[D]. 广州: 广东工业大学, 2019: 135-137.

    HUANG Shifeng. Prediction of short-term rainfall based on convolutional LSTM and random forest[D]. Guangzhou: Guangdong University of Technology, 2019: 135-137.
    [13] CHAWLA N V, LAZAREVIC A, HALL L O, et al. SMOTEBoost: improving prediction of the minority class in boosting[C]//Knowledge Discovery in Databases: PKDD 2003, Berlin, Heidelberg: Springer, 2003: 107-119.
    [14] 石广仁. 支持向量机在裂缝预测及含气性评价应用中的优越性[J]. 石油勘探与开发, 2008, 35(5):588-594. doi:  10.3321/j.issn:1000-0747.2008.05.010

    SHI Guangren. Superiorities of support vector machine in fracture prediction and gassiness evaluation[J]. Petroleum Exploration and Development, 2008, 35(5): 588-594. doi:  10.3321/j.issn:1000-0747.2008.05.010
  • [1] 李洪毅, 尹小梅, 杜殿发, 张耀祖, 李苑, 吴光焕.  浅薄层稠油蒸汽驱中后期过渡注汽方式优化 . 石油钻采工艺, 2023, 45(2): 237-243. doi: 10.13639/j.odpt.2023.02.016
    [2] 郭素杰, 李景卫, 于伟高, 吕江萍, 姜维寨, 戴广阔, 胡琳.  基于知识驱动数据挖掘技术在复杂储层评价中的应用 . 石油钻采工艺, 2022, 44(2): 247-252. doi: 10.13639/j.odpt.2022.02.017
    [3] 何佑伟, 贺质越, 汤勇, 秦佳正, 宋俊杰, 汪勇.  基于机器学习的页岩气井产量评价与预测 . 石油钻采工艺, 2021, 43(4): 518-524. doi: 10.13639/j.odpt.2021.04.016
    [4] 刘巍, 刘威, 谷建伟.  基于机器学习方法的油井日产油量预测 . 石油钻采工艺, 2020, 42(1): 70-75. doi: 10.13639/j.odpt.2020.01.012
    [5] 孙新, 潘勇, 彭威, 段胜男, 芦志伟, 游红娟.  基于焖井温降模型的蒸汽吞吐井吸汽剖面解析 . 石油钻采工艺, 2018, 40(3): 348-353. doi: 10.13639/j.odpt.2018.03.013
    [6] 潘一, 付洪涛, 殷代印, 杨二龙, 韩颖.  稠油油藏气体辅助蒸汽吞吐研究现状及发展方向 . 石油钻采工艺, 2018, 40(1): 111-117. doi: 10.13639/j.odpt.2018.01.018
    [7] 张丁涌.  稠油蒸汽吞吐逐级深部封窜及乳化降黏复合技术 . 石油钻采工艺, 2017, 39(3): 382-387. doi: 10.13639/j.odpt.2017.03.023
    [8] 吴正彬, 刘慧卿, 庞占喜, 吴川, 高民.  稠油油藏气体- 泡沫辅助注蒸汽实验与数值模拟 . 石油钻采工艺, 2016, 38(6): 852-858. doi: 10.13639/j.odpt.2016.06.027
    [9] 陈莉娟, 潘竟军, 陈龙, 蔡罡, 王如燕, 胡承军.  注蒸汽后期稠油油藏火驱配套工艺矿场试验与认识 . 石油钻采工艺, 2014, 36(4): 93-96. doi: 10.13639/j.odpt.2014.04.023
    [10] 李甫, 梁爱国, 廖先燕, 黄玲, 帕提古丽, 亚尔买买提.  新疆稠油油藏复合吞吐技术研究与应用   . 石油钻采工艺, 2013, 35(6): 87-91.
    [11] 卢川, 刘慧卿, 卢克勤, 孟威, 佟琳, 郭睿.  浅薄层稠油水平井混合气与助排剂辅助蒸汽吞吐研究 . 石油钻采工艺, 2013, 35(2): 106-109.
    [12] 范治成, 刘慧卿, 张红玲, 刘仁静, 王书林, 刘卫军.  井楼油田稠油油藏氮气泡沫调剖室内实验 . 石油钻采工艺, 2009, 31(2): 74-78.
    [13] 赵明宸, 吴晓东, 席长丰, 马春红, 东阳.  底水稠油油藏蒸汽吞吐底水与夹层关系数值模拟 . 石油钻采工艺, 2006, 28(3): 56-58. doi: 10.3969/j.issn.1000-7393.2006.03.017
    [14] 王经荣, 王卫红, 李璗, 董正远, 高孝田, 刘新福.  高周期蒸汽吞吐最佳注汽参数实用图版研究 . 石油钻采工艺, 2005, 27(1): 32-35. doi: 10.3969/j.issn.1000-7393.2005.01.010
    [15] 李峰, 张凤山, 丁建民, 毕文亮, 兰艾芳, 张义萍.  稠油吞吐井注烟道气提高采收率技术试验 . 石油钻采工艺, 2001, 23(1): 67-68,85,86. doi: 10.3969/j.issn.1000-7393.2001.01.020
    [16] 尚思贤, 赵芳茹, 徐多悟, 王志伟.  克拉玛依浅层稠油油藏化学降粘辅助吞吐技术的应用 . 石油钻采工艺, 2001, 23(2): 66-68,86. doi: 10.3969/j.issn.1000-7393.2001.02.021
    [17] 阎向宏.  稠油开采中的物理学方法 . 石油钻采工艺, 1999, 21(1): 102-103. doi: 10.3969/j.issn.1000-7393.1999.01.026
    [18] 刘尚奇.  蒸汽吞吐转汽驱方式研究 . 石油钻采工艺, 1993, 15(6): 66-70. doi: 10.3969/j.issn.1000-7393.1993.06.011
    [19] 刘文章.  稠油油田由蒸汽吞吐转入蒸汽驱开采的技术策略 . 石油钻采工艺, 1991, 13(4): 45-50. doi: 10.3969/j.issn.1000-7393.1991.04.008
    [20] 王华瑾.  用QXS6-100-YQ蒸汽发生器进行稠油井试油 . 石油钻采工艺, 1990, 12(5): 67-72,79. doi: 10.3969/j.issn.1000-7393.1990.05.010
  • 加载中
图(8) / 表 (3)
计量
  • 文章访问数:  1
  • HTML全文浏览量:  79
  • PDF下载量:  18
  • 被引次数: 0
出版历程
  • 修回日期:  2022-10-19
  • 网络出版日期:  2023-04-18
  • 刊出日期:  2022-11-20

基于机器学习的稠油油藏注蒸汽过程中汽窜识别研究

doi: 10.13639/j.odpt.2022.06.018
    作者简介:

    宋保建(1978-),2000年毕业于中国石油大学(华东)石油工程专业,现从事油田开发工作,高级工程师。通讯地址:(474780)河南省南阳市桐柏县埠江镇河南油田采油一厂。E-mail:81269587@qq.com

    通讯作者: 刘慧卿(1966-),1987年毕业于华东石油学院采油工程专业,主要从事油气田开发工程及稠油热采技术研究工作,教授。通讯地址:(102249)北京市昌平区府学路18号中国石油大学。E-mail:liuhq@cup.edu.cn
  • 中图分类号: TE38

摘要: 稠油油藏蒸汽吞吐过程中汽窜的产生与油藏地质和开发工程等因素有关,目前识别汽窜的方式局限于油藏工程、数值模拟等,此类方法无法准确判别各因素的不确定性和相关性,机器学习方法可识别海量数据间的隐含关系,准确度高且模型易维护。分析了汽窜的影响因素,构建基础数据集后对数据进行特征工程处理,包括数据重构、缺失值处理、维度转换及相似性分析,建立了汽窜预测特征属性集;采取Wrapper方法、Embedded方法、主成成分分析法对数据集进行降维处理,形成3套不同的特征组合方案;分别采用随机森林、SVM、神经网络和XGBoost算法建立汽窜预测模型,给出不同模型的预测准确率和预测汽窜通道分布。研究结果表明:注汽强度、层位渗透率极值和邻井距离对汽窜的影响程度最大,表现最好的组合模型是:PCA数据集+XGBoost模型,该方案在训练集上的准确率为97.20%,在验证集上的准确率为96.11%,实现了对汽窜的精准预警。

English Abstract

宋保建,王若浩,马良宇,魏振国,贾喻博,刘慧卿. 基于机器学习的稠油油藏注蒸汽过程中汽窜识别研究[J]. 石油钻采工艺,2022,44(6):777-783 doi:  10.13639/j.odpt.2022.06.018
引用本文: 宋保建,王若浩,马良宇,魏振国,贾喻博,刘慧卿. 基于机器学习的稠油油藏注蒸汽过程中汽窜识别研究[J]. 石油钻采工艺,2022,44(6):777-783 doi:  10.13639/j.odpt.2022.06.018
SONG Baojian, WANG Ruohao, MA Liangyu, WEI Zhenguo, JIA Yubo, LIU Huiqing. Machine learning-based steam channeling identification for steam injection of heavy oil reservoirs[J]. Oil Drilling & Production Technology, 2022, 44(6): 777-783 doi:  10.13639/j.odpt.2022.06.018
Citation: SONG Baojian, WANG Ruohao, MA Liangyu, WEI Zhenguo, JIA Yubo, LIU Huiqing. Machine learning-based steam channeling identification for steam injection of heavy oil reservoirs[J]. Oil Drilling & Production Technology, 2022, 44(6): 777-783 doi:  10.13639/j.odpt.2022.06.018
  • 中国稠油资源量巨大,已在12个盆地发现近百个稠油油田,稠油资源达$300 \times {10^8}\;{\text{t}}$以上[1]。目前稠油油藏的主要开发方式包括蒸汽吞吐、蒸汽驱、SAGD等,上述开发方式均以蒸汽为注入介质,蒸汽黏度低、热焓高的特性导致其易在地下形成窜流通道,并以热水或蒸汽的方式被邻井回采,造成了热力资源的浪费,所以研究汽窜、治理汽窜对稠油油藏的高效开发十分重要。

    当某口吞吐井处于注热阶段时周围邻井生产中见到水蒸汽、热水或产生了压力传导情况,则称这口井在此周期内发生了汽窜现象[2]。汽窜是地质油藏、开发工程等各种因素长期作用的结果,影响了油井的正常生产,如何确定汽窜主控因素、建立汽窜预测模型、实现汽窜预警对稠油油田高效开发具有重要意义。目前大部分学者都通过数值/物理模拟、理论推导等方法研究汽窜,少有基于机器学习方式研究汽窜的主控因素及预测汽窜。本文以稠油油藏注蒸汽理论为指导,在分析单井汽窜影响因素的基础上,对多源多维数据集进行清洗和融合,并采用不同机器学习模型进行对比,最终构建出预测油井汽窜的最优机器学习模型,该模型可以预测历史数据中隐含的汽窜通道,重构地下蒸汽窜流场,并且还能够预测未来油井汽窜情况,对改善目标油藏注汽开发效果、指导矿场生产实践具有重要意义[3-4]

    • 本文在分析影响汽窜的开发因素、地质因素和工程因素的基础上,充分利用油井动静态资料,建立汽窜评价指标,该指标包括注热井和邻井特征。由于蒸汽吞吐井网上每一口井在不同时间内都处于注入、生产或焖井阶段,邻井的状态和地质条件会对汽窜产生影响,故需对邻井的指标进行筛选后才能加入到基础数据集中。以五点法井网为例,图1中a1井在注入过程中,可能发生汽窜的井为一线井和二线井,这些邻井的参数必须经过筛选后才能作为预测汽窜的基础样本集,对邻井指标筛选过程如表1所示。

      图  1  邻井汽窜井示意图

      Figure 1.  Schematic diagram of inter-well steam channeling

      表 1  相邻生产井的属性筛选条件

      Table 1.  Attribute screening criteria for adjacent production wells

      属性筛选条件
      井距汽窜大部分发生在一线井处,少部分出现在二线井,故筛选汽窜井时,只考虑从a1井周围的一线井和二线井中筛选
      生产状态在筛选汽窜井时,要综合考虑邻井注入状态,以距离最近且所处状态为焖井或者生产中的井为目标汽窜井
      生产层位由于不同层位之间存在隔夹层,注入蒸汽难以穿过物性差的隔夹层,故不考虑和注汽井不在同一生产层位的邻井
      层位物性若邻井在生产层位上物性较差,那么可排除此井发生汽窜的可能性

      经过井距、生产状态、生产层位、层位物性筛选后,最终选择注入井周围3口邻井作为目标井,这3口井同时满足下述条件:(1) 处于注入井的一线井和二线井范围内;(2) 邻井所处状态为生产状态;(3) 邻井的生产层位与注汽井相同。选择筛选后邻井的孔渗等属性作为汽窜评价指标,动态数据:注汽井注汽速度(t/d)、累计注汽量(t)、油藏破裂压力(MPa)、注汽周期数、高压注汽时率、单井注汽层位数、焖井时间(d)、注入压力(MPa)、注入干度、视吸汽指数(m3/(d · MPa))、周期注汽量(t)、注汽强度(t/m)、注氮气量(m3)、注汽层位。静态数据:注汽井50 ℃原油黏度(mPa · s)、岩心绝对渗透率(μm2)、岩心有效孔隙度、有效厚度与总厚度之比NTG、Lorenz系数、泥质含量、渗透率级差,临井Lorenz系数、渗透率级差、井距(m)、油层有效厚度(m)、岩心绝对渗透率(μm2)、岩心有效孔隙度、泥质含量,临井/注汽井井网密度(口/km2)、韵律性、原油黏度(mPa · s)。部分数据是时间序列数据,具有以下特征:数据维度高,在分类或聚类时具有较高的复杂度;数据噪声大,尤其在石油行业中,误差的来源广泛,离群点出现频率较高;数据缺失值较多,油井日报数据存在许多条不完整的日记录,因此有必要在特征工程阶段对数据进行处理分析[5-8]

    • 基于机器学习的应用研究通常包括数据工程、特征工程、模型训练和模型应用等,汽窜识别样本集构建属于数据工程和特征工程,样本集是机器学习模型的输入数据,其质量对机器学习模型的训练结果有直接影响。在汽窜识别样本集构建过程中,主要构建方法有汽窜特征属性的重构、数据缺失值的处理、数据维度转换、属性相似性分析等。

    • 井楼油田3711井区纵向分为7个小层,层间关系复杂,单井的目标层位也随开发的深入而动态调整,为反映开采层位的变化与汽窜间的隐含关系,将层位信息加入属性集。层位信息属于离散型数据,不能以数值化的方式进行编码处理,故将50口井在不同时间的生产层位进行独热编码,这种编码方式将层位的离散值映射到欧式空间,离散空间的特征取值都对应着欧式空间的某一点,层位的独热编码处理方式会让特征属性的距离计算更快速准确。

      对于每一口蒸汽吞吐井,将其包含层位的对应特征值记为1,不包含层位的特征值记为0。如3307井区在1995年12月1日的层位编码为[0, 1, 1, 1, 0, 0, 0],在2010年1月1日进行了层位调整,开采层位编码变为[0, 0, 0, 0, 0, 1, 1],最终将不同井的生产层位都进行独热化处理。

    • 目标区块的日报数据都是由现场各类传感器、测量仪器自动生成,由于仪器损坏、记录误差等情况,可能会导致数据的缺失,数据缺失不仅会降低原有数据的信息密度,而且会导致后期构建的模型没有良好的准确性和泛化性[9]。在充分理解缺失数据物理含义的基础上,针对不同的缺失数据采取不同的方法进行填补,分别是经验补全法和最相似填充法。经验补全法即人工手动填补缺失数据,若经验补全法难以得到缺失数据,则使用随机森林模型填补缺失值,该算法通过逆向转换原始样本集的标签和特征向量,基于数据间联系填补缺失值。

      图2是3410井填补前后产液量的数据,可以看出填补后的数据整体趋势与原数据基本一致,填补效果较好,此数据可进行后续的特征工程处理。

      图  2  缺失值填补前后单井产液量数据对比

      Figure 2.  Comparison of liquid production data of single well before and after filling missing value

    • 特征构造指的是基于汽窜特征属性集构造新特征的处理过程,目的是生成更精确预测汽窜的新特征,新特征能提升后续机器学习模型的表现或更好地解释模型。常用新特征构造方法有:维度转换、聚合特征构造、统计特征构造等。本文基础数据集为1990—2020年井楼3711油田目标区块50口蒸汽吞吐井汽窜数据,汽窜基础数据的时间跨度长且噪声较大,需对数据进行维度转换处理。

      将经过缺失值处理后的数据按照实际的注汽周期进行维度转换,达到去噪声化的效果。转换后,原30年内49口井的注入、生产数据变为980项周期数据,单井每1个吞吐周期为1个样本,每个样本所表达的信息量得到指数级提升。由于蒸汽吞吐特殊的注采工作制度,注汽温度、注汽压力、注汽干度、日注汽量等时序数据呈严重的波动性,将其进行维度转换后的数据如图3所示,数据呈平稳波动状态,不同周期存在明显趋势性。

      图  3  3410井注汽干度、注汽温度、注汽压力周期序列数据

      Figure 3.  Steam quality, temperature and pressure of different injection cycles of Well 3410

    • 如果模型输入基础数据某两列或多列特征属性相似度高,那么后期依此数据集的机器学习模型将会出现偏移,导致准确度下降[10],故数据在输入模型训练前还需进行降维处理。对于相关性较高的特征参数,可以删除某些参数而只保留数据最完整的特征参数。例如地层系数、流动系数、开采层位总厚度相关系数较大,保留其中一个即可。

      井楼3711井区30年50口井的动静态数据经过处理后,最终形成单井汽窜样本集(表2所示,包括980条记录、44个特征参数。

      表 2  数据相似性处理后汽窜井预测指标

      Table 2.  Prediction index set of steam channeling wells after similarity processing of data

      有效厚度/
      m
      层位渗透率
      级差
      邻井1渗透率/
      μm2
      ···最大注汽压力/
      MPa
      焖井时间/
      d
      平均注汽
      干度
      注氮气量/
      m3
      注汽强度/
      (t · m−1)
      6.202.021.00···3.840.720172.50
      3.812.021.00···2.660.6410000165.91
      3.812.041.01···3.22.80.8512000166.59
      3.812.051.02···2.830.930182.95
      3.812.051.04···21.008000170.02
      ···························
      7.807.202.04···3.280.7220000193.36
      7.807.352.06···2.960.768000115.64
    • 机器学习一般可分为监督学习、半监督、无监督学习等,不同机器学习算法其适应范围不同。虽然石油勘探开发中所产生的数据量巨大,但经过区块、井、层等限制后,用于构造机器学习模型的属性集是有限的,本文主要使用随机森林、支持向量机和集成学习中的XGBoost算法构建机器学习模型。

    • 将基础数据集输入机器学习模型前要对特征进行选择,尤其是对于汽窜样本数较小的情况,若使用过多的特征则会导致过拟合。特征选择一般有4个步骤:子集产生、子集评估、停止标准、结果确认。常见的特征选择技术有3类:Filter方法(过滤法)、Embedded方法(嵌入法)、Wrapper方法(包装法)。Filter方法主要包括标准差过滤、卡方过滤、F检验等,卡方过滤和F检验是筛选出与标签具有线性相关性的特征,特征全集经过过滤后,不同属性的标准差率和F值如图4所示[11]

      图  4  不同属性的标准差率和F

      Figure 4.  Variation coefficients and F values of different attributes

      图4可以看出,脱气原油黏度、最大注汽速度、平均注汽压力等属性的F值和标准差率较小,所以在构建特征集时删除以上属性,将经过Filter方法筛选后得到的属性集再进行Embedded、Wrapper和PCA方法筛选,最终得到3套不同数据集组合。

      Embedded法本质是让算法自行决定使用哪些特征属性的方法,该方法首先得到全部特征属性的权值系数,该系数代表着每项属性对于模型的贡献和重要性,模型会自动剔除权值系数低的属性。本文使用基于树模型的Embedded方法进行特征筛选,最终选择15个属性,不同属性的评价分数如图5所示。Wrapper方法和Embedded法相同,属于特征选择和算法训练同时进行的方法,最典型Wrapper方法是递归特征消除法(RFE),本文在RFE算法基础上,对不同的特征组合进行交叉验证,交叉验证8次,最终得到图6的不同特征重要程度,可以看出不同特征对于汽窜识别的影响程度不同。

      图  5  Embedded法筛选后的特征属性及其重要性得分

      Figure 5.  Feature attributes and scores of importance after data screening via the Embedded method

      图  6  Wrapper法筛选后的特征属性及其重要性得分

      Figure 6.  Feature attributes and scores of importance after data screening via the Wrapper method

      在构建特征属性集时,选择主成分分析法(PCA)进行数据降维,其基本思想是提取原始数据空间的主要特征,在减少数据冗余的同时,极大地保存原始数据信息,使原始高维数据在低维空间得到处理[12]。通过PCA降维算法可以得到不同特征的可解释方差贡献率,如图7所示。基于此方差贡献率可以选择最优属性个数,同时最大程度地保留原始数据集信息,可以看出降维后特征个数取10时,累计可解释方差贡献率就达到95%,故最终选择新特征个数为10个。

      图  7  基于SVD-PCA的累计解释方差贡献率曲线

      Figure 7.  Cumulative variance contribution rate based on SVD-PCA

      利用Embedded和Wrapper进行特征筛选后分别得到15项、17项特征属性,基于PCA降维算法选择10项特征参数,将3套不同数据集分别作为基础数据集输入到机器学习模型进行训练和预测。

    • 不同的机器学习模型使用不同的数据,对于非树形模型使用特征归一化后的数据,对于树形模型使用原始数据。由于基于PCA、Embedded、Wrapper方法筛选后的数据集都存在样本不均衡问题,即正样本与负样本个数差距过大,故在模型训练中通过SMOTE过采样算法合成新样本[13],最终样本汽窜/非汽窜数据各1000项。针对已建立的3套基础数据集,选择其中80%作为训练集,20%作为验证集,分别采用神经网络、随机森林、支持向量机、XGBoost建立汽窜预测模型[14]。随机森林模型参数:决策树数目N=400,采用bootstrap抽样,评价指标为基尼系数,无最大深度限制;神经网络模型参数:隐藏层大小(10,6),激活函数relu,学习率初始值0.1,L2正则系数0.0001;支持向量机模型参数:核函数为径向基核函数(RBF),惩罚系数1.0,Gamma系数为scale,多项式核函数次数为3;XGBoost模型参数:基础评估器数目100,随机抽取样本比例为1,Eta值为0.3,目标函数为logistics。经过调参后,模型准确率、均方误差如表3所示。由表3可见,不同模型在不同基础数据集上的表现有所差异,其中表现最好的组合模型是:PCA数据集+XGBoost机器学习模型,此模型在训练集上的准确率为97.20%,在预测集上的准确率为96.11%。图8为井楼油田历史生产过程中汽窜分布情况,可以看出机器学习模型识别出了历史数据中的隐含汽窜通道,实现了对地下窜流场的再认识。若将单井下轮次吞吐的注热参数输入至该XGBoost模型,该模型还可预测油井下一周期是否会汽窜,可以做到“防窜治窜”。

      表 3  不同机器学习模型、不同数据集条件下的汽窜预测准确率

      Table 3.  Steam channeling prediction accuracy in cases of different combinations of machine learning models and datasets

      模型数据集筛选方法子集均值均方误差
      随机森林 Embedded 训练集 0.920 0.076
      测试集 0.862 0.111
      Wrapper 训练集 0.931 0.072
      测试集 0.912 0.090
      PCA 训练集 0.938 0.052
      测试集 0.921 0.079
      神经网络 Embedded 训练集 0.912 0.090
      测试集 0.884 0.135
      Wrapper 训练集 0.936 0.061
      测试集 0.921 0.098
      PCA 训练集 0.912 0.088
      测试集 0.898 0.102
      支持向量机 Embedded 训练集 0.945 0.050
      测试集 0.931 0.066
      Wrapper 训练集 0.950 0.049
      测试集 0.911 0.065
      PCA 训练集 0.958 0.034
      测试集 0.932 0.049
      XGBoost Embedded 训练集 0.967 0.012
      测试集 0.951 0.025
      Wrapper 训练集 0.969 0.012
      测试集 0.956 0.035
      PCA 训练集 0.972 0.011
      测试集 0.961 0.036

      图  8  XGBoost模型预测的汽窜通道分布情况

      Figure 8.  Distribution of steam channeling pathways predicted by the XGBoost model

    • (1)在分析稠油油藏注蒸汽过程中单井汽窜影响因素的基础上,采用多源数据构造影响汽窜特征属性集,并采用多种机器学习模型进行对比,研究表明:注汽强度、层位渗透率级值、邻井距离和注汽速度是影响汽窜的主要因素;基础数据集和机器学习方法的选取对模型的准确度有着十分重要的影响,采用PCA算法筛选的基础数据集+XGBoost机器学习模型效果最好。

      (2)本文构建的机器学习模型能预测油井下一轮次蒸汽吞吐时的汽窜通道发育情况,对改善目标油藏注汽开发效果、指导矿场生产实践具有重要作用。现场在应用时若模型所输入的基础动态数据有变化,那么应重新训练机器学习模型以达到更高的预测准确度。

参考文献 (14)

目录

    /

    返回文章
    返回