基于强化学习的煤层气井螺杆泵排采参数智能决策

檀朝东 蔡振华 邓涵文 刘世界 秦鹏 王一兵 宋文容

檀朝东,蔡振华,邓涵文,刘世界,秦鹏,王一兵,宋文容. 基于强化学习的煤层气井螺杆泵排采参数智能决策[J]. 石油钻采工艺,2020,42(1):62-69 doi:  10.13639/j.odpt.2020.01.011
引用本文: 檀朝东,蔡振华,邓涵文,刘世界,秦鹏,王一兵,宋文容. 基于强化学习的煤层气井螺杆泵排采参数智能决策[J]. 石油钻采工艺,2020,42(1):62-69 doi:  10.13639/j.odpt.2020.01.011
TAN Chaodong, CAI Zhenhua, DENG Hanwen, LIU Shijie, QIN Peng, WANG Yibing, SONG Wenrong. Intelligent decision making on PCP production parameters of CBM wells based on reinforcement learning[J]. Oil Drilling & Production Technology, 2020, 42(1): 62-69 doi:  10.13639/j.odpt.2020.01.011
Citation: TAN Chaodong, CAI Zhenhua, DENG Hanwen, LIU Shijie, QIN Peng, WANG Yibing, SONG Wenrong. Intelligent decision making on PCP production parameters of CBM wells based on reinforcement learning[J]. Oil Drilling & Production Technology, 2020, 42(1): 62-69 doi:  10.13639/j.odpt.2020.01.011

基于强化学习的煤层气井螺杆泵排采参数智能决策

doi: 10.13639/j.odpt.2020.01.011
基金项目: 国家自然科学基金“基于大数据解析的大规模非集输油井群生产及拉运调度协同优化”(编号:51974327);国家科技重大专项“大型油气田及煤层气开发”(编号:2016ZX05043-004)
详细信息
    作者简介:

    檀朝东(1968-),2003年毕业于中国石油大学(北京)机械设计及理论专业,获博士学位,现从事人工举升及油气生产物联网大数据技术研究工作,教授级高级工程师,副教授。通讯地址:(102249)北京市昌平区府学路18号中国石油大学(北京)。E-mail:tanchaodong@cup.edu.cn

  • 中图分类号: TE355

Intelligent decision making on PCP production parameters of CBM wells based on reinforcement learning

  • 摘要: 为了实现煤层气井螺杆泵排采参数的连续决策和连续控制,使煤层气井长期高效稳产,以煤层气井螺杆泵生产周期内最大累积产气量为优化目标,提出了一种具有动作自寻优能力的螺杆泵排采强化模型的框架和Q学习及Sarsa、Sarsa(lambda)算法。研究通过与环境的交互式学习,对动态环境进行灵活奖惩,实现智能体在复杂环境下智能决策和参数优化,可有效获取煤层气螺杆泵排采最优协调控制,从而解决传统方法不能根据环境变化迅速做出调整而降低排采效果的问题。实验分析表明,给定煤层气井产气量的变化曲线,以螺杆泵的频率为单一控制变量,应用Q学习方法能有效得到螺杆泵排采变频控制的最优策略,具有一定的应用潜力。
  • 图  1  煤层气井排采控制原理

    Figure  1.  Production control principle of CBM well

    图  2  煤层气井螺杆泵排采的强化学习框架

    Figure  2.  Framework of the reinforcement learning of PCP production in CBM well

    图  3  QT的变化趋势

    Figure  3.  Change trend of Q and T

    图  4  Q为均值的正态分布

    Figure  4.  Normal distribution with Q as the mean value

    图  5  格子环境

    Figure  5.  Lattice environment

    图  6  RL模型奖励值变化曲线

    Figure  6.  Reward of RL model

    图  7  产气量变化曲线

    Figure  7.  Gas production rate

    图  8  第100回合的学习曲线

    Figure  8.  Learning curve of the 100th round

    图  9  第400回合的学习曲线

    Figure  9.  Learning curve of the 400th round

    表  1  Q表框架

    Table  1.   Framework of Q meter

    Qa1a2an
    s1Q(s1,a1)Q(s1,a2)Q(s1,a1)
    s2Q(s2,a1)Q(s2,a2)Q(s2,an)
    snQ(sn,a1)Q(sn,a2)Q(sn,an)
    下载: 导出CSV
  • [1] 王志荣, 杨杰, 陈玲霞, 等. 非线性井底流压条件下煤层气试验井产能预测模型及应用[J]. 河南理工大学学报(自然科学版), 2019, 38(4):39-48.

    WANG Zhirong, YANG Jie, CHEN Lingxia, et al. Productivity prediction model and its application of CBM test well under the condition ofnonlinear flowing bottom hole pressures[J]. Journal of Henan Polytechnic University(Natural Science), 2019, 38(4): 39-48.
    [2] 王渊, 王辰龙, 王凤清. 煤层气井压降规律与排采参数关系分析——以保德区块为例[J]. 石油钻采工艺, 2019, 41(4):502-508.

    WANG Yuan, WANG Chenlong, WANG Fengqing. Analysis on the relationship between pressure drop laws and production parameters of CBM well: A case study on the Baode Block[J]. Oil Drilling & Production Technology, 2019, 41(4): 502-508.
    [3] SHELDON J, VECERE C, KNAFL M, et al. Accelerated learning through collaboration in a PCP application: an australian case study[R]. SPE 171365, 2014.
    [4] LI H, LAU H C, HUANG S. Coalbed methane development in China: Engineering challenges and opportunities[R]. SPE 186289, 2017.
    [5] CHARLES P, DAVID W. Case study applied machine learning to optimise pcp completion design a CBM field[R]. SPE 192002, 2018.
    [6] 万里鹏, 兰旭光, 张瀚博, 等. 深度强化学习理论及其应用综述[J]. 模式识别与人工智能, 2019, 32(1):67-81.

    WAN Lipeng, LAN Xuguang, ZHANG Hanbo, et al. A review of deep reinforcement learning theory and its applications[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(1): 67-81.
    [7] 席磊, 陈建峰, 黄悦华, 等. 基于具有动作自寻优能力的深度强化学习的智能发电控制[J]. 中国科学: 信息科学, 2018, 48(10):1430-1449.

    XI Lei, CHEN Jianfeng, HUANG Yuehua, et al. Intelligent power generation control based on deep reinforcement learning with motion self-optimization ability[J]. Science in China:Information Science, 2018, 48(10): 1430-1449.
    [8] QI Xuewei, LUO Yadan, WU Guoyuan, et al. Deep reinforcement learning enabled self-learning control for energy efficient driving[J]. Transportation Research Part C, 2019(99): 67-81.
    [9] YIN Longyuan, ZHU Liangyu, GU Zhenghui, et al. A novel multi-step Q-learning method to improve data efficiency for deep reinforcement learning[J]. Knowledge-Based Systems, 2019(175): 107-117.
    [10] NGOC D N, THANH N, SAEID N. Multi-agent behavioral control system using deep reinforcement learn- ing[J]. Neurocomputing, 2019(359): 58-68.
    [11] FARZAD H, HAMED J B, BEHZAD M, et al. A reinforcement learning approach for waterflooding optimization in petroleum reservoirs[J]. Engineering Applications of Artificial Intelligence, 2019(77): 98-116.
  • [1] 林昕, 苑仁国, 韩雪银, 卢中原, 于忠涛, 谭伟雄.  随钻地质导向智能决策的实现与应用 . 石油钻采工艺, 2020, 42(1): 1-5. doi: 10.13639/j.odpt.2020.01.001
    [2] 薛海飞, 王建中, 王力, 王伟, 刘广景, 杨刚.  沁南盆地柿庄南区块煤层气开发工艺适用性分析 . 石油钻采工艺, 2019, 41(4): 412-417. doi: 10.13639/j.odpt.2019.04.002
    [3] 付亚荣, 陈明君, 陈寅生, 杨中峰, 尤小虎, 李思奇.  华北油田油藏构造边部稠油冷采方法 . 石油钻采工艺, 2017, 39(2): 244-248. doi: 10.13639/j.odpt.2017.02.021
    [4] 任宜伟, 楼宣庆, 段宝江, 王文升, 聂帅帅.  工程参数对L 区煤层气直井产量影响的定量研究 . 石油钻采工艺, 2016, 38(4): 487-493. doi: 10.13639/j.odpt.2016.04.016
    [5] 张宏录, 谢先平, 马秀敏, 张龙胜, 池圣平.  延川南煤层气田排采井杆管防腐工艺 . 石油钻采工艺, 2015, 37(3): 110-113. doi: 10.13639/j.odpt.2015.03.025
    [6] 杨勇, 崔树清, 郎淑敏, 王风锐, 张艳玲.  我国煤层气藏特征及提高地面抽采效果的方法 . 石油钻采工艺, 2014, 36(1): 66-69.
    [7] 段宝玉, 崔金榜, 段冉, 陈杰, 郑庆龙, 李进光.  煤层气直井排采捞煤粉一体化技术 . 石油钻采工艺, 2014, 36(5): 100-102. doi: 10.13639/j.odpt.2014.05.024
    [8] 姜东, 石彦, 薛建泉, 张国栋, 岳广韬, 蒋嫚.  螺杆泵内部滑失与泵外漏失机理研究 . 石油钻采工艺, 2013, 35(4): 73-77.
    [9] 闫永维, 高德利, 吴志永.  煤层气连通井引导技术研究 . 石油钻采工艺, 2010, 32(2): 23-25.
    [10] 鲜保安, 夏柏如, 张义, 鲍清英, 王海军, 刘建伟.  煤层气U型井钻井采气技术研究 . 石油钻采工艺, 2010, 32(4): 91-95.
    [11] 段礼祥.  螺杆泵驱动装置故障智能诊断方法 . 石油钻采工艺, 2007, 29(1): 37-39. doi: 10.3969/j.issn.1000-7393.2007.01.012
    [12] 罗敏, 张晓龙, 王世永, 刘巨保.  地面驱动螺杆泵恒液面控制方法 . 石油钻采工艺, 2006, 28(3): 53-55. doi: 10.3969/j.issn.1000-7393.2006.03.016
    [13] 胡江明, 王芙蓉.  螺杆泵举升技术在稠油排砂冷采中的应用 . 石油钻采工艺, 2004, 26(1): 69-71,72. doi: 10.3969/j.issn.1000-7393.2004.01.021
    [14] 王海文, 陈镭, 雷健.  螺杆泵井光杆受力法工况诊断技术 . 石油钻采工艺, 2003, 25(5): 78-81. doi: 10.3969/j.issn.1000-7393.2003.05.021
    [15] 鲍锋, 赵政超, 王智博, 杨忠培.  电潜螺杆泵采油系统的开发与现场应用 . 石油钻采工艺, 2000, 22(1): 67-68,72. doi: 10.3969/j.issn.1000-7393.2000.01.019
    [16] 李晶, 陈辉, 温志刚, 高成元.  螺杆泵优选软件的开发与应用 . 石油钻采工艺, 1999, 21(6): 81-85. doi: 10.3969/j.issn.1000-7393.1999.06.018
    [17] 崔金榜, 王燕嵩, 张胜利, 田伟, 胡雄心.  螺杆泵工况测试技术研究 . 石油钻采工艺, 1999, 21(6): 86-89. doi: 10.3969/j.issn.1000-7393.1999.06.019
    [18] 吴仕贵, 冯永泉.  螺杆泵优化设计方法及应用 . 石油钻采工艺, 1997, 19(1): 73-77. doi: 10.3969/j.issn.1000-7393.1997.01.017
    [19] 陈宪侃, 叶利平.  有杆螺杆泵杆柱强度设计初探 . 石油钻采工艺, 1995, 17(4): 78-83. doi: 10.3969/j.issn.1000-7393.1995.04.014
    [20] 唐加礼, 王铁君.  螺杆泵在油田应用的可能性 . 石油钻采工艺, 1989, 11(2): 111-115. doi: 10.3969/j.issn.1000-7393.1989.02.017
  • 加载中
图(9) / 表 (1)
计量
  • 文章访问数:  10
  • HTML全文浏览量:  157
  • PDF下载量:  42
  • 被引次数: 0
出版历程
  • 修回日期:  2019-11-12
  • 网络出版日期:  2020-06-10
  • 刊出日期:  2020-01-20

基于强化学习的煤层气井螺杆泵排采参数智能决策

doi: 10.13639/j.odpt.2020.01.011
    基金项目:  国家自然科学基金“基于大数据解析的大规模非集输油井群生产及拉运调度协同优化”(编号:51974327);国家科技重大专项“大型油气田及煤层气开发”(编号:2016ZX05043-004)
    作者简介:

    檀朝东(1968-),2003年毕业于中国石油大学(北京)机械设计及理论专业,获博士学位,现从事人工举升及油气生产物联网大数据技术研究工作,教授级高级工程师,副教授。通讯地址:(102249)北京市昌平区府学路18号中国石油大学(北京)。E-mail:tanchaodong@cup.edu.cn

  • 中图分类号: TE355

摘要: 为了实现煤层气井螺杆泵排采参数的连续决策和连续控制,使煤层气井长期高效稳产,以煤层气井螺杆泵生产周期内最大累积产气量为优化目标,提出了一种具有动作自寻优能力的螺杆泵排采强化模型的框架和Q学习及Sarsa、Sarsa(lambda)算法。研究通过与环境的交互式学习,对动态环境进行灵活奖惩,实现智能体在复杂环境下智能决策和参数优化,可有效获取煤层气螺杆泵排采最优协调控制,从而解决传统方法不能根据环境变化迅速做出调整而降低排采效果的问题。实验分析表明,给定煤层气井产气量的变化曲线,以螺杆泵的频率为单一控制变量,应用Q学习方法能有效得到螺杆泵排采变频控制的最优策略,具有一定的应用潜力。

English Abstract

檀朝东,蔡振华,邓涵文,刘世界,秦鹏,王一兵,宋文容. 基于强化学习的煤层气井螺杆泵排采参数智能决策[J]. 石油钻采工艺,2020,42(1):62-69 doi:  10.13639/j.odpt.2020.01.011
引用本文: 檀朝东,蔡振华,邓涵文,刘世界,秦鹏,王一兵,宋文容. 基于强化学习的煤层气井螺杆泵排采参数智能决策[J]. 石油钻采工艺,2020,42(1):62-69 doi:  10.13639/j.odpt.2020.01.011
TAN Chaodong, CAI Zhenhua, DENG Hanwen, LIU Shijie, QIN Peng, WANG Yibing, SONG Wenrong. Intelligent decision making on PCP production parameters of CBM wells based on reinforcement learning[J]. Oil Drilling & Production Technology, 2020, 42(1): 62-69 doi:  10.13639/j.odpt.2020.01.011
Citation: TAN Chaodong, CAI Zhenhua, DENG Hanwen, LIU Shijie, QIN Peng, WANG Yibing, SONG Wenrong. Intelligent decision making on PCP production parameters of CBM wells based on reinforcement learning[J]. Oil Drilling & Production Technology, 2020, 42(1): 62-69 doi:  10.13639/j.odpt.2020.01.011
  • 煤层气开采是通过持续排出煤层(或是侵入煤层)中的水,降低储层压力,使储层压力降低至甲烷的解吸压力后,吸附在煤基质孔隙中的甲烷气体解吸,经过扩散、渗流进入井筒中[1]。因此,煤层气井排采要以井底流压控制为核心,实现流压平稳下降。流压精细控制的主要目的是防止由于管理不善导致储层煤粉伤害、速敏伤害或应力敏感性伤害,保持煤储层渗透率,使压降漏斗有效扩展[2]。在20世纪80年代中期,螺杆泵在美国首次用于煤层气排采,并取得了良好效果。90年代中期,澳大利亚昆士兰进行首次螺杆泵试验[3]。螺杆泵用于煤层气开采比其他人工举升方式具有更多优势:处理大量生产固体的能力、本身不会发生气锁、相对较高的系统效率等。由于螺杆泵有较高排水和处理煤粉的能力,其在中国的煤层气开采中也有较广的应用,如鄂尔多斯盆地韩城区块有14%的井应用了螺杆泵,沁水盆地樊庄区块有44口水平井应用了螺杆泵进行排采[4]。因此研究螺杆泵的排采机理,优化螺杆泵排采参数,对中国煤层气井提高单井产量具有重要意义。

    目前调整煤层气井排采参数需要地质技术人员凭经验对生产状况进行动态分析,不定时进行人工现场调参,这种方法依赖于工程师的经验知识,并受时间、地理位置及气候的影响。机器学习可以预测煤层气螺杆泵的运行寿命和优化运行参数,典型的机器学习(ML)算法需要数百万个数据点才能成功发现和预测煤层气螺杆泵排采优化模式[5]。但如果环境发生变化,不能迅速做出调整会使储层受到不同程度的伤害,使解吸过程受到阻碍,排采效果降低。并且由于环境问题的多变和复杂,建立好的控制模型随时面临变化,经常需要进行更改以适应新环境,不符合智能控制的根本需求。

    针对以上问题,应用机器学习中的强化学习方法,通过控制螺杆泵的转速,建立煤层气某生产周期内产气量最大的强化学习模型。该方法通过与环境的交互式学习,对动态环境进行灵活的奖惩,实现智能体在复杂环境下智能决策和参数优化,在煤层气井螺杆泵排采参数优化控制问题上具有实时调整参数设置、自适应环境变化和无需大数据进行训练的优势。该方法能提高螺杆泵排采效率,使煤层气井按照生产规律长期、连续、高效地进行开采,并提高整体开发效果和经济效益。

    • 从优化控制角度,利用套压、动液面、井底流压、产水量、产气量的耦合关系,通过优化变频器的频率来调整它们之间的关系以得到一个合理的生产压差,实现煤层气井高产稳产的目标。

    • 强化学习的基本过程是一个马尔科夫决策过程,马尔科夫决策过程可以用状态(State)、动作(Action)、状态转移概率(Possibility)、状态转移奖励或回报(Reward)构成的四元组{sapr}表示[6]。对于离散时间MDP,状态和动作的集合称为状态空间(State Space)和动作空间(Action Space),分别用SA表示,$ {{s}_{i}}\in S,{{a}_{i}}\in A$。根据第t步选择的行动,状态根据概率$ P\left( {{s}_{t+1}},{{s}_{t}},{{a}_{t}} \right)$st转移到st+1,在状态转移的同时,决策主体得到1个即时奖励$ R\left( {{s}_{t+1}},{{s}_{t}},{{a}_{t}} \right)$;其中,stt时刻的状态,att时刻的动作。该过程结束时的累积奖励(Reward)为

      $$ {{G}_{t}}={{R}_{t}}+\gamma {{R}_{t+1}}+{{\gamma }^{2}}{{R}_{t+2}}+\cdots +{{\gamma }^{k}} {{R}_{t+k}}=\sum\limits_{k=0}{{{\gamma }^{k}}{{R}_{t+k}}} $$ (1)

      式中,Rt为时间t内累积的奖励;γ为折扣因子(discount factor),取值范围在0~1之间,用于削减远期决策对应的奖励权重。决策的最终目标是在抵达目标状态的同时实现累积奖励最大化。

      近年来,强化学习算法由于决策能力强、环境适应度高,被较多学者用于工业自动化领域[7]。采用Q学习等算法,可有效实现控制策略的在线学习和动态优化决策,实现信息共享、交互协作,可追踪、协调自身行为,动作自寻优等[8-10]

    • 控制合理的生产压差是煤层气井排采控制的重要因素之一。煤层气井的生产压差与套压、动液面、产气速率、产水速率等参数紧密相关。如图1所示,通过改变变频器的频率可以调整螺杆泵转速进而改变产水速率,从而控制动液面高度;调节气油嘴大小可以改变产气速率进而改变套压的大小,动液面和套压最终决定着井底流压的大小。

      图  1  煤层气井排采控制原理

      Figure 1.  Production control principle of CBM well

      螺杆泵排采的强化学习模型架构如图2所示。状态st (state)是指煤层气井螺杆泵排采系统的排采参数(如动液面高度、套压、电参数)、产气量、产水量、井底流压等,在此次简化模型中只考虑产气量,在图中用RTU数据采集装置表示;智能体(agent)可以理解为“神经中枢”,不仅能够感知当前状态以及在先前状态选择的动作效果,还具有调节频率以及和环境交互的能力,智能体负责做出决策,如增大频率、保持频率不变、减小频率等,即为模型中的动作at (actions);变频器在接收到智能体的动作信号后会及时调频,反映在螺杆泵上就是使其转速增大、减小或不变,在做出动作之后会得到环境的反馈,这里的环境是指包括储层在内的整个排采系统;环境的功能是输出执行动作后系统的状态以及该动作产生的效果,比如频率增大会使日产气量增大,频率减小会减缓储层能量的衰减速度等,这些反馈数值量化之后,就是模型中的奖励(rewards)。以上4个要素构成了煤层气井螺杆泵排采系统的基本框架。

      图  2  煤层气井螺杆泵排采的强化学习框架

      Figure 2.  Framework of the reinforcement learning of PCP production in CBM well

    • 煤层气井螺杆泵排采过程的主要控制量包括动液面和套压,这2个量与电机频率和油嘴的大小直接相关。由于在现场油嘴大小的改变不像变频器一样实时调整,因此研究只对单井的变频器建模。设系统中一共有n口煤层气井,控制动作设置为n维的列向量,其中第0维到第n−1维的特征量分别井1到井n的变频器频率控制v1v2,…,vn,即动作空间为

      $$ {{a}_{t~~}}=\left[ {{v}_{1}},~{{v}_{2}},\cdots,{{v}_{n}} \right] $$ (2)

      按照智能系统的调控方式,规定变频器的动作特征量为($i=1,2,\cdots ,n$)

      $$ {v_i} = \left\{ {\begin{array}{*{20}{l}} {1\;\;\;\;\;\;\;{\text{提高井}}i{\text{的频率}}\Delta v}\\ {0\;\;\;\;\;\;\;{\text{井}}i{\text{的频率}}\Delta v{\text{不变}}}\\ { - 1\;\;\;\;\;{\text{减小井}}i{\text{的频率}}\Delta v} \end{array}} \right. $$ (3)

      每当智能体给1口井的变频器1个反馈(1,0或−1),则该井的变频器会在原来的频率上增加、不变、减少∆v赫兹,则其中∆v大小的设置应根据实际运行情况确定。参数过小会导致收敛速度缓慢,参数过大则会导致系统运行不稳、无法收敛等问题。

    • 该模型主要基于煤层气产能最大化的目标,因此需要选择与产量直接相关的属性作为状态空间,其中包括每口单井的产气量q1q2,…,qn。因此,煤层气井螺杆泵排采系统的运行状态量是一个n维的列向量,则状态空间为

      $$ {S_{t{\rm{}}}} = \left[ {{q_1},{q_2}, \cdots ,{q_n}} \right] $$ (4)
    • 在与环境交互的初始阶段,智能体对系统没有清晰的认识,也不知道如何表现才能使奖励最大化。因此,它应该在最初的回合中探索环境以获得所需的知识和经验,在训练的最后回合,智能体有足够的经验去利用所获得的知识。任何行动选择策略都应该提供这种探索/利用权衡的特性。

    • $$ p\left( {{a_t}{\rm{|}}{s_t}} \right) = \frac{{{\rm{exp}}\left[ {{Q_{\left( {{s_t},{a_t}} \right)}}/\tau } \right]}}{{\displaystyle\mathop \sum \nolimits_{{a_t}' \in {A_{({s_t})}}'} {\rm{exp}}\left[ {{Q_{\left( {{s_t},{a_t}'} \right)}}/\tau } \right]}} $$ (5)

      式中,$ p\left( {{a_t}{\rm{|}}{s_t}} \right)$为智能体在状态st采用动作at的概率;$ Q\left( {{s_t},{a_t}} \right)$为动作状态的价值;$ {A_{({s_t})}}'$是状态st下可做动作${A_{({s_t})}} $的一个子集,根据先前状态st−1中选择的动作at−1而确定。

      该策略的含义是,动作值函数大的动作被选中的概率大,动作值函数小的动作被选中的概率小。在实际应用中,将任何一系列输入动作应用于系统是不实际的,因此输入值的推导应受到限制。因此,状态st中选择的动作,应位于动作at−1的附近,由集合${A_{({s_t})}}' $表示;而不是来自${A_{({s_t})}} $的任何动作。这里,利用温度系数τ(τ>0)控制探索/利用特征。高温导致更多的探索,动作选择更加随机。低温导致更多的利用,动作选择更加贪婪。也就是说低的温度系数会使智能体选择价值最高或相应奖励最高的动作。此外,在每个回合的学习过程中,温度系数都会按照以下更新规则进行更新。

      $$ \tau \leftarrow \frac{\tau }{{1 + \zeta }} $$ (6)

      式中,ζ为学习率,取值范围在0~1之间,决定了智能体从环境探索到获取经验知识进行利用的速率。

      在学习过程结束时,策略是完全贪婪的,在每个状态下,智能体会选择状态-动作价值最高的动作。参数ζ决定了从环境探索到获取经验知识进行利用的过渡阶段。ζ应以一种柔和的方式进行调整,使智能体在学习过程中有足够的探索/利用的时间。

    • $$ p\left( {{a_t}{\rm{|}}{s_t}} \right) = \left\{ {\begin{array}{*{20}{c}} {1 - \varepsilon \;\;\;a = {\rm{argmax}}Q\left( {s,a} \right)}\\ {\varepsilon \;\;\;\;\;a \ne {\rm{argmax}}Q\left( {s,a} \right)} \end{array}} \right. $$ (7)

      式中,ε为贪婪因子,取值范围在0~1之间,决定了模型随机选择一个动作来获取奖励的概率;argmaxQ(s,a)为在状态s下价值最大的动作。

      该策略的含义是,智能体在采取动作的时候,会有1−ε的概率选择使得Q值最大的动作,随着训练时间变长,ε的值逐渐减小,在后期智能体选择最大Q值对应的动作会增大。这种策略使模型将会有一定概率随机选择1个动作来获取奖励,保证模型更新的可行性。ε-greedy是强化学习中最常见的随机策略,研究将采用ε-greedy作为动作选择策略。

    • 煤层气螺杆泵排采系统在一定的排采运行状态下会对不同的动作产生反馈,这种反馈体现在对系统的奖励或者惩罚上。系统的最终目标是通过对动作决策的优化,达到最大化奖励的目的,实现最优化控制的效果,而奖励的规则应使其最大值与主要问题的优化等价。

      设定奖励值R为控制动作a和煤层气螺杆泵排采运行状态s的函数为

      $$ R\left( {a,s} \right) = \left\{ {\begin{array}{*{20}{c}} {1\;\;\;\;\;\;\;{\text{产气量增大}}}\\ {0\;\;\;\;\;\;\;{\text{产气量不变}}}\\ { - 1\;\;\;\;\;\;{\text{产气量减小}}} \end{array}} \right. $$ (8)

      式中,$ R\left( {a,s} \right)$为控制动作a和煤层气螺杆泵排采运行状态s的函数。在每个回合的开始,将随机产生一系列的状态值si=1si=2,…,si=n;每当走到i=n个时间步时,将环境产生的状态值si=n'相同时间步长的随机状态序列的值进行对比,如果si=n'大于si=n,则智能体会给出一个正向的奖励,$ R\left( {a,s} \right)$=1;如果si=n'等于si=n,智能体给出的反馈是不奖励也不惩罚;如果si=n'小于si=n,则$ R\left( {a,s} \right)$=−1。奖励值的设定不是既定的,可以根据实际问题进行调整。如果奖励函数的设定不合理,则会导致模型不收敛等问题。

    • 不同强化学习方法主要根据不同的更新规则来区分,这些更新规则影响学习率、收敛率、稳定性和最优获得奖励等特性。例如,虽然大多数经典学习方法,如蒙特卡罗或时间差被认为是奖励平均方法,但不同方法的平均过程中存在的差异会导致不同的特征以及不同的计算复杂度[11]

      采用Sarsa机制进行更新。与Q学习相比,Sarsa机制无须对新状态的动作价值函数(即Q值)做最大评估,而是直接利用当前选择的策略执行,更适用于煤层气螺杆泵排采的运作特征,具备较好的收敛性和反馈效果。设$ Q\left( {s,a} \right)$是智能系统在状态s下采用控制动作a的价值,$ {Q_{\rm{0}}}\left( {s,a} \right)$为先前价值,$ {Q_n}\left( {s,a} \right)$为更新后的价值,Sarsa采用的更新机制为

      $$ {Q_n}\left( {s,a} \right) = {Q_{\rm{0}}}\left( {s,a} \right) + \alpha \left[ {{Q_{\rm{r}}}\left( {s,a} \right) - {Q_0}\left( {s,a} \right)} \right] $$ (9)

      式中,$ {Q_{\rm{0}}}\left( {s,a} \right)$为先前价值;$ {Q_{\rm{r}}}\left( {s,a} \right)$为现实价值,即执行动作后的环境反馈;α为学习速率(learning rate),取值范围在0~1之间,决定了Q表更新的速率。

      假设系统在状态s1执行了控制动作a1,智能系统状态由此转移到状态s2,之后系统执行动作a2,而现实价值$ {Q_{\rm{r}}}\left( {{s_1},{a_1}} \right)$是奖惩值$ R\left( {{s_1},{a_1}} \right)$和先前价值$ {Q_{{0}}}\left( {{s_2},{a_2}} \right)$的叠加作用为

      $$ {Q_{\rm{r}}}\left( {{s_1},{a_1}} \right) = R\left( {{s_1},{a_1}} \right) + \gamma \cdot {Q_0}\left( {{s_2},{a_2}} \right) $$ (10)

      其中,γ表示状态s1采用控制动作a1的价值与下一状态和动作$ \left( {{s_2},{a_2}} \right)$的关联性衰减了。可以看出,系统每次执行控制动作,都可以对上一个状态下的执行动作进行价值的更新。

    • Q学习是一种经典的基于价值的强化学习算法,QQ(s, a),指的是动作效用函数(action-utility function),用来评价特定状态下采取某个动作的优劣,即为智能体在某一时刻的s状态下采取动作a能够获得的“分数”。算法的主要思想就是将状态与动作构建成一张Q表来存储Q值(表1)。对于不同的状态而言,采取不同动作会得到不同的结果,记录某个状态和动作二元组的分数能够让智能体在无数次试验和错误后记住当前的最优决策,即最大Q值的决策。训练到一定程度后,智能体会根据Q值来选取能够获得最大收益的动作。

      表 1  Q表框架

      Table 1.  Framework of Q meter

      Qa1a2an
      s1Q(s1,a1)Q(s1,a2)Q(s1,a1)
      s2Q(s2,a1)Q(s2,a2)Q(s2,an)
      snQ(sn,a1)Q(sn,a2)Q(sn,an)

      Q值的更新公式为

      $$ \begin{split} Q\left( {s,a} \right) \leftarrow & Q\left( {s,a} \right) + \alpha [ R\left( {s,a} \right) + \\ & \gamma \cdot{\rm{max}}Q\left( {s',a'} \right) - Q\left( {s,a} \right) ] \end{split} $$ (11)

      式中,$ {\rm{max}}Q\left( {s',a'} \right)$为在状态$ s'$下的最大价值。α学习速率越高,意味着保留过去记忆的程度越低;γ折扣因子越大,意味着$ {\rm{max}}Q\left( {s',a'} \right)$对结果的影响越大。

      该公式的含义:智能体在状态s下执行动作a后转移到状态$ s'$,然后从状态$ s'$中选取最大的$ Q\left( {s',a'} \right)$乘以折扣因子γ加上获得的奖励,并将它作为Q现实,而根据过往Q表里面的$ Q\left( {s,a} \right)$作为Q估计,而新的$ Q\left( {s,a} \right)$就等于Q现实与Q估计的差值乘以学习率α再加上Q估计。综上可得煤层气井螺杆泵排采的Q学习算法流程如下。

      (1) 初始化Q={ };

      (2) While Q未收敛;

      (3) 在螺杆泵变频器频率调节的阈值里随机选择一个频率,并将该频率下对应的产气量作为初始状态s,然后进行新一轮控制;

      (4) While s!=控制结束/系统损坏;

      (5) 使用基于ε-greedy的策略π,获得调频动作a=π(s);

      (6) 使用调频动作a进行控制,获得系统的新状态$ s'$,与奖励$ R\left( {s, \; a} \right)$

      (7) 更新Q$Q\left( {s, \; a} \right) \leftarrow Q\left( {s, \; a} \right) + \alpha [ R\left( {s, \; a} \right) + \gamma \max{_{a'}}$$Q\left( {s', \; a'} \right) - Q\left( {s, \; a} \right) ] $

      (8) 更新s$ s \leftarrow s'$

    • Sarsa算法在Q学习的基础上进行了改进,是相较于Q学习而言更为保守一种算法,Q学习和Sarsa分别属于离线学习(off-policy)和在线学习(on-policy)的范围。在线学习是根据每一步决策进行优化,类似于说到做到的效果,而离线学习可以从过去的经验和他人的决策中进行学习,不完全依赖于实时反馈的更新,所以两者产生的效果也不同。

      Sarsa的更新Q表的公式为

      $$ Q\left( {s,a} \right) \leftarrow Q\left( {s,a} \right) + \alpha \left[ {R\left( {s,a} \right) + \gamma Q\left( {s',a'} \right) - Q\left( {s,a} \right)} \right] $$ (12)

      煤层气井螺杆泵排采的Sarsa算法流程如下。

      (1) 初始化Q={ };

      (2) While Q未收敛;

      (3) 在螺杆泵变频器频率调节的阈值里随机选择一个频率,并将该频率下对应的产气量作为初始状态s,然后进行新一轮控制;

      (4) 使用基于ε-greedy的策略π,获得智能体调频动作a=π(s);

      (5) While s!=控制结束/系统损坏;

      (6) 使用调频动作a进行控制,获得系统的新状态$ s'$,与奖励$ R\left( {s, \; a} \right)$

      (7) 使用基于ε-greedy的策略π,获得动作$ a' = $$\pi \left( {s'} \right)$

      (8) 更新Q$ Q\left( {s, \; a} \right) \leftarrow Q\left( {s, \; a} \right) + \alpha [ R\left( {s, \; a} \right) + \gamma Q ( s', $$ a' ) - Q\left( {s, \; a} \right)] $

      (9) 更新s$ s \leftarrow s'$

      可以看出Sarsa的整个循环都在一个路径上,取行动a后在$ s'$估算的动作也是接下来一定执行的动作。而Q学习只会在$ s'$观察接下来的动作哪个奖励最大,其实智能体的下个一个状态-动作在算法更新时是不确定的。在实际中,如果比较在乎机器的损害,使用保守的Sarsa算法在训练时能减少损坏的次数。而Sarsa(lambda)算法与Sarsa的不同则是它增加了矩阵E来保存在路径中所经历的每一步,引入λ来控制衰减幅度。煤层气井螺杆泵的Sarsa(lambda)算法流程如下。

      (1) 初始化Q={ };

      (2) While Q未收敛;

      (3) 初始化E={ };

      (4) 在螺杆泵变频器频率调节的阈值里随机选择一个频率,并将该频率下对应的产气量作为初始状态s,然后进行新一轮控制;

      (5) 使用基于ε-greedy的策略π,获得调频动作a=π(s);

      (6) While s!=结束;

      (7) 使用调频动作a进行控制,获得系统的新状态$ s'$,与奖励$ R\left( {s, \; a} \right)$

      (8) 使用基于ε-greedy的策略π,获得动作$a' = $$ \pi \left( {s'} \right)$

      (9) 更新δ$ \delta \leftarrow R\left( {s, \; a} \right) + \gamma [Q\left( {s', \; a'} \right) - Q\left( {s, \; a} \right)]$

      (10) 更新E$ E\left( {s, \; a} \right) \leftarrow E\left( {s, \; a} \right) + 1$

      (11) 对所有的sa,更新QE

      (12) 更新Q$ Q\left( {s, \; a} \right) \leftarrow Q\left( {s, \; a} \right) + \alpha \delta E\left( {s,a} \right)$

      (13) 更新E$ E\left( {s, \; a} \right) \leftarrow \gamma \lambda E\left( {s,a} \right)$

      (14) 更新sa$ s \leftarrow s'$$ a \leftarrow a'$

      其中,δ是中间变量,用来暂时存放Q现实和Q估计的差值;$ E\left( {s,a} \right)$为关于$ s,a$的矩阵,用于保存在路径中所经历的每一步,应用于Sarsa(lamda)算法中;λ为衰减系数,取值范围在0~1之间,用于控制衰减幅度,应用于Sarsa(lamda)算法中。该算法使状态优化变得平滑,越靠近奖励的步骤越重要。这种改变使得智能体能够更加快速有效地学习到最优策略。

    • 为验证煤层气井螺杆泵排采强化学习模型的可操作性,开展了编程和计算分析研究。实验不直接对煤层气的地层环境建模,而是通过产气量的变化间接反映出储层能量的变化规律。已知煤层气产气量的变化是一个先增加后减小、维持最大产气量生产时间较短的过程,将依照此规律构建一个随机环境。由于本文通过最简单的强化学习思路来初步塑造煤层气排采参数优化的结构,为了避免内部计算的复杂性,以单井为研究对象,只考虑变频器的动作而不考虑气嘴调节阀的动作,产气量和生产周期的设定都被简化,其值的大小只为了反映其变化趋势。

    • (1) 先令生产周期T=365,时间步长∆t=1,则$T = \left[ {1,2,3, \cdots ,365} \right]$。令产气量QT的关系满足$ Q = - k{\left( {x - a} \right)^2} + b$这样一种二次函数的关系,其中$ k,a,b$等3个系数的设定应使Q$ T \in \left[ {1,160} \right]$恒定大于0。通过增加噪声,使曲线的走向由平滑变成震荡,使之更符合实际的变化趋势。通过python编程,可以得到产气量和时间的变化趋势,如图3所示。

      图  3  QT的变化趋势

      Figure 3.  Change trend of Q and T

      (2) 引入高斯函数,令每个T对应的Q为均值,随机产生符合正太分布的n个数值,即当T1=1,令μ=Q1δ=1,如图4所示。

      图  4  以Q为均值的正态分布

      Figure 4.  Normal distribution with Q as the mean value

      (3)实验中令n=33,于是便产生了n×T个产气量值。至此可以将环境构建成一个33×160的表格,每一列表示以Qn为均值产生的33个正态分布随机数,以从小到大的顺序放入格子,如图5所示。

      图  5  格子环境

      Figure 5.  Lattice environment

      (4) 每次智能体执行使螺杆泵频率增大的动作后,环境反馈给智能体的状态落在产气量较大区间的概率更大,但是该动作也会增大地层能量的衰竭速率,因此引入一个衰减系数β,使智能体不会一直选择使螺杆泵频率增大的动作。衰减系数β取值范围在0~1之间,使智能体不会一直选择使螺杆泵频率增大的动作不同的动作对应的β值不同,实验的状态空间$ a = \left[ { - 1,0,1} \right]$, β的取值应满足$ \;{\beta _{a = - 1}} < {\beta _{a = 0}} < {\beta _{a = 1}}$。因此Q表更新公式变为

      $$\begin{split} Q\left( {s,a} \right) = & Q\left( {s,a} \right) + \alpha [ R\left( {s,a} \right) + \left( {1 - {\rm{\beta }}} \right)\cdot \\ & \gamma \cdot{\rm{max}}Q\left( {s',a'} \right) - Q\left( {s,a} \right) ] \end{split} $$ (13)
    • 实验开始时,令贪婪因子ε=0.1,使智能体每次选择动作时,有90%的概率会选择Q值最大的动作,10%的概率会随机探索。令∆t=1,即智能体每次从动作空间选出一个动作,则变频器的频率会相应的增加或减少1 Hz,或者保持原来的频率不变。设变频器的初始频率为75 Hz,阈值为[60, 90]。经编程运行,基于Q学习的煤层气螺杆泵优化控制模型的训练奖励值变化如图6所示,其累积产气量随训练轮数的变化曲线图7所示。

      图  6  RL模型奖励值变化曲线

      Figure 6.  Reward of RL model

      图  7  产气量变化曲线

      Figure 7.  Gas production rate

      图6图7的横轴表示总的训练回合数,实验一共训练了500回合,纵坐标表示每一个回合累积的奖励值。从图中可以看出当训练到400回合左右的时候,智能体已经学会了一系列控制动作,使得目标值达到最大。这也证明了基于Q学习强化学习模型在状态空间较小的情况下可以较好的收敛。奖励值变化曲线呈现一种震荡的效果是因为,始终保持了一定的探索/利用概率。

      为了具体反映智能体的学习过程,实验做出了智能体动作选择曲线以及相应变频器频率变化的曲线。如图8所示,出当智能体进行400回合的学习后,智能体已经学到了如何选择动作使得总产气量最大,此时累积奖励基本稳定。如图9所示,该图反映了智能体还在进行学习,Q表在构建过程中,很多动作—状态的值还未被探索或更新,奖励值还在增大。

      图  8  第100回合的学习曲线

      Figure 8.  Learning curve of the 100th round

      图  9  第400回合的学习曲线

      Figure 9.  Learning curve of the 400th round

    • (1) 基于强化学习的煤层气排采优化控制方法,通过自动优化变频器的频率来调整排采参数之间的关系可以得到一个合理的生产压差,实现煤层气井高产稳产的目标,解决了传统方法不能根据环境变化迅速做出调整而降低排采效果的问题。

      (2)采用强化学习模型框架和Q学习、Sarsa、Sarsa(lambda)等算法,可有效开展煤层气螺杆泵排采控制策略的在线学习和动态优化决策,实现信息共享、交互协作,可追踪协调自身行为,动作自寻优。实验分析表明,应用Q学习模型可快速得到指定产气量变化曲线的螺杆泵排采变频控制的策略。

      (3) 强化学习目前仍处于兴起阶段,属于人工智能的新兴研究领域,在石油工程领域拥有广阔的发展空间和美好的应用前景。在后继模型框架设计时,可以考虑结合基于大数据的神经网络深度学习算法。通过多智能体框架可以增加模型复杂度,优化控制动作,增加状态空间,优化奖励设计机制,使排采控制更加智能、快捷、精准。

参考文献 (11)

目录

    /

    返回文章
    返回