• 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
    • / 17
    • 下载费用:30 金币  

    重庆时时彩千里马团队: 一种基于狼爬山算法的智能发电控制方法.pdf

    关 键 词:
    一种 基于 爬山 算法 智能 发电 控制 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201610866538.X

    申请日:

    2016.09.30

    公开号:

    CN106372366A

    公开日:

    2017.02.01

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/50申请日:20160930|||公开
    IPC分类号: G06F17/50; G06N3/00; G06N3/08; G06Q10/06(2012.01)I; G06Q50/06(2012.01)I 主分类号: G06F17/50
    申请人: 三峡大学
    发明人: 席磊; 陈建峰; 杨苹; 许志荣; 柳浪; 李玉丹
    地址: 443002 湖北省宜昌市大学路8号
    优先权:
    专利代理机构: 宜昌市三峡专利事务所 42103 代理人: 吴思高
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610866538.X

    授权公告号:

    |||

    法律状态公告日:

    2017.03.01|||2017.02.01

    法律状态类型:

    实质审查的生效|||公开

    摘要

    一种基于狼爬山算法的智能发电控制方法,包括以下步骤:确定状态离散集S;确定联合动作离散集A;在每个控制周期开始时,采集各个电网的实时运行数据:频率偏差△f和功率偏差△P,计算各个区域控制误差ACEi(k)的瞬时值与控制性能标准CPSi(k)的瞬时值;确定当前状态S,再由当前状态S以及奖励函数获取某区域电网i的一个短期奖励函数信号Ri(k);通过计算与估计获得值函数误差pk、δk;通过函数求取最优目标值函数及策略;对所有区域电网j执行相应操作;返回步骤3。本发明能够在控制过程中获得最优平均策略,闭环系统性能优异,可以解决新能源电源接入所带来的互联复杂电力系统环境下自动发电协调控制问题,与已有智能算法相比具有更高的学习能力及快速收敛速。

    权利要求书

    1.一种基于狼爬山算法的智能发电控制方法,其特征在于包括以下步骤:
    步骤1:确定状态离散集S;
    步骤2:确定联合动作离散集A;
    步骤3:在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数据包
    括频率偏差△f和功率偏差△P,计算各个区域控制误差ACEi(k)的瞬时值与控制性能标准
    CPSi(k)的瞬时值;
    步骤4、确定当前状态S,再由当前状态S以及奖励函数获取某区域电网i的一个短期奖
    励函数信号Ri(k);
    步骤5、通过计算与估计获得值函数误差pk、δk;
    步骤6、通过函数求取最优目标值函数及策略;
    步骤7、对所有区域电网j,更新所有状态-动作对(s,a)的Q函数表格和资格迹矩阵ej(s,
    a),并由更新的Q值更新当前状态S下的混合策略Uk(sk,ak),再由混合策略Uk(sk,ak)更新值
    函数Qk+1(sk,ak)、资格迹元素e(s,a)、变学习率φ以及平均混合策略表;
    步骤8、返回步骤3。
    2.根据权利要求1所述一种基于狼爬山算法的智能发电控制方法,其特征在于:所述步
    骤1的状态离散集S,通过控制性能标准CPS1/CPS2的值的划分来确定。
    3.根据权利要求1所述一种基于狼爬山算法的智能发电控制方法,其特征在于:所述步
    骤2中,根据动作模糊化规则,确定区间动作。
    4.根据权利要求1所述一种基于狼爬山算法的智能发电控制方法,其特征在于:所述步
    骤3的实时运行数据,利用计算机和监控系统来采集。
    5.根据权利要求1所述一种基于狼爬山算法的智能发电控制方法,其特征在于:所述步
    骤3中,所述区域i的区域控制误差ACEi(k)的瞬时值计算方法如下:
    ACE=Ta-Ts-10B(Fa-Fs),
    其中,Ta为联络线实际潮流值、Ts为联络线期望潮流值,B为频率偏差系数,Fa为系统实
    际频率值,Fs为系统期望频率值;
    所述区域i的控制性能标准1的CPSi(k)的瞬时值计算方法如下:
    CPS1=(2-CF1)×100%,
    其中,Bi为控制区域i的频率偏差系数;ε1为互联电网对全
    年1分钟频率平均偏差均方根的控制目标值;n为该考核时段的分钟数;ACEAVE-1min为区域控
    制误差ACE在1分钟内的平均值;△fAVE为频率偏差△f在1分钟内的平均值;
    所述区域i的控制性能标准2的CPSi(k)的瞬时值计算方法如下:
    CPS2=(1-R)×100%,
    其中,
    ε10为互联电网对全年10分钟频率平均偏差均方根
    的控制目标值;Bnet为整个互联电网的频率偏差系数;ACEAVE-10min为区域控制误差ACE在10分
    钟内的平均值。
    6.根据权利要求1所述一种基于狼爬山算法的智能发电控制方法,其特征在于:所述步
    骤4的短期奖励函数信号Ri(k)由下式所得到,式子如下:
    <mrow> <mo>{</mo> <mrow> <mtable> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> <mtd> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>200</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>&lsqb;</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>100</mn> <mo>,</mo> <mn>200</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> <mo>-</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mn>100</mn> </mrow> </mtd> </mtr> </mtable> <mo>.</mo> </mrow> </mrow>
    其中,Ri(sk-1,sk,ak-1)为在选定的动作ak-1下状态从sk-1到sk的智能体奖励函数,ACEi(k)
    和CPS1i(k)分别为区域电网i第k步迭代的ACE和CPS1的瞬时值,σi为区域i历史奖励最大值。
    7.根据权利要求1所述一种基于狼爬山算法的智能发电控制方法,其特征在于:所述步
    骤5的值函数误差pk、δk由式子:
    pk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak)
    和δk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak)
    所获得,其中,R(sk,sk+1,ak)为在选定动作ak下状态从sk到sk+1的智能体奖励函数,γ为
    折扣因子,γ的取值范围为0<γ<1,ag为贪婪动作策略。
    8.根据权利要求1所述一种基于狼爬山算法的智能发电控制方法,其特征在于:所述步
    骤6中,最优目标值函数和策略π*(s)为
    <mrow> <msup> <mi>V</mi> <msup> <mi>&pi;</mi> <mo>*</mo> </msup> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow>
    <mrow> <msup> <mi>&pi;</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow>
    式中,A为动作集。
    9.根据权利要求1所述一种基于狼爬山算法的智能发电控制方法,其特征在于:所述步
    骤7中,通过式:
    ek+1(s,a)←γλek(s,a)
    更新资格迹矩阵,根据式:
    Qk+1(s,a)=Qk(s,a)+αδkek(s,a)
    更新Q函数表格,其中,ek(s,a)为在状态s动作a下第k步迭代的资格迹,γ为折扣因子,
    γ的取值范围为0<γ<1,λ为迹衰减因子,λ的取值范围为0<λ<1,α为Q学习率,α设置范围为0
    <α<1。
    10.根据权利要求1所述一种基于狼爬山算法的智能发电控制方法,其特征在于:所述
    步骤7中的混合策略Uk(sk,ak)根据下式更新:


    式中,φi为变学习率;
    所述步骤7中,根据式:
    Qk+1(sk,ak)=Qk+1(sk,ak)+αpk
    更新值函数Qk+1(sk,ak),根据式:
    <mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> <mo>=</mo> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
    更新资格迹元素e(sk,ak)←e(sk,ak)+1,根据式:

    更新变学习率根据式:
    <mrow> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>U</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>-</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>/</mo> <mi>v</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>&ForAll;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>A</mi> </mrow>
    更新平均混合策略表,式中,和两个学习参数用来表示智能体的赢与输,visit
    (sk)为从初始状态到当前状态所经历的sk次数。

    说明书

    一种基于狼爬山算法的智能发电控制方法

    技术领域

    本发明涉及一种电力系统智能发电控制技术,特别涉及一种基于狼爬山算法的智
    能发电控制方法。

    背景技术

    现代电网已经发展成为在电力市场机制的基础上多控制区域的互联系统,而互联
    电网自动发电控制(Automatic Generation Control,AGC)是电网能量管理系统中最基本
    的功能之一,是保证电力系统有功功率平衡和频率稳定的基本手段,其控制效果直接影响
    着电网品质。在互联电力系统中,其联络线功率偏差与频率变化是随着用户侧负荷的变化
    而变化的。通过控制发电机的有功出力来跟踪负荷的随机变化并提高电网频率质量,是当
    今控制研究领域的一项热点问题。自动发电控制是建立在利用调度监控计算机、通道、远方
    终端、执行(分配)装置、发电机组自动化装置等组成的闭环控制系统。它是电力系统调度自
    动化的主要内容之一。

    目前,在智能电网大力发展的大背景下,开发具有自主学习能力和厂网协调能力
    的智能发电控制,已经逐步成为一种大趋势。而在近几年来,多智能体强化学习算法已成为
    机器学习领域的一大热点。特别是基于经典Q学习的算法框架体系得到不断充实和发展。而
    在其研究领域内,已经有许多应用实例证明了多智能体强化学习里的每一个智能体能够追
    踪其它智能体的决策以动态协调自身动作。所以,数种以博弈论为基础,并用Q学习方法来
    实现的分布式强化学习方法被陆续提出,其中较出名的比如:minimax-Q、Nash-Q和friend-
    or-foe Q。然而由于Minimax_Q是零和博弈、Nash-Q占用空间大、FF-Q的Agent必须知道其他
    Agent是敌是友使得FF-Q只具有个体理性等缺陷,限制了这些算法的应用。

    而后,一种基于相关均衡的分布式多智能体学习算法——DCEQ(λ)算法被提出,用
    以解决互联电网AGC协调控制问题,并且取得了较满意的控制效果。但是,在智能体个数增
    加时,DCEQ(λ)算法在搜索多智能体均衡解时间呈几何数增加,限制了其方法在更大规模的
    电网系统里广泛应用。Bowling&Veloso于2002年开发了“赢”或“快速学习”的爬山策略算
    法;在学习中,每个Agent采用混合策略且只保存自身的Q值表。所以,一方面,它避免了一般
    Q学习中需要解决的探索和利用这一矛盾问题;另一方面,它可解决多Agent系统的异步决
    策问题?;诖?,提出了分布式WoLF-PHC(λ)算法,即狼爬山算法。其融合了WoLF-PHC算法、
    资格迹和SARSA算法,并将该方法应用于求解多智能体智能发电控制中的均衡解。标准两区
    域负荷频率控制的电力系统模型及南网模型的两个实例研究已经证明此算法的有效性。由
    于WoLF学习率随环境适应性地变化,与其他智能发电控制方法相比,狼爬山算法具有快速
    收敛速率。

    对于狼爬山算法,每个区域智能体不会减少与其他智能体之间的信息交换,而是
    时时刻刻感知到其他智能体的动作引起的状态变化??刂葡低呈嵌嘀悄芴逑低?,每个区域
    都嵌入了狼爬山算法,与CEQ算法相比,看似Q学习一样的单智能体算法,每个算法里都只有
    一个智能体,其他智能体动作会对当前的状态及下一时刻状态产生影响,这也就是所谓的
    智能体联合动作,而智能体会随着状态的变化而随时变化学习率,这也就是狼爬山比Q学习
    优越的地方。事实上,如前文中所列举的minimax-Q、Nash-Q、friend-or-foe Q和DCEQ等多
    智能体学习算法本质上都是属于多智能体之间的博弈,都可以归纳为纳什均衡博弈。但不
    同于静态博弈场景,对于属于动态博弈的控制过程,纳什均衡解在每个控制时间间隔的搜
    索速度并不一定都能满足控制实时性要求。所提出的狼爬山方法是通过平均策略取代多智
    能体动态博弈的均衡点求解,因此从博弈论的观点来看,狼爬山方法可以看作是一种高效、
    独立的自我博弈,降低了与其他智能体之间实时信息交换和联合控制策略的求解难度。总
    的来说,狼爬山算法能有效解决随机博弈求解和在非马尔可夫环境的应用问题。并且通过
    随机动态博弈的一种合适的赢输标准、引入变学习率及平均策略,可以提高狼爬山动态性
    能?;诒曜剂角蚋汉善德士刂频缌ο低衬P图澳贤P?,对多种智能算法进行了智能
    发电控制协调的仿真实例研究。仿真结果表明,与其他智能算法相比狼爬山能够获得快速
    的收敛特性及学习效率,在多区域强随机互联复杂电网环境下具有高度适应性和鲁棒性。

    发明内容

    本发明提供一种基于狼爬山算法的智能发电控制方法,能够在控制过程中获得最
    优平均策略,闭环系统性能优异,可以解决新能源电源接入所带来的互联复杂电力系统环
    境下自动发电协调控制问题;与已有智能算法相比,具有更高的学习能力及快速收敛速。

    本发明所采用的技术方案是:

    一种基于狼爬山算法的智能发电控制方法,包括以下步骤:

    步骤1:确定状态离散集S;

    步骤2:确定联合动作离散集A;

    步骤3:在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数
    据包括频率偏差△f和功率偏差△P,计算各个区域控制误差ACEi(k)的瞬时值与控制性能
    标准CPSi(k)的瞬时值;

    步骤4、确定当前状态S,再由当前状态S以及奖励函数获取某区域电网i的一个短
    期奖励函数信号Ri(k);

    步骤5、通过计算与估计获得值函数误差pk、δk;

    步骤6、通过函数求取最优目标值函数及策略;

    步骤7、对所有区域电网j,更新所有状态-动作对(s,a)的Q函数表格和资格迹矩阵
    ej(s,a),并由更新的Q值更新当前状态S下的混合策略Uk(sk,ak),再由混合策略Uk(sk,ak)更
    新值函数Qk+1(sk,ak)、资格迹元素e(s,a)、变学习率φ以及平均混合策略表;

    步骤8、返回步骤3。

    所述步骤1的状态离散集S,通过控制性能标准CPS1/CPS2的值的划分来确定。

    所述步骤2中,根据动作模糊化规则,确定区间动作。

    所述步骤3的实时运行数据,利用计算机和监控系统来采集。

    所述步骤3中,所述区域i的区域控制误差ACEi(k)的瞬时值计算方法如下:

    ACE=Ta-Ts-10B(Fa-Fs),

    其中,Ta为联络线实际潮流值、Ts为联络线期望潮流值,B为频率偏差系数,Fa为系
    统实际频率值,Fs为系统期望频率值;

    所述区域i的控制性能标准1的CPSi(k)的瞬时值计算方法如下:

    CPS1=(2-CF1)×100%,

    其中,Bi为控制区域i的频率偏差系数;ε1为互联电
    网对全年1分钟频率平均偏差均方根的控制目标值;n为该考核时段的分钟数;ACEAVE-1min为
    区域控制误差ACE在1分钟内的平均值;△fAVE为频率偏差△f在1分钟内的平均值;

    所述区域i的控制性能标准2的CPSi(k)的瞬时值计算方法如下:

    CPS2=(1-R)×100%,

    其中,

    ε10为互联电网对全年10分钟频率平均偏差
    均方根的控制目标值;Bnet为整个互联电网的频率偏差系数;ACEAVE-10min为区域控制误差ACE
    在10分钟内的平均值。

    所述步骤4的短期奖励函数信号Ri(k)由下式所得到,式子如下:

    <mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> <mtd> <mrow> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>200</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>&lsqb;</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>100</mn> <mo>,</mo> <mn>200</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> <mo>-</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mn>100</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

    其中,Ri(sk-1,sk,ak-1)为在选定的动作ak-1下状态从sk-1到sk的智能体奖励函数,
    ACEi(k)和CPS1i(k)分别为区域电网i第k步迭代的ACE和CPS1的瞬时值,σi为区域i历史奖励
    最大值。

    所述步骤5的值函数误差pk、δk由式子:

    pk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak)

    和δk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak)

    所获得,其中,R(sk,sk+1,ak)为在选定动作ak下状态从sk到sk+1的智能体奖励函数,
    γ为折扣因子,γ的取值范围为0<γ<1,ag为贪婪动作策略。

    所述步骤6中,最优目标值函数和策略π*(s)为

    <mrow> <msup> <mi>V</mi> <msup> <mi>&pi;</mi> <mo>*</mo> </msup> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow>

    <mrow> <msup> <mi>&pi;</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow>

    式中,A为动作集。

    所述步骤7中,通过式:

    ek+1(s,a)←γλek(s,a)

    更新资格迹矩阵,根据式:

    Qk+1(s,a)=Qk(s,a)+αδkek(s,a)

    更新Q函数表格,其中,ek(s,a)为在状态s动作a下第k步迭代的资格迹,γ为折扣
    因子,γ的取值范围为0<γ<1,λ为迹衰减因子,λ的取值范围为0<λ<1,α为Q学习率,α设置范
    围为0<α<1。

    所述步骤7中的混合策略Uk(sk,ak)根据下式更新:



    式中,φi为变学习率。

    所述步骤7中,根据式:

    Qk+1(sk,ak)=Qk+1(sk,ak)+αpk

    更新值函数Qk+1(sk,ak),根据式:

    <mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> <mo>=</mo> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

    更新资格迹元素e(sk,ak)←e(sk,ak)+1,根据式:


    更新变学习率根据式:

    <mrow> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>U</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>-</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>/</mo> <mi>v</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>&ForAll;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>A</mi> </mrow>

    更新平均混合策略表,式中,和两个学习参数用来表示智能体的赢与输,
    visit(sk)为从初始状态到当前状态所经历的sk次数。

    本发明一种基于狼爬山算法的智能发电控制方法,相对现有技术具有如下的优点
    及效果:

    1:本发明方法的设计中,其智能体会随状态的变化而随时变化学习率,提高了系
    统的动态性能,使其具有更高的快速收敛速率。

    2:本发明方法通过平均策略取代多智能体动态博弈的均衡点求解,降低了与其他
    智能体之间实时信息交换和联合控制策略的求解难度。

    3:本发明方法基于平均策略和混合策略,使其在非马尔可夫环境及大时延系统中
    具有高度适应性,而且能解决新能源电源接入所带来的互联复杂电力系统环境下自动发电
    协调控制问题。

    附图说明

    图1为AGC多智能体控制框架。

    图2为南方电网负荷频率控制模型图。

    具体实施方式

    一种基于狼爬山算法的智能发电控制方法,该智能发电控制方法的框架由测量智
    能体、集中控制智能体和分散控制智能体三类智能体所组成,该控制框架采用狼爬山算法
    分别实现AGC的集中控制和分散控制。狼爬山算法是一种具有多步回溯及变学习率的多智
    能体新算法,是针对解决互联复杂电力系统环境下自动发电协调控制问题而提出的。该算
    法在WOLF-PHC的基础上,融合了SARSA(λ)和资格迹,能有效解决随机博弈求解和在非马尔
    可夫环境的应用问题。狼爬山算法相对比于Q学习、Q(λ)学习和DCEQ(λ)等多智能体学习算
    法其拥有更快的收敛速度及学习效率,在多区域强随机互联复杂电网环境下,具有高度适
    应性和鲁棒性。

    测试智能体的数据输入为该区域的联络线功率偏差与频率偏差,输出为此区域的
    控制误差值和滚动CPS值。之后,各区域的ACE和CPS值传输到集中AGC控制器。如果各个区域
    的数据齐全且集中AGC控制器正常工作,则输出为各个区域的动作值,采用方法为CWOLF-
    PHC(λ)(Centralized WOLF-PHC(λ));否则,集中控制器传输所有已采集数据至各个区域的
    分散AGC控制器。如果数据齐全,各分散AGC控制器分配各自计算的动作并互不影响;如果数
    据不全,各分散控制器调入数据不齐全区域的上一次正常数据再行计算动作值并分配动
    作,采用方法为DWOLF-PHC(λ)(Decentralized WOLF-PHC(λ))。整个互联电网有且仅有一个
    集中AGC控制器,而测量智能体和分散AGC控制器在每个区域电网都有一个。

    本发明的方法CWOLF-PHC(λ),其控制决策过程分为三个阶段:

    1)、对所有智能体的状态-动作对利用狼爬山算法更新其Q值;

    2)、得出最优平均策略;

    3)、执行最优平均策略,并观察系统响应,返回奖励值与当前状态。

    一种基于狼爬山算法的智能发电控制方法,包括以下步骤:

    步骤1:确定状态离散集S;

    步骤2:确定联合动作离散集A;

    步骤3:在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数
    据包括频率偏差△f和功率偏差△P,计算各个区域控制误差ACEi(k)的瞬时值与控制性能
    标准CPSi(k)的瞬时值;

    步骤4、确定当前状态S,再由当前状态S以及奖励函数获取某区域电网i的一个短
    期奖励函数信号Ri(k);

    步骤5、通过计算与估计获得值函数误差pk、δk;

    步骤6、通过函数求取最优目标值函数及策略;

    步骤7、对所有区域电网j,更新所有状态-动作对(s,a)的Q函数表格和资格迹矩阵
    ej(s,a),并由更新的Q值更新当前状态S下的混合策略Uk(sk,ak),再由混合策略Uk(sk,ak)更
    新值函数Qk+1(sk,ak)、资格迹元素e(s,a)、变学习率φ以及平均混合策略表;

    步骤8、返回步骤3。

    所述步骤1的状态离散集S,通过控制性能标准CPS1/CPS2的值的划分来确定。

    所述步骤2中,根据动作模糊化规则,确定区间动作。

    所述步骤3的实时运行数据,利用计算机和监控系统来采集。

    所述步骤3中,所述区域i的区域控制误差ACEi(k)的瞬时值计算方法如下:

    ACE=Ta-Ts-10B(Fa-Fs),

    其中,Ta为联络线实际潮流值、Ts为联络线期望潮流值,B为频率偏差系数,Fa为系
    统实际频率值,Fs为系统期望频率值;

    所述区域i的控制性能标准1的CPSi(k)的瞬时值计算方法如下:

    CPS1=(2-CF1)×100%,

    其中,Bi为控制区域i的频率偏差系数;ε1为互联电
    网对全年1分钟频率平均偏差均方根的控制目标值;n为该考核时段的分钟数;ACEAVE-1min为
    区域控制误差ACE在1分钟内的平均值;△fAVE为频率偏差△f在1分钟内的平均值;

    所述区域i的控制性能标准2的CPSi(k)的瞬时值计算方法如下:

    CPS2=(1-R)×100%,

    其中,

    ε10为互联电网对全年10分钟频率平均偏差均
    方根的控制目标值;Bnet为整个互联电网的频率偏差系数;ACEAVE-10min为区域控制误差ACE在
    10分钟内的平均值。

    所述步骤4的短期奖励函数信号Ri(k)由下式所得到,式子如下:

    <mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> <mtd> <mrow> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>200</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>&lsqb;</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>100</mn> <mo>,</mo> <mn>200</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> <mo>-</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mn>100</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

    其中,Ri(sk-1,sk,ak-1)为在选定的动作ak-1下状态从sk-1到sk的智能体奖励函数,
    ACEi(k)和CPS1i(k)分别为区域电网i第k步迭代的ACE和CPS1的瞬时值,σi为区域i历史奖励
    最大值。

    所述步骤5的值函数误差pk、δk由式子:

    pk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak)

    和δk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak)

    所获得,其中,R(sk,sk+1,ak)为在选定动作ak下状态从sk到sk+1的智能体奖励函数,
    γ为折扣因子,γ的取值范围为0<γ<1,ag为贪婪动作策略。

    所述步骤6中,最优目标值函数和策略π*(s)为

    <mrow> <msup> <mi>V</mi> <msup> <mi>&pi;</mi> <mo>*</mo> </msup> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow>

    <mrow> <msup> <mi>&pi;</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow>

    式中,A为动作集。

    所述步骤7中,通过式:

    ek+1(s,a)←γλek(s,a)

    更新资格迹矩阵,根据式:

    Qk+1(s,a)=Qk(s,a)+αδkek(s,a)

    更新Q函数表格,其中,ek(s,a)为在状态s动作a下第k步迭代的资格迹,γ为折扣
    因子,γ的取值范围为0<γ<1,λ为迹衰减因子,λ的取值范围为0<λ<1,α为Q学习率,α设置范
    围为0<α<1。

    所述步骤7中的混合策略Uk(sk,ak)根据下式更新:



    式中,φi为变学习率。

    所述步骤7中,根据式:

    Qk+1(sk,ak)=Qk+1(sk,ak)+αpk

    更新值函数Qk+1(sk,ak),根据式:

    <mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> <mo>=</mo> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

    更新资格迹元素e(sk,ak)←e(sk,ak)+1,根据式:


    更新变学习率根据式:

    <mrow> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>U</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>-</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>/</mo> <mi>v</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>&ForAll;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>A</mi> </mrow>

    更新平均混合策略表,式中,和两个学习参数用来表示智能体的赢与输,
    visit(sk)为从初始状态到当前状态所经历的sk次数。

    本发明的工作原理:

    本发明是基于狼爬山算法的智能发电控制方法,本发明的主要工作过程如下:在
    一个控制周期开始时采集待控制的区域电网的实时运行数据;基于奖励函数的设定以及当
    前状态,获取奖励函数信号;通过函数求取最优目标值函数及策略;更新所有控制区域电网
    的Q值、资格迹、变学习率以及混合策略;获取最新动作。本发明可在控制过程中获得最优平
    均策略,且闭环系统优异,可以解决新能源电源接入所带来的互联复杂电力系统环境下自
    动发电协调控制问题,与已有算法相比具有更高的学习能力以及快速收敛速率。整个控制
    方法不需要外部环境的数学模型,可以把系统控制性能指标转化为一种评价指标,当系统
    性能满足要求时,得到奖励;否则,受到惩罚??刂破魍ü陨淼难?,得到最优的控制动
    作,非常适合用于多区域强随机的互联电网智能发电系统。本发明所采用的相关原理包括:

    1.WOLF原理:

    学者们已经将具有启发式方法的WoLF原理在对手问题上的应用进行了深入研究,
    失败的时候加快学习速度,赢的时候降低学习速度。与和其他智能体当前策略相反的平均
    策略相比,如果一个游戏者更喜欢当前策略,或者当前的期望奖励比博弈的均衡值大,那么
    游戏者便赢了。然而WoLF原理的游戏者对所需要的知识给出了严格的要求,这限制了WoLF
    原理普适性。

    2.PHC:

    所提出的爬山策略(Policy hill-climbing,PHC)算法是WoLF原理的扩展,以使其
    更具普适性,根据爬山策略算法,Q学习能获得混合策略以及保存Q值。由于PHC具有理性及
    收敛特性,当其他智能体选择固定策略时,它能获得最优解。部分文献已经证明通过合适的
    探索策略Q值会收敛到最优值Q*,并且通过贪婪策略Q*,U能获得最优解。虽然此方法是理性
    并且能获得混合策略,但是它的收敛特性不明显。

    3.WOLF-PHC:

    Bowling&Veloso于2002年提出了具有变学习率φ的WoLF-PHC算法,与此同时满足
    理性和收敛特性。两个学习参数φlose和φwin用来表明智能体的赢与输。WoLF-PHC是基于虚
    拟博弈,它能通过近似均衡的平均贪婪策取代未知的均衡策略。

    对于一个已知的智能体,基于混合策略集Uk(sk,ak),它会在状态sk过渡到sk+1且具
    有奖励函数R的情况下执行探索动作ak,Q函数将根据式Qk+1(s,a)=Qk(s,a)+αδkek(s,a)和
    Qk+1(sk,ak)=Qk+1(sk,ak)+αρk进行更新,U(sk,ak)的更新律为



    式中φi为变学习率,且φlose>φwin。如果平均混合策略值比当前的策略值低,则智
    能体赢了,选择φwin,否则选择φlose。它的更新律为


    式中为平均混合策略。

    执行动作ak后,对sk状态下所有动作的混合策略表进行更新,

    <mrow> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>U</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>-</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>/</mo> <mi>v</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>&ForAll;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>A</mi> </mrow>

    式中visit(sk)为从初始状态到当前状态所经历的sk次数。

    实施例:

    本实施例是在南方电网的整体框架下,以广东电网为主要研究对象,仿真模型为
    广东省电力调度中心实际工程项目搭建的详细全过程动态仿真模型,详细模型参数与仿真
    设计原则请参阅席磊,余涛,张孝顺发表的《基于狼爬山快速多智能体学习策略的电力系统
    智能发电控制》(电工技术学报)。该仿真模型中南方电网分为广东、广西、云南和贵州四个
    区域电网,并在标称参数及加入10%白噪声参数扰动两种情况下,使用Simulink进行建模
    仿真研究,对模型性能进行评估。为了设计变学习率以获得智能发电控制协调,多智能体智
    能发电控制提供了平均策略值。

    基于狼爬山算法的智能发电控制方法设计如下:

    1):分析系统特性以对状态集S离散化;此实例根据广东电网调度中心CPS指标划
    分标准,将CPS1/CPS2值划分为6个状态(-∞,0),[0,100%),[100%,150%),[150%,
    180%),[180%,200%),[200%,+∞),再将ACE分成正负2个状态,由此每个智能体可以确
    定有12个状态。ACE的状态主要是为了区分引起CPS指标波动的原因;

    2):确定联合动作离散集A,采用动作间隔的模糊化,动作区间模糊化总共有49条
    规则,每一条规则定有7个离散动作。

    3):在每个控制周期开始时,采集各个区域电网的实时运行数据:△f、△p,其中△
    f表示系统频率偏差,△p表示联络线功率偏差;根据国际通用考核办法,ACE=Ta-Ts-10B
    (Fa-Fs)(Ta为联络线实际潮流值、Ts为联络线期望潮流值,B为频率偏差系数,Fa为系统实际
    频率值,Fs为系统期望频率值)、CPS1=(2-CF1)×100%、(Bi为
    控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标
    值;n为该考核时段的分钟数;ACEAVE-1min为区域控制误差ACE在1分钟内的平均值;△fAVE为频
    率偏差△f在1分钟内的平均值;)、CPS2=(1-R)×100%、(ε10
    为互联电网对全年10分钟频率平均偏差均方根的控制目标值;Bnet为整个互联电网的频率偏差
    系数;ACEAVE-10min为区域控制误差ACE在10分钟内的平均值)、
    计算ACEi(k)、CPSi(k)的瞬时值。

    4):根据各个区域的ACEi(k)、CPSi(k)的瞬时值确定当前状态S,再由状态S和奖励
    函数获取区域电网的一个短期的奖励函数信号Ri(k),奖励函数设计如下:

    <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&sigma;</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> <mtd> <mrow> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>200</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>&lsqb;</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>ACE</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&Element;</mo> <mo>&lsqb;</mo> <mn>100</mn> <mo>,</mo> <mn>200</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>&eta;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> <mo>-</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>|</mo> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mn>200</mn> <mo>|</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> <msub> <mi>&Delta;P</mi> <mi>i</mi> </msub> <msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>CPSl</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mn>100</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>

    其中,Ri(sk-1,sk,ak-1)为在选定的动作ak-1下状态从sk-1到sk的智能体奖励函数,
    ACEi(k)和CPS1i(k)分别为区域电网i第k步迭代的ACE和CPS1的瞬时值,σi为区域i历史奖励
    最大值。

    5):对所有区域电网,计算值函数误差pk=R(sk,sk+1,ak)+0.9×Qk(sk+1,ag)-Qk(sk,
    ak),估计值函数误差

    δk=R(sk,sk+1,ak)+0.9×Qk(sk+1,ag)-Qk(sk,ak)(γ为折扣因子,取0.9,ag为贪婪动
    作策略)。

    6):对所有区域电网,确定最优目标值函数和策略
    (A为动作集)。

    7):对所有区域电网,ek+1(s,a)←0.9×0.9×ek(s,a)更新资格迹矩阵,Qk+1(s,a)=Qk(s,a)
    +0.1×δkek(s,a)更新Q函数表格,根据


    两个式子更新混合策略,

    Qk+1(sk,ak)=Qk+1(sk,ak)+0.1×pk更新值函数Qk+1(sk,ak),

    <mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0.9</mn> <mo>&times;</mo> <mn>0.9</mn> <mo>&times;</mo> <msub> <mi>e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> <mo>=</mo> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0.9</mn> <mo>&times;</mo> <mn>0.9</mn> <mo>&times;</mo> <msub> <mi>e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

    更新资格迹元素

    e(sk,ak)←e(sk,ak)+1,
    更新变学习率

    <mrow> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&LeftArrow;</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>U</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>-</mo> <mover> <mi>U</mi> <mo>~</mo> </mover> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>/</mo> <mi>v</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>&ForAll;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>A</mi> </mrow>

    更新平均混合策略表。

    8):在下一次控制周期到来时,返回步骤3。

    本发明的核心是奖励函数的选择、动作间隔的模糊化以及参数设计。其中在WOLF-
    PHC的基础上,融合了SARSA(λ)和资格迹是本专利的关键创新点,这一方法或相关方法的实
    施,有效地解决了随机博弈求解和在非马尔可夫环境的应用问题,使之获得了更加快速的
    收敛特性及学习效率,并且在多区域强随机互联复杂电网环境下,其具有高度适应性和鲁
    棒性,满足多区域电网间协调最优发电控制的需要。

    本发明控制方法可完整描述如下:

    1):通过控制性能标准CPS1/CPS2的值的划分来确定状态离散集S;

    2):根据动作模糊化规则,确定联合动作离散集A;

    3):在每个控制周期开始时,采集各个电网的实时运行数据:频率偏差△f和功率
    偏差△P,计算各个区域的ACEi(k)与CPSi(k)的瞬时值;

    4):确定当前状态S,再由当前状态S以及奖励函数获取某区域电网i的一个短期奖
    励函数信号Ri(k);

    5):通过

    pk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak)

    和δk=R(sk,sk+1,ak)+γQk(sk+1,ag)-Qk(sk,ak)获得值函数误差pk、δk;

    6):求取最优目标值函数及策略

    7):对所有区域电网执行:

    ek+1(s,a)←γλek(s,a)更新资格迹矩阵,

    Qk+1(s,a)=Qk(s,a)+αδkek(s,a)更新Q函数表格,



    更新混合策略Uk(sk,ak),

    Qk+1(sk,ak)=Qk+1(sk,ak)+αpk更新值函数Qk+1(sk,ak),

    <mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> <mo>=</mo> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

    更新资格迹元素

    e(sk,ak)←e(sk,ak)+1,
    更新变学习率

    更新平均混合策略表。

    8):在下一次控制周期到来时,返回步骤3。

    上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的
    限制其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均
    应为等效的置换方式,都包含在本发明的?;し段е?。

       内容来自专利网重庆时时彩单双窍门 www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:一种基于狼爬山算法的智能发电控制方法.pdf
    链接地址://www.4mum.com.cn/p-6013885.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 澳门赌城线上娱乐网 七星彩和值走势图 体育比分下载逛球街 2018新疆35选7开奖结果 幸运农场玩法介绍 360重庆老时时彩票 大彩彩票苹果 浙江快乐彩11选5开奖结果 新疆11选5手机助手 捕鱼大师ios官网 燕赵风采好运彩3 下载辽宁十一选五走势图表 象棋。 老11选5 意甲赛程积分榜 青海十一选五