• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    哪里可以玩重庆时时彩: 基于强化学习的多AGENT污水处理决策支持系统.pdf

    关 键 词:
    基于 强化 学习 AGENT 污水处理 决策 支持系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110147186.X

    申请日:

    2011.06.02

    公开号:

    CN102207928A

    公开日:

    2011.10.05

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 15/18申请日:20110602|||公开
    IPC分类号: G06F15/18; G06N99/00(2010.01)I 主分类号: G06F15/18
    申请人: 河海大学常州校区
    发明人: 倪建军; 刘明华; 马华伟; 谭宪军
    地址: 213022 江苏省常州市晋陵北路200号
    优先权:
    专利代理机构: 南京纵横知识产权代理有限公司 32224 代理人: 董建林
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110147186.X

    授权公告号:

    102207928B||||||

    法律状态公告日:

    2013.04.24|||2011.11.23|||2011.10.05

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于强化学习的多Agent污水处理决策支持系统,将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体,将强化学习与Agent概念相结合,定义强化学习的状态集、动作集;初始化强化学习中Q学习的参数,包括学习速率、折扣因子、Q值;各个Agent通过感知??榛竦玫鼻白刺?,并根据动作选择策略选择当前状态下最优动作;根据Q学习中的Q值公式进行Q值的计算与更新;一次学习过程结束,等待或者马上进入下一个学习过程,直到Q值收敛,得到最优决策。本发明从整个污水处理系统的全局出发,宏观调配污水处理厂的使用情况,具有较高的灵活性与自适应能力,并且可扩展性也非常高,具有较高的实用价值。

    权利要求书

    权利要求书
    1.  一种基于强化学习的多Agent污水处理决策支持系统,其特征是,包括以下步骤:
    a、将水污染源附近的n个污水处理厂分别抽象成具有一定属性的Agent主体,每个Agent包括污水处理厂的处理能力C、污水处理厂与污染源的距离D、主要针对处理的污染物质E、单位距离污水运输的费用P1、单位体积污水处理的费用P2;
    b、将强化学习与Agent相结合,定义强化学习的状态集S={C,D,E,P1,P2},动作集A={a1,a2},其中,a1表示该Agent加入污水处理系统,a2表示该Agent不加入污水处理系统;
    c、初始化强化学习中Q学习的参数,包括学习速率、折扣因子、Q值;
    d、各个污水处理厂Agent通过感知??榛竦玫鼻白刺瑂,s∈S,并根据动作选择策略选择当前状态s下最优动作;
    e、动作选择策略采用Boltzmann策略,通过执行动作a得到新的状态s′,同时从外界环境得到回报值r;
    f、对Q学习中的Q值进行Q值的计算与更新;
    g、一次学习过程结束,等待或者马上进入下一个学习过程,直到Q值收敛,得到最优决策,选择最佳的一个或多个污水处理厂Agent加入此次污水处理过程。

    2.  根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统,其特征是,所述Boltzmann动作选择策略公式为:
    P(a|s,Q)=eQ(s,a)/τΣa∈AeQ(s,a)/τ]]>
    其中,a为所选择的最佳动作,a′为在s状态下可选择的所有动作,Q为行为的值函数,τ是一个正的参数,称为退火温度,用它来控制搜索率,行为的选择取决于该状态-行为对的Q值函数和参数τ。

    3.  根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统,其特征是,根据Q学习中的Q值公式进行Q值的计算与更新,Q值公式为:
    Q(st,at)=Q(st,at)+α(rt+1+γmaxat+1∈A(st+1)Q(st+1,at+1)-Q(st,at))]]>
    其中α∈(0,1)是学习速率,γ∈(0,1)是折扣系数,A(st+1)是状态st+1对应的动作集,Agent在状态st采用动作at,使状态变为st+1,同时收到立即奖励rt+1,Q学习中,每个(状态st-动作at)对对应一个相应的Q(st,at)值。

    4.  根据权利要求1所述的基于强化学习的多Agent污水处理决策支持系统,其特征是,所述强化学习把学习看成一个试探评价的过程,如果污水处理厂Agent的某个行为策略如加入或不加入污水处理行列导致外界环境包括环境效益和经济效益的综合效益反馈正的回报值即r>0,那么Agent产生这个行为策略的趋势将会加强;如果Agent的某个行为策略导致环境反馈负的回报值,那么Agent产生这个行为策略的趋势将会减弱。

    说明书

    说明书基于强化学习的多Agent污水处理决策支持系统
    技术领域
    本发明涉及一种强化学习算法应用到污水处理的多Agent决策支持系统,是智能决策支持系统中的一种应用,属于人工智能技术领域。
    背景技术
    随着城市化、工业化的加速,水资源的需求缺口也日益增大,在这样的背景下,污水处理行业成为新兴产业。目前,污水处理厂的控制系统基本都采用集散型控制系统体系结构。其中上层(监管层)采用工业控制计算机,主要完成设定值的输入操作,各工艺参数、电气参数及主要设备运行状态信息的管理,并以趋势图、表格形式显示,给出各种临界提示及错误、越限报警;下层(控制层)由PLC实现数据的采集、控制算法的实现、控制命令的下发以及工艺过程的连锁等功能。智能控制主要集中在底层针对某参数或环节的智能控制器的研究上,因此,如何利用人工智能(Artificial Intelligence,缩写AI)技术对整个污水处理过程进行系统地、有效地监控、管理是应进一步展开的工作。
    决策支持系统是支持决策者解决半结构化决策问题的具有智能作用的人机系统,该系统能够为决策者迅速而准确地提供决定所需的数据、信息和背景材料,帮助决策者明确目标,建立或修改决策模型提供各种备选方案,对各种方案进行评价和优选,为正确决策提供有力支持。Agent是一类在特定环境下能感知环境,并能自治地运行以代表其设计者或使用者实现一系列目标计算实体或程序。MAS(Multi-Agent System)是由多个Agent组成的分布式自主系统,它在Agent理论的基础上重点研究Agent的互操作性及Agent间的协商和协作等。MA S不仅改善了每个Agent的基本能力,而且可以从Agent的通讯、合作、互解、协调、调度、管理及控制来表达系统的结构、功能及行为特性,进一步理解系统的社会行为,已经成功地应用于智能机器人、智能交通系统软件开发、移动通讯及网络浏览等众多领域。强化学习是无监督学习方法,目前已被广泛应用于预测、智能控制、决策支持等诸多领域。
    发明内容
    本发明的目的是:提供一个较智能的污水处理决策支持系统,通过计算污水处理的成本效益来决策是否需要不同的污水处理厂协作处理污水,污水处理厂Agent根据自身的属性决定是否需要加入此次污水处理过程,从而保证在较低的经济成本下最有效地处理污水,改善水环境。
    为了达到上述目的,本发明采取的技术方案是:基于强化学习的多Agent污水处理决策支持系统,其特征是:包括以下步骤:
    a、从整个污水处理系统全局出发,在污水处理的管理层上对污水处理厂进行控制、调配,判定是否选择该处理厂加入污水处理行列。将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体,每个Agent主要包括污水处理厂的处理能力C,污水处理厂与污染源的距离D,主要针对处理的污染物质E,单位距离污水运输的费用P1,单位体积污水处理的费用P2;
    将每个Agent赋予一定的属性,不仅可以有效处理Agent间的协商与协作关系,也增强了系统的可扩展性。
    b、将强化学习与Agent概念相结合,定义强化学习的状态集S={C,D,E,P1,P2},动作集A={a1,a2},其中,a1表示该Agent加入污水处理系统,a2表示该Agent不加入污水处理系统;
    污水处理厂被抽象成具有一定属性的Agent参数,Agent参数通过与外界环境即水污染状况交互,获得状态S,执行动作A,并获得回报值r(奖励或惩罚)。
    强化学习把学习看成一个试探评价的过程,如果污水处理厂Agent的某个行为策略如加入或不加入污水处理行列导致外界环境包括环境效益和经济效益的综合效益反馈正的回报值即r>0,那么Agent产生这个行为策略的趋势将会加强;如果Agent的某个行为策略导致环境反馈负的回报值,那么Agent产生这个行为策略的趋势将会减弱,多Agent系统中强化学习就是Agent从环境(同时包括其他Agent行为产生的影响)到行为映射的学习,以使奖励回报值最大。
    c、初始化强化学习中Q学习的参数,包括学习速率、折扣因子、Q值;
    d、各个污水处理厂Agent通过感知??榛竦玫鼻白刺瑂,s∈S,并根据动作选择策略选择当前状态s下最优动作;
    e、每个污水处理厂Agent根据一定的策略选择动作,策略可看成状态空间到行为空间的映射,即污水处理厂Agent在特定的状态下(如污水处理厂的处理能力为c,污水处理厂与污染源的距离d,主要针对处理的污染物质e,单位距离污水运输的费用p1,单位体积污水处理的费用p2)时如何选择特定的行为(加入或者不加入此次污水处理过程)。
    动作选择策略采用Boltzmann策略,通过执行动作a得到新的状态s′,同时从外界环境得到回报值r,Boltzmann动作选择策略公式为:
    P(a|s,Q)=eQ(s,a)/τΣa∈AeQ(s,a)/τ---(1)]]>
    其中a为所选择的最佳动作,a′为在s状态下可选择的所有动作。Q为行为的值函数,根据式(1)可以看出,行为的选择取决于该状态-行为对的Q值函数和参数τ,其中,τ是一个正的参数,称为退火温度,用它来控制搜索率。大的退火温度参数使得各个行为有着近似相等的概率,小的退火温度参数就使得较大的Q值函数有较大的选择概率。
    f、根据Q学习中的Q值公式进行Q值的计算与更新,
    Q学习是强化学习算法中最重要的一种学习算法,它无需建立环境模型,可以看作是马尔可夫决策过程的一种变化形式,直接优化一个可迭代计算的Q函数:
    Q(st,at)=rt+1+γmaxat+1∈A(st+1)Q(st+1,at+1)---(2)]]>
    Q学习通过使用Q值为每个状态动作对存储期望折扣报酬,由于式(2)两边存在差值,在学习过程中,Q学习采用以下的更新规则,即Q值公式为:
    Q(st,at)=Q(st,at)+α(rt+1+γmaxat+1∈A(st+1)Q(st+1,at+1)-Q(st,at))---(3)]]>
    其中α∈(0,1)是学习速率,γ∈(0,1)是折扣系数,A(st+1)是状态st+1对应的动作集。Agent在状态st采用动作at,将会使状态变为st+1,同时收到立即奖励rt+1。Q学习中,每个(状态st-动作at)对对应一个相应的Q(st,at)值,同理,(状态st+1-动作at+1)对对应相应的Q(st+1,at+1)值。为了获得每个状态动作对的最优Q值,Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值。
    g、一次学习过程结束,等待或者马上进入下一个学习过程,直到Q值收敛,得到最优决策,选择最佳的一个(或多个)污水处理厂Agent加入此次污水处理过程。
    本发明的有益效果:与现有技术相比,本发明具有如下优点:
    (1)本发明将人工智能应用到污水处理系统,对污水处理过程进行系统地、有效地监控、管理,从整个污水处理系统的全局出发,宏观调配污水处理厂的使用情况,并将多Agent思想应用到决策支持系统中,使系统的灵活性与自适应能力增强;
    (2)本发明应用强化学习改进各个Agent间的协调机制,大大提高了系统的智能性;
    (3)本发明根据成本效益来判断是否需要多个污水处理厂协作处理污水,可以使整个污水处理系统在取得环境效益的同时也获得一定的经济效益;
    (4)本发明对地区没有特殊要求,可扩展性强。
    本发明的基于强化学习的多Agent污水处理决策支持系统从污水处理系统的管理层出发,将人工智能领域中Agent技术与强化学习算法相结合,建立一个较智能的决策支持系统。与传统的污水处理系统相比,基于强化学习的多Agent污水处理系统是从监管层对各个污水处理厂进行控制、调配,而不是集中在一个污水处理厂的控制,具有更重要的理论意义与实际应用价值。并且系统能够有效协调污水处理经济成本与利益的关系,智能性更强,地区局限性小,具有较高的可扩展性。
    附图说明
    图1为本发明应用背景示意图;
    图2为强化学习总体结构图;
    图3为基于强化学习的多Agent污水处理决策支持系统框架图;
    图4为基于强化学习的多Agent污水处理决策支持系统流程图。
    具体实施方式
    下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的?;し段?。
    如图1所示,在水资源(河流)附近,不仅存在着企业、农业、居民以及其他可能造成水环境污染的污染源,同时也建造了一些污水处理厂,这些污水处理厂处理污水的能力不同,处理污水所花费的费用不同,并且对特定的污染指标处理程度也不尽相同,因此,合理控制、调配污水处理厂进行污水处理可以有效改善水环境,节约经济成本。
    如图2所示,为本发明的基于强化学习的多Agent污水处理决策支持系统所涉及的强化学习算法的总体结构图,污水处理厂被抽象成具有一定属性的Agent参数,Agent参数通过与外界环境即水污染状况交互,获得状态S,执行动作A,并获得回报值r(奖励或惩罚)。
    强化学习把学习看成一个试探评价的过程,如果污水处理厂Agent的某个行为策略(加入或不加入污水处理行列)导致外界环境(包括环境效益和经济效益的综合效益)反馈正的回报值(r>0),那么Agent产生这个行为策略的趋势将会加强;如果Agent的某个行为策略导致环境反馈负的回报值,那么Agent产生这个行为策略的趋势将会减弱,多Agent系统中强化学习就是Agent从环境(同时包括其他Agent行为产生的影响)到行为映射的学习,以使奖励回报值最大。
    本发明将基于强化学习的多Agent污水处理决策支持系统划分为多个???,如图3所示,Agent通过感知??榇油獠炕肪车玫接杏眯畔?,将信息抽象成学习??橹械淖刺瑂t,Agent根据动作选择策略获得最佳动作a,得到下一时刻状态st+1,并得到环境的反馈即回报值r,根据状态s、动作a、回报值r三个要素即可计算(或更新)Q值,将得到的Q值输入决策??橹?,使系统做出最优决策。
    基于强化学习的多Agent污水处理决策支持系统具体流程如图4所示,包括如下步骤:
    a、根据水环境的污染状况,进行污染源判定,根据污染源进行污水处理厂选择,将污水处理厂抽象成具有一定属性的Agent,n个污水处理厂分别抽象成Agent1,…,Agentn。
    b、通过状态数据管理,分析各个Agent的属性参数,并实例化Agent状态集。
    c、通过强化学习,学习最佳决策,具体学习过程为:
    c1、从整个污水处理系统全局出发,在污水处理的管理层上对污水处理厂进行控制、调配,判定是否选择该处理厂加入污水处理行列。将水污染源附近的污水处理厂抽象成具有一定属性的Agent主体,每个Agent包括污水处理厂的处理能力C,污水处理厂与污染源的距离D,主要针对处理的污染物质E,单位距离污水运输的费用P1,单位体积污水处理的费用P2;
    c2、将强化学习与Agent概念相结合,定义强化学习的状态集S={C,D,E,P1,P2},动作集A={a1,a2},a1表示加入污水处理系统,a2表示不加入污水处理系统;
    c3、初始化强化学习中Q学习的参数,包括学习速率、折扣因子、Q值;
    c4、各个Agent通过感知??榛竦玫鼻白刺瑂,s∈S,并根据动作选择策略选择当前状态s下最优动作;
    c5、动作选择策略采用Boltzmann策略,通过执行动作a得到新的状态s′,同时从外界环境得到回报值r,Boltzmann动作选择策略公式为:
    P(a|s,Q)=eQ(s,a)/τΣa∈AeQ(s,a)/τ;]]>
    其中,其中a为所选择的最佳动作,a′为在s状态下可选择的所有动作。Q为行为的值函数,τ是一个正的参数,用它来控制搜索率。大的退火温度参数使得各个行为有着近似相等的概率,小的退火温度参数就使得较大的Q值函数有较大的选择概率。
    c6、根据Q学习中的Q值公式进行Q值的计算与更新,Q值公式为:
    Q(st,at)=Q(st,at)+α(rt+1+γmaxat+1∈A(st+1)Q(st+1,at+1)-Q(st,at));]]>
    其中α∈(0,1)是学习速率,γ∈(0,1)是折扣系数。Agent在状态st采用动作at,将会使状态变为st+1,同时收到立即奖励rt+1。Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值。
    c7、一次学习过程结束,等待或者马上进入下一个学习过程,直到Q值收敛,得到最优决策。
    d、将决策作用到污水处理厂的选定,以达到合理控制、调配水污染处理厂,改善水环境的同时节约了经济成本。
    通过外部环境(水质污染状况)与其他污水处理厂Agent行为产生的影响实例化状态集S,根据Boltzmann动作选择策略公式选择该状态下最佳动作,得到下一时刻状态,并获得从环境(水环境效益和经济效益的综合效益)得到的反馈值r,利用Q值公式不断对Q值进行更新,最终得到最优决策,从而决定是否需要该污水处理厂Agent加入此次污水处理过程,最佳调配污水处理厂的污水处理工作,以保证在获得最高环境效益的情况下,使经济成本降到最低。
    本发明具有灵活性、适应性、可扩展性高的优点,通过将污水处理厂抽象成具有一定属性的Agent,并利用强化学习增强系统的智能性,建立基于强化学习的多Agent决策支持系统,用于合理控制、调配水污染处理厂,从而达到改善水环境、提高成本效益的目的,具有广泛的应用价值。
    以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的?;し段?。

    关于本文
    本文标题:基于强化学习的多AGENT污水处理决策支持系统.pdf
    链接地址://www.4mum.com.cn/p-5866023.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 北京pk10现场直播 pk10单号龙虎稳赚技巧 大乐透走势图表近50期 彩名堂计划软件网址 吉林快3玩法有窍门吗 五分快三中奖技巧 重庆欢乐生肖走势图 七乐彩专家免费预测 11选5任2稳赚投注技巧 十一选五稳赚选号法 全天pk10 5分pk10计划软件免费版 飞艇三码计划 福建时时6选3 赌场里的限红 七星彩内部9组直码