• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩冷热号分析: 公共自行车调度控制系统及其调度方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201510133595.2

    申请日:

    2015.03.25

    公开号:

    CN104715290A

    公开日:

    2015.06.17

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06Q 10/04申请日:20150325|||公开
    IPC分类号: G06Q10/04(2012.01)I; G06Q50/30(2012.01)I 主分类号: G06Q10/04
    申请人: 苏州科技学院
    发明人: 傅启明; 许洪华; 陈建平; 刘全; 罗恒; 倪启东
    地址: 215009江苏省苏州市高新区科锐路1号
    优先权:
    专利代理机构: 上海思微知识产权代理事务所(普通合伙)31237 代理人: 郑玮
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510133595.2

    授权公告号:

    ||||||

    法律状态公告日:

    2018.10.23|||2015.07.15|||2015.06.17

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种公共自行车调度控制系统及其调度方法,包括若干本地控制器、若干从控制器和主控制器;每个从控制器均包括数据采集??楹陀胧莶杉?榱拥牡谝煌ㄐ拍??,数据采集??槭凳笔占镜乜刂破魇凳奔觳獾降氖菪畔?;主控制器包括数据处理??楹陀胧荽砟?榱拥牡诙ㄐ拍??,第二通信??橛氲谝煌ㄐ拍?槲尴吡?,接收数据采集??槭凳笔占氖菪畔?,并将数据信息上传至数据处理???,数据处理??榘ń5ピ途霾叩ピ?,建模单元对接收的数据信息建立环境模型,决策单元根据环境模型给出最优调度决策。本发明根据各自行车租赁点的站点之间的实时车辆调度信息,及时提供准确的调度策略,大大减少车辆调度运输成本。

    权利要求书

    权利要求书
    1.  一种公共自行车调度控制系统,其特征在于,包括若干本地控制器、若干从控制器和主控制器,每个所述本地控制器实时检测相应租赁点自行车状态的数据信息;每个所述从控制器均包括数据采集??楹陀胨鍪莶杉?榱拥牡谝煌ㄐ拍??,所述数据采集??槭凳笔占镜乜刂破魇凳奔觳獾降氖菪畔?;所述主控制器包括数据处理??楹陀胨鍪荽砟?榱拥牡诙ㄐ拍??,所述第二通信??橛氲谝煌ㄐ拍?槲尴吡?,接收所述数据采集??槭凳笔占氖菪畔?,并将数据信息上传至所述数据处理???,数据处理??榘ń5ピ途霾叩ピ?,所述建模单元对接收的数据信息建立环境模型,所述决策单元根据所述环境模型给出最优调度决策。

    2.  根据权利要求1所述的公共自行车调度控制系统,所述数据处理??槲狹C13213芯片,所述第二通信??槲狹C52i无线???,所述MC13213芯片与所述MC52i无线??橹渫ü谝淮薪涌谕ㄐ?。

    3.  根据权利要求1所述的公共自行车调度控制系统,所述数据采集??槲狹C13213芯片,所述第一通信??槲狹C52i无线???,所述MC13213芯片与所述MC52i无线??橹渫ü谝淮薪涌谕ㄐ?。

    4.  根据权利要求3所述的公共自行车调度控制系统,所述从控制器还包括电平转换???,所述电平转换??榉直鹩氡镜乜刂破骱蚆C13213芯片连接,实时采集自行车租赁点的数据信息,并将采集的数据信息发送至MC13213芯片。

    5.  根据权利要求4所述的公共自行车调度控制系统,所述电平转换??槲狹AX232芯片,MAX232芯片其中一端与本地控制器连接,另一端与所述MC13213芯片的第二串行接口连接,将采集的数据信息发送至MC13213芯片。

    6.  根据权利要求1所述的公共自行车调度控制系统,所述从控制器和所述本地控制器的数量相同。

    7.  根据权利要求1~6任一项所述的公共自行车调度控制系统的调度方法, 其特征在于,包括以下步骤:
    S1:所述本地控制器实时检测相应租赁点自行车状态的数据信息;
    S2:所述数据采集??槭凳笔占镜乜刂破骷觳獾降氖菪畔?;
    S3:所述第二通信??橥ü谝煌ㄐ拍?榻邮账鍪莶杉?槭凳笔占氖菪畔?,并将数据信息上传至所述数据处理???;
    S4:所述数据处理??橹械慕5ピ越邮盏氖菪畔⒔⒒肪衬P?,所述决策单元根据所述环境模型提供最优调度决策。

    8.  根据权利要求7所述的公共自行车调度控制系统的调度方法,其特征在于,所述步骤S3中所述第二通信??橛氲谝煌ㄐ拍?橥ü尴吡?。

    9.  根据权利要求7所述的公共自行车调度控制系统的调度方法,其特征在于,所述步骤S4中建模单元建立环境模型具体包括以下步骤:
    S41:根据各个租赁点的实时数据信息建立自行车租/还状态模型;
    S42:将车辆调度问题建模为一个马尔科夫决策过程模型,对其中的状态、动作、状态转移函数及动作转移函数进行建模;
    S43:建立回报值函数模型;
    S44:建立回报值函数模型中参数的先验模型。

    10.  根据权利要求7所述的公共自行车调度控制系统的调度方法,其特征在于,所述步骤S4中决策单元提供最优调度决策具体为利用基于贝叶斯的强化学习算法求解最优调度策略。

    说明书

    说明书公共自行车调度控制系统及其调度方法
    技术领域
    本发明涉及公共交通技术领域,具体涉及一种公共自行车调度控制系统及其调度方法。
    背景技术
    公共自行车交通系统(Public Bicycle System,PBS)是指由公司在大型居住区、商业中心、交通枢纽、旅游景点等客流集聚地设置公共自行车租赁点,随时为不同的人群提供适于骑行的公共自行车,并根据使用时间的长短征收一定额度费用,以该服务系统和配套的自行车路网为载体,提供公共自行车出行服务的城市交通系统。PBS由公共自行车租赁点、公共自行车、调度中心、运输车辆、运输车辆停车场以及通信系统等组成。作为城市交通的组成部分,PBS能有效解决公交系统“最后一公里”难题,并具有无污染、机动灵活、停放方便、占地面积小等特点。
    自上世纪90年代末,欧美许多国家推出自行车免费租赁服务,在里昂、巴黎、伦敦、纽约、阿姆斯特丹等国际大城市,自行车租赁服务发展迅速。而实施效果也表明,PBS是一种既方便健康,又有益于环境?;?、资源有效利用以及改善城市形象的出行方式。同时,PBS对改善城市道路环境条件、缓解交通压力、促进节能减排都起到了积极的作用。
    2005年,国内首次在上海推出使用PBS。到目前为止,已经建成并投入运营的公共自行车项目有30多个县(市)区:包括江苏省的南京、苏州、无锡、南通、张家港、昆山,浙江省的杭州、台州、绍兴、温岭,广东中山,四川广元,山东青州等。且预计到2015年底,全国启动公共自行车项目的县区市将达 到200个。
    随着公共自行车租赁网点以及投入使用的自行车数量的不断增加,也会引发一系列问题,主要体现在以下几个方面:1)PBS站点的选址问题;2)PBS站点配车数量的问题;3)各个站点之间车辆的调度问题。其中车辆的调度问题为目前最为关注的问题。
    目前国内外针对车辆的调度问题已经进行了一系列的研究,开发了很多针对公共自行车的车辆调度系统,然而现有的车辆调度系统依然存在智能性不够、复杂度高、使用不便、效率低且成本高等诸多不足,不能切实满足实际应用的需要。
    发明内容
    本发明为了克服以上不足,提供了一种能够根据各自行车租赁点的站点之间的实时车辆调度信息,及时提供准确的调度策略,在有效满足市民日常使用的基础上,大大减少车辆调度运输成本的公共自行车调度控制系统及其调度方法。
    为了解决上述技术问题,本发明的技术方案是:一种公共自行车调度控制系统,包括若干本地控制器、若干从控制器和主控制器,每个所述本地控制器实时检测相应租赁点自行车状态的数据信息;每个所述从控制器均包括数据采集??楹陀胨鍪莶杉?榱拥牡谝煌ㄐ拍??,所述数据采集??槭凳笔占镜乜刂破魇凳奔觳獾降氖菪畔?;所述主控制器包括数据处理??楹陀胨鍪荽砟?榱拥牡诙ㄐ拍??,所述第二通信??橛氲谝煌ㄐ拍?槲尴吡?,接收所述数据采集??槭凳笔占氖菪畔?,并将数据信息上传至所述数据处理???,数据处理??榘ń5ピ途霾叩ピ?,所述建模单元对接收的数据信息建立环境模型,所述决策单元根据所述环境模型给出最优调度决策。
    进一步的,所述数据处理??槲狹C13213芯片,所述第二通信??槲狹C52i无线???,所述MC13213芯片与所述MC52i无线??橹渫ü谝淮薪涌谕?nbsp;信。
    进一步的,所述数据采集??槲狹C13213芯片,所述第一通信??槲狹C52i无线???,所述MC13213芯片与所述MC52i无线??橹渫ü谝淮薪涌谕ㄐ?。
    进一步的,所述从控制器还包括电平转换???,所述电平转换??榉直鹩氡镜乜刂破骱蚆C13213芯片连接,实时采集自行车租赁点的数据信息,并将采集的数据信息发送至MC13213芯片。
    进一步的,所述电平转换??槲狹AX232芯片,MAX232芯片其中一端与本地控制器连接,另一端与所述MC13213芯片的第二串行接口连接,将采集的数据信息发送至MC13213芯片。
    进一步的,所述从控制器和所述本地控制器的数量相同。
    本发明还提供一种公共自行车调度控制系统的调度方法,包括以下步骤:
    S1:所述本地控制器实时检测相应租赁点自行车状态的数据信息;
    S2:所述数据采集??槭凳笔占镜乜刂破骷觳獾降氖菪畔?;
    S3:所述第二通信??橥ü谝煌ㄐ拍?榻邮账鍪莶杉?槭凳笔占氖菪畔?,并将数据信息上传至所述数据处理???;
    S4:所述数据处理??橹械慕5ピ越邮盏氖菪畔⒔⒒肪衬P?,所述决策单元根据所述环境模型提供最优调度决策。
    进一步的,所述步骤S3中所述第二通信??橛氲谝煌ㄐ拍?橥ü尴吡?。
    进一步的,所述步骤S4中建模单元建立环境模型具体包括以下步骤:
    S41:根据各个租赁点的实时数据信息建立自行车租、还状态模型;
    S42:将车辆调度问题建模为一个马尔科夫决策过程模型,对其中的状态、动作、状态转移函数及动作转移函数进行建模;
    S43:建立回报值函数模型;
    S44:建立回报值函数模型中参数的先验模型;
    进一步的,所述步骤S4中决策单元提供最优调度决策具体为利用基于贝叶 斯的强化学习算法求解最优调度策略。
    本发明提供的公共自行车调度控制系统及其调度方法,通过设置建模单元对接收的数据信息建立环境模型,并通过决策单元提供最优调度策略,调度控制系统实时与租赁点的自行车租/还状态数据信息智能交互,不需要人工提供学习样本,利用基于贝叶斯的强化学习算法在线学习最优调度策略;此外,当租赁点自行车的租/还状态发生变化时,该调度控制系统可根据环境的变化动态修正最优调度策略,不仅有效满足市民日常的使用,而且大大减少车辆调度的运输成本,切实满足实际需要。
    附图说明
    图1是本 发明公共自行车调度控制系统的结构示意图;
    图2是本 发明公共自行车调度控制系统的从控制器结构示意图;
    图3是本 发明公共自行车调度控制系统的主控制器结构示意图;
    图4是本 发明公共自行车调度控制系统的从控制器一实施例的结构示意图;
    图5是本 发明公共自行车调度控制系统的主控制器一实施例的结构示意图;
    图6是本 发明公共自行车调度控制系统的调度方法流程图。
    图中所示:1、本地控制器;2、从控制器;21、数据采集???;22、第一通信???;3、主控制器;31、数据处理???;311、建模单元;312、决策单元;32、第二通信???;4、租赁点。
    具体实施方式
    下面结合附图对本发明作详细描述:
    如图1所示,本发明提供一种公共自行车调度控制系统,包括若干本地控制器1、若干从控制器2和主控制器3。
    每个本地控制器1实时检测相应租赁点4内自行车的状态信息,具体的,每个租赁点4对应一个本地控制器1,其实时检测该租赁点4所有自行车的租/还状态信息。 
    如图2所示,每个从控制器2均包括数据采集???1和与数据采集???1连接的第一通信???2,数据采集???1实时收集本地控制器1实时检测到的数据信息,优选的,从控制器2的数量与本地控制器1以及租赁点4的数量一致,即每个从控制器2的数据采集???1通过本地控制器1实时收集一个对应租赁点4的自行车租/还状态信息。
    如图3所示,主控制器3包括数据处理???1和与数据处理???1连接的第二通信???2,第二通信???2与第一通信???2无线连接,接收数据采集???1实时收集的数据信息,并将数据信息上传至数据处理???1,数据处理??榘ń5ピ?11和决策单元312,建模单元311对接收的数据信息建立环境模型,决策单元312根据建模单元311建立的环境模型给出最优调度决策;具体的,建模单元311根据租赁点的自行车租/还状态的实时数据信息建立马尔科夫决策过程模型环境模型,并对该模型中的状态、动作、状态转移函数及动作转移函数进行建模,此外在该马尔科夫决策过程模型的基础上建立回报值函数模型及回报值函数模型中参数的先验模型;决策单元312根据建模单元311建立的上述环境模型利用基于贝叶斯的强化学习算法求解最优调度策略,此外,当租赁点自行车的租/还状态发生变化时,决策单元312根据环境的变化动态修正最优调度策略,不仅有效满足市民日常的使用,而且大大减少车辆调度的运输成本,切实满足实际需要。
    如图4所示,数据处理???1为MC13213芯片,MC13213芯片为飞思卡尔公司一款低功耗低成本芯片,集成了8位CPU、片上RAM、FLASH等硬件单元,主要包括建模单元311和决策单元312的功能???,分别用于环境模型的建立和最优调度策略的提供。第二通信???2为MC52i无线???,MC52i是西门子的一款GPRS通信???,支持AT指令集,MC13213芯片与MC52i无 线??橹渫ü谝淮薪涌谕ㄐ?,通过MC52i无线???。具体的,通过MC52i无线??槭凳苯邮崭鞲龃涌刂破?收集的各个自行车租赁点4的公共自行车的租还状态数据,根据实时状态数据构建马尔科夫决策过程模型,并通过贝叶斯强化学习方法求解最优调度策略,将最优调度策略用于各自行车租赁点4之间车辆的移动;此外MC13213芯片还与电源电路连接,为其正常工作供电。
    如图5所示,数据采集???1为MC13213芯片,第一通信???2为MC52i无线???,MC13213芯片与MC52i无线??橹渫ü谝淮薪涌谕ㄐ?;优选的,从控制器2还包括电平转换???3,电平转换???3分别与本地控制器1和MC13213芯片连接,实时采集自行车租赁点4的数据信息,并将采集的数据信息发送至MC13213芯片,优选的,电平转换???3为MAX232芯片,MAX232芯片的一端与本地控制器1连接,另一端与MC13213芯片的第二串行接口连接,将采集的数据信息发送至MC13213芯片。
    本发明还提供一种公共自行车调度控制系统的调度方法,如图6所示,包括以下步骤:
    S1:本地控制器1实时检测相应租赁点4自行车状态的数据信息,具体的,每个租赁点4对应一个本地控制器1,用于实时检测该租赁点4所有自行车的租/还状态信息。
    S2:数据采集???1实时收集本地控制器1检测到的数据信息,从控制器2的数量与本地控制器1以及租赁点4的数量一致,即每个从控制器2的数据采集???1通过本地控制器1实时收集一个对应租赁点4的自行车租/还状态信息。 
    S3:第二通信???2通过第一通信???2接收数据采集???1实时收集的数据信息,并将数据信息上传至数据处理???1;具体的,第二通信???2与第一通信???2均为MC52i无线???,两者通过无线网络进行通信。
    S4:数据处理???1中的建模单元311对接收的数据信息建立环境模型, 决策单元312根据建模单元311建立的环境模型提供最优调度决策。其中建模单元311建立环境模型具体包括以下步骤:
    S41:根据各个租赁点4的实时数据信息建立自行车租、还状态模型,具体为:
    a)首先利用泊松分布来拟合各站点车辆的租还状态模型:
    P(n)=ϵnn!e-ϵ---(1)]]>
    其中n是任一租赁点一天内的租车/还车的数量,ε是租车/还车数量的期望值。
    b)根据任一租赁点每天的租车/还车情况的采样值,利用交叉熵方法调整其中的参数ε,获得更为准确的租、还状态模型。
    S42:将车辆调度问题建模为一个马尔科夫决策过程模型,对其中的状态、动作、状态转移函数及动作转移函数进行建模,具体为:
    c)首先利用泊松分布来拟合各站点车辆的租/还状态模型: 
    P(n)=ϵnn!e-ϵ---(1)]]>
    其中n是任一租赁点一天内的租车/还车的数量,ε是租车/还车数量的期望值。
    d)根据任一租赁点每天的租车/还车情况的采样值,利用交叉熵方法调整其中的参数ε,获得更为准确的租/还状态模型。
    S42:将车辆调度问题建模为一个马尔科夫决策过程模型,对其中的状态、动作、状态转移函数及动作转移函数进行建模,具体为:
    a)状态,用s表示。设G={1,2,3,…,m}为所有租赁点的集合,其中m为租赁点的数量;V={1,2,…,k}是任一租赁点自行车的集合,其中k是最大自行车的数量;则第i个租赁点额定的自行车数量为实际自行车数量为vi,最大自行车数量为其中vi<vimax,vi~<vimax,vimax&Element;V.]]>则状态可以表示为:
    s=(v1,v2,…,vm)   (2)
    b)动作,用a表示。动作可以表示为各租赁点之间的调度车辆数量,为了方便描述,本实施例中规定车辆只能在先后相邻两个站点之间调动(当然,也可以定义其他调度顺序)。如,目前有4个租赁点,目前的调度方案是,从第1个租赁点调10辆车到第3个租赁点,且从第1个租赁点调用12辆车到第4个租赁点。动作的调整方案可以定义为,先从第一个租赁点调22辆车到第2个租赁点,然后从第2个租赁点调22辆车到第3个租赁点,然后再从第3个调度点调12辆车到第4个租赁点。当然,这只是逻辑上的表示方法,在实际中可以认为存在一个调度车每次从第一个租赁点一次巡回到最后一个租赁点,并完成调度。设从第i个租赁点到第j个租赁点的调度车辆为ri,j,其中则动作可以表示为:
    a=(r1,2,r2,3,r3,4,…,rm-1,m,rm,1)     (3) 
    c)状态转移函数,用f表示。假设当前状态s的动作为:a=(r1,2,r2,3,r3,4,…,rn-1,n,rn,1);所有站点的车辆租还情况分别为:{n1,n2,…,nm}和{n1',n'2,,…,n'm},其中对于任一租赁点j,nj为当天的租车数量,n'j为当天的还车数量。则状态转移函数可以表示为:
    f:st+1←st+(rm,1,r1,2,…,rm-1,m)-(n1,n2,…,nm)+(n′1,n′1,…,n'm)   (4) 
    d)立即奖赏函数,用ρ表示。设对各个租赁点之间进行一次调度的固定费用是C;两个租赁点的调度r辆车的费用与两个租赁点之间的距离成正比,即r*h,其中h表示两个租赁点之间的距离;每租用一辆车的收益是x。则相应的立即奖赏函数可以表示为:
    ρ=-C-Σi=1m-1ri,i+1*hi,i+1-rm,1*hm,1+Σi=1mni*x---(5)]]>
    其中ri,i+1表示第i个租赁点到第i+1个租赁点的调度车辆;hi,i+1表示第i个租赁点到第i+1个租赁点之间的距离;ni为第i个租赁点的租车数量。
    S43:建模单元建立回报值函数模型,具体为:
    设R(s,a)表示在状态s下采用动作a的回报值,且满足以下等式:
    R(s,a)=Σt=0γtρ(st,at)---(6)]]>
    上式中,t是指第t时刻,st、at分别表示第t时刻的状态和采用的动作,γ是折扣因子,通常设置为0.9。
    值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。且R(s,a)服从高斯分布假设,即R(s,a)的概率Pr(R(s,a))满足:
    Pr(R(s,a))~N(us,a,τs,a)   (7)
    其中us,a是R(s,a)的均值,即Q(s,a)=E[R(s,a)]=us,a;τs,a是精度,且是方差。
    S44:建模单元建立回报值函数模型中参数的先验模型,具体为:
    a)R(s,a)的先验服从高斯伽马分布,即Pr(us,a,τs,a)满足高斯伽马分布,即:
    Pr(us,a,τs,a)~NG(u0,λ,α,β)   (8)
    其中,u0,λ,α,β分别为初始参数,在初始化时任意指定。
    b)当Pr(us,a,τs,a)~NG(u0,λ,α,β),且r1,r2,…,rn是n个关于R(s,a)的独立样本。令
    M1=1nΣiri,M2=1nΣiri2.]]>则:
    Pr(us,a,τs,a|r1,r2,…,rn)~NG(u'0,λ',α',β')   (9)
    其中u0=λu0+nM1λ+n,]]>λ′=λ+n,α=α+12n,β=β+12n(M2-M12)+(M1-u0)22(λ+n).]]>
    决策单元312提供最优调度决策的具体为:
    S45:利用基于贝叶斯的强化学习算法求解最优调度策略,具体为:
    在算法执行过程中,主要考虑两个问题——动作选择方法与值函数更新策略。
    a)基于信息价值增益(value of perfect information,VPI)的动作选择方 法。主要考虑两种情况:(1)通过探索动作发现,之前的非最优动作优于当前的最优动作;(2)通过探索动作发现,当前的最优动作劣于当前的次优动作。
    对于第一种情况,假设a1是最优动作,即对于任意a'≠a1,都存在 假设新知识显示a是更优的动作,即则给予一定的额外奖赏g,即g=us,a-E[us,a1].]]>
    对于第二种情况,假设a1是最优动作,即对于任意a'≠a1,都存在 且a2是次优动作。假设新知识显示a1不再是最优动作,即 则给予一定的额外奖赏g,即
    以上两种情况可以表示为:

    根据参数u所服从的先验分布,计算当前动作的信息价值增益VPI,即:
    VPI(s,a)=&Integral;-gs,a(x)Pr(us,a=x)dx---(11)]]>
    以上积分等式分为以下两种情况:
    (1)当a=a1时,VPI(s,a)=c+(E[us,a2]-E[us,a1]*Pr(us,a1<E[us,a2]);]]>
    (2)当a≠a1时,VPI(s,a)=c+(E[us,a]-E[us,a1]*Pr(us,a<E[us,a2]).]]>
    其中:
    c=αs,aΓ(αs,a+12)βs,a(αs,a-12)Γ(αs,a)Γ(12)αs,a2λs,a(1+E2[us,a]2αs,a)-αs,a+12---(12)]]>
    式中,αs,a、βs,a分别为状态s下采用动作a的参数值。 
    因此,调度过程中选择的动作a需要满足以下条件:
    a=argmaxa(E[Q(s,a)]+VPI(s,a))   (13)
    b)值函数更新方法。由于Q(s,a)=us,a,因此,需要更新us,a;又因为Pr(us,a,τs,a)满足高斯伽马分布,因此,只需要根据式(9)更新高斯伽马分布中的参数u0,λ,α,β。
    假设当前的立即奖赏为ρ,且从高斯分布中随机取出第t个租赁点n个后续状态的样本回报值根据贝尔曼公式:
    Q(s,a)=E[ρ(s,a)+γQ(s',a')]   (14) 
    其中表示第i个后续状态的样本回报值,i∈{1,2,...n},s'、a'分别表示s、a的下一时刻的状态及动作,γ表示折扣因子,通常设置为0.9。
    根据上式(14)更新n个后续Pr(Rs,a)的样本值为且M1,M2为别为:
    M1=E[r+γRt]=r+γE[Rt]   (15) 
    M2=E[(r+γRt)2]=r2+2γrE[Rt]+γ2E[Rt2]---(16)]]>
    又因为Pr(Rt)~N(u,τ),且Pr(u,τ)~NG(u0,λ,α,β),则E[Rt]=u0,根据式(9)可以更新u0,λ,α,β。
    c)贝叶斯强化学习算法的步骤具体为:
    1)初始化参数u0,λ,α,β的值,u0,λ,α,β可以任意取值;
    2)根据基于信息价值增益的动作选择方法,即式(13)选择动作a;
    3)根据式(10)获取后续状态及相应的立即奖赏g;
    4)根据式(15)、(16)计算M1,M2;
    5)根据式(9)更新u'0,λ',α',β'的值;
    6)当|u'0-u0|<θ(θ是任意小的值),算法停止,当前选择的动作a即为最优调度策略;否则,转到(2)。
    综上所述,本发明提供的公共自行车调度控制系统及其调度方法,通过设置建模单元311对接收的数据信息建立环境模型,并通过决策单元312提供最优调度策略,调度控制系统实时与租赁点4的自行车租/还状态数据信息智能交互,不需要人工提供学习样本,利用基于贝叶斯的强化学习算法在线学习最优调度策略;此外,当租赁点4自行车的租/还状态发生变化时,该调度控制系统可根据环境的变化动态修正最优调度策略,不仅有效满足市民日常的使用,而 且大大减少车辆调度的运输成本,切实满足实际需要。
    虽然说明书中对本发明的实施方式进行了说明,但这些实施方式只是作为提示,不应限定本发明的?;し段?。在不脱离本发明宗旨的范围内进行各种省略、置换和变更均应包含在本发明的?;し段?。

    关 键 词:
    公共 自行车 调度 控制系统 及其 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:公共自行车调度控制系统及其调度方法.pdf
    链接地址://www.4mum.com.cn/p-5890600.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03