马尔可夫决策过程论文_宋佳翰,李婧娇,皮杰,欧阳宗帅,王海鸣

导读:本文包含了马尔可夫决策过程论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:马尔,过程,可夫,轨迹,检查点,策略,快件。

马尔可夫决策过程论文文献综述

宋佳翰,李婧娇,皮杰,欧阳宗帅,王海鸣[1](2019)在《基于马尔可夫决策过程的变电站网络安全攻防策略》一文中研究指出考虑到在越来越复杂的网络安全环境中变电站的防御能力对于维持电网安全稳定运行具有重要意义,文章提出了一种基于马尔可夫决策过程(Markov decision process,MDP)的变电站网络攻/防策略建模方法。首先,介绍了网络攻击的详细步骤并深入分析了成功入侵变电站的可能路径。然后,基于此,分别从攻击者和防御者的视角建立了网络攻击成功的概率模型。最后,在考虑了目标变电站特性的基础上,利用马尔可夫决策过程建模求解攻/防双方的最优行动策略。该方法综合考虑了目标变电站的关键特性、攻/防双方的技术能力,为攻/防双方在电力信息物理系统(cyber-physical systems,CPS)网络安全场景设计中的行为选择提供了理论依据。(本文来源于《电力建设》期刊2019年10期)

楼振凯,楼旭明,侯福均[2](2019)在《具有风险厌恶型决策者的有限阶段马尔可夫决策过程》一文中研究指出【目的】在分析了期望最大化准则无法控制方差的局限性的基础上,考虑具有风险厌恶型决策人的有限阶段马尔可夫决策过程,为风险厌恶决策者提供决策方法。【方法】建立了悲观准则下有限阶段马尔可夫决策过程的数学模型,并基于动态规划原理和同向不等号相加的保号性给出了向后递推算法。【结果】得到了每个阶段所有可能状态的最优策略和到阶段结束至少可获得的报酬,并证明所得到的最优策略矩阵满足风险厌恶型决策者的要求。然后,针对连续性策略、成本最小化和风险偏好型决策者等情形下有限阶段马氏过程最优策略的求解进行了一些理论延伸。【结论】给出了一个叁阶段马尔可夫过程的算例分析,验证了所提出的模型。(本文来源于《重庆师范大学学报(自然科学版)》期刊2019年05期)

刘俊君,杜艮魁[3](2019)在《基于马尔可夫决策过程的群体动画运动轨迹生成》一文中研究指出近些年来,群体动画在机器人学、电影、游戏等领域得到了广泛的研究和应用,但传统的群体动画技术均涉及复杂的运动规划或碰撞避免操作,计算效率较低.本文提出了一种基于马尔可夫决策过程(MDPs)的群体动画运动轨迹生成算法,该算法无需碰撞检测即可生成各智能体的无碰撞运动轨迹.同时本文还提出了一种改进的值迭代算法用于求解马尔可夫决策过程的状态-值,利用该算法在栅格环境中进行实验,结果表明该算法的计算效率明显高于使用欧氏距离作为启发式的值迭代算法和Dijkstra算法.利用本文提出的运动轨迹生成算法在叁维(3D)动画场景中进行群体动画仿真实验,结果表明该算法可实现群体无碰撞地朝向目标运动,并具有多样性.(本文来源于《计算机系统应用》期刊2019年07期)

李浩楠[4](2019)在《基于马尔可夫决策过程的多模式城市交通网络优化路径决策研究》一文中研究指出随着城市经济的发展,城市居民职住分离的现象不断加剧,出行需求也随之不断增加。轨道交通由于其载客量大、速度高、准时性高的特点,成为了担负大中城市出行客流的首要方式。因此,轨道交通、公交车、出租车、自行车与步行等出行方式共同构成了多模式城市交通网络。然而,多模式城市交通网络在为出行者提供更多出行选择的同时也会受到交通流量与突发事件等不确定因素的干扰,从而影响多模式城市交通网络的路径决策。基于此背景,本文针对不确定条件下的多模式城市交通网络出行路径决策问题进行研究。本文简要介绍了路径决策规划的相关理论知识,分析了多模式城市交通的出行特征,建立了多模式城市交通超网络模型。由于马尔可夫决策过程具有随机特性,在进行决策时可以考虑到事物的不同状态,因此本文提出了利用马尔可夫决策过程来解决多模式交通网络的路径选择问题,通过综合分析影响出行者出行选择的因素,构建了基于马尔可夫决策方法的路径决策模型,设计了算法,并用实例验证了提出模型和算法的可行性。本文的主要工作内容如下。首先,考虑到出行中的出行时间会受交通流量等因素的影响而导致出行不确定性,本文将不同的交通网络运行状态进行划分,建立考虑不同交通状态的以总出行时间最小为目标的路径决策模型,并利用马尔可夫决策过程方法进行求解。同时,根据多模式城市交通网络的实际运行情况,模型中还考虑了不同模式间换乘产生的换乘步行时间和候车等待时间。其次,为了进一步完善模型的实用性,本文对影响出行者出行决策的因素进行分析,建立了包含出行时间和出行成本的以最小广义出行成本为目标的路径决策模型,并设计了算法。接着,本文继续探讨了两种因素对不同出行群体出行选择的影响,利用线性加权法描述了不同群体的出行选择。最后,为了验证基于马尔可夫决策过程的路径决策模型的有效性,本文以北京的多模式城市交通网络为实例对出行者进行路径规划。结果显示,不同出行状态下的出行决策结果存在差异,利用马尔可夫决策方法可以为出行者提供更加稳健的路径规划方案,提出的模型和算法是有效的。本文着重从理论上研究了多模式城市交通网络路径决策模型,涉及到包含轨道交通,常规公交,步行,自行车和出租车在内的多种出行方式。通过将交通状态这一因素引入路径决策模型,为该领域的理论研究提出了新的探讨空间。提出的基于马尔可夫决策过程的模型和算法具有一定的实用性,可以为智能交通系统的发展提供理论层面的参考。(本文来源于《北京交通大学》期刊2019-06-05)

唐国华,孟丁[5](2019)在《基于马尔可夫决策过程的农村公路养护资金优化配置研究》一文中研究指出解决农村公路养护资金的短缺问题,一方面需要"开源",即拓宽筹资渠道;另一方面还需要"节流",即需优化配置养护资金的支出。目前养护资金的支出采用的是一种经验型决策模式,受主观因素影响较大,缺乏决策的科学依据,造成了资金的严重浪费。基于马尔可夫决策过程来优化农村公路养护资金的支出,以包含决策机会成本的养护综合费用最小化为目标,求解最优养护策略,同时比较交通量不同情况下养护策略的差异,为实现养护决策的优化提供科学依据。(本文来源于《公路》期刊2019年01期)

潘胤吉,邱晓燕,吴甲武,肖建康[6](2018)在《基于马尔可夫决策过程的电动汽车充电行为分析》一文中研究指出针对电动汽车充电行为不确定性问题,建立了基于出行链理论的电动汽车出行及电池电量变化模型,提出了引入马尔可夫决策过程(Markov decision processes,MDP)的电动汽车用户充电行为分析方法。该方法将用户充电行为作为马尔可夫决策集,根据车辆在各区域间的转移概率构造状态转移矩阵,设置用户满意度指标作为决策过程报酬函数,通过求解有限阶段总报酬准则得到电动汽车用户在每个决策点处的最优充电决策。算例部分根据抽取电动汽车特征量数据进行马尔可夫决策过程仿真,得出充电负荷的时间与空间分布情况,通过与传统蒙特卡洛方法进行对比表明该文所提方法可以较好地模拟用户整个出行过程中的充电行为,反映充电需求的时空分布特点;同时,分析了不同区域、不同停车时长情况下电动汽车的不同充电行为,能够为电动汽车充电桩的规划建设提供参考。(本文来源于《电力建设》期刊2018年07期)

毛江云,吴昊,孙未未[7](2018)在《路网空间下基于马尔可夫决策过程的异常车辆轨迹检测算法》一文中研究指出随着Internet、移动通信、空间定位和LBS技术的发展,越来越多的车辆轨迹被收集,如何从大量的车辆轨迹中高效检测出异常轨迹逐渐引起人们的关注.研究人员提出了许多针对车辆轨迹的异常检测方案,从采用的算法来划分,这些方案被分为叁类:基于度量的算法、基于统计的算法和基于监督与半监督学习的算法.叁类算法都各自存在不足:第一类的计算量随轨迹数据量的增长而增长,对异常特征的刻画不完整;第二类严重依赖历史数据,因此没有办法解决轨迹稀疏问题;第叁类需要大量的人工标注.该文提出了一套路网空间下基于马尔可夫决策过程的异常车辆轨迹检测算法,该算法总共分为预处理、离线训练和在线检测叁个阶段.预处理阶段采用了隐马尔可夫地图匹配算法作为核心,将原出租车轨迹转化为由路网空间中路段边序列表示的轨迹集合.离线训练阶段采用了马尔可夫决策过程模型对车辆驾驶行为进行建模,深入讨论了模型中路段奖励函数的设计规则,并提出采用无监督的贝叶斯反向增强学习算法配合蒙特卡洛采样算法训练历史车辆轨迹数据学习得到模型参数.在线检测阶段中,实时计算待检测的轨迹的异常度,通过用户指定的异常度阈值判断该轨迹是否为异常车辆轨迹.最后,在真实数据集上进行实验,同时实现了iBOAT算法和MEX算法,并作为对比算法.正确性实验中,该算法在NDCG评测指标中达到了99.3%的正确率;在算法的运行时间上,该算法的单条轨迹在线检测时间能够做到仅耗时0.012ms,较已有算法提升百倍到千倍的效率.在稀疏数据下进行结果正确性实验,在对比算法的效果严重受影响的情况下,该算法依然展现出很强的鲁棒性.在样例分析中可以看到通过该算法计算得到的路段奖励函数数值和对真实驾驶行为的评估高度一致.(本文来源于《计算机学报》期刊2018年08期)

李萌,司鹏搏,孙恩昌,张延华[8](2017)在《基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配》一文中研究指出研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。(本文来源于《高技术通讯》期刊2017年03期)

张红旗,邵晓东,胡祥涛[9](2016)在《基于部分可观察马尔可夫决策过程的机电装备动态可靠性评价方法》一文中研究指出针对机电装备运行维护问题,提出了基于部分可观察马尔可夫决策过程(POMDP)理论的动态可靠性评价方法。该方法将可靠性动态演变看成POMDP问题,通过不完全观测到的设备运行信息(如噪声、温度、压力等),对可靠性状态进行估计,同时分析不同的维修行为对可靠性水平的影响规律,构建了基于状态转移的动态可靠性评价模型。然后,提出了以最小化维修成本费用和潜在故障危害为目标的维护策略制定方法,并通过案例分析验证了该方法的有效性,实现了机电装备动态可靠性的有效评价与维护策略的科学制订。(本文来源于《中国机械工程》期刊2016年18期)

林茵[10](2016)在《基于马尔可夫决策过程的快件质量检查点研究》一文中研究指出随着快递行业不断的发展和成熟,快件时效逐渐逼近极限,消费者对于快件质量的重视程度越来越高,如何保障及提高快件质量已经成为快递企业面临的重要问题。然而,由于快件的保密性,快递企业一般仅能通过外包装来推断内部托寄物状态,并采取事后统计的管理方式,难以及时有效地保障快件质量。以往的研究也主要集中在快递服务质量评价与改进方面,对于在快递流程之中进行快件质量控制的研究很少。快递流程与生产过程有着相似之处,快件在不同环节中的状态是在动态变化的。因此,本文借鉴生产系统中的质量检测思想,综合考虑各成本因素,探究快递流程中质量检查点的最优设置,以对快件质量进行事中控制。首先,本文收集整理了某快递企业的服务质量问题资料,从操作类、逾期类、遗失类和损坏类四个方面对其进行统计与分析。研究发现,为保证内部托寄物不受损坏,在快递流程中加强外部包装的检查和修补是十分重要的。然后,本文以部分单向快递网络作为研究对象,在一定的假设条件下,建立离散时间的有限阶段马尔可夫决策过程模型。其中,快件的状态集合通过外部包装和内部托寄物的损坏与否确定;决策集合为系统在某环节是否设置检查点;状态转移概率族为不同决策条件下的状态转移概率矩阵;成本参数包括检查成本、包装补救成本、运输成本以及内部托寄物损坏导致的惩罚成本。以系统总成本最小为目标,探究应该如何在快递流程中合理地设置质量检查点。最后,本文利用MATLAB软件进行编程求解,包括最优检查序列、系统总成本以及快件在各个环节中各个状态所占的比例等。探究了在一定条件下,状态转移概率、备选检查点数量以及惩罚成本变化对节约系统总成本和减少内部托寄物损坏的影响。整体研究结果表明,在快递流程中合理的设置检查点既可以达成节约系统总成本或者满足极端条件下系统总成本增加很小的目标,又能够有效地提高快件质量,从而综合提高快递服务水平。本文的研究可以为快递企业解决快件质量问题提供一个新的尝试,也是对现有快递服务质量研究内容与方法的扩展和创新。(本文来源于《北京交通大学》期刊2016-04-12)

马尔可夫决策过程论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

【目的】在分析了期望最大化准则无法控制方差的局限性的基础上,考虑具有风险厌恶型决策人的有限阶段马尔可夫决策过程,为风险厌恶决策者提供决策方法。【方法】建立了悲观准则下有限阶段马尔可夫决策过程的数学模型,并基于动态规划原理和同向不等号相加的保号性给出了向后递推算法。【结果】得到了每个阶段所有可能状态的最优策略和到阶段结束至少可获得的报酬,并证明所得到的最优策略矩阵满足风险厌恶型决策者的要求。然后,针对连续性策略、成本最小化和风险偏好型决策者等情形下有限阶段马氏过程最优策略的求解进行了一些理论延伸。【结论】给出了一个叁阶段马尔可夫过程的算例分析,验证了所提出的模型。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

马尔可夫决策过程论文参考文献

[1].宋佳翰,李婧娇,皮杰,欧阳宗帅,王海鸣.基于马尔可夫决策过程的变电站网络安全攻防策略[J].电力建设.2019

[2].楼振凯,楼旭明,侯福均.具有风险厌恶型决策者的有限阶段马尔可夫决策过程[J].重庆师范大学学报(自然科学版).2019

[3].刘俊君,杜艮魁.基于马尔可夫决策过程的群体动画运动轨迹生成[J].计算机系统应用.2019

[4].李浩楠.基于马尔可夫决策过程的多模式城市交通网络优化路径决策研究[D].北京交通大学.2019

[5].唐国华,孟丁.基于马尔可夫决策过程的农村公路养护资金优化配置研究[J].公路.2019

[6].潘胤吉,邱晓燕,吴甲武,肖建康.基于马尔可夫决策过程的电动汽车充电行为分析[J].电力建设.2018

[7].毛江云,吴昊,孙未未.路网空间下基于马尔可夫决策过程的异常车辆轨迹检测算法[J].计算机学报.2018

[8].李萌,司鹏搏,孙恩昌,张延华.基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配[J].高技术通讯.2017

[9].张红旗,邵晓东,胡祥涛.基于部分可观察马尔可夫决策过程的机电装备动态可靠性评价方法[J].中国机械工程.2016

[10].林茵.基于马尔可夫决策过程的快件质量检查点研究[D].北京交通大学.2016

论文知识图

两站叁缓冲区封闭式可重入生产系统的...:部分可观测马尔可夫决策过程4-2强化学习MDP数学模型将本文...电影推荐马尔可夫决策过程图马尔可夫决策过程中的智能体-环...马尔可夫决策过程下agent环境交...

标签:;  ;  ;  ;  ;  ;  ;  

马尔可夫决策过程论文_宋佳翰,李婧娇,皮杰,欧阳宗帅,王海鸣
下载Doc文档

猜你喜欢