期刊文献+
共找到129篇文章
< 1 2 7 >
每页显示 20 50 100
基于深度强化学习的交通信号控制方法 预览
1
作者 孙浩 陈春林 +1 位作者 刘琼 赵佳宝 《计算机科学》 CSCD 北大核心 2020年第2期169-174,共6页
交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实... 交通信号的智能控制是智能交通研究中的热点问题。为更加及时有效地自适应协调交通,文中提出了一种基于分布式深度强化学习的交通信号控制模型,采用深度神经网络框架,利用目标网络、双Q网络、价值分布提升模型表现。将交叉路口的高维实时交通信息离散化建模并与相应车道上的等待时间、队列长度、延迟时间、相位信息等整合作为状态输入,在对相位序列及动作、奖励做出恰当定义的基础上,在线学习交通信号的控制策略,实现交通信号Agent的自适应控制。为验证所提算法,在SUMO(Simulation of Urban Mobility)中相同设置下,将其与3种典型的深度强化学习算法进行对比。实验结果表明,基于分布式的深度强化学习算法在交通信号Agent的控制中具有更好的效率和鲁棒性,且在交叉路口车辆的平均延迟、行驶时间、队列长度、等待时间等方面具有更好的性能表现。 展开更多
关键词 智能交通 交通信号控制 深度强化学习 分布式强化学习
在线阅读 免费下载
基于深度强化学习的无人机着陆轨迹跟踪控制 预览
2
作者 宋欣屿 王英勋 +3 位作者 蔡志浩 赵江 陈小龙 宋栋梁 《航空科学技术》 2020年第1期68-75,共8页
本文针对固定翼无人机自主着陆控制问题,提出了基于深度强化学习(DRL)的无人机着陆轨迹跟踪控制方法。首先,搭建了小型固定翼无人机Ultra Stick 25E的仿真模型,设计了满足过程和终端约束的着陆参考轨迹。其次,提出了基于深度确定性策略... 本文针对固定翼无人机自主着陆控制问题,提出了基于深度强化学习(DRL)的无人机着陆轨迹跟踪控制方法。首先,搭建了小型固定翼无人机Ultra Stick 25E的仿真模型,设计了满足过程和终端约束的着陆参考轨迹。其次,提出了基于深度确定性策略梯度(DDPG)的无人机一体化控制框架,设计了考虑跟踪误差和轨迹平稳性的奖励函数。最后,通过离线训练,得到了轨迹跟踪一体化控制器。仿真试验结果表明,本文提出的方法比传统PID控制方法精度更高。 展开更多
关键词 固定翼无人机 自主着陆 轨迹跟踪控制 深度强化学习 深度确定性策略梯度
在线阅读 下载PDF
基于分层学习的四足机器人运动自适应控制模型 预览
3
作者 崔俊文 刘自红 +2 位作者 石磊 刘福强 乐玉 《计算机测量与控制》 2020年第1期105-110,共6页
针对四足机器人面对腿部损伤无法继续有效自主运作的问题,提出一种基于分层学习的自适应控制模型;该模型结构由上层状态策略控制器(SDC)和下层基础运动控制器(BDC)组成;SDC对机器人腿部及姿态进行决策并选择运动子策略,BDC子运动策略表... 针对四足机器人面对腿部损伤无法继续有效自主运作的问题,提出一种基于分层学习的自适应控制模型;该模型结构由上层状态策略控制器(SDC)和下层基础运动控制器(BDC)组成;SDC对机器人腿部及姿态进行决策并选择运动子策略,BDC子运动策略表达该状态下机器人的运动行为;在Unity3D中构建反关节多自由度的四足机器人,训练多种腿部受损状况的BDC子运动策略,BDC成熟后20s周期随机腿部受损并训练SDC;该模型控制流程为SDC监测机器人状态,激活BDC策略,BDC输出期望关节角度,最后由PD控制器进行速度控制;其实现机器人在腿部受损后自我适应继续保持运作;仿真与实验结果表明,该控制模型能在机器人损伤后能自我快速、稳定调整运动策略,并保证运动的连贯性及柔和性。 展开更多
关键词 分层学习 深度强化学习 四足机器人 部分马尔可夫决策 步态控制 机构失效
在线阅读 下载PDF
面向轨迹规划的深度强化学习奖励函数设计 预览
4
作者 李跃 邵振洲 +2 位作者 赵振东 施智平 关永 《计算机工程与应用》 CSCD 北大核心 2020年第2期226-232,共7页
现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无... 现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化(DPPO)首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。 展开更多
关键词 深度强化学习 机械臂 轨迹规划 方位奖励函数
在线阅读 下载PDF
基于深度强化学习的交通信号灯控制 预览
5
作者 陈树德 彭佳汉 +1 位作者 高旭 赖晓晨 《现代计算机》 2020年第3期34-38,共5页
交通问题具有非线性,不确定性的特征,传统算法往往难以取得较好的效果。深度学习模型在处理非线性、时序性的数据上拥有良好的表现。由此,提出一种基于深度强化学习的信号灯控制系统。该系统包括了几个部分:1)使用实时的交通数据或仿真... 交通问题具有非线性,不确定性的特征,传统算法往往难以取得较好的效果。深度学习模型在处理非线性、时序性的数据上拥有良好的表现。由此,提出一种基于深度强化学习的信号灯控制系统。该系统包括了几个部分:1)使用实时的交通数据或仿真环境产生数据;2)通过LSTM循环神经网络预测未来的交通信息;3)使用DDPG深度强化学习模型进行决策。在多个数据集上的实验验证算法的优越性及泛化能力。 展开更多
关键词 预测交通状态 优化信号灯时间 深度强化学习 循环神经网络
在线阅读 免费下载
解决深度探索问题的贝叶斯深度强化学习算法 预览
6
作者 杨珉 汪洁 《计算机科学与探索》 CSCD 北大核心 2020年第2期307-316,共10页
在强化学习领域,如何平衡探索与利用之间的关系是一个难题。近几年提出的强化学习方法主要关注如何结合深度学习技术来提高算法的泛化能力,却忽略探索利用困境这一问题。传统的强化学习方法可以有效解决探索问题,但存在着一定的限制条件... 在强化学习领域,如何平衡探索与利用之间的关系是一个难题。近几年提出的强化学习方法主要关注如何结合深度学习技术来提高算法的泛化能力,却忽略探索利用困境这一问题。传统的强化学习方法可以有效解决探索问题,但存在着一定的限制条件:马尔可夫决策过程的状态空间必须是离散并有限的。提出通过贝叶斯方法来提高深度强化算法的探索效率,并将贝叶斯线性回归中计算参数后验分布的方法扩展到人工神经网络等非线性模型中,通过结合Bootstrapped DQN和提出的计算方法得到了贝叶斯自举深度Q网络算法(BBDQN)。最后用两个环境下的实验表明了BBDQN在面对深度探索问题时的探索效率要优于DQN以及Bootstrapped DQN。 展开更多
关键词 深度强化学习 探索与利用 贝叶斯定理
在线阅读 下载PDF
基于深度强化学习的智能博弈对抗关键技术 预览
7
作者 曹雷 《指挥信息系统与技术》 2019年第5期1-7,共7页
阐述了军事智能博弈对抗的发展需求和概念内涵,分析了基于强化学习的博弈对抗特点,并针对智能博弈对抗过程存在的问题,提出了基于深度逆向强化学习、多智能体强化学习、分层强化学习及元深度强化学习等手段的应用模式,展望了智能博弈对... 阐述了军事智能博弈对抗的发展需求和概念内涵,分析了基于强化学习的博弈对抗特点,并针对智能博弈对抗过程存在的问题,提出了基于深度逆向强化学习、多智能体强化学习、分层强化学习及元深度强化学习等手段的应用模式,展望了智能博弈对抗技术发展方向,以期为军事智能博弈对抗技术研究提供参考. 展开更多
关键词 深度强化学习 逆向强化学习 多智能体强化学习 分层强化学习 强化学习 智能博弈对抗
在线阅读 下载PDF
基于双深度网络的安全深度强化学习方法 预览
8
作者 朱斐 吴文 +1 位作者 伏玉琛 刘全 《计算机学报》 EI CSCD 北大核心 2019年第8期1812-1826,共15页
深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近... 深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性. 展开更多
关键词 强化学习 深度强化学习 深度Q网络 安全深度强化学习 安全人工智能 经验回放
在线阅读 下载PDF
深度强化学习研究进展 预览
9
作者 高振洋 秦斌 《电脑知识与技术:学术版》 2019年第2期157-159,173共4页
在高端人工智能领域中,感知力和决策能力都是衡量智能水平的重要指标。将深度学习的感知能力与强化学习的决策能力相结合,使得智能体能够从高维的状态动作空间中感知信息,通过得到的信息对模型进行训练、做出决策,以能够通过端对端的学... 在高端人工智能领域中,感知力和决策能力都是衡量智能水平的重要指标。将深度学习的感知能力与强化学习的决策能力相结合,使得智能体能够从高维的状态动作空间中感知信息,通过得到的信息对模型进行训练、做出决策,以能够通过端对端的学习方式来实现从原始输入到输出的直接控制。本文介绍了深度学习和强化学习基础知识;阐述了深度强化学习主流算法中的DQN及其变种和应用,分析了深度层次强化学习算法。最后对相关工作做了总结和展望。 展开更多
关键词 深度学习 强化学习 深度强化学习 层次强化学习 人工智能
在线阅读 下载PDF
基于值函数和策略梯度的深度强化学习综述 预览 被引量:1
10
作者 刘建伟 高峰 罗雄麟 《计算机学报》 EI CSCD 北大核心 2019年第6期1406-1438,共33页
作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优... 作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优化控制策略,建立一个对视觉世界有更高层次理解的自治系统.其中,基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点.该文对这两类深度强化学习方法进行了系统的阐述和总结,包括用到的求解算法和网络结构.首先,本文概述了基于值函数的深度强化学习方法,包括开山鼻祖深度Q网络和基于深度Q网络的各种改进方法.然后介绍了策略梯度的概念和常见算法,并概述了深度确定性策略梯度、信赖域策略优化和异步优势行动者-评论家这三种基于策略梯度的深度强化学习方法及相应的一些改进方法.接着概述了深度强化学习前沿成果阿尔法狗和阿尔法元,并分析了后者和该文概述的两种深度强化学习方法的联系.最后对深度强化学习的未来研究方向进行了展望. 展开更多
关键词 深度学习 强化学习 深度强化学习 值函数 策略梯度 机器学习
在线阅读 下载PDF
基于D3QN的交通信号控制策略 预览
11
作者 赖建辉 《计算机科学》 CSCD 北大核心 2019年第S11期117-121,共5页
交叉口是城市路网的核心和枢纽,合理优化交叉口的信号控制可以极大地提高城市交通体系的运行效率,而将实时交通信息作为输入并动态调整交通信号灯的相位时间成为了当前研究的重要方向。文中提出了一种基于D3QN(Double Deep Q-Learning N... 交叉口是城市路网的核心和枢纽,合理优化交叉口的信号控制可以极大地提高城市交通体系的运行效率,而将实时交通信息作为输入并动态调整交通信号灯的相位时间成为了当前研究的重要方向。文中提出了一种基于D3QN(Double Deep Q-Learning Network with Dueling Architecture)深度强化学习模型的交通信号控制方法,其利用深度学习网络,结合交通信号控制机构成了一个用于调整交叉口信号控制策略的智能体,然后采用DTSE(离散交通状态编码)方法将交叉口的交通状态转换为由车辆的位置和速度信息所组成的二维矩阵,通过深度学习对交通状态特征进行高层抽象表征,从而实现对交通状态的精确感知。在此基础上,通过强化学习来实现自适应交通信号控制策略。最后,利用交通微型仿真器SUMO进行仿真实验,以定时控制和感应控制方法作为对照实验,结果表明文中提出的方法得到了更好的控制效果,因此是可行且有效的。 展开更多
关键词 智能交通 强化学习 深度学习 深度强化学习 交通信号控制
在线阅读 免费下载
设计自动化中的机器智能新高度--以高层住宅布局的日照优化为例
12
作者 孙澄宇 《建筑科学》 CSCD 北大核心 2019年第10期141-149,共9页
面对第四次工业革命浪潮,建筑设计行业的设计自动化领域迎来了新的发展机遇。相比过往的各种简单自动化与其他机器智能算法,最新的深度强化学习理论为那些具有可计算目标、评价体系、有限操作维度的事务性设计环节,提供了较为通用的、... 面对第四次工业革命浪潮,建筑设计行业的设计自动化领域迎来了新的发展机遇。相比过往的各种简单自动化与其他机器智能算法,最新的深度强化学习理论为那些具有可计算目标、评价体系、有限操作维度的事务性设计环节,提供了较为通用的、更为高效的自动化处理途径。本文从复杂的计算机相关理论中,为建筑师梳理出应用新理论所必要的“一轴二元四要素”概念框架,并以高层住宅布局的日照优化设计为例,展示了如何按该框架来转译具体设计问题,最终利用计算机领域的相关算法程序包来予以解决的过程。该过程在从南到北的五个典型城市的验证实验中,展示出深度强化学习理论的三大新优势,即无需输入布局样本、有效降低求解维度、在特定问题上具有超越人类的潜力。 展开更多
关键词 人工智能 机器学习 深度学习 深度强化学习 布局设计
基于经验指导的深度确定性多行动者-评论家算法 预览
13
作者 陈红名 刘全 +3 位作者 闫岩 何斌 姜玉斌 张琳琳 《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1708-1720,共13页
连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,... 连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现. 展开更多
关键词 强化学习 深度强化学习 确定性行动者评论家 经验指导 专家指导 多行动者
在线阅读 下载PDF
基于Double-DQN的平衡类游戏改善 预览
14
作者 孙鹏 孙若莹 刘滨翔 《电子设计工程》 2019年第14期112-116,共5页
现有的强化学习算法在平衡类游戏中存在过拟合与参数设置不当等问题。针对这些问题,强化学习算法应用到平衡类游戏中,不仅可以改善游戏的平衡性降低因人工测试不到位而产生的漏洞,而且可以提高游戏二次开发的可塑性。本文基于Q-learning... 现有的强化学习算法在平衡类游戏中存在过拟合与参数设置不当等问题。针对这些问题,强化学习算法应用到平衡类游戏中,不仅可以改善游戏的平衡性降低因人工测试不到位而产生的漏洞,而且可以提高游戏二次开发的可塑性。本文基于Q-learning、DeepQ-learning network、Double deep Q-learning network3种有关Q学习的强化学习算法对平衡类游戏进行实验对比,最后由测试结果得出结论:Double Deep Q-learning network强化学习算法解决了过拟合与参数设置不当等人工测试问题,更适合应用在平衡类游戏中。 展开更多
关键词 深度强化学习 深度Q学习 Q-LEARNING 神经网络
在线阅读 下载PDF
基于深度强化学习的机器人手臂控制 预览
15
作者 杨淑珍 韩建宇 +3 位作者 梁盼 古彭 杨发展 吕萍丽 《福建电脑》 2019年第1期28-29,共2页
基于深度强化学习策略,研究了机器人手臂控制问题。以两节机器人手臂为对象,给出奖励函数和移动方式等。结合深度学习与确定性策略梯度强化学习,设计深度确定性策略梯度(DDPG)学习步骤,使得机器人手臂经过训练学习后具有较高的环境适应... 基于深度强化学习策略,研究了机器人手臂控制问题。以两节机器人手臂为对象,给出奖励函数和移动方式等。结合深度学习与确定性策略梯度强化学习,设计深度确定性策略梯度(DDPG)学习步骤,使得机器人手臂经过训练学习后具有较高的环境适应性。实验表明基于深度强化学习机器人手臂可以快速并且准确的找到在环境中移动的目标点。 展开更多
关键词 深度强化学习 深度确定性策略梯度学习算法 机器人手臂控制
在线阅读 下载PDF
人工智能技术在云计算数据中心能量管理中的应用与展望 被引量:3
16
作者 闫龙川 白东霞 +2 位作者 刘万涛 刘殷 李莉敏 《中国电机工程学报》 EI CSCD 北大核心 2019年第1期31-42,共12页
云计算数据中心是重要的电力用户,其消耗电量随着互联网发展和国家数字化建设快速增加,对数据中心进行能量管理和优化是绿色经济必然要求。该文主要探讨人工智能技术在云计算数据中心能量管理和优化中的应用,介绍了深度学习、深度强化... 云计算数据中心是重要的电力用户,其消耗电量随着互联网发展和国家数字化建设快速增加,对数据中心进行能量管理和优化是绿色经济必然要求。该文主要探讨人工智能技术在云计算数据中心能量管理和优化中的应用,介绍了深度学习、深度强化学习和知识图谱等新一代人工智能研究热点,提出了一个跨层的数据中心能耗感知和精确能量管理框架,梳理比较了机房、设备、云计算平台、业务系统和数据中心5个层面的能量管理和优化技术,总结分析了当前存在的不足和挑战,展望了未来新一代人工智能技术在云计算数据中心研究和应用趋势。 展开更多
关键词 人工智能 深度学习 深度强化学习 云计算 数据中心 能量管理
磁导航AGV深度强化学习路径跟踪控制方法 预览 被引量:1
17
作者 任彧 赵师涛 《杭州电子科技大学学报:自然科学版》 2019年第2期28-34,共7页
在系统参数未知的情况下,磁导航AGV路径跟踪控制器的设计中,为了免除大量的人工参数整定工作,使用了改进的免模型深度强化学习算法设计了路径跟踪控制器。在建立磁导航AGV离散时域的运动学和动力学模型的基础上,将路径跟踪问题建模为连... 在系统参数未知的情况下,磁导航AGV路径跟踪控制器的设计中,为了免除大量的人工参数整定工作,使用了改进的免模型深度强化学习算法设计了路径跟踪控制器。在建立磁导航AGV离散时域的运动学和动力学模型的基础上,将路径跟踪问题建模为连续状态与动作空间的马尔可夫决策过程。使用2个深度神经网络用于实现一个演员评判家(Actor-Critic)架构的异策略(Off-Policy)免模型强化学习算法作为控制器的实现,分别采用时域差分法与确定性策略梯度算法用于对动作值函数与策略函数的参数更新。仿真结果表明:设计的控制器可自主从经验中学习到表现优异的控制规则。 展开更多
关键词 自动导引车 路径跟踪 强化学习 深度强化学习
在线阅读 下载PDF
基于重要性采样的优势估计器 预览
18
作者 刘全 姜玉斌 胡智慧 《通信学报》 EI CSCD 北大核心 2019年第5期108-116,共9页
在连续动作任务中,深度强化学习通常采用高斯分布作为策略函数。针对高斯分布策略函数由于截断动作导致算法收敛速度变慢的问题,提出了一种重要性采样优势估计器(ISAE)。该估计器在通用优势估计器(GAE)的基础上,引入了重要性采样机制,... 在连续动作任务中,深度强化学习通常采用高斯分布作为策略函数。针对高斯分布策略函数由于截断动作导致算法收敛速度变慢的问题,提出了一种重要性采样优势估计器(ISAE)。该估计器在通用优势估计器(GAE)的基础上,引入了重要性采样机制,通过计算边界动作的目标策略与行动策略比率修正截断动作带来的值函数偏差,提高了算法的收敛速度。此外,ISAE引入了L参数,通过限制重要性采样率的范围,提高了样本的可靠度,保证了网络参数的稳定。为了验证ISAE的有效性,将ISAE与近端策略优化结合并与其他算法在 MuJoCo平台上进行比较。实验结果表明,ISAE 具有更快的收敛速度。 展开更多
关键词 强化学习 重要性采样 深度强化学习 优势函数
在线阅读 下载PDF
基于深度强化学习的行星车路径规划方法研究 预览
19
作者 周思雨 白成超 《无人系统技术》 2019年第4期38-45,共8页
在传统的路径规划方法中,行星车的所有行为都是地面人员事先定义好的。但行星车的作业环境不是完全已知的,这就需要行星车具备一定的对环境变化自适应和自学习能力。为了进一步实现行星车的自主决策,并解决传统人为规划框架中过于依赖... 在传统的路径规划方法中,行星车的所有行为都是地面人员事先定义好的。但行星车的作业环境不是完全已知的,这就需要行星车具备一定的对环境变化自适应和自学习能力。为了进一步实现行星车的自主决策,并解决传统人为规划框架中过于依赖地图信息的问题,基于深度强化学习理论提出了端到端的路径规划方法,直接从传感器信息映射出动作指令再发布给行星车。首先使用CNN和LSTM处理雷达和相机的信息,通过比较DQ、Double DQN、Dueling DQN和PER算法的优点,采用D3QN PER算法,训练行星车自动路径规划,最后在静态障碍环境中进行了仿真验证实验,试验表明D3QN PER算法对火星车在不同环境均具有适应性。 展开更多
关键词 行星车 深度强化学习 深度Q学习 路径规划
在线阅读 免费下载
改进深度确定性策略梯度算法及其在控制中的应用 预览
20
作者 张浩昱 熊凯 《计算机科学》 CSCD 北大核心 2019年第B06期555-557,570共4页
深度强化学习往往存在采样效率过低的问题,优先级采样可以在一定程度上提高采样效率。将优先级采样用于深度确定性策略梯度算法,并针对普通优先级采样算法复杂度高的问题提出一种小样本排序的思路。仿真实验结果表明,这种改进的深度确... 深度强化学习往往存在采样效率过低的问题,优先级采样可以在一定程度上提高采样效率。将优先级采样用于深度确定性策略梯度算法,并针对普通优先级采样算法复杂度高的问题提出一种小样本排序的思路。仿真实验结果表明,这种改进的深度确定性策略梯度算法提高了采样效率,具有好的训练效果。将深度确定性策略梯度算法用于小车方向控制,相比于传统的PID控制,该算法避免了人工调整参数的问题,具有更广阔的应用前景。 展开更多
关键词 深度强化学习 深度确定性策略梯度 优先级采样 方向控制
在线阅读 免费下载
上一页 1 2 7 下一页 到第
使用帮助 返回顶部 意见反馈