24小时论文定制热线

热门毕设:土木工程工程造价桥梁工程计算机javaasp机械机械手夹具单片机工厂供电采矿工程
您当前的位置:论文定制 > 毕业设计论文 >
快速导航
毕业论文定制
关于我们
我们是一家专业提供高质量代做毕业设计的网站。2002年成立至今为众多客户提供大量毕业设计、论文定制等服务,赢得众多客户好评,因为专注,所以专业。写作老师大部分由全国211/958等高校的博士及硕士生设计,执笔,目前已为5000余位客户解决了论文写作的难题。 秉承以用户为中心,为用户创造价值的理念,我站拥有无缝对接的售后服务体系,代做毕业设计完成后有专业的老师进行一对一修改与完善,对有答辩需求的同学进行一对一的辅导,为你顺利毕业保驾护航
代做毕业设计
常见问题

基于强化学习和计算机仿真的交通信号调度

添加时间:2021/11/17 来源:未知 作者:乐枫
在本文中,主要使用强化学习的方式来控制红绿灯。首先,在理想场景中,通过SUMO 设置了两种道路方式:一种是单个路口双向四车道,一种是多个路口双向四车道。
以下为本篇论文正文:

  摘 要

  交通问题日益突出。在城市的交叉路口中,人们使用红绿灯来控制车辆的通行,采用固定红绿灯时间长度的方式,在不同的车辆流量情况下,会造成车辆平均等待时间过长,导致车辆的拥堵,影响整体道路的交通情况。因此,如何选择合理方式来控制红绿灯,对于减少交叉路口的拥堵至关重要。

  在本文中,主要使用强化学习的方式来控制红绿灯。首先,在理想场景中,通过SUMO 设置了两种道路方式:一种是单个路口双向四车道,一种是多个路口双向四车道。

  配置两种车辆流量方式:一种是车辆流量恒定的方式,另一种是随着时间变化而发生有规律变化的车辆流量的方式。此外,还添加真实场景的地图与车辆流量。其次,在强化学习中,重新定义了状态空间,动作空间,奖励函数,评价指标。状态空间是关于车辆静止与非静止两种状态的排队长度所占道路比例的函数形式,动作空间是人为划分红绿灯的四个相位,奖励函数是关于车辆平均等待时间的函数形式。在单个路口中,评价指标是所有车道的车辆平均等待时间,在多个路口中,评价指标是所有路口的车辆平均等待时间。然后,设置五种场景,分别是单个路口的车辆流量恒定,单个路口的车辆流量变化,多个路口的车辆流量恒定,多个路口的车辆流量变化,真实场景的多路口。最后,选择固定红绿灯时间长度,半固定红绿灯时间长度,Q-Learning 算法,策略梯度算法,A3C 算法五种方式进行仿真模拟。实验结果表明:A3C 算法的车辆平均等待时间均小于其他四种方式下的车辆平均等待时间。验证 A3C 算法在不同的路口,不同的车辆流量情况下,减少车辆的平均等待时间,能够缓解交通的拥堵,在交通信号灯调度中具有高效性与优越性。

  关键词:SUMO;强化学习;Q-Learning;策略梯度;A3C

  Abstract

  With the rapid development of the national economy, the scale of the city continues to expand, the number of population and vehicle flow continues to increase, and the traffic problem has become increasingly prominent. In urban intersections, people use traffic lights to control the traffic of vehicles, and adopt the way of fixed time length of traffic lights. Under different traffic flow conditions, the average waiting time of vehicles will be too long, which will lead to vehicle congestion and affect the overall road traffic situation. Therefore, how to choose a reasonable way to control the traffic lights is very important to reduce the congestion of intersections.

  In this thesis, we mainly use reinforcement learning to control traffic lights. Firstly, in the ideal scene, two road modes are set up through sumo: one is two-way four lanes at a single intersection, and the other is two-way four lanes at multiple intersections. Two vehicle flow modes are configured: one is the mode of constant vehicle flow, and the other is the mode of regular vehicle flow changing with time. In addition, the map of real scene and vehicle flow are added. Secondly, in reinforcement learning, state space, action space, reward function and evaluation index are redefined. The state space is a function of the proportion of the queue length of the stationary and non-stationary vehicles in the road, the action space is a function of the four phases of the traffic lights, and the reward function is a function of the average waiting time of the vehicles. In a single intersection, the evaluation index is the average waiting time of vehicles in all lanes. In multiple intersections, the evaluation index is the average waiting time of vehicles in all intersections. Then, five scenarios are set, namely, the vehicle flow at a single intersection is constant, the vehicle flow at a single intersection changes, the vehicle flow at multiple intersections is constant, the vehicle flow at multiple intersections changes, and the real scene of multiple intersections. Finally, we choose five ways to simulate: fixed traffic light time length, semi fixed traffic light time length, Q-learning algorithm, strategy gradient algorithm and A3C algorithm. The experimental results show that the average waiting time of A3C algorithm is less than that of the other four modes. It is verified that A3C algorithm can reduce the average waiting time of vehicles in different intersections and different vehicle flows, alleviate traffic congestion, and has high efficiency and superiority in traffic signal scheduling.

  Key Words:SUMO; Reinforcement Learning; Q-Learning; Policy Gradient; A3C

交通信号调度

  目 录

  1 绪论

  1.1 研究背景与意义

  1.1.1 我国城市道路交通目前现状

  伴随着中国经济的快速发展,许多城市的规模在不断扩大,大量的人们涌进城市,人们的物质生活水平在不断地提高。然而,在城市的快速发展的背后,也存在一系列的问题,如空气污染,道路拥堵等。在城市交通道路中,道路变得越来越拥挤,主要有如下的原因:

  (1) 城市道路规划的限制,以前规划城市道路的时候,主要考虑的是当下以及以后一段时间的交通状况,比如在车辆相对繁忙路段设置四车道,车辆相对稀少路段设置两车道,后来车辆数量的急剧增加,导致车道异常拥堵。城市地形的限制和居民建筑的限制,比如在城市的大山里开凿隧道,在河流上面架设桥梁,绕过大量居民居住区规划道路,这些因素使城市的交通道路变得繁忙拥挤。

  (2) 车辆的数目和种类的增加,以前只有一部分人拥有车辆。而现在随着人们对车辆的需求增加,越来越多的人们开始购买车辆,使生活更加便利。大量的车辆行驶在城市道路上面,尤其是在上下班的高峰期,更是加剧了道路的拥挤。

  (3) 城市人口的快速增长,随着城镇化的浪潮,许多世代居住在农村的人们开始向城市迁移,大城市更是凭借自己的区位优势,医疗资源,地理优势等,变成人口百万级别,甚至千万级别的大都市。人们的大量出行势必导致道路的拥挤。

  不过,在解决城市道路交通拥挤的过程中,许多城市也提出不同的解决办法。人们通过修建轨道交通,改变的人们的出行方式,提高人们的出行质量,同时提出一系列的相关措施,车牌单双号限行,减少在道路上行驶的车辆数目。此外还规定人们摇号获取车牌,减少拥有车牌人数的数目。还严格设置在规定道路上允许某一类车牌车辆行驶,从而在规定道路上减少车辆的拥堵,来缓解城市的道路拥堵情况。

  1.1.2 交通信号调度的意义

  城市管理者已经采取了各种措施来缓解道路拥堵,取得了有效的成果。在城市交通道路中,造成拥堵的地方大多数位于道路的交叉口与转弯处,车辆需要在道路交叉口暂时停下来,等待红绿灯的调度,这无疑增加了车辆通过这段道路的时间。如何缩短车辆通过道路的时间尤为重要,这将不仅会影响自己车辆通过时间,还会产生连锁反应,还会影响其他附近车辆的等待时间。

  交通信号灯在城市交通道路中扮演着一个指挥者的角色。在交错复杂的城市道路中,车辆的行驶总是会受到其他车辆和道路的影响。每一辆车都希望自己能快速通过路口,但是往往容易堵在路口附近,进退两难。这时候交通信号灯能够指挥车辆的行进,什么时候停下来,什么时候快速通过。要是没有交通信号灯,每一辆车都想着快速通过,来自四面八方的车辆汇聚在一起,道路会变得混乱起来,甚至还会出现车辆碰撞,出现车祸的情况。交通信号调度的意义就在于:如何使车辆快速通过交叉路口,减少车辆的等待时间。同时合理规划红绿灯的时长,比如在车辆繁忙的车道上面设置相对长的绿灯时长,在车辆稀少的车道上面设置相对短的绿灯时长。

  1.2 国内外的研究现状

  交通信号灯可以追溯于 19 世纪的第二次工业革命,为了解决在交叉路口常常会出现交通堵塞和交通事故的问题,1868 年的英国著名发明家奈特设计了一种只有红绿两种颜色的交通信号灯,有效引导马车和行人通行。这使交通信号灯第一次在道路上大展拳脚,引导着后来人对交通信号灯的研究[1].后来,面对红绿灯的交替运行,会遇到人或者车辆恰好走到一半的时候,交通信号灯发生改变,需要一定的缓冲时间,因此开始出现红绿黄的三色红绿灯,这种交通信号灯逐渐出现在美国纽约,英国伦敦的街头上,这种三色类型的红绿灯直到今天仍在使用。

  交通信号灯刚开始出现时候,非常简单,十分简陋。随着 20 世纪初期的经济繁荣,汽车开始行驶道路上,人们的出行需求进一步增加,原来的信号交通等越发显得愚笨。

  电力的出现和机械的发展更是推动着交通信号灯的发展,1926 年,工程师设计并制造了机械式交通信号机,它的动力来源是电动机的运转,通过机械齿轮的精密旋转来控制交通信号灯的三色时长[2].

  后来,计算机的出现更是为交通信号灯的高度智能化奠定了基础。城市间的交通信号灯和道路并不是孤立的,而是一个有机结合的整体。一条道路的拥挤会导致相关道路的拥挤,一个交叉路口的交通信号灯也会影响其他的交叉路口。交通信号控制系统的出现更是为了解决城市的大规模交通调度的问题。下面是几个具有显著特性和代表性的交通信号控制系统:

  (1) TRANSYT (Traffic Network Tool)系统[3],是由英国罗伯逊先生于 1966 年提出的,它是一种定时式脱机操作交通信号控制系统,是由仿真模型和优化部分组成的。首先根据日常生活经验进行初始信号的配时,将道路的各种交通流信息传入到仿真模型中,通过输出性能指标,道路网络内的延误及停车次数等来评估仿真模型的好坏。同时还需要一个优化过程,将获得的性能指标,传入的优化数据,通过爬山法产生新的信号配时,让仿真模型使用。这是一套完整的静态系统,但是由于这是固定式的信号配时策略,交通信号灯在不同车流的情况下不能够很好进行调度,从而导致道路的拥挤[4]. (2) SCOOT(Split Cycle Offset Optimizing Technique)系统[5],是由英国运输与道路研究所在 70 年代提出的,主要是关于调节绿信比[6],周期,利用相位差技术。绿信比是在一个周期内,绿灯时长的比例,即允许车辆通行的时间占一个周期的比例。通过车辆检测器获得道路的车辆行驶状况,利用交通模型和调节模型的参数来实现信号配时的策略。

  SCOOT 系统需要计数检测器和占有率检测器等一系列相关的检测器,因此是一种能够实时检测的自适应控制系统。不过,它高度依赖于数学模型的仿真,需要数学模型精确考虑到道路的各种状况。而事实上,道路的情况复杂多变,会与数学模型的仿真存在一定范围的误差,存在相关的问题。

  (3) SCATS(Sydney Coordinated Adaptive Traffic System)[7],是由澳大利亚新南威尔士州道路交通局(RTA)在 70 年代提出并成功应用到悉尼的道路上。不同于集中控制的SCOOT 系统,SCATS 是一种分层的实时交通信号灯系统[8].它的中央控制级是核心部分,只需要用一台控制计算机就可以控制上百个路口。信号周期,绿信比也是 SCATS系统调节的目标,通过三级的层层控制来减少道路的拥堵情况。尽管 SCATS 系统有着简单,方便,快捷,高效的特点,但是没有合适的交通模型和检测器的过少,使得 SCATS系统信号灯调度的性能稍微偏差。到现在为止,SCATS 系统凭借自己的性价比在很多发达国家和发展中国家大受欢迎。

  硬件的设备提高与交通控制系统的完善,更是促进交通信号灯越来越完善。国内外学者也将目光投入到如何使用各类算法来调节交通信号灯,来适应越来越复杂的道路情况。从国外对交通信号灯的研究来看:Webster 和 Miller A. J 两位学者通过对交通信号灯的研究,优化了车辆的平均等待的时间,提出在固定周期内交通信号灯算法[9].

  Pappis C. P 和 Mamdam E. H 通过将模糊控制算法引入到交通信号灯调度中,取得了显著的成果[10].Chen X. F 等人将遗传算法引入到交通信号灯的配时策略中,从而优化车辆的平均等待时间[11].Abdulhai B 等人利用强化学习进行交通信号灯的调度,强化学习在交通信号灯的舞台上大展拳脚[12].Grandinetti P 等人通过构建网络对多个道路进行建立模型,仿真模拟[13].在国内,尽管对交通信号灯的开始研究时间相对稍晚,但是对交通信号灯的研究也是如火如荼。沈国江将神经网络与模糊控制算法相结合,优化目标平均车辆的耽误时间,来对信号交通的绿信比等关键因素实行对应的策略[14].冯远静等人采用模拟退火算法与绿波协调控制相结合的方法,来针对交通信号灯的调度[15].闫东宇等人优化交通信号灯的控制,使用摄像传感技术获取道路信息,然后加入模糊控制技术,从而减少道路的交通拥堵[16].从这些国内外的研究中,交通信号灯调度算法都主要集中在模糊控制[17,18],神经网络[19,20],遗传算法[21,22],强化学习[23,24]上面。

  1.3 研究思路

  交通信号调度是一个复杂的系统,在系统中,不同的道路上有不同的车辆流量,车辆流量受到各种因素的影响,如天气,节日,车祸等。在考虑交通信号调度的问题中,应该尽可能要与实际情况相符合,而不是完全设定为理想化的情况。后来,我们采用SUMO 这种交通系统模拟仿真软件。通过对相应的参数进行调节,改变道路或者车辆流量的情况,去模拟仿真现实的道路场景与环境。

  我们选择 SUMO 这种合适的工具,还需要考虑使用什么算法。在本文中,采用强化学习的方法进行交通信号的调度,是因为强化学习的发展如火如荼,提出了各种各样的方法,强化学习所需要的环境与智能体完美地对应着 SUMO 环境和红绿灯。状态空间,动作空间,奖励函数都可以有不同的定义。因此,在本文中,主基调是强化学习与计算机仿真的结合。在强化学习中,主要可以分为两类,一类是以值函数为代表的Q-Learning 算法,将 Q-Learning 算法与深度学习相结合的 DQN 算法;另一类从策略出发的策略梯度算法,有基准的 Reinforce 算法。我们首先采取 Q-Learning 算法和策略梯度算法,参与到计算机的交通模拟仿真中,结果发现在 Q-Learning 算法中,交叉路口的状态空间的维数多,建立相对应的 Q 表并且训练 Q 表,将其收敛是一个复杂的问题,难以做到。在策略梯度算法中,是一种一个回合才更新的算法,这就说明训练是一个收敛极慢的过程。将两者结合起来,就是 Actor-Critic 算法,建立两个神经网络,进行模型训练,有效避免上述两个问题。后来又发展 A3C 算法,通过多线程异步的方式加快训练速度和收敛速度。为此,我们计划建立不同的道路场景的仿真模型,并将基于 A3C算法的交通灯调度策略与固定时长交通灯、Q-Learning 算法以及策略梯度相比较,通过评价指标来说明 A3C 算法能够缓解交通的拥堵情况。

  1.4 本文章节

  安排本文一共划分为 5 章,每一章的内容与结构如下:

  第 1 章是绪论,主要是关于交通信号灯调度主题的研究背景与意义,国内外的研究现状和研究思路,从总体上展示本文的全貌。

  第 2 章是基础知识简介,主要是关于强化学习,Q-Learning 算法,策略梯度算法,A3C 算法与神经网络的知识,是本文的理论基础。

  第 3 章是 A3C 算法交通信号灯控制策略设计,主要是关于在 SUMO 软件中,路网与车辆流量的设计,设置了五种不同的道路场景。与此同时,把强化学习的重要因素与SUMO 软件相结合,定义状态空间,动作空间,奖励值等。

  第 4 章是实验及实验结果分析,主要是关于模型的介绍与定义评价指标。在五种不同的道路场景中,运用四种或者两种信号交通灯的调度方式,得到车辆平均等待时间的相关数据,并将这些数据以折线图,箱线图,四分位数表的形式展示出来。

  第 5 章是结论与局限性,主要是关于对本文所作实验得出完整的结论和对本文中的不足进行探讨。

  2 基础知识简介

  2.1 强化学习基础

  2.1.1 强化学习的介绍

  2.1.2 马尔可夫决策过程

  2.2 Q-Learning 算法

  2.3 策略梯度算法

  2.4 强化学习的 AC 算法

  2.4.1 AC 算法的简单介绍

  2.4.2 A3C 算法的应用

  2.5 深度学习的简单介绍

  2.5.1 神经网络

  2.5.2 卷积层

  2.5.3 池化层

  2.5.3 全连接层

  3 A3C 算法信号交通灯控制策略设计

  3.1 A3C 算法的设计控制方案

  3.2 交通系统仿真软件 SUMO

  3.3 道路设计与车辆设计

  3.3.1 道路设计

  3.3.1 车辆设计

  3.4 单个路口的车辆流量

  3.4.1 单个路口车辆流量恒定的展示

  3.4.2 单个路口车辆流量变化的展示

  3.5 多个路口的车辆流量

  3.5.1 多个路口车辆流量恒定的展示

  3.5.2 多个路口车辆流量变化的展示

  3.6 强化学习要素的定义

  3.6.1 强化学习的要素

  3.6.2 状态空间的定义

  3.6.3 动作空间的定义

  3.6.4 奖励值的定义

  4 实验及实验结果分析

  4.1 模型训练与评价指标

  4.2 单个路口的车辆流量恒定的实验结果展示

  4.3 单个路口的车辆流量变化的实验结果展示

  4.4 多个路口的车辆流量恒定的实验结果展示

  4.5 多个路口的车辆流量变化的实验结果展示

  4.6 真实场景交通信号灯调度的实验结果展示

  5 结论与局限性

  5.1 研究结论及创新点

  5.1.1 研究结论

  在本文中,通过 SUMO 建立道路场景和车辆流量形式,将强化学习引入到交通信号调度中,以 SUMO 为环境,包括道路,车辆等事物,建立以车辆信息相关的状态空间。以红绿灯为智能体,建立四个相位的动作空间。将车辆的平均等待时间的函数形式作为奖励函数。环境与智能体不断地进行交互,进行模型的训练与学习。

  我使用了五个道路场景,五种调度红绿灯的方式。在单个路口的车辆流量恒定情况下,四种方式的车辆平均等待时间排列大小为:固定红绿灯时间长度 > 策略梯度算法 > Q-Learning 算法 > A3C 算法。由于 Q-Learning 算法的状态空间过大和策略梯度算法的回合更新,导致这两种算法很难有效地收敛,后续不再采用这两种算法。A3C 算法的车辆平均等待时间约为固定红绿灯时间长度方式下的 33%.在单个路口的车辆流量变化情况下,A3C 算法的车辆平均等待时间约为半固定红绿灯时间长度方式下的 47%.在多个路口的车辆流量恒定情况下,评价指标是多个路口中车辆平均等待时间的平均值,A3C算法的车辆平均等待时间约为固定红绿灯时间长度方式下的 45%.在多个路口的车辆流量变化情况下,A3C 算法的车辆平均等待时间约为半固定红绿灯时间长度方式下的 47%.

  在真实场景的情况下,A3C 算法的车辆平均等待时间约为固定红绿灯时间长度方式下的38%.由此可以看出,A3C 算法在单个路口或者多个路口,车辆流量恒定或者变化,还是在真实场景中,车辆平均等待时间总是小于最优固定红绿灯时间长度或者最优半固定红绿灯时间长度的方式。A3C 算法的效率在单个路口场景高于多个路口场景,这是因为单个路口简单,没有多个路口的复杂性与联动性,选择最优的红绿灯时间更加容易,而且就是根据车辆流量在各个相位中的比例,小范围进行筛选。而多路口中,由于路口与路口之间相互影响,车辆流量在各个相位中的比例飘忽不定,A3C 算法并不能完全按照奖励函数最大的方向进行,因此 A3C 算法在单个路口中减少车辆平均等待时间尤为明显。总的来说,A3C 算法大大减少车辆平均等待时间,减少道路的交通拥挤状况。

  5.1.2 创新点

  本文中有以下几个创新点:

  (1) 将 SUMO 与强化学习相结合,通过仿真模拟的方式进行交通信号的调度。在SUMO 中,更有可视化的界面去看待车辆的变化和红绿灯相位的转变。

  (2) 对于状态空间,奖励函数的选择做了充分的考虑。在状态空间中,根据不同状态下的车辆对交通状况的影响分配了不停的权重,影响越大,权重也越大。在奖励函数中,充分考虑每一条进入红绿灯道路的信息,对不拥堵的车道较大的奖励,对拥堵的车道较小的奖励。

  (3) 在选择强化学习的方法中,选择相对简单的 Q-Learning 算法和策略梯度算法,并对它们进行分析处理,层层递进,选择合适的 A3C 算法。通过将 A3C 算法与固定红绿灯时间长度,半固定红绿灯时间长度相比较,说明 A3C 算法的效果显著。

  5.2 局限性

  在本文中,有以下几个局限性:

  (1) 道路场景的局限性,多个路口是单个路口程正方形排列的,在实际生活中,多个路口是有各种各样的类型,如圆盘形的路口。道路场景还应该有行人,天桥等各种因素。

  (2) 车辆流量设置的局限性。车辆流量的变化主要是根据一天时间的变化而发生相应的变化,实际上。车辆流量的变化会受到多种因素的影响。车辆流量的变化时一种时断时续的间歇性变化,而不是在本文中在某个时间段车辆流量恒定的情况。

  (3) 强化学习方法的局限性。在本文中,将深度学习作为建立神经网络的工具。我还应该多尝试更多强化学习方法,尤其深度强化学习方面的算法,如 DDPG,DQN 等各种算法。

  参 考 文 献

  [1] 石建军,宋俪婧,于泉。现代交通控制相关技术的发展趋势分析[J].公路交通科技。2006,(9):113-117.

  [2] 杨祖元。城市交通信号系统智能控制策略研究[D].重庆大学,2008.

  [3] Chiou S W. An efficient algorithm for computing traffic equilibria using TRANSYTmode[J]. Applied Mathematical Modelling,2010,34(11):3390-3399.

  [4] 朱明浩。城市道路干线绿波协调控制研究及效果评价[D].北京工业大学城市交通学院,2016.

  [5] P.B.Hunt, D.I.Robertson, R.D.Bretherton and M.C.Royle. The SCOOT on-line trafficsignal optimisation technique[J]. Traffic Engineering&Control,1982, 23(4):5-12.

  [6] Hunter M P, Wu S K, Kim H K. A probe-vehicle-based evaluation of adaptive trafficsignal control[J]. IEEE Transactions on Intelligent Transportation Systems,2012,13(2):704-713.

  [7] J.Y.K.Luk. Two traffic-responsive area traffic control methods: SCAT and SCOOT[J].Traffic engineering&control,1984,25(1):14-22.

  [8] Makys M, Kozak S. Effective method for design of traffic lights control[J]. IFACProceedings Volumes,2011,44(1):14934-14939.

  [9] Miller A.J. Settings for fixed-cycle traffic signals[J]. Oper.Res.Quart.1963,14(4):373-386.

  [10] Pappis C.P, Mamdam E.H. A Fuzzy Logic Controller for a Traffic Junction[J]. IEEETransactions on Systems Man and Cygernetics.1977,1(10):707-717.

  [11] Chen X. F, Shi Z.K. Real-coded genetic algorithm for signal timings optimizationof a signal intersection[C]. Proceeding of first international conference onmachine learning and cybernetics, Beijing,2002:1245-1248.

  [12] Abdulhai B, Pringle R. Karakoulas G.J. Reinforcement learning for true adaptivetraffic signal control[J]. Journal of Transportation Engineering,2003;129(3):278-285.

  [13] Grandinetti P, Canudas-De-Wit C, Garin F. Distributed Optimal Traffic Lights Designfor Large-Scale Urban Networks[J]. IEEE Transactions on Control SystemsTechnology,2018,PP(99):1-14.

  [14] 沈国江。城市道路交通智能控制技术研究[D]:[博士学位论文].杭州:浙江大学信息科学与工程学院,2004.

  [15] 冯远静,单敏,乐浩成等。绿波协调控制的子区动态划分算法[J].控制理论与应用,2014,31(8):1034-1046.

  [16] 闫东宇,邢双云,操峻岩,廉甘霖。交通信号灯优化控制[J].科技与创新,2018(03):16-18.

  [17] 李士勇。模糊控制[M].哈尔滨工业大学出版社,2011.

  [18] 李晓娜。单交叉口自适应控制方法的研究[D].大连理工大学,2006.

  [19] 沈国江。城市道路交通智能控制技术研究[D]:[博士学位论文].杭州:浙江大学信息科学与工程学院,2004.

  [20] 潘卫国,陈英昊,刘博等。基于 Faster-RCNN 的交通信号灯检测与识别[J].传感器与微系统,2019(9):147-149[21] Ceylan H, Bell M G H. Traffic signal timing optimization based on genetic algorithmapproach, including drivers' routing[J]. Transportation Research Part BMethodological,2004,38(4):329-342.

  [22] 陈小锋,史忠科。基于遗传算法的交通信号动态优化方法。系统仿真学报[J].2004,06:1155.

  [23] Balaji P G, German X, Srinivasan D. Urban traffic signal control using reinforcementlearning agents[J]. IET Intelligent Transport System,2010,4(3):1 77-188.

  [24] Ozan C., Baskan O., Haldenbilen S.&Ceylan H. A modified reinforcement learningalgorithm for solving coordinated signalized networks[J]. Transportation ResearchPart C: Emerging Technologies,2015,54:40-55.

  [25] 周志华。机器学习[M].北京:清华大学出版社,2016.

  [26] 李航。统计学习方法[M].北京:清华大学出版社,2012.

  [27] Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. IEEETransactions on Neural Networks,1998,9(5):1054-1054.

  [28] Watkins C J C H, Dayan P. Technical note: Q-Learning[J]. Machine Learning,1992,8(3-4):279-292.

  [29] Anderson C W. Q-learning with hidden-unit restarting[C]. Advances in NeuralInformation Processing Systems.1993:81-88[30] Puterman M L. Markov decision processes: discrete stochastic dynamicprogramming[M]. John Wiley&Sons,2014.

  [31] Williams R J. Simple statistical gradient-following algorithms for connectionistreinforcement learning[J]. Machinelearning,1992,8(3-4):229-256.

  [32] Chin Y K, Bolong N, Kiring A. Q-learning based traffic optimization in managementof signal timing plan[J]. International Journal of Simulation, Systems,Science&Technology,2011,12(3):29-35.

  [33] Liu Y, Chen W P. Intelligent Traffic Light Control Using Distributed Multi-agentQ Learning[J]. Nature,2017,550(7676):354-359.

  [34] Wang F Y. Agent-Based Control for Networked Traffic Management Systems[J]. IEEEIntelligent Systems,2005,20(5):92-96.

  [35] Li L, Wen D. Parallel Systems for Traffic Control: A Rethinking[J]. IEEETransactions on Intelligent Transportation Systems,2016,17(4):1179-1182.

  [36] Schulman J, Wolski F, Dhariwal P. Proximal Policy Optimization Algorithms[J].Machine Learning,2017.

  [37] Mnih V, Kavukcuoglu K, Silver D. Playing Atari with Deep Reinforcement Learning[J].Computer Science,2013.

  [38] Van Hasselt H, Guez A, Silver D. Deep Reinforcement Learning with DoubleQ-learning[J]. Computer Science,2015.

  [39] Richter S., Aberdeen D, Yu J. Natural actor-critic for road traffic optimization[C].Neural information processing systems.2007:1169-1176.

  [40] Mousavi S, Schukat M, Howley E. Traffic light control using deep policy-gradientand value-function-based reinforcement learning[J]. IET Intelligent TransportSystems,2017,11(7):417-423.

  [41] Mnih V, Badia A P, Mirza M. Asynchronous methods for deep reinforcementlearning[C]. International conference on machine learning.2016:1928-1937.

  [42] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deepconvolutional neural networks[C]. Advances in neural information processingsystems.2012:1097-1105.

  [43] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale imagerecognition[J]. arXiv preprint arXiv:1409.1556,2014.

  [44] Szegedy C, Vanhoucke V, Ioffe S. Rethinking the inception architecture for computervision[C]. Proceedings of the IEEE conference on computer vision and patternrecognition.2016:2818-2826.

  [45] Krajzewicz D, Erdmann J, Behrisch M. Recent development and applications ofSUMO-Simulation of Urban MObility[J]. International Journal on Advances in Systemsand Measurements,2012,5(3&4)。

  [46] 卢晨卿。基于协同优化的智能交通配时系统的研究[D].[硕士论文].沈阳:沈阳理工大学,2018.

  [47] Kosonen I. Multi-agent fuzzy signal control based on real-time simulation[J].Transportation Research Part C: Emerging Technologies,2003,11(5):389-403.

  [48] Garcia-Nieto J, Alba E, Olivera A C. Swarm intelligence for traffic light scheduling:Application to real urban areas[J]. Engineering Applications of ArtificialIntelligence,2012,25(2):274-283.

  [49] GB/T 33171-2016.城市交通运行状况评价规范[S].2016.10.13.

  [50] Abdulhai, Baher Pringle, Rob Karakoulas, Grigoris J. Reinforcement learning fortrue adaptive traffic signal control: Proceedings of the American Society of CivilEngineers[J]. Journal of Transportation Engineering,2003, Vol.129:278.

  [51] Lu S, Liu X, Dai S. Q-Learning for Adaptive Traffic Signal Control Based onDelay Minimization Strategy[C]. World Congress on Intelligent Control&Automation.IEEE,2008:687691

  致 谢

  光阴似箭,日月如梭,三年的研究生时光马上就要过去。回想自己考研的时候,大连理工大学是自己心仪的学校,为了考上大工的研究生,抓紧时间奋力备战,挥洒汗水,成功上岸。当踏入学校的大门,自己已经是这里的一份子,在这里将度过人生美好的三年学习生涯。在这研究生的三年时光中,夯实专业知识,提高学业技能,积极拓取,奋发向上,完成从本科生到研究生的转变。值此之际,对于大连理工大学,我的导师,我的同学,我的亲人,我深怀感激之情,正是因为你们,我的研究生生活才会变得如此美好。

  首先我要感谢大连理工大学和我的导师邹广宇老师,大连理工大学是是一个温暖的大家庭,给我提供学习与成长的环境。在学校的庇护下,我能够安心地学习知识,提高自己的能力。我的导师邹广宇老师学识渊博,知识丰富,治学严谨,在做学问方面,追求实事求是;在教导学生方面循循善诱。在我的学业上,邹老师给予我充分的指导,从入学时的规划,到论文的选题,最后到论文的定稿。邹老师充分尊重我的个人兴趣爱好和自己的发展方向,自己希望从事程序员方面的工作,邹老师耐心地指导我 Java 基础课程,数据结构,自己收获颇丰。在跟随邹老师学习的三年中,我从初入门的小白,到现在的基本熟练掌握知识技能。在研究生的三年时光中,我心里饱含着对大连理工大学的教诲和邹老师的教导的感激之情。

  其次我要感谢基础教学部的各位老师,在基础教学部中,各位老师都给予我莫大的帮助。其中有教金融数学的于波老师,教应用回归分析的刘凤楠老师,教 R 语言与统计软件的胡小草老师等。各位老师指导我的专业知识,指点迷津,给予我学业上的帮助。

  此外,还有基础教学部的各位同学,大家三年和谐相处,造了基础教学部和谐有爱的学术氛围和生活氛围。已经毕业的学长与学姐给我选择就业方向的建议,各位同学在我学业困惑时,给我帮助。值此之际,祝愿所有的同学前途似锦,飞黄腾达。

  最后我要感谢我的亲人。我父母从本科到研究生都默默支持我追求更高水平的学业,他们为了我的成长操劳着,始终是我坚实的后盾,是我心里温馨的港湾。在研究生即将结束的时候,我已经能够独立生活,为了自己的理想事业而奋斗,为了自己的家幸福生活而努力。

(如您需要查看本篇毕业设计全文,请您联系客服索取)

相关内容
相关标签:计算机毕业设计
好优论文定制中心主要为您提供代做毕业设计及各专业毕业论文写作辅导服务。 网站地图
所有论文、资料均源于网上的共享资源以及一些期刊杂志,所有论文仅免费供网友间相互学习交流之用,请特别注意勿做其他非法用途。
如有侵犯您的版权或其他有损您利益的行为,请联系指出,论文定制中心会立即进行改正或删除有关内容!