摘 要
公共交通乘客上下站点对信息(Origin and Destination,OD)是公交运行管理与规划的重要基础数据,对分析与提高公共交通系统的运行效率具有重要意义。传统通过人工调查的方法,存在成本高且抽样低等缺点。近年来,智能卡大数据在提取OD 信息上得到了广泛应用,然而智能卡数据缺乏乘客的下车信息,且数据带有一定的有偏性,反映真实的居民出行行为还存在一定的偏差。
公交车监控系统已经在公交车内普遍使用,监控视频数据为获取真实乘客上下站点对信息提供了新的思路。视频数据相对容易获取,能够获取所有上下车乘客的数据,弥补 IC 数据带来的样本偏差和无法验证等问题。随着以深度学习为代表的视频处理技术的发展与成熟,从视频数据中对目标进行检测、跟踪,实现跨摄像头的目标重识别成为可能。因此,本文研究了利用计算机视觉技术获取公交车乘客上下车站点对的方法。论文的具体工作如下:
(1)基于 YOLOv3 的目标检测框架实现对公交乘客的目标检测。通过分帧及抽取的方法,得到拍摄视频的图像,使用标注工具手工标注乘客对象,获得公交乘客数据集。对标注数据集进行聚类分析,得到基于乘客目标的预选框,然后利用公交乘客数据集训练得到针对公交车场景的目标检测器。最终得到目标检测器的 mAP值达到 89.4,相比于原有的检测器提高了 12.3%,较好地实现对乘客目标的检测。 (2)对检测的目标进行跟踪并基于跟踪轨迹提取上下车乘客。利用卡尔曼滤波算法对检测框进行状态估计,并使用外观特征、运动信息以及级联匹配三种方法进行帧间匹配,从而达到更加准确的匹配精度,实现对多个乘客目标的连续跟踪;对获取的跟踪对象,我们利用跟踪轨迹判别检测对象是否存在上下车行为,并采用阈值法判别对象属于上车还是下车行为,从而实现对检测及跟踪对象的过滤,得到上车乘客数据集和下车乘客数据集。
(3)对上下车乘客进行重识别获取乘客 OD 信息。重识别算法基于 PCB+RPP框架,对比使用随机擦除法,加入验证集等方法对训练结果的影响。同时,本文基于公交场景,对重识别的数据集进行过滤及筛选,以此减少重识别的检测时间,提高检测精度。最后,对过滤和筛选的上下车乘客数据集进行重识别,最终得到公交乘客上下车站点对,获得乘客 OD 信息。通过实验,我们得到在公开数据集上表现较好的重识别算法性能,其中 Rank-1 达到 93.78,mAP 达到 83.62.将该算法应用于公交乘客上下车数据集,得到匹配正确率为 80.4%,说明该算法对识别跨摄像头的公交乘客有较良好的应用效果。
关键词:视频数据;深度学习;目标检测;目标跟踪;重识别;公交 OD
Abstract
Origin and Destination information of passengers is an important basic data for bus operation management and planning. It is of great significance to analyze and improve the operation efficiency of the public transportation system. The traditional method of manual investigation has the disadvantages of high cost and low sampling. In recent years, smart card data has been widely used to extract OD information. However, smart card data lacks passenger disembarkation information, and there is a certain bias in the use of smart card data, which reflects certain deviations in the true travel behavior of residents.
The bus monitoring system has been widely used in buses, and the monitoring video data provides new ideas for obtaining information on real passengers getting on and off the station. Video data is relatively easy to obtain and covers a wide range, making up for sample deviations and unverifiable problems caused by IC data. With the development and maturity of video processing technologies represented by deep learning, it is possible to detect and track targets from video data and achieve cross-camera target recognition. Therefore, this paper studies the method of using computer vision technology to obtain the pair of bus passengers getting on and off the bus. The specific work and innovations of the paper are as follows:
(1) Based on the YOLOv3 target detection framework, the target detection of bus passengers is realized. In order to improve the performance of target detection, we use the video captured in the bus, through the frame framing and extraction method to obtain the video shooting image, use the annotation tool to manually mark the passenger object, and obtain the bus passenger data set. Perform cluster analysis on the data set to obtain a pre-selection frame based on human targets, and finally use the bus passenger data set to train to obtain a target detector for bus scenarios. Finally, the mAP value of the detector reaches 89.4, which is 12.3% higher than the original target detector.
(2) Track the detected target and extract passengers on and off based on the tracking trajectory. The Kalman filter algorithm is used to predict the state of the detection frame, and the three matching methods of apparent feature, motion information and cascade matching are used to achieve more accurate matching accuracy and achieve continuous tracking of multiple passenger targets; Obtained tracking object, we use the tracking trajectory to determine whether the detection object has the behavior of getting on and off, and use the threshold method to determine whether it belongs to the getting on or off behavior, so as to filter the detection and tracking objects, and get the passenger data set and getting off Passenger data set.
(3) Re-identify passengers who get on and off the vehicle to obtain passenger OD information. The re-identification algorithm is based on the PCB+PRR framework, and uses arandom erasure algorithm to train the training data set. Compare the effect of random erasure, adding verification set and other methods on the training results. At the same time, based on the bus scene, this paper filters and screens the data set for re-identification, so as to reduce the detection time of re-identification and improve the detection accuracy. Finally, the filtered and screened passenger data sets are re-identified, and finally the bus passengers get on and off site pairs to obtain passenger OD information. Through comparative experiments, we get the best performance of the re-recognition algorithm on public data sets, with Rank-1 reaching 93.78 and mAP reaching 83.62. This algorithm is applied to the bus passengers getting on and off data set, and the matching accuracy rate is 80.4%, indicating that the algorithm has a good application effect for identifying cross-camera bus passengers.
Key word: Video data; Deep Learning; Bus passengers; Target detection; Target tracking; Re-identification; Travel OD
目 录
第 1 章 绪 论
1.1 研究背景与意义
1.1.1 研究背景
随着我国城市化进程的加快,城市人口迅速上升,城市出行人数也大幅度增长,因此,城市的公共交通也面临挑战。解决交通问题成为城市化进程中必须面对的重大问题之一。交通问题的解决对城市的发展具有重要意义。乘坐公交出行作为城市居民主要的出行方式,面临城市巨大的客流量带来的公交车调度,线路优化等一系列问题[1].合理的公交车调度有利于提升公交资源的利用水平,改善市民出行效率,缓解城市交通拥堵状况等。不合理的公交车调度容易造成公交资源的浪费,也可能导致客流量较大的站点市民候车时间过长,甚至无车可乘的情况。而公交车的调度,线路优化等任务,需要有公交乘客反馈的数据进行支持,其中,公交乘客出行时的起点与终点数据(OD,Originand Destination)是当中比较重要的数据。
公交乘客 OD 的作用可以体现在公交规划,公交运营和个体等方面。在公交规划中,公交乘客的站间 OD 能够反映公交站的交通压力,可以为站台的定位,规模设计或站点的增减等提供参考;公交线路上的乘客 OD 能够为公交线路的增减或换向提供数据支撑。
在公交线网层面,线网 OD 能够为大中运量的交通规划提供依据。对于公交运营,乘客OD 是工作人员制订公交时刻表的参考,是合理调度公交车辆的重要依据。对于个人,我们可以通过公交乘客 OD 数据分析乘客的出行特征[2],如乘客出行的时间分布或空间分布等,通过了解乘客的出行需求或出行习惯提高公交服务水平。
传统的 OD 获取方法是通过人工调查,如使用问卷调查、跟车调查等方法,这些方 法存在明显的局限性。
(1)调查成本高,人工成本花费较高且会受到人员素质,情绪,态度等影响;
(2)采样率低,采用人工调查的方法往往采样率较低,因此很难保证其结论的合理性;
(3)数据的时效性差,从方案的制定到数据采集整理耗时数月,且后期处理时间较长,以此无法保证其时效性[3].
随着大数据技术的发展,采样公交刷卡数据推算乘客 OD 得到越来越多的应用,但是,采用公交刷卡数据同样存在不足:
(1)存在样本偏差,公交刷卡数据只针对持有公交 IC 卡的公交乘客样本,使用现金支付或其他支付方法,如微信支付、支付宝等乘客没有被统计,这种数据会导致统计结果存在偏差;站点的信息,而没有下车站点的信息。因此,使用这种刷卡数据对 OD 进行推断时无法对结果进行验证。
技术的发展为问题的解决提供了新的方法和思路。计算机视觉技术的快速发展以及计算机运算能力的提高,同时基于深度学习的目标检测与跟踪,目标重识别技术的成熟为视频数据的应用起到了很大的促进作用。比如,谷歌的行人检测系统通过车载摄像头及感应器,实现对汽车周围环境的检测及精确定位,为自动驾驶车辆的应用提供了支持。
在机场,高铁站等大型交通场所,通过人脸识别技术,对比乘客及身份证信息,可以免取票进站,减少了纸质车票的打印,大大节省的纸张的使用,同时节省了取票的时间。
在安防领域,利用目标检测技术,高效识别指定人物,大大提高了逃犯抓取效率。
同时,城市公交车辆中安装摄像头已经越来越普遍,通过摄像机采集的图像数据包含大量待发掘和利用的信息。摄像机能够完整地记录公交乘客的信息,避免了采用单一刷卡数据导致的样本偏差。视频能够直观地记录乘客的上下车站点信息,减少了使用复杂模型推算乘客 OD 时的不确定性,其结果可以被验证。使用视频数据也能减少问卷调查或跟车调查等方法带来的高成本和低收益问题。
综上,公交乘客 OD 信息对公交问题的解决有着重要的重要,使用传统的人工调查或公交 IC 刷卡数据推算的方法存在各种的不足,而公交摄像头的普及和计算机视觉技术的发展与成熟为解决公交乘客 OD 的获取提供了新的研究思路。在此背景下,本文研究使用计算机视觉技术提取公交乘客上下车站点对的方法,以达到提取公交乘客 OD 的目的。
1.1.2 研究意义
一、对于公交应用领域,乘客 OD 信息具有重要的价值。公交线路的规划,公交资源的调度需要有数据支撑,其中,公交乘客的 OD 数据能够反映居民的出现需求和规律,是公共交通线网规划、公交调度管理、提高运营效率的重要参考数据。
二、使用视频数据作为数据源,弥补其他数据存在的不足。我国各个城市的公交车已经普遍安装监控摄像头,每天都会产生大量的视频监控数据,利用公交车内摄像头获取的公交车内视频数据,能够挖掘公交客流,出行 OD 等信息。相比于其他数据源,视频数据相对容易获取,覆盖面广泛,而且能够提供更加直观的信息,弥补 IC 数据带来的样本偏差和无法验证等问题。
三、将计算机视觉技术应用于乘客 OD 提取,减少人工成本。在计算机视觉技术尚未成熟之前,这些数据的利用率还远远不足。而计算机视觉技术的发展为这种数据的信息挖掘提供了支持。利用计算机视觉技术获取公交上下车乘客的识别,这样可以不借助人工调查的方法获取乘客 OD 信息,大大减少了人工成本。这为构建环保高效智能低碳和以人为本的公共交通系统提供了快捷而准确的数据支撑,有着非常重要的意义。
1.2 国内外研究现状
1.2.1 公交乘客 OD 调查研究现状
公交乘客 OD 是指公交乘客出行时的起到与终点信息,它能够反映公交乘客的出行空间分布。公交乘客 OD 调查的方法主要人工调查、基于公交大数据和基于手机移动信号等方法。
人工调查的包含常规问卷调查方法和跟车调查等。问卷调查的方法是指对公交乘客发放调查问卷或采用微信问卷等电子问卷方式[4].公交乘客根据自身的情况填写上下车站点时间等信息,然后对调查问卷进行分析处理得到公交乘客的 OD 数据。这种方法是一种直接获取乘客的出行信息的方法,但是该方法往往无法大规模开展,采用率较低;其次,这种方法也受到公交乘客的个人意愿等影响,无法保证数据的全面性和客观性。
跟车调查法也是一种获取公交乘客 OD 的方法。陈素平等人[5]提出一种跟车小票调查的方法。其过程如下:调查员在公交乘客上车时给其发放带有编码的小票,让每一个公交乘客拥有唯一的编码,然后在乘客下车时回收小票。通过这种方式可以对调查时段的公共乘客进行追踪,进而得到同一乘客上下车的站点信息。但是这种方式同样需要投入大量的劳动力和公交乘客的配合,无法进行大规模开展。
利用公交 IC 卡数据推算乘客出行 OD 是当前比较主流的 OD 调查方法。Barry J 等 人[6]基于 IC 刷卡数据,运用出行链的思想推导乘客下车站点。Zhao J H 等[7]将出行链和时间进行匹配,从而推算出公交乘客上下车的站点,进一步使用出行链方法分析了单个乘客的出行特征。Munizage M 等[8]综合运用了地铁与公交车的 IC 卡数据、GPS 数据以及线路的站点数据,实现了从地铁到地铁以及地铁到公交车两类出行方式下车站点的推导。Spiess H 等人[9]以上下车系数和公交车舒适度作为度量的指标,建立了基于公交网络的分配算法,并通过以上两个度量指标定义模型来分析公交乘客的 OD 矩阵。章威等人[10]结合公交车的刷卡数据与 GPS 数据对 OD 进行提取,利用乘客刷卡数据,获取乘客上车时间和线路等数据,再利用 GPS 技术得到出行者上下车时间和站点等信息,通过对这些信息的统计,推算公交乘客的出行 OD.这种方法成本较低,但该方法只统计使 用 IC 卡进行乘车的公交乘客,统计结果存在一定的有偏性。帅富杰等[11]利用公交 IC 卡数据,提取乘客上下车站点的交集,并判断出乘客出行的起止与换乘站点,结合交通信息系统评价体系和社会经济评价模型,形成公交客流 OD 矩阵。
利用手机移动信号数据同样可以获得 OD 信息。Kang S P 等人[12]提出使用蜂窝基站估计 OD 的方法,通过采集出行人员的手机基站定位数据和 GPS 定位数据计算 OD 矩 阵。Sohn K 等[13]提出使用路径选择的概率和手机经过蜂窝小区的时间获取 OD 矩阵的方法, 手机经过蜂窝小区某个位置的时间近似等于行人进入和离开小区边界的时间差,路径选择的概率使用手机基于基站的轨迹进行估计。刘淼等[14]将居民使用的手机作为检 测器,利用基站的蜂窝小区定位信息和行人出行的特征,推断出行人出行的起点和终点,出行时间等信息。杨飞等[15]利用手机位置区的定位信息获得 OD 矩阵,通过对两条定位数据的空间距离的比较,以及与临界状态阈值的比较,结合行人之前的运动状态,从而判定行人在各个定位点状态。结合停留状态等约束条件,推断行人出行的起点与终点,进一步利用交通小区的划分信息实现对各个起止点所归属的交通小区进行判别,最后对各个小区的出行次数进行统计,从而得到行人的 OD 矩阵。魏玉萍等[16]使用手机的定位数据获取交通 OD.该方法首先分析了持有手机的行人在观察时间内的 TDOA 定位数据,并以此判定行人的运动状态,然后结合行人的停留状态判别算法,获得行人出行的起止点,最后将获得的起止点数据映射到交通小区中,得到行人出行 OD.
研究人员同样尝试利用视频数据提取公交客流 OD.杨军峰等[17]提出利用公交车内前后门摄像头获取的乘客上下车视频提取公交客流的方法。通过对乘客特征指标的分析,构建了乘客识别体系,实现对乘客辨别的定性和定量化,提出运用分层模糊匹配方法对上下车乘客进行匹配,获得单条线路公交客流 OD 矩阵。但是该方法需要人工判断乘客的指标和提取,人工成本比较高,无法得到推广使用。
1.2.2 计算机视觉技术研究现状
(1)目标检测
目标检测是计算机视觉的基础任务之一。是指在给定的图像中检测目标物体,如行人,汽车等,目标检测的目的是对于输入的图像,使用检测算法得到具有位置信息的目 标,并给每个检测出来的目标打上标签[18].由于图像中的目标一般具有不同的形态,其运动轨迹没有规律,而且经常出现目标被遮挡的情况。对于行人目标,由于行人具有相当的柔性,因此会有各种姿态和形状,其外观受穿着,姿态,视角等影响非常大,因此,现在目标检测仍然是具有挑战性的视觉任务之一。目标检测技术一般可以划分为两个发展阶段,即传统的目标检测和基于深度学习的目标检测两个阶段[19].
传统的目标检测算法一般通过提取给定图像的待选区域的特征,设计和训练分类算 法实现对目标的检测任务。在预选区域中,算法应该包含图像中所有可能出行目标的位置。由于目标出现的地方可能是图像上的任何位置,因此算法通过设置多种尺寸大小,多种长宽比的滑动窗口实现对整张图像的检索[20],采用穷举法得到所有可能出现目标的位置,我们通过对每个窗口计算特征向量,作为图像的特征表达。为了实现对图像特征的提取,需要解决目标在不同光照下图像的变化,目标所处的背景变化复杂和目标自身可能存在多种形态等因素的影响。而其中,特征算子如 Haar,HOG,SURF 表现良好[21- 23].为了对提取的特征进行分类,一般的分类算法有支持向量机 SVM(Support VectorMachine),AdaBoost,Bagging 等[24-26].在目标检测基准数据集 Pascal VOC 挑战中,DPM检测算法[27]是传统检测方法表现最好的检测器,它连续获得 2007 年到 2009 年的冠军。
DPM 算法采用"分而治之"的思想,包含训练和推理两个步骤。通过训练学习分解目标的方法,通过推理将不同目标部件进行组合。比如,对于行人,可以看作检测头部,手臂,腿等部件,后来一些研究在此基础上,通过构建更加复杂的系统进一步扩展和改进[28-30].
基于深度学习的目标检测算法可以分为两类:两阶段法和一阶段法。两阶段法首先由算法生成多个候选框,然后通过卷积神经网络进行分类,如 RCNN,Faster RCN 等[31- 34].Faster RCNN 是第一个端到端,且接近实时的深度学习检测器。Faster RCNN 将目标检测的基本组件:候选区提取、特征提取、目标分类和边框回归等都集成到一个统一的学习框架,减少了计算冗余,极大提高了检测速度。
一阶段法则是首先把图片划分为固定大小网格,然后进行边框回归及分类,YOLO系列,SSD[35-38]是其中的代表。一阶段法不再遵循二阶段法中先提取候选框再分类的检测范式,而是将目标检测问题转换为边框回归问题。如 YOLO 算法使用一个神经网络,预测整张图像中包含的物体,包括物体的包围框(Bounding Box),类别以及置信度。对于重复的预测,通过非极大值抑制(Non-Maximum Suppression, NMS)方法进行处理,过滤预测结果中多余的检测框。最近,建立在鲁棒性的关键点估计上实现 anchor-free 的目标检测器[39-40]取得了较好的检测性能。
(2)多目标跟踪
多目标跟踪(Multi-Object Tracking,MOT)用于识别和跟踪视频中的多个对象,如汽车和行人等。例如,在自动驾驶系统中,目标跟踪算法要对运动的车、行人和障碍物的运动进行跟踪,对它们在未来的位置、速度等信息作出预判。与目标检测算法不同的是,多目标跟踪算法需要对获取的目标检测框进行匹配,对视频或连续图像中的出现的同一目标进行关联匹配,得到其运动的轨迹。因此,多目标跟踪算法需要应对跟踪目标形态前后可能发生的变化,还需要较好地应对目标对象所处环境或场景的变换。基于视觉的多目标跟踪在行为分析、自动驾驶等领域都有重要的应用。
多目标跟踪算法可以分为基于检测的跟踪(Detection-Based Tracking)和无检测的跟踪(Detection-Free Tracking)两种算法[41].基于检测的跟踪算法首先需要使用目标检测算法检测出在每张图像中的目标对象,然后利用跟踪算法对相同的目标进行关联;无检测的跟踪需要已知每个跟踪目标第一次出现在图像序列中的位置,然后分别对每个检测目标进行跟踪。这个过程可以被看作是对同一图像序列进行多个单目标跟踪。在这两类跟踪算法中,基于目标检测的跟踪算法有着运行效率较高,检测性能比较平衡的特点,因此得到了越来越广泛的使用[42-43],它的重点在于如何完成新图像中检测的对象与已有轨迹的匹配任务。其中,有的研究基于线性规划或图的优化方法[44-45],通过最小化代价函数解决跟踪问题,减少错误关联。当检测目标发生遮挡时,或是视野内存在外观比较相似的干扰项等问题时,一般通过加入外观特征相似性的度量指标来得到较为准确的跟踪精度[46-47].例如,基于检测框的位置和大小等信息,结合卡尔曼滤波(Kalman Filter)和匈牙利算法(Hungarian algorithm)实现对行人目标运动状态估计和目标关联的 SORT 多算法[46].(3)目标重识别目标重识别是指利用计算机视觉技术判断图像或者视频序列中是否存在检索目标的技术,广泛被认为是一个图像检索的子问题,它利用目标重识别提取的外观特征,再通过监督分类和度量学习的方法区分不同的目标。当前,在行人重识别的领域中,一些研究取得了良好的重识别性能。Ristani 等人[48]提出了使用自适应加权三元组损失和难样本挖掘的算法,应用于训练 CNN 网络特征中,从而提高了算法对不同类别的区分性。
Zhang 等人[49]在计算特征相似度时进行了重新排序,进而提高了目标重识别算法的检测准确性。Luo 等人[50]对比了 Softmax,Triplet 等损失函数在重识别算法中的性能表现,同时总结了常用训练技巧对模型产生的影响,提出的算法在 Market1501 数据集[51]上实现了较高的行人重识别的精度。Sun [52]等提出了均匀分块的 Part-based ConvolutionalBaseline(PCB),探讨了较优的块间组合方式,同时提出了基于分块的 Refined partpooling(RPP),用注意力机制来对齐各个分块[52].
1.3 主要研究内容及章节安排
1.3.1 主要研究内容
为了对公交车乘客上下车站点对进行提取,我们首先需要检测出视频或图像中的公 交乘客目标,获取乘客目标的初始位置和候选图像;然后对单个摄像机中的乘客目标进行跟踪,关联图像序列相同的乘客对象,得到各乘客在单个摄像头中的运动轨迹信息,根据轨迹提取得到乘客上车和下车数据集;最后,还应设计跨摄像头的图像间的匹配算 法,识别在两个摄像头中出现的相同乘客对象。因此,基于计算机视觉的公交乘客 OD提取任务分解为乘客目标检测、乘客目标跟踪与上下车乘客提取和跨摄像头乘客重识别三个关联的组件,实现的技术路线流程图如图 1-1 所示。
本文主要研究公交车场景下的乘客 OD 信息获取方法,利用计算机视觉等相关技术,包括目标检测、多目标跟踪、目标重识别等,实现多摄像机视频的公交乘客 OD 信息提 取。主要开展的工作如下:
((1)基于深度学习的公交乘客目标检测方法研究基于 YOLOv3 目标检测框架构建公交乘客目标检测模型。使用公交视频数据进行人工注记,获得公交场景下的目标检测数据集。然后使用公交车数据集对标注框进行聚类分析,获得针对乘客目标的预选框。最后利用公交乘客数据集进行训练,提高目标检 测模型的检测精度。
(2)目标跟踪与基于轨迹的上下车乘客提取方法研究为了实现对多乘客目标的跟踪,使用递归的卡尔曼滤波算法对目标检测框进行状态预测和跟踪,之后对视频中连续多帧图像的乘客进行跟踪指派,这里使用了外观匹配、运动匹配以及级联匹配三种不同的匹配方法以达到更准确的匹配效果。然后基于跟踪结果,对公交乘客处于不同种状态下的运动轨迹进行分析,使用基准线相交判断法判断处于上下车状态的乘客,并利用上车与下车乘客与基准线的角度关系,分离出上车与下车的乘客数据集。 (3)跨摄像头公交乘客上下车重识别方法研究针对公交场景下的时空关系,对上车和下车数据集进行关键帧提取并提出匹配策略。
基于 PCB+RPP 重识别网络框架,使用图像随机擦除法,分块池化等优化方法对模型进行优化,对比 Softmax 损失、标签平滑正则化和三元组损失等损失函数对网络的影响,提高重识别算法的检测性能。最后针对公交乘客上下车数据集,使用优化的重识别算法对上下车乘客进行重识别,获得乘客上下车站点对,从而得到公交乘客 OD 信息。
1.3.2 章节安排
文章包含六个章节,各章节内容安排如下:
第一章 绪论,主要介绍文章的研究背景和意义。本章说明公交客流 OD 对公交规划和资源调度的重要性,总结了公交乘客 OD 提取和计算机视觉技术的研究现状,最后介绍了本文的主要研究内容及章节安排。
第二章 计算机视觉识别理论与方法。本章介绍文中涉及的理论与方法。主要对深度学习方法和卷积神经网络网络进行了介绍。
第三章 公交乘客目标检测,基于 YOLOv3 框架实现对公交乘客目标的检测。通过公交参考数据集的建立与检测框聚类分析等方法提高 YOLOv3 对公交乘客的检测精度。
第四章 公交乘客目标跟踪与上下车提取。通过跟踪算法实现公交乘客的多目标跟踪,基于乘客的轨迹对上下车乘客进行提取,从而得到公交乘客上车和下车数据集。第五章 公交乘客上下车重识别方法。对 PCB+RPP 重识别算法进行测试,对比采用不同策略时重识别的性能。并基于公交车运行的场景,提出约束条件,将重识别算法应用于上车和下车数据集,得到公交乘客上下车站点对,实现对公交乘客的上下车识别。
第六章 总结与展望。对本文的工作进行总结,分析了研究存在的不足并讨论和展望了该研究未来的方向。
第 2 章 计算机视觉识别理论与方法
2.1 深度学习基本理论
2.1.1 感知机模型
2.1.2 激活函数
2.1.3 损失函数
2.1.4 误差传递方法
2.2 卷积神经网络
2.2.1 卷积层
2.2.2 池化层
2.2.3 全连接层
2.3 本章小结
第 3 章 公交乘客目标检测
3.1 公交乘客检测算法
3.1.1 网络结构
3.1.2 边界框预测
3.1.3 多尺度预测
3.1.4 损失函数
3.2 模型训练与结果
3.2.1 建立公交车行人数据集
3.2.2 检测框聚类分析
3.2.3 实验结果
3.3 本章小结
第 4 章 公交乘客目标跟踪与上下车提取
4.1 跟踪算法框架
4.1.1 卡尔曼滤波估计目标运动状态
4.1.2 检测目标与跟踪轨迹匹配
4.2 上下车乘客提取
4.2.1 公交乘客轨迹分析
4.2.2 上下车乘客提取算法
4.3 实验结果
4.4 本章小结
第 5 章 跨摄像头公交乘客上下车重识别
5.1 基于公交场景条件约束
5.1.1 基于遮挡关系的图像提取
5.1.2 公交车条件约束
5.2 跨摄像头目标重识别
5.2.1 重识别算法框架
5.2.2 网络训练与优化方法
5.2.3 损失函数
5.3 实验过程与结果
5.4 本章小结
第 6 章 总结与展望
6.1 总结
本文基于公交车内视频数据,利用计算机视觉技术,对公交乘客进行检测,跟踪以及重识别。最终实现了对公交车乘客上下车站点对的获取。主要工作总结如下:
(1)本文综述了当前行人出行 OD 的调查方法以及计算机视觉技术的发展现状。
提出了使用公交车内视频数据结合计算机视觉技术获取公交乘客上下车站点对的检测框架。该框架主要基于计算机视觉中的目标检测,目标跟踪以及重识别任务。 (2)对公交车内摄像头拍摄的视频数据处理分帧得到图像,利用标注工具对乘客进行人工标注,建立了公交乘客数据集;对数据集的检测框进行 K 值聚类,得到基于人类目标的预设框;训练了检测人类目标的 YOLOv3 检测器,得到检测器的 mAP 为 89.4,较好地实现了对公交乘客的目标检测。
(3)对检测器得到的检测框使用卡尔曼滤波算法,对检测框进行状态预测,对之后连续多帧图像中的行人进行跟踪,算法使用了表观特征匹配、运动匹配以及级联匹配这三种匹配方法,从而达到更加准确的匹配,实现对多个乘客目标的连续跟踪;对获取的跟踪对象,利用基准线法判别对象是否存在上下车行为,并采用阈值法判断上车还是下车,实现对检测及跟踪对象的过滤,得到上车乘客数据集和下车乘客数据集。
(4)对目标进行重识别,重识别算法基于 PCB 框架,对训练的数据集使用随机擦除算法进行训练。对比采用随机擦除,加入验证集和加入 RPP 网络的方法对训练结果的影响。其中,结果最好的重识别算法达到 Rank1 为 93.25 以及 mAP 为 82.06;本文基于公交场景,对进行重识别的数据集进行过滤及筛选,以此减少重识别的检测时间,提高检测精度。通过对过滤和筛选的数据集进行重识别,最终得到公交乘客上下车站点对,实验匹配的正确率为 80.4%.
6.2 展望
尽管本文在实现公交场景下的基于计算机视觉的公交乘客上下车识别研究中获得初步的成果,并且在克服乘客目标检测不稳定,乘客跟踪时丢失目标问题等问题做出了有效尝试。但在面对实际场景中,仍存在一些挑战。对此,本研究未来的工作可以在以下方面进行
(1)研究具有更高检测精度及泛化性能的目标检测器本文中的目标检测算法采用当前比较流行的 YOLOv3 检测算法,其检测速度快,但精度并不是当前检测器中精度最高的。后续工作可以对比不同检测算法,采用不同的训练策略,进一步提高检测的精度。其次,对公交乘客数据集,可以采集覆盖面更加广泛的公交视频数据,以面对更加复杂的现实场景。如不同天气情况中,晴天和雨天的光照不同。不同的公交线路,汽车经过的道路环境不同,背景更加复杂多变。另外,本文基于公交车现有的摄像机镜头进行实验,该镜头方向不可避免会有乘客遮挡情况,可以考虑对摄像机的位置和角度进行变换,以最大可能地较少遮挡。
(2)研究跟踪效果更好的跟踪器及上下车乘客判别算法本文通过对检测框采用卡尔曼滤波并使用基于外观,位置和级联匹配策略,较好地克服检测器漏检或发生遮挡时的目标丢失的问题,但在面对高峰时段,某些站点乘客集中大量上车或下车情况时,依旧会发生漏检,跟踪丢失的问题。对此,需要考虑更好地解决多目标跟踪的问题。在对上下车乘客进行判别中,会导致部分乘客错误地被过滤,导致漏检。因此,需要有更好的判别算法,以减少错误。
(3)挖掘更深层次的公交场景时空信息在公交车场景中,还存在许多可以利用的时空关系。在车辆停站及车门开关的处理上,本文基于人工方法进行处理,对于该任务,可以通过利用车辆的速度,车门的开关,车辆 GPS 定位等信息实现自动检测,从而尽量减少人工的干预。另外,本文只对单支路线,单车辆进行实验,如何针对车辆与车辆之间的乘客提取 OD,形成线路 OD 或线网OD 也是今后值得研究的方向。
参 考 文 献
[1] 郭继孚, 刘莹, 余柳。 对中国大城市交通拥堵问题的认识[J]. 城市交通, 2011,(02):8-14+6.
[2] 芦方强, 陈学武, 胡晓健。 基于公交 OD 数据的居民公交出行特征研究[J]. 交通运输工程与信息学报, 2010,(02):31-36+47.
[3] 刘博恺。 现状 OD 调查方法的不足与展望[J]. 山东交通科技, 2016,(01):109-110.
[4] 王园园, 黄鸣。 基于公交站点的客流 OD 预测[J]. 城市公用事业, 2007(05):14-17+50.
[5] 陈素平, 陈学武, 杨敏。 基于小票法的公交线路客流 OD 分析方法[J]. 交通信息与安全,2009,27(01):11-14.
[6] Barry J, Newhouser R, Rahbee A, et al. Origin and Destination Estimation in New York City withAutomated Fare System Data[J]. Transportation Research Record Journal of the Transportation ResearchBoard,2002,1817:183-187.
[7] Zhao J H. The planning and analysis implications of automated data collection systems: rail transit ODmatrix inference and path choice modeling examples[J]. Environmental Science & Technology, 2004, 39(23):9309-9316.
[8] Munizaga M, Devillaine F, Navarrete C, et al. Validating travel behavior estimated from smartcard data[J].Transportation Research Part C: Emerging Technologies,2014,44(4):70-79.
[9] Spiess H, Florian M. Optimal Strategies: A new assignment Model for transit network. TransportationResearch.1989,23B:83-102
[10] Zhang W, Xu J M. Approach to Collection of Bus OD Matrix Based on GPS and Bus Intelligent Card[J].Computer and Communications.2006, (24)2:21-23
[11] 师富杰。 基于 IC 卡数据的公交 OD 矩阵构造方法研究[D]. 长春:吉林大学,2004
[12] Yoo B S, Kang S P, Chon K, et al. Origin-Destination Estimation Using Cellular Phone BS Information[J]. Journal of the Eastern Asia Society for Transportation Studies.2005,6:2574-2588.
[13] Sohn K, Kim D. Dynamic Origin-Destination Flow Estimation Using Cellular CommunicationSystem[J]. IEEE Transactions on Vehicular Technology.2008,57(5):2703-2713.
[14] 刘淼, 张小宁, 张红军。 基于手机信息的居民出行调查[J]. 城市道桥与防洪。2007,3:18-21.
[15] 杨飞。 基于手机定位的交通 OD 数据获取技术[J]. 系统工程。2007,25(1):42-48.
[16] 魏玉萍, 韩印。 基于手机定位的交通 OD 获取技术[J]. 交通与运输:学术版。2011,12:33-36.
[17] 杨军峰。 基于公交视频的公交线路客流 OD 获得方法研究[D]. 长安大学,2013.
[18] Wu X, Sahoo D, Hoi S C, et al. Recent Advances in Deep Learning for Object Detection.[J]. arXiv:Computer Vision and Pattern Recognition, 2019.
[19] Zou Z, Shi Z, Guo Y, et al. Object Detection in 20 Years: A Survey[J]. arXiv: Computer Vision andPattern Recognition, 2019.
[20] Vedaldi A, Gulshan V, Varma M, et al. Multiple kernels for object detection[C]. International Conferenceon Computer Vision, 2009: 606-613.
[21] Lienhart R, Maydt J. An extended set of Haar-like features for rapid object detection[C]. InternationalConference on Image Processing, 2002: 900-903.
[22] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]. Computer Vision andPattern Recognition, 2005: 886-893.
[23] Bay H, Tuytelaars T, Van Gool L, et al. SURF: speeded up robust features[C]. European Conference onComputer Vision, 2006: 404-417.
[24] Hearst M A , Dumais S T , Osman E , et al. Support vector machines[J]. IEEE Intelligent Systems, 1998,13(4):18-28.
[25] Freund Y, Schapire R E. Experiments with a new boosting algorithm[C]. International Conference onMachine Learning, 1996: 148-156.
[26] Opitz D W, Maclin R. Popular ensemble methods: an empirical study[J]. Journal of ArtificialIntelligence Research, 1999, 11(1): 169-198.
[27] Felzenszwalb P F, Mcallester D, Ramanan D, et al. A discriminatively trained, multiscale, deformablepart model[C]. Computer Vision and Pattern Recognition, 2008: 1-8.
[28] Pedro F Felzenszwalb, Ross B Girshick, David McAllester, et al. Object Detection with DiscriminativelyTrained Part-Based Models[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010,32(9):1627-1645.
[29] Ross B Girshick, Pedro F Felzenszwalb, David Mcallester, Object Detection with GrammarModels[J].Advances in Neural Information Processing Systems, 2011,442-450.
[30] Girshick R, Felzenszwalb P F, Mcallester D, et al. Object Detection with Grammar Models[C]. NeuralInformation Processing Systems, 2011: 442-450.
[31] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection andSemantic Segmentation[C]. Computer Vision and Pattern Recognition, 2014: 580-587.
[32] Girshick R. Fast R-CNN[C]. International Conference on Computer Vision, 2015: 1440-1448.
[33] Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposalnetworks[C]. Neural Information Processing Systems, 2015: 91-99.
[34] Lin T, Dollar P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]. Computer Visionand Pattern Recognition, 2017: 936-944.
[35] Redmon J, Divvala S K, Girshick R, et al. You Only Look Once: Unified, Real-Time ObjectDetection[C]. Computer Vision and Pattern Recognition, 2016: 779-788.
[36] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]. Computer Vision and PatternRecognition, 2017: 6517-6525.
[37] Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[J]. arXiv: Computer Vision and PatternRecognition, 2018.
[38] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]. European Conference onComputer Vision, 2016: 21-37.
[39] Law H, Deng J. CornerNet: Detecting Objects as Paired Keypoints[C]. European Conference onComputer Vision, 2018: 765-781.
[40] Zhou X, Zhuo J, Krahenbuhl P, et al. Bottom-Up Object Detection by Grouping Extreme and CenterPoints[C]. Computer Vision and Pattern Recognition, 2019: 850-859.
[41] Ciaparrone G, Sanchez F L, Tabik S, et al. Deep learning in video multi-object tracking: A survey[J].
Neurocomputing, 2020: 61-88.
[42] Geiger A, Lauer M, Wojek C, et al. 3D Traffic Scene Understanding From Movable Platforms[J]. IEEETransactions on Pattern Analysis and Machine Intelligence, 2014, 36(5): 1012-1025.
[43] Zhang H, Geiger A, Urtasun R, et al. Understanding High-Level Semantics by Modeling TrafficPatterns[C]. International Conference on Computer Vision, 2013: 3056-3063.
[44] Tang S, Andriluka M, Andres B, et al. Multiple People Tracking by Lifted Multicut and Person Reidentification[C]. Computer Vision and Pattern Recognition, 2017: 3701-3710.
[45] Tang Z, Wang G, Xiao H, et al. Single-Camera and Inter-Camera Vehicle Tracking and 3D SpeedEstimation Based on Fusion of Visual and Semantic Features[C]. Computer Vision and Pattern Recognition,2018: 108-115.
[46] Bewley A, Ge Z, Ott L, et al. Simple online and realtime tracking[C]. International Conference on ImageProcessing, 2016: 3464-3468.
[47] Wojke N, Bewley A, Paulus D, et al. Simple online and realtime tracking with a deep associationmetric[C]. International Conference on Image Processing, 2017: 3645-3649.
[48] Ristani E, Tomasi C. Features for Multi-target Multi-camera Tracking and Re-identification[C].
Computer Vision and Pattern Recognition, 2018: 6036-6046.
[49] Zhang Z, Wu J, Zhang X, et al. Multi-Target, Multi-Camera Tracking by Hierarchical Clustering: RecentProgress on DukeMTMC Project[C]. Computer Vision and Pattern Recognition, 2017.
Computer Vision and Pattern Recognition, 2019.
[51] Zheng L, Shen L, Tian L, et al. Scalable Person Re-identification: A Benchmark[C]. InternationalConference on Computer Vision, 2015: 1116-1124.
[52] Sun Y, Zheng L, Yang Y, et al. Beyond Part Models: Person Retrieval with Refined Part Pooling[J].
Computer Vision - ECCV 2018. 15th European Conference. Proceedings: Lecture Notes in ComputerScience,2017:501-518[53] Mcculloch W. Pitts W.A logical calculus of the ideas immanent in nervous activity[J]. The Bulletin ofmathematical biophysics,1943,5(4):115-133.
[54] Hebb D O. Elaborations of Hebb's cell assembly theory[M]. Neuropsychology after Lashley.Routledgc,2018:483-496.
[55] Kobayashi M. Hyperbolic Hopfield neural networks[J]. IEEE Transactions on Neural Networks andLearning Systcms,2013,24(2):335-341.
[56] Hameed AA, Karlik B, Salman M S. Back-propagation algorithm with variable adaptive momentum[J].Knowledge-based systcms,2016,114:79-87.
[57] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].science,2006,313(5786):504-507.
[58] Fukushima K. Neocognitron: A self-organizing neural network model for a mechanism of patternrecognition unaffected by shift in position[J]. Biological Cybcrnctics,1980,36(4):193-202.
[59] 金翠, 王洪元, 陈首兵。 基于随机擦除行人对齐网络的行人重识别方法[J]. 山东大学学报(工学版),2018,48(6):67-73.
[60] Deng W, Zheng L, Ye Q, et al. Image-image domain adaptation with preserved self-similarity anddomain-dissimilarity for person re-identification[C], Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2018:994-1003.
[61] He X, Zhou Y, Zhou Z, et al. Triplet-center loss for multi-view 3D object retrieval[C], Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2018:1945-1954.
[62] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C],Proceedings of the IEEE conference on computer vision and pattern recognition.2016:2818-2826.
致 谢
时光荏苒,日月如梭,又一年的毕业季到来了,回想这几年的研究生生活,我要对所有指导、帮助和支持过我的人致以最诚挚的感谢!首先,我要感谢的是我的导师黄正东教授。三年前,有幸成为黄老师的学生,在研究生生涯的三年中,我在黄老师的指导下,进行了科研调查,专利申请,论文投稿,毕业设计等工作,我从中得到了很多的进步,也让我得到了成长。黄老师知识渊博、视野开阔、治学精神严谨、科研精益求精,平易近人的待人风格和宽容的心怀给我带来了很大影响,让我终生受益。黄老师为人豁达而宽和,不仅是我学业上的良师,也是我做人的楷模。老师在学业上的悉心指导,在科研上的尽心引导,在生活中的热心帮助,令我感激不已,在此谨向导师致以最衷心的感谢和最崇高的敬意!
其次,我要感谢给我们上课的张星、涂伟、乐阳、夏吉喆等老师,他们的课程活泼生动,让我受益良多。我要感谢同班优秀又有趣的徐逸、朱婷婷、吴凯鹏、黄嘉俊、董轩妍和金伟,很荣幸能够成为地信中的一员,一起上课学习和交流。感谢同门的伍宝、林泽平、韦艳莎和张丹凤,我们在黄老师的指导下一起科研调查和学习。感谢赵天鸿师兄,在我的毕业设计中,赵师兄耐心指导,提出了许多宝贵的意见和建议,给予了我很大的帮助。
最后要感谢我的父母、家人和朋友们。他们的支持是我读研的动力,也是我学习和科研的动力。
他们在读研期间对我的物质资助和关心,也是我读研期间可以心无旁骛学习和研究的基础。
(如您需要查看本篇毕业设计全文,请您联系客服索取)