摘要
计算机视觉技术是人工智能的主要研究方向之一,随着图像或者视频的数据规模快速增长,以及计算能力的?升,计算机视觉技术在近几年获得了前所未有的发展,被广泛应用于多种场景,如无人驾驶,人流监控等。为了挖掘人工智能技术的应用潜力,笔者将其成功的应用了到无人零售场景。本文设计了一种物体抓取识别算法,该算法基于深度学习和计算机视觉技术,能够在目标被抓取的状态下,识别目标物体的个数和种类,可用于识别零售场景中顾客抓取的商品。它包含三个算法模块:立体匹配、物体识别和行为识别,其主要内容如下:
为了让目标物体多角度的暴露在视野范围内以获得多角度的信息源,并避免单摄像机被遮挡以至算法完全失效,本文采用了多摄像机的架设方案,设计和实现了一种快速立体匹配算法,该算法利用双目相机的对极约束条件以及动态规划,能够在线性时间内完成匹配,在多个相机之间定位同一个物体。
物体识别算法是本文的核心,零售场景需要识别出目标的种类及相应的个数,尽管目标检测算法可以实现这一目的,但是需要大量的标注成本和计算成本。本文使用弱监督学习的模型训练方案,设计了一种深度卷积神经网络和一个计数损失函数,不需要标注目标物体的位置信息,就可以识别出图像中目标物体的个数和类别。并且,笔者为这一视觉识别任务设计了一种评估指标,较传统的精确率和召回率相比它更为严格,在笔者?出的数据集下,实现了 94.6%的准确度,模型的前向时间仅需 3.87 毫秒。
行为识别采用双流神经网络,?取视频的空域信息和时域信息,识别出目标顾客在商店中做出的购买行为。最后,笔者设计了一种视频数据的自动标注算法,它利用插值算法和卷积神经网络能够准确的预测目标的标定框,大幅地降低人工标注成本。
关键词:深度学习,计算机视觉,立体匹配,图像识别,行为识别
Abstract
Computer vision technology is one of the main research directions of artificial intelligence. With the rapid growth of image or video data size and the improvement of computing power, computer vision technology has achieved unprecedented development in recent years and is widely used in various scenarios, e.g. driverless and crowd monitoring. This paper implemented a set of intelligent recognition algorithms and successfully applied it to automatic checkout retail.
This paper designs an object capture recognition algorithm based on deep learning and computer vision technology. It can identify the number and category of target objects in the state where the target is hold by hand. It can be used to identify items held by customers in a retail scene. It contains two algorithm modules, which are stereo matching algorithm and object recognition algorithm. The main contents are as follows:
In order to expose the target object to multiple angles of view in the field of view to obtain a multi-angle information source, and avoid the single camera being occluded and the algorithm completely failed. In this paper, a multi-camera erection scheme is adopted to design and implement a fast stereo matching algorithm. The algorithm utilizes the polar constraints of the binocular camera and dynamic programming,completing the matching in linear time and locating the same object between multiple cameras.
The object recognition algorithm is the core of this paper. The retail scene needs to identify the type of target and the corresponding number. Although the target detection algorithm can achieve this purpose, it requires a lot of labeling cost and calculation cost. This paper utilized weak supervised learning, designed a deep convolutional neural network and a counting loss function. The number and type of target objects in the image can be identified without labeling the position information of the target object. Moreover, this paper have designed an evaluation function for this visual recognition task, which is stricter than the traditional accuracy and recall rate. Under our data set, this paper achieved 94.6% accuracy, and the forward time of the model is only 3.87 milliseconds.
Action Recognition uses Two-Stream Neural Network to extract temporal feature and spatial feature, then identify the purchase behavior made by target customer in the store. Finally, this paper also designed an automatic labeling algorithm for video data,which uses interpolation algorithm and convolutional neural network to accurately predict the target Bounding Box, which greatly reduces the cost of manual labeling.
Keywords: Deep Learning, Computer Vision, Stereo Matching, Image Recognition, Action Recognition
目录
第 1 章 绪论
1.1 研究背景及意义
据统计,欧洲发达国家平均每 60 人就有一台无人零售柜可供使用,美国平均每 40 人就可使用一台无人零售柜,日本的零售行业更为发达,平均每 25 人就有一台无人零售柜,而中国的无人零售柜总量约为 25 万台,平均每 4500 人才可使用一台,远远落后于这些国家的平均水平,这也反映了无人零售柜这一产业在中国的发展潜力。
本文使用计算机视觉和深度学习技术,设计的"智能抓取识别系统",已成功应用于便利店的货架和自动贩卖机的实际场景中。该系统通过本文所设计的算法,能够识别人在一个商品展示架前是否做出了抓取或者放回的动作,以及抓取的是何物品。对于"自动支付便利店"项目,在顾客进入门店时,通过人脸识别绑定用户账号,当用户在店内抓取或放回商品,通过识别行为主体、行为、物体,实现物品在对应账号购物车的添加和删除,用户离店时,无需显式的支付过程即可完成支付,免去了营业员的收银工作。对于"自动支付贩卖机"项目,它和传统的自动售货机不同,它不需要复杂的机械设备或 RFID 作为辅助,只通过相机识别客户所拿到的物品,它通过面部识别打开机柜,并在门关闭后自动进行支付。
客户不需要任何额外的操作,就像在家里的冰箱里拿东西一样。它彻底颠覆了传统的复杂机械设备,取而代之的是其他的硬件设备:在固定位置放置的一对摄像头,后台服务器,以及适合使用场景的准入设施(电子锁,门禁等)。
可以看出,这些项目应用在零售场景中,可以减少商家的营运成本,让顾客达到"拿了就走"的购物体验,并通过分析用户行为,购物记录,改善便利店的运营状况。本文来源于这一项目中智能识别算法的研究工作。除此之外,它具有应用于其他场景的潜力,如警局、消防局的设备管理,书店、展厅的指定物品摆放。
随着国家人工智能发展战略的?出,国家鼓励人工智能创新项目的开展和企业发展,人们对人工智能这一技术认识的深化,以及人工智能计数本身的发展,由人工智能赋能的零售行业,如便利店、零售柜等将逐渐本项目的被市场认可,具有巨大的发展潜力,将会应用到国内市场的各个领域。同时,设计和实现的人工智能赋能的零售产品具有降低运营成本以及让顾客享受流畅的购物体验的特性,已经和产业相关的上下游知名企业形成了密切合作,如冷柜生产企业,大型传统零售企业,国内知名地产商等,已经在国内的多个消费场景部署了无人便利店和无人零售柜等产品,如学校、银行、商超、交通、物业等。
1.2 国内外研究现状分析
无人零售场景的核心问题,是一个"Who-Take-What"的问题,即"谁拿了什么".基于计算机视觉技术,解决"Who"的问题,普遍采用人脸识别(FaceRecognition)或行人重识别(Person Re-identification)识别图像中的目标是谁。
"What"的问题,在便利店场景下,即是识别顾客所抓取的商品是什么,在计算机视觉中,这是一个图像分类(Image Classification)或物体检测(Object Detection)问题。而"Take"的问题,是整个系统的关键,它是联系"Who"和"What"的纽带,解决的是人和商品的绑定,是准确向顾客账户购物车添加、删除商品的关键。在实践中,可以利用计算机视觉技术中的行为识别(Action Recognition)、人体姿态估计(Human Pose Estimation)来实现这一功能。
自大规模图像分类数据集 ILSVRC 的开放和深度学习在该数据集上大获成功[1]开始,深度学习在计算机视觉的各个方向大放异彩,可以应用结合了深度学习的计算机视觉技术实现上面?到的各个功能,如人脸检测和人脸识别,物体识别,行为识别等。为了解决"Who-Take-What"的问题,需要设计不同的算法模块,对应的解决这些问题,并将各个算法模块集成在一个完整的系统里。
对于"Who"的问题,即"是谁做出了这次行为",可以实现一个人脸检测(Face Detection)和人脸识别(Face Recognition)算法模块解决这一问题。大部分深度学习算法在人脸检测数据集 FDDB[2]和人脸识别数据集 LFW[3][4]都能取得很好的效果(99%以上),尽管如此,深度学习在开源的网络数据集上的效果好,通常仅能代表该模型的有效性,不代表该模型在实际场景也能获得很好的准确率,[5]
的研究人员设计了一个非常简单的深度学习模型,通过网络收集的人脸数据集训练模型,在 LFW 数据集上验证的准确率达到 99.5%,然而在另一个现实场景的人脸验证数据集,准确率仅达到 66%.人脸识别是非常依赖大量数据的,要想在现实场景中取得高准确率,一定要在特定域(specific domain)的数据集上做训练。在便利店场景下,拍摄到的人连数据主要面临两大困难:1)位姿不固定,2)光照变化,在实际使用中发现,MTCNN [6] 和 Facenet [7] 分别是人脸检测和人脸识别实际使用效果较好的模型,笔者通过 MEGAFace[8][9]人脸数据集训练出了实际可用的是脸识别模型。人脸识别是触发式的,即产生了一些特定的行为,才会对相机拍下的照片进行识别。又因为一个店内有多组货架,还需要定位每个货架,每个顾客的准确位置。对此,笔者使用计算机视觉的三维重建(3DReconstruction)技术,对多摄像机标定,建立一个三维的世界坐标系,将每个人,每一摄像头,每一货架,甚至是货架上的每一货位,都映射到世界坐标系当中。
对于"What"的问题,即"触发行为的物体是什么",需要设计一个物体识别系统。尽管可以使用结合了深度学习的图像分类或者物体检测解决这一问题,如图像分类[1][10][11]
,目标检测[12][13][14][15][16][17][18][19] [20][21].笔者更进一步,采用了弱监督学习的算法,设计了一种卷积神经网络,以及相应的损失函数和评价标准,能够在没有标定框的条件下识别图像中目标的类别和数量。同时,为了避免由单个相机遮挡造成的完全识别失效,还采用了多摄像机架设的方案识别物体,同时,为了达到相机间的连通而不是各自独立识别,本文利用双目相机的对极约束原理和动态规划实现了一种快速的立体匹配算法。
对于"Take"的问题,是整个系统实现的关键问题,它是"Who"和"What"之间的联系,也就是人和商品的绑定问题。也就是当一个商品离开货架,而摄像机定位到了当前货架前有不止一位顾客,如何判断是哪一位顾客选取了这个商品?
针对此,笔者设计了两种方案:1) 使用行为识别(Action Recognition)或者行为检测(Action Detection), 定位当前行为发生的主体,再通过人脸识别完成人和商品的绑定。2) 使用人体姿态估计(Human Pose Estimation),定位所有手腕的位置,再通过欧式距离绑定人和商品。这两种方法是互补的,可以互相弥补对方的不足和缺陷,甚至可以采用特征融合策略(Feature Fusion Strategy),?升行为识别的准确率。在传统方法中,iDT[22][23]
取得的效果是最好的。深度学习在行为识别中的实现,主要有三种,1)三维卷积网络[24]
在时序和空域维度上同时卷积。
2)同时输入运动特征(密集轨迹)和 RGB 图像的双流卷积神经网络[25].3)使用循环神经网络,RNN,LSTM 在时序维度上?取特征[26].另外,也有通过传感器识别人体做出的行为[27][28].
1.3 研究目标及内容
本文根据项目需求,对相关领域的研究进展、理论和技术做了一定程度的研究和调研工作,形成了文献综述。设计和实现了一种视频标注工具,该工具基于VATIC 软件,复用了该软件的前端页面和后端程序,重新设计了该软件的识别算法,使用插值算法和基于深度学习的目标检测算法,能够实时的自动标注目标物体。
本文通过多摄像机架设的方案识别物体,以尽量避免由单个相机遮挡造成的完全识别失效。利用双目相机的对极约束原理和动态规划实现了一种快速的立体匹配算法。同时设计了一个卷积神经网络,该网络能够识别图像中目标的类别和数量,在模型结构,损失函数,评价标准上都有所创新。
多相机架设条件下,物体抓取识别算法的流程为:1)对左摄像头运行实时的目标检测,当检测出"手持物品"时,2)运行立体匹配,找到检测框在右摄像头相对应的位置,3)通过视差计算目标深度,通过标定好的相机模型,重建目标在真实世界的位置,4)调用多目标追踪模块,形成手持商品的追踪轨迹,5)?
取每一对检测框的特征,融合左右两个相机?取的特征,识别商品类别。6)根据行为识别的结果,为顾客的账单中添加或删除商品。
1.4 本文组织结构
在绪论部分,本文阐述了研究的来源和项目背景,分析了项目的可行性和市场价值,分析了项目的实现方法,详细地介绍了当前国内外相关领域研究进展,以及如何应用这些研究实现本文?出的研究内容。
第二章是相关概念和技术,这一章对双目视觉和立体匹配、物体识别、行为识别做了充分的理论和技术分析,它奠定了本文接下来的研究工作和方向。
结合了深度学习的计算机视觉技术是一种数据驱动方法(Data DrivenApproach),它需要大量的数据训练和验证模型的能力,任务或问题的不同直接影响着数据的标注格式,数据标注软件的性能直接影响着模型的实现成本。因此,在第三章,介绍了本文基于 VATIC 设计和修改实现的数据标注工具,它通过基于深度学习的目标检测算法、插值算法能够自动标注视频中的目标物体,除此之外,还介绍了本文所使用数据的标注格式和数据规模。
笔者的项目使用摄像头实时的拍摄目标区域,将数据传递给服务器,调用算法分析和识别。静止架设的单摄像头十分容易受到遮挡的影响和失去作用,在实际应用中往往采取双摄像机或者多摄像机的配置解决因角度问题而产生的遮挡。
然而,多路相机只能通过融合各个相机的识别结果得到一个最终结果,因为各个相机之间没有任何联系。本文通过双目视觉和立体匹配算法将相机联系到一起。
在第四章详细介绍了这一方法,此章节详述了本项目在构建立体视觉时,遇到的主要问题,算法的理论依据,针对问题所?出的算法设计,以及实验过程。
第五章是本文最主要的内容,商品识别。这一章详细介绍本项目的商品识别算法模块,介绍了本文设计的深度卷积神经网络的模型结构,用于识别和计数的损失函数、训练模型的实现细节、模型评估方法等。
第六章展示了笔者所设计的行为识别模型,它可以用于识别商店中顾客做出的具体行为,进而能够配合商品识别模型实现自动的增减购物车操作。本章介绍了行为识别模型所使用的数据集,模型结构,实验结果等。
第 2 章 相关概念和技术
2.1 双目视觉和立体匹配
2.1.1 双目视觉
2.1.2 立体匹配
2.1.3 积分直方图的应用
2.2 物体识别
2.3 行为识别
第 3 章 标注工具和数据集
3.1 VATIC 标注工具的插值算法原理
3.2 基于 VATIC 插值算法的改进策略
3.3 数据的内容和标注方法
3.4 数据标注的统计结果
第 4 章 立体视觉
4.1 对极约束
4.2 立体匹配
4.2.1 积分图和积分直方图的概念
4.2.2 积分直方图的算法
4.2.3 子区域的计算
4.2.4 快速积分直方图算法
4.3 双目视觉算法流程
4.3.1 相机标定
4.3.2 立体矫正
4.3.3 立体匹配
第 5 章 物体识别
5.1 网络结构
5.2 损失函数
5.2.1 多任务学习
5.2.2 标签编码
5.2.3 计数损失
5.3 实现细节
5.3.1 实现平台
5.3.2 迁移学习和参数初始化
5.3.3 优化方法
5.3.4 预处理和数据增强
5.3.5 结果量化
5.3.6 训练效果
5.4 模型评估
5.4.1 计数评估标准
5.4.2 实验验证
5.4.3 双流物体识别
5.4.4 错误识别分析
第 6 章 行为识别
6.1 数据集
6.2 运动信息
6.3 网络结构
6.4 模型评估
第7 章 总结与展望
在本文的研究过程中,参考了大量计算机视觉方向的国际顶级期刊、会议的文章,如 CVPR,ICCV,ECCV,IJCV.对于开源了源代码的文章,笔者都运行过并见到了实际的效果,对于未开源代码的文章,都有学习它们的思想,并复现了部分文章。
本文使用了 Python、C++和 Matlab 三种编程语言实现,相机标定部分使用Matlab 实现,双目视觉和立体匹配部分使用 C++实现,物体识别的部分使用Python 和深度学习框架 Pytorch 实现。之所以使用不同的编程语言是因为不同的任务有其不同的需求,不同的编程语言也有其不同的特性和生态,在进行研究和实现时,必须依据具体问题选择适当的工具。比如 C++的运行速度更快,所以更适合实时性要求非常高的立体匹配算法,Python 更加灵活,处理数据、可视化的能力强大,有配套的深度学习框架,所以它非常适合用于深度学习的算法实验,而 Matlab 的标定程序经过比较,其精确度优于 C++的 OpenCV 框架。
本文主要介绍了四项工作,自动标注、立体匹配、物体识别和行为识别。自动标注是基于 VATIC 的软件和算法框架修改的,其节省标注的能力更胜一筹。
立体匹配算法利用了双目视觉的对极约束条件,通过动态规划的思想,在线性的时间内就完成了立体匹配。物体识别是一项全新的工作,它通过弱监督学习的训练方法,在不?供标定框的条件下即可识别图像上的物体及其数量。行为识别则实现了对视频数据的分类,达成了识别目标顾客行为的目标。
在接下来,笔者将继续开展本文的研究和实现,其方向主要有二。
其一,继续弱监督学习物体识别的研究,虽然当前的准确率足够,但是模型的可解释性不强,我将尝试 Region Proposal Network 的思想,继续实验。
除此之外,在立体匹配的基础之上,我将尝试使用多源输入网络,如深度孪生网络(Siamese Network), 双流神经网络(Two-Stream Neural Network)。
参考文献
[1] Russakovsky O , Deng J , Su H , et al. ImageNet Large Scale Visual Recognition Challenge[J].International Journal of Computer Vision, 2015, 115(3):211-252.
[2] Jain V, Learned-Miller E. Fddb: A benchmark for face detection in unconstrained settings[R].UMass Amherst Technical Report, 2010.
[3] Huang G B, Mattar M, Berg T, et al. Labeled faces in the wild: A database forstudying facerecognition in unconstrained environments[C]Workshop on faces in'Real-Life'Images:detection, alignment, and recognition. 2008.
[4] Learned-Miller E, Huang G B, RoyChowdhury A, et al. Labeled faces in the wild: Asurvey[M]Advances in face detection and facial image analysis. Springer, Cham, 2016: 189-248.
[5] Zhou E, Cao Z, Yin Q. Naive-deep face recognition: Touching the limit of LFW benchmark ornot?[J]. arXiv preprint arXiv:1501.04690, 2015.
[6] Zhang K, Zhang Z, Li Z, et al. Joint face detection and alignment using multitask cascadedconvolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.
[7] Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition andclustering[A] Computer Vision and Pattern Recognition (CVPR) [C] Boston, MassachusettsUSA: Proceedings of the IEEE conference on computer vision and pattern recognition. 2015:815-823.
[8] Nech A, Kemelmacher-Shlizerman I. Level playing field for million scale face recognition[A]Computer Vision and Pattern Recognition (CVPR) [C] Honolulu, HI, USA: Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 2017: 7044-7053.
[9] Kemelmacher-Shlizerman I, Seitz S M, Miller D, et al. The megaface benchmark: 1 millionfaces for recognition at scale[A] Computer Vision and Pattern Recognition (CVPR) [C] LasVegas, NV, USA:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016: 4873-4882.
[10] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale imagerecognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[11] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[A] Computer Visionand Pattern Recognition (CVPR)[C] Las Vegas, NV, USA: Proceedings of the IEEE conferenceon computer vision and pattern recognition. 2016: 770-778.
[12] Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization anddetection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.
[13] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visualrecognition[A] European Conference on Computer Vision(eccv)[C].Zurich, Switzerland: european conference on computer vision. Springer, Cham, 2014: 346-361.
[14] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detectionand semantic segmentation[A].Computer Vision and Pattern Recognition(CVPR) [C]Columbus, Ohio, USA: Proceedings of the IEEE conference on computer vision and pattern] Girshick R. Fast R-CNN[A] Computer Vision (ICCV) [C] Santiago, Chile:2015 IEEEInternational Conference on. IEEE, 2015: 1440-1448.
[16] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with regionproposal networks[A] Neural Information Processing Systems(NIPS) [C] Palais des Congrèsde Montréal, Montréal CANADA :Advances in neural information processing systems. 2015:91-99.
[17] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. arXiv preprintarXiv:1708.02002, 2017.
[18] Ren S, He K, Girshick R, et al. Object detection networks on convolutional feature maps[J].IEEE transactions on pattern analysis and machine intelligence, 2017, 39(7): 1476-1481.
[19] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time objectdetection[A] Computer Vision and Pattern Recognition(CVPR) [C] Las Vegas, NV, USA:Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
[20] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[J]. arXiv preprint, 2017.
[21] Redmon J, Farhadi A. YOLOv3: An incremental improvement[J]. arXiv preprintarXiv:1804.02767, 2018.
[22] Wang H, Kl?ser A, Schmid C, et al. Action recognition by dense trajectories[A] ComputerVision and Pattern Recognition (CVPR) [C]. Colorado Springs, CO, USA: 2011 IEEEConference on. IEEE, 2011: 3169-3176.
[23] Wang H, Schmid C. Action recognition with improved trajectories[A].Computer Vision (ICCV)[C] Sydney, Australia:2013 IEEE International Conference on. IEEE, 2013: 3551-3558.
[24] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutionalnetworks[A]. Computer Vision (ICCV) [C] Santiago, Chile: 2015 IEEE InternationalConference on. IEEE, 2015: 4489-4497.
[25] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition invideos[A] Neural Information Processing Systems(NIPS) [C]. Palais des Congrès de Montréal,Montréal CANADA : Advances in neural information processing systems. 2014: 568-576.
[26] Singh B, Marks T K, Jones M, et al. A multi-stream bi-directional recurrent neural network forfine-grained action detection[A] Computer Vision and Pattern Recognition (CVPR)[C] LasVegas, NV, USA :Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016: 1961-1970.
[27] Christ M, Braun N, Neuffer J, et al. Time Series FeatuRe Extraction on basis of scalablehypothesis tests (tsfresh-A Python package)[J]. Neurocomputing, 2018, 307: 72-77.
[28] Lockhart J W, Weiss G M, Xue J C, et al. Design considerations for the WISDM smart phonebased sensor mining architecture[A] Proceedings of the Fifth International Workshop onKnowledge Discovery from Sensor Data[C] New York, NY, USA: ACM, 2011: 25-33.
[29] Scharstein D, Szeliski R. A taxonomy and evaluation of dense two-frame stereocorrespondence algorithms[J]. International journal of computer vision, 2002, 47(1-3): 7-42[30] Zbontar J, LeCun Y. Stereo Matching by Training a Convolutional Neural Network to CompareImage Patches[J]. Journal of Machine Learning Research, 2016, 17(1-32): 2.
[31] Zhang K, Lafruit G, Lauwereins R, et al. Joint integral histograms and its application in stereo matching[A]International Conference on Image Processing(ICIP)[C] Hong Kong, China :2010 IEEE International Conference on Image Processing. IEEE, 2010: 817-820.
[32] Porikli F. Constant time O (1) bilateral filtering[A] Computer Vision and Pattern Recognition(CVPR)[C] Anchorage, AK, USA : 2008 IEEE Conference on Computer Vision and PatternRecognition. IEEE, 2008: 1-8.
[33] Ghanem B, Niebles J C, Snoek C, et al. ActivityNet Challenge 2017 Summary[J]. arXivpreprint arXiv:1710.08011, 2017.
[34] Ferrari V, Marin-Jimenez M, Zisserman A. Progressive search space reduction for human poseestimation[A] Computer Vision and Pattern Recognition [C] Anchorage, Alaska, USA :2008.CVPR 2008. IEEE Conference on. IEEE, 2008: 1-8.
[35] Shotton J, Girshick R, Fitzgibbon A, et al. Efficient human pose estimation from single depthimages[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2821-2840.
[36] Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines[A] Computer Visionand Pattern Recognition(CVPR) [C] Las Vegas, NV, USA: Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. 2016: 4724-4732.
[37] Cao Z, Simon T, Wei S E, et al. Realtime multi-person 2d pose estimation using part affinityfields[A] Computer Vision and Pattern Recognition(CVPR) [C] Honolulu, HI, USA: CVPR.2017, 1(2): 7.
[38] Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation[A]European Conference on Computer Vision (ECCV)[C]. Amsterdam, The Netherlands :Springer, Cham, 2016: 483-499.
[39] Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutionalneural networks[A] Computer Vision and Pattern Recognition[C] Columbus, OH,USA :Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2014:1725-1732.
[40] Grauman K, Darrell T. The pyramid match kernel: Discriminative classification with sets ofimage features[A].Computer Vision, 2005. ICCV 2005.[C]. Beijing, China:Tenth IEEEInternational Conference on. IEEE, 2005, 2: 1458-1465.
[41] Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching forrecognizing natural scene categories[A]. Computer vision and pattern recognition [C]. NewYork, NY, USA:2006 IEEE computer society conference on. IEEE, 2006, 2: 2169-2178.
[42] Pishchulin L, Andriluka M, Schiele B. Fine-grained activity recognition with holistic and posebased features[A]. German Conference on Pattern Recognition (GCPR)[C]. Münster,Germany :Springer, Cham, 2014: 678-689.
[43] Yao A, Gall J, Van Gool L. Coupled action recognition and pose estimation from multipleviews[J]. International journal of computer vision, 2012, 100(1): 16-37.
[44] Singh V K, Nevatia R. Action recognition in cluttered dynamic scenes using pose-specific partmodels[A] Computer Vision (ICCV) [C] Barcelona, Spain:2011 IEEE InternationalConference on. IEEE, 2011: 113-120.
[45] Tran K N, Kakadiaris I A, Shah S K. Modeling motion of body parts for action recognition[A]British Machine Vision Conference (BMVC) [C] Dundee: BMVC. 2011, 11: 1-12.
[46] Soomro K, Zamir A R, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.
[47] Singh B, Marks T K, Jones M, et al. A multi-stream bi-directional recurrent neural network forfine-grained action detection[A] Computer Vision and Pattern Recognition (CVPR)[C] LasVegas, NV, USA :Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016: 1961-1970.
[48] Rohrbach M, Amin S, Andriluka M, et al. A database for fine grained activity detection ofcooking activities[A] Computer Vision and Pattern Recognition (CVPR) [C] Providence, RI,USA:2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 1194-1201.
[49] Pishchulin L, Andriluka M, Schiele B. Fine-grained activity recognition with holistic and posebased features[A] German Conference on Pattern Recognition(GCPR) [C]. Columbus, Ohio:Springer, Cham, 2014: 678-689.
[50] Jhuang H, Gall J, Zuffi S, et al. Towards understanding action recognition[A]. Computer Vision(ICCV) [C] Sydney, NSW, Australia: 2013 IEEE International Conference on. IEEE, 2013:3192-3199.
[51] Pishchulin L, Andriluka M, Schiele B. Fine-grained activity recognition with holistic and posebased features[A] German Conference on Pattern Recognition(GCPR) [C]. Columbus, Ohio:Springer, Cham, 2014: 678-689.
[52] Sorokin A, Forsyth D. Utility data annotation with amazon mechanical turk[A] ComputerVision and Pattern Recognition (CVPR)[C]. Anchorage, AK, USA : 2008 IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2008: 1-8.
[53] Russell B C, Torralba A, Murphy K P, et al. LabelMe: A Database and Web-Based Tool forImage Annotation[J]. International Journal of Computer Vision, 2008, 77(1-3):157-173.
[54] Vondrick C, Ramanan D, Patterson D. Efficiently scaling up video annotation withcrowdsourced marketplaces[A] European Conference on Computer Vision(ECCV) [C]Heraklion, Crete, Greece:European Conference on Computer Vision. Springer, Berlin,Heidelberg, 2010: 610-623.
[55] Dalal N, Triggs B. Histograms of oriented gradients for human detection[A] Computer Visionand Pattern Recognition (CVPR) [C] San Diego, CA, USA : international Conference oncomputer vision & Pattern Recognition (CVPR'05)。 IEEE Computer Society, 2005, 1: 886--893.
[56] Gupta S, Hoffman J, Malik J. Cross modal distillation for supervision transfer[A] ComputerVision and Pattern Recognition (CVPR) [C] Las Vegas, NV, USA:2016 IEEE Conference on.IEEE, 2016: 2827-2836.
[57] Huang J, Rathod V, Sun C, et al. Speed/accuracy trade-offs for modern convolutional objectdetectors[A] Computer Vision and Pattern Recognition (CVPR) [C] Honolulu, HI, USA: IEEECVPR. 2017: 3296-3297.
[58] Erhan D, Szegedy C, Toshev A, et al. Scalable object detection using deep neural networks[A]Computer Vision and Pattern Recognition(CVPR)[C] Columbus, OH, USA : Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2147-2154.
[59] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multiBox detector[A] EuropeanConference on Computer Vision(ECCV)[C] Zurich, Switzerland: European conference on computer vision. Springer, Cham, 2016: 21-37.
[60] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminativelytrained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence,2010, 32(9): 1627-1645.
[61] Girshick R, Iandola F, Darrell T, et al. Deformable part models are convolutional neuralnetworks[A] Computer Vision and Pattern Recognition(CVPR)[C] Boston, Massachusetts,USA :Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2015:437-446.
[62] Porikli F. Integral histogram: A fast way to extract histograms in cartesian spaces[A] ComputerVision and Pattern Recognition (CVPR)[C] San Diego, CA, USA : 2005 IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition (CVPR'05)。 IEEE, 2005, 1:829-836.
[63] Konolige K. Small vision systems: Hardware and implementation[M]Robotics research.Springer, London, 1998: 203-212.
[64] Konolige K. Small vision systems: Hardware and implementation[M]Robotics research.Springer, London, 1998: 203-212.
[65] Hirschmüller H. Accurate and efficient stereo processing by semi-global matching and mutualinformation[C]null. IEEE, 2005: 807-814.
[66] Seguí S, Pujol O, Vitria J. Learning to count with deep object features[A] Computer Vision andPattern Recognition (CVPR)[C] Boston, MA : Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition Workshops. 2015: 90-96.
[67] Rahnemoonfar M, Sheppard C. Deep count: fruit counting based on deep simulated learning[J].Sensors, 2017, 17(4): 905.
[68] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on knowledge and dataengineering, 2010, 22(10): 1345-1359.
[69] Ruder S. An overview of gradient descent optimization algorithms[J]. arXiv preprintarXiv:1609.04747, 2016.
[70] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochasticoptimization[J]. Journal of Machine Learning Research, 2011, 12(Jul): 2121-2159.
[71] Tieleman T, Hinton G. Lecture 6.5-rmsprop: Divide the gradient by a running average of itsrecent magnitude[J]. COURSERA: Neural networks for machine learning, 2012, 4(2): 26-31.
[72] Sevilla-Lara L , Liao Y , Guney F , et al. On the Integration of Optical Flow and ActionRecognition[J]. 2017.
[73] Dosovitskiy A, Fischery P, Ilg E, et al. FlowNet: Learning Optical Flow with ConvolutionalNetworks[C]// IEEE International Conference on Computer Vision. 2015.
[74] Ilg E , Mayer N , Saikia T , et al. FlowNet 2.0: Evolution of Optical Flow Estimation with DeepNetworks[J]. 2016.
致谢
感谢黄继风教授对我的教导和帮助。感谢林捷先生对我的信任。感谢在项目背后默默付出的数据标注人员。