基于深度卷积神经网络的道路场景理解


计算机工程与应用 www.ceaj.org Computer Engineering and Applications计算机工程与应用2017,53(22) 1 引言 近几年来,随着智能车辆特别是无人驾驶汽车的飞 速发展,环境感知作为其最基本的任务受到极大的关 注,其中包括道路识别、汽车检测、行人检测及交通信号 识别等,这些问题本身就已经具有很大的挑战性。在过 去的几十年,许多算法被提出解决这些单个问题,这些 算法往往分别使用不同种类的传感器来获取环境目标 信息。道路场景理解是将视觉图像中每个像素进行分 基于深度卷积神经网络的道路场景理解 吴宗胜 1,2,傅卫平 2,韩改宁 1 WU Zongsheng1,2, FU Weiping2, HAN Gaining1 1.咸阳师范学院 计算机学院,陕西 咸阳 712000 2.西安理工大学 机械与精密仪器工程学院,西安 710048 1.School of Computer, Xianyang Normal University, Xianyang, Shaanxi 712000, China 2.School of Mechanical and Precision Instrumental Engineering, Xi’an University of Technology, Xi’an 710048, China WU Zongsheng, FU Weiping, HAN Gaining. Road scene understanding based on deep convolutional neural net- work. Computer Engineering and Applications, 2017, 53(22):8-15. Abstract:In the self-driving technology, the road scene understanding is a very important task for environment percep- tion, and it is a challenging topic. In this paper, a deep Road Scene Segmentation Network(RSSNet)is presented, which is a 32-layer full convolutional network composed of convolution encoded network and deconvolution decoded network. The batch normalization layer used in the RSSNet prevents the vanishing gradient problem from appearing during the training process; the activation layer using the Maxout function further weakens the vanishing gradient and avoids the net- work falling into a saturated mode and neuron death phenomenon; moreover, the RSSNet using dropout operation pre- vents the over-fitting phenomenon of the network model; the max-pool indices of the feature map saved by the encoded- network are used in the decoded-network to upsample the feature map, which keeps the important edge information down. The experimental results show that the RSSNet can greatly improve the training efficiency and the segmentation accuracy, effectively classify each pixel in the road scene image and smoothly segment the objects, and provide useful information of road environment for driverless cars. Key words:deep learning; convolutional neural network; scenes understanding; semantic segmentation 摘 要:在无人驾驶技术中,道路场景的理解是一个非常重要的环境感知任务,也是一个很具有挑战性的课题。提 出了一个深层的道路场景分割网络(Road Scene Segmentation Network,RSSNet),该网络为 32 层的全卷积神经网 络,由卷积编码网络和反卷积解码网络组成。网络中采用批正则化层防止了深度网络在训练中容易出现的“梯度消 失”问题;在激活层中采用了 Maxout 激活函数,进一步缓解了梯度消失,避免网络陷入饱和模式以及出现神经元死 亡现象;同时在网络中适当使用Dropout操作,防止了模型出现过拟合现象;编码网络存储了特征图的最大池化索引 并在解码网络中使用它们,保留了重要的边缘信息。实验证明,该网络能够大大提高训练效率和分割精度,有效识 别道路场景图像中各像素的类别并对目标进行平滑分割,为无人驾驶汽车提供有价值的道路环境信息。 关键词:深度学习;卷积神经网络;场景理解;语义分割 文献标志码:A 中图分类号:TP181 doi:10.3778/j.issn.1002-8331.1708-0195 基金项目:国家自然科学基金(No.10872160)。 作者简介:吴宗胜(1974—),男,博士,讲师,研究领域为智能机器人、机器视觉、图像处理,E-mail:wuzs2005@163.com;傅卫平 (1957—),男,教授,博士导师,研究领域为智能机器人与智能车辆、机电系统动力学分析与控制;韩改宁(1977—),女, 博士生,副教授,研究领域为智能机器人、智能车辆。 收稿日期:2017-08-16 修回日期:2017-10-11 文章编号:1002-8331(2017)22-0008-08 8计算机工程与应用 www.ceaj.org 2017,53(22) 类识别,并将整个目标(包括道路、汽车、行人等等)分割 出来,即进行像素级的语义分割,从而得到一个表示驾 驶场景的深度理解的语义标签图像。在智能车辆驾驶 辅助系统提醒潜在危险的任务中,使用场景的标签图像 来描述感知的环境更能反映驾驶员所看到的场景。而 在无人驾驶汽车中,平滑的语义标签图像具有更高的识 别精度,更方便于计算机理解,但这需要一种高效率高 精度的道路场景分割方法。 卷 积 神 经 网 络(Convolutional Neural Network, CNN)在近几年获得了重大进展,在图像、语音和文字的 识别方面均取得了突破性的成就[1]。而深度卷积神经网 络由于识别精度高,也得到了广泛的应用。深度卷积神 经网络的优势就是通过对原始信号进行逐层特征变换, 将样本在原空间的特征表示变换到新的特征空间,自动 地学习得到层次化的特征表示,从而更有利于分类或 特征的可视化[2]。Wang 等人[3]提出了一个称为加权分 层深度运动图(WHDMM)+三通道深度卷积神经网络 (3ConvNets)从小训练数据集的深度图中识别人体动 作,在单个数据集和组合数据集上得到较好的识别结 果。Shin等人[4]采用深度卷积神经网络来解决计算机辅 助检测问题,作者评估了不同的 CNN 结构、数据规模以 及空间图像背景对检查性能的影响,并使用迁移学习的 方法对医学图像进行检测。然而单纯的 CNN 不能对图 像进行直接分割,通常需要结合其他技术。使用 CNN 的语义标记技术(即语义分割)在交通场景中识别和分 割特定目标的任务中取得了傲人的成绩[5]。目前有许多 专注于语义分割的像素标记方法[6-12]。Farabet 等人[6]将 CNNs 和条件随机场 CRFs 结合起来,将 CRFs 做为后处 理过程对图像进行分割并在多个数据库上获得了较好 的结果。Chen 等人[11]使用 CNN 分类网络的特征图和独 立的全连接 CRFs 后处理技术执行对图像物体的分割。 这些网络的一个潜在缺点是使用空间池化时丢失了中 层次线索,如边缘的相交、并行和对称性。这样的线索 在诸如场景理解的任务中是非常重要的,尤其是在处理 复杂物体类别的时候。Long 等人提出了全卷积网络 (Fully Convolutional Networks,FCN)[12],可直接用于对 图像的分割。目前,出现了一些最新的用于分割的深度 网络架构,它们具有相同的编码器网络结构(如SegNet[13] 的编码网络具有与 VGG16 相同的 13 个卷积层结构), 不同处在于其编码器网络的组成形式以及网络的训练 和推理方法。另一个共同特征是他们有数亿的可训练 的顺序参数,因此在执行端到端训练会遇到困难[7]。针 对这些网络的训练困难问题,出现了多阶段的训练方 法[7]、在一个预训练核心分割引擎(如 FCN)后追加网络 的方法[8]以及互斥的分类和分割网络的训练方法 [14]等 等。虽然使用这些因素的方法可以提高网络在具有挑 战性的基准测试集[15]上的性能,不幸的是很难从他们的 定量结果中区分其设计要点是否是获得良好性能的必 要因素。近来出现了一些用于图像语义分割的反卷积 网络(deconvolutional network)[9,13-14,16-17],它们通常是在 传统的卷积网络后追加了一个反卷积网络,即由多层卷 积编码网络和反卷积解码网络组成的深度卷积网络。 这些成果虽然很令人鼓舞,但其表现较为粗糙,主要是 因为最大池化下采样降低了特征图的分辨率。为了迎 合映射低分辨率特征到输入分辨率的像素级分类的需 求,映射必须产生有助于准确的边界定位的特征。道路 场景理解的应用需要具有对外观(道路、建筑)、形状(车 辆、行人)进行建模能力,并理解不同类别(如道路和人 行道)之间的空间关系。在典型的道路场景中,大部分 像素属于道路和建筑物这样的大型分类,因此网络必须 能够产生平滑的分割。对于其他物体,不管其大小,网 络必须具有分辨其形状的能力。因此,在提取图像表示 过程中保留边界信息是十分重要的。从计算的角度来 看,在推理的时候有必要考虑网络在内存和计算时间方 面的高效性。网络还必须能够进行端对端的训练以便 使用一个有效的权重更新技术共同优化网络中所有的 权重,如随机梯度下降法(SGD)。因此,设计一个好的 道路场景理解网络架构应需符合这些标准。 基于以上的设计标准,提出了一个道路场景分割网 络(Road Scene Segmentation Net,RSSNet)——32 层 的全卷积神经网络,用于对道路场景的理解,为无人驾 驶汽车提供鲁棒性强、精度高的道路场景内容识别及平 滑分割。 2 网络架构设计 RSSNet 网络架构由一个 16 层的卷积编码网络(分 类网络)和一个对应的 16 层反卷积解码网络(分割网 络)组成,解码网络后面跟随一个像素级分类层。因此 整个网络为 32层的全卷积网络,其结构如图 1所示。卷 积编码网络的拓扑结构与 VGG-19[18]中的 16 层卷积层 相同,不同之处在于本文抛弃了 VGG-19 网络的 3 个全 连接层,这样使编码网络明显变小,减少了参数数量,从 而减少网络训练时间,因此比其他网络架构[7,12,14,19]更容 易训练。VGG-19 网络最后的 3 个全连接层用于分类识 别,不能用于图像分割。如果不去掉这 3 层而将其改为 FCN 网络,虽然也可以用于分割,但其编码器终端输出 的特征图分辨率太低,会导致解码器不能解码出高精细 的分割图。因此本网络去掉了这 3 个全连接层,使编码 网络变小,参数数量也减少了近十倍,大大减少了网络 运算量。编码器由卷积滤波器组和批正则化、非线性映 射、Dropout、最大池化下采样组成,多层堆叠的编码器 用于提取图像特征图。RSSNet的关键部分是后部分的 反卷积解码网络,该部分由解码器的堆叠层组成,每层 依次对应于编码网络的相应层。最后解码器的输出作 吴宗胜,傅卫平,韩改宁:基于深度卷积神经网络的道路场景理解 9计算机工程与应用 www.ceaj.org Computer Engineering and Applications计算机工程与应用2017,53(22) 为多类 Softmax 分类器的输入,最终独立产生每个像素 的类别概率。 在编码网络中,每个编码器使用一个滤波器组执行 卷积操作生成一组特征图,然后对特征图进行批正则化 (Batch Normalization)操作,再使用激活函数 Maxout对 其结果进行非线性映射并执行 Dropout 操作,接着使用 大小为 2×2、步长为 2 的非重叠滤波窗口执行最大池化 (max-pooling)操作,同时记录用 2 位二进制表示的最大 池化索引,即滤波窗口中最大特征值的位置。下采样过 后每个特征图 map 的长和宽变为原来的 1/2。最大池化 过程如图 2 所示,红色的数字即为 2 位二进制的最大池 化索引编码。最大池化可用于获取输入图像在局部小 空间上的位移不变性特征。而多个最大池化下采样层 可以为分类器鲁棒地获取更多的平移不变性特征,但得 到的特征图空间分辨率会相应地降低。图像表示不断 失真(分辨率降低,边界细节信息丢失)并不利于分割, 而对于图像分割来说边界描述信息是至关重要的。因 此在进行下采样前需要捕捉和存储编码器特征图中的 边界信息。如果在推理过程中的内存不受限制,可保存 所有下采样后的编码器特征图。但这样会消耗巨大的 内存空间,通常在实际应用中是行不通的,因此需要使 用更有效的方式来存储这些信息。使用 Badrinarayanan 的方法[13]存储最大池化的索引信息,也就是记住每个编 码器特征图的每个池化窗口中最大特征值的位置。原 则上,使用 2 位的二进制数就可以表示一个 2×2 池化窗 口的索引信息,相比存储使用浮点数表示的特征图有效 得多。这种较低的内存存储方法虽然会导致轻微的精 度损失,但仍适合于实际应用。 在解码网络中,每个解码器使用原先存储的与之对 应的编码器特征图的最大池化索引对解码器卷积层的 输入特征图进行上采样(Unpooling),得到稀疏的特征 图。这样做的好处是保留了重要的边缘信息,无需再对 上采样进行学习。上采样得到的稀疏特征图作为解码 器下层卷积层的输入,卷积层使用可训练滤波器对稀疏 特征图进行卷积后得到稠密特征图。上采样过程如图3 所示,红色数字为最大池化索引编码,利用编码器下采 样时保存的相应特征层的最大池化索引,将输入特征值 还原到原来最大特征值的位置。然后再对这些特征图 执行批正则化、非线性映射和 Dropout 操作。在最后一 层解码器输出高维特征表示向量,作为可训练 Softmax 分类器的输入。Softmax分类器单独地对每个像素进行 分类,其输出是每个像素属于各分类的概率。每个像素 具有最大概率的分类即为其预测分割的分类。在解码 过程中重复使用最大池化索引具有几个实际的优点:改 善边界轮廓描述;减少参数数量,允许端对端训练;上采 样的方式只要做小小的修改就可以合并到任何编解码 的网络架构[8,12]。 在本文的 RSSNet 架构中,编码网络和解码网络分 别使用 16 个相对应的卷积层,为 32 层的深度全卷积网 络。为了克服深度神经网络难以训练的缺点并加速深 度网络的训练,网络中各卷积层后中添加批正则化 (Batch Normalization)层,防止了深度网络在训练中容 易出现的“梯度消失”问题,大大提高了训练的收敛速度 和模型精度 [20]。在批正则化层后跟的激活层中使用 Maxout 激活函数,进一步缓解了梯度消失。Maxout[21] 是ReLU的推广,其定义为: Conv+BN+Maxout+Dropout Pooling Unpooling Softmax 输入图像 卷积编码(卷积+下采样) 反卷积解码(上采样+卷积) 分割结果 图1 道路场景理解的 RSSNet架构 1 1 2 4 5 6 7 8 3 2 0 4 1 2 3 1 6 8 3 4 00 01 11 10 10 10 00 01 卷积特征 池化特征 最大池化 窗口大小2×2、步长2 图2 RSSNet编码器最大池化过程 6 8 3 4 10 10 00 01 0 0 0 0 0 6 0 8 3 0 0 4 0 0 0 0 00 01 11 10 10 00 01 上采样 图3 RSSNet解码器上采样过程 10计算机工程与应用 www.ceaj.org 2017,53(22) f (x)= max(wT 1 x + b1,wT 2 x + b2,⋯,wT n x + bn) (1) 其中,n 为维数,w 为权重,b 为偏置项。Maxout 理论 上能够拟合任意的凸函数,且当 w2,b2,⋯,wn ,bn 为 0 时,退化为 ReLU。Maxout 不会使网络陷入饱和模式, 能够缓解梯度消失,同时又避免了 ReLU 神经元会出现 死亡的缺点。同时网络中适当使用 Dropout以防止模型 出现过拟合,该技术让每个隐含神经元以 50%的概率输 出为 0,即随机令某些隐含神经元在某次训练中不起作 用,使其不能依赖特定的其他神经元的存在,减少了神 经元复杂的互相适应性,迫使其与许多其他不同的神经 元的随机子集结合来学习更鲁棒的有用特征,从而保持 了特征的独立性,使结果更稳定,有效避免模型出现过 拟合现象。Maxout 和 Dropout 两者结合能够使网络获 得更高的识别率[21]。 3 网络训练 3.1 实验准备 为了快速搭建 RSSNet,用于无人车对道路场景的 理解,采用目前较为流行的深度学习框架 Caffe(全称为 Convolutional Architecture for Fast Feature Embed- ding)[22],并作了一些改动。在实验中,为了加快网络的 训练速度,采用 GPU 的计算模式,硬件上使用最新款的 基于 Pascal 架构 GP102 核心的 NVIDIA TITAN X 卡, 该 GPU 卡为 12 GB 显存,384 位显存位宽和 3 584 个 CUDA 核心单元。由于实验室条件有限,仅使用单个 GPU进行实验。 RSSNet 从监督学习中学习预测像素的分类标签, 因此需要一个具有对应真实标签数据的输入图像数据 集。标签图像为单通道图像,其每个像素都使用它的分 类标识号标注。目前有许多室外场景数据库[23-25]可用于 语义分割,可以结合这些数据库组合成一套大的图片 集来训练网络。由于本文的目标是道路场景理解,因 此 在 实验中选择包含道路场景视频序列的 CamVid (Cambridge-driving labelled Video database)数据库 [23] 作为训练数据和基准测试数据,以评估道路场景理解的 性能。该数据集是在英国剑桥附近采集的,包含白昼和 黄昏时间的场景。此外,为了提高训练模型的泛化能 力,从 KITTI 数据集中增加训练数据。由于 KITTI 数据 集的图片尺度较大,在训练前将其原图片和标签图片裁 剪为统一大小的尺寸。另外,在校园里采集了 210 幅校 园道路图像,并将这些图像进行了手工分类标注,参与 网络的训练。实验中,将图像中的像素点分为 12 种语 义类别:天空、建筑物、树木、道路、人行道、车辆、行人、 自行车、道路标识线、信号标志、杆(柱状物)、栅栏(围 墙)。因此在测试任务中将对这 12 种对象进行识别和 分割。 3.2 训练 在深度卷积神经网络中,由于参数众多,为了防止 模型过拟合现象(表现在训练数据集上的误差非常小, 而在测试数据集上误差反而增大,泛化能力差),必须使 用大规模的训练数据来训练网络。而由于条件所限,没 有太多的训练数据,在这种情况下可以采用两种方法来 解决。一种是数据扩充(Data Augmentation),就是通过 对现有的图像进行旋转、平移、变形等变化,人工产生更 多的图像。第二种是转移学习(Transfer Learning),其 基本思想是先通过在另一种大规模的数据集上进行训 练,并将训练得到的模型参数作为本网络参数的初始 值,然后在目标训练数据集上再次进行训练,进一步对 原参数进行调优(Fine-tuning),也叫参数微调。转移学 习所依赖的原理是某些特征在类似的训练数据集上具 有相同的共性。因此可以将在一个数据集上训练得到 的特征应用到一个与之类似的数据集上。这两个数据 集相似度越高,效果越好。 使用 CamVid 道路场景数据库、KITTI 数据集和本 校园道路图像数据集来训练 RSSNet网络。本文的目标 任务是训练网络并分割出道路图像中的 12 个分类,诸 如天空、建筑物、道路、人行道、车辆、行人等等。在训练 前,将 RSSNet 网络输入设置为固定大小 360×480 的 RGB 图像,并作以下预处理:对输入图像进行颜色与对 比度修正,尽量还原真实场景的表现细节;计算训练集 中所有像素的 RGB 值的平均值,以供训练使用。由于 目标训练数据集较小,为了在少量数据的情况下尽量提 高精度,因此采用转移学习方法进行网络训练。将在 2012 年的 ILSVRC(ImageNet Large Scale Visual Rec- ognition Challenge)[26]数据集上预先训练好的VGG-19[18] 网络模型参数作为初始值对 RSSNet的编码器网络的权 重全部进行初始化。训练网络时采用随机梯度下降法 (SGD)对目标损失函数进行优化,并将其学习率(base_lr) 设 为 固 定 值 0.01,动 量 参 数(momentum)设 为 固 定 值 0.9,权 值 衰 减(weight_decay)设 为 0.000 5,然 后 训 练 RSSNet 直至训练损失函数收敛。在每次训练迭代前, 训练集图片被打乱,然后按顺序每抽取 5 幅图像为一个 批次(即 batchsize 为 5,该设置值受 GPU 内存限制,内存 越大可以设置越大),作为网络的输入,确保每幅图像在 每次迭代中只被使用一次。 在训练中,使用交叉熵损失(cross-entropy loss)函 数作为训练网络的目标函数,batchsize 中的所有图像像 素参与了损失计算。当在训练集中每个分类之间的像 素数量有很大偏差时(如 CamVid数据集中的道路、天空 和建筑物的像素占主要成分),基于真实的分类需要有 差异地权衡损失,这个称为类间平衡。使用中值频率均 衡方法进行类间平衡。首先在整个训练集上计算每个 分类出现的频率,然后在损失函数中为每个分类指派一 吴宗胜,傅卫平,韩改宁:基于深度卷积神经网络的道路场景理解 11计算机工程与应用 www.ceaj.org Computer Engineering and Applications计算机工程与应用2017,53(22) 个权重,该权重为所有分类频率的中值除以该分类频率 的比值。这意味着在训练集中越大的类(出现频率越 高,如道路)具有越小(小于 1)的权重,最小的类具有最 高的权重。 4 实验结果与分析 为了量化比较本网络与其他网络在场景理解上的 性能,使用 3 个常用的性能指标来衡量:全局平均精度 (G),衡量在数据集中被正确分类的像素的百分比;类 平均精度(C),即所有类的预测精度的均值;交除并均 值(mean intersection over union,mean IoU),即在数据 集中所有类的 IoU 均值。IoU 均值是最有力的度量标 准,因为它是惩罚假阳性预测,与类平均精度不同。这3个 指标定义如下: G = ∑ i = 1 ncl nii ∑ i = 1 ncl ti (2) C = 1 ncl ∑ i = 1 ncl nii ti (3) IoU = 1 ncl ∑ i = 1 ncl nii ti + ∑ j = 1 ncl nji - nii (4) 其中,nij 为分类 i 的像素被预测为属于分类 j 的像素数 量,ncl 为类别的数量,ti = ∑ j = 1 ncl nij 为分类 i 的总像素数。 4.1 CamVid道路数据集 为了方便与其他网络进行比较,使用相同的小型数 据集 CamVid 中的 367 幅训练集图像进行训练并在 233 幅测试集图像进行测试。本文实验中使用 12 类的标签 图像参与训练,可以在测试图像中识别 12 类目标。在 训练中均使用类平衡方法,batchsize为 5,经过 17 000次 iteration 优化迭代(约 230 epochs)后结束训练,训练优 化过程中的精度(accuracy)曲线图和损失(loss)曲线图 分别如图4和图5所示。 从图 4 中可以看出,训练到 1 000 次迭代(iteration) 时精度就达到了 80%,训练到 2 500 次迭代后最高精度 达到89%。在图5中,loss在开始 200次迭代训练中下降 较快,训练到 1 000 次迭代时损失值降低到 0.2 左右,训 练到 2 500 次迭代后损失值降低到 0.1 左右。在后续的 17 000次迭代训练中,训练时间长约 9 h,6 000次迭代后 模型基本上已收敛,最优时其最高精度达到 95.9%,最 低损失值达到 0.02。 对 CamVid 训练数据集训练完成后,使用得到的模 型分别对训练数据集和测试数据集进行测试,并使用全 局平均精度(G)、类平均精度(C)和交除并均值(IoU)来 量化该网络性能。为了便于与文献[13]提到的其他变 种解码器网络相比较,选取经过相同训练次数(2 500 次 迭代,约 33 epoch)得到的模型进行测试。其结果如表 1 所示,表中部分数据来自文献[13]在相同条件下的测试 数据。 Bilinear-Interpolation SegNet-Basic SegNet-Basic-EncoderAddition SegNet FCN-Basic FCN-Basic-NoAddition RSSNet RSSNet(best) 参数大小/106 0.625 1.425 1.425 138 0.65 0.65 144 144 推理时间/ms 24.2 52.6 53.0 92.3 24.2 23.8 100.5 100.5 训练/% G 89.1 94.7 94.3 91.7 92.8 92.5 92.1 96.9 C 90.2 96.2 95.8 95.2 93.6 93.0 94.7 98.3 IoU 82.7 92.7 92.0 83.5 88.1 87.2 84.1 88.7 测试/% G 77.9 82.7 83.4 84.2 81.7 80.5 84.8 88.7 C 61.1 62.0 63.6 73.1 62.4 58.6 75.2 74.3 IoU 43.3 47.7 48.5 53.5 47.3 44.1 55.7 61.6 注:RSSNet(best)经过了204次epochs训练,其他模型经过了 33次epochs训练 表1 与其他变种解码器网络的比较 0 2000 4000 6000 8000 10000 12000 14000 16000 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 ? ? ??(Iterations) ? ? ( a c c u r a c y ) 2 000 4 000 6 000 8 000 10 000 12 000 14 000 16 000 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 迭代次数 精度 图4 精度曲线图 0 2000 4000 6000 8000 10000 12000 14000 16000 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 ? ? ??(Iterations) ? ??( Los s ) 2 000 4 000 6 000 8 000 10 000 12 000 14 000 16 000 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0 迭代次数 损失值 图5 损失曲线图 12计算机工程与应用 www.ceaj.org 2017,53(22) 表 1 中同时列出了各个语义分割网络的可训练参 数大小以及每幅图像的推理时间。本文的向前推理时 间 为 使 用 360×480 的 输 入 图 像 在 单 NVIDIA TITAN GPU 下进行 20 次测量得到的平均值时间,Caffe 实现时 没有采用 CuDNN加速。较高的全局平均精度能获得整 体上较为光滑的分割。由于自动驾驶任务主要趋向于 分割出诸如道路、人行道、建筑物、天空、车辆和行人这 些目标,而道路、人行道、建筑物、天空这些目标在图像 中占大部分像素,因此这些重要类的分割好坏对全局精 度影响很大。当大类精度低,小类精度高时,如类平均 精度较高,则对应的全局精度会较低;相反,当大类精度 高,小类精度低时,则对应的全局精度会较高。从表中 可以看到,SegNet-Basic在训练集中的测量精度最高,但 其在测试数据集上的测量精度较低,说明其模型出现过 拟合现象。本文的 RSSNet模型虽然在训练集上的测量 精度不高,但在测试集上的测量精度最高,表明本模型 具有较好的泛化能力。由于 RSSNet的解码网络层级较 多,其推理时间稍有增加。 同时,利用本模型在 CamVid 测试数据集上进行测 试的结果按 12 个分类的平均精度、全局精度、IoU 平均 值分别列出,并和其他分割网络在同等条件下进行比 较,其比较结果在表 2中列出,数值以百分比表示。 从表 2 中的定量结果可以看出,RSSNet 在 12 类中 7 个类别的类平均精度最高,并且在所有类的类平均精 度(C)、全局平均精度(G)和交除并均值(IoU)指标取得 最好成绩。SegNet-Basic在编码器和解码器网络中分别 有 4 层卷积层,SegNet 在编码器和解码器网络中分别有 13 层卷积层,RSSNet 在编码器和解码器网络中分别有 16层卷积层,它们在训练前均使用了预先训练的编码器 权重进行参数初始化,随着深度的增加,其精度也在提 高。表中结果表明,深层架构具有从输入图像中提取有 意义的特征并将其映射为精确且光滑的类分割标签的 能力,使用较大较深的网络架构可以提高分割精度。在 图 6 中显示了 SegNet网络和 RSSNet网络分别使用训练 了33 epoch后得到模型在测试集图像上进行分割的结果。 训练次数(epochs) 天空 建筑物 杆/柱 道路标识线 道路 人行道 树/草 交通信号标志 栅栏 车辆 行人 自行车 类平均精度(C) 全局精度(G) 交除并均值(IoU) (a) 33 89.7 46.2 0.7 n/a 89.5 60.5 61.9 42.9 46.6 68.6 53.6 22.5 53.0 69.1 n/a (b) 91.1 61.9 25.8 n/a 92.9 77.8 67.3 58.5 37.6 71.1 49.5 24.7 59.8 76.4 n/a (c) 95.4 85.3 22.0 n/a 98.5 38.1 57.3 46.5 44.3 69.2 23.8 28.7 55.4 82.1 n/a (d) 88.8 80.7 4.13 n/a 98.0 12.4 61.5 n/a 0.05 16.4 1.09 0.07 36.3 73.6 n/a (e) 96.9 87.0 1.7 n/a 95.9 70.0 67.1 30.1 17.9 62.7 14.7 19.4 51.2 83.3 n/a (f) 93.0 81.3 36.3 n/a 93.3 73.7 72.0 14.8 31.5 81.3 62.4 42.6 62.0 82.7 47.7 (g) 92.7 80.3 46.7 72.5 89.7 86.4 86.3 53.8 52.0 79.6 83.7 53.9 73.1 84.2 53.5 (h) 94.7 70.7 13.0 n/a 94.1 79.3 70.8 55.9 37.2 74.4 45.7 23.1 59.9 79.8 n/a (i) 92.3 77.7 52.4 83.5 89.0 87.9 87.8 54.2 61.2 83.0 84.4 49.1 75.2 84.8 55.7 204 94.3 89.0 45.3 68.5 93.4 91.3 84.9 52.7 61.4 82.4 74.6 53.9 74.3 88.7 61.6 表2 类平均精度比较 1) 注:1)(a)SfM+Appearance[27];(b)Boosting[28];(c)Dense Depth Maps[29];(d)Local Label Descrip- tors[30];(e)Super Parsing[31];(f)SegNet-Basic[13];(g)SegNet[13];(h)Boosting+pairwise CRF[28];(i)RSSNet 自行车 天空 建筑物 杆/柱 道路标识 道路 人行道 树/草 交通信号标志 栅栏 车辆 行人 注:第一行为输入图像;第二行为手工标注的真实分 割图;第三行为SegNet分割效果图;第四行为RSSNet分割 效果图;第五行为204 epoch训练后RSSNet分割效果图 图6 在33 epoch训练后得到的模型在 CamVid 测试集中的分割结果 吴宗胜,傅卫平,韩改宁:基于深度卷积神经网络的道路场景理解 13计算机工程与应用 www.ceaj.org Computer Engineering and Applications计算机工程与应用2017,53(22) 由于经过33 epoch训练后网络还没有收敛到最优, 因此在 17 000 次迭代(约 230 epoch)训练收敛结束后, 选择 15 300次迭代(约 204 epoch)时得到的模型再次对 CamVid数据集进行测试,测试结果数据在表 1和表 2中 另外单独列出,并在图6的最后一行中列出了204 epoch 后 RSSNet 的分割结果图。有趣的是,经过更多次的训 练直至损失函数收敛后,得到的各个类别的平均精度有 不同的变化,其中大类如天空、建筑物、道路、人行道的 类平均精度有明显的提高,而小类的精度则变化不大或 有一定程度的降低,但全局精度(G)和交除并均值(IoU) 均有明显提高。 从图6可以观察到,RSSNet的分割效果要比SegNet 好。RSSNet 在道路、道路标识线、行人、车辆和自行车 类别上分割得比较精细和平滑一些。第 4 行经过 204 epoch训练后的 RSSNet分割结果更加平滑和准确,在测 试集上的表现接近于手工标注的效果。 4.2 CamVid+KITTI_Road+KITTI_Semantic+ 校园数据集 接下来,再次增大训练数据集。首先使用 CamVid 所有的 701 幅图像,再加上 KIITI_Road训练集和测试集 中的 106 幅图像(已裁剪为 212 幅 360×480 大小的图 像)。然后加上German Ros等人标注的KITTI_Semantic 数据集[32],该数据集共包括146幅370×1 226分辨率的道 路图像,另外包括了对应的标签图像(只标注了 10 类对 象:天空、建筑物、道路、人行道、栅栏、树木、杆/柱、汽 车、信号标志、行人)。同样,将这 146 幅图像及对应的 标签图像裁剪成 360×480大小的 292幅图像。最后将本 文标注的 210 幅本校园的道路加进训练集。这样,总共 有1 415幅图像参与训练,其中CamVid和KIITI_Road数 据集中的标签图像标注得比较精细,而 KITTI_Semantic 和我们校园数据集中的标签图像标注得比较粗糙。 RSSNet 经过 30 000 次迭代(约 106 epoch)训练后结束, 训练时间长 15.8 h。在训练时每隔 1 000 次迭代保存一 个模型,训练完成后选择训练精度较好的模型对其他 真实场景中的图像进行分割,同时,与使用 SegNet[13]在 5 000 多幅图像上训练好的模型对相同的图像进行分割 (SegNet 训练好的模型可在作者网上下载,或直接使用 其网站上的演示程序进行分割),分割效果比较如图 7 所示,第一列为与训练图像不相干的原始输入图像,第 二列为SegNet分割结果,第三列为RSSNet分割结果。 图 7 中的第 1 幅图是从 KITTI 数据集的其他图片中 随机选取并裁剪下来的,该场景与参加训练的场景比较 相似,因此分割效果很好,并且 RSSNet 稍好于 SegNet。 第 2幅图是来自网上的图片,RSSNet在车辆的分割效果 上比SegNet好。第3幅图拍摄于大雁塔后村西路,RSSNet 和 SegNet 的分割效果都很好,而 RSSNet 在车辆、行人、 道路标识和电杆上的识别更细腻一点。第 4 幅图为学 校东门口道路,该图中 RSSNet 对道路及道路标识的分 割较好,SegNet 则较差。第 5 幅图也是来源于网上的道 路图片,RSSNet的分割效果明显好于 SegNet。 从以上实验结果可以看到,虽然 RSSNet 使用的训 练数据较小,但在有些场景中的分割效果比使用较大数 据集训练的 SegNet 分割的效果还要好,说明 RSSNet 具 有较好的泛化能力。实际上,使用 1 000 多幅图像及其 标签来训练网络模型对于真正实用的系统来说还远远 不够。如能使用万幅以上的训练图像进行训练,并且有 针对性地使用不同的环境图像训练相应的模型,如城市 道路模型、野外道路模型等,相信能获得更好的场景分 割结果。 5 结论 本文提出了一个应用于道路场景理解的 32 层深度 卷积神经网络——道路场景分割网络(RSSNet)。相对 于其他深度网络,该网络在内存消耗和计算时间方面更 为高效,分割精度也达到同类网络的较高水平。RSSNet 由于去掉了全连接层,减少了大量的网络参数,从而减 少了网络训练时间。RSSNet存储了编码网络特征图的 最大池化索引并在解码网络中使用它们,保留了重要的 边缘信息,使其获得较好性能,在语义分割中更为有 效。另外,RSSNet卷积层数多,并采取了防止过拟合措 施,提高了网络模型的泛化能力。 参考文献: [1] 周俊宇,赵艳明. 卷积神经网络在图像分类和目标检测应 自行车 天空 建筑物 杆/柱 道路标识 道路 人行道 树/草 交通信号标志 栅栏 车辆 行人 注:第一列为输入图像;第二列为 SegNet分割效果图; 第三列为RSSNet分割效果图 图7 对其他场景的分割结果 14计算机工程与应用 www.ceaj.org 2017,53(22) 用综述[J].计算机工程与应用,2017,53(13):34-41. [2] 王华利,邹俊忠,张见,等. 基于深度卷积神经网络的快速 图像分类算法[J].计算机工程与应用,2017,53(13):181-188. [3] Wang P,Li W,Gao Z,et al.Action recognition from depth maps using deep convolutional neural networks[J]. IEEE Transactions on Human-Machine Systems,2016,46 (4):498-509. [4] Shin H C,Roth H R,Gao M,et al.Deep convolutional neural networks for computer-aided detection:CNN archi- tectures,dataset characteristics and transfer learning[J]. IEEE Transactions on Medical Imaging,2016,35(5). [5] Ranft B,Stiller C.The role of machine vision for intelli- gent vehicles[J].IEEE Transactions on Intelligent Vehi- cles,2016,1(1):8-19. [6] Farabet C,Couprie C,Najman L,et al.Learning hierarchi- cal features for scene labeling[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,35(8): 1915-1929. [7] Noh H,Hong S,Han B.Learning deconvolution network for semantic segmentation[C]//2015 IEEE International Conference on Computer Vision(ICCV),2015:1520-1528. [8] Zheng S,Jayasumana S,Romera-Paredes B,et al.Condi- tional random fields as recurrent neural networks[C]// IEEE International Conference on Computer Vision,2015. [9] Badrinarayanan V,Handa A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling[J].Computer Science,2015. [10] Eigen D,Fergus R.Predicting depth,surface normals and semantic labels with a common multi-scale convolu- tional architecture[C]//IEEE International Conference on Computer Vision,2015:2650-2658. [11] Chen L C,Papandreou G,Kokkinos I,et al.Semantic image segmentation with deep convolutional nets and fully connected CRFs[J].Computer Science,2014(4): 357-361. [12] Long J,Shelhamer E,Darrell T.Fully convolutional net- works for semantic segmentation[C]//2015 IEEE Con- ference on Computer Vision and Pattern Recognition (CVPR),2015:3431-3440. [13] Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].Computer Science,2015. [14] Hong S,Noh H,Han B.Decoupled deep neural net- work for semi-supervised semantic segmentation[J].Com- puter Vision and Pattern Recognition,2015. [15] Everingham M,Eslami S M A,Gool L V,et al.The pascal visual object classes challenge:a retrospective[J]. International Journal of Computer Vision,2015,111(1): 98-136. [16] Mohan R.Deep deconvolutional networks for scene pars- ing[J].Computer Science,2014. [17] Zeiler M D,Taylor G W,Fergus R.Adaptive deconvolu- tional networks for mid and high level feature learn- ing[C]//International Conference on Computer Vision, 2011:2018-2025. [18] Simonyan K,Zisserman A.Very deep convolutional net- works for large-scale image recognition[J].Computer Sci- ence,2014. [19] Liu W,Rabinovich A,Berg A C.ParseNet:looking wider to see better[J].Computer Science,2015. [20] Ioffe S,Szegedy C.Batch normalization:accelerating deep network training by reducing internal covariate shift[J]. Computer Science,2015. [21] Goodfellow I J,Warde-Farley D,Mirza M,et al.Maxout networks[J].Computer Science,2013:1319-1327. [22] Jia Y.Caffe——deep learning framework[EB/OL].[2017- 06-11].http://caffe.berkeleyvision.org/. [23] Brostow G J,Fauqueur J,Cipolla R.Semantic object classes in video:a high-definition ground truth database[J]. Pattern Recognition Letters,2009,30(2):88-97. [24] Geiger A,Lenz P,Urtasun R.Are we ready for autono- mous driving? the kitti vision benchmark suite[C]// 2012 IEEE Conference on Computer Vision and Pat- tern Recognition(CVPR),2012:3354-3361. [25] Russell B C,Torralba A,Murphy K P,et al.LabelMe:a database and web-based tool for image annotation[J]. International Journal of Computer Vision,2008,77(1-3): 157-173. [26] Russakovsky O,Deng J,Su H,et al.ImageNet large scale visual recognition challenge[J].International Jour- nal of Computer Vision,2015,115(3):211-252. [27] Brostow G,Shotton J,Fauqueur J,et al.Segmentation and recognition using structure from motion point clouds[C]//Computer Vision-ECCV 2008.Forsyth D,Torr P,Zisserman A,eds.Berlin Heidelberg:Springer,2008: 44-57. [28] Sturgess P,Alahari K,Ladicky L,et al.Combining appear- ance and structure from motion features for road scene understanding[C]//British Machine Vision Conference, BMVC 2009,London,UK,2009. [29] Zhang C,Wang L,Yang R.Semantic segmentation of urban scenes using dense depth maps[C]//Computer Vision- ECCV 2010.Daniilidis K,Maragos P,Paragios N,eds.Berlin Heidelberg:Springer,2010:708-721. [30] Yang Y,Li Z,Zhang L,et al.Local label descriptor for example based semantic image labeling[C]//European Conference on Computer Vision,2012:361-375. [31] Tighe J,Lazebnik S.Superparsing[J].International Jour- nal of Computer Vision,2013,101(2):329-349. [32] Ros G,Ramos S,Granados M,et al.Vision-based offline- online perception paradigm for autonomous driving[C]// 2015 IEEE Winter Conference on Applications of Com- puter Vision(WACV),2015:231-238. 吴宗胜,傅卫平,韩改宁:基于深度卷积神经网络的道路场景理解 15
还剩7页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf