基于通道池化的深度人脸识别网络

互联网+
科技视界
2018年05月04日 10:20

...出最大数字进行池化,以减小计算数据量.-深入浅出人脸识别技术

许超

【摘 要】池化被广泛应用于深度卷积神经网络,是一种非常有效的特征选择和降维方法,可以避免深度模型的过拟合问题。但常规的池化只局限于空间维度上相邻的同类特征之间,无法对临近通道的不同类特征降采样。受到人脑中激活抑制现象的启发,提出了一种新颖的通道池化,来进行通道间的特征选择。对比实验结果表面,通道池化有助于提高深度人脸识别网络的准确率。

【关键词】通道池化;深度学习;人脸识别;卷积神经网絡

中图分类号: TP391.41;TP183 文献标识码: A 文章编号: 2095-2457(2018)04-0070-002

0 引言

随着互联网+和移动支付的推广普及,极大便利了人们的生活,人脸识别因其自然、便捷和安全,成为了寄以厚望的下一代身份认证技术。算法原理、海量数据和硬件算力共同促成了深度学习的成功,基于深度卷积神经网络的算法[1]在非受限人脸标准测试集[2]上取得到超越人类的成绩。

深度卷积神经网络的三大特点是:局部感知、权值共享和池化。作为一种有效的特征选择和降维方法,池化被广泛应用于卷积神经网络,可以有效降低模型的过拟合风险,提高学习算法的鲁棒性。然而,目前通用的池化只作用于高和宽两个空间维度,在空间上相邻的特征图上降采样,而生物大脑中神经链接的激活抑制现象更加普适,因此不同通道之间的特征选择同样重要。

1 卷积神经网络

卷积神经网络是一种受生物视觉神经系统启发的,由卷积层、激活层和池化层交错组合成的前馈神经网络。典型特点是局部感知、权值共享和池化,其特殊的结构能建模空间相关性,稀疏连接能有效避免过拟合,因此可以学到性能出色的模型,被广泛应用于图像和视频智能分析任务[3]。

人脸识别已发展了五十多年,涌现出了许多识别算法,包括基于几何特征的方法,基于子空间映射的方法,基于稀疏表达的方法,以及最新的基于深度卷积神经网络的方法。在深度学习之前,Eigenface[4]和Fisherface[5]等方法只能在受限条件(清晰静态正脸)下表现不错,在复杂的自然场景中,往往性能损失严重。在深度学习时代,人脸识别精度显著提升,FaceID3[1]在非受限人脸标准测试集[2]上取得到超越人类的成绩。

2 通道池化

深度卷积神经网络以图片作为直接输入,在前向推理的过程中,图片的信息被映射到高层语义空间。在低层的卷积层和池化层中,特征一直保持着宽、高和通道的三维结构,进入全连接层以后,才被编码成一维向量。卷积层中的卷积核是三维结构,加权综合所有通道临近空间的信息;池化层操作每个通道的二维网格,降低空间上的信息冗余,实现对特征尺寸进行压缩。

在深度卷积神经网络中,三维特征的每个通道代表了一种特征的几何分布,不同位置的同种特征对最终决策的贡献不同,相同位置的不同特征也同样差距,有些通道的特征反而在不断干扰着分类器的准确判断。但常规的池化操作只局限于空间维度上相邻的同类特征之间,无法对临近通道的不同类特征降采样,针对这种情况,提出一种新颖的通道池化的方法,进行通道之间的特征选择和降维。常规池化和通道池化的组合,可以有机组合出三维池化,提高了池化操作的通用性和灵活性。

3 网络框架设计

随着残差网络[6]的提出,非常深度的卷积神经网络被广泛采用,在各种视觉任务上取得最好的性能,其精巧的短路连接,可以预防梯度消失和加快训练。因此,在人脸识别网络框架设计时,引入残差网络的设计思想,改进并提出了31层的深度卷积神经网络和基准对比网络。

深度人脸识别网络由5个卷积模块和一个全连接层组成,共计31层,以192×224的三通道彩色人脸图片作为输入,将人脸编码成512维的语义向量。每个卷积模块包含两个卷积层,两个残差单元和一个常规池化层,卷积层用于融合残差特征,二维池化层对每个通道降采样,使特征尺寸缩小一半,同时通道数放大一倍。设计的两个残差单元分别用于改进网络和基准网络的,基准单元类似于朴素的残差单元,改进单元在两个卷积层间采用通道池化进行降采样。两个网络均采用带参修正线性激活函数(PReLU)[7]作为激活函数,以避免神经网络萎缩。

深度人脸模型的训练目标函数由两部分组成:通用的多分类损失函数Softmax和类内约束函数Center-Loss[8]。Softmax损失使深度模型尽可能分类正确,而中心损失函数使同一人的脸在高维语义空间中尽可能聚集分布,降低语义空间中不同人的脸分布重合的可能性,从而缩小类内距离、放大类间距离,提高深度人脸识别模型的泛化能力。

4 实验结果分析

以开源深度学习库Caffe[9]作为实现平台,对改进网络和基准网络采用相同的训练参数配置,训练数据采的MS-Celeb[10]数据集。模型的初始学习率为0.001,每5轮学习率×0.1,共训练20轮。

为了充分验证通道池化的有效性,在万级的非受限人脸验证基准测试集LFW[2]和百万级人脸检索基准测试集MegafaceV1[11]上评估改进网络和基准网络的识别性能。从测试和评估结果可以看出,改进后的网络相对于人脸分类、人脸验证和人脸识别多个子任务都优于基准模型,证实了通道池化对于提高深度人脸模型识别准确率和泛化能力的有效性。

表1 人脸识别模型性能评估

5 结论

常规的池化操作只局限于空间维度上相邻的同类特征之间,无法对临近通道的不同类特征降采样。针对这种现象,提出了一种新颖的通道池化方法,使得池化操作更加通用和灵活。设置对比实验,在LFW和Megaface基准测试集上,验证了通道池化的有效性。通道池化的引入,可以提高深度人脸模型的准确率和泛化能力,是一种有效的特征选择和降维方法。

【参考文献】

[1]Sun Y, Liang D, Wang X, et al. Deepid3: Face recognition with very deep neural networks[J].arXiv preprint arXiv:1502.00873, 2015.

[2]Labeled faces in the wild: A database for studying face recognition in unconstrained environments[R].Technical Report 07-49, University of Massachusetts, Amherst, 2007.

[3]毛勇華,桂小林,李前,贺兴时.深度学习应用技术研究[J].计算机应用研究,2016,33(11):3201-3205.

[4]Turk M, Pentland A. Eigenfaces for recognition[J]. Journal of cognitive neuroscience, 1991,3(1): 71-86.

[5]Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. fisherfaces: Recognition using class specific linear projection[J]. IEEE Transactions on pattern analysis and machine intelligence, 1997, 19(7): 711-720.

[6]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[7]He K, Zhang X, Ren S, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1026-1034.

[8]Wen Y, Zhang K, Li Z, et al. A discriminative feature learning approach for deep face recognition[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 499-515.

[9]Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014: 675-678.

[10]Guo Y, Zhang L, Hu Y, et al. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition[C]//European Conference on Computer Vision. Springer International Publishing, 2016: 87-102.

[11]Kemelmacher-Shlizerman I, Seitz S M, Miller D, et al. The megaface benchmark: 1 million faces for recognition at scale[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4873-4882.

家电之家©部分网站内容来自网络,如有侵权请联系我们,立即删除!
卷积 文章 通道
你该读读这些:一周精选导览
更多内容...

TOP

More