基于深度学习的电网监控视频中工作人员检测与识别*

刘颖，胡楠，杨壮观，同东辉，胡畔

(国网辽宁省电力有限公司信息通信分公司，沈阳 110006)

摘要：针对电网监控视频场景多样，电网工作人员姿态变化严重影响工作人员识别精度的问题，提出了一种基于深度学习的电网监控视频中工作人员检测与识别算法.该算法使用ResNet50网络提取行人特征，Faster-Rcnn检测方法快速、精确地检测出电网中的工作人员，识别网络对检测出的工作人员进行身份确认，并使用各种组合损失来训练检测与识别网络.在电网监控视频数据集上的测试结果表明，所提出的方法具有更高的检测和识别精度，且对遮挡及低光照图片具有较好的鲁棒性.

关键词：监控视频；工作人员；行人识别；行人检测；深度学习； ResNet50网络；损失函数； Faster-Rcnn检测方法

随着网络技术的快速发展，基于流媒体技术和图像压缩技术的视频监控系统被广泛应用于厂矿、学校和银行等场合[1].电力系统由于受生产环境和厂地位置的限制，通常分布在较偏僻的地区.为了保证电网系统安全稳定运行，电网公司安装了大量的监控系统，并通过人工监管和查看后期视频对电网进行监测[2-3]，然而这并不能及时发现电网风险，挽回损失.因此，开发和设计智能行人检测与识别系统能减轻监控人员的负担，并能更好地保障电网环境的安全[4].

电网监控视频通常面临着背景复杂、场景多变等问题，人体姿态的变化和遮挡也会对检测与识别带来困难[5].传统的行人检测方法侧重于提取有效的行人特征，设计简单的分类器，常见的特征包括局部二值模式(local binary pattern，LBP)特征、梯度向量直方图(histogram of oriented gradient，HOG)特征、Haar特征和积分通道特征等[6-7]；常见的行人分类器有SVM(support vector machine)、人工神经网络和随机森林等.基于这些特征与分类器提出了诸多行人检测与识别方法，如文献[8]提出了一种基于SVM和小波特征的行人检测方法；文献[9]基于AdaBoost算法和聚类方法利用多个决策器的输出组合检测出行人目标.

相比于上述特征提取方法，深度学习[10]采用贪婪逐级训练策略从海量训练数据中提取出更丰富的特征.基于深度学习的目标检测方法有端到端和区域提名两种，端到端方法主要包括SSD(single shot multibox detector)和YOLO(you only look once)两种；区域提名方法主要包括RCNN和SPP-Net[11].这些方法使用海量数据训练神经网络，大幅提高了目标检测的准确性和鲁棒性.本文基于深度学习技术实时分析电网监控系统的图像，并对其中工作人员进行检测和识别，以辅助保障电网安全生产及设备安全稳定.

1 目标检测

本文使用Faster-Rcnn检测电网监控视频中的工作人员，总体流程如图1所示.该算法首先使用卷积神经网络提取监控视频中每一帧图片的特征，并生成特征图，然后由区域生成网络RPN根据特征图生成可能存在目标的得分，最后由ROI池化层根据生成的区域建议和阈值判断出目标的类别，并在此通过边框回归获得目标的精确位置.本文设置阈值为0.5，当区域建议的分数大于0.5时，标记这些边框为目标；否则标记为背景.相比于传统的目标检测方法，Faster-Rcnn具有更快的训练速度和更高的检测精确.

Faster-Rcnn的特征提取网络由多组Conv、Relu和Pooling层组成，通过不断改变输入、输出特征图的大小来获得更大的感受野，本文使用Res50网络作为特征提取网络.传统的目标检测方法使用活动窗口和图像金字塔的方式生成目标位置，而Faster-Rcnn使用RPN网络直接生成检测框，从而大幅提高了检测速度，图2所示为RPN网络架构.该网络采用锚策略在特征图中选取k个具有不同大小和长宽比的锚，每个锚使用Softmax将目标框分为有行人和没有行人两类，并计算出目标框的偏移量以获取更精确的结果.假设目标框由(x，y，w，h)表示，其中，x，y为目标的最左上坐标；w和h为目标框的宽和高，则将随机初始化的位置A=(Ax，Ay，Aw，Ah)映射到真实窗口G=(Gx，Gy，Gw，Gh)时需要先做平移变化再做缩放，即

图1 行人检测流程
Fig.1 Flow chart of pedestrian detection

(1)

式中，dx(A)、dy(A)、dw(A)、dh(A)为需要学习的偏移量.训练时输入目标位置b=(bx，by，bw，bh)，输出为dx(A)，dy(A)，dw(A)，dh(A)的4个变换，则有

d(A)=WTφ(A)

(2)

式中：W为网络参数；φ(A)为特征向量.

图2 RPN网络结构
Fig.2 RPN network structure

为了使得到的位置尽量精确，需要使输入与输出的损失函数最小，即

(3)

ROI池化层将原始特征和RPN的结果作为输入，根据输入特征计算出位置建议特征，并送入后续网络得到最终的目标位置，使得每个特征图被归一化到相同的大小.由于所有建议的目标位置的尺度均为M×N，因此，ROI池化层首先将参数映射为M×N大小的尺度，并将每个位置建议按水平、竖直方向分为7份，得到7×7大小的建议，最后，使用全连接和Softmax层计算每个建议的类别并输出概率向量.

工作人员检测网络的目标函数为多任务分类函数，即网络一方面要准确地判断是否有工作人员，另一方面也要确定出检测框的具体坐标.因此，本文定义的目标函数为

(4)

式中：λ为损失权衡参数；i为锚的下标；pi为第i个锚存在行人的概率；为训练标签；lcls为分类损失函数，本文定义为二分类函数；分别为网络得到的检测框和标记的检测框坐标；lreg为检测框回归损失函数，本文定义为平滑l1损失，即

(5)

2 工作人员检测与识别

继续对检测网络检测到的工作人员进行再识别，本文将两个网络融为一个网络，使用相同的特征提取网络实现多任务学习.本文使用Res50网络作为特征提取层，具体检测与识别架构如图3所示.该网络主要包括特征提取网络、工作人员检测网络和工作人员识别网络，首先，使用Res50网络提取输入图片的特征，然后，使用工作人员检测网络检测出工作人员框，最后，使用工作人员识别网络识别出工作人员的身份信息.

图3 工作人员检测与识别网络
Fig.3 Staff detection and identification network

1) 特征提取网络.该网络为工作人员检测与识别网络的共享网络，输入图片大小为600×1 000，用Res50网络的前4个块提取特征，得到1 024个大小为38×63的特征映射.测试时只需将输入图片调整到600×100分辨率即可.该网络的具体参数如表1所示.表1中data为输入层数据，图像大小为3通道、宽600、长1 000；Conv1为卷积层，卷积核大小为7×7，核数量为64，步长为2；Pool为池化层，核大小为3×3，步长为2，其它各层的参数定义类似.

2) 工作人员检测网络.该网络使用上文介绍的Faster-Rcnn提取出候选框，将第1部分Res50网络提取出的特征图的每个位置选取出9个Anchors，并回归计算出行人框.

3) 工作人员识别网络.该网络将特征提取网络提取出的特征图输入到ROI池化层，以统一特征维度.此网络将特征图固定在14×14的大小，并使用如表2所示的网络架构进一步进行特征提取，然后将生成的2 048维特征向量输入到全连接层和Softmax层，对边框中的行人进行识别.

表1 特征提取网络参数
Tab.1 Feature extraction network parameters

层名输出维度参数data3×600×1000-Conv164×300×5007×7,64,stride2Pool64×150×2503×3,stride2Conv2_x256×150×2501×1,643×3,641×1,256éëêêêùûúúú×3Conv3_x512×75×1251×1,1283×3,1281×1,512éëêêêùûúúú×4Conv4_x1024×38×631×1,2563×3,2561×1,1024éëêêêùûúúú×6

表2 工作人员识别网络架构
Tab.2 Staff identification network architecture

层名输出维度参数ROI2048×14×14-Conv52048×7×71×1,5123×3,5121×1,2048éëêêêùûúúú×3Pool20487×7,stride1Fc1000-

本文使用Softmax损失和IOM损失来判别检测出的行人是否为电网工作人员.其中，IOM损失可以在扩大类间距离的同时减小类内距离，使不同特征的类尽量分开，其定义为

(6)

式中：z为提取出的特征；γ∈[0，1]；vi和uk分别为预先提取的第i个和第k个工作人员的特征；Q、L为各类工作人员的总数；si为待查询的工作人员是第i个标记的工作人员的概率；gi为待查询的工作人员不是第i个标记的工作人员的概率.

3 仿真与测试

本文截取电网监控视频的图像来构建数据集，该数据集共包括40 000张训练图片和3 000张测试图片.本文使用GTX1060 GPU训练该网络，并设置初始学习率为0.001，使用Adam优化网络参数.使用监控视频数据集和上文介绍的深度神经网络来检测与识别电网工作人员，并通过分别计算检测及识别精度来验证所提方法的有效性.

图4为本算法在20 000次迭代中识别精度和平均检测精度(mAP)的变化情况.从图4可以看出，网络迭代10 000次后即可获得较好的检测和识别精度，且随着迭代次数的增加，性能稳定上升.

增加深度神经网络的特征维度，将增加训练复杂度和训练时间，但也能一定程度上提升网络性能.本文比较了使用不同数量的特征维度时，电网工作人员的识别与检测精度，如图5所示.从图5中可以看出，在特征维度为256时具有最优的检测精度和识别精度，因此，本文在后续电网工作人员的识别与检测测试中设置特征的维度为256.

图4 检测与识别精度
Fig.4 Accuracy of detection and recognition

图5 不同特征维度下的性能比较
Fig.5 Performance comparison under different feature dimensions

为了验证本文方法的有效性，将所提出的方法与CCF、ACF、GT等检测方法及DSIFT+Euclidean、DSIFT+KISSME、BOW+Cosine、LOMO+XQDA、PS等识别方法进行比较，各种方法均使用默认的参数设置，比较结果如表3、4所示.表3分别给出了各种算法的平均精度均值和top-1精度，其中top-1精度为预测结果中概率最大的分类结果的正确率.由表3可以看出，相比于传统方法，本方法能获得更高的检测和识别精度.同时，由于光照条件和工作人员被遮挡时均会对检测和识别的精度产生影响，本文也比较了在低光照及有遮挡时各种方法的检测和识别精度，结果如表4所示.从表4可以看出，在遮挡和低光照情况下，所提出的方法均能取得更好的检测和识别结果.

4 结论

本文提出一种基于深度学习的电网监控视频中工作人员检测与识别算法.该算法组合了行人检测网络和行人识别网络，能够识别出电网监控视频中的工作人员.两个网络共享Res50网络提取出的行人特征，并使用RPN网络和ROI池化快速、精确地检测出电网中的工作人员；使用Softmax和IOM损失对检测出的工作人员进行身份确认.在电网监控视频构成的数据集上的测试结果表明，所提出的方法具有更高的检测和识别精度，且对遮挡及低光照图片具有较好的鲁棒性.

表3 各种算法精度比较
Tab.3 Accuracy comparison of various algorithms %

算法mAPCCFACFGTtop-1CCFACFGTDSIFT+Euclidean11.422.643.212.121.645.7DSIFT+KISSME14.331.757.314.238.562.0BOW+Cosine17.142.164.230.549.368.3LOMO+XQDA42.154.371.847.464.277.8PS55.655.867.962.963.872.2本文算法74.274.274.278.878.878.8

表4 低分辨率和低光照时精度比较
Tab.4 Accuracy comparison under low resolution and illumination %

算法检测遮挡低光照识别遮挡低光照DSIFT+Euclidean10.421.59.719.5DSIFT+KISSME15.330.612.135.4BOW+Cosine40.240.728.546.3LOMO+XQDA54.152.445.160.7PS50.550.659.661.6本文算法70.468.471.571.5

参考文献：

[1]闫少春，张庚生，张永宁，等.基于级联架构的电网视频监控系统 [J].电子科技，2017，30(7)：103-105.

(YAN Shao-chun，ZHANG Geng-sheng，ZHANG Yong-ning，et al.Network video monitoring system based on cascade architecture [J].Electronic Science and Technology，2017，30(7)：103-105.)

[2]樊腾飞.一种SCADA系统和视频与环境监控系统在电力系统中联动的应用方法 [J].电子设计工程，2016，24(24)：113-115.

(FAN Teng-fei.An application method of linkage between SCADA system and video and environmental monitoring system in power system [J].Electronic Design Engineering，2016，24(24)：113-115.)

[3]徐超，闫胜业.改进的卷积神经网络行人检测方法 [J].计算机应用，2017，37(6)：1708-1715.

(XU Chao，YAN Sheng-ye.Improved convolutional neural network pedestrian detection method [J].Computer Application，2017，37(6)：1708-1715.)

[4]周浩.基于MCGS的变电站监控系统开发与设计 [J].电子科技，2016，29(11)：104-106.

(ZHOU Hao.Development and design of substation monitoring system based on MCGS [J].Electronic Science and Technology，2016，29(11)：104-106.)

[5]张志佳，吴天舒，刘云鹏，等.基于连续非对称卷积结构的手写体数字识别 [J].沈阳工业大学学报，2018，40(5)：518-523.

(ZHANG Zhi-jia，WU Tian-shu，LIU Yun-peng，et al.Handwritten numeral recognition based on continuous asymmetric convolution structure [J].Journal of Shenyang University of Technology，2018，40(5)：518-523.)

[6]Flores C，Merdrignac P，Charette R D，et al.A coopera-tive car-following/emergency braking system with prediction-based pedestrian avoidance capabilities [J].IEEE Transactions on Intelligent Transportation Systems，2018，39(9)：1-10.

[7]Lakshmi A，Faheema A G J，Deodhare D.Pedestrian detection in thermal images：an automated scale based region extraction with curvelet space validation [J].Infrared Physics & Technology，2016，76(7)：421-438.

[8]王斌，刘洋，唐胜，等.融合多模型和帧间信息的行人检测算法 [J].计算机辅助设计与图形学学报，2017，29(3)：444-449.

(WANG Bin，LIU Yang，TANG Sheng，et al.Pedestrian detection algorithm integrating multi-model and inter-frame information [J].Journal of Computer Aided Design and Graphics，2017，29(3)：444-449.)

[9]栾书鹏.基于图块和二阶统计特征的行人检测 [J].电子设计工程，2016，24(20)：190-193.

(LUAN Shu-peng.Pedestrian detection based on blocks-graphs and second-order statistics [J].Electronic Design Engineering，2016，24(20)：190-193.)

[10]崔静安，周通，赵红庆，等.基于数据可视化技术的供电服务质量提升研究 [J].电子科技，2017，30(12)：139-142.

(CUI Jing-an，ZHOU Tong，ZHAO Hong-qing，et al.Research on the improvement of power supply service quality based on data visualization technology [J].Electronic Science and Technology，2017，30(12)：139-142.)

[11]赵中原，王尔智.电力设备监控系统的发展 [J].沈阳工业大学学报，2001，23(4)：308-311.

(ZHAO Zhong-yuan，WANG Er-zhi.Development of power equipment monitoring system [J].Journal of Shenyang University of Technology，2001，23(4)：308-311.)

Detection and identification of staff in power grid monitoring video based on deep learning

LIU Ying, HU Nan, YANG Zhuang-guan, TONG Dong-hui, HU Pan

(Information and Communication Branch, State Grid Liaoning Electric Power Co.Ltd., Shenyang 110006, China)

Abstract： Aiming at the problems that the scenes of power grid monitoring video are diverse and the posture change of power grid staff seriously affects the accuracy of staff identification, a detection and recognition algorithm for the staff in power grid monitoring video based on the deep learning was proposed. The pedestrian features were extracted with the ResNet50 network in the proposed algorithm, and the staff in power grid were quickly and accurately detected with the Faster-Rcnn detection method. In addition, the identification network was used to identify the detected staff, and various combined-losses were used to train the detection and identification network. The test results of data set composed of power grid monitoring videos show that the as-proposed method has higher detection and recognition accuracy and better robustness to occlusion and low-light pictures.

Key words： monitoring video; staff; pedestrian identification; pedestrian detection; deep learning; ResNet50 network; loss function; Faster-Rcnn detection method

收稿日期： 2018-11-13.

基金项目：国家自然科学基金资助项目(51307051).

作者简介：刘颖(1975-)，女，辽宁辽阳人，高级工程师，硕士，主要从事信息化建设管理等方面的研究.

*本文已于2019-08-28 16∶30在中国知网优先数字出版. 网络出版地址： http：∥kns.cnki.net/kcms/detail/21.1189.T.20190827.1657.008.html

doi：10.7688/j.issn.1000-1646.2019.05.12

中图分类号： TM 76

文献标志码：A

文章编号：1000-1646(2019)05-0544-05