基于Web身份特征的网络视频监控设备识别*

丁伟祥

(中国刑事警察学院 网络信息中心, 沈阳 110035)

摘 要: 为了更好地对网络视频监控设备进行在线管理与维护,提出了一种网络视频监控设备在线检测与自动识别技术.利用无状态扫描技术进行网络终端设备的在线检测,从终端设备特定端口返回的HTTP头信息中提取BANNER和HTML页面信息,并通过粗糙集属性约简后构建设备Web身份特征.利用余弦距离计算在线设备Web身份特征与已知设备特征库样本之间相似度,实现在线设备的检测与识别.结果表明,该方法能够较好地在线检测并自动识别网络视频监控设备,具有较高的识别准确率和较低的识别遗漏率.

关 键 词: 网络视频监控; Web身份特征; 无状态扫描; 粗糙集; 特征约简; 文本相似性; 余弦距离函数; 在线检测; 自动识别

近年来,随着视频软硬件技术的快速发展,网络视频监控设备的成本进一步下降,越来越多的网络视频监控设备进入城市的各个角落,化身为照亮城市的安全之眼,形成了对城市重要部位的视频监控覆盖.根据英国安全产业管理委员会(BSIA)2013年的统计数据显示,当年英国全国约有590万个监控摄像头,即每11个英国人就会拥有1个摄像头,而在“911”恐怖袭击事件后的美国,其新增的监控摄像头也超过3 000万.我国大规模的视频监控网络建设始于2005年,由公安部牵头率先提出在全国22个城市实施城市监控系统建设,实现省、市、县三级视频联网监控系统,即“3111”工程.同年12月,国务院也批转了《关于在全国开展平安城市建设的通知》,随着“平安城市”、“天网”工程建设项目的推进,我国视频监控摄像头的数量迅速跻身国际前列.根据2018年的统计数据显示,中国大陆安装了约3.5亿台摄像头.

庞大的视频监控网络在发挥社会安全保障的同时,也暴露出很多问题,最明显的问题就是重建设轻管理.由于缺乏有效的管理手段,大量的网络视频监控设备存在监控区域交叉冗余的现象[1].许多处于僵尸状态的监控设备在监控能力不断弱化的同时,却仍然持续不断地占用着电力、传输带宽等资源.网络视频监控系统的建设与维护之间脱节现象明显,大量监控设备出现故障后难以实时地检测与维护,导致关键区域、关键时间及关键事件视频监控信息的缺失,为公共安全类事件的侦查与司法取证都造成了难以估量的影响.网络视频监控设备的在线搜索与识别已经引起国内外学者的普遍关注,逐渐形成了一个新的研究方向.文献[2]中介绍了Nmap等主流网络设备扫描软件和工具,这些软件和工具通过发送特定组合的数据包获取网络设备的标识信息,经常被用在服务端口扫描、操作系统、应用服务与版本信息检测等任务中.文献[3]通过扫描全网IP地址的方法检测网络中的服务器.在网络设备识别研究领域,文献[4]在识别网络服务器时,将响应报文的头部域顺序和状态码作为身份特征进行识别.由于在身份特征中引入了更加稳定的结构特征、静态文件及Cookie,识别结果鲁棒性更强,可有效避免BANNER欺骗和构造大量HTTP请求所带来的影响.文献[5]提出了一种基于统计数据与贝叶斯方法的设备识别模型,并研究了通过计算设备身份特征的可信度来识别网络设备的方法.文献[6]给出了一种用于搜索互联网上各类终端设备的统一理论框架.

受上述方法的启发,本文通过对网络视频监控设备应用层、数据层与表示层多个协议的分析,充分挖掘服务标语(BANNER)及页面文本(HTML)内容中包含的服务类型、版本、运行的服务器、IP地址及地理位置等监控设备Web身份特征信息,通过粗糙集属性约简后构成分类特征,并基于余弦测度的相似性计算,提出了一类专门针对特定网络空间内网络视频监控设备的在线搜索与自动识别技术.

1 网络设备的Web身份特征

为了实现对网络视频监控设备的识别,首先需要了解网络视频监控设备在网络空间中的Web身份特征.设备的Web身份特征通常指Web服务组件在开发时留下的可对其类型及版本进行标识的特殊信息.通常包括Web服务器特征、Web应用特征以及前端框架特征等.已有研究证明,可以通过构造特殊的HTTP请求与Web服务器交互后,从响应报文中提取Web服务器及应用的特征[7-8].

1.1 BANNER信息

BANNER信息作为一类重要的Web服务器特征,通常包含服务器、终端设备的软硬件开发商名称、软件版本号、服务类型等关键信息,这些信息已经被证明可以用来作为网络视频监控设备的Web身份信息.为了获取网络设备BANNER信息,首先需要扫描网络空间中的网络目标设备,然后建立与目标设备的连接,最后通过脚本获取目标设备对应的BANNER信息.

1.2 HTML关键字

BANNER是最简单的网络监控设备识别方法,但其内容容易被修改,难以保证设备识别的可靠性.HTML中的关键字也可以作为Web应用特征用来识别网络视频监控设备.为了进一步提高网络视频监控设备识别的稳定性与准确率,本文通过获取登录网络视频监控设备时HTML页面信息中的关键字作为设备的BANNER特征补充.使用正则表达式方法判断当前HTML登录页面中是否包含用户名、密码、端口号等字段,提取页面当中包含的版权信息等.实验表明,海康威视、大华等监控设备在远程登录界面时弹出的HTML页面中包含LOGO和背景等标识图像,这些标识图像通常具有固定的本机存储地址,如海康监控设备LOGO的本机存储地址通常为**/doc/images/showleft.gif.通过设备登录的IP地址和本机存储地址发送请求,如果返回的响应状态是“200 OK”,则表示远程界面含有对应的设备标识图像.

2 设计方法

2.1 方法框架

本文所设计的方法技术路线图如图1所示,具体步骤如下:

图1 本文方法流程
Fig.1 Flow chart of as-proposed method

1) 通过无状态扫描技术对定向网络空间进行TCP扫描,发现在线主机.为了避免有序扫描IP地址容易造成网络拥塞问题,采用蒙特卡洛算法[8]随机选择网络空间中的IP地址进行在线检测.由于大多数视频监控设备需要通过特定端口才能访问,所以通过检测在线主机的特定开放端口可以初步滤除定向网络空间其他在线的网络设备.

2) 通过对在线设备的特定端口发送HTTP访问请求,从应用层协议中获取BANNER信息和HTML页面信息,并提取能够标识网络监控设备的关键字构成特征初集,然后使用粗糙集理论对特征初集进行属性约简后的特征作为Web身份特征.

3) 建立已知网络视频监控设备的Web身份特征库,并将余弦距离函数作为相似性度量函数,计算在线设备Web身份特征与已知设备特征库样本之间相似度,根据相似度计算结果确定在线设备的厂家、型号、版本号等设备信息.同时,根据设备的IP进行相关解析,获取设备所在城市区域、域名解析等信息.

2.2 网络视频监控设备的Web身份特征

通过在线检测获得在线网络设备的IP及访问端口后,可以通过返回的HTTP头文件中的BANNER获取设备的以及HTML页面信息.网络视频监控设备的生产厂家很多,不同设备之间存在较大区别,表1所示为不同厂商、类型网络视频监控设备的部分Web身份特征.

从表1中可以发现,不同厂家生产的网络视频监控设备的Web身份特征具有明显的差异,相同厂家生产的设备Web身份特征字段的取值虽然具有相同格式,但是内容也会存在一定的差异.如海康威视公司设备的Server字段有4种不同的值,而友讯(DLink)公司设备的Server和WWW-Authenticate字段各有2种不同的值.数据表明,相同厂家相同型号不同批次的摄像头的Content-Length字段通常具有相同值.

表1 不同视频监控设备的Web身份特征
Tab.1 Web identity characteristics of different video monitoring equipment

厂商名称字段值海康威视大华友讯(DLink)ServerWWW-AuthenticateBasic realm=WWW-AuthenticateDigest realm=ServerP3P CPWWW-AuthenticateBasic realm=ServerWWW-AuthenticateBasic realm=Hikvision-WebsDVRDVS-WebsDNVRS-WebsApp-Webs“/”“Hikvision”Dahua Rtsp ServerCAO PSA OUR“DVR”AlphapdDcs-lig-httpd“device”“DCS-932L”

从表1中还可以发现,不同厂家、型号监控设备的字段属性值之间存在着较大的冗余.为了降低Web设备特征之间的分类冗余,使用粗糙集理论[9]对BANNER和HTML构成的特征初集进行属性约简,得到简化后的Web设备特征.简化后的特征在保持融合特征分类表达能力不变的情况下,进一步提升了融合特征在高维特征空间的紧致性.

2.3 基于TCP SYN的无状态端口扫描技术

TCP是可靠的面向连接的协议,一个完整的TCP会话过程需要经过“三次握手”,耗费大量的时间和资源.无状态扫描在发出连接请求之后忽略了SYN、ACK、FIN、TIMEWAIT等状态,因此无需占用TCP/IP的协议栈资源.采用无状态扫描技术可以极大地提高扫描速度,如ZMAP和MASSCAN等[10].具体的扫描过程如下:首先利用蒙特卡洛算法对特定网络空间内的IP地址进行随机化处理,从而可以有效避免顺序扫描造成的网络拥堵.向随机化处理后的IP地址发送无状态包SYN,若目标IP返回SYN-ACK则表示设备在线.对在线设备的80,81,82,8080,554等常见的网络视频监控设备端口进行检测,如果检测到的在线设备的上述端口开放,则意味着该在线设备极有可能是网络视频监控设备,将其IP地址保存在在线备检设备列表中,通过上述端口检测可以完成在线设备的初步过滤.向上述在线备检设备发送HTTP请求获取在线设备的BANNER信息和HTML页面信息,爬取HTML页面信息,并对其进行JSON解析后,可以根据正则表达式规则获取页面特征信息,并与BANNER信息共同构成设备的Web身份特征.

2.4 相似性度量

在线检测得到的Web身份特征与已知网络视频监控设备样本之间的相似性计算对于识别在线设备及获取设备详细参数非常重要.在向量空间模型下可以借助向量之间的某种距离表示样本间的相似度.文献[11]指出余弦距离测度和谷本距离测度相比欧氏距离测度更适合作为文本文档的相似性测度.本文选取的设备Web身份特征来源于HTTP头文件中包含的BANNER信息和HTML信息的融合,都具有典型的文本信息的特点.令表示构成已知设备样本库的第i个样本特征,其中i=1,2,…,NWD={wb1wb2,…,wbmwh1wh2,…,whn}表示在线检测得到的设备Web身份特征序列,其中,wb1wb2,…,wbmm个BANNER字段特征,其中每一个字段特征又是一个字符序列特征;wh1wh2,…,whnn个HTML文本特征,同样,每个文本特征本身也是一个字符序列特征.经过适当的补零操作,上述特征可以共同构成一个字符特征矩阵,选择余弦距离测度对在线设备Web身份特征进行相似性度量,即


(i=1,2,…,N)

(1)

根据式(1)可以得到每一个在线设备的相似性度量结果Ri={r1r2,…,rN}.对结果进行相似度排序,排序最高的确定为在线设备的识别结果.识别出为某一类已知的网络视频监控设备后,根据这些设备的IP地址还可以进一步获取设备位置、域名注册信息等.设备的位置信息可以通过python调用Maxmind的GEOIP数据库获取,得到的IP地址对应城市级别的地理位置,设备的域名注册信息通过rDNS获得.最终得到了在线设备检测的完整信息(IP地址、设备厂商、服务、位置及域名注册信息等),从而可以为特定网络空间内的网络视频监控设备进行在线监测与维护.

3 仿真实验

为了验证本文提出的网络视频监控设备识别方法的有效性,设计并开发了一套网络视频监控设备扫描与识别工具,实现对指定网络空间内容的在线识别、地理位置査询和数据统计等功能.硬件配置:Intel(R)、Core(TM)I78550U,CPU 1.80 GHz、1.99 GHz,RAM 16 G,100 Mbit/s;软件配置:Ubuntu14.04.6,Mysql5.6.1.7,Apache2.4.9,Python2.7及360浏览器.本文首先利用不同搜索引擎对某网络空间*.*.0.24进行扫描,扫描比较结果如表2所示.

表2 不同搜索引擎的结果比较
Tab.2 Results compared with different search engines

搜索方法检出设备扫描时间/s每个设备扫描用时/sZmap3437522.192420Masscan3031170.386139Nmap3174591.447950本文方法3373471.011320

时间效率方面,Zmap由于每次只能针对一个端口进行扫描,对于多个端口的情况需要发起多次扫描,因此扫描时间最长.多次实验后发现,Nmap的耗时情况并不稳定,因为其扫描时间容易受到目标网段网络环境影响.检出设备数量方面,在对一个路径进行扫描的时候,三种工具的主机发现数量差距不大,而在对两个路径进行扫描时,Masscan则会出现明显的漏检.相比较其他扫描工具,本文方法在检出设备数和扫描时间两个方面具有比较均衡的结果.

将某已知网络空间作为扫描对象,该网络空间共包括网络视频摄像头329个,其中海康摄像头212个,大华摄像头85个,宇视摄像头32个,分布于室内走廊、电梯、室外等不同区域.根据该网络空间内的网络视频监控设备的厂家、型号建立样本库.对该网络空间中经过随机化处理后的IP地址发送HTTP-GET请求,从返回的HTTP头文件中获取在线设备的Web身份特征后,与样本库特征进行相似度比对.令NoE表示特定空间内所有在线网络视频监控设备数量,NoEd表示检出的在线设备数量,NoEp表示正确检出的在线视频监控设备数量,NoEf表示错误检出的其他类型的网络设备数量,NoCp表示正确分类的网络视频监控设备数量,则分别定义正确检出率TPR,错误检出率FPR,正确识别率TRR为

(2)

(3)

(4)

最终的检测识别结果如表3所示.为了验证本文方法的有效性,本文与单独使用BANNER或HTML特征的方法进行了对比,可以看出本文方法相对上述两种方法具有更好的检出率和识别准确率.

表3 特定网络空间内视频设备的识别结果
Tab.3 Recognition results of video equipment in specific network space %

识别方法TPRFPRTRRHTML特征85.315.992.2BANNER特征88.513.295.1本文方法94.716.7100.0

4 结 论

网络视频监控设备数量的快速增长给后期的设备管理与维护提出了很大的挑战.本文提出的针对特定网络空间的网络视频监控设备在线检测与识别方法将在一定程度上缓解上述矛盾,为生产厂商和用户在实时获取产品质量信息与维护保障等方面提供了重要的技术支撑.

参考文献(References):

[1]陈禹,朱庆华,常莹,等.基于QoE感知的无线视频传输节能技术研究 [J].重庆邮电大学学报(自然科学版),2015,27(3):349-354.

(CHEN Yu,ZHU Qing-hua,CHANG Ying,et al.Energy saving technology of wireless video transmission based on QoE perception [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2015,27(3):349-354.)

[2]Zhang B F,Zou T Z,Wang Y J,et al.Remote operation system detection base on machine learning [C]//4th International Conference on Frontier of Computer Science and Technology.Shanghai,China,2009:539-542.

[3]Gordon F.Nmap network scanning:the official Nmap project guide to network discovery and security scanning [M].Washington:Insecure Press,2009:37-40.

[4]闫淑筠,王文杰,张玉清.一种有效的Web指纹识别方法 [J].中国科学院大学学报,2016,33(5):679-685.

(YAN Shu-jun,WANG Wen-jie,ZHANG Yu-qing.An efficient method of web fingerprint identification [J].Journal of University of Chinese Academy of Sciences,2016,33(5):679-685.)

[5]de Vivo M,Carrasco E,Isern G,et al.A review of port scanning techniques [J].Acm Sigcomm Compu-ter Communication Review,1999,29(2):41-48.

[6]Li Q,Feng X,Zhao L,et al.A framework for searching internet-wide devices [J].IEEE Network,2017,31(6):101-107.

[7]Zhen H,Chun H X,Bo S,et al.Analyzing and summarizing the web server detection technology based on HTTP [C]//IEEE International Conference on Software Engineering & Service Science.Beijing,China,2015:1042-1045.

[8]Matsumoto M,Nishimura T.A 623-dimensionally equidistributed uniform pseudo-random number gene-rator [J].ACM Transactions on Modeling & Computer Simulation,1998,8(1):3-30.

[9]Durumeric Z,Wustrow E,Halderman J A.ZMap:fast internet-wide scanning and its security applications [C]//Proceedings of the 22nd USENIX Conference on Security.Washington D C,USA,2013:605-620.

[10]洪壮壮,黄兆华,万仲保,等.基于GMM的文本规则挖掘的粗糙集方法研究 [J].中文信息学报,2020,34(2):56-62.

(HONG Zhuang-zhuang,HUANG Zhao-hua,WAN Zhong-bao,et al.Research on rough set method of text rule mining based on GMM [J].Journal of Chinese Information Processing,2020,34(2):56-62.)

[11]曹来成,赵建军,崔翔,等.基于余弦测度下K-means的网络空间终端设备识别 [J].中国科学院大学学报,2016,33(4):562-569.

(CAO Lai-cheng,ZHAO Jian-jun,CUI Xiang,et al.Cyberspace device identification based on K-means with cosine distance measure [J].Journal of University of Chinese Academy of Sciences,2016,33(4):562-569.)

Network video surveillance equipment identification based on Web identity characteristics

DING Wei-xiang

(Network Information Center, Criminal Investigation Police University of China, Shenyang 110035, China)

Abstract In order to accomplish better on-line management and maintenance of network video monitoring equipment, an on-line detection and automatic identification technique for network video monitoring equipment was proposed. Stateless scanning technique was employed to perform the on-line detection of network terminal equipment, BANNER and HTML page information was extracted from HTTP header information returned from the specific port of terminal equipment, and the Web identity characteristics of equipment were constructed after the attribute reduction of rough set. Similarity between the Web identity characteristics of on-line equipment and those of known equipment samples are calculated using cosine distance, to realize the detection and identification of on-line equipment. The results show that the as-proposed method can detect and identify network video monitoring equipment nicely and automatically, and has higher recognition accuracy and lower missing rate.

Key words network video surveillance; Web identity characteristic; stateless scanning; rough set; attribute reduction; similarity of text; cosine distance function; on-line detection; automatic identification

中图分类号: TP 393

文献标志码:A

文章编号:1000-1646(2020)04-0427-05

doi:10.7688/j.issn.1000-1646.2020.04.13

收稿日期 2019-11-02.

基金项目 国家重点研发计划专项(2017YFC0822204).

作者简介 丁伟祥(1977-),男,山东招远人,讲师,硕士,主要从事网络安全、网络通信等方面的研究.

*本文已于2020-07-16 09∶36在中国知网优先数字出版. 网络出版地址: http:∥kns.cnki.net/kcms/detail/21.1189.T.20200714.1452.042.html

(责任编辑:景 勇 英文审校:尹淑英)