基于DBSCAN聚类的电力工程数据完整性分析*

袁兆祥1，余春生2

(1. 国网经济技术研究院有限公司，北京 102209； 2. 德信东源智能科技(北京)有限公司科技研发中心，北京 100088)

摘要：针对电力工程数据完整性分析困难的问题，提出了一种基于DBSCAN聚类算法的电力工程完整性分析方法.该分析方法包括数据获取、数据预处理、特征提取和聚类分析4个步骤，能从大规模电力工程数据中快速找出所缺失的数据，并对其进行形态分析.对电能表与智能终端数据缺失数量和数据缺失同步性进行多角度分析的结果表明，所提出的方法可以有效分析电力工程数据的完整性及其缺失的形态分布，对于提高电力工程数据的完整性及分析用户的用电情况均具有较好的参考价值.

关键词：电力工程；数据完整性；聚类；电能表；智能终端；数据缺失；特征提取

随着我国电力营销管理系统、营配系统、生产管理系统和计量自动化系统建设的不断加快，企业逐渐积累了丰富的信息系统应用经验及电能数据资源[1].但国内对电能数据的分析与应用尚处于较为落后的状态，对于宏观电能数据分析缺少预见性、精益性和实时性[2].

结算抄表在电力工程数据管理中起着重要的作用，传统的抄表方式需要工作人员手工录制数据，存在着漏抄、错抄和估抄的问题，这对线损、预测及计费等后续分析工作带来了较大的困难[3-4].而计量自动化系统的投入使用，不仅能有效改善传统抄表方式所带来的困难，且能搜集电网各区域的能耗信息，确保电力供给和电力资源质量的平稳安全[5].大数据采集与监视系统、地理信息系统和高级策略系统的投入使用在提升电力工程建设效率的同时，系统中积累的大量电能数据仍面临着以下挑战：1)数据规范性、准确性和完整性；2)数据搜索与数据聚合；3)系统与数据采集间的数据共享；4)数据计算与大规模数据存储.电力工程数据完整性是电力系统正常运行的基本条件[6-7]，是后期高级应用分析的基础.

本文主要研究电力工程数据的完整性，提出了一种基于DBSCAN聚类算法[8-9]的电力工程数据完整性分析方法，从大规模电力工程数据中快速找出所缺失的数据，并对其进行形态分析.

1 DBSCAN聚类算法

DBSCAN(density based spatial clustering of applications with noise)是一种基于密度的聚类算法，该算法根据所设置的半径Eps和样本数目MinPts将待聚类数据分为核心点、边界点和噪声点3类，其中，在半径为Eps的圆内至少包含MinPts个样本的点称为核心点；在半径为Eps的圆内，样本数量少于MinPts个样本且落在核心点邻域内的点称为边界点；而既不是边界点又不是核心点的则被称为噪声点.相比于K-means聚类算法，该算法无需事先确定聚类中心的数量，并可以识别出任意形状的簇类，且具有较强的抗噪声能力.

该算法通过定义直接密度可达和密度相连的概念，来确定每一个样本所属的聚类中心.直接密度可达即对于给定的半径Eps和样本数目MinPts，从样本p直接到达样本q需要满足

(1)

式中，NEps(q)为样本q的样本范围.密度相连即存在样本满足p和q关于半径Eps与MinPts均是密度可达的.具体的DBSCAN聚类算法如下：

1) 设置数据集D、半径Eps和样本数目MinPts；

2) 判断输入样本点是否为核心点；

3) 若输入样本为核心点，找出其邻域内所有直接密度可达点；

4) 重复步骤2)、3)，直至所有样本判断完成；

5) 合并一些密度可达对象，并根据所有核心点邻域内的直接密度可达点找到最大密度相连点的集合；

6) 重复执行步骤5)，直至遍历完所有核心点邻域.

2 基于DBSCAN的数据完整性分析

传统的数据完整性分析方法取决于一个或多个数据分析师对数据的分析，其性能受分析师对数据熟悉程度的影响.而基于DBSCAN的数据完整性分析方法是基于数据挖掘理论，从电力工程数据中发现潜在的数据缺失风险，该方法能有效应对数据急剧增加的情况，并能实现对数据的高级描述.其主要过程包括：

1) 数据获取.使用电力工程计量自动化系统获取发电场、配电网、变电站和用电数据，并构造数据集.

2) 数据预处理.对采集到的各种数据进行数据清洗、格式统一和归一化处理，得到健康有效的数据.

3) 特征构造.使用预处理后的数据构造有效特征来表征所采集的数据集.

4) 聚类分析.使用DBSCAN算法对数据集各特征进行聚类分析，分析缺失数据的数量分布及同步性特征，为电力工程系统进一步整改提供参考.

2.1 数据获取

电力工程中的数据包括实时电力运行数据、用户档案数据和系统报警数据等.其中，电力运行数据主要包括各类计量终端的通信流量数据、瞬时量数据及表码数据.通信流量数据可以用于判断计量终端的运行状态；瞬时量数据为用户实时用电功率、电压与电流等信息；表码数据为用户累计用电有功表码和无功表码信息.本文使用电能表计量终端每15 min采集一次表码数据，并每隔1 h向智能终端发送一次数据.各数据具体说明如下：

1) 瞬时量数据.包括用户的总有功功率、三相有功功率、三相电流值及三相电压值等用电信息，其部分数据如表1所示.

2) 表码数据.表码数据主要为用户的累计用电信息，其包含的内容如表2所示，其中，费率类型包括总电量、正常情况、高峰、低谷和超高峰等不同时段的计费标准.

表1 瞬时量数据示例
Tab.1 Examples of instantaneous data

名称数据库字段名数据示例1数据示例2数据示例3计量点编码POINTID13653994964144830时刻TIME2017-10-1 0:002017-10-1 0:002017-10-1 0:00总有功功率/WP542125704390A相有功功率/WPA6266401366B相有功功率/WPB313651316C相有功功率/WPC28766383006A相电流有效值/AIA2333968B相电流有效值/AIB257345C相电流有效值/AIC893096A相电压有效值/VUA239234239B相电压有效值/VUB239241235C相电压有效值/VUC238241241

表2 表码数据示例
Tab.2 Examples of table code data

名称数据库字段名数据示例1数据示例2数据示例3计量点编码POINTID13653994964144830时刻TIME2017-10-1 0:002017-10-1 0:002017-10-1 0:00分相类别PHASETYPE000费率类型TARRIFTYPE000正向有功表码ZYBM538866056354302900445反向有功表码FYBM302535正向无功表码ZWBM2223270859499315257反向无功表码FWBM311603434

2.2 数据预处理

使用上文采集的瞬时量数据和表码数据进行数据完整性分析.考虑到数据每间隔1 h采集一次，本文主要选取瞬时数据的计量点、时间与功率3类数据，选取表码数据的计量点、时间及正向有功表码3类数据进行后续分析.考虑到智能计量终端可能存在记录时间不齐和通讯故障等问题，导致相应时间上的计量数据整条缺失，本文主要通过分析缺失数据的形态来判断数据缺失的类型.

本文将具体的数值信息进行去值化，使用‘1’表示某一时刻存在瞬时数据和表码数据，使用‘0’表示某一时刻缺失瞬时数据及表码数据.数据预处理过程如下：

1) 扫描采集的数据，获取计量点编码POINTID；

2) 将每一个计量点按照月份和时刻设定为31×24的数组，并初始化为0；

3) 使用数值判断程序判断每个计量点在响应数组位上是否存在数据及其是否为NULL，若存在数据且不为NULL，则给数组的相应位赋值1；

4) 统计每个计量点的数据缺失数量，并记为ERRORNUM.

本文预处理后的部分瞬时量数据和表码数据分别如表3、4所示.表3、4中分别用Pi和BMi(i=0，1，…，23)表示24个时刻的数据值.

表3 预处理后的瞬时数据
Tab.3 Instantaneous data after preprocessing

POINTIDTIMEERRORNUMP0P1…P22P232913372017-10-1 0:00011…112978042017-10-2 0:00011…112401912017-10-3 0:00110…11

表4 预处理后的表码数据
Tab.4 Table code data after preprocessing

POINTIDTIMEERRORNUMBM0BM1…BM22BM23267422017-10-1 0:00011…111296562017-10-2 0:00210…111282622017-10-3 0:00111…11

2.3 特征构造与特征分析

使用DBSCAN聚类算法分析所采集的电力工程数据前，需针对不同的问题对预处理后的数据进行特征构造和特征分析，以适应相应的问题与模式.本文根据电能表与智能终端数据缺失数量及数据缺失同步性的特点，分别构造了不同的特征组合并进行了有效性分析.

2.3.1 电能表与智能终端数据缺失数量分析

本文分别使用电能表的表码、终端的表码以及电能表的瞬时量、终端的瞬时量分析所采集的电力工程数据的缺失数量.

数据缺失量特征格式如表5所示，表5中显示了所采集数据的全部特征数据缺失数量，其中，M_POINTID和F_POINTID分别为电能表与终端的计量点；电能表的表码和终端的表码缺失数量分别为MBM、FBM；电能表的瞬时量和终端的瞬时量缺失数量分别为MSSL、FSSL；4种特征缺失数量的总和为MISSNUM.

表5 数据缺失量分析特征格式
Tab.5 Feature format of data missing amount analysis

M_POINTIDF_POINTIDTIMEMBMMSSLFBMFSSLMISSNUM267422913372017-10-1 0:00000001296562978042017-10-2 0:005677251282622401912017-10-3 0:00112262037162037172017-10-4 0:0031116

为保证聚类分析的有效型，本文排除了运行正常的计量终端及拆除、损坏或无信号的计量终端，即4个特征量均为0和均为24的样本，共统计了53 903个计量终端采集的313 346条有效数据.各特征具体统计结果如表6所示.

表6 各特征缺失数据统计结果
Tab.6 Statistical results of missing data with respective feature

类型MBMMSSLFBMFSSL缺失数量280155349537628428555303

从表6的统计结果可以看出，电能表的瞬时量和表码数据的缺失值明显少于终端上的缺失值，由此表明，终端数据的不完整性更严重.分别分析终端和电能表的数据可知，电能表上表码数据的缺失数量比瞬时量的缺失数量少24.7%；而终端上瞬时量的缺失数量比表码的缺失数量少13.2%.分析结果表明，终端上数据的波动情况更为稳定.

2.3.2 电能表与智能终端数据缺失同步性分析

本文将终端和电能表上的表码数据按异或的方式编码，以判断终端与电能表数据缺失的同步性，特征数据构造如表7所示，其中，DIFNUM表示差异值的数量.

表7 数据缺失同步性的特征数据格式
Tab.7 Feature data format of data missing synchronization

M_POINTIDF_POINTIDTIMEDIFNUMXOR0XOR1…XOR22XOR23267422913372017-10-1 0:00000…001296562978042017-10-2 0:00000…001282622401912017-10-3 0:00301…002037162037172017-10-4 0:00000…00

表7中，XOR0～XOR23分别表示24个时刻终端的表码数据和电能表数据在对应时刻的异或值，用于表示电能表与智能终端数据缺失形态上的差异.其中，表码数据和电能表数据同时存在用0表示，表码数据与电能表数据中有一个缺失时则用1表示.同时，本文删除电能表与智能终端数据缺失同步的情况，即异或数据全为0的数据样本.

3 实验与结果分析

使用本文介绍的DBSCAN聚类算法对提取的电力工程数据进行聚类分析，并分析不同半径Eps时所得到的不同聚类结果.

本文分析了聚类半径分别为5和10的电能表与智能终端的聚类结果，分别如图1、2所示.用不同的颜色表示不同的聚类中心，每个聚类中心显示了类簇样本的数量.图1共有8个聚类中心，图2共有4个聚类中心，两图均表明终端数据的缺失值(FBM、FSSL)要多于电能表数据的缺失值(MBM、MSSL)，且大部分数据点的缺失量较少，而缺失值大的数据点只占少部分.

图1 半径为5时的聚类结果
Fig.1 Cluster results with a radius of 5

图2 半径为10时的聚类结果
Fig.2 Cluster results with a radius of 10

上述实验结果表明，使用DBSCAN聚类算法可以有效地分析电力工程数据的完整性及其缺失的形态分布，且可设置不同的聚类参数，从多角度分析数据缺失的状态.

4 结论

本文提出了一种基于DBSCAN聚类算法的电力工程完整性分析方法，从电力工程数据获取、数据预处理、特征提取和聚类分析4个层面介绍了具体的分析方法，并使用该方法分析了电能表与智能终端数据缺失数量与数据缺失同步性.对采集的数据进行多角度分析的结果表明，提出的方法可以有效地分析电力工程数据的完整性及其缺失的形态分布，这对于提高电力工程数据的完整性和分析用户的用电情况均具有较好的参考价值.

参考文献( References) :

[1]Kim D，Kwon H，Hahn C，et al.Privacy-preserving public auditing for educational multimedia data in cloud computing [J].Multimedia Tools & Applications，2016，75(21)：13077-13091.

[2]田祎.云存储中一个高效的数据完整性审计方案 [J].电子设计工程，2016，24(17)：22-24.

(TIAN Yi.A light-weight data auditing scheme for the cloud storage environment [J].Electronic Design Engineering，2016，24(17)：22-24.)

[3]杨茂，马剑.基于Copula理论的风电功率缺失数据补齐方法研究 [J].电测与仪表，2018，55(3)：13-19.

(YANG Mao，MA Jian.Research on compensation method of wind power loss data based on Copula theo-ry [J].Electrical Measurement and Instrumentation，2018，55(3)：13-19.)

[4]张少敏，王志男，王保义.基于可信计算的用电信息采集终端完整性检测方案 [J].电力自动化设备，2017，37(12)：60-66.

(ZHANG Shao-min，WANG Zhi-nan，WANG Bao-yi.Integrity detection scheme of power consumption information acquisition terminal based on trusted computing [J].Power Automation Equipment，2017，37(12)：60-66.)

[5]周虹，陈锋.一种云计算共享数据完整性公开审计方案 [J].电子设计工程，2016，24(9)：60-62.

(ZHOU Hong，CHEN Feng.A public auditing solution for shared data in the cloud [J].Electronic Design Engineering，2016，24(9)：60-62.)

[6]Babichev S，Lytvynenko V，Skvor J，et al.Model of the objective clustering inductive technology of gene expression profiles based on SOTA and DBSCAN clustering algorithms [C]//International Conference on Advances in Intelligent Systems and Computing.Petersburg，Russia，2018：535-540.

[7]李媛，武岩岩，王思琪.基于混沌时间序列的Elman神经网络工业用电预测 [J].沈阳工业大学学报，2016，38(2)：196-200.

(LI Yuan，WU Yan-yan，WANG Si-qi.Elman neural network for forecasting industrial electricity consumption based on chaotic time series [J].Journal of Shenyang University of Technology，2016，38(2)：196-200.)

[8]Yi L Y，Zhang L，Zhang R，et al.A weighted centroid localization algorithm based on DBSCAN clustering point density [J].Journal of Henan University of Science & Technology，2018(6)：67-69.

[9]Savvas I K，Stogiannos A，Mazis I T.A study of comparative clustering of EU countries using the DBSCAN and k-means techniques within the theoretical framework of systemic geopolitical analysis [J].International Journal of Grid & Utility Computing，2017，8(2)：94-102.

Integrity analysis of power engineering data based on DBSCAN clustering

YUAN Zhao-xiang1, YU Chun-sheng2

(1. State Grid Economic and Technological Research Institute Co.Ltd., Beijing 102209, China; 2. Science and Technology R&D Center, Advisdo Intelligent Technology (Beijing) Co.Ltd., Beijing 100088, China)

Abstract： Aiming at the difficulty of data integrity analysis in power engineering, an integrity analysis method for power engineering based on the DBSCAN clustering algorithm was proposed. The proposed analysis method includes four steps, i.e.the data acquisition, data preprocessing, feature extraction and cluster analysis, and can quickly find the missing data from the large-scale power engineering data and perform the corresponding morphological analysis. The results of multi-angle analysis of the quantity and synchronization of data missing for the electric energy meter and intelligent terminal indicate that the proposed method can effectively analyze the integrity and the missing morphological distribution of power engineering data, and has good reference values for improving the integrity of power engineering data and analyzing the power consuming situation of users.

Key words： power engineering; data integrity; clustering; electric energy meter; intelligent terminal; data missing; feature extraction

中图分类号： TM 76

文献标志码：A

文章编号：1000-1646(2019)03-0246-05

收稿日期： 2018-05-30.

基金项目：国家电网公司科技项目(SGZJ0000KXJS1700477).

作者简介：袁兆祥(1970-)，男，江苏宝应人，教授级高级工程师，博士，主要从事电网工程建设及数据管理等方面的研究.

*本文已于2019-05-09 10∶37在中国知网优先数字出版. 网络出版地址： http：∥kns.cnki.net/kcms/detail/21.1189.T.20190507.1418.024.html

doi：10.7688/j.issn.1000-1646.2019.03.02

(责任编辑：景勇英文审校：尹淑英)