基于朴素贝叶斯的电网用户行为分析*

胡昌斌, 张 亚, 李迎丽, 万上英, 张思路

(中国南方电网 云南电网有限责任公司, 昆明 650011)

摘 要: 针对电网数据利用率低、精度低、分析结果粗糙和分析层面浅等问题,提出了一种基于朴素贝叶斯分析的电网用户行为分析方法.使用模糊C均值聚类将电网用户的用电数据聚类为不同的用电模式,使用朴素贝叶斯分类器将用户的用电行为分为不同的类别,提取出其中主要的用电模式.某纺织企业的48点负荷数据仿真与测试结果表明,所提出方法在分析用户用电模式时的有效性良好,为电力系统的调控与运行提供了一种合理、有效的方法.

关 键 词: 电力工程; 用电行为; 模糊C均值聚类; 贝叶斯分类; 用电模式; 电网负荷; 行为分析; 用电概率

随着我国经济的快速发展,2018年全社会用电量已达68 449亿千瓦时,同比增长8.5%.而电力需求具有时段和季节紧缺的特点,与电力能源即发即用的特点相矛盾,导致用电低谷时期大量电力资源的浪费[1].目前,各电力公司根据用户需求响应的不同提出了不同的有序用电措施,如基于行政手段的需求响应、基于激励的需求响应和基于价格的需求响应方式[2-3],实施有序的电力资源管理措施是保障供用电平稳和优化电力资源配置的有力手段[4-5].

为了有效掌握和管理用户的实际用电需求,需要充分分析与掌握用户的用电行为,并从用户用电负荷数据中挖掘出其中蕴含的用户用电行为特征.文献[6]在电力营销分析中使用聚类算法将供电企业分为不同的组别,并根据各组别的特点设计了不同的电力营销策略;文献[7]结合决策树模型和时间序列数据来预测电力系统负荷;文献[8]根据用电客户的行为、属性、偏好和需求等因素将客户进行细分,以提供有特色和针对性的服务,实现客户高效、便捷的管理;文献[9]针对用户行为与夏季气温变化的特点,采用二次聚类算法总结气温变化对用电行为的影响;文献[10]结合云计算和K均值聚类方法实现了典型用电行为的分类.上述方法主要研究用户用电行为的影响因素,并未细化到用电行为特征分析与用电行为影响机理中,严重限制了电力公司需求响应和能效评估工作的开展[11-13].

本文使用机器学习方法深入挖掘用户的用电数据,提出了一种基于朴素贝叶斯分析的电网用户行为分析模型.该方法首先构建不同用电模式下用户的用电负荷特性指标,然后,使用朴素贝叶斯分类器提取出影响用户用电行为的主要因素,并使用某纺织企业在2018年48个时间点的负荷数据进行了仿真验证.

1 电网用户用电行为分析

本文采用基于时间维度的数据分析方法,将负荷数据表示为特征向量,并对其进行贝叶斯分类.具体包括:数据预处理、用户用电行为模式分析和用电行为模式的影响因素与影响机理分析3部分.

1.1 指标选择与预处理

电网负荷指标多种多样,根据不同的研究目的选择不同的分析指标,将会对负荷分类结果产生较大影响.目前,电力系统负荷指标体系主要分为曲线型和数值型两种,其建立涉及到日、月、年等时间段,传统描述指标有:描述类、比较类和曲线类这3种.日平均负荷、日最大/最小负荷和日峰谷差绝对值属于描述类指标;日负荷率、日最小负荷率和日峰谷差率为相对量,属于比较类指标;而日负荷曲线为曲线类指标.除了这些传统描述指标,目前也提出了一些新型负荷特性指标:

1) 可中断/可削减的持续时间.设备在响应客户需求过程中,满足基本需求的持续响应时间.

2) 爬坡速率.终端设备在单位时间内可以削减或增加的额外功率.

3) 负荷可调能力.在补偿有限的情况下,对负荷的控制是否能通过电网技术实现.

4) 负荷可调整时段.终端设备能正常开启并响应用户需求的时间段.

本文主要研究用户和企业单位正常生活、生产时的日用电特性,所选用的指标体系需要能较准确地反映企业单位的生产特性、生产班次和用电性质.本文使用用户若干时段的负荷数据作为指标,然而这些数据通常存在诸多噪声和异常值,因此需要首先对其进行预处理.使用数据平滑技术来减少噪声数据,即

(1)

(2)

式中:n为数据观测天数;pit为用户在第i天的第t时刻的负荷数据;则为n天观测数据的平均值和方差.然后,使用3σ原则修正异常数据,即

(3)

式中,ε为常数阈值,取值为1~1.5.对异常数据的修正计算式为

(4)

式中:pit为修正后的数据;αβγ为满足α+β+γ=1的权重系数;为前后两日的观测数据;的均值.

1.2 基于模糊C均值聚类的用电模式分析

为了区分不同的用电模式,本文先使用最短距离聚类法得到初始聚类中心,然后使用模糊C均值聚类判断用电模式.

在最短距离聚类法中,类间距离的计算表达为

DKL=min(d°ijgiGKgjGL)

(5)

式中:DKL为类别GKGL的类间距离;gi为采集到的用户每天48点负荷数据;d°ij为元素gigj间欧式的距离.

将得到的聚类中心作为模糊C均值聚类第一次迭代的初始值,并确定模糊C均值聚类的隶属度矩阵,即

(6)

(7)

式中:uij为元素i与元素j间的隶属度;m为总的类别数;q为权重系数,且有q∈[1,∞);ei为聚类中心位置.

基于隶属度函数可以确定价值函数为

(8)

当价值函数小于某个阈值时,停止迭代;否则,重新计算聚类中心并重新迭代计算隶属度.

基于上述步骤可以将电力用户的用电模式聚类为m类,并在此基础上预测各用户的用电行为.

1.3 用户用电行为模式分析

本部分使用贝叶斯分类器建立起日期、气温等因素与用电行为模式之间的关系,并以此为基础分析,预测出用户的用电行为模式,具体计算流程如图1所示.

图1 用户用电模式分析流程
Fig.1 Analysis flow chart of electricity consumption modes of users

具体计算分为3个步骤:

1) 准备阶段.使用相关分析量来检测两输入特征的关联程度,从而删除冗余数据,分析表达式为

(9)

式中:r为两特征的关联程度;yizi分别为第i天的观测值特征量;分别为所有观测值特征量的平均值.当r>0.7时,表明两特征的关联程度较大,需要删除其中一个特征量.

本文将所有观测日的特征量组合成特征元组x={x1x2,…,xl},并将其分为训练集和测试集.

2) 贝叶斯分类器训练.假设每个类ci(i=1,2,…,m)的先验概率为P(ci),并假设各类别相互独立,即

P(x1|ci)P(x2|ci)…P(xl|cl)

(10)

式中,xk为元组x的第k个特征分量.对于特征量x,需要考虑其为连续值还是离散值.

当特征量x为连续值时,假设其服从高斯分布,即

P(xk|cl)=f(xkμciσci)=

(11)

式中:μci为第k个属性分量的均值;σci为第k个属性分量的标准差.

3) 分类器评估.本文考虑到用户用电模式的多样性,使用贝叶斯理论公式计算得到用户各种用电模式,即

P(c1|x)c1(t)+…+P(cm|x)cm(t)

(12)

式中,Ds(t)为用电负荷.

1.4 用电行为模式的影响因素与影响机理

在识别出用户的用电模式后,使用主成分分析法识别出影响用户用电行为模式的影响机理和影响因素,具体步骤为:

1) 设共有n个待分析样本,其在m个观测日的样本矩阵为

(13)

式中,xij为观测日i上的第j个特征的观测值,对特征样本进行归一化变换则有

(14)

式中,为第m个观测日得到的第j个特征观测值的平均值.

2) 求相关矩阵R,矩阵各元素的求解表达式为

(15)

式中,xjh为观测日i的第h个特征经标准化变换后的观测值.

3) 使用特征方程|λI-R|=0计算矩阵R的特征值,得到特征值λj(j=1,2,…,n),并可以得到每个影响因素的方差贡献率,即

(16)

本文取方差贡献率较大的前10个分量作为主成分,即用户用电行为模式的主要影响因素.

2 仿真测试与分析

本文以某纺织企业的用电数据进行仿真测试,选取该企业在2018年全年每日的48点负荷数据与该地的气候信息构建数据集.仿真平台使用惠普Envy13-d025tu笔记本电脑和MATLAB软件进行数据处理.

本文共采集了6.45 GB用电数据,为加快数据的处理速度,将数据读取出来并分成不同的数据块进行分片式处理.经预处理后,可以得到将近10 MB的用电特征数据.本文将这些数据划分为44 000条训练数据和9 000条测试数据.

本文通过分析电力数据的负荷特性(如日负荷率和日峰谷差率)可知电力负荷的变化具有一定的时段性,而且峰谷存在阈值,结合这些值的变化情况来对用电行为进行聚类.本文将该企业的用电行为进行聚类,其中,峰谷差率主要有6种数值:(0.494 932,0.022 945),(0.399 645,0.027 304),(1,0.205 298),(0.972 414,0.051 151),(1,0.040 948)和(0.979 239,0.961 661),因此本文将用户的用电行为聚为6类,聚类结果如图2所示.从图2中可以看出,各用电模式最高负荷的分布不同,其中模式类别2的最高负荷在5 900~6 100 kW,而模式3的最高负荷不到1 000 kW.

图2 不同用电模式聚类结果比较
Fig.2 Comparison of clustering results under different electricity consumption modes

基于上述聚类结果,本文分析了气温对用户用电模式的影响,针对该地区的平均气温情况,将2018年的气温分为8个不重复的区间,根据聚类结果可以得到气温与用电模式及其概率的分布情况,如表1所示.通过分析表1的数据可知,气温变化能明显影响用户的用电模式,如用电模式6只存在于温度区间[7 ℃,12 ℃]和[27 ℃,32 ℃];而用电模式3在[32 ℃,40 ℃]时不存在,而在其他温度范围时则均有使用.

表1 气温与用电模式的关系及其概率
Tab.1 Relationship between air temperature and electricity consumption modes and respective probability

温度区间℃C1天数概率C2天数概率C3天数概率C4天数概率C5天数概率C6天数概率[-3,2]0020.01920.04610.01730.01700[2,7]20.01630.03770.27490.099120.08900[7,12]90.122170.292100.409180.208140.10530.667[12,17]90.12230.03730.092250.29490.06500[17,22]170.24370.10810.017170.196140.10500[22,27]130.183240.41930.09270.376130.09700[27,32]120.168210.36520.04620.013220.16930.334[32,40]110.15340.05600110.123470.36900

本文同时使用贝叶斯分类法和聚类法对用电模式进行负荷预测应用,表2所示为本文预测不同工作日情况下的用电模式概率.从表2结果可以看出,本方法在贝叶斯方法的基础上,结合气候条件和工作日变化,可以估算出用户的用电负荷大小.充分验证了本文方法在分析用户用电模式时的有效性,为电力系统的调控与运行提供了一种合理、有效的手段.

3 结 论

本文提出了一种基于朴素贝叶斯分析的电网用户行为分析方法.该方法使用模糊C均值聚类将电网用户的用电数据聚类为6种不同的用电模式,并使用贝叶斯分类器分析气温对用户用电行为的影响.使用MATLAB软件对某企业48点负荷数据的仿真测试结果表明,本文所提出方法在分析用户用电模式方面效果较理想,为电力系统的调控和运行提供了一种合理、有效的方案.

表2 不同工作日情况下的用电模式概率
Tab.2 Probabilities of electricity consumption modes in different working days

日期C1C2C3C4C5C62018-02-080010002018-04-010.3150.11900.3150.25702018-05-130.1520.2900.0260.3860.15202018-06-070.1460.04500.1540.66502018-08-080.2010.3650.0190.0190.3820.0202018-10-010000012018-11-190.1830.0460.0460.5470.18302018-12-190.1240.2470.1390.2620.1990.034

参考文献

[1]周明,宋旭帆,涂京,等.基于非侵入式负荷监测的居民用电行为分析 [J].电网技术,2018,42(10):55-61.

(ZHOU Ming,SONG Xu-fan,TU Jing,et al.Resident electricity consumption behavior analysis based on non-intrusive load monitoring [J].Power Grid Technology,2018,42(10):55-61.)

[2]崔立卿,贺伟军,田晶,等.基于K均值聚类算法的大客户用电行为分析 [J].浙江电力,2017(12):47-52.

(CUI Li-qing,HE Wei-jun,TIAN Jing,et al.Analysis of large customers’ electricity consumption behavior based on K-means clustering algorithm [J].Zhejiang Electric Power,2017(12):47-52.)

[3]张燕,朱明敏,宋苏鸣,等.基于混合方式的贝叶斯网络结构学习 [J].电子科技,2014,27(10):115-118.

(ZHANG Yan,ZHU Ming-min,SONG Su-ming,et al.Bayesian network structure learning based on mixed approach [J].Electronic Science and Techno-logy,2014,27(10):115-118.)

[4]王春雷,梁小放,章坚民,等.基于用电采集系统的负荷特性曲线聚类分析 [J].浙江电力,2014(7):6-10.

(WANG Chun-lei,LIANG Xiao-fang,ZHANG Jian-min,et al.Cluster analysis of load characteristic curve based on electric power acquisition system [J].Zhejiang Electric Power,2014(7):6-10.)

[5]于晓飞,葛洪伟.噪声环境下复杂流形数据的势能层次聚类算法 [J].重庆邮电大学学报(自然科学版),2018,30(6):848-854.

(YU Xiao-fei,GE Hong-wei.Hierarchical clustering algorithm based on potential in complex flow data sets with noise [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2018,30(6):848-854.)

[6]吴欣,郭创新.基于贝叶斯网络的电力系统故障诊断方法 [J].电力系统及其自动化学报,2005,17(4):69-74.

(WU Xin,GUO Chuang-xin.Power system fault diagnosis method based on Bayesian network [J].Journal of Power System and Automation,2005,17(4):69-74.)

[7]肖乃慎,李博,孔德诗.大数据背景下的电网客户用电行为分析系统设计 [J].电子设计工程,2016,24(17):61-63.

(XIAO Nai-shen,LI Bo,KONG De-shi.Design of power customer behavior analysis system in the back-ground of big data [J].Electronic Design Engineering,2016,24(17):61-63.)

[8]陈宏.基于用户行为模式的电力需求响应建模与实现 [J].电子设计工程,2017,25(6):156-159.

(CHEN Hong.Modeling and implementation of power demand response based on user behavior model [J].Electronic Design Engineering,2017,25(6):156-159.)

[9]龚钢军,陈志敏,陆俊,等.智能用电用户行为分析的聚类优选策略 [J].电力系统自动化,2018(6):34-38.

(GONG Gang-jun,CHEN Zhi-min,LU Jun,et al.Cluster optimization strategy for intelligent user behavior analysis [J].Power System Automation,2018(6):34-38.)

[10]Qian J,Qiu F,Wu F,et al.Privacy-preserving selec-tive aggregation of online user behavior data [J].IEEE Transactions on Computers,2017,66(2):326-338.

[11]Zhang C,Huang Y,Jing Y,et al.Sum-rate analysis for massive MIMO downlink with joint statistical beamforming and user scheduling [J].IEEE Transactions on Wireless Communications,2017,16(4):2181-2194.

[12]Papazafeiropoulos A K.Impact of general channel aging conditions on the downlink performance of massive MIMO [J].IEEE Transactions on Vehicular Technology,2016,66(2):1428-1442.

[13]Steven R K.A cloud-user behavior assessment based dynamic access control model [J].International Jour-nal of System Assurance Engineering and Management,2015,7:1-10.

Analysis of electrical grid user behavior based on Naive Bayesian

HU Chang-bin, ZHANG Ya, LI Ying-li, WAN Shang-ying, ZHANG Si-lu

(Yunnan Power Grid Co.Ltd., China Southern Power Grid, Kunming 650011, China)

Abstract Aiming at the problems of low utilization rate of power grid, low precision, rough analysis results and shallow analysis level, a behavior analysis method of electrical grid users based on Naive Bayesian analysis was proposed. A fuzzy C-means clustering method was used to cluster the electricity consumption data of electrical grid users into different power consumption modes, a Naive Bayes classifier was used to classify the electricity consumption behavior of users into different categories, and the main electricity consumption modes were extracted. The simulation and test results of 48-point load data from a textile enterprise show that the as-proposed method is effective in analyzing the electricity consumption modes of users and provides a reasonable and effective method for the regulation and operation of power system.

Key words power engineering; electricity behavior; fuzzy C-means clustering; Bayesian classification; electricity consumption mode; grid load; behavior analysis; electricity consumption probability

收稿日期 2019-03-28.

基金项目 国家科技重大专项项目(2017YFB213827); 中国南方电网有限责任公司科技项目(YNKJQQ00000275).

作者简介 胡昌斌(1978-),男,云南宣威人,高级工程师,硕士,主要从事电力科技信息化管理等方面的研究.

*本文已于2020-05-15 16∶07在中国知网优先数字出版. 网络出版地址: http:∥kns.cnki.net/kcms/detail/21.1189.T.20200515.1005.018.html

doi:10.7688/j.issn.1000-1646.2020.03.04

中图分类号: TM 76

文献标志码:A

文章编号:1000-1646(2020)03-0259-05

(责任编辑:景 勇 英文审校:尹淑英)