改进模糊均值聚类算法在用地规划识别及负荷预测中的应用

辛洪波1, 储琳琳2, 顾志铭2

(1. 复旦大学 计算机科学技术学院, 上海 200433; 2. 国网上海市电力公司 市南供电公司, 上海 200233)

摘 要: 针对传统模糊均值聚类算法在城市规划图纸的地块信息分割识别中存在噪声敏感、误差较大等问题,提出了一种改进模糊均值聚类算法的用地规划智能识别技术.算法扩展了像素样本和聚类中心之间的距离,并在目标函数中引入了邻域像素的空间信息从而提高FCM聚类算法的准确性和抗干扰性.实验结果表明,采用改进的FCM算法得到城市规划不同性质用地的聚类面积和实际规划面积误差在-6.95%~13.08%,在此基础上得到的负荷预测数值与历史数据相比,准确率平均值约为96.4%.

关 键 词: 城市规划; 地块信息; 电力系统; 负荷预测; 模糊均值聚类; 聚类中心; 聚类尺度; 抗干扰性

城市规划发展是电力系统进行中长期负荷预测的重要依据[1-2],而相关规划图纸资料则是进行负荷预测的基础性资料.然而,电力设计部门获得的城市规划资料多是PDF格式的电子文档或纸质文档.在实际的应用与分析过程中,图纸内容的资料给数字化应用以及数据的分析和整理带来了一定的困难.因此,利用计算机技术对图纸内容进行智能识别具有重要意义.

图纸资料一般由图像和文字构成,图像处理、字符识别等技术手段是实现图纸信息化的重要方法.彩色图像分割技术作为图像信息提取的关键技术,在各行各业受到了广泛关注[3-4].于艺铭等[5]针对图像过分割问题,采用领域灰度值相匹配原则提出了一种基于Lab分通道直方图的彩色图像分割算法;任大勇等[6]针对分水岭图像分割算法中的缺陷,通过引入位图切割的方法,实现了在边缘模糊处的准确切割;吕雪等[7]研究了最小化能量函数和Canny算子边缘检测技术在图像自动分割中的应用;朱占龙等[8]采用对模糊C均值聚类算法的目标函数引入总隶属度的方法,实现了对无损检测图像的有效分割,并增强算法的鲁棒性.

目前图像分割算法的应用研究多是在经典图像处理算法的基础上,针对各个专业的应用需求进行改进和优化[9-11].为了解决城市规划图纸中图像识别与提取问题,并以此为基础建立基于空间信息的电力系统负荷预测模型[12],本文提出了一种基于改进的模糊C均值聚类算法的城市规划图纸智能识别技术,并通过建立用地性质与历史负荷之间的映射关系,实现了基于用地规划智能识别的电力系统中长期负荷预测.

1 图像识别

1.1 FCM算法

图纸内容的自动化识别包含了图像预处理、特征提取、要素的形态分析、文字识别、语义理解等多个方面[13].由城市规划图纸的特征可知,彩色信息在城市规划图纸中占据着重要地位,直接表征了不同地块的用地性质.如何得到一个清晰、完整的分割图像和其用地性质是进行电力系统负荷预测的关键.

模糊C均值聚类算法(FCM)是一种经典的彩色图像分割算法,其基本原理是通过对隶属度矩阵和聚类中心向量的不断迭代使得目标函数值最小,进而完成图像区域内各个像素点的聚类[14-15].

假设X={x1x2,…,xN}为待分类样本集合,N为样本总数,将所有样本一共分为C类,则算法的目标函数采用类内加权误差平方和的方式定义,其表达式为

(1)

式中:dik为第i个样本和第k个聚类中心之间的差异,可用欧式距离来表示;uik为第i个样本属于第k个分类的隶属度,取值范围在0~1,其数值越大,样本属于第k个分类的概率就越大;m为加权指数,取值范围通常取1.5~2.5,本文取2.对式(1)使用拉格朗日进行近似求解,可以得到隶属度和聚类中心的迭代公式为

(2)

(3)

经典的FCM图像分割算法,分割过程中依赖于聚类中心,且计算隶属度时只利用了当前像素信息,对噪声较为敏感,同时没有考虑到不同类的尺寸大小以及像素点的疏密因素对聚类结果的影响,因此导致了图像切割时的误差较大.

1.2 改进算法

针对FCM算法的缺陷,为了能将其应用于规划图纸的聚类分析中,本文提出了以下改进方法,以提高图像分割效率和准确度.

1) 为了克服FCM算法在处理不同聚类尺寸以及数据疏密时的缺陷,本文重新定义样本到聚类中心的距离为

(4)

式中,rk为第k个聚类中心的半径.Ak是第k个聚类协方差阵,计算表达式为

(5)

采用新的距离之后,当某一个点位于聚类中心附近时,可以将其与聚类中心归为同一类.同时该模型考虑了样本的密集因素,且对不同大小的类均能够较好地聚类.

2) 为了避免类中心聚集,可以在目标函数中增加对类中心的约束,使得类中心互相远离.具有类中心约束的FCM算法的目标函数定义为

(6)

式中:M为第i个像素的邻域像素集;NR为邻域像素点的个数,本文选择像素点周围3×3的区域作为邻域像素区;α为控制邻域项分割结果的常数.

基于FCM算法的图像分割步骤如下:

1) 设置分类个数C,加权指数m,分割控制常数α以及迭代的终止阈值和迭代上限.

2) 初始化聚类中心向量,并计算更新隶属度矩阵、类协方差阵、距离dik和聚类中心的半径.

3) 若存在dik=0的情况,则令uik=1,其他项的隶属度为0.

4) 当满足迭代误差要求或达到迭代上限时,停止迭代;否则,返回步骤2)重新进行计算.

2 实验验证

本文以从政府官方网站下载得到的上海市某地区规划图纸为例进行区域分割和识别,样本图纸及地块编号如图1所示.表1为该图纸中的地块信息,由图纸规划用地信息可知,规划区域内可将其分为8种不同类型的用地性质,分别用不同的颜色标注.

图1 样本图纸及地块编号
Fig.1 Sample drawing and land numbering

表1 样本图纸各地块信息
Tab.1 Land information in sample drawings

编号地块编号用地代码面积/m2用地性质1N1-01、N1-05、N1-10C2、C837594商业服务、商务办公用地2N1-02、N1-11C113227行政办公用地3N1-03T521558机场用地4N1-04C37616文化用地5N1-08S92070其他交通设施用地6N1-09G23593生产防护绿地7N1-12G17526公共绿地8S1-01D75682军事用地、安保用地、外事用地

在采用FCM进行图像分割的过程中,由于彩色图像处理的是一组三维数据,所以运算量较大.在实际处理过程中为了提高运算效率,在进行聚类选择质心时,本文首先将原始图像压缩为略缩图,通过图纸信息和对略缩图的聚类分析方式确定初始质心.因为在实际操作中,略缩图是原始图像数据的压缩,既保留了原有图像的部分特征,同时又可以提高聚类效率.

对于样本空间的选择,本文直接使用RGB值作为待聚类的数据.在实际计算过程中发现,彩色图像的数据中有较多的像素值是一样的.为了减少不必要的运算,文中在进行图像分割之前,首先计算出图像中实际像素特征值的个数及其数量;然后对每一个独立的像素特征值进行计算,大幅度地提高了计算效率.

以处理图1所示规划设计图为例,初始化最大迭代数为30,分类数为10.采用从略缩图中获取质心的方式,若使用原始RGB像素作为特征值,则共耗时约37.85 s;若使用不重复的RGB像素作为特征值进行聚类分析,则共耗时约15.18 s,图像处理效率可提升约60%.

硬件平台采用了第11代i7处理器,16 GB内存,CPU频率为2.5 GHz,最高睿频4.9 GHz,八核心十六线程.实验过程中分类个数和用地类型数量有关,分割控制常数α取0.85,迭代终止阈值为1×10-5,最大迭代次数为100次.

对图像进行聚类分割过程中,规划边界线的红色区域与规划区内地块的红色标识颜色特征值相重合,进行聚类分析时比较容易将两种符号归为一类,如图2所示.由于边界区域线具有明显的轮廓特征,因此可采用边缘检测的方式,利用Roberts算子进行边缘提取,然后将规划区域外的图像全部用白色像素替代,即可得到无红色虚线标注的规划图纸.

图2 边界线聚类结果
Fig.2 Clustering results of boundary lines

为了更直观地比对两种算法的分割效果,本文对不同性质的地块分割结果进行二值化处理.典型地块的聚类分割结果如图3和图4所示.

图3 机场用地聚类结果
Fig.3 Clustering results of airport land

图4 公共绿地聚类结果
Fig.4 Clustering results of public green space

由图3机场用地的聚类分析结果可知,当图纸中存在具有相似特征值的像素点时,常规的FCM聚类算法会将其归为一类,使得聚类结果存在较多的噪声,而优化后的FCM算法则有较好的去噪能力.若结合边缘检测技术,即可以完成对目标区域的提取.

由图4所示的公共绿地聚类结果可知,由于公共绿地和生产防护绿地的颜色相近,即特征值之间的差异较小,因此常规的FCM聚类分析方法对其分辨能力较弱,且区分难度较大;而优化后的FCM可以对两种地块进行较好地区分.

为了定量分析两种算法的聚类效果,本文通过建立像素点个数与土地面积之间的映射关系来比对聚类结果和实际规划面积之间的差值,具体结果如表2所示.由表2中数据可知,传统的FCM聚类算法得到聚类面积与实际规划面积误差在-24.23%~16.33%之间;而改进的FCM算法得到的聚类面积和实际规划面积误差在-6.95%~13.08%之间.对N1-09地块聚类误差较大的原因在于该地块自身面积较小,受第一表面文字遮挡的部分占据了地块较大面积,因此对其面积进行准确估计存在一定困难.此外,采用改进FCM聚类算法对规划图中不同地块的聚类面积估计的误差均不大于10%,可以满足负荷预测的应用需求.

表2 样本图纸聚类结果
Tab.2 Clustering results of sample drawings

编号地块编号规划面积m2传统FCM算法聚类面积/m2误差/%改进FCM算法聚类面积/m2误差/%1N1-01、N1-05、N1-103759428482-24.23387873.172N1-02、N1-11132271538816.331456910.143N1-0321558221442.71231567.414N1-04761680125.1979584.495N1-0820701856-10.331926-6.956N1-093593412514.80406313.087N1-127526865214.9678964.918S1-0175682795625.12786583.93

3 负荷预测

电力系统负荷的快速精准预测对于了解电网规划建设具有重要意义.利用规划图纸获取地块编号、用地性质、建筑面积、容积率、地块面积等信息后,根据《国网上海市电力公司配电网网格化规划远景饱和负荷预测技术原则》,可以对各个地块的负荷进行计算,进而得到规划建设地区的负荷值,以指导电网规划和建设.

图纸中的用地性质对负荷预测的计算有直接影响,当各地块中含有建筑面积信息时,可使用建筑面积进行负荷预测计算,计算表达式为

(7)

式中:S1为地块建筑面积;λ为负荷指标;β为地块内部同时率.

图纸中无建筑面积信息时,可使用地块的容积率和用地面积进行负荷预测计算,即

(8)

式中:S2为地块用地面积;γ为负荷密度.

在无容积率也无建筑面积和用地总面积等信息时,可使用相邻地块的同类用地容积率对负荷进行测算.此外,当供电区域内同一用地性质负荷超过80%时,取地块间的同时率为0.9;当负荷为60%~80%时,取同时率为0.85;当负荷低于60%时,取同时率为0.8.

表3为样本区域的负荷预测值,由于负荷预测问题的超前性,为了实现具有较好适应性的电力系统规划,负荷预测一般需要给出电力负荷发展的高、低水平,即表3中负荷预测的高方案、低方案.由预测结果可知,对于公共用地而言,例如公共绿地或交通用地等,由于其负荷较低,且基本保持不变,所以预测准确率较高.对于其他用地性质的负荷而言,其预测值的准确率大于90%.

表3 负荷预测结果
Tab.3 Load forecasting results

编号地块编号容积率单位建筑面积负荷指标(W·m-2)低方案高方案单位用地面积负荷密度(MW·km-2)低方案高方案同时率负荷预测MW低方案高方案准确率%1N1-01、N1-05、N1-103.16690100--0.77.4478.33296.52N1-02、N1-112.50090100--0.72.0832.31494.23N1-031.1005560--0.50.6520.71194.54N1-040.26890100--0.70.1280.14393.55N1-082.2003540--1.00.1590.18298.26N1-090.000--1.01.0-0.0030.00399.07N1-120.000--1.01.0-0.0070.00799.08S1-01---------

为了说明文中方案的可行性,在负荷预测过程中本文只考虑了用地性质和用地面积的因素.实际应用过程中,应充分考虑各种有用信息,以提高负荷预测的准确率.

4 结 论

本文研究了基于用地规划识别技术的电力系统中长期负荷预测方法,主要结论如下:

采用重新定义样本到聚类中心的距离和调整目标函数的方式,可以提高FCM聚类算法在图像分割中的抗干扰性.在本文所述的实验条件下,所提出的改进FCM算法得到的聚类面积和实际规划面积误差为-6.95%~13.08%.利用地块面积以及负荷指标方式得到的负荷预测数值的准确率平均值约为96.4%,可以满足电力系统负荷预测以及配网建设的规划需求.

参考文献(References):

[1] 张籍,薛儒涛,刘慧,等.基于深度信念网络的不同行业中长期负荷预测 [J].电力系统及其自动化学报,2019,31(9):12-19.

(ZHANG Ji,XUE Ru-tao,LIU Hui,et al.Medium-and long-term load forecasting for different industries based on deep belief network [J].Proceedings of the CSU-EPSA,2019,31(9):12-19.)

[2] 张冠英,羡一鸣,葛磊蛟,等.经济新常态下基于Verhulst-SVM的中长期负荷预测模型 [J].电测与仪表,2019,56(1):102-107.

(ZHANG Guan-ying,XIAN Yi-ming,GE Lei-jiao,et al.Medium and long-term load forecasting model based on Verhulst-SVM under new normal economy [J].Electrical Measurement & Instrumentation,2019,56(1):102-107.)

[3] 陈丽萍,周航,张宁雨,等.基于改进凸包和颜色对比度的彩色图像分割方法 [J].河北大学学报(自然科学版),2018,38(5):543-548.

(CHEN Li-ping,ZHOU Hang,ZHANG Ning-yu,et al.Color image segmentation algorithm based on improved convex hull and color contrast [J].Journal of Hebei University (Natural Science Edition),2018,38(5):543-548.)

[4] 董新宇,陈瀚阅,李家国,等.基于多方法融合的非监督彩色图像分割 [J].山东大学学报(工学版),2019,49(2):96-101.

(DONG Xin-yu,CHEN Han-yue,LI Jia-guo,et al.An unsupervised color image segmentation method based on fusion of multiple methods [J].Journal of Shandong University (Engineering Science),2019,49(2):96-101.)

[5] 于艺铭,金典,王琪,等.Lab分通道直方图的彩色图像分割算法及应用 [J].影像科学与光化学,2019,37(1):18-32.

(YU Yi-ming,JIN Dian,WANG Qi,et al.Color image segmentation algorithm based on Lab sub channel histogram and its application [J].Imaging Science and Photochemistry,2019,37(1):18-32.)

[6] 任大勇,贾振红,杨杰,等.结合位图切割和区域合并的彩色图像分割 [J].计算机工程与应用,2019,55(2):162-167.

(REN Da-yong,JIA Zhen-hong,YANG Jie,et al.Color image segmentation based on bitmap cut and region merging [J].Computer Engineering and Applications,2019,55(2):162-167.)

[7] 吕雪,吴轩.基于彩色图像分割的数字技术图像识别方案研究 [J].机床与液压,2019,47(12):157-162.

(LÜ Xue,WU Xuan.Research on digital technology image recognition scheme based on color image segmentation [J].Machine Tool & Hydraulics,2019,47(12):157-162.)

[8] 朱占龙,刘永军,赵战民,等.用于分割无损检测图像的改进的抑制式模糊C均值聚类算法 [J].仪器仪表学报,2019,40(8):110-118.

(ZHU Zhan-long,LIU Yong-jun,ZHAO Zhan-min,et al.Improved suppressed fuzzy C-means clustering algorithm for segmenting the non-destructive testing image [J].Chinese Journal of Scientific Instrument,2019,40(8):110-118.)

[9] 张一飞,李新福,田学东.基于图像分割的立体匹配算法 [J].计算机应用,2020,40(5):1415-1420.

(ZHANG Yi-fei,LI Xin-fu,TIAN Xue-dong.Stereo matching algorithm based on image segmentation [J].Journal of Computer Applications,2020,40(5):1415-1420.)

[10] 王丰斌.基于AHLO与K均值聚类的图像分割算法 [J].沈阳工业大学学报,2019,41(4):427-432.

(WANG Feng-bin.Image segmentation algorithm based on AHLO and K-means clustering [J].Journal of Shenyang University of Technology,2019,41(4):427-432.)

[11] 吴迪,刘伟峰,胡胜,等.基于Lab空间的K均值聚类彩色图像分割 [J].电子科技,2017,30(10):29-32.

(WU Di,LIU Wei-feng,HU Sheng,et al.Color image segmentation using K-mean clustering based on Lab space [J].Electronic Science and Technology,2017,30(10):29-32.)

[12] 吴争荣,孔祥玉,董旭柱,等.基于配用电信息分区分类的短期空间负荷预测 [J].电力系统及其自动化学报,2019,31(2):26-31.

(WU Zheng-rong,KONG Xiang-yu,DONG Xu-zhu,et al.Short-term spatial load forecasting based on partition and classification of power distribution information [J].Proceedings of the CSU-EPSA,2019,31(2):26-31.)

[13] 汪航,陈晓,田晟兆,等.基于小样本学习的SAR图像识别 [J].计算机科学,2020,47(5):124-128.

(WANG Hang,CHEN Xiao,TIAN Cheng-zhao,et al.SAR image recognition based on few-shot learning [J].Computer Science,2020,47(5):124-128.)

[14] 高博.一种多目标遥感影像模糊聚类方法 [J].电子科技,2018,31(6):1-4.

(GAO Bo.Multi-objective fuzzy clustering for remote sensing images [J].Electronic Science and Technology,2018,31(6):1-4.)

[15] 王晓飞,胡凡奎,黄硕.基于分布信息直觉模糊C均值聚类的红外图像分割算法 [J].通信学报,2020,41(5):120-129.

(WANG Xiao-fei,HU Fan-kui,HUANG Shuo.Infrared image segmentation algorithm based on distribution information intuitionistic fuzzy C-means clustering [J].Journal on Communications,2020,41(5):120-129.)

Application of improved fuzzy mean clustering algorithm in land use planning identification and load forecasting

XIN Hong-bo1, CHU Lin-lin2, GU Zhi-ming2

(1. School of Computer Science and Technology, Fudan University, Shanghai 200433, China; 2. South Power Supply Company, State Grid Shanghai Electric Power Company, Shanghai 200233, China)

Abstract Aiming at the problems of noise sensitivity and large error in the traditional fuzzy mean clustering algorithm for the segmentation and identification of land information in urban planning drawings, an intelligent identification technology of land use planning based on the improved fuzzy mean clustering algorithm was proposed. The algorithm extends the distance between pixel samples and clustering center, and introduces the spatial information of neighborhood pixels into the objective function so as to improve the accuracy and anti-interference of FCM clustering algorithm. The experimental results show that the error between the clustering area and the actual planned area of different properties for urban planning obtained by the improved FCM algorithm varies within -6.95%~13.08%. Compared with the historical data, the average accuracy of the load forecasting value obtained on this basis is about 96.4%.

Key words urban planning; land information; power system; load forecasting; fuzzy mean clustering; clustering center; clustering scale; anti-interference

中图分类号: TM 744

文献标志码: A

文章编号: 1000-1646(2022)05-0546-06

收稿日期 2021-07-07.

基金项目 国家自然科学基金项目(611033004).

作者简介 辛洪波(1969-),男,江西万载人,讲师,硕士,主要从事图形识别、数据采集等方面的研究.

doi:10.7688/j.issn.1000-1646.2022.05.12

(责任编辑:景 勇 英文审校:尹淑英)