(封面格式)
报名序号:1249
论文题目:某地区电力负荷数据分析与预测
指导教师:唐玲
参赛学校:安徽建筑大学南区
证书邮寄地址、邮编、收件人:
地址:安徽合肥市经开区紫云路292号安徽建筑大学南区邮政编码:230061 收件人姓名:陈富联系电话:131155146667
报名序号:1249
论文题目:某地区电力负荷数据分析与预测
某地区电力负荷数据分析与预测
摘要
针对两个地区历史数据分析及未来数据相关预测,本文用统计学相关理论为基础对两个地区历史数据进行探索分析,深入并直观的描述了数据的分布情况;同时利用时间序列乘积季节模型和LMBP神经网络模型分别对未来数据进行预测并进行相关误差分析,分别得到不同预测方法下的预测结果。
对于问题一,本文对两个地区2014年1月1日—2014年12月31日的负荷数据进行挖掘分析,选取描述数据集中趋势的均值和中位数统计量、描述数据分布离散程度的方差和离散系数统计量以及描述数据分布偏态与峰度的偏度系数和峰度系数统计量来描述各地区全年的日最高负荷、日最低负荷、日峰谷差、日负荷率指标的分布情况;绘制出了两地区2014年全年负荷持续曲线;结合上述结果,分析出地区2负荷变化数据波动较平缓,初步预判地区2的负荷可以获得更准确的预测结果。
对于问题二,本文根据2012年1月1日至2014年12月31日的数据,用偏最小二乘法,分别对日最高负荷、日最低负荷、日平均负荷与各气象因素关系进行回归分析,得出6个多元线性回归模型,同时得到各个回归模型的离差平方和,以离差平方和的大小来反映回归误差的大小;使用简单相关系数检验法,通过各个气象因素相互之间的相关系数矩阵,得出最高温度、最低温度、平均温度这三个因素相关系数较高,存在多重共线性;再经过变量的显著性检验,得出若要用气象因素来提高负荷预测精度,优先推荐平均温度、降雨量、湿度这三个气象因素的结论。
对于问题三,考虑到历史电力负荷数据具有明显的周期性,建立时间序列乘积季节模型,对两个地区2015年1月11日至17日共7天的电力负荷进行预测,得出负荷预测结果见附件。由于模型中各个参数均通过了参数的显著性检验,残差序列通过了残差检验为白噪声序列,体现了模型对原序列的信息提取十分充分,所以在不知道实际负荷数据的情况下,有充分理由判断预测结果的准确度是较高的。
对于问题四,考虑最日高温度等5个天气因素,利用包含5个输入层,7个隐含层和一个输出层的LMBP神经网络预测模型在5个天气因素影响下,再次对两个地区2015年1月11日至17日共7天的电力负荷进行预测,得出负荷预测结果见附件。
对于问题五,综合上述结果参数,并同时引用股票分析中的黄金分割线对两个地区负荷数据规律优劣进行评价。得出地区2的数据规律性优于地区1的结论。
关键词:描述性统计,偏最小二乘回归,时间序列乘积季节模型,LMBP
§1 问题的提出
一、背景知识
短期负荷预测是电力系统运行与分析的基础,对机组组合、经济调度、安全校核等具有重要意义。提高负荷预测精度,是保障电力系统优化决策科学性的重要手段。现代电力系统中,构成电力负荷的用电器种类繁多,空调等受气象条件影响的负荷占比持续增高,气象因素(温度、湿度、降雨量等)对电力系统负荷的影响愈显突出。考虑气象因素成为调度中心进一步改进负荷预测精度的主要手段之一。
二、相关试验数据
已知地区1、地区2从2009年1月1日至2015年1月10 日的电力负荷数据(每15min 一个采样点,每日96点,量纲为MW)以及2012年1月1至2015年1月17 日的气象因素数据(日最高温度、日最低温度、日平均温度、日相对湿度以及日降雨量),详见附件1-数据.xlsx。
三、要解决的问题
1.请分析两个地区2014年1月1日-2014年12月31日的负荷数据,统计各地区全年的日最高负荷、日最低负荷、日峰谷差、日负荷率指标的分布情况,并绘制两地区2014年全年的负荷持续曲线;结合上述结果,分析两地区负荷变化的主要差异;初步预判哪个地区的负荷可以获得更准确的预测结果,说明你的理由。
2.根据2012年1月1日至2014年12月31日的数据,分别对日最高负荷、日最低负荷、日平均负荷与各气象因素的关系进行回归分析,分析回归误差;如果要用气象因素来提高负荷预测精度,在诸气象因素中,你优先推荐哪个(或哪几个)?简要说明理由。
3.请根据已知负荷数据,构建预测方法,对两个地区2015年1月11日至17日共7天的电力负荷进行预测(间隔15min),给出负荷预测结果(提交两个地区96*7负荷预测结果数据,具体要求见附录1);在不知道实际负荷数据的条件下,你对预测结果的准确度有何推断,请说明理由。
4.如果已获得2015年1月11日至17日的气象因素数据,你能否构建计及气象因素的负荷预测方法,对两个地区2015年1月11 日至17日共7天的电力负荷再次进行预测(间隔15min),给出预测结果(提交两个地区96*7负荷预测结果数据,具体要求见附录1);与原有的预测结果相比,你认为计及气象因素影响的负荷预测结果精度得到改善了吗?有何证据?请说明理由。
5.综合上述计算结果,你如何评价两地区负荷规律性的优劣?你还有什么证据可以佐证两地区负荷整体规律性优劣的判断?
§2 问题的分析
1)对于问题一,本文使用统计学方法,并利用MATLAB对所给数据进行处理,分别绘制出日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标分别随时间变化的曲线图,并且分别得出数据的集中趋势、数据分布离散程度和数据的分布偏态与峰度3个大方面来描述统计分布情况。
2)对于问题二,本文对日最高负荷、日最低负荷、日平均负荷与各气象因素的关系进行偏最小二乘多元回归分析,在EVIEWS软件中分别得出两个地区6个线性回归方程,并同时对线性回归方程误差进行了分析。
3)对于问题三,要求由已知负荷数据对两个地区2015年1月11日至17日共7天的电力负荷进行预测。相对于已知数据来说,预测属于短期预测。故本文利用时间序列季节乘积模型对这7天数据进行预测。
4)对于问题四,要求利用2015年1月11日至17日的气象因素数据构建计及气象因素的负荷预测方法,同样的对两个地区2015年1月11日至17日共7天的电力负荷再次进行预测。本文在MATLAB中利用LMBP算法进行7天电力负荷再次预测。
5)对于问题五,要求综合上述计算结果,比较两地区负荷数据的优劣。本文通过选取上述计算结果日峰谷差方差等几项具有代表性的参数来对两地区数据规律性进行综合评价,并结合股票中黄金分割线思想来进一步佐证评价结果。
§3模型假设
1)假设所有数据来源真实可靠;;
2)假设电负荷量只受题目所给五项气象因素影响
3)在建立乘积季节模型,序列周期选取时,假设一年都是365天;
§4名词解释与符号说明
一、名词解释
1)日最高负荷:典型日中记录的负荷中,数值最大的一个;
2)日最低负荷:典型日中记录的负荷中,数值最小的一个;
3)日峰谷差:日最高负荷与最低负荷之差;
4)日负荷率:日平均负荷与日最大负荷的比值;
5)年持续负荷曲线:按一年中系统负荷的数值大小及其持续小时数顺序绘制的曲线;
6)离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标;
7)偏度系数:是描述分布偏离对称性程度的一个特征数。当分布左右对称时,偏度系数为0。当偏度系数大于0时,即重尾在右侧时,该分布为右偏。当偏度系数小于0时,即重尾在左侧时,该分布左偏。
8) 峰度系数:峰度是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。 二、符号说明 序号 符号 含义
1 X 、Y
解释变量、被解释变量 2 1t 、1u 解释变量的第一主成分
3 ij x
ij x 表示解释变量矩阵X 中第j 个变量的第i 个样本值
4 i y
i y 表示被解释变量矩阵Y 中第i 个样本值
5 *ij
x *
ij
x 表示ij x 标准化后的数值, 6 *j y *j y 表示i y 标准化后的数值 7 E 0、F 0
标准化矩阵
8 i
表示y 关于j x 的回归系数
9 ij r
表示原变量的i x 与j x 之间的相关系数 10
J
表示误差对权值微分的雅克比矩阵
§5 模型的建立与求解
一、 问题一的分析与求解
根据上文中对日最高负荷、日最低负荷、日峰谷差以及日负荷率的相关描述,
再由附件中所提供的两个地区2014年1月1日-2014年12月31日的负荷数据,利用MATLAB 软件绘制出了两个地区全年的日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标分别随时间变化的折线图,如图1(相关程序见附录一)。
图 1 两个地区各指标对比图
根据统计学[1]中常用来描述数据特征,再结合本题所给数据特点,本文选取
了数据的集中趋势(均值、中位数)、数据分布离散程度(方差、离散系数)和数据的分布偏态与峰度(偏度系数、峰度系数)三个大方面中六个参数对两个地区2014年1月1日-2014年12月31日的全年的日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标数据进行进一步描述。利用SPSS软件求出数据的六个参数,如表1所示。
表 1 两个地区相关数据分布表
集中趋势分布离散程度分布偏态与峰度
均值中位数方差离散系
数偏度系
数
峰度系
数
日最高地区1 9222.652 9324.658 4304937.533 0.225 -0.999 1.328 负荷地区2 9786.915 9141.212 4132055.447 0.208 -0.216 0.089
日最低负荷地区1 5140.649 5007.485 1515519.772 0.239 -0.580 0.478 地区2 5330.649 4662.305 2022676.688 0.267 0.193 -0.692
日峰谷差地区1 4081.728 4317.173 1259224.692 0.275 -0.861 0.490 地区2 4456.267 4478.908 730535.085 0.192 -0.650 0.512
日负荷率地区1 0.790 0.777219 0.001 0.040 1.039 1.328 地区2 0.800 0.794704 0.001 0.040 0.694 0.089
根据上文中对全年的负荷持续性曲线的相关,再由附件中所提供的两个地区2014年1月1日-2014年12月31日的负荷数据,利用MATLAB软件绘制出了两个地区全年的负荷持续性曲线图(相关程序见附录一),如图2所示。
图 2 全年持续性曲线
由图1可知:在全年的日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标中地区2数值高于地区1的数值,说明地区2的总体用电量大于地区1的用电量。由表1可知:地区2统计平均数大于地区1,同样证明地区2总体用电量较大,再对比方差等其他参数,地区2的数据波动范围相对较小,数据的分布较为集中,且较为对称。由图2同样可知,地区2的用电量在几乎全年各时刻均高于地区1的用电量。
在大量数据的前提下做预测分析,数据变化范围越小,预测结果越准确。由上述分析可知,地区2的数据更加平稳,波动范围小,所以在后续负荷预测中,
地区2相对于地区1可以获得更为准确的结果。 二、问题二的分析与求解
5.2.1 偏最小二乘法回归分析原理
偏最小二乘回归分析[2]是多元线性回归分析、典型相关分析及主成分分析有机结合。在主成分分析基础理论中,从被解释量X 和解释变量Y 中提取的第1主成分1t 和1u 应尽量多地携带原始数据的变异信息,时所提取的成分方差达到最大,则有
11()max,()max D t D u →→ (1)
式中1()D t 、1()D u 表示1t 和1u 的方差。
在典型相关分析中,为保证解释量与被解释量之间的相关性,在典型成分1
t 和1u 的提取过程中,应使典型成分之间的相关性关系最大,则有
11(,)max r t u → (2)
式中11(,)r t u 表示1t 和1u 的相关系数。
这样,在X 和Y 中提取的成分1t 和1u 不仅能够最大程度上地携带X 和Y 的基本信息,而且保值了1t 和1u 具有比较强大的解释能力。提取第1个主成分1t 后,
实施X 和Y 对1t 的回归分析,如果精度满足要求,则不再计算;否则,提取残余信息继续进行回归分析,直到满足要求为止。如果最终对X 共提取m 个成分12m t t t 、 、L 、,则Y 对X 回归分析即可以转化为Y 对12m t t t 、 、L 、的一组多元回归分析,而自变量X 主成分12m t t t 、 、L 、均可由X 线性表示,所以最后可还原成Y 对X 的回归方程。
5.2.2 具体建模求解
根据解释量个数不同,偏最小二乘回归分析可分为单变量偏最小二乘回归分析和多变量偏最小二乘回归分析。根据题目要求,本文分别对日最高负荷、日最低负荷和日平均负荷三个被解释变量进行多变量偏最小二乘回归分析。
1)设已知被解释变量日最高负荷y 和5个解释变量1x (最高温度)、2x (最低温度)、3x (平均温度)、4x (相对湿度)和5x (降雨量),样本数为n (n =1096),形成解释变量矩阵[]1
234
510965X x x x x x ?=和被解释矩阵[]10961Y y ?=。将X
与Y 进行标准化处理,得到标准化后的解释变量矩阵E 0和被解释变量矩阵F 0。
做标准化处理是为了公式表达的方便和减少预算误差。
***0
10965*
010961()
()ij j ij j i j y ij j x x x s y y
y s E x F y ???-=
??
?
?-=??
?=??=?
(3) i=1,2,L ,k ;j =1,2,3,4,5
式中:ij x 表示解释变量矩阵X 中第j 个变量的第i 个样本值;j x 表示解释变量X 中第j 个变量个j x 均值,j s 表示j x 的标准差, i y 表示被解释变量矩阵Y 中第i
个样本值, y 表示被解释变量y 的均值, y s 表示被解释变量y 的标准差,*
ij x 表
示ij x 标准化后的数值,*j y 表示i y 标准化后的数值。
2)从E 0中提取第1主成分101t E w =,其中w 1为E 0的第1主轴,即1=1w ,E 0和F 0均是标准化矩阵,则有
10010
0101(,)(,)T
T k r x y E F w M E F r x y t E w ??
?==???==
(4)
[]1012020(,)(,)(,)k k r x y E r x y E r x y E +++ (5)
式中:E 0i (i=1,2,L ,k )表示E 0的第i 列,1(,)r x y (i=1,2,L ,k )表示j x 与y 的相关系数。在简化算法中只需求出E 0对1t 的回归系数1p 即可,无需实施F 0对1t 的回归。
0111T
E t p E =+ (6)
01
12
1
T
E t p t =
(7)
式中:1p 表示E 0对1t 的回归系数,E 1表示回归方程残差矩阵
1011T
E E t p =- (8)
3)重复建模步骤2),以E 1取代E 0,以F 1取代F 0,用同样的方法得到
1021
T T
E F w E F =
;由于不再是标准化矩阵,所以有
11021
1cov(,)cov(,)j T
T p E y E F w M E F E y ??
?==???
(9) 101t E w = (10)
1222
2
T E t p t =
(11)
2122T
E E t p =- (12)
式中1cov(,)j E y 表示1j E 与y 的协方差。
依次类推,从第4)步开始,可用交叉有效性来确定偏最小二乘回归分析中
成分提取个数,并停止迭代。