当前位置：文档之家› 某地区电力负荷数据分析与预测

某地区电力负荷数据分析与预测

（封面格式）

报名序号：1249

论文题目：某地区电力负荷数据分析与预测

指导教师：唐玲

参赛学校：安徽建筑大学南区

证书邮寄地址、邮编、收件人：

地址：安徽合肥市经开区紫云路292号安徽建筑大学南区邮政编码：230061 收件人姓名：陈富联系电话：131155146667

报名序号：1249

论文题目：某地区电力负荷数据分析与预测

某地区电力负荷数据分析与预测

摘要

针对两个地区历史数据分析及未来数据相关预测，本文用统计学相关理论为基础对两个地区历史数据进行探索分析，深入并直观的描述了数据的分布情况；同时利用时间序列乘积季节模型和LMBP神经网络模型分别对未来数据进行预测并进行相关误差分析，分别得到不同预测方法下的预测结果。

对于问题一，本文对两个地区2014年1月1日—2014年12月31日的负荷数据进行挖掘分析，选取描述数据集中趋势的均值和中位数统计量、描述数据分布离散程度的方差和离散系数统计量以及描述数据分布偏态与峰度的偏度系数和峰度系数统计量来描述各地区全年的日最高负荷、日最低负荷、日峰谷差、日负荷率指标的分布情况；绘制出了两地区2014年全年负荷持续曲线；结合上述结果，分析出地区2负荷变化数据波动较平缓，初步预判地区2的负荷可以获得更准确的预测结果。

对于问题二，本文根据2012年1月1日至2014年12月31日的数据，用偏最小二乘法，分别对日最高负荷、日最低负荷、日平均负荷与各气象因素关系进行回归分析，得出6个多元线性回归模型，同时得到各个回归模型的离差平方和，以离差平方和的大小来反映回归误差的大小；使用简单相关系数检验法，通过各个气象因素相互之间的相关系数矩阵，得出最高温度、最低温度、平均温度这三个因素相关系数较高，存在多重共线性；再经过变量的显著性检验，得出若要用气象因素来提高负荷预测精度，优先推荐平均温度、降雨量、湿度这三个气象因素的结论。

对于问题三，考虑到历史电力负荷数据具有明显的周期性，建立时间序列乘积季节模型，对两个地区2015年1月11日至17日共7天的电力负荷进行预测，得出负荷预测结果见附件。由于模型中各个参数均通过了参数的显著性检验，残差序列通过了残差检验为白噪声序列，体现了模型对原序列的信息提取十分充分，所以在不知道实际负荷数据的情况下，有充分理由判断预测结果的准确度是较高的。

对于问题四，考虑最日高温度等5个天气因素，利用包含5个输入层，7个隐含层和一个输出层的LMBP神经网络预测模型在5个天气因素影响下，再次对两个地区2015年1月11日至17日共7天的电力负荷进行预测，得出负荷预测结果见附件。

对于问题五，综合上述结果参数，并同时引用股票分析中的黄金分割线对两个地区负荷数据规律优劣进行评价。得出地区2的数据规律性优于地区1的结论。

关键词：描述性统计，偏最小二乘回归，时间序列乘积季节模型，LMBP

§1 问题的提出

一、背景知识

短期负荷预测是电力系统运行与分析的基础，对机组组合、经济调度、安全校核等具有重要意义。提高负荷预测精度，是保障电力系统优化决策科学性的重要手段。现代电力系统中，构成电力负荷的用电器种类繁多，空调等受气象条件影响的负荷占比持续增高，气象因素（温度、湿度、降雨量等）对电力系统负荷的影响愈显突出。考虑气象因素成为调度中心进一步改进负荷预测精度的主要手段之一。

二、相关试验数据

已知地区1、地区2从2009年1月1日至2015年1月10 日的电力负荷数据（每15min 一个采样点，每日96点，量纲为MW）以及2012年1月1至2015年1月17 日的气象因素数据（日最高温度、日最低温度、日平均温度、日相对湿度以及日降雨量），详见附件1-数据.xlsx。

三、要解决的问题

1.请分析两个地区2014年1月1日-2014年12月31日的负荷数据，统计各地区全年的日最高负荷、日最低负荷、日峰谷差、日负荷率指标的分布情况，并绘制两地区2014年全年的负荷持续曲线；结合上述结果，分析两地区负荷变化的主要差异；初步预判哪个地区的负荷可以获得更准确的预测结果，说明你的理由。

2.根据2012年1月1日至2014年12月31日的数据，分别对日最高负荷、日最低负荷、日平均负荷与各气象因素的关系进行回归分析，分析回归误差；如果要用气象因素来提高负荷预测精度，在诸气象因素中，你优先推荐哪个（或哪几个）？简要说明理由。

3.请根据已知负荷数据，构建预测方法，对两个地区2015年1月11日至17日共7天的电力负荷进行预测（间隔15min），给出负荷预测结果（提交两个地区96*7负荷预测结果数据，具体要求见附录1）；在不知道实际负荷数据的条件下，你对预测结果的准确度有何推断，请说明理由。

4.如果已获得2015年1月11日至17日的气象因素数据，你能否构建计及气象因素的负荷预测方法，对两个地区2015年1月11 日至17日共7天的电力负荷再次进行预测（间隔15min），给出预测结果（提交两个地区96*7负荷预测结果数据，具体要求见附录1）；与原有的预测结果相比，你认为计及气象因素影响的负荷预测结果精度得到改善了吗？有何证据？请说明理由。

5.综合上述计算结果，你如何评价两地区负荷规律性的优劣？你还有什么证据可以佐证两地区负荷整体规律性优劣的判断？

§2 问题的分析

1）对于问题一，本文使用统计学方法，并利用MATLAB对所给数据进行处理，分别绘制出日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标分别随时间变化的曲线图，并且分别得出数据的集中趋势、数据分布离散程度和数据的分布偏态与峰度3个大方面来描述统计分布情况。

2）对于问题二，本文对日最高负荷、日最低负荷、日平均负荷与各气象因素的关系进行偏最小二乘多元回归分析，在EVIEWS软件中分别得出两个地区6个线性回归方程，并同时对线性回归方程误差进行了分析。

3）对于问题三，要求由已知负荷数据对两个地区2015年1月11日至17日共7天的电力负荷进行预测。相对于已知数据来说，预测属于短期预测。故本文利用时间序列季节乘积模型对这7天数据进行预测。

4）对于问题四，要求利用2015年1月11日至17日的气象因素数据构建计及气象因素的负荷预测方法，同样的对两个地区2015年1月11日至17日共7天的电力负荷再次进行预测。本文在MATLAB中利用LMBP算法进行7天电力负荷再次预测。

5）对于问题五，要求综合上述计算结果，比较两地区负荷数据的优劣。本文通过选取上述计算结果日峰谷差方差等几项具有代表性的参数来对两地区数据规律性进行综合评价，并结合股票中黄金分割线思想来进一步佐证评价结果。

§3模型假设

1）假设所有数据来源真实可靠；；

2）假设电负荷量只受题目所给五项气象因素影响

3）在建立乘积季节模型，序列周期选取时，假设一年都是365天；

§4名词解释与符号说明

一、名词解释

1）日最高负荷：典型日中记录的负荷中，数值最大的一个；

2）日最低负荷：典型日中记录的负荷中，数值最小的一个；

3）日峰谷差：日最高负荷与最低负荷之差；

4）日负荷率：日平均负荷与日最大负荷的比值；

5）年持续负荷曲线：按一年中系统负荷的数值大小及其持续小时数顺序绘制的曲线；

6）离散系数：一组数据标准差与其均值的比，也称为标准差系数，是测度数据离散程度的相对指标；

7）偏度系数：是描述分布偏离对称性程度的一个特征数。当分布左右对称时，偏度系数为0。当偏度系数大于0时，即重尾在右侧时，该分布为右偏。当偏度系数小于0时，即重尾在左侧时，该分布左偏。

8）峰度系数：峰度是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同，但他们分布曲线顶端的高耸程度却不同。二、符号说明序号符号含义

1 X 、Y

解释变量、被解释变量 2 1t 、1u 解释变量的第一主成分

3 ij x

ij x 表示解释变量矩阵X 中第j 个变量的第i 个样本值

4 i y

i y 表示被解释变量矩阵Y 中第i 个样本值

5 *ij

x *

x 表示ij x 标准化后的数值， 6 *j y *j y 表示i y 标准化后的数值 7 E 0、F 0

标准化矩阵

8 i

表示y 关于j x 的回归系数

9 ij r

表示原变量的i x 与j x 之间的相关系数 10

表示误差对权值微分的雅克比矩阵

§5 模型的建立与求解

一、问题一的分析与求解

根据上文中对日最高负荷、日最低负荷、日峰谷差以及日负荷率的相关描述，

再由附件中所提供的两个地区2014年1月1日-2014年12月31日的负荷数据，利用MATLAB 软件绘制出了两个地区全年的日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标分别随时间变化的折线图，如图1（相关程序见附录一）。

图 1 两个地区各指标对比图

根据统计学[1]中常用来描述数据特征，再结合本题所给数据特点，本文选取

了数据的集中趋势（均值、中位数）、数据分布离散程度（方差、离散系数）和数据的分布偏态与峰度（偏度系数、峰度系数）三个大方面中六个参数对两个地区2014年1月1日-2014年12月31日的全年的日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标数据进行进一步描述。利用SPSS软件求出数据的六个参数，如表1所示。

表 1 两个地区相关数据分布表

集中趋势分布离散程度分布偏态与峰度

均值中位数方差离散系

数偏度系

数

峰度系

数

日最高地区1 9222.652 9324.658 4304937.533 0.225 -0.999 1.328 负荷地区2 9786.915 9141.212 4132055.447 0.208 -0.216 0.089

日最低负荷地区1 5140.649 5007.485 1515519.772 0.239 -0.580 0.478 地区2 5330.649 4662.305 2022676.688 0.267 0.193 -0.692

日峰谷差地区1 4081.728 4317.173 1259224.692 0.275 -0.861 0.490 地区2 4456.267 4478.908 730535.085 0.192 -0.650 0.512

日负荷率地区1 0.790 0.777219 0.001 0.040 1.039 1.328 地区2 0.800 0.794704 0.001 0.040 0.694 0.089

根据上文中对全年的负荷持续性曲线的相关，再由附件中所提供的两个地区2014年1月1日-2014年12月31日的负荷数据，利用MATLAB软件绘制出了两个地区全年的负荷持续性曲线图（相关程序见附录一），如图2所示。

图 2 全年持续性曲线

由图1可知：在全年的日最高负荷、日最低负荷、日峰谷差、日负荷率四个指标中地区2数值高于地区1的数值，说明地区2的总体用电量大于地区1的用电量。由表1可知：地区2统计平均数大于地区1，同样证明地区2总体用电量较大，再对比方差等其他参数，地区2的数据波动范围相对较小，数据的分布较为集中，且较为对称。由图2同样可知，地区2的用电量在几乎全年各时刻均高于地区1的用电量。

在大量数据的前提下做预测分析，数据变化范围越小，预测结果越准确。由上述分析可知，地区2的数据更加平稳，波动范围小，所以在后续负荷预测中，

地区2相对于地区1可以获得更为准确的结果。二、问题二的分析与求解

5.2.1 偏最小二乘法回归分析原理

偏最小二乘回归分析[2]是多元线性回归分析、典型相关分析及主成分分析有机结合。在主成分分析基础理论中，从被解释量X 和解释变量Y 中提取的第1主成分1t 和1u 应尽量多地携带原始数据的变异信息，时所提取的成分方差达到最大，则有

11()max,()max D t D u →→ （1）

式中1()D t 、1()D u 表示1t 和1u 的方差。

在典型相关分析中，为保证解释量与被解释量之间的相关性，在典型成分1

t 和1u 的提取过程中，应使典型成分之间的相关性关系最大，则有

11(,)max r t u → （2）

式中11(,)r t u 表示1t 和1u 的相关系数。

这样，在X 和Y 中提取的成分1t 和1u 不仅能够最大程度上地携带X 和Y 的基本信息，而且保值了1t 和1u 具有比较强大的解释能力。提取第1个主成分1t 后，

实施X 和Y 对1t 的回归分析，如果精度满足要求，则不再计算；否则，提取残余信息继续进行回归分析，直到满足要求为止。如果最终对X 共提取m 个成分12m t t t 、、L 、，则Y 对X 回归分析即可以转化为Y 对12m t t t 、、L 、的一组多元回归分析，而自变量X 主成分12m t t t 、、L 、均可由X 线性表示，所以最后可还原成Y 对X 的回归方程。

5.2.2 具体建模求解

根据解释量个数不同，偏最小二乘回归分析可分为单变量偏最小二乘回归分析和多变量偏最小二乘回归分析。根据题目要求，本文分别对日最高负荷、日最低负荷和日平均负荷三个被解释变量进行多变量偏最小二乘回归分析。

1）设已知被解释变量日最高负荷y 和5个解释变量1x （最高温度）、2x （最低温度）、3x （平均温度）、4x （相对湿度）和5x （降雨量），样本数为n （n =1096），形成解释变量矩阵[]1

234

510965X x x x x x ?=和被解释矩阵[]10961Y y ?=。将X

与Y 进行标准化处理，得到标准化后的解释变量矩阵E 0和被解释变量矩阵F 0。

做标准化处理是为了公式表达的方便和减少预算误差。

***0

10965*

010961()

()ij j ij j i j y ij j x x x s y y

y s E x F y ???-=

?-=??

?=??=?

(3) i=1，2，L ，k ；j =1，2，3，4，5

式中：ij x 表示解释变量矩阵X 中第j 个变量的第i 个样本值；j x 表示解释变量X 中第j 个变量个j x 均值，j s 表示j x 的标准差， i y 表示被解释变量矩阵Y 中第i

个样本值， y 表示被解释变量y 的均值， y s 表示被解释变量y 的标准差，*

ij x 表

示ij x 标准化后的数值，*j y 表示i y 标准化后的数值。

2）从E 0中提取第1主成分101t E w =，其中w 1为E 0的第1主轴，即1=1w ，E 0和F 0均是标准化矩阵，则有

10010

0101(,)(,)T

T k r x y E F w M E F r x y t E w ??

?==???==

（4）

[]1012020(,)(,)(,)k k r x y E r x y E r x y E +++ (5)

式中：E 0i （i=1，2，L ，k ）表示E 0的第i 列，1(,)r x y （i=1，2，L ，k ）表示j x 与y 的相关系数。在简化算法中只需求出E 0对1t 的回归系数1p 即可，无需实施F 0对1t 的回归。

0111T

E t p E =+ (6)

E t p t =

(7)

式中：1p 表示E 0对1t 的回归系数，E 1表示回归方程残差矩阵

1011T

E E t p =- (8)

3)重复建模步骤2），以E 1取代E 0，以F 1取代F 0，用同样的方法得到

1021

T T

E F w E F =

；由于不再是标准化矩阵，所以有

11021

1cov(,)cov(,)j T

T p E y E F w M E F E y ??

?==???

(9) 101t E w = (10)

1222

T E t p t =

(11)

2122T

E E t p =- (12)

式中1cov(,)j E y 表示1j E 与y 的协方差。

依次类推，从第4）步开始，可用交叉有效性来确定偏最小二乘回归分析中

成分提取个数，并停止迭代。

在得到成分12m t t t 、、L 、( m

12m t t t 、、L 、的回归分析，即为

01122m m F rt r t r t =++

(13)

由于h t （h =1，2，L ，m ）均为E 0的线性组合，所以有

1001()h T h h h j j h h j t E w E I w p w E w --===-=∏ (14)

记1

()h T h

j j h j w I w p w -==-∏，其中I 为单位矩阵，所以综合可得：

01010011()m m m m F r E w r E w E r w r w =+

(15)

若记*

001

,,(1,2,,)m

j j h hj h x E y F r w j L k α=====∑，则标准化变量*y 关于*j x 的回

归方程为

***

1122k k y x x L x ααα=+++ (16)

最后，通过标准化的逆过程，可得到y 关于j x 的回归方程为

1122k k y x x L x βββ=+++ (17)

式中(1,2,,)i i L k β=表示y 关于j x 的回归系数。

5）分别改变对应被解释变量，重复以上步骤，分别对日最高负荷、日最低负荷和日平均负荷三个被解释变量进行回归分析。利用EVIEWS 进行求解（具体结果见附录二），整理后结果如表2所示。

表2 线性回归曲线表

地区1 地区2

日最高负荷

112345

5583.539.09120.77120.8512.72 5.81y x x x x x =-++-+

112345

4006.4119.1826.32150.4019.69 2.95y x x x x x =+++-+

日最低负荷 212345

2869.8420.7482.9365.678.56 3.92y x x x x x =-++-+

212345

4159.767.227.43176.2723.6911.04y x x x x x =-++-+

日平均负荷

312345

4382.5129.43101.1891.7610.85 4.33y x x x x x =-++-+

312345

4083.6316.6418.48194.7920.789.31y x x x x x =-++-+

5.2.3 气象因素选择

下面进行气象因素的选取：

首先由EVIEWS 分析，得到五个气象因素相互之间的相关系数，汇成关系数表，如下所示：

表3 地区一各气象因素相关系数表

X1 X2 X3 X4 X5 X1 1 0.9129 0.9569 0.1312 0.01261 X2 0.9129 1 0.9841 0.3114 0.0988 X3 0.9569 0.9841 1 0.2169 0.0644 X4 0.1312 0.3114 0.2169 1 0.3649 X5

0.01261 0.0988 0.0644 0.3649 1

表4 地区二各气象因素相关系数表

X1 X2 X3 X4 X5 X1 1 0.7945 0.9616 0.1381 0.0322 X2 0.7945 1 0.8781 0.3985 0.1775 X3 0.9616 0.8781 1 0.2788 0.1152 X4 0.1381 0.3985 0.2788 1 0.4111 X5

0.0322 0.1775

0.1152 0.4111 1

从两个地区气象因素相关系数表可以看出123,,x x x 两两之间相关系数较大，均接近与1，根据综合判别法与简单相关系数检验法分析的结果可以知道，本案例的最高温度、最低温度、平均温度这三个回归变量间确实存在多重共线性，变量蕴含的信息相互交叉影响，没有必要将这三个变量全部引进模型，可以经过分析对其中个别变量进行剔除[3]。

接下来，构造t 统计量，进行变量的显著性检验。在变量的显著性检验中，针对变量(1,2,3,4,5)

i x i =设计的原假设与备择假设

为：

01:0:0

j j H H ββ=≠

给定一个显著性水平?，得到临界值2

(1)t n k ?--，于是可根据2

(1)t t n k ?>--来

决定拒绝0H ，从而判定对应的解释变量是否应包含在模型中。

本题对六个回归方程进行参数的显著性检验，EVIEWS 软件的回归结果见附录二，观察各个方程中每个回归变量t 统计量对应概率p 值的大小，可以得出变量345,,x x x 的t 统计量对应概率p 值基本上小于给定显著性水平0.1?=，通过参数的显著性检验；而变量12,x x 的t 统计量对应概率p 值基本上大于0.1?=，不通过参数的显著性检验。综合以上两点，如果要用气象因素来提高负荷预测精度，在这五个气象因素中，我优先推荐平均温度、相对湿度、降雨量这三个气象因素。

三、问题三的分析与求解 5.3.1 时间序列乘积季节模型原理

当序列具有短期相关性时，通常可以使用低阶(,)ARMA p q 模型提取。当序列具有季节效应，季节效应本身还具有相关性时，季节相关性可以使用以周期步长为单位的(,)ARMA P Q 模型提取。

由于短期相关性和季节效应之间具有乘积关系，因此拟合模型实质为

(,)ARMA p q 与(,)ARMA P Q 的乘积。综合前面的d 阶趋势差分和D 阶以周期S 为

步长的季节差分运算，对原观察值序列拟合的乘积季节模型[4-5]结构如下：

()()

d D

S S t t S B B x B B εΘΘ??=

ΦΦ (18)

式中：

1111()1()1()1()1q q q q S

S Q S PS

S P B B B B B B B B B

B B B θθφφθθφφΘ=--

-Φ=---Θ=---Φ=--

该乘积季节模型简记为(,,)(,,)S ARIMA p d p P D Q ?。

5.3.2 具体建模

本文针对问题三，在EVIEWS 软件做出两个地区原序列的时序图与差分后时序图。

1）确定时间序列季节乘积模型：首先考虑的是简单加法季节模型拟合原始序列再对7天各个时间节点的电负荷量进行预测，进行模型检验时，产生的残差序列延迟6步、12步、18步的Q 统计量对应概率值均小于0.05?=，说明残差序列为非白噪声序列，不通过模型的残差检验，可以得出模型对序列信息的提取不够充分的结论。充分说明序列的季节效应、长期趋势效应和随机波动间有着复杂的交互影响关系，使用简单的ARIMA 模型不足以提取其中的相关关系，所以这时我们考虑使用乘积季节模型对原序列进行拟合。

地区二原序列时序图地区二差分后时序图

图 3 时序图

两个地区2009年1月1日——2015年1月10日的电力负荷序列时序图显示该序列具有长期递增趋势和以年为周期的季节效应，先对序列最一阶差分消除线性增长趋势，每隔15分钟做一次记录，所以该序列周期步长为35040（36596?），接下来再做一阶步长为35040的差分消除序列周期性。

2）模型定阶：首先考虑1阶35040步差分过后，序列12阶以内的自相关系

数和偏自相关系数的特征，以确定短期相关模型。考察两个地区序列差分后自相关图和偏自相关图（见附录三），自相关图和偏自相关图显示12阶以内的偏相关系数2阶截尾，所以尝试使用((1,2),1,0)ARIMA 模型提取差分后序列的短期相关信息。使用35040(1,1)ARMA 模型提取差分后序列的季节相关信息。

综合前面的信息我们要拟合的乘积季节模型为35040((1,2),1,0)(1,0,1)ARIMA ?

即：350401350403504011(1)1t t B

x B B

θθεφ-??=

-- (19) 3）模型拟合：使用最小二乘估计方法，确定拟合该模型的口径为：

地区一：350403504010.993(10.292)10.987t t B

x B B ε-??=--

地区二：350403504010.997(10.292)10.959t t B

x B B

ε-??=+-

4）序列预测：使用该模型预测两个地区2015年1月11日——1月17日的电力负荷（每间隔15min ），负荷预测结果见附件Q3-Area1-Load.xlsx 与附件Q3-Area2-Load.xlsx 。

图4 乘积季节模型拟合效果图

在不知道实际负荷数据的条件下，本文推断预测结果的准确度较高。从图4两个地区电力负荷序列模型拟合效果图可以看出，拟合出的图曲线与原差分后序列接近程度较高，残差曲线在0附近波动；因为两个时间序列乘积季节模型均通过了参数的显著性检验，充分说明模型参数的选取是合理的；模型产生的残差序列为白噪声序列，不具有短期相关性，通过了残差检验，表明模型对原序列的信息提取较为充分，综合以上三个方面说明模型合理有效，使用该模型进行预测，预测的结果必然准确度较高。四、问题四的分析与求解 5.4.1 主成分分析

本文有最高温度、最低温度、平均气温、相对湿度、降雨量五个气象因素，每个变量都在不同程度上反映了研究问题的模型特征，但指标之间彼此有一定的相关性，因而所得的统计数据反应的信息在一定程度上有所重叠。

主成分分析旨在利用降维的思想，把多指标转化为较少几个综合指标，用较少的几个综合指标来代替原来的指标，而且这些较少的综合指标能尽量多的反映原来较多变量指标所反映的信息，同时综合指标之间是彼此独立的。

假定有n 个样本，每个样本有p 个变量，构成一个n p ?阶的数据矩阵：

1112

12122212

p p n n np x x x x x x X x x x ?? ?

= ? ? ??? 主成分分析具体过程如下：

（1）将原始数据标准化为[0,1]之间的有效数据；（2）计算相关系数矩阵：

1112

12122212p p p p pp r r r r r r R r r r ?? ? ?= ? ? ??? 式中：(,1,2,

)ij r i j p =为原变量的i x 与j x 之间的相关系数，其计算公式为：

()()

i kj j ij x

x x x r --=

∑ (20)

因为R 是实对称矩阵（即ij ji r r =），只需要计算上三角元素或者下三角元素即可；

（3）计算特征值与特征向量：

首先解特征方程0I R λ-=,用雅可比法求出特征值(1,2,

)i i p λ=，并使其按

大小顺序排列；然后分别求出各个特征值对应的特征向量:(1,2,)i a i p =；

(4)计算主成分贡献率及累计贡献率：

主成分i z 的贡献率为：

(1,2,

k i p λλ

==∑ （21）

累计贡献率为：

11(1,2,)i

k p

k i p λλ

===∑∑ （22）

一般取累计贡献率达到85%~95%的特征值12,,m λλλ所对应的第一、第二、

第m ()m p ≤个主成分；

（5）新样本矩阵的构造：定义：记12,,

p x x x 为原变量指标，12,,

()m z z z m p ≤为新变量指标，根据下

式计算每个主成分的各个样本值。

11111221221122221122p p p p

m m mp p z a x a x a x z a x a x a x z a x a x a x

=+++??

?=+++? （23） 2211i ip a a +

系数ij a 的确定原则： ①i z 与(;,1,2,)j z i j i j m ≠=相互无关；

②1z 是12,,

p x x x 的所有线性组合中方差最大者，2z 是与1z 不相关的

12,,p x x x 的所有线性组合方差最大者；m z 是与121,,m z z z -都不相关的12,,

p x x x 的所有线性组合中方差最大者。则新变量指标12,,

m z z z 分别称为原变

量指标12,,

p x x x 的第1，第2，

，第m 主成分，它们分别是相关矩阵m 个较

大特征值所对应的特征向量。

5.4.2 LMBP 建模具体求解

在传统BP 网络预测的学习过程中，分别通过正向传播和反向传播两个过程的交替进行，在权向量空间执行误差函数梯度下降策略，动态迭代搜索一组权向量，使网络误差值达到最小值，来完成信息提取和记忆两个过程

传统BP 算法采用的最速下降算法，在开始几步下降相对较快，但随着接近最优值，目标函数下降逐渐变缓；牛顿法则可在最优值附近提供一个理想的搜索方向。Levenberg-Marquardt 法实际上就是梯度下降法和牛顿法的结合，而且网络权值数目较少时收敛速度非常迅速。

针对标准BP 神经网络算法固有的一些缺陷，考虑到实验样本数目和网络的收敛速度，本文引入Levenberg-Marquardt 算法[6-7]进行网络学习。算法基本思想

是使每次迭代不在沿着单一负梯度方向，而是允许误差沿着恶化的方向进行搜索，同时通过在最速梯度下降法和牛顿法之间自适应调整来优化网络权值，使网络有效收敛，提高了网络的收敛速度和泛化能力。

L-M 优化算法的权值调整公式为：()T T J I J e ωμ?=+ （24）

式中：e 为误差向量，J 为误差对权值微分的雅克比矩阵，μ为一个标量，当μ增加时，它接近于具有较小的学习速率的下降法，当μ下降到0时，该算法就变成了高斯—牛顿法

基于主成分分析LMBP 电力负荷预测步骤如下：

（1）主成分分析处理天气因素，将多个有一定相关的气象因素通过主成分分析法降维处理，用少数不相关气象特征变量来代表；

（2）数据归一化，将数据处理为[0,1]之间的有效数据。本文采用的归一化方式为： m i n

m a x m i n

x x x x x ∧

-；

（3）建立LMBP 神经网络，包括根据Kolmogorov 定理粗略确定网络层次，

层节点数，再多次实验来确定，输出层节点数应与输出量个数相同；

（4）设定训练参数进行训练，完成训练后，调用训练结果，输入测试数据进行测试；

（5）得到目标测试数据，进行反归一化，还原为原始范围数据

将相关数据统计整理，导入MATLAB 中进行计算（相关程序见附录四），结果见附件Q4-Area1-Load.xlsx 与附件Q4-Area2-Load.xlsx 。 5.4.3 模型对比评价

我认为本题与原有的预测结果相比，计及气象因素引影响的负荷预测结果精度提高了。因为一方面使用本问题的LMBP 模型，不仅使用以往的历史负荷数据训练神经网络模型，在此基础上在进行电力负荷序列预测是引入了气象因素作为影响因素，相较于此前单单以历史数据拟合模型作为预测模型，考虑更为全面，且经过验证气象因素确实可以对电力负荷产生一定程度的影响；另一方面，相比于前面建立的模型，本题建立的LMBP 模型的离差平方和有所降低，表示此模型对原有序列信息的提取更加充分，进一步说明与原有的预测结果相比，计及气象因素引影响的负荷预测结果精度有所提高。五、问题五的分析与求解

5.5.1数据综合评价

根据上文对两地负荷规律性分别统计分析法、时间序列法和人工智能算法三种方式研究，现选取三种方式中具有代表性的参数来综合比较两地区负荷分布规律，如表2所示。

表 5 相关参数表

日峰谷差方

回归方程平均离差乘积季节模型离差LMBP 模型

据波动范围较小；地区2

回归方程平均离差平方和与乘积季节模型离差平方和相对于地区1较小，反映模型对原序列的信息提取比较充分，从而说明了地区2负荷数据规律较强；在LMBP模型中，地区2的training：R(网络学习正确率)虽然较小，但相对地区1较大，说明地区2负荷数据规律性更好。综上所述，地区2负荷数据规律性更优。

5.5.2 数据黄金比例评价

许多专家学者指出，“黄金分割率”不但具有美学观点更具有达到机能的目的。比如，建筑物、画框、扑克牌和书籍等，长和宽的比例都十分接近于“黄金分割率”。

黄金分割线股市[8]中最常见、最受欢迎的切线分析工具之一，主要运用黄金分割来揭示上涨行情的调整支撑位或下跌行情中的反弹压力位。不过，黄金分割线没有考虑到时间变化对股价的影响，所揭示出来的支撑位与压力位较为固定，投资者不知道什么时候会到达支撑位与压力位。因此，如果指数或股价在顶部或底部横盘运行的时间过长，则其参考作用则要打一定的折扣，但这丝毫不影响黄金分割线的实用价值。

黄金分割线是利用黄金分割比率进行的切线画法，在行情发生转势后，无论是止跌转升或止升转跌，以近期走势中重要的高点和低点之间的涨跌幅作为计量的基数，将原涨跌幅按0.191、0.382、0.5、0.618、0.809分割为5个黄金点，股价在反转后的走势将可能在这些黄金分割点上遇到暂时的阻力或支撑。其中黄金分割线中运用最经典的数字为0.382、0.618，极易产生支撑与压力。

同样的在本题负荷数据规律也呈现股价变化类似规律，所以同样的可以利用黄金分割线来对数据进行分析。根据分析，地区2的负荷数据的走势更贴近于黄金分割线的划分，从而更进一步说明地区2的数据规律更优。

§6 模型的评价与推广

一、模型的优缺点

6.1模型优点

1）本文用于模型计算的数据量足够大，使得相关计算和预测结果可信度较高；2）本文模型建立模型考虑因素全面合理，使得模型适用性较为广泛；

3）本文在选择预测算法为改进后的算法，使得本文相关预测结果相对更为准确；4）本文从不同角度全面具体地证明了地区2较地区1数据分布规律更优；

5）本文选取乘积季节模型，相比于一般的简单季节模型，时间序列乘积季节模型能同时更好的反映序列的季节效应、长期趋势效应。

6.2模型缺点

1）虽然相关算法已为改进后的算法，但仍存在一些固有的缺陷，导致预测数据存在一定程度的误差；

2）本文将选取五个天气因素，忽略了其他因素对用电负荷量的影响，也会导致模型的拟合存在一定程度的误差，进而引起预测的结果存在不可控误差。

二、模型的推广

由于本文模型考虑因素较多，所以使得模型应用相对较为广泛。例如可以用来预测某地区自来水用量或是对股市大致走势进行简单预测。

参考文献

[1]王学民. 应用多元分析[M]. 上海财经大学出版社, 2009.

[2]毛李帆, 江岳春, 龙瑞华,等. 基于偏最小二乘回归分析的中长期电力负荷预测[J]. 电网

技术, 2008(19):71-77.

[3]李子奈. 计量经济学应用研究的总体回归模型设定[J]. 经济研究, 2008(8):136-144.

[4]万昆, 柳瑞禹. 区间时间序列向量自回归模型在短期电力负荷预测中的应用[J]. 电网技

术, 2012, 36(11):77-81.

[5]王燕. 应用时间序列分析[M]. 中国人民大学出版社, 2012.

[6]张淑清, 任爽, 师荣艳,等. 基于多变量气象因子的LMBP电力日负荷预测[J]. 仪器仪表

学报, 2015, 36(7):1646-1652.

[7]史峰. MATLAB智能算法30个案例分析[M]. 北京航空航天大学出版社, 2011.

[8]谢先武. 证券投资中的数学方法[J]. 科学中国人, 2000(9):63-64..

附录

附录一：

A1=xlsread('diqu1.xlsx');

A2=xlsread('diqu2.xlsx');%读入两个地区全年的电负荷矩阵M1=zeros(size(A1));

M2=zeros(size(A2));

M1=sort(A1,2);

M2=sort(A2,2);%按照行升序排列电负荷矩阵

C11=M1(:,1);

C12=M2(:,1);%两个地区日最低负荷

C21=M1(:,96);

C22=M2(:,96);%两个地区日最高负荷

C31=C21-C11;

C32=C22-C12;%两个地区日峰谷差值

C41=sum(M1,2)./96;

C42=sum(M2,2)./96;%两地区日负荷均值

C51=C41./C21;

C52=C42./C22%两地区日负荷率

t=1:1:365;

subplot(2,2,1);

plot(t,C21,'g') ;hold on

plot(t,C22,'r');%最高负荷

legend('地区1','地区2');

subplot(2,2,2);

plot(t,C11,'g') ;hold on

plot(t,C12,'r');%最低

legend('地区1','地区2');

subplot(2,2,3);

plot(t,C31,'g') ;hold on

plot(t,C32,'r');%日峰谷差

legend('地区1','地区2');

subplot(2,2,4);

plot(t,C51,'g') ;hold on

plot(t,C52,'r');%日负荷率

legend('地区1','地区2');

a1=xlsread('c.xlsx');

a2=xlsread('d.xlsx');%读入两个地区全年的电负荷矩阵

B1=a1(:,4:4:96);

B2=a2(:,4:4:96);%提取整点电力负荷

t=1:18760;

C1=B1.*B1;

C2=B2.*B2;