当前位置:文档之家› 基于聚类-判别分析的风电场概率等值建模研究

基于聚类-判别分析的风电场概率等值建模研究

基于聚类-判别分析的风电场概率等值建模研究
基于聚类-判别分析的风电场概率等值建模研究

第34卷第28期中国电机工程学报V ol.34 No.28 Oct.5, 2014

4770 2014年10月5日Proceedings of the CSEE ?2014 Chin.Soc.for Elec.Eng. DOI:10.13334/j.0258-8013.pcsee.2014.28.004 文章编号:0258-8013 (2014) 28-4770-11 中图分类号:TM 743

基于聚类–判别分析的风电场概率等值建模研究朱乾龙1,韩平平1,丁明1,张晓安1,石文辉2

(1.合肥工业大学教育部光伏系统工程研究中心,安徽省合肥市 230009;

2.中国电力科学研究院,北京市海淀区 100192)

Probabilistic Equivalent Model for Wind Farms Based on Clustering-discriminant Analysis ZHU Qianlong1, HAN Pingping1, DING Ming1, ZHANG Xiaoan1, SHI Wenhui2

(1. Photovoltaic System Research Center of Ministry of Education, Hefei University of Technology,

Hefei 230009, Anhui Province, China; 2. China Electric Power Research Institute, Haidian District, Beijing 100192, China)

ABSTRACT: Based on the coherence influencing factors, a new equivalencing modeling method for squirrel-cage induction generator (SCIG)-based wind farm was proposed. The rotor speed vectors of the wind turbines were sampled in different combinations of operating conditon and short-circuit faults. The two-step cluster method was utilised to divide the wind turbines into groups, and the significance between different groups was tested with the Fisher discriminant analysis. Considering annual wind resource statistics of wind farms and the rates of different system fault types, the probabilistic equivalent model for wind farm was established depending on the largest probability group result. The electromechanical transient model of wind farm was simulated on DIgSILENT PowerFactory platform and the results were compared to that of the traditional equivalent model and detailed model. The simulation results reveal that it is reasonable that the speed vector was considered as cluster-dependent index. The probabilistic equivalent model is able to reflect annual external characteristics of wind farm, and has a great value in engineering applications.

KEY WORDS: wind farm; squirrel-cage induction generator; rotor speed vector; two-step cluster; Fisher discriminant analysis; probabilistic equivalent model

摘要:基于机组同调性的影响因素,提出一种新的鼠笼型风

电场动态等值建模方法。该方法通过采集不同工况和短路故

障类型组合下风力发电机的转速向量,利用two-step法对风

基金项目:国家自然科学基金项目(51207039);国家电网公司科技

项目(NY17201200073);国家能源应用技术研究工程示范项目(NY20110406-1)。

Project Supported by National Natural Science Foundation of China (51207039); Science and Technology Foundation of SGCC (NY17201200073); National Energy Application Technology Research and Engineering Demonstration Projects (NY20110406-1). 电机组聚合分类,并根据Fisher判别分析进行聚类结果的显著性检验。在综合考虑风电场全年风资源统计信息和系统侧不同类型故障发生比例的基础上,以概率最大的机群划分结果,建立风电场概率等值模型。使用DIgSILENT Power Factory平台进行风电场机电暂态仿真,并与传统等值模型和详细模型对比。仿真结果表明,该文提出以转速向量作为分群判据是合理的,所建立的风电场概率等值模型能较全面表征风电场全年的运行外特性,具有重要的工程应用价值。

关键词:风电场;鼠笼型风电机组;转速向量;two-step分类法;Fisher判别法;概率等值模型

0 引言

目前,适用于离线暂态稳定性分析的风电场等值建模大多基于电力系统同调等值思想。传统电力系统动态等值中,发电单元间的同调性可依据暂态过程中发电机转子摇摆曲线提供的信息进行判别。研究表明,机组的同调性主要与3个因素有关:1)故障扰动类型;2)发电机组运行工况;3)网络拓扑结构[1]。文献[2]将同一条馈线上的风电机组用一台等值机表征,但是风电场在实际运行过程中同一馈线上的机组往往存在连锁脱网现象[3]。文献[4]指出风向变化对机组相关性的影响,考虑了运行工况对同调性的影响。文献[5]依据机组状态变量对风机聚合分类,使用的仍然是故障前的稳态初值。文献[6]在基于风电机组暂态电压全都跌落为零的假设条件下,选取故障切除时刻机组的转速作为分群指标,难以准确反映风电机组在暂态过程中电压跌落以及动态运行特性的差异。在风电场等值建模研究过程中,考虑的基本上都是风电场公共节点处发生三相对称短路故障的情况[7-9],很少对单相短

第28期 朱乾龙等:基于聚类–判别分析的风电场概率等值建模研究 4771

路或相间短路情况进行研究,这与实际电力系统运行中故障类型发生的概率大小不符。因此,需要更深入系统地研究风电机组在不同故障类型下的暂态响应特性以及它们之间的差异。

风速的变化具有随机性,电力系统运行过程中,故障类型、扰动大小也属于随机事件。风速和故障扰动类型的随机性共同决定了风电机组的同调性具有概率特征,基于同调等值思想的风电场建模可以借鉴电力系统负荷建模过程中对负荷时变性和随机性[10]以及电网向量测量单元(phasor measurement unit ,PMU)布点问题[11]对机组同调性的处理方法,结合风速状况以及电力系统运行中不同故障类型的统计信息,根据不同风资源条件和短路故障类型组合下风电机组同调性的概率建立风电场概率等值模型。

据此,本文提出一种适用于各类短路故障和全运行工况组合的风电场等值建模方法,采用仿真过程中风电机组的转速向量作为分群指标,使用two-step 法进行聚合分类,根据Fisher 判别分析的回判作用对聚类结果进行显著性检验,利用DIgSILENT PowerFactory 软件进行仿真,以验证理论分析的正确性。

1 风电机组分群指标

1.1 分群指标的选取 1.1.1 鼠笼型风力发电机模型

以电动机惯例确定鼠笼型异步发电机的电压、电流正方向,定子电压相量与d 轴重合(q 轴超前d 轴90°)。由于发电机的定子时间常数比较小,在电力系统机电暂态分析计算中通常忽略发电机定子的暂态过程,则发电机的机电暂态数学模型为

s s s s s s s s s s

s s s s 00s s s s 0

0d 11

[()]d d 11

[()]d d

d q d q q d q d q

d q q d

q d E R i X i u E R i X i u E s E E X X i t

T E s E E X X i t

T ωωωω′′=?++??′′=??+??′?′′′=?+??′??′′′′=?????′?? (1) 式中:E'd = ?ω s

L m ψ

q r

/L rr ;E'q = ω s

L m ψ

d r

/L rr ;X s =

ω s

L ss ;X's = ω s

(L ss ? L 2m

/L rr );

T'0 = L rr

/R r ;R s 、R r 为定、转子电阻;L ss 、L rr 为定、转子全自感;L m 为定、转子之间的互感;s 为转差率;ω

s 为定子电角频率

(标幺值为1);ω

0为基准角频率。

发电机的电磁转矩为

e s s ()d

d q q T E i E i ′′=?+ (2) 1.1.2 机械传动系统模型

风电机组暂态过程中伴随有轴系能量的释放,

因此需要计及机械传动轴系的刚度系数。将叶片和轮毂等效为一个质量块,齿轮箱和发电机转子合并为另一个质量块,得机械传动系统二质块数学模型:

t t w s s s t g t t g g

s s s t g g g e s

0t g d 2[()]d d 2[()]d d ()d H T K D D t H K D D T t t

ωθωωωωθωωωθωωω?

=?+????

?

=+??????=??? (3) 式中:H t 、H g 为风力机和发电机转子的惯性时间常数;ω

t 、ω

g 为风力机和发电机的电角速度;ω

0为

基准角频率;T w 、T e 为机械转矩和电磁转矩;θ

s 为

风力机相对于发电机转子的角位移;D s 为互阻尼系数;D t 、D g 为风力机和发电机的自阻尼系数;K s 为刚度系数。

机电暂态稳定性分析中系统侧发生短路故障,鼠笼型异步发电机端电压的变化将引起电磁转矩的变化,而机械转矩通常认为保持不变。在不平衡转矩作用下,发电机的转速增加,导致发电机等值阻抗减小,功率因数也会下降,因此异步发电机转速可以表征风电机组的运行特性。考虑到同调识别的特征量主要有3类:系统模型数据、静态工况数据和瞬间动态数据,并且系统通常在故障切除时刻会发生突变[12],本文选取风力发电机在故障初始时刻、故障切除时刻以及故障切除后0.2和0.4 s 时刻的转速,即转速向量{ω

0, ω

t , ω

t +0.2, ω

t +0.4}作为风电

机组分群指标。 1.2 分群指标的提取 1.2.1 风资源库和故障类型库

根据风电场全年的实际风资源数据,将0°~ 360° 的风向按照22.5° 间隔均匀分为16个风向,在鼠笼型风电机组切入风速(3 m/s)和切除风速(23 m/s)之间按照1 m/s 步长把风速分为21个风速段,建立风资源数据库。按此方法,某实际风电场全年输入风速大小和风向的统计概率如图1所示。

电力系统运行过程中发生的故障大多数是短路故障,常见的短路类型包括三相短路、两相短路、单相接地短路和两相接地短路。运行经验表明,各类短路发生的次数在短路总次数中所占的比例不同,其概率统计如表1所示[13]。

4772 中 国 电 机 工 程 学 报 第34卷

风速/(m/s)

(a) 风速统计概率

百分比

0.0

0.10.20.3

风向/(°)

(b) 风向统计概率

百分比

0.0

0.10.20.40.390 225 0 180 270 315

13545

图1 风资源统计图 Fig. 1 Wind resource statistics 表1 短路故障概率统计表 Tab. 1 Probability of short-circuit fault

不同短路类型 三相短路

两相短路单相接地短路 两相接地短路

概率/% 5 4

83

8

系统侧发生短路故障时,采用链式结构连接的风电机组由于集电线路阻抗的影响会产生电压跌落差异,并且短路点越靠近风电场出口处差异越大[14]。因此,为了充分体现风电场内部实际集电系统线路阻抗对风电机组暂态特性的影响,本文短路故障点选在风电场出口处。 1.2.2 分群指标的采集

针对风电场风资源库和系统故障类型库中的信息,采集不同风电机组运行工况和故障类型组合情况下机组的转速向量,其流程如图2所示。

根据图2所示的流程,分群指标采集具体包括以下步骤:

1)基于风电场的网络拓扑结构和参数值,在DIgSILENT PowerFactory 仿真软件下搭建风电场详细模型,风电场公共节点接入IEEE 14节点测试系统(外部电网)的14号母线上,如图3所示。风电机组和集电线路参数见附表A1。

2)读取风资源统计库中的风速信息,利用尾 流效应[4]计算推导各单台机组的输入风速,完成动态仿真前模型的潮流初始化。

3)从电力系统故障库中选取某一电网侧短路故障类型,0.2 s 时图3中A 点处发生短路故障,

图2 分群指标采集流程图

Fig. 2 Cluster-dependent index collection flowchart

图3 风电场系统单线图

Fig. 3 Single line diagram of wind farm

150 ms 后故障切除,采集时域仿真过程中单台机组在故障初始时刻、故障切除时刻、故障切除后0.2和

0.4 s 时刻上发电机的转子角速度,形成转速向量。

4)重复上述1)—3)步,完成风资源统计库和故障类型库中所有组合情况下分群指标的采集。

2 风电场动态等值

2.1 聚类分析与判别分析方法

2.1.1 two-step 分类法

聚类算法是一个迭代寻优过程,其目标函数通常以距离作为评价标准,如欧氏距离、相关系数等。依据选取的分群指标,采用聚类算法对机组进行分群,可以使同一机群内的机组具有较高的相似度,不同机群间具有明显的差异。

Two-step 分类法是一种搜索性聚类方法,其第1步完成简单数据处理,将原始输入数据压缩为可管理的子聚类集合,第2步使用层级聚类方法将子

第28期 朱乾龙等:基于聚类–判别分析的风电场概率等值建模研究 4773

聚类进一步合并为更大的聚类。相比于传统的k-means 法[5],two-step 分类法能够为训练数据自动估计最佳聚类数。

2.1.2 Fisher 判别分析

与聚类分析相比,判别分析是在已知研究对象分类的基础上,依据某些准则建立判别函数,然后用判别函数确定研究对象属于哪一类的方法。其中,Fisher 判别法对总体的分布和方差等都没有特殊要求,其基本思想是首先逐一提取典型变量,再用典型变量计算出各类别在低维空间中的重心坐标,通过建立判别函数来计算各样品的坐标值,最后用各观测点离重心距离的远近做出样品所属类别的判断

[15]

Fisher 判别法中线性判别函数的一般形式为

T

1122k k y x x x ααα=+++=x α" (4) 式中:α = (α

1, α

2,???, α

k )T ;x = (x 1, x 2,???, x k )T ;y 为判别值;x 1、x 2、???、x k 为反映研究对象特征的变量值;

α

1、α

2、???、α

k 为相应变量的判别系数;k 为变量

个数。

为了使判别函数能很好地区分来自不同总体的样本,必须使来自不同总体的组间离差相差越大越好,各组的组内离差越小越好,即 λ 越大越好:

()2

1

2

1

()m

i i i m

i i i n y y q λδ==?=

∑∑ (5) 式中:T y =x α,x 为总的均值向量;m 为总体个数;n i 为第i 个总体的样本数;()i y 、2i δ分别为判 别值在第i 个总体上的样本均值和样本方差。令q i = n i ? 1,则上式可简化为

T T λ=A E αααα (6)

式中:()()T 1

[()()]i n m

i i i j j j j i j

q x x x x ==??∑∑E 为组内离差阵;()()T 1()()m

i i i i n x x x x ==??∑A 为总体之间的协差阵。

Fisher 判别分析的准则就是要选取能使式(6) 达到最大的系数向量 α。根据极值存在的必要条 件,令 ?λ

/?α = 0可得,A α = λ

E α。这表明,λ 和 α

恰好正是A 、E 矩阵的广义特征根及其对应的特征向量。

在判别函数建立的基础上,可以进一步将原有样本回代到判别函数中,依据回代正确率检验聚类分析结果的合理性。 2.2 概率等值模型的确定

对two-step 法聚合分类后的风电机组分群结果进行统计,总共有1 344个分群结果,其中有108个不同的组别,包括不同的机群数或相同机群数下包含有不同的风电机组。依据图1和表1中的概率统计,每一种运行工况和故障类型组合条件下对应

的机组分群结果概率wtg ij

f 为

wtg wind fault ij i j

f f f =× (7)

式中:风速的统计概率f w i ind 为风速大小和风向概率的乘积;f f i ault 为相应故障类型发生的概率。

将相同分群结果的概率加和,得到108个不同组别相应的概率。概率值较大的前37个组别涵盖

了风电场全年95.4%的运行工况和故障类型组合情况,故本文选取前37个组别进行研究,详见附 表A2。在这37个组别中,部分组别间的分类结果相近,因此,可进一步根据Fisher 判别分析的回判作用检验聚类结果之间的差异性,并对显著性差异较小的组别进行合并。

根据误差的合成与分配原理,系统的总误差是由各个环节的分项误差共同决定的。为了保证模型

的精度要求,作为风电场概率等值建模中的一个环

节,本文Fisher 回判正确率判据指标取为94.4%,

即最大允许两台风电机组发生误判。具体流程如 图4所示。

经过Fisher 回判显著性检验后,37个不同组别合并为8个组别,详见附表A3,其中组别1的概率达到83.12%。选取基于组别1分群结果建立的等值模型为适用于不同运行工况和故障类型组合的

风电场概率等值模型。 2.3 等值模型参数计算

2.3.1 风速的等值

基于等值前后机群中风力机总输入风能相等的原则计算等效风速,即:

1

33eq p 1p_eq 1p_eq p 11()

1m i i i i m i

i m

i

i v A c v Ac A A c c m ===?=??

??

?=???=??

∑∑∑ (8)

4774 中 国 电 机 工 程 学 报

第34卷

图4 Fisher 回判校验流程图 Fig. 4 Fisher test flowchart

式中:A 为等效风力机的扫风面积;A i 、c p i 、v i 分别为机群中第i 台机组的风力机扫风面积、风能利用系数和输入风速;m 为机群中机组数;下标eq 表示等值模型的参数。

2.3.2 发电机及变压器参数的等值

该风电场内36台机参数型号相同,并且都接于同一条母线上,因此,采用基于容量加权方法计算等值机组参数,如下所示:

eq 1T_eq T 1

t_eq ti 1g_eq g 1eq 1eq 1G G_eq T T_eq m i

i m

i

i m i m i i m i i m

i i i i S S S S H H H H K K D D Z Z m

Z Z m ======?

=??

?

=???

=??

?

=???

?=???=???=???=??

∑∑∑∑∑∑ (9) 式中:S i 、Z G i 、H t i 、H g i 、K i 和D i 分别表示第i 台机组的额定容量、发电机阻抗、风力机惯性时间常数、发电机转子惯性时间常数、轴系刚度系数和轴系阻尼系数;S T i 、Z T i 为第i 台机组机端变压器的额定容量和阻抗;m 为机组数。

2.3.3 机端无功补偿电容的等值

由于风电机组吸收的无功功率与有功功率之间存在非线性函数关系[16],引入变参数电容来等效由于等值前后风场内机组吸收不同的无功功率而导致的无功补偿差。变参数电容值C eqg [17]为

eqg eg eqg 2Q Q C fU

?=

π (10)

式中:eg e e 1

1

()m

m

i i i i Q Q f P ====∑∑;eqg e 1

()m

i i Q f P ==∑;

P e i 为第i 台机组的有功功率;m 为等值机组数。因此,最终的补偿电容为

eq eqg 1

m

i i C C C ==+∑ (11)

式中C i 为第i 台机组的机端补偿电容值。

2.3.4 集电系统的等值

根据等值损耗功率法,集电系统等值阻抗

Z eq [18]为

2Z l 1

eq 2Z ()

m

i i i s

P Z Z P ==

∑ (12)

式中:Z l i 为第i 台机组支路的线路阻抗;P Z i 为流过阻抗Z l i 的总功率;P Zs 为流过等值阻抗Z eq 的总功率;

m 为等值机组数。 3 算例仿真 3.1 算例介绍 风电场算例由36台型号相同的鼠笼型风电机组组成,机组端电压为690 V ,经机端变压器升压至35 kV 后通过架空线路接于同一母线,再经过风电场主变升压至230 kV ,通过双回线路接于IEEE 14节点系统的14号母线上,如上图3所示,相邻

风电机组间以及排与排之间的间隔均为500 m 。 3.2 转速向量分群指标的有效性 在DIgSILENT PowerFactory 平台中分别搭建

风电场详细模型和等值模型,其中详细模型包括场内36台机组的单机模型、机组间集电系统模型、无功补偿电容器模型、机端变压器以及主变压器模

第28期 朱乾龙等:基于聚类–判别分析的风电场概率等值建模研究 4775

型,模型参数见附表A1。风电场的输入风速12 m/s ,风向225°,考虑机组间尾流效应的影响后,风电场详细模型中各台机的输入风速如表2所示。设定风电场出口处A 点在0.2 s 发生三相短路故障,150 ms 后故障切除,采集36台风力发电机的转速向量,如表3所示。

表2 风电机组输入风速表 Tab. 2 Wind speed of wind turbines

机组号

风速/(m/s)

机组号

风速

/(m/s)

1 12.00 19 9.1

2 2 12.00 20 9.12

3 12.00 21 9.12

4 12.00 22 10.09

5 12.00 23 11.05

6 12.00 24 12.00

7 11.05 25 8.24

8 11.05 26 8.24

9 11.05 27 9.12 10 11.05 28 10.09 11 11.05 29 11.05 12 12.00 30 12.00 13 10.09 31 7.42 14 10.09 32 8.24 15 10.09 33 9.12 16 10.09 34 10.09 17 11.05 35 11.05 18 12.00 36 12.00

以风电场详细模型仿真结果作为基准,定义风电场等值模型的有功功率、无功功率误差评价指 标为

δ= (13) 式中:Y i (k )、Y f i (k )分别为风电场详细模型、等值模型在风电场出口处的电气量;n 为采样点数。

使用two-step 分类法,分别选取转速向量和初始输入风速作为分群判据对风电机组聚合分类,分群结果如表4所示。

图5、6为基于以上两种分群结果建立的风电场等值模型在风电场出口处有功功率、无功功率动态响应过程。根据式(13),表5给出了图5、6中不同等值模型在0.01 s 采样步长下的有功功率、无功功率误差指标,其中第1个误差分析的时间范围为

0~10 s ,此时的误差值表征了等值模型在全仿真时段内的总体运行特性;第2个误差分析的时间范围

表3 风电机组转速向量表

Tab. 3 Rotor speed vectors of wind turbines

机组号故障初始时刻故障切除时刻 故障切除后0.2 s 故障切除后0.4 s 1 1.008 1 1.072 6 1.033 8 1.013 4 2 1.008 2 1.073 8 1.033 5 1.013 6 3 1.008 2 1.074 6 1.033 3 1.013 8 4 1.008 2 1.075 2 1.033 1 1.013 8 5 1.008 2 1.075 8 1.033 0 1.013 8 6 1.008 2 1.076 3 1.032 9 1.013 8 7 1.008 1 1.072 6 1.033 8 1.013 4 8 1.008 2 1.073 8 1.033 5 1.013 6 9 1.008 2 1.074 6 1.033 3 1.013 8

10 1.008 2 1.075 2 1.033 1 1.013 8 11 1.008 2 1.075 8 1.033 0 1.013 8 12 1.008 2 1.076 3 1.032 9 1.013 8 13 1.008 1 1.072 6 1.033 8 1.013 4 14 1.008 2 1.073 8 1.033 5 1.013 6 15 1.008 2 1.074 6 1.033 3 1.013 8 16 1.008 2 1.075 2 1.033 1 1.013 8 17 1.008 2 1.075 8 1.033 0 1.013 8 18 1.008 2 1.076 3 1.032 9 1.013 8 19 1.005 6 1.053 3 1.031 6 1.004 1 20 1.005 7 1.054 6 1.031 1 1.004 6 21 1.005 7 1.056 5 1.030 0 1.005 1 22 1.008 2 1.074 2 1.033 5 1.013 9 23 1.008 2 1.075 1 1.033 2 1.013 9 24 1.008 2 1.076 0 1.033 0 1.013 9 25 1.004 0 1.042 0 1.029 4 0.997 9 26 1.004 0 1.043 9 1.028 8 0.998 5 27 1.005 7 1.056 1 1.030 4 1.005 0 28 1.008 2 1.073 9 1.033 7 1.013 9 29 1.008 2 1.074 9 1.033 4 1.013 9

30 1.008 2 1.075 9 1.033 1 1.013 9 31 1.002 9 1.033 4 1.028 3 0.993 6 32 1.004 0 1.043 6 1.029 0 0.998 4 33 1.005 7 1.055 9 1.030 5 1.005 0 34 1.008 2 1.073 8 1.033 8 1.014 0 35 1.008 2 1.074 9 1.033 4 1.013 9 36 1.008 2 1.075 9 1.033 1 1.013 9

从故障切除时刻(0.35 s)到有功功率响应达到最大值时刻(0.93 s),该时段内风电场动态响应最剧烈,对系统的冲击最为严重,因此具有重要的研究价值。

由表5可知,基于转速向量分群判据建立的风电场等值模型其功率误差小于基于初始风速分群判据建立的等值模型功率误差,表明依据转速向量进行机群划分的方法更加准确地表征了风电场的外特性。

4776 中 国 电 机 工 程 学 报

第34卷

表4 基于two-step 分类法的分群结果

Tab. 4 Grouping results by two-step cluster method

分群判据 分群结果 机组号

机群1 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、22、23、24、28、29、30、34、35、36

本文提出的转速向量

机群2 19、20、21、25、26、27、31、32、33 机群1

1、2、3、4、5、6、7、8、9、10、11、12、17、18、23、

24、29、30、35、36

初始风速

机群2

13、14、15、16、19、20、21、22、25、26、27、28、

31、32、33、34

t /s

有功功率/M W

图5 风电场出口处有功功率变化曲线 Fig. 5 Active power response of wind farm at PCC

t /s

无功功率/M v a r

??

图6 风电场出口处无功功率变化曲线

Fig. 6 Reactive power response of wind farm at PCC

表5 2种等值模型的误差指标

Tab. 5 Error indices of two equivalent modeling method

时段 分群判据

有功功率误差/% 无功功率误差/%

转速向量 0.14 0.81 0~10 s

初始风速 0.83 5.11 转速向量 0.44 0.34 0.35~0.93 s

初始风速 2.70

2.00

3.3 故障类型对同调性的影响

风电场内36台机的输入风速均为4 m/s ,风电场出口处A 点在0.2 s 分别发生三相短路、两相短路、单相接地短路和两相接地短路,150 ms 后故障切除。Two-step 分类法依据采集得到的风电机组转速向量,分群结果如表6所示。

表6 风速4 m/s 时不同故障类型条件下机组分群结果 Tab. 6 Grouping results at a wind speed of 4 m/s with

different fault types

故障类型分群结果

机组号

三相短路

机群11、2、3、4、5、6、7、8、9、10、11、12、13、14、15、

16、17、18、19、20、21、22、23、24、25、26、27、

28、29、30、31、32、33、34、35、36

机群11、2、7、8、13、14、19、20、25、26、31、32 两相、单相短路

机群23、4、5、6、9、10、11、12、15、16、17、18、21、22、

23、24、27、28、29、30、33、34、35、36

机群1

1、7、13、19、25、31

两相接地短路

机群22、3、4、5、6、8、9、10、11、12、14、15、16、17、

18、20、21、22、23、24、26、27、28、29、30、32、

33、34、35、36

由表6可知,虽然风电机组的初始运行工况相同,但不同类型故障的扰动导致了不同的机群划分

结果,说明故障类型对机组间的同调性有影响。同时表明转速向量作为分群判据可以计及故障类型

对机组间同调性的影响。 3.4 概率等值模型适用性

风电场输入风速5 m/s 、风向45° 时,风电场出口处A 点在0.2 s 发生单相接地短路,150 ms 后故障切除,基于转速向量的风电机组分群结果为附 表A2中组别26。根据Fisher 回判检验,该转速向量在组别1为分类基准情况下的回判正确率为

97.2%,因此可以将此运行工况和故障类型组合条件下的聚类结果合并至组别1,使用基于组别1建立的风电场概率等值模型。

图7、8为风电场概率等值模型在风电场出口处有功功率、无功功率动态响应过程。根据式(13),计算图7、8中概率等值模型在0~10 s 内的有功功率、无功功率误差分别为 3.1%、2.1%,故障切除时刻(0.35 s )到有功功率响应达到最大值时刻

(1.02 s)的有功功率、无功功率误差分别为8.5%、

t /s

有功功率/M W

????

图7 风电场出口处有功功率变化曲线 Fig. 7 Active power response of wind farm at PCC

第28期 朱乾龙等:基于聚类–判别分析的风电场概率等值建模研究 4777

t /s

无功功率/M v a r

?

?

图8 风电场出口处无功功率变化曲线

Fig. 8 Reactive power response of wind farm at PCC

7.7%。可以看出,即使风速5 m/s 、风向45° 条件下基于组别26建立的等值模型最能表征风电场的外特性,但风电场概率等值模型的误差大小符合工程应用要求,仍然具有较高的模型精度。

4 结论

1)针对影响机组间同调性的三要素,提出了基于风电机组转速向量的分群指标。从聚合分类结果可知,该分群指标将故障类型对同调性的影响考虑在内,并通过仿真验证了基于该转速向量建立的风电场等值模型在机电暂态过程中更能准确表征风电场的外特性。

2)在对不同运行工况和故障类型组合条件下分群结果进行概率统计的基础上,所提出的风电场概率等值模型能够较全面反映风电场全年的运行特性,具有重要的工程应用价值。

3)风电场概率等值建模方法可以解决风速随机性、波动性以及故障类型不可控导致的模型结构不确定性的问题,提高了等值模型的通用性。本文所提出的风电场概率等值建模方法同样适用于双馈、直驱机组风电场。

参考文献

[1] 许剑冰,薛禹胜,张启平,等.电力系统同调动态等值

的述评[J].电力系统自动化,2005,29(14):91-95. Xu Jianbing ,Xue Yusheng ,Zhang Qiping ,et al .A critical review on coherency-based dynamic equivalences[J].Automation of Electric Power Systems ,2005,29(14):91-95(in Chinese).

[2] Wei Tao ,Harley R G ,Venayagamoorthy G K .Dynamic

modeling of wind farms with fixed-speed wind turbine generators[C]//Power Engineering Society General Meeting .Tampa ,FL :IEEE ,2007:1-8.

[3] 穆刚,王键,严干贵,等.双馈型风电机群近满载工况

下连锁脱网事故分析[J].电力系统自动化,2011,

35(22):35-40.

Mu Gang ,Wang Jian ,Yan Gangui ,et al .Cascading trip-off of doubly-fed induction generators from grid at near full-load condition in a wind farm[J].Automation of Electric Power Systems ,2011,35(22):35-40(in Chinese). [4] 曹娜,于群.风速波动情况下并网风电场内风电机组分

组方法[J].电力系统自动化,2012,36(2):42-46. Cao Na ,Yu Qun .A grouping method for wind turbines in

a grid-connected wind farm during wind speedfluctuation [J].Automation of Electric Power Systems ,2012,36(2):42-46(in Chinese).

[5] 陈树勇,王聪,申洪,等.基于聚类算法的风电场动态

等值[J].中国电机工程学报,2012,32(4):11-19. Chen Shuyong ,Wang Cong ,Shen Hong ,et al .Dynamic equivalence for wind farms based on clustering algorithm [J].Proceedings of the CSEE ,2012,32(4):11-19(in Chinese).

[6] 苏勋文.风电场动态等值建模方法研究[D].北京:华

北电力大学,2010.

Su Xunwen .Research on dynamic equivalent modeling of wind farms[D].Beijing :North China Electric Power University ,2010(in Chinese).

[7] 米增强,苏勋文,余洋,等.双馈机组风电场动态等效

模型研究[J].电力系统自动化,2010,34(17):72-77. Mi Zengqiang ,Su Xunwen ,Yu Yang ,et al .Study on dynamic equivalence model of wind farms with wind turbine driven doubly fed induction generator[J].Automation of Electric Power Systems ,2010,34(17):72-77(in Chinese).

[8] Ali M ,SorinIlie I ,Milanovic J V ,et al .Wind farm model

aggregation using probabilistic clustering[J].IEEE Transaction on Power System ,2013,28(1):309-316. [9] 张保会,李光辉,王进,等.风电接入对继电保护的影

响(一)——鼠笼式风电场电磁暂态等值建模[J].电力自动化设备,2013,33(1):1-6.

Zhang Baohui ,Li Guanghui ,Wang Jin ,et al .Impact of wind farm integration on rely protection(1):electromagnetic transient equivalent model for FSIG-based wind farm[J].Electric Power Automation Equipment ,2013,33(1):1-6(in Chinese).

[10] 鞠平,马大强.电力系统负荷建模[M].北京:中国电

力出版社,2008.

Ju Ping ,Ma Daqiang .Power system load modeling[M].Beijing :China Electric Power Press ,2008(in Chinese). [11] 许剑冰,薛禹胜,张启平,等.基于系统同调性的PMU

最优布点[J].电力系统自动化,2004,28(19):22-26. Xu Jianbing ,Xue Yusheng ,Zhang Qiping ,et al .Coherency based optimal placement of PMU with stability observability[J].Automation of Electric Power Systems ,2004,28(19):22-26(in Chinese).

4778 中国电机工程学报第34卷

[12] 文俊,刘天琪,李兴源,等.在线识别同调机群的优化

支持向量机算法[J].中国电机工程学报,2008,28(25):80-85.

Wen Jun,Liu Tianqi,Li Xingyuan,et al.On-line identification of coherent generator using optimized LS-SVM[J].Proceedings of the CSEE,2008,28(25):

80-85(in Chinese).

[13] 周荣光.电力系统故障分析[M].北京:清华大学出版

社,1988:2-3.

Zhou Rongguang.Power system fault analysis[M].

Beijing:,1988:2-3(in Chinese).

[14] Cheng Y,Sahni M,Conto J.V oltage-profile-based

approach for developing collection system aggregated models for wind generation resources for grid voltage ride-through studies[J].IET Renewable Power System,

2011,5(5):332-346.

[15] 朱红兵.应用统计与SPSS应用[M].北京:电子工业

出版社,2011:642-650.

Zhu Hongbing.Applied statistics and SPSS application [M].Beijing:Publishing House of Electronics Industry,2011:642-650(in Chinese).

[16] Feijóo A,Cidrás J.Modeling of wind farms in the load

flowanalysis[J].IEEE Transaction on Power System,

2000,15(1):110-115.

[17] Fernández L M,García C A,Saenz J R,et al.Equivalent

models of wind farms by using aggregated wind turbinesand equivalent winds[J].Energy Conversion and Management,2009,50(3):691-704.

[18] Muljadi E,Butterfield C P,Ellis A,et al.Equivalencing

the collector system of a large wind power plant[C]//IEEE

Power Engineering Society General Meeting.Montreal,

Canada:IEEE,2006.

[19] Lei Ding,Gonzalez-Longatt F M,Wall P,et al.Two-step

spectral clustering controlled islanding algorithm[J].IEEE

Transaction on Power System,2013,28(1):75-84.

附录A

表A1 风电场电气参数

Tab. A1 The electrical parameters of wind farm

额定功率/MW 2 额定电压/V 690

额定频率/Hz50 X m/pu 3

R s/pu 0.01 X s/pu 0.1 发电机

R r/pu 0.01 X r/pu 0.1 切入风速/(m/s) 3 额定风速/(m/s)10

切除风速/(m/s)23 风轮直径/m 96

H t/s 3 H g/s 0.5

风力机

K/pu 0.3 D/pu 0 机端电压器S/MV A 5 X T/% 3 出口变压器S/MV A 100 X T/% 10.5 机端无功补

偿电容/μF

2000

集电系统线路参数

LGJ-10/35r0/(Ω/km) 2.9250 x0/(Ω/km) 0.563 LGJ-35/35r0/(Ω/km) 0.9058 x0/(Ω/km) 0.498 LGJ-70/35r0/(Ω/km) 0.4390 x0/(Ω/km) 0.431 LGJ120/35r0/(Ω/km) 0.2700 x0/(Ω/km) 0.400 LGJ-185/35r0/(Ω/km) 0.1700 x0/(Ω/km) 0.386

表A2 37个组别分群结果统计表(按照概率大小排序)

Tab.A2 Clustering statistical results of 37 groups(sorted by probability)

组别分群结果概率

机群1:1、7、13、19、25、31

1

机群2:2、3、4、5、6、8、9、10、11、12、14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

0.405800

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、19、25、31

2

机群2:14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

0.097550

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、19、20、25、26、31、32

3

机群2:15、16、17、18、21、22、23、24、27、28、29、30、33、34、35、36

0.056900

4 机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、

34、35、36

0.055490

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30

5

机群2:31、32、33、34、35、36

0.051370

机群1:1、2、7、13、19、25、31

6

机群2:3、4、5、6、8、9、10、11、12、14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

0.040630

机群1:1、2、3、4、5、6

7

机群2:7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36

0.031220

机群1:1、2、7、8、13、14、19、20、25、31

8

机群2:3、4、5、6、9、10、11、12、15、16、17、18、21、22、23、24、26、27、28、29、30、32、33、34、35、36

0.024900

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24

9

机群2:25、26、27、28、29、30、31、32、33、34、35、36

0.024500

第28期朱乾龙等:基于聚类–判别分析的风电场概率等值建模研究 4779

组别分群结果概率

机群1:1、2、3、4、5、7、8、9、10、11、13、14、15、16、17、19、20、21、22、23

0.020440

10

机群2:6、12、18、24、25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、2、3、4、5、6、7、12、13、19、25、31

0.016810

11

机群2:8、9、10、11、14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12

0.01602

12

机群2:13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、7、13、19、25、26、27、28、29、30、31、32、33、34、35、36

0.01183

13

机群2:2、3、4、5、6、8、9、10、11、12、14、15、16、17、18、20、21、22、23、24

机群1:1、7、13、19、25、31

0.01074

14

机群2:2、3、4、5、6、8、9、10、11、12

机群3:14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

机群1:1、2、3、4、7、8、9、10、13、14、15、16、19、20、21、22

15

0.01007

机群2:5、6、11、12、17、18、23、24、25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、2、3、4、5、6、7、13、19、25、31

0.007371

16

机群2:8、9、10、11、12、14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

机群1:1、2、3、4、5、6、12

0.007278

17

机群2:7、8、9、10、11、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、2、3、4、5、6、7、8、13、14、19、20、25、26、31、32

18

0.005746

机群2:9、10、11、12、15、16、17、18、21、22、23、24、27、28、29、30、33、34、35、36

机群1:1、2、3、4、5、7、8、9、10、11、15、16、17、21、22、23

0.005280

19

机群2:6、12、13、14、18、19、20、24、25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、2、7、8、13、14、19、20、25、26、31、32

0.005218

20

机群2:3、4、5、6、9、10、11、12、15、16、17、18、21、22、23、24

机群3:27、28、29、30、33、34、35、36

机群1:1、2、3、4、5、7、8、9、10、11、13、14、15、16、17、19、20、21、22、23、25、26、27、28、29、31、32、33、34、35

21

0.005003

机群2:6、12、18、24、30、36

机群1:1、2、3、4、5、7、8、13、14、19、20、25、26、31、32

0.003904

22

机群2:6、9、10、11、12、15、16、17、18、21、22、23、24、27、28、29、30、33、34、35、36

机群1:1、2、3、7、13、19、25、31

0.003666

23

机群2:4、5、6、8、9、10、11、12、14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18

24

0.003664

机群2:19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、2、3、4、7、8、9、10

0.003617

25

机群2:5、6、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、2、7、8、13、14、19、20、25、26、27、28、29、30、31、32、33、34、35、36

0.003243

26

机群2:3、4、5、6、9、10、11、12、15、16、17、18、21、22、23、24

机群1:1、2、3、4、5、7、8、9、10、11、13、14、15、16、17、19、20、21、22、23、25、26、27、28、29

27

0.003222

机群2:6、12、18、24、30、31、32、33、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、25、26、27、31、32、33

0.003007

28

机群2:22、23、24、28、29、30、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、19、20、21、22、25、26、27、28、31、32、33、34

0.002971

29

机群2:17、18、23、24、29、30、35、36

机群1:1、2、7、8、13、19、25、31

0.002857

30

机群2:3、4、5、6、9、10、11、12

机群3:14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、31、32、33、34

0.002368

31

机群2:29、30、35、36

机群1:1、7、13、19、25、31、32

0.002255

32

机群2:2、3、4、5、6、8、9、10、11、12、14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、33、34、35、36

4780 中国电机工程学报第34卷

组别分群结果概率

机群1:1、7、13、19、25、26

0.002109

33

机群2:2、3、4、5、6、8、9、10、11、12、14、15、16、17、18、20、21、22、23、24、27、28、29、30、31、32、33、34、35、36

机群1:1、2、7、8、13、14、19、20、25、26、31、32

0.002094

34

机群2:3、4、5、6、9、10、11、12、15、16、17、18、21、22、23、24、27、28、29、30、33、34、35、36

机群1:1、2、7、8、13、14、19、20、25、26、31、32、33、34、35、36

0.002058

35

机群2:3、4、5、6、9、10、11、12、15、16、17、18、21、22、23、24、27、28、29、30

机群1:1、7、13、14、19、20、25、26、31、32

0.001815

36

机群2:2、3、4、5、6、8、9、10、11、12、15、16、17、18、21、22、23、24、27、28、29、30、33、34、35、36

机群1:1、2、7、8、13、19、25、31

0.001790

37

机群2:3、4、5、6、9、10、11、12、14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

表A3 Fisher回判检验合并后8个组别分群结果统计表

Tab.A3 Clustering statistical results of 8 groups after Fisher discriminant analysis

组别分群结果概率

机群1:1、7、13、19、25、31

1

0.8312000

机群2:2、3、4、5、6、8、9、10、11、12、14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、19、25、31

2

0.0691600

机群2:14、15、16、17、18、20、21、22、23、24、26、27、28、29、30、32、33、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24 3

0.0221400

机群2:25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、2、3、4、5、7、8、9、10、11、13、14、15、16、17、19、20、21、22、23

0.0221300

4

机群2:6、12、18、24、25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12

0.0101200

5

机群2:13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、25、26、27、31、32

0.0025530

6

机群2:22、23、24、28、29、30、33、34、35、36

机群1:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、31、32、33、34

0.0002474

7

机群2:29、30、35、36

机群1:1、2、7、8、13、14、19、20、25、26、31、32

0.0002427

8

机群2:3、4、5、6、9、10、11、12、15、16、17、18、21、22、23、24、27、28、29、30、33、34、35、36

收稿日期:2013-10-15。

作者简介:

朱乾龙(1988),男,博士研究生,研究

方向为新能源利用与分布式发电技术,

zhuqianl19@https://www.doczj.com/doc/1c15537574.html,;

韩平平(1981),女,博士,副教授,研

究方向为新能源利用与分布式发电技术,

朱乾龙

lh021211@https://www.doczj.com/doc/1c15537574.html,。

(责任编辑吕鲜艳)

SPSS聚类分析和判别分析论文

S P S S聚类分析和判别分析 论文 Prepared on 22 November 2020

基于聚类分析的我国城镇居民消费结构实证分析摘要:近年来,我国城镇居民的整体消费水平逐渐提高,但各地区间的消费结构仍存在较大差别。文章选用8个城镇居民消费结构统计指标,采用欧式距离平方和离差平方和法,对我国31个省、直辖市及自治区的2013年城镇居民消费结构进行聚类分析和比较研究。这不仅从总体上掌握了我国消费结构类型的地区分布,而且系统分析了我国各地区消费结构的特点及产生原因,为国家制定消费政策提供了决策依据。 关键词:消费结构;聚类分析;判别分析;政策建议; 一、引言 近年来,随着我国经济的快速发展,城镇居民的收入不断增加,并且在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下,我国各地区城镇居民的消费支出也强劲增长,消费结构发生了巨大的变化,结构不合理现象也得到了一定程度的调整。但是,由于各地区的经济发展不平衡及原有经济基础的差异,使各地区的消费结构仍存在着明显差别。为了进一步改善消费结构,正确引导消费,提高我国城市居民的消费水平和生活质量,有必要考察我国各地区城镇居民的消费结构之间的异同并进行比较研究,以期发现特点和规律,从宏观上把握各地区城镇居民的消费现状和不同地区消费水平的差异,为提高我国各地区消费水平和谐增长提供决策依据。 二、消费结构的数据分析 消费结构指居民在生活消费过程中,不同类型消费的比例及其相互之间的配合、替代、制约的关系。就其数量关系来看,消费结构是指在消费过程中不同商品或劳务消费支出占居民总消费支出的比重,反映了一定社会经济条件下人们对各类商品及劳务的需求结构,体现一国或各地区的经济发展水平和居民生活状况。 (一)数据来源 为了更加深入地了解我国城镇居民消费结构,先利用2013年全国数据(如表1所示),对全国31个省、直辖市、自治区进行聚类分析。分析采用选用了城镇居民食品、衣着、居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和服务八项指标,分别用来反映较高、中等、较低居民消费结构。

判别分析及聚类分析

判别分析(Discriminant Analysis) 一、概述: 判别问题又称识别问题,或者归类问题。 判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。 根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。 所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。 训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。 判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。 类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢? 同一类别的个体之间距离小,不同总体的样本之间距离大。 距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距 绝对距离 马氏距离:(Manhattan distance) 设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为μ,协方差阵为∑的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为 (,)X与总体(类别)A的距离D X Y= (,) 为D X A= 明考斯基距离(Minkowski distance):明科夫斯基距离 欧几里德距离(欧氏距离) 二、Fisher两类判别 一、训练样本的测量值 A类训练样本

聚类分析与判别分析区别

聚类分析与判别分析区别1 2 聚类分析和判 3 别分析就是这样的分类方法 4 , 5 目前它们已经成为 6 比较标准的数据分类方法。 7 我们常说 8 “物以类聚、 9 人以群分” 10 , 11 就是聚类分 12 析和判别分析最简单、 13 14 最朴素的阐释 15 , 16 并且这一成 17 语也道明了这两种方法的区别与联系 , 18 19 都是分类 20 技术 , 21 22 但它们是分别从不同的角度来对事物分类 的 23 24 , 25 或者说 , 26 27 是两种互逆的分类方式。聚类分析与 28 判别分析都是多元统计中研究事物分类的基本方 29 法 30 , 31 但二者却存在着较大的差异。 32 一、 33 聚类分析与判别分析的基本概念 34 1 35 、 36 聚类分析 37 又称群分析、 38 点群分析。 39 根据研究对象特征对 40 研究对象进行分类的一种多元分析技术 , 41 42 把性质

相近的个体归为一类 1 2 , 3 使得同一类中的个体都具 4 有高度的同质性 5 , 6 不同类之间的个体具有高度的 异质性。 7 8 根据分类对象的不同分为样品聚类和变量聚类。9 2 、 10 11 判别分析 12 是一种进行统计判别和分组的技术手段。根 13 据一定量案例的一个分组变量和相应的其他多元14 变量的已知信息 15 , 16 确定分组与其他多元变量之间 17 的数量关系 18 , 19 建立判别函数 , 20 21 然后便可以利用这一 22 数量关系对其他未知分组类型所属的案例进行判23 别分组。 24 判 25 别 26 分 27 析 28 中 29 的 30 因 变 31 32 量 33 或 34 判 35 别 36 准 则 37 38 是 39 定 类 40 41 变 42 量 , 43 44 而自变量或预测变量基本上是定距变量。

全国各省经济的聚类分析及判别分析

全国各省经济的聚类分析及判别分析 唐鹏钧(DY1001109) 摘要:利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析,将其经济分成4种类型,并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行经济分类。本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴。分析结果表明:北京市和上海市为第一类经济类型;江苏省和山东省为第三类型;广东省为第四类经济;其他25个省、直辖市、自治区均属于第二类型。 关键词:聚类分析、判别分析、经济类型 0引言 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。 判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。 聚类分析与判别分析都是研究分类的,但是它们有所区别: (1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道。判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。 (2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得

SPSS聚类分析和判别分析论文

基于聚类分析的我国城镇居民消费结构实证分析 摘要:近年来,我国城镇居民的整体消费水平逐渐提高,但各地区间的消费结构仍 存在较大差别。文章选用8个城镇居民消费结构统计指标,采用欧式距离平方和离差平 方和法,对我国31个省、直辖市及自治区的2013年城镇居民消费结构进行聚类分析和 比较研究。这不仅从总体上掌握了我国消费结构类型的地区分布,而且系统分析了我国 各地区消费结构的特点及产生原因,为国家制定消费政策提供了决策依据。 关键词:消费结构;聚类分析;判别分析;政策建议; 一、引言 近年来,随着我国经济的快速发展,城镇居民的收入不断增加,并且在国家连续出台 住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济 政策的影响下,我国各地区城镇居民的消费支出也强劲增长,消费结构发生了巨大的变 化,结构不合理现象也得到了一定程度的调整。但是,由于各地区的经济发展不平衡及 原有经济基础的差异,使各地区的消费结构仍存在着明显差别。为了进一步改善消费结 构,正确引导消费,提高我国城市居民的消费水平和生活质量,有必要考察我国各地区 城镇居民的消费结构之间的异同并进行比较研究,以期发现特点和规律,从宏观上把握 各地区城镇居民的消费现状和不同地区消费水平的差异,为提高我国各地区消费水平和 谐增长提供决策依据。 二、消费结构的数据分析 消费结构指居民在生活消费过程中,不同类型消费的比例及其相互之间的配合、替 代、制约的关系。就其数量关系来看,消费结构是指在消费过程中不同商品或劳务消费 支出占居民总消费支出的比重,反映了一定社会经济条件下人们对各类商品及劳务的需 求结构,体现一国或各地区的经济发展水平和居民生活状况。 (一)数据来源 为了更加深入地了解我国城镇居民消费结构,先利用2013年全国数据(如表1所示), 对全国31个省、直辖市、自治区进行聚类分析。分析采用选用了城镇居民食品、衣着、 居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和 服务八项指标,分别用来反映较高、中等、较低居民消费结构。 表1 各地区城镇居民家庭平均每人全年消费支出 (2013年)

聚类分析、判别分析、主成分分析、因子分析

聚类分析、判别分析、主成分分析、因子分析 主成分分析与因子分析的区别 1. 目的不同:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。 2. 线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。 5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS 根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。 7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。 1 、聚类分析 基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

判别分析和聚类分析

第9章 判别分析和聚类分析 §9.1 判别分析问题的一般形式 在生产、科研和日常生活中,我们经常会遇到判别分类的问题。在这些问题中,已经知道研究对象可以分为几个类别,而且对这些类别已经作了一些观测,取得了一批样本数据。要求从已知的样本观测数据出发,建立一种判别方法,当我们取得一个新的样品时,可以根据这个样品的观测值,判定它属于哪一类,这种做法就称为判别分析(Discriminant Analysis )。 例1 岩石分类 从某矿床取得14块已知是铀矿石的样品和14块已知是围岩的样品,分别测定其中7种成分的含量,取得了一批观测数据: 要求建立一种判别方法,当我们从这个矿床取得一个新的岩石样品时,可以通过测定这个样品中7种成分的含量,判定它是铀矿石还是围岩。 例2 精神病的诊断(Rao 和Slater ,1949) 对114个处于焦虑状态的病人,33个患癔病的病人,32个有精神变态的病人,17个有强迫观念的病人,5个有变态人格的病人,以及55个正常人,分别进行3种精神病测试,得到测试分数1X ,2X 和3X 。 要求根据上述已知的测试数据,建立一种诊断方法,使得我们可以对一个新来的求诊者进行这3种精神病测试,根据测试得到的分数1X ,2X 和3X ,判断出求诊者是否正常,如果不正常,诊断出他患有哪一类精神病。 例3 (全国数学建模竞赛2000年A 题)DNA 序列分类 对于A,B 两种不同的DNA ,给出了20个类别已知的DNA 序列样品,其中1号~10号序列属于A 类,11号~20号序列属于B 类。另外还有20个类别未知的DNA 序列样品。 要求建立一种判别方法,判别出类别未知的DNA 序列样品属于哪一类。

聚类分析与判别分析

利用聚类分析和判别分析对我国各省市经济发展状况的分析 统计081 许建霞 089114284 摘要:转变经济发展方式是我国未来经济发展过程中一项重要而十分艰巨的任务,《中共中央关于制定国民经济和社会发展第十二个五年规划的建议》更是提出“十二五”时期要以加快转变经济发展方式为主线。要实现这一转变,它与调整经济结构是高度相关、相辅相成的,其中,产业结构的转型升级更是经济发展方式转变的体现和依托。当前我国经济发展方式粗放与面临着的诸多结构性矛盾,在很大程度上根源于我国经济发展过程中的“三个过度和一个缺失”,即:经济增长过度依赖投资、全球分工中过度依赖加工制造环节和加工贸易、竞争战略过度依赖成本价格,而产业链和价值链中研发设计、营销、品牌和供应链管理等高端环节缺失。要加快转变经济发展方式,就必须改变上述“三个过度和一个缺失”,促进产业结构转型升级,这也关系到当前战略性新兴产业发展是否能够摆脱过去发展模式,走出一条可持续发展的道路。 关键词: 聚类分析 判别分析 经济发展 一.研究背景 我国产业结构基本上分享了经济的增长效应,但协调效应、分配效应和就业效应不理想,环境效应问题比较突出,并且在总体上具有名义高度化较快而实际高度化不足的特征,我们必须紧紧抓住机遇,承担起历史使命,把加快经济发展方式转变作为深入贯彻落实科学发展观的重要目标和战略举措,毫不动摇地加快经济发展方式转变,不断提高经济发展质量和效益,不断提高我国经济的国际竞争力和抗风险能力,使我国发展质量越来越高、发展空间越来越大、发展道路越走越宽。 二.方法介绍 1.聚类分析方法介绍 聚类分析是从事物数量上的特征出发对事物进行分类,是事物分类学和多元统计技术结合的结果,是一种较为粗糙的,理论并非完善的分析方法,但是其使用简便,分类效果较好,其内容也在不断丰富中,是常用的数据探索性分析工具。 聚类分析(Cluster Analysis )又称为集群分析,其分析的基本思想是依照事物的数值特征,来观察各样品之间的亲疏关系。而样品之间的亲疏关系则是由样品之间的距离来衡量的,一旦样品之间的距离定义之后,则把距离近的样品归为一类 。聚类分析既可以对样品聚类,又可以对变量聚类,样品聚类也称为Q 型聚类,变量聚类也称为R 型聚类。本文先采用样品聚类,然后再采用变量聚类。 2.判别分析方法介绍 费希尔判别的基本思想是投影。将k 组m 元数据投影到某一个方向,使得投影后组与组之间尽可能地分开。而衡量组与组之间是否分开的方法借助于一元方差分析的思想。利用方差分析的思想来导出判别函数,这个函数可以是线性的,也可以是很一般的函数。因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出。 设从总体),,1(k t G t 分别抽取m 元样本如下:

聚类分析与判别分析实验报告

多元统计分析实验报告 ——研究房价与人民生活水平的关系 一、实验目的 本文旨在研究全国各省市住宅型商品房的平均价格水平,同时分析各省市住宅型商品房平均销售价格与其人民生活水平的关系。本文将用各省市人均GDP、城镇居民人均可支配收入、农村居民人均纯收入三个变量来衡量各省市的人民生活水平。住宅型商品房平均销售价格应该与人民生活水平成正相关关系。接下来,本文不仅要根据2012年全国各省市住宅型商品房平均销售价格如表1-1进行聚类分析和判别分析,还会根据2012年全国各省市人民生活水平数据如表1-2进行聚类分析与判别分析,观察房价较高的省市与人民生活水平较高的省市是否相符合,用以评价各省市房地产市场的定价是否符合该省市人民生活水平。 表1-1 2012年全国各省市住宅型商品房平均销售价格(元/平方米) 地区X 地区X 北京16553.48 湖南3669.63 天津8009.58 广东7667.89 河北4141.96 广西3909.83 山西3690.88 海南7811.26 内蒙古3656.41 重庆4804.80 辽宁4717.21 四川4959.19 吉林3875.10 贵州3695.36 黑龙江3725.51 云南3861.01 上海13869.88 西藏2982.19 浙江10679.69 甘肃3376.08 安徽4495.12 陕西4803.05 福建8365.92 青海3692.21 江西4381.18 宁夏3620.77 山东4556.63 新疆3593.82 河南3511.26 江苏6422.85 湖北4668.00 其中,X表示住宅型商品房平均销售价格。 数据来源:国家统计局、各省市统计部门官方网站。 表1-2 2012年全国各省市人民生活水平数据单位:元

多元统计分析之判别分析

第六章 判别分析 §6.1 什么是判别分析 判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。 §6.2 距离判别法 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。 距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。 今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类? 首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则

聚类分析与判别分析实验报告范例

上海电力学院 《应用多元统计分析》——判别分析与聚类分析 学院: 姓名: 学号: 2016年4月

我国部分城市经济发展水平的聚类分析 和判别分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找评价城市经济发展水平的指标,包括第二三产业发展水平、固定投资额、社会消费零售总额和进出口贸易交流五个指标,利用统计软件SPSS综合考虑各指标,对所选城市进行K-Means 聚类分析,利用Fisher 线性判别待判城市类型,进一步验证所建模型的有效性。 关键字:聚类分析,判别分析,SPSS,城市经济发展水平 1,引言 经过改革开放后三十多年的长足进展,中国城市化已步入中期阶段,步伐加快,质量显著提高。同时,中国城市化又处于周期转折点上,上一周期行将结束,下一周期将要开始。2011年中国城市化率首次突破50%,意味着中国城镇人口首次超过农村人口,中国城市化进入关键发展阶段,这必将引起深刻的社会变革。 根据2011年4月公布的第六次人口普查数据,2010年中国居住城镇的人口接近6.6亿人,城镇化率达到49.68%,全国已有近一半的人口居住在城镇,这意味着中国将进入城镇时代。在过去30多年中,中国的城市化发展取得了很大成绩。然而,总体上中国的城市化道路是城市化滞后于工业化的非均衡道路;是土地城市化快于人口城市化的非规整道路;是以抑制农村、农业、农民的经济利益来支持城市发展,导致不能兼顾效率和公平的非协调道路;是片面追求城市发展的数量和规模,而以生态环境损失为代价的非持续道路;是以生产要素的高投入,而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。传统的城市化存在着诸多弊端,中国未来的城市化必须走出一条具有自身特色的新型城市化道路。 具体而言,中国城市经济发展水平受限于地理、环境、资源以及国家政策等因素的影响,我国不同区域的城市化进程尚存在很大差异。2012年中国城市发展报告中指出,从区域角度看,目前沿海一带城市发展起步早,与国际贸易交流往来频率高,经济发展水平较高,西部地区受到国家政策的大力扶持,表现出了强劲的增长势头,西部主要城市经济发展水平仅次于沿海发达地区,而中部地区

聚类分析及判别分析案例

一、案例背景 随着现代人力资源管理理论的迅速发展,绩效考评技术水平也在不断提高。绩效的多因性、多维性,要求对绩效实施多标准大样本科学有效的评价。对企业来说,对上千人进行多达50~60个标准的考核是很常见的现象。但是,目前多标准大样本大型企业绩效考评问题仍然困扰着许多人力资源管理从业人员。为此,有必要将当今国际上最流行的视窗统计软件SPSS应用于绩效考评之中。 在分析企业员工绩效水平时,由于员工绩效水平的指标很多,各指标之间还有一定的关联性,缺乏有效的方法进行比较。目前较理想的方法是非参数统计方法。本文将列举某企业的具体情况确定适当的考核标准,采用主成分分析以及聚类分析方法,比较出各员工绩效水平,从而为企业绩效管理提供一定的科学依据。 最后采用判别分析建立判别函数,同时与原分类进行比较。 聚类分析 二、绩效考评的模型建立 1、为了分析某企业绩效水平,按照综合性、可比性、实用性和易操作性的选取指标原则,本文选择了影响某企业绩效水平的成果、行为、态度等6个经济指标(见表1)。 2、对某企业,搜集整理了28名员工2009年第1季度的数据资料。构建1个28×6维的矩阵(见表2)。

3、应用SPSS数据统计分析系统首先对变量进行及主成分分析,找到样本的主成分及各变量在成分中的得分。去结果中的表3、表 4、表5备用。

表 5 成份得分系数矩阵a 成份 1 2 Zscore(X1) .227 -.295 Zscore(X2) .228 -.221 Zscore(X3) .224 -.297 Zscore(X4) .177 -.173 Zscore(X5) .186 .572 Zscore(X6) .185 .587 提取方法 :主成份。 构成得分。 a. 系数已被标准化。 4、从表3中可得到前两个成分的特征值大于1,分别为3.944和1.08,所以选取两个主成分。根据累计贡献率超过80%的一般选取原则,主成分1和主成分2的累计贡献率已达到

浅谈聚类分析与判别分析

降维与分类是多元统计分析的两个主题,在这里,我浅谈一下的聚类分析和判别分析主要用于 分类。 聚类分析 按分析对象可分为两种:Q型聚类(对样本的聚类),R型聚类(对变量的聚类) 按具体方法可分为两种:一般小样本数据可以用谱系聚类法,大样本数据一般用快速聚类法(K 均值聚类法)。 用谱系聚类法聚类时,聚多少类合适需要根据统计量判断,一般用R2统计量、半偏相关统计量、伪t2统计量以及伪F统计量。 这里给出谱系聚类法算法: 1)n个样品开始时作为n个类,计算两两之间的距离,构成一个对称距离矩阵 2)选择D(0)中的非对角线上的最小元素,设这个最小元素是D(pq)。这时G(p)={x(p)},G(q)={x(q)}。将G(p),G(q)合并成一个新类G(r)={G(p),G(q)}。在D(0)中消去G(p),G(q)所对应的行与列,并加入由新类G(r)与剩下的其他未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵 D(1),它是n-1阶方阵。 3)从D(1)出发重复步骤2的作法得D(2)。再由D(2)出发重复上述步骤,直到n个样品聚为1 个大类为止。 4)在合并过程中要记下合并样品的编号及两类合并时的水平(即距离)并绘制聚类谱系图。 判别分析 首先这里马氏距离的概念很重要,如下图。Σ是总体G的协方差矩阵,μ是总体G的均值向量 这构成了距离判别的核心。 其他主要几种判别法是Fisher判别,Bayes判别和逐步判别。一般用Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,再结合实际情况选择用哪种判别方法。 聚类分析与判别分析的区别与联系 都是研究分类的,在进行聚类分析前,对总体到底有几种类型不知道(研究分几类较为合适需从

聚类分析、判别分析、主成分分析、因子分析

聚类分析、判别分析、主成分分析、因子分析主成分分析与因子分析的区别 1. 目的不同:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。 2. 线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。 5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。 7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。

相关主题
文本预览
相关文档 最新文档