当前位置:文档之家› 北航数理统计第二次大作业

北航数理统计第二次大作业

北航数理统计第二次大作业
北航数理统计第二次大作业

数理统计大作业(二)

全国各省、直辖市经济类型

聚类和判别分析

指导老师:冯伟

院系名称:航空科学与工程学院

学号:

姓名:

2014年12月25日

摘要

本文利用SPSS统计软件,选取了7个主要经济指标,利用聚类分析方法对我国26个省、直辖市的经济类型进行了分类,结果表明可以分为三类,并根据各省市当前的发展情况和经济水平对分类结果进行了评价分析,得出该分类结果是合理的。并采用判别分析的方法对剩下的5个省的经济类型进行了判别分类,结果表明各如分类正确率为100%,证明了分类结果的合理性。

关键词:聚类分析,系统聚类,判别分析,Fisher判别

目录

1 引言 (1)

2 聚类分析 (1)

2.1 基本概念 (1)

2.2 数据采集和整理 (2)

2.3 聚类分析过程 (3)

2.4 结果分析 (5)

3 判别分析 (6)

3.1 基本概念 (6)

3.2 判别分析过程 (6)

3.3 结果分析 (8)

4结论 (8)

5 参考文献 (8)

1 引言

进入21世纪后,中国经济迅速发展,财政收入、国内生产总值(GDP)等稳步增长,世界排名也名列前茅。2013年,我国GDP以90386.6亿美元的总量超过日本,仅次于美国。随着经济的快速发展,中国城市化进程的脚步也在不断加快。2012年8月国家统计局发布报告显示,十六大以来中国城市化水平进一步提高,城镇化率达51.27%,超过一半的人口已经居住在城镇中。

但是中国国土面积辽阔,各地区的地理位置、自然环境、资源分布、人口构成、开发程度等都存在较大的差异,因此各地区的经济发展状况也存在不同程度的差异,依照各省、市、区经济社会发展水平,可把全国大致分成东部、中部、西部三个经济地带。而这只是一个在较大区域内大划分,没有对各省市的经济水平做出更进一步的划分。显然研究各省市的经济水平差异,对于政府合理引导资源向薄弱省市适当倾斜具有一定的指导作用,对于国家制定总体发展计划也有一定的帮助。

考虑到各省市在各方面都存在较大的差异,评价各省市经济水平的指标要选择的合理,既要考察总量,也要将人均水平纳入考核中。从这方面考虑,从《国家统计年鉴2013》[1]上选取了我国26个省和直辖市2012年的7个经济数据来进行评价分类,即城乡居民储蓄存款、地区生产总值、居民消费水平、人均地区生产总值、农村居民纯收入、城镇居民年平均收入和公共财政预算收入。利用SPSS 统计软件进行聚类分析,并对聚类结果进行判别分析来判断聚类分析结果的合理性和正确性。

2 聚类分析

2.1 基本概念

聚类分析是研究对象的特征来对研究对象进行分类的多元分析技术的总称,分类问题在科学研究、生产实践、社会生活中到处可见。人们可以靠相关经验和专业知识对事物实现分类,但当反映事物的性质、特性的指标较多,且对分类要求较高时,仅凭经验和专业知识就不能达到确切的分类目的,于是数学方法就被引进到分类问题中来。

聚类分析的核心思想是,从一批样本的多个观测指标变量中,定义能度量样品间相似程度的统计量,在次基础上求出各样品之间的相似程度度量值,按相似

程度的大小,将样品逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有的样品都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系图,用以更直接的显示分类对象的差异和联系。聚类分析方法较多,本文采用的是系统聚类分析方法,它是目前最流行的方法。

2.2 数据采集和整理

从《中国统计年鉴2013》中选取了2012年全国26个省和直辖市的7个经济数据,整理成表格,如下所示。

表1 各省、直辖市经济数据

城乡居民储蓄存款

(元) 地区生

产总值

(亿元)

居民消

费水平

(元)

人均地区

生产总值

(元)

农村居民

纯收入

(元)

城镇居民年

平均收入

(元)

公共财

政收入

(亿元)

北京21644.90 17879.40 30349.52 87475.00 16475.74 41103.11 3314.93 天津7055.40 12893.88 22983.95 93173.00 14025.54 32944.01 1760.02 河北20665.10 26575.01 10749.42 36584.00 8081.39 21899.42 2084.28 山西11997.00 12112.83 10828.99 33628.00 6356.63 22100.31 1516.38 内蒙古6597.20 15880.58 15195.51 63886.00 7611.31 24790.79 1552.75 辽宁17785.90 24846.43 17998.75 56649.00 9383.72 25915.72 3105.38 吉林6875.10 11939.24 12276.26 43415.00 8598.17 21659.64 1041.25 上海19506.70 20181.72 36892.86 85373.00 17803.68 44754.50 3743.71 江苏30057.20 54058.22 19452.26 68347.00 12201.95 32519.10 5860.69 安徽11178.60 17212.05 10977.73 28792.00 7160.46 23524.56 1792.72 福建10507.40 19701.78 16143.87 52763.00 9967.17 30877.92 1776.17 江西8471.90 12948.88 10572.93 28800.00 7829.43 21150.24 1371.99 山东26343.30 50013.24 15094.99 51768.00 9446.54 28005.61 4059.43 河南17469.00 29599.31 10380.34 31499.00 7524.94 21897.23 2040.33 湖北13419.70 22250.45 12283.00 38572.00 7851.71 22903.85 1823.05 湖南12578.30 22154.23 11739.53 33480.00 7440.17 22804.55 1782.16 广东45533.80 57067.92 21823.28 54095.00 10542.84 34044.38 6229.18 广西7900.80 13035.10 10519.48 27952.00 6007.55 23209.41 1166.06 海南2172.70 2855.54 10634.49 32377.00 7408.00 22809.87 409.44 重庆8361.60 11409.60 13655.44 38914.00 7383.27 24810.98 1703.49 贵州4806.10 6852.20 8371.96 19710.00 4753.00 20042.88 1014.05 云南7744.70 10309.47 9781.55 22195.00 5416.54 23000.43 1338.15

西藏403.90 701.03 5339.51 22936.00 5719.38 20224.17 86.58

甘肃5050.10 5650.20 8541.97 21978.00 4506.66 18498.46 520.40

青海1275.30 1893.54 10289.13 33181.00 5364.38 19746.63 186.42

宁夏1679.40 2341.29 12120.36 36394.00 6180.32 21902.24 263.96

2.3 聚类分析过程

采用数据输入软件中,选择系统聚类方法,将地区作为个案,其余数据作为变量,距离选择平方欧式距离,分类数设为3,其他为软件的默认选项,点击确

认进行计算。

表2给给出了有效个案和缺失个案及其总数,从表上可以看出所有的个案均为有效的。

表3显示了进行聚类分析时,软件总共的分析步骤,本次聚类分析一共进行了25步。

表3 聚类表

阶群集组合系数首次出现阶群集下一阶阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 2 群集 1 群集 2 13 群集 1 群集 2

1 15 16 1 15 16

9 1

4 1 8 .0

82

0 0 23

2 21 24 2 21 24

11 1

5 19 21 .0

82

8 12 20

3 18 22 3 18 22

15 1

6 3 4 .1

19

10 13 20

4 3 14 4 3 14

17 1

7 5 11 .1

22

0 0 18

5 19 2

6 5 19 26

8 1

8 5 6 .1

56

17 0 22

6 4 10 6 4 10

10 1

9 9 17 .1

86

0 0 21

7 4 12 7 4 12

13 2

0 3 19 .2

31

16 15 22

8 19 25 8 19 25

21 2

1 9 13 .3

34

19 0 24

9 4 18 9 4 18

14 2

2 3 5 .4

06

20 18 25

1 0 3 15 1

3 15

12

2

3

1 2 .5

27

14 0 24

1 1 7 20 1

1

7 20

14

2

4

1 9 1.

521

23 21 25

1 2 21 23 1

2

21 23

18

2

5

1 3 1.

943

24 22 0

1 3

4 7 1

3

4 7

16

表4 群集成员

案例 3 群集案例 3 群集案例 3 群集

1:北京 1 10:安徽 2 19:海南 2

2:天津 1 11:福建 2 20:重庆 2

3:河北 2 12:江西 2 21:贵州 2

4:山西 2 13:山东 3 22:云南 2

5:内蒙古 2 14:河南 2 23:西藏 2

6:辽宁 2 15:湖北 2 24:甘肃 2

7:吉林 2 16:湖南 2 25:青海 2

8:上海 1 17:广东 3 26:宁夏 2

9:江苏 3 18:广西 2

表4给出了最后聚类分析得到的结果为三类,对其进行适当整理得表5。

表5 聚类分析结果

第一类北京、天津、上海

第二类河北、山西、内蒙古、辽宁、吉林、安徽、福建、江西、河南、湖北、湖南、广西、海南、重庆、贵州、云南、西藏、甘肃、青海、宁夏

第三类江苏、山东、广东

图1 聚类分析谱系图

图1给出了本次聚类分析得到的谱系图,当聚类数取为3时得到的结果与表4中的结果一致。

2.4 结果分析

利用系统聚类分析方法得到了26省、直辖市的分类结果,其分类的合理性需要根据实际情况进行直观的判断。对于第一类的的三个直辖市,北京作为我国首都,国际化的大都市,政治中心,其经济状况一直都是我国各省、直辖市中的领头羊。上海与北京一样,作为重要的金融中心,其经济实力是毋庸置疑的。而天津毗邻北京,与北京遥相呼应,坐落于渤海岸,具有优良的港口,进出口贸易较大,将其与北京上海归为一类是合情合理的。

对于第三类的三个省,可以发现它们都是沿海的省,改革开放的春风就是从这些地方吹起来的,其对外开放的程度较内陆地区要高许多。另外,由于毗邻大海,优良港口繁多,吸引了大量的外资,建立的许多全球性质的代工厂,经济得到了迅猛的发展。但是都以小型的轻工业为主,故没有北京等第一类地区经济好。

对于第二类的省和直辖市,可以发现基本都处于内陆地区。相比于沿海地区,内陆开放程度要低许多,另外内陆自然环境各异、地形复杂多样、交通没有沿海地区便利、缺少大型的货物中转港口等也造成内陆地区的经济状况没有沿海地区

发达。将这部分省和直辖市分为一类也是合理的。

3 判别分析

3.1 基本概念

判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标,据此即可确定某一样本属于何类。常用的判别方法包括距离判别法、Bayes判别法、Fisher判别法和逐步判别法。

通过前面的聚类分析已经将我国省、直辖市的经济类型分为三类,下面通过判别分析对剩下的5个省的经济类型进行判别分析。仍旧利用聚类分析时的7个评价影响因素。

3.2 判别分析过程

将剩下的5个省的数据输入软件中,选择上一步聚类分析所得的分类结果作为分组变量。由于已在聚类分析中将各省、直辖市经济类型分为3类,因此分组变量的取值范围为1~3。选择Fisher判别和需要的输出表格和图,其余为软件默认选项,点击确定进行计算。得到如下所示的结果。

表6 分析案例处理摘要

未加权案例N 百分比

有效26 83.9

排除的缺失或越界组代码 5 16.1 至少一个缺失判别变量0 .0 缺失或越界组代码还有至少

一个缺失判别变量

0 .0 合计 5 16.1

合计31 100.0

表中有效的表示已经利用聚类分析的各省、直辖市的经济类型的分类结果,缺失或越界组代码表示未分类的。

图2 典型判别函数

从图2中可知,选用了2个判别函数,给出了3个类和未分类的个案的散点图,从图中可以看出未分组的个案归为两类,即第一类和第二类。表5给出了分类的结果,可以看出对于上文中参加聚类分析的各省、直辖市,判别分类结果与聚类分析相符,对于未分组的案例,划为第一类的有一个,第二类的有4个。各组成员正确分组概率均为100%,故分组是合理的。

3.3 结果分析

现在对判别分析的结果进行分析,不难看出四川、陕西、黑龙江和新疆这4各省应该是分为第二类的,这四个省要么位于内陆地区,要么自然环境较恶劣,其经济水平与浙江省和第一、三类地区存在明显的差距,因此划为第二类是合理的。浙江省地处长三角洲南翼,东临东海,北与上海、江苏接壤,地理位置优越,被称为“鱼米之乡”,是我国经济最活跃的省份之一,至2013年其人均居民可支配收入连续21年位居中国第一,可见浙江省经济实力非常雄厚,与北京、上海和天津划为一类是十分合理的。

4 结论

通过上文的聚类分析和判别分析可知,可以将我国各省、直辖市的经济类型划分为3类。第一类为北京、上海、天津和浙江省,这时我国经济活力最大的地区。第三类为江苏、广东和山东,这是我国对位开放程度较大的省份,而且具有较多的优良港口,交通方便,进出口贸易发达。第二类则是剩下的省份,这些省大都位于内陆地区,由于开放程度、交通、资源分布等因素,其经济水平较第一类和第三类还存在一定的差距。

利用判别分析的方法对分类结果进行了回归分析,结果表明分类正确率高达100%,表明分类是非常合理的。

5 参考文献

[1] 国家统计局.中国统计年鉴2013[M].

[2] 孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学数学系, 2014.

[3] 王静,夏结来,叶冬青.判别分析方法在医学应用中的发展[J].数理统计与管

理,2008,27:367-376.

[4] 杜强,贾丽艳.SPSS统计分析从入门到精通[M].北京:人民邮电出版社。

北航数值分析大作业一

《数值分析B》大作业一 SY1103120 朱舜杰 一.算法设计方案: 1.矩阵A的存储与检索 将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的,所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是: A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1,λ501,λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs; 如果λmax>0,则λ501=λmax;如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法(mifa()函数),令平移量p=λmax,求 出对应的按摸最大的特征值λ,max, 如果λmax>0,则λ1=λ,max+p;如果λmax<0,则λ501=λ,max+p。 3.求解A的与数μk=λ1+k(λ501-λ1)/40的最接近的特征值λik (k=1,2,…,39)。 使用带原点平移的反幂法,令平移量p=μk,即可求出与μk最接近的特征值λik。 4.求解A的(谱范数)条件数cond(A)2和行列式d etA。 ①cond(A)2=|λ1/λn|,其中λ1和λn分别是矩阵A的模最大和 最小特征值。

②矩阵A的行列式可先对矩阵A进行LU分解后,detA等于U所有对角线上元素的乘积。 二.源程序 #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

北航数理统计回归分析大作业

应用数理统计第一次大作业 学号: 姓名: 班级: 2013年12月

国家财政收入的多元线性回归模型 摘 要 本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程: 46?578.4790.1990.733y x x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。 关键词:多元线性回归,逐步回归法,财政收入,SPSS 0符号说明 变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6

进出口总额X7

1 引言 中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理 本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上

最新北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为

北航数值分析大作业第一题幂法与反幂法

《数值分析》计算实习题目 第一题: 1. 算法设计方案 (1)1λ,501λ和s λ的值。 1)首先通过幂法求出按模最大的特征值λt1,然后根据λt1进行原点平移求出另一特征值λt2,比较两值大小,数值小的为所求最小特征值λ1,数值大的为是所求最大特征值λ501。 2)使用反幂法求λs ,其中需要解线性方程组。因为A 为带状线性方程组,此处采用LU 分解法解带状方程组。 (2)与140k λλμλ-5011=+k 最接近的特征值λik 。 通过带有原点平移的反幂法求出与数k μ最接近的特征值 λik 。 (3)2cond(A)和det A 。 1)1=n λλ2cond(A),其中1λ和n λ分别是按模最大和最小特征值。 2)利用步骤(1)中分解矩阵A 得出的LU 矩阵,L 为单位下三角阵,U 为上三角阵,其中U 矩阵的主对角线元素之积即为det A 。 由于A 的元素零元素较多,为节省储存量,将A 的元素存为6×501的数组中,程序中采用get_an_element()函数来从小数组中取出A 中的元素。 2.全部源程序 #include #include void init_a();//初始化A double get_an_element(int,int);//取A 中的元素函数 double powermethod(double);//原点平移的幂法 double inversepowermethod(double);//原点平移的反幂法 int presolve(double);//三角LU 分解 int solve(double [],double []);//解方程组 int max(int,int); int min(int,int); double (*u)[502]=new double[502][502];//上三角U 数组 double (*l)[502]=new double[502][502];//单位下三角L 数组 double a[6][502];//矩阵A int main() { int i,k; double lambdat1,lambdat2,lambda1,lambda501,lambdas,mu[40],det;

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

北航数值分析报告第三次大作业

数值分析第三次大作业 一、算法的设计方案: (一)、总体方案设计: x y当作已知量代入题目给定的非线性方程组,求(1)解非线性方程组。将给定的(,) i i

得与(,)i i x y 相对应的数组t[i][j],u[i][j]。 (2)分片二次代数插值。通过分片二次代数插值运算,得到与数组t[11][21],u[11][21]]对应的数组z[11][21],得到二元函数z=(,)i i f x y 。 (3)曲面拟合。利用x[i],y[j],z[11][21]建立二维函数表,再根据精度的要求选择适当k 值,并得到曲面拟合的系数矩阵C[r][s]。 (4)观察和(,)i i p x y 的逼近效果。观察逼近效果只需要重复上面(1)和(2)的过程,得到与新的插值节点(,)i i x y 对应的(,)i i f x y ,再与对应的(,)i i p x y 比较即可,这里求解 (,)i i p x y 可以直接使用(3)中的C[r][s]和k 。 (二)具体算法设计: (1)解非线性方程组 牛顿法解方程组()0F x =的解* x ,可采用如下算法: 1)在* x 附近选取(0) x D ∈,给定精度水平0ε>和最大迭代次数M 。 2)对于0,1, k M =执行 ① 计算() ()k F x 和()()k F x '。 ② 求解关于() k x ?的线性方程组 () ()()()()k k k F x x F x '?=- ③ 若() () k k x x ε∞∞ ?≤,则取*()k x x ≈,并停止计算;否则转④。 ④ 计算(1) ()()k k k x x x +=+?。 ⑤ 若k M <,则继续,否则,输出M 次迭代不成功的信息,并停止计算。 (2)分片双二次插值 给定已知数表以及需要插值的节点,进行分片二次插值的算法: 设已知数表中的点为: 00(0,1,,) (0,1,,)i j x x ih i n y y j j m τ=+=???=+=?? ,需要插值的节点为(,)x y 。 1) 根据(,)x y 选择插值节点(,)i j x y : 若12h x x ≤+ 或12 n h x x ->-,插值节点对应取1i =或1i n =-,

北航数理统计期末考试题

材料学院研究生会 学术部 2011年12月 2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 总离差平方和 试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

北航数值分析大作业第二题精解

目标:使用带双步位移的QR 分解法求矩阵10*10[]ij A a =的全部特征值,并对其中的每一个实特征值求相应的特征向量。已知:sin(0.50.2)() 1.5cos( 1.2)(){i j i j ij i j i j a +≠+== (i,j=1,2, (10) 算法: 以上是程序运作的逻辑,其中具体的函数的算法,大部分都是数值分析课本上的逻辑,在这里特别写出矩阵A 的实特征值对应的一个特征向量的求法: ()[]()() []()[]()111111I 00000 i n n n B A I gause i n Q A I u Bu u λλ-?-?-=-?-?? ?-=????→=??????→= ?? ? 选主元的消元 检查知无重特征值 由于=0i A I λ- ,因此在经过选主元的高斯消元以后,i A I λ- 即B 的最后一行必然为零,左上方变 为n-1阶单位矩阵[]()()11I n n -?-,右上方变为n-1阶向量[]()11n Q ?-,然后令n u 1=-,则 ()1,2,,1j j u Q j n ==???-。

这样即求出所有A所有实特征值对应的一个特征向量。 #include #include #include #define N 10 #define E 1.0e-12 #define MAX 10000 //以下是符号函数 double sgn(double a) { double z; if(a>E) z=1; else z=-1; return z; } //以下是矩阵的拟三角分解 void nishangsanjiaodiv(double A[N][N]) { int i,j,k; int m=0; double d,c,h,t; double u[N],p[N],q[N],w[N]; for(i=0;i

北航数值分析大作业第二题

数值分析第二次大作业 史立峰 SY1505327

一、 方案 (1)利用循环结构将sin(0.50.2)() 1.5cos( 1.2)() {i j i j ij i j i j a +≠+==(i,j=1,2,……,10)进行赋值,得到需要变换的 矩阵A ; (2)然后,对矩阵A 利用Householder 矩阵进行相似变换,把A 化为上三角矩阵A (n-1)。 对A 拟上三角化,得到拟上三角矩阵A (n-1),具体算法如下: 记A(1)=A ,并记A(r)的第r 列至第n 列的元素为()n r r j n i a r ij ,,1,;,,2,1) ( +==。 对于2,,2,1-=n r 执行 1. 若 ()n r r i a r ir ,,3,2) ( ++=全为零,则令A(r+1) =A(r),转5;否则转2。 2. 计算 () ∑+== n r i r ir r a d 1 2 )( ()( )r r r r r r r r r r d c a d a c ==-=++则取,0sgn ) (,1)(,1若 )(,12r r r r r r a c c h +-= 3. 令 () n T r nr r r r r r r r r R a a c a u ∈-=++) ()(,2)(,1,,,,0,,0 。 4. 计算 r r T r r h u A p /)(= r r r r h u A q /)(= r r T r r h u p t /= r r r r u t q -=ω T r r T r r r r p u u A A --=+ω)()1( 5. 继续。 (3)使用带双步位移的QR 方法计算矩阵A (n-1)的全部特征值,也是A 的全部特征值,具体算法如下: 1. 给定精度水平0>ε和迭代最大次数L 。 2. 记n n ij n a A A ?-==][) 1()1()1(,令n m k ==,1。

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解:1?σ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ .

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月7日

摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式: εββββ++++=m m x x x y 22110 2,0σεε==D E (2.1) 其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

北航2014级硕士研究生应用数理统计答案(B卷)

2014-2015 学年 第一学期期末试卷答案 学号 姓名 成绩 考试日期: 2015年1月13日 考试科目:《应用数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设122,,n x x x ,是来自正态总体2(,)N μσ的简单样本,则c = n m m - 时,统计量2 22112 2211 ()()m k k k n k k k m x x c x x η-=-=+-=-∑∑服从F -分布。 2. 设12,,n x x x ,是来自正态总体2 (0,)N σ的简单样本,用2 2 21 1?()n i i nx x n σ ===∑估计2σ,则均方误差2222?()E σσ σ- 42σ 。 3.设总体X 的密度函数为22 ,[0,] (;)0, [0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则2()q θθ=的矩估计?q = 2 94 x 或2 1 2n i i x n =∑ 。 4.在双因素方差分析中,总离差平方和T S 的分解式为 T A B A B e S S S S S ?=+++ 其中2 111 ()p q r e ijk ij i j k S x x ?====-∑∑∑,11r ij ijk k x x r ?==∑, 则e S 的自由度是 (1)p q r - 或n pq -,其中n pqr = 。

二、(本题12分)设总体X 的密度函数为111,(0,1) (;)0,(0,1)x x f x x θ θθ-?∈?=???? ,其中0θ>, 12,,,n x x x 是来自总体X 的简单样本。 (1)求θ的极大似然估计?θ;(2)求θ的一致最小方差无偏估计;(3)问θ的一致最小方差无偏估计是否为有效估计?证 明你的结论。 解(1)似然函数为 (1)()1 1 {01}121 1 ()() (,,,)n n i x x n n i L x I x x x θ θθ-<≤<== ∏ 对数似然函数为 (1)(){01}121 1 ln ()ln (1)ln ln (,,,)n n i x x n i L n x I x x x θθθ <≤<==-+-+∑ 求导,有 2 1 ln ()1 ln n i i L n x θθθθ =?=--?∑ 令ln ()0L θθ?=?,可得θ的极大似然估计为1 1?ln n i i x n θ==-∑。 (2)因为 (1)()1 1 12{01}121 1 (,,,;)() (,,,)n n n i x x n n i f x x x x I x x x θ θθ-<≤<== ∏ (1)(){01}121 1 1 (,,,)exp{(1)ln }n n x x n i n i I x x x x θθ <≤<==-∑ 令1 ()n c θθ = ,(1)(){01}12()(,,,)n x x n h x I x x x <≤<= ,1 ()1w θθ = -,1 ln n i i T x ==∑,由于() w θ的值域(0,)+∞有内点,由定理2.2.4知1 ln n i i T x ==∑是完全充分统计量。而 1 1 1 1 (ln )(ln )i E x x x dx θθθ -= =-? 所以 1 1 (ln )(ln )n n i i i i E x E x n θ====-∑∑

北航数值分析第二次大作业--QR分解

《数值分析A》

一、算法设计方案 整个程序主要分为四个函数,主函数,拟上三角化函数,QR分解函数以及使用双步位移求解矩阵特征值、特征向量的函数。因为在最后一个函数中也存在QR分解,所以我没有采用参考书上把矩阵M进行的QR分解与矩阵Ak的迭代合并的方法,而是在该函数中调用了QR分解函数,这样增强了代码的复用性,减少了程序长度;但由于时间关系,对阵中方法的运算速度没有进行深入研究。 1.为了减少QR分解法应用时的迭代次数,首先对给定矩阵进行拟上三角化处理。 2.对经过拟上三角化处理的矩阵进行QR分解。 3.注意到计算特征值与特征向量的过程首先要应用前面两个函数,于是在拟上三角化矩阵的基础上对QR分解函数进行了调用。计算过程中,没有采用goto语句,而是根据流程图采用其他循环方式完成了设计,通过对迭代过程的合并,简化了程序的循环次数,最后在计算特征向量的时候采用了列主元高斯消去法。

二、源程序代码 #include #include #include int i,j,k,l,m; //定义外部变量double d,h,b,c,t,s; double A[10][10],AA[10][10],R[10][10],Q[10][10],RQ[10][10]; double X[10][10],Y[10][10],Qt[10][10],M[10][10]; double U[10],P[10],T[10],W[10],Re[10]={0},Im[10]={0}; double epsilon=1e-12; void main() { void Quasiuppertriangular(double A[][10]); void QRdecomposition(double A[][10]); void DoublestepsQR(double A[][10]); int i,j; for(i=0;i<10;i++) { for(j=0;j<10;j++) { A[i][j]=sin(0.5*(i+1)+0.2*(j+1)); Q[i][j]=0; AA[i][j]=A[i][j]; } A[i][i]=1.5*cos(2.2*(i+1)); AA[i][i]=A[i][i];

北航数值分析报告大作业第八题

北京航空航天大学 数值分析大作业八 学院名称自动化 专业方向控制工程 学号 学生姓名许阳 教师孙玉泉 日期2014 年11月26 日

一.题目 关于x , y , t , u , v , w 的方程组(A.3) ???? ?? ?=-+++=-+++=-+++=-+++79 .0sin 5.074.3cos 5.007.1cos sin 5.067.2cos 5.0y w v u t x w v u t y w v u t x w v u t (A.3) 以及关于z , t , u 的二维数表(见表A-1)确定了一个二元函数z =f (x , y )。 表A-1 二维数表 t z u 0 0.4 0.8 1.2 1.6 2 0 -0.5 -0.34 0.14 0.94 2.06 3.5 0.2 -0.42 -0.5 -0.26 0.3 1.18 2.38 0.4 -0.18 -0.5 -0.5 -0.18 0.46 1.42 0.6 0.22 -0.34 -0.58 -0.5 -0.1 0.62 0.8 0.78 -0.02 -0.5 -0.66 -0.5 -0.02 1.0 1.5 0.46 -0.26 -0.66 -0.74 -0.5 1. 试用数值方法求出f (x , y ) 在区域}5.15.0,8.00|), {≤≤≤≤=y x y x D (上的近似表达式 ∑∑===k i k j s r rs y x c y x p 00 ),( 要求p (x , y )以最小的k 值达到以下的精度 ∑∑==-≤-=10020 7210)],(),([i j i i i i y x p y x f σ 其中j y i x i i 05.05.0,08.0+==。 2. 计算),(),,(* ***j i j i y x p y x f (i =1,2,…,8 ; j =1,2,…,5) 的值,以观察p (x , y ) 逼 近f (x , y )的效果,其中j y i x j i 2.05.0,1.0**+==。

北航数值分析课程第一次大作业讲解

《数值分析A》计算实习题目第一题 一.算法设计方案: 1.矩阵A的存储与检索 将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的,所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是: A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1,λ501,λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs; 如果λmax>0,则λ501=λmax;如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法(mifa()函数),令平移量p=λmax,求出对应的按摸最大的特征值λ,max, 如果λmax>0,则λ1=λ,max+p;如果λmax<0,则λ501=λ,max+p。 3.求解A的与数μk=λ1+k(λ501-λ1)/40的最接近的特征值λik (k=1,2,…,39)。 使用带原点平移的反幂法,令平移量p=μk,即可求出与μk最接近的特征值λik。 4.求解A的(谱范数)条件数cond(A)2和行列式d etA。 ①cond(A)2=|λ1/λn|,其中λ1和λn分别是矩阵A的模最大和最小特征值。 ②矩阵A的行列式可先对矩阵A进行LU分解后,detA等于U所有

对角线上元素的乘积。 二.源程序(VS2010环境下,C++语言) #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

北航数值分析大作业3

一、算法设计方案 1.使用牛顿迭代法,对原题中给出的i x i 08.0=,j y j 05.05.0+=, (010 ,020i j ≤≤≤≤)的11*21组j i y x ,分别求出原题中方程组的一组解,于是得到一组和i i y x ,对应的j i t u ,。 2.对于已求出的j i t u ,,使用分片二次代数插值法对原题中关于u t z ,,的数表进行插值得到 ij z 。于是产生了z=f(x,y)的11*21个数值解。 3.从k=1开始逐渐增大k 的值,并使用最小二乘法曲面拟合法对z=f(x,y)进行拟合,得到每次的σ,k 。当7 10-<σ时结束计算,输出拟合结果。 4.计算)5,,2,1,8,,2,1)(,(),,(* ***???=???=j i y x p y x f j i j i 的值并输出结果,以观察),(y x p 逼近),(y x f 的效果。其中j y i x j i 2.05.0,1.0* *+==。 二、算法实现方案 1、求(,)f x y : (1)Newton 法解非线性方程组 0.5cos 2.670.5sin 1.07(1)0.5cos 3.740.5sin 0.79 t u v w x t u v w y t u v w x t u v w y +++-=??+++-=? ? +++-=??+++-=?, 其中,t, u, v ,w 为待求的未知量,x, y 为代入的已知量。 设(,,,)T t u v w ξ=,给定精度水平12110ε-=和最大迭代次数M ,则解该线性方程组的迭代格式为: *(0)(0)(0)(0)(0)(k+1) ()()1()(,,,)()()0,1,T k k k t u v w F F k ξξξ ξξξ-?=?'=-??= ? 在附近选取初值, 迭代终止条件为()(1) () 1/k k k ξξ ξε-∞ ∞ -≤,若k M >时仍未达到迭代精度,则迭代计算失 败。 其中,雅可比矩阵 0.5*cos(t) + u + v + w - x - 2.67t + 0.5*sin(u) + v + w - y - 1.07()0.5*t + u + cos(v) + w - x - 3.74t + 0.5*u + v + sin(w) - y - 0.79F ξ???? ? ?=?????? ,

北航-数理统计大作业

对中国各地财政收入情况的聚类分析和判 别分析 应用数理统计第二次大作业 学院名称 学号 学生姓名 摘要 我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因

变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。 关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型 1、引言 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。 本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。 1.1 聚类分析 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就

相关主题
文本预览
相关文档 最新文档