当前位置:文档之家› 北航数理统计大作业基于SPSS的建筑业企业房屋竣工面积聚类与判别分析

北航数理统计大作业基于SPSS的建筑业企业房屋竣工面积聚类与判别分析

北航数理统计大作业基于SPSS的建筑业企业房屋竣工面积聚类与判别分析
北航数理统计大作业基于SPSS的建筑业企业房屋竣工面积聚类与判别分析

本科毕业设计(论文)

数理统计

基于SPSS的建筑业企业房屋竣工面积

聚类与判别分析

Cluster and Discriminant Analysis of Completed Area of Houses in Construction Enterprises Based on SPSS

学院:仪器科学与光电工程学院

专业:仪器科学与技术

作者:池浩湉

学号:SY1617228

指导教师:孙海燕

北京航空航天大学

2017年11月

北京航空航天大学--数理统计A13 中文摘要

中文摘要

摘要:改革开放以来,特别是20世纪90年代以来,城镇化的快速发展、城镇住房制度的改革及其深化,使房地产在推动我国国民经济发展,提高人民生活水平方面发挥了重要作用。因此,建筑业对国民经济及其他产业的推动作用不可忽视,因此,研究建筑业企业房屋竣工面积具有重要的意义。

为了研究全国不同地区建筑业企业房屋竣工面积情况,本文收集了2016年第三季度全国31个省、直辖市、自治区的建筑业企业房屋竣工面积的数据,包括住宅房屋、商业及服务用房屋、办公用房屋科研、教育和医疗用房屋、文化体育娱乐用房屋、厂房及建筑物、仓库这7个类别的房屋竣工面积的数据,利用SPSS软件进行聚类分析,并建立判别函数模型,将不同地区进行分类,分别得到分为3类和4类的两个模型,且这个两个模型中,浙江省和江苏省均各占一类。之后利用建立的分类模型,对新的变量2016年第二季度河北省、江苏省、浙江省和安徽省这四个省份进行判别分类,得到了较好的结果,最后,对结果进行了分析。

关键词:Building completion area; SPSS; cluster analysis; discriminant analysis

北京航空航天大学--数理统计A13 English abstract

ABSTRACT

ABSTRACT:Since the reform and opening up, especially since 1990s, the rapid development of urbanization, the reform of the urban housing system and the deepening of the real estate in promoting the development of our national economy, play an important role in improving the level of people's life. Therefore, the construction industry on the national economy and other industries to promote the role can not be ignored, therefore, the study of construction enterprises housing completion area is of great significance.

In order to study the enterprises in different regions of the country building housing area, this paper collected the housing area of the third quarter of 2016, the country's 31 provinces, municipalities and autonomous regions, the construction enterprise data, including commercial and residential housing services, buildings, office buildings, education and medical research buildings, cultural and sports entertainment housing, plant and warehouse buildings, these 7 categories of housing area data, clustering analysis by SPSS software, and establish the discriminant function model, different area classification, are divided into two types and 4 types of model 3, and the two model, Zhejiang province and Jiangsu province each class. After using the classification model, classify the new variable of the second quarter of 2016 in Hebei Province, Jiangsu Province, Zhejiang province and Anhui Province, the four provinces, and better results are obtained, finally, the results are analyzed.

KEYWORDS:Production Price Index ofGrain Grain; SPSS; Stepwise Regression;Multiple Linear Regression

目录

中文摘要..................................................................................................................................... I ABSTRACT .............................................................................................................................. II 目录.......................................................................................................................................... III 1引言 (1)

2数据采集 (2)

3聚类分析 (3)

3.1聚类分析过程 (3)

3.2聚类分析结果 (3)

4判别分析 (6)

4.1判别函数建立 (6)

4.2模型评价 (8)

4.3新变量判别 (9)

5结论 (11)

参考文献 (12)

1引言

改革开放以来中国经济迅速发展,人民生活水平逐渐提高,房地产业是指:以土地和建筑物为经营对象,从事房地产开发、建设、经营、管理以及维修、装饰和服务的集多种经济活动为一体的综合性产业,是具有先导性、基础性、带动性和风险性的产业。主要包括:土地开发,房屋的建设、维修、管理,土地使用权的有偿划拨、转让,房屋所有权的买卖、租赁,房地产的抵押贷款以及由此形成的房地产市场。在实际生活中,人们习惯于上将从事房地产开发和经营的行业称为房地产业[1]。

党的十八大报告提出建立市场配臵和政府保障相结合的住房制度,加强保障性住房建设和管理,满足困难家庭基本需求。保障房建设首次列入党代会报告,为住房制度发展指明了方向,未来住房制度将从市场配臵和政府保障两方面着手,加强保障房建设,保障中低收入群体基本住房需求,促进公平和稳定。为未来房地产业发展明确了走向,未来将加快推进保障性安居工程建设,着力解决中低收入群体住房问题,满足困难家庭的住房基本需求,努力实现城乡居民住有所居。因此研究建筑业企业房屋竣工面积具有重大的意义。

聚类分析是根据事物本身的特性研究个体分类的方法。其主要依据是同一类中个体有较大的相似性,不同类之间的个体差异很大。判别分析过程是根据已知的观测量分类和表明观测量特征的变量值推导出判别函数。一旦遇到新的样本时,可以利用此模型来判断将新样本放置在哪一类中[2]。

本文研究全国31个地区建筑业企业房屋竣工面积,并根据房屋竣工面积的不同规律对不同省市进行聚类与判别分析。通过研究不同地区的建筑业企业房屋竣工面积,可以分析该地区经济的发展情况以及居民的生活水平,从而深入了解我国社会发展状况,这对全面建设小康社会也具有一定的指导意义。

本文共收集了2016年第三季度全国31个省、直辖市、自治区的建筑业企业房屋竣工面积情况,将住宅房屋、商业及服务用房屋、办公用房屋科研、教育和医疗用房屋、文化体育娱乐用房屋、厂房及建筑物、仓库这七个方面进行统计,并根据不同地区的房屋竣工面积进行分类,建立相应的判别函数。为了保证所建立判别函数的可靠性,本文采用交叉验证的方法对模型进行评价。此外,本文还收集了2016年第二季度4个地区的建筑业企业房屋竣工面积数据,并利用之前建立的模型对这4个省市进行分类,以此来进一步检验模型的可靠性。最后,本文根据分类结果对我国不同省市地区的建筑业企业房屋竣工面积情况进行了分析。

2数据采集

如表2.1所示,本文通过中国国家统计局的统计年鉴的索引,从《中国统计年鉴》调用了2016年第三季度的全国各地区建筑业企业房屋竣工面积的31组数据[3]。建筑业企业房屋竣工面积主要涵盖了住宅房屋、商业及服务用房屋、办公用房屋科研、教育和医疗用房屋、文化体育娱乐用房屋、厂房及建筑物、仓库这七个方面。

表2.1 2016年第三季度全国各地区建筑业企业房屋竣工面积数据表

地区住宅房屋商业及

服务用

房屋

办公用

房屋

科研、教

育和医疗

用房屋

文化、体育

和娱乐用

房屋

厂房及

建筑物

仓库

北京市2358.94 806.11 370.84 200.09 137.40 176.26 41.19 天津市1123.84 104.25 68.40 54.41 1.47 219.35 35.52 河北省4071.02 230.57 276.08 313.94 15.22 511.35 11.93 山西省1083.70 96.19 88.20 81.03 12.90 112.48 3.06 内蒙古606.08 25.77 26.36 20.61 4.11 38.99 2.40 辽宁省1469.76 136.23 125.55 64.17 8.55 312.04 10.58 吉林省1405.61 84.83 69.55 38.33 24.29 133.07 19.25 黑龙江省369.76 19.05 27.46 22.81 4.13 23.06 8.87 上海市2580.87 619.38 300.46 146.47 42.37 766.42 21.23 江苏省31826.03 1871.74 2034.15 1460.01 409.68 5216.14 304.42 浙江省21159.97 3306.40 2698.24 1260.07 349.35 8445.58 232.99 安徽省5934.53 530.19 485.69 373.59 56.01 1114.63 56.78 福建省6024.79 624.15 587.29 313.42 58.20 1779.44 64.16 江西省5594.82 638.27 506.01 509.68 126.52 995.84 54.41 山东省8656.99 870.21 525.25 531.48 83.17 1253.20 104.06 河南省8131.70 561.13 776.65 680.57 78.20 945.71 106.51 湖北省11916.19 1531.54 1006.80 782.23 181.61 1580.63 40.05 湖南省7764.25 790.28 636.10 642.95 121.84 793.54 39.33 广东省6193.46 584.65 510.39 362.36 76.43 1274.25 39.56 广西2933.61 417.60 463.38 512.92 112.95 351.11 29.38 海南省272.63 77.08 25.47 44.42 11.96 16.58 0.00 重庆市6118.42 603.88 423.31 318.83 34.32 649.21 37.52 四川省9543.57 1050.67 421.47 393.08 91.24 787.52 46.89 贵州省1273.28 115.29 116.63 339.93 67.54 111.83 18.68 云南省2355.59 427.64 235.89 354.59 55.49 255.88 31.42 西藏49.75 4.71 8.42 4.69 2.58 0.58 0.04 陕西省2677.20 221.57 223.27 220.02 27.12 175.32 6.21 甘肃省1533.02 157.69 108.97 161.40 36.86 119.34 2.48 青海省72.85 13.21 15.43 18.17 1.13 3.41 0.09 宁夏280.40 44.25 16.48 34.36 2.31 17.25 0.50 新疆1113.59 146.38 131.93 121.60 54.29 166.95 15.58

3聚类分析

3.1聚类分析过程

聚类分析是根据研究对象的特征对研究对象进行分类的统计方法,依据分类对象的不同可以分为样本聚类又称Q型聚类和变量聚类(又称R型聚类)。前者是对观测量或称为个案的聚类,是根据被观测对象的各种特征进行分类的方法,其目的是找到不同样本之间的共同特征。后者是对变量进行聚类。反映同一事物特点的变量往往有多个,为了更好的了解事物、把握事物的本质特征,就需要找到一些彼此独立而又具有代表性的变量来反映事物,从而整合出有代表性的指标,这就需要对研究变量进行聚类。聚类分析的基本原理是把某种性质相似的对象归为一类,而不同类之间则存在较大差异。

本文采用系统聚类法对数据进行分析。该方法的原理是先将所有n个变量看成不同的类,然后把性质最接近的两类合并为一类,再从这(n-1)类中找到最接近的两类加以合并。以此类推,直到所有的变量被合为一类为止。

利用SPSS软件作为统计工具进行聚类分析。首先将数据导入SPSS软件,然后依次选择分析→分类→系统聚类进入设置对话框。在聚类方法选项中,本文选择“组内联接”,即合并两类使得合并后的类中所有项之间的评价距离最小。在“度量标准”栏中,选择“区间”一栏中的“欧式距离的平方”选项。此外,将聚类范围设为最小聚类数为3,最大聚类数为4,即输出3分类和4分类这两个不同的分类结果,这样能观察到分类数不同时所分类的区别[4]。

3.2聚类分析结果

从表3.1中可以看到,所有的观测量都进行了聚类分析,没有缺失。因此可以利用聚类结果。

表3.1案例处理汇总

表3.2为群集成员即聚类结果,通过它可以观察聚类数分别为3和4时的分类结果。从表中可以看到,无论是分3类还是4类,浙江省、江苏省都是独自归为一类。

当分3类时,除去浙江省、江苏省的其余29个省、直辖市、自治区类归为一类,江苏省归为第二类,浙江省归为第三类。

当分4类时,江苏省仍为第二类,浙江省仍为第三类,安徽省、福建省、江西省、山东省、河南省、湖北省、湖南省、广东省、重庆市和四川省这十个省或直辖市划分为第四类,其余省份、直辖市或自治区划分到第一类。详细的分类过程如图3.1所示。

表3.2群集成员

图3.1 分类过程

4 判别分析

判别分析和聚类分析虽然都是用于分类与预测的方法,但二者并不相同。判别分析是在已知研究对象分成了若干组别,从这些已知样本中总结出判别规则,建立判别函数,进而对未知组别的研究对象进行分组的过程。常见的判别准则有贝叶斯判别、Fisher 判别、距离判别等[5]。

为了建立判别函数就必须使用训练样本,可以根据上述聚类分析的分类结果作为样本来构造判别函数。在利用判别函数对新变量进行分类之前,需要对判别效果进行评价。只有所建立的模型有较好的准确性,那么使用该模型对新变量进行分类才具有意义。本文利用聚类分析中4分类的结果进行判别分析。

4.1 判别函数建立

采用SPSS 软件作为统计工具,打开数据文件,将数据输入SPSS 软件。依次选择分析→分类→判别进入设置对话框[6]。选择上一步聚类分析所得的分为4类的结果变量作为分组变量。自变量为住宅房屋、商业及服务用房屋、办公用房屋科研、教育和医疗用房屋、文化体育娱乐用房屋、厂房及建筑物、仓库。

表4.1为组均值的均等性检验结果,从中可以看出,七个变量的显著性概率皆小于0.05,这表明这几个变量组均值都存在显著性差异,可以进行判别分析。

表4.1 组均值的均等性检验

通过表4.2中的分类函数系数可以建立各类判别模型。在判别时,将各变量的值依次带入这4个函数模型并计算出相应的数值,将变量分在数值最大的那一类里。分类模型具体如下:

112345670.0010.0030.0030.000055650.0240.0020.024 2.145y x x x x x x x =---+++- 212345670.0760.4780.0520.519 2.3610.0930.8491192.479y x x x x x x x =---+++-

312345670.0140.0900.0130.1110.4790.1250.348566.768y x x x x x x x =---+++- 412345670.080.0380.070.0350.1590.0140.11824.577y x x x x x x x =---+++-

其中,1x 为住宅房屋,2x 为商业及服务用房屋,3x 为办公用房屋科研,4x 为教育和医疗用房屋,5x 为文化体育娱乐用房屋,6x 为厂房及建筑物,7x 为仓库。

表4.2 分类函数系数

如下所示,表4.3为三个判别函数中各个变量的标准化系数。

表4.3标准化的典型判别式函数系数

通过表4.3可用来判断三个函数分别受哪些变量的影响较大,并可以写出标准化的判别函数式:

112345672.051 2.1910.137 1.450 1.7060.6680.306D x x x x x x x =---+++ 212345671.577 1.6530.0990.988 1.2430.7360.088D x x x x x x x =-+++-+- 312345670.232 1.0560.0170.913 1.4710.3950.067D x x x x x x x =+++--+

其中,1x 为住宅房屋,2x 为商业及服务用房屋,3x 为办公用房屋科研,4x 为教育和医疗用房屋,5x 为文化体育娱乐用房屋,6x 为厂房及建筑物,7x 为仓库。

根据上述三个函数式可以计算各观测量的坐标值,选取前两个函数式,可以把1D 作为横坐标,2D 作为纵坐标进行作图。由此可以算出观测量在空间的具体位置如图4.1所示。

图4.1判别函数散点图

如图4.1所示,是将不同样本不同支出的值带入判别函数式进行计算,可以看到建立的模型能够比较明显地区分出4类变量,分类效果较好。

4.2 模型评价

建立完成一个判别函数后,务必要对其判别效果进行合理评价。一般来说一个好的判别法,其判错概率应该很小,因此可以用判错概率作为衡量判别法优劣的标准。主要的评价方法有回报法、刀切法与交叉验证法等,本文采用交叉验证法对模型进行评价。如表4.4为交叉验证的结果。

表4.4 交叉验证结果

所谓的交叉验证法,就是在给定的模型样本中,用大部分样本进行建模,留小部分样本用

建立的模型进行预报,并求出这小部分样本的预报误差,以此来评价聚类分析所产生的分类方法的好坏。

通过表4.4可以看到,该分类方法的犯错概率较低,其正确率达到了90.3%。其错误在于将一个第4类的省份误判为第1类的省份,将一个第3类的省份误判为第4类的省份,将一个第2类的省份误判为第3类的省份。由于第2、3类的省份只有一个变量,建立判别函数时参考比较少,且第4类和第1类省份的差别比较小,因此难免会有误判。综上所述,可以利用聚类分析的结果以及判别分析建立的模型对新变量的类别进行判断。

4.3 新变量判别

利用建立的模型,可以对新变量进行判别。本小节收集2016年第二季度河北省、江苏省、浙江省和安徽省这4个地区的数据,并通过前文建立的模型进行分类,数据如表4.5所示。

表4.5 2016年第二季度河北省、江苏省、浙江省和安徽省建筑业企业房屋竣工面积数据表

地区住宅房屋商业及服

务用房屋

办公用

房屋

科研、教育和

医疗用房屋

文化、体育和

娱乐用房屋

厂房及建

筑物

仓库

河北省2601.48 126.83 168.62 176.95 9.88 361.08 8.19

江苏省19717.79 1228.33 1219.14 764.11 239.24 3394.85 153.26 浙江省13117.16 1992.39 1764.22 782.49 230.78 5092.06 148.27

所处的位置。图4.3中将未分组变量与已分组变量放在一起,根据新变量距离不同质心的长度区别,能够直观地观察出分类结果。具体分类结果如表4.6所示。

图4.2未分组案例的空间分布

图4.3新变量判别

表4.6 2012年4个地区分类结果

地区2016年第三季度分类2016年第二季度分类

河北省 1 1

江苏省 2 2

浙江省 3 3

安徽省 4 1

从表4.6可以看出,2016年第二季度四个省市的分类结果和2016年第三季度大体一致,不过误将安徽省分为第一类。这是因为原模型中第一类与第三类的区别并不明显,因此建立的模型参考价值相对较低,很有可能造成误判。但是河北省仍为第一类、江苏省仍为第二类、浙江省仍为第三类,仍能说明一定问题,和原分类模型接近。

5结论

本文研究全国31个地区建筑业企业房屋竣工面积,并根据房屋竣工面积的不同规律对不同省市进行聚类与判别分析。当分3类时,除去浙江省、江苏省的其余29个省、直辖市、自治区类归为一类,江苏省归为第二类,浙江省归为第三类。当分4类时,江苏省仍为第二类,浙江省仍为第三类,安徽省、福建省、江西省、山东省、河南省、湖北省、湖南省、广东省、重庆市和四川省这十个省或直辖市划分为第四类,其余省份、直辖市或自治区划分到第一类。

从分类结果可以看出,无论是3分类还是4分类模型,建立的模型均满足相应城市的特点。浙江省、江苏省作为沿海省份,在国家“一路一带”的战略以及经济全球化的影响下,发展迅速,势必带来房地产行业的崛起。

分为4类模型时,北京、上海、天津等发达城市由于资源有限,发展已经趋于饱和,土地资源有限,所以归为第1类省份,与经济发展较为缓慢的西部、北部省份贵州省、云南省、西藏、自治广西、海南省、陕西省、甘肃省、青海省、宁夏、新疆、河北省、山西省、内蒙古、辽宁省、吉林省、黑龙江省归为一类。

中部省份安徽省、福建省、江西省、山东省、河南省、湖北省、湖南省、广东省、重庆市和四川省由于处于经济增长的迅猛阶段,所以归为第4类省份。

综上所述,我国不同地区的建筑业企业房屋竣工面积仍存在着一定差距。总体来说,东部省份经济发展较快,房地产发展迅猛,但由于东部一些地区土地资源有限,因此房地产的发展略有减慢;中西部地区由于国家的政策支持,经济得到了快速的发展,建筑业企业房屋竣工面积具有很大的增长。

北京航空航天大学(数理统计)附录

参考文献

[1] 许宪春,贾海,李皎,李俊波. 房地产经济对中国国民经济增长的作用研究[J]. 中国社会科学,2015,01:84-101+204.

[2]孙海燕,周梦,李卫国,冯伟. 应用数理统计[M],北京:北京航空航天大学出版社.2015(9).

[3] 国家统计局:《2015中国统计年鉴》,中国统计出版社.

[4] 吕振通,张凌云. SPSS统计分析与应用. 机械工业出版社,2010

[5] 公丽艳,孟宪军,刘乃侨,毕金峰. 基于主成分与聚类分析的苹果加工品质评价[J]. 农业工程学报,2014,13:276-28 5.

[6] 谭荣波,梅晓仁. SPSS统计实用教程[M]. 北京:科学出版社,2008:197.

北航数值分析大作业一

《数值分析B》大作业一 SY1103120 朱舜杰 一.算法设计方案: 1.矩阵A的存储与检索 将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的,所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是: A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1,λ501,λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs; 如果λmax>0,则λ501=λmax;如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法(mifa()函数),令平移量p=λmax,求 出对应的按摸最大的特征值λ,max, 如果λmax>0,则λ1=λ,max+p;如果λmax<0,则λ501=λ,max+p。 3.求解A的与数μk=λ1+k(λ501-λ1)/40的最接近的特征值λik (k=1,2,…,39)。 使用带原点平移的反幂法,令平移量p=μk,即可求出与μk最接近的特征值λik。 4.求解A的(谱范数)条件数cond(A)2和行列式d etA。 ①cond(A)2=|λ1/λn|,其中λ1和λn分别是矩阵A的模最大和 最小特征值。

②矩阵A的行列式可先对矩阵A进行LU分解后,detA等于U所有对角线上元素的乘积。 二.源程序 #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

《数理统计》上机四聚类分析

《数理统计》 课程实验报告(四)

1 实验内容 聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS 、SAS 等。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 请将‘聚类分析数据.xlsx ’中四川省主要城市设施水平的数据用合适的聚类 分析方法进行聚类,将四川省主要城市进行分类,并说明理由。 2 实验主要步骤 (1) 对数据标准化处理 利用公式 (min) (max)(min) j j j ij ij x x x x x --= ' (i=1,2,…..n,j=1,2,…m ) 其中(max)和(max)j j x x 分别为第j 个变量的最大和最小值。显然,10≤'≤ij x 。 (2) 计算距离系数阵 q m k q jk ik ij x x d 1 1?? ???? -=∑= (3) 计算相似系数统计量

北航数理统计回归分析大作业

应用数理统计第一次大作业 学号: 姓名: 班级: 2013年12月

国家财政收入的多元线性回归模型 摘 要 本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程: 46?578.4790.1990.733y x x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。 关键词:多元线性回归,逐步回归法,财政收入,SPSS 0符号说明 变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6

进出口总额X7

1 引言 中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理 本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上

最新北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为

北航2015级硕士研究生数理统计参考答案(B层)

2015-2016 学年 第一学期期末试卷 参考答案 学号 姓名 成绩 考试日期: 2016年1月15日 考试科目:《数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设12,,n x x x ,是来自正态总体2(0,)N σ的简单样本,则当c = 时,统计量2 21 () n k k x c x x η==-∑服从F -分布,其中1 1n k k x x n ==∑。((1)n n -) 2. 设12,,n x x x ,是来自两点分布(1,)B p 的简单样本,其中01p <<,2n ≥,则 当c = 时,统计量2?(1)cx x σ =-是参数()(1)q p p p =-的无偏估计,其中1 1n k k x x n ==∑。(1n n -) 3.设总体X 的密度函数为22 ,[0,] (;)0,[0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则θ的充分统计量是 。(()n x ) 4.设12,,n x x x ,是来自正态总体2(,)N μσ的简单样本,已知样本均值 4.25x =, μ的置信度为0.95的双侧置信区间下限为3.1,则μ的置信度为0.95的双侧置信区间为(,)。((3.1,5.4))

二、(本题12分)设12,,,n x x x 是来自正态总体2(1,2)N σ的简单样本。(1)求2σ的极大似然估计2σ;(2)求2σ的一致最小方差无偏估计;(3)问2σ的一致最小方差无偏估计是否为有效估计?证明你的结论。 解(1)似然函数为 2 2 2 1 1()exp{(1)}4n n i i L x σσ ==- -∑ 对数似然函数为 2 2 221 1ln ()(ln(4)ln )(1)24n i i n L x σπσσ==-+--∑ 求导,有 22 224 1 ln ()1(1)24n i i L n x σσσσ=?=-+-?∑ 令22 ln ()0L σσ?=?,可得θ的极大似然估计为2 21 1?(1)2n i i x n σ==-∑。 (2)因为 2 2 122 1 1(,,,;)exp{(1)}4n n n i i f x x x x σσ ==- -∑ 令2()n c σ=,()1h x =,22 1()4w σσ =- ,,由于2()w σ的值域(,0)-∞有内 点,由定理2.2.4知21(1)n i i T x ==-∑是完全充分统计量。而 2 221 1 ((1))(1)2n n i i i i E x E x n σ==-=-=∑∑ 因而2 2 11?(1)2n i i x n σ==-∑既是完全充分统计量21 (1)n i i T x ==-∑的函数,又是2σ的无偏估计,由定理2.2.5知2 21 1?(1)2n i i x n σ==-∑是2σ一致最小方差无偏估计。 (3)224112 ?()((1))4Var Var x n n σ σ=-=。因为

北航数值分析大作业第一题幂法与反幂法

《数值分析》计算实习题目 第一题: 1. 算法设计方案 (1)1λ,501λ和s λ的值。 1)首先通过幂法求出按模最大的特征值λt1,然后根据λt1进行原点平移求出另一特征值λt2,比较两值大小,数值小的为所求最小特征值λ1,数值大的为是所求最大特征值λ501。 2)使用反幂法求λs ,其中需要解线性方程组。因为A 为带状线性方程组,此处采用LU 分解法解带状方程组。 (2)与140k λλμλ-5011=+k 最接近的特征值λik 。 通过带有原点平移的反幂法求出与数k μ最接近的特征值 λik 。 (3)2cond(A)和det A 。 1)1=n λλ2cond(A),其中1λ和n λ分别是按模最大和最小特征值。 2)利用步骤(1)中分解矩阵A 得出的LU 矩阵,L 为单位下三角阵,U 为上三角阵,其中U 矩阵的主对角线元素之积即为det A 。 由于A 的元素零元素较多,为节省储存量,将A 的元素存为6×501的数组中,程序中采用get_an_element()函数来从小数组中取出A 中的元素。 2.全部源程序 #include #include void init_a();//初始化A double get_an_element(int,int);//取A 中的元素函数 double powermethod(double);//原点平移的幂法 double inversepowermethod(double);//原点平移的反幂法 int presolve(double);//三角LU 分解 int solve(double [],double []);//解方程组 int max(int,int); int min(int,int); double (*u)[502]=new double[502][502];//上三角U 数组 double (*l)[502]=new double[502][502];//单位下三角L 数组 double a[6][502];//矩阵A int main() { int i,k; double lambdat1,lambdat2,lambda1,lambda501,lambdas,mu[40],det;

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

北航数值分析报告第三次大作业

数值分析第三次大作业 一、算法的设计方案: (一)、总体方案设计: x y当作已知量代入题目给定的非线性方程组,求(1)解非线性方程组。将给定的(,) i i

得与(,)i i x y 相对应的数组t[i][j],u[i][j]。 (2)分片二次代数插值。通过分片二次代数插值运算,得到与数组t[11][21],u[11][21]]对应的数组z[11][21],得到二元函数z=(,)i i f x y 。 (3)曲面拟合。利用x[i],y[j],z[11][21]建立二维函数表,再根据精度的要求选择适当k 值,并得到曲面拟合的系数矩阵C[r][s]。 (4)观察和(,)i i p x y 的逼近效果。观察逼近效果只需要重复上面(1)和(2)的过程,得到与新的插值节点(,)i i x y 对应的(,)i i f x y ,再与对应的(,)i i p x y 比较即可,这里求解 (,)i i p x y 可以直接使用(3)中的C[r][s]和k 。 (二)具体算法设计: (1)解非线性方程组 牛顿法解方程组()0F x =的解* x ,可采用如下算法: 1)在* x 附近选取(0) x D ∈,给定精度水平0ε>和最大迭代次数M 。 2)对于0,1, k M =执行 ① 计算() ()k F x 和()()k F x '。 ② 求解关于() k x ?的线性方程组 () ()()()()k k k F x x F x '?=- ③ 若() () k k x x ε∞∞ ?≤,则取*()k x x ≈,并停止计算;否则转④。 ④ 计算(1) ()()k k k x x x +=+?。 ⑤ 若k M <,则继续,否则,输出M 次迭代不成功的信息,并停止计算。 (2)分片双二次插值 给定已知数表以及需要插值的节点,进行分片二次插值的算法: 设已知数表中的点为: 00(0,1,,) (0,1,,)i j x x ih i n y y j j m τ=+=???=+=?? ,需要插值的节点为(,)x y 。 1) 根据(,)x y 选择插值节点(,)i j x y : 若12h x x ≤+ 或12 n h x x ->-,插值节点对应取1i =或1i n =-,

北航数理统计聚类分析大作业

应用数理统计大作业(二) 部分省市经济类型的聚类和判别分析 学院:学号:姓名:班级: 机械工程及自动化学院 SY1007??? XXXXX 51班 2011年1月7日

目录 摘要 (1) 符号说明 (1) 0 引言 (1) 1 源数据的提取 (1) 2 聚类分析过程 (2) 2.1 基本概念 (2) 2.2 聚类分析过程 (2) 2.3判别分析 (5) 2.4分类结果分析 (7) 3 结论 (7) 参考文献 (8)

部分省市经济类型的聚类和判别分析 摘要 一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件SPSS,对北京市等13省市2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,得出了分类结果,分类结果和我们的直观判断相吻合。本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。 关键词:经济类型,聚类分析,判别分析,SPSS 符号说明 符号说明 X1 地区生产总值 X2职工人均工资 X3第一产业在国民生产总值中占的比重 X4第二产业在国民生产总值中占的比重 X5第三产业在国民生产总值中占的比重0 引言 随着中国经济迅速发展,各个省市自治区的经济呈现出各自不同的发展态势。通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关,本文利用功能强大的统计软件SPSS,对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,结果北京市和天津市属于一类,河北省、浙江省和河南省属于一类,辽宁省、安徽省、湖南省、湖北省、四川省属于一类,江苏省、山东省、广东省属于一类,这个结果和我们的直观判断一致。这个结果也充分说明了本文进行的分析是合理的,具有一定的科学性。 1 源数据的提取 本文所用的数据全来自2009年出版的《中国统计年鉴》,从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、

北航数理统计期末考试题

材料学院研究生会 学术部 2011年12月 2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 总离差平方和 试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

北航数值分析大作业第二题精解

目标:使用带双步位移的QR 分解法求矩阵10*10[]ij A a =的全部特征值,并对其中的每一个实特征值求相应的特征向量。已知:sin(0.50.2)() 1.5cos( 1.2)(){i j i j ij i j i j a +≠+== (i,j=1,2, (10) 算法: 以上是程序运作的逻辑,其中具体的函数的算法,大部分都是数值分析课本上的逻辑,在这里特别写出矩阵A 的实特征值对应的一个特征向量的求法: ()[]()() []()[]()111111I 00000 i n n n B A I gause i n Q A I u Bu u λλ-?-?-=-?-?? ?-=????→=??????→= ?? ? 选主元的消元 检查知无重特征值 由于=0i A I λ- ,因此在经过选主元的高斯消元以后,i A I λ- 即B 的最后一行必然为零,左上方变 为n-1阶单位矩阵[]()()11I n n -?-,右上方变为n-1阶向量[]()11n Q ?-,然后令n u 1=-,则 ()1,2,,1j j u Q j n ==???-。

这样即求出所有A所有实特征值对应的一个特征向量。 #include #include #include #define N 10 #define E 1.0e-12 #define MAX 10000 //以下是符号函数 double sgn(double a) { double z; if(a>E) z=1; else z=-1; return z; } //以下是矩阵的拟三角分解 void nishangsanjiaodiv(double A[N][N]) { int i,j,k; int m=0; double d,c,h,t; double u[N],p[N],q[N],w[N]; for(i=0;i

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解:1?σ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ .

数理统计第二次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析 学号:姓名: 摘要:本文运用统计学方法,基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区,对更好地进行统筹规划,促进各地区经济健康协调发展有积极意义。 对各地区的经济发展状况进行的聚类和判别分析结果显示,北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等中部省份处于中游,属于中等发达地区;而位于我国西部的西藏﹑青海﹑宁夏等省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。 关键词:地区生产总值,地区经济发展, SPSS,聚类分析,判别分析 1.引言 国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。 地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。 本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。 2.地区经济发展的聚类和判别分析 分地区生产总值主要包括的内容有: (1)第一产业: 包括农、林、牧、渔业。 (2)第二产业: 包括工业及建筑业。 (3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融 业、房地产业及其他产业。 (一)相关自变量的选择 本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐

北航数值分析大作业第二题

数值分析第二次大作业 史立峰 SY1505327

一、 方案 (1)利用循环结构将sin(0.50.2)() 1.5cos( 1.2)() {i j i j ij i j i j a +≠+==(i,j=1,2,……,10)进行赋值,得到需要变换的 矩阵A ; (2)然后,对矩阵A 利用Householder 矩阵进行相似变换,把A 化为上三角矩阵A (n-1)。 对A 拟上三角化,得到拟上三角矩阵A (n-1),具体算法如下: 记A(1)=A ,并记A(r)的第r 列至第n 列的元素为()n r r j n i a r ij ,,1,;,,2,1) ( +==。 对于2,,2,1-=n r 执行 1. 若 ()n r r i a r ir ,,3,2) ( ++=全为零,则令A(r+1) =A(r),转5;否则转2。 2. 计算 () ∑+== n r i r ir r a d 1 2 )( ()( )r r r r r r r r r r d c a d a c ==-=++则取,0sgn ) (,1)(,1若 )(,12r r r r r r a c c h +-= 3. 令 () n T r nr r r r r r r r r R a a c a u ∈-=++) ()(,2)(,1,,,,0,,0 。 4. 计算 r r T r r h u A p /)(= r r r r h u A q /)(= r r T r r h u p t /= r r r r u t q -=ω T r r T r r r r p u u A A --=+ω)()1( 5. 继续。 (3)使用带双步位移的QR 方法计算矩阵A (n-1)的全部特征值,也是A 的全部特征值,具体算法如下: 1. 给定精度水平0>ε和迭代最大次数L 。 2. 记n n ij n a A A ?-==][) 1()1()1(,令n m k ==,1。

北航数值分析报告大作业第八题

北京航空航天大学 数值分析大作业八 学院名称自动化 专业方向控制工程 学号 学生姓名许阳 教师孙玉泉 日期2014 年11月26 日

一.题目 关于x , y , t , u , v , w 的方程组(A.3) ???? ?? ?=-+++=-+++=-+++=-+++79 .0sin 5.074.3cos 5.007.1cos sin 5.067.2cos 5.0y w v u t x w v u t y w v u t x w v u t (A.3) 以及关于z , t , u 的二维数表(见表A-1)确定了一个二元函数z =f (x , y )。 表A-1 二维数表 t z u 0 0.4 0.8 1.2 1.6 2 0 -0.5 -0.34 0.14 0.94 2.06 3.5 0.2 -0.42 -0.5 -0.26 0.3 1.18 2.38 0.4 -0.18 -0.5 -0.5 -0.18 0.46 1.42 0.6 0.22 -0.34 -0.58 -0.5 -0.1 0.62 0.8 0.78 -0.02 -0.5 -0.66 -0.5 -0.02 1.0 1.5 0.46 -0.26 -0.66 -0.74 -0.5 1. 试用数值方法求出f (x , y ) 在区域}5.15.0,8.00|), {≤≤≤≤=y x y x D (上的近似表达式 ∑∑===k i k j s r rs y x c y x p 00 ),( 要求p (x , y )以最小的k 值达到以下的精度 ∑∑==-≤-=10020 7210)],(),([i j i i i i y x p y x f σ 其中j y i x i i 05.05.0,08.0+==。 2. 计算),(),,(* ***j i j i y x p y x f (i =1,2,…,8 ; j =1,2,…,5) 的值,以观察p (x , y ) 逼 近f (x , y )的效果,其中j y i x j i 2.05.0,1.0**+==。

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月7日

摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式: εββββ++++=m m x x x y 22110 2,0σεε==D E (2.1) 其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

北航数值分析课程第一次大作业讲解

《数值分析A》计算实习题目第一题 一.算法设计方案: 1.矩阵A的存储与检索 将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的,所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是: A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1,λ501,λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs; 如果λmax>0,则λ501=λmax;如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法(mifa()函数),令平移量p=λmax,求出对应的按摸最大的特征值λ,max, 如果λmax>0,则λ1=λ,max+p;如果λmax<0,则λ501=λ,max+p。 3.求解A的与数μk=λ1+k(λ501-λ1)/40的最接近的特征值λik (k=1,2,…,39)。 使用带原点平移的反幂法,令平移量p=μk,即可求出与μk最接近的特征值λik。 4.求解A的(谱范数)条件数cond(A)2和行列式d etA。 ①cond(A)2=|λ1/λn|,其中λ1和λn分别是矩阵A的模最大和最小特征值。 ②矩阵A的行列式可先对矩阵A进行LU分解后,detA等于U所有

对角线上元素的乘积。 二.源程序(VS2010环境下,C++语言) #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

相关主题
文本预览
相关文档 最新文档