数学软件试验三SAS结课论文
- 格式:doc
- 大小:144.00 KB
- 文档页数:9
实验三SAS描述统计分析对数据进行频数统计、计算特征统计量和将数据图形化的过程称为描述统计。
其目的是为了揭示数据的集中趋势、分散程度和数据分布形态,展示极端数据,最后做出说明现象本质的初步结论。
用图形对数据进行描述性统计分析具有直观、鲜明、形象、便捷等特点,在表达统计数据时可以给人留下深刻的印象。
统计图形的种类很多,利用SAS可以方便的绘制常用的统计图形。
3.1 实验目的掌握使用SAS对数据作描述性统计分析的方法。
掌握SAS/GRAPH所提供的常用图形功能,能用SAS的统计图形对数据进行描述性统计分析。
3.2 实验内容一、用INSIGHT计算统计量、绘制统计图形二、用“分析家”计算统计量、绘制统计图形三、编程实现描述性统计(MEANS、UNIVARIATE、FREQ过程)、编程绘制统计图(GPLOT 和GCHART过程)3.3 实验指导一、用INSIGHT计算统计量【实验3-1】按性别分别计算SASHELP.CLASS中身高的均值、标准差、中位数和其它四分位数,简单分析学生身高的状况。
1. 在INSIGHT中打开数据集在菜单中选择“Solution(解决方案)”→“Analysis(分析)”→“Interactive Data Analysis (交互式数据分析)”,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集:SASHELP.CLASS,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口,如图3-1左所示。
2. 用Distribution菜单项计算统计量(1) 选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。
在数据集CLASS的变量列表中,选择height,然后单击“Y”按钮,height被选为分析变量,选择sex,然后单击“Group”按钮,sex被选为分组变量,如图3-1右所示。
SAS论文完成东华理工大学南昌校区课程论文姓名:俞若舟学号:0932427学院:数信学院专业:统计学教师:鲁凌SAS软件的发展过程及特点摘要:SAS系统是美国SAS软件研究所的产品,功能强大,其经过大学计划起源到融入变化的世界,不断充实和发展。
我是学统计学专业的,统计实习需要处理大量数据,使用SAS等专业统计软件可以较好地完成这一任务。
同时SAS书库分析在企业数据调查与企业方案的制定中也发挥重要作用。
关键词: SAS软件起源发展过程设计思想功能特点 SAS数据挖掘技术的实现统计学作为我学院一个新兴的专业,其对学生运用各种统计方法解决实际问题具有重要的指导作用。
统计实习的一个重要任务是利用统计分析方法解决实际问题,而实际问题通常包含大量数据,单纯利用手工或计算器操作等传统的实习方式往往不可能完成大数据量统计任务,这就需要利用统计软件。
常用的软件有SAS、TSP、SPSS等。
SAS(StatisticalAnalysisSystem,统计分析系统)软件是世界上著名的统计分析软件之一。
在数据处理和统计分析领域,SAS软件被誉为国际上最权威的优秀统计软件包,广泛应用于各种领域,发挥着重要的作用。
SAS系统中提供的主要分析功能包括统计分析、决策分析、财务分析和全面质量管理工具等等。
SAS系统是美国SAS软件研究所的产品,功能强大,包括客户机与服务器的信息交换和计算、数据访问、数据存储和管理、数据报告和分析、质量控制和项目管理、计量经济学与预测等。
SAS基本上由四部分组成:SAS数据库部分由BASE SAS 模块构成,各模块之间既可相互独立又相互交融与补充。
SAS操作简单、使用灵活,其宗旨是为所有需要进行数据处理、数据分析的非计算机专业人员提供一种易学易用、完整可靠的软件系统,适用性强。
1.SAS软件的起源大学计划起源SAS软件最初是在二十世纪七十年代早期于北卡罗莱纳州立大学编写出来的,它是一个大学项目的附属内容,当时用来分析农业数据。
第一个问题:浦丰投针方法计算圆周率π:平面上画有间隔为d (d>0)的等距平行线,向平面任意投掷一枚长为l(l<d)的针,求针与任一平行线相交的概率。
解:以x 表示针的中点与最近一条平行线的距离,又以φ表示针与此直线间的交角,见图1。
易知样本空间Ω满足0≤x ≤d/2,0≤φ≤∏由这两式可以确定x — φ平面上的一个矩形Ω,这就是样本空间,其面积为S Ω=d ∏/2。
这时为了针与平行线相交(记为事件A),其充要条件是x ≤lsin 2φ 由这个不等式表示的区域是图2 中的体阴影区域图1 蒲丰投针问题 图2 浦丰投针问题中的Ω和A由于针是向这个平面任意投掷的,所以由等可能性知这是一个几何概率问题。
由此得sin 22()2A ld l p A d d SSφφΩ===⎰∏∏∏ 如果l ,d 为已知,则以∏的值代入上式即可计算得()p A 之值。
反之,如果已知()p A 的值,则也可以利用上式去求∏,而关于()p A 的值,可以从试验中获得的频率去近似它:即投针N 次,其中针与平行线相交n 次,则频率nN可作为()p A 的估计值,于是由 n N 2l≈p(A)=d π可得2lNdnπ≈这是一个颇为奇妙的方法:只要设计一个随机试验,使用过事件的概率与某个未知数有关,然后通过重复试验,以频率估计概率,即可求得未知数的近似解。
一般来说,试验次数越多,则求得的近似解就越精确。
随着电子计算机的出现,我们便可以利用计算机来大量地模拟所设计的随机试验。
以下我们利用sas 处理这一问题: 下表是从网上搜集的一组数据:设针长为l ,则求∏的近似式可化为:2M KNπ≈在SAS 程序编辑窗口输入如下程序:data pufeng;input M N K; /*M 为l/d 的值,N 为投针次数,K 为相交次数*/ pi=2*M*N/K; /*求圆周率pi*/wc=abs(3.14159-pi);/*计算所求结果与标准圆周率的误差*/ cards ;0.8 5000 2532 0.6 3204 1219 1.0 600 383 0.75 1030 489 0.83 3408 1801 0.54 2520 859 run ;proc print ; run ;运行之后得到如下结果:我们还可以利用sas 的interactive data analysis 画出以误差为纵坐标,以投针次数为横坐标的分析图如下:由此可见,概率论的方法有一定的随机性,在一定的范围之内,误差并非随着试验次数的增加而减小。
SAS结课论文关于全球平均气温的建模及分析摘要本文对1866年到2010年145年间的全球平均气温数据进行分析,最终建立全球平均气温随时间变化的数学模型,并对未来气温水平进行预测。
首先,整理数据(数据1)后用SAS软件做出全球平均气温随时间(为分析方便起见,本文将时间简化为从1开始的自然数序列)变化的时序图。
观察分析,发现时序图存在明显的长期趋势成分,用高斯迭代法拟合出全球平均气温时间序列中的长期趋势成分的数学模型。
然后,从原时间序列中剔除长期趋势成分,生成数据2(以下称剩余数据),对剩余数据作时间序列分析,并建立相应的时间序列模型。
最后,还原到原始数据,建立预案实施时间序列的数学模型,并对模型作出合理评价。
关键词:SAS软件时间序列分析长期趋势 MA模型一、问题的重述在全球变暖的大背景下,对全球平均气温变化情况的研究,显得非常有意义也有必要,在已知历史数据的情况下对全球平均气温的变化情况建立数学模型,并进行分析及预测。
二、模型假设1、已知的145个全球平气温数据可靠。
2、145个时间序列数据的随机波动项是白噪声序列。
3、短期之内全球平均气温不会发生较大波动。
三、符号说明四、分析及建模首先,做出原始数据的时序图,如图1图1 全球平均气温时序图由图1可知,该时间序列明显存在长期趋势成分。
第一步:长期趋势成分建模:经过多次尝试,得拟合长期成分的SAS程序如下:data t;set sasuser.t;n2=n**2;n3=n**3;n4=n**4;run;proc print data=t;run;proc nlin method=gauss;model t=a+b*n+c*n2+d*n3+e*n4;parameters a=10 b=0.01 c=-0.001 d=0 e=-0.01; der.a=1;der.b=n;der.c=n2;der.d=n3;der.e=n4;output predicted=th out=out;run;proc gplot data=out;plot t*n=1 th*n=2/overlay;symbol1c=red I=join v=star;symbol2c=black I=join v=star;run;输出结果如下:表1 拟合长期趋势成分输出结果图2 长期趋势成分的拟合效果由表1可知,整个模型的F 检验值为141.22,模型检验的P 值<0.0001<α=0.05,所以在0.05的显著水平下,模型效果显著。
sas实践总结与体会近年来,数据分析技术的快速发展使得企业在决策制定和业务流程优化方面有了更大的空间和机会。
作为一种高效、准确的统计分析软件,SAS已经在各个行业中得到广泛应用。
在我的工作中,我也有幸接触并实践了SAS,以下是我在实践中的总结与体会。
一、认识SASSAS,全称为Statistical Analysis System,是一套完整、一致且可重复的数据管理、报告和统计分析解决方案。
它以其强大的数据处理能力和灵活的算法设计而被广泛应用于商业、金融、医疗等领域。
在实践中,我发现SAS可以帮助我们实现数据的导入、清洗、转换、统计分析和可视化等操作。
同时,它还提供了丰富的统计模型和优化算法,使得我们能够更好地挖掘数据背后的规律和价值。
二、数据处理与分析1. 数据导入与清洗在实践中,我常常面临大量数据的导入和清洗工作。
SAS提供了多种导入数据的方式,比如直接读取Excel、CSV等格式的文件,或者通过ODBC连接数据库。
同时,通过使用SAS的数据处理函数和语句,我能够有效地进行数据的清洗和预处理,比如缺失值处理、异常值剔除等。
这些步骤为后续的统计分析奠定了良好的基础。
2. 统计分析与建模SAS以其丰富的统计分析功能而闻名。
在实践中,我常常使用SAS 进行描述性统计、假设检验、方差分析、回归分析等常见的统计分析任务。
此外,SAS还提供了多种机器学习算法和数据挖掘技术,比如聚类分析、决策树、支持向量机等,可以帮助我从数据中挖掘出更深层次的信息。
通过使用SAS进行统计分析,我能够更好地理解数据背后的规律,并从中得出有价值的结论。
3. 数据可视化与报告数据可视化是SAS的又一个强大功能。
在实践中,我经常使用SAS进行图表的绘制和报告的生成。
SAS提供了丰富的图表类型和样式,我可以根据需要选择最合适的图表形式,以直观和清晰的方式展示数据。
此外,SAS还支持将图表和分析结果导出为常见的图片格式或PDF文件,方便与他人分享和交流。
目录一摘要 0二基本介绍 (2)2.1、因子分析模型 (2)三数据预处理 (3)四计算结果及分析 (3)4.1、用“主成分法”求因子载荷阵 (3)4.2、因子旋转 (6)4.3、结果分析 (8)参考文献 (10)附录 (11)一 摘要本文选出2007年分地区城镇住户31个省的情况作为统计分析数据,其中分析的项目为:城镇居民家庭人均可支配收入(元);城镇居民家庭人均可支配收入指数(上年=100);城镇居民平均每人全年总收入(元);城镇居民家庭平均每人全年消费性支出(元);城镇居民家庭恩格尔系数(%。
依次用F2,F3,F4,F5,F6表示。
随着我国经济改革的深入, 城镇居民的收入不断提高, 生活消费随之增加。
但由于各地区经济发展不平衡, 消费差距较大。
要了解、比较各地区居民生活消费的特点和差距, 只是将各种生活消费金额简单相加是难以实现的, 况且各消费指标间还潜在着较强的相关性。
因此根据收集到的实际数据依据因子分析的原理步骤提取初始主因子,然后进行因子旋转,通过旋转后的因子载荷矩阵、三个因子得分及总因子得分对城镇的生活状况进行分析。
从而更清楚地了解、比较各地区居民的消费水平。
从以上结论分析可以知道影响分地区城镇住户主要指标,从而可以更好地帮助国家调整相关因素,使城镇地区的发展水平更加优越。
关键字:SAS 软件 因子分析 相关系数矩阵 相关系数矩阵的特征值二 基本介绍2.1 因子分析模型设有N 个样品(地区),每个样品有P 个指标:12X X P,,…,X ;综合指标记为:12m F m p F F ≤,,…,()它们是12X X P ,,…,X 的线性组合,称为公共因子或综合因子,在经济过程中起支配作用,代表经济效益的主要方面。
组合模型为:1111122122112222m11m22m P PP Pm P PF a X a X a X F a X a X a X F a X a X a X =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ (1) 模型(1) 要求满足:1、222121(1,2,,)k k kp a a a k m ++==,其中kj j=1,2P a (,,)表示第个单项指标权数。
sas实践总结与体会SAS 实践总结与体会在我的学习和工作经历中,我曾经有幸接触和应用过统计分析系统(SAS),并取得了一定的实践经验。
通过这次实践,我深刻认识到SAS在数据处理和分析中的重要性,并体会到了它的强大功能和广泛应用的优势。
在本文中,我将对我的SAS实践进行总结,并分享我个人的体会和感悟。
首先,我发现SAS工具在数据处理方面表现出色。
通过SAS,我能够对大规模的数据集进行高效的管理、清洗和转换。
SAS的数据步和过程步的结构清晰,语法简洁明了,使得我能够轻松地完成各种数据操作。
无论是数据的合并、拆分,还是变量的创建、删除,SAS都提供了丰富的函数和命令,帮助我实现了各种数据处理需求。
此外,SAS的数据格式处理功能也是其一大亮点,能够很好地支持各种行业和领域的数据格式,提供了更便捷的数据操作和分析工具。
其次,SAS在统计分析领域展现出了强大的能力。
通过SAS的统计分析过程,我可以方便地进行描述性统计、推断统计和建模分析。
SAS 提供了丰富的统计过程和算法,包括线性回归、逻辑回归、聚类分析等等,为我提供了多种多样的分析工具。
而且,SAS的输出结果也非常全面和准确,可以通过各种图表和报表形式直观地展示分析结果,帮助我更好地理解和解释数据。
在我的实践中,SAS在市场调研分析、风险评估和财务分析等方面都发挥了重要作用,为我提供了决策支持和问题解决的关键信息。
此外,SAS的数据可视化功能也是我深受启发的地方。
SAS提供了丰富的图形和可视化技术,使得我能够将复杂的数据和分析结果以直观、清晰的方式展示出来。
通过使用SAS的图表、地图和时间序列分析等功能,我可以更好地理解数据的内在规律和趋势,并将其传达给他人。
数据可视化不仅提高了沟通效果,还有助于更深入地洞察数据背后的故事,从而更好地引导决策和行动。
在我实践SAS的过程中,虽然遇到了一些挑战和困难,但最终获得了宝贵的经验和收获。
我的第一次尝试是通过官方文档和在线资源学习SAS的基本知识和技巧。
sas实践总结与体会SAS是一套用于数据分析与管理的软件,在各种企业、机构和学术界中广泛应用。
在实践中,我结合自己的经验,总结出了一些关于SAS使用的体会和总结,旨在帮助初次接触SAS的人士更好地理解并使用这一软件。
一、前期准备在运用SAS进行数据分析之前,需要进行一些基本的前期准备工作,包括建立可用的数据源并进行数据清洗、理解SAS语法并掌握SAS程序的编写与操作。
此外,还需要考虑项目的目标和数据分析的需求,并为此做出准备。
建立可用的数据源并进行数据清洗是一项至关重要的工作,如果数据不准确或存在缺失,则结果无法保证准确。
在数据清洗中,需要关注数据的格式、缺失值、异常值和重复等问题,并根据数据类型、范围和特征采取相应的清洗方法和策略。
理解SAS语法并掌握SAS程序的编写与操作是使用SAS的基础,要成功进行数据分析需要熟练运用SAS语言和工具。
需要熟悉SAS的各种操作和函数,掌握数据预处理、数据转换和模型建立等基本操作,以及熟悉宏、数组、循序操作和条件判断等高级编程技术。
二、数据预处理在进行数据分析之前,需要对数据进行预处理。
数据预处理是数据分析的第一步,可以清除无用信息,减小数据文件的体积,提高数据的质量,更好地适应数据分析需求。
常见的预处理方法包括数据缩放、数据标准化、缺失值处理和重采样等方法。
数据缩放是一种常见的数据预处理方法,用于将数据归一化到相同的尺度上,消除变量之间的量纲差异,方便后续的数据分析。
数据缩放的方法包括最小-最大缩放、标准化缩放和对数变换等方法,根据数据的特点和分析目标选择不同的方法进行缩放。
缺失值处理是另一种常用的预处理方法,用于处理数据中存在的缺失值。
常见的缺失值处理方法包括删除法、替换法、插补法和基于模型的方法,根据数据的特点和缺失值的特征选择相应的缺失值处理方法。
需要注意的是,缺失值处理可能会影响结果的准确性,因此需要在处理缺失值之前对数据进行充分的分析和理解。
三、模型建立在数据预处理之后,需要根据分析目的和数据特征选择适当的模型进行建立。
sas课程设计论文3000字一、教学目标本课程的教学目标是使学生掌握XX学科的基本知识,理解XX学科的基本概念和原理,提高学生的XX能力,培养学生的科学思维和探究精神。
具体分为以下三个部分:1.知识目标:学生能够掌握XX学科的基本知识和概念,了解XX学科的发展趋势,以及应用XX学科知识解决实际问题的能力。
2.技能目标:学生能够运用XX学科的基本方法进行科学探究,提高观察、分析、解决问题的能力,学会与他人合作交流,培养创新思维和实践能力。
3.情感态度价值观目标:学生能够形成对XX学科的积极态度,认识科学对社会发展的作用,树立正确的科学观,增强社会责任感。
二、教学内容本课程的教学内容主要包括XX学科的基本概念、原理和方法,以及XX学科在实际应用中的案例分析。
具体安排如下:1.教材:以《XX学科》教材为主,结合《XX学科案例分析》教材,系统地介绍XX学科的基本知识和应用。
2.章节安排:按照教材的结构,分为XX个章节,每个章节包含基本概念、原理讲解和案例分析。
3.教学内容:(1)基本概念:介绍XX学科的基本概念,如XX、XX、XX等。
(2)原理讲解:讲解XX学科的基本原理,如XX原理、XX定律等。
(3)案例分析:分析XX学科在实际应用中的案例,如XX案例、XX案例等。
三、教学方法为了提高教学效果,本课程将采用多种教学方法,包括讲授法、讨论法、案例分析法、实验法等。
具体应用如下:1.讲授法:教师通过讲解,系统地传授XX学科的基本知识和原理。
2.讨论法:学生分组讨论,深入探讨XX学科相关问题,培养学生的思考和表达能力。
3.案例分析法:分析XX学科在实际应用中的案例,帮助学生理解理论知识的实际意义。
4.实验法:学生进行实验,培养学生的动手能力,加深对XX学科知识的理解。
四、教学资源为了支持教学内容的实施和教学方法的应用,我们将准备以下教学资源:1.教材:《XX学科》、《XX学科案例分析》等教材。
2.参考书:提供相关的XX学科参考书籍,供学生自主学习。
实验报告实验项目名称SAS描述统计分析所属课程名称现代统计软件实验类型验证性实验实验日期2014-10-28班级学号姓名成绩实验报告说明1.实验项目名称:要用最简练的语言反映实验的内容。
要求与实验指导书中相一致。
2.实验类型:一般需说明是验证型实验还是设计型实验,是创新型实验还是综合型实验。
3.实验目的与要求:目的要明确,要抓住重点,符合实验指导书中的要求。
4.实验原理:简要说明本实验项目所涉及的理论知识。
5.实验环境:实验用的软硬件环境(配置)。
6.实验方案设计(思路、步骤和方法等):这是实验报告极其重要的内容。
概括整个实验过程。
对于操作型实验,要写明依据何种原理、操作方法进行实验,要写明需要经过哪几个步骤来实现其操作。
对于设计型和综合型实验,在上述内容基础上还应该画出流程图、设计思路和设计方法,再配以相应的文字说明。
对于创新型实验,还应注明其创新点、特色。
7.实验过程(实验中涉及的记录、数据、分析):写明上述实验方案的具体实施,包括实验过程中的记录、数据和相应的分析(原程序、程序运行结果、结果分析解释)。
8.结论(结果):即根据实验过程中所见到的现象和测得的数据,做出结论。
9.小结:对本次实验的心得体会、思考和建议。
10.指导教师评语及成绩:指导教师依据学生的实际报告内容,用简练语言给出本次实验报告的评价和价值。
注意:∙每次实验开始时,交上一次的实验报告。
∙实验报告文档命名规则:“实验序号”+“_”+ “班级”+“_”+“学号”+“姓名”+“_”+ “.doc”例如:管信11班的张军同学学号为:2011312299 本次实验为第2次实验即:实验二、SAS编程基础;则实验报告文件名应为:实验二_管信11 _2011312299_张军.doc 。
数学软件试验三SAS结课论文班级:信计C082 姓名:赵鑫学号:0730891.选择的问题阐述、分析、猜测:问题阐述:什么是影响农村居民家庭平均每人现金支出状况的最主要因素?问题分析:各地区农村居民家庭平均每人现金支出包括:期内现金支出、生产费用支出、家庭经营费用支出、农业生产支出、牧业生产支出、购买生产性固定资产支出、税费支出、生活消费现金支出、财产性支出、转移性支出。
问题猜测:影响各地区农村居民家庭平均每人现金支出的主要因素是期内现金现金支出、工资性现金支出、财产性现金支出和转移性现金支出;其次是家庭经营现金支出、农业现金支出和牧业现金支出,最后是林业现金支出和渔业现金支出。
2.获取数据的过程、整理数据后的结果:通过国家统计局网站获取的2009年各地区农村居民家庭平均每人现金支出状况,如下表:地区农村居民家庭平均每人现金支出(2009年上半年)单位:元期内现金生产税费生活财产性转移性地区支出费用家庭购买生支出消费支出支出支出经营农业牧业产性固现金费用生产生产定资产支出支出支出支出支出合计2631 777.4 678.2 348.3 231.3 99.2 3.4 1633.8 22.9 193.6北京5318.9 730.2 606.4 124.2 232.5 123.7 1.9 4093.2 23.5 470.2 天津3267.8 1242.8 1172.9 203.3 699.5 69.9 1.2 1896.1 6 121.6河北2289.6 779.6 725 362.7 226.2 54.6 3.1 1361.7 14.9 130.3 山西2080.9 500 441.3 254.4 126.3 58.7 0.7 1431.2 4 145.1 内蒙古3338.7 1426.9 1223.5 865.7 316.6 203.3 1.7 1617.3 52.2 240.6 辽宁3926.2 1671.2 1546.2 719.9 754.5 125 3.8 1803.7 38.7 408.9 吉林4517.7 2129.9 1836.9 1404.1 393.3 293.1 5.1 1741 202.9 438.7 黑龙江4424.6 2047 1812.2 1405 368.8 234.8 2.9 1699.1 301.8 373.9 上海5487.1 241.3 229.9 37.3 32.6 11.4 0.1 4616.7 1.4 627.6 江苏3412.9 632.1 561.8 236.1 137.5 70.3 12.8 2438.9 5.5 323.7 浙江5437.2 1320.2 1192.4 159.4 724.4 127.8 5.5 3587.7 23.7 500.1 安徽2390 554.9 490.7 297.2 116.7 64.2 6 1666.2 3 159.9 福建3026 626.4 566.8 251 208.1 59.6 0.7 2168.2 10.8 219.8 江西2199.8 680.6 591.7 339.7 160.4 89 4.5 1328 23.5 163.2 山东3060.9 969.5 842.4 423.3 314.6 127.1 5.7 1885.7 16.7 183.3 河南2163.8 583.9 523.9 237.1 228.8 60 0.6 1448.6 1.4 129.3湖北2222.2 677.5 601.9 266.8 195.9 75.6 3.9 1471.3 4.6 64.8 湖南2418.9 555.8 497.8 196.7 175.2 58 3.8 1587.9 2.8 268.5 广东2895.2 576.3 547.4 171.3 216.3 29 1.7 2155.6 9.5 152 广西1900.9 697.4 589.5 348.5 187.6 107.9 2.9 1125.6 1.6 73.6 海南1902.8 656.1 639.2 324.3 165.4 16.9 0.3 1187.2 2.1 57.1 重庆1773.4 449.1 406.3 188.7 172.8 42.8 2.5 1107.3 0.9 213.5 四川2514.5 612.8 533.5 178 270.7 79.3 6.1 1669.5 7 219.1 贵州1432.8 412.5 324.7 167.7 122.2 87.7 1.4 846.3 1 171.6 云南1837.1 623 532.9 277.2 185.6 90.1 1.5 1089.9 6.8 115.9 西藏1022.3 203.9 92.3 53.2 8.8 111.5 0.2 800.7 0.1 17.5 陕西2261.3 580.1 442.6 240.6 128.4 137.5 3.9 1496.8 4.6 175.9 甘肃1622.3 473.2 391.2 298.3 74.4 82 0.9 1068.2 4.3 75.7 青海1753.8 447.9 348 190.1 92.5 99.8 1.7 1196.5 7.4 100.3 宁夏2592.8 1029.8 870.5 406.2 359.3 159.3 0.2 1325.6 31.3 205.8 新疆2705 1444.4 1109.7 813.2 236.6 334.7 1 1126 44.4 89.23.结合原来的分析和猜测,分析现有数据,获得分析结果:一、基本介绍<1>研究目的:通过SAS 软件的分析,对各地区农村居民家庭平均每人现金支出的主要影响因素有一个大致的了解;有利于国家的宏观调控,从而可以促进全民经济更好的发展。
<2>采用方法:①描述统计量:MEANS②检验:使用INSIGHT 模块主成分分析。
<3>理论知识:①MEANS 过程(均值过程)用于对数值型变量产生针对单个变量的简单描述性统计.procmeans过程统计量参数缺省时输出N(样本数据)、Mean(数据平均值)、Std Dev(数据标准差)、Minimum(最小值)、Maximum(最大值)五种统计值,但means 过程可计算16 种统计量。
②主成份分析(Principal Components Analysis)是研究如何将多个变量指标间的问题化为较少的几个新指标问题。
这些新的指标是彼此既互不相关,又能综合反映原来多个指标的信息,是原来多个指标的线性组合。
多指标的主成份分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。
这种处理问题的方法就称为主成份分析或主分量分析,综合后的新指标则称为原来指标的主成份或主分量。
主分量分析还可用于揭示变量间的共线性。
二、数据预处理及具体模型:对于数据较少的程序可以用DA TA步创建永久SAS数据集。
永久SAS 数据集,由定义逻辑库与定义数据集两个步骤完成。
逻辑库定义通过LIBNAME 语句完成,数据集定义应用DA TA实现。
LIBNAME 语句语法格式:LIBNAME 逻辑库名称, 子目录路径' ;DA TA语句语法格式:DA TA逻辑库名.数据集名称;LIBNAME 语句把磁盘中的子目录与用户定义的逻辑库名连接起来。
用此种方法根据已知的数据就可以建立生成以下的数据集2.1 建成的数据集为:The SAS System 20:00 Tuesday, December 15, 2009Obs area x1 x2 x3 x4 x5 x6 x7 x8 x9 x101 北京5318.9 730.2 606.4 124.2 232.5 123.7 1.9 4093.2 23.5 470.22 天津3267.8 1242.8 1172.9 203.3 699.5 69.9 1.2 1896.1 6.0 121.63 河北2289.6 779.6 725.0 362.7 226.2 54.6 3.1 1361.7 14.9 130.34 山西2080.9 500.0 441.3 254.4 126.3 58.7 0.7 1431.2 4.0 145.15 内蒙古3338.7 1426.9 1223.5 865.7 316.6 203.3 1.7 1617.3 52.2 240.66 辽宁3926.2 1671.2 1546.2 719.9 754.5 125.0 3.8 1803.7 38.7 408.97 吉林4517.7 2129.9 1836.9 1404.1 393.3 293.1 5.1 1741.0 202.9 438.78 黑龙江4424.6 2047.0 1812.2 1405.0 368.8 234.8 2.9 1699.1 301.8 373.99 上海5487.1 241.3 229.9 37.3 32.6 11.4 0.1 4616.7 1.4 627.610 江苏3412.9 632.1 561.8 236.1 137.5 70.3 12.8 2438.9 5.5 323.711 浙江5437.2 1320.2 1192.4 159.4 724.4 127.8 5.5 3587.7 23.7 500.112 安徽2390.0 554.9 490.7 297.2 116.7 64.2 6.0 1666.2 3.0 159.913 福建3026.0 626.4 566.8 251.0 208.1 59.6 0.7 2168.2 10.8 219.814 江西2199.8 680.6 591.7 339.7 160.4 89.0 4.5 1328.0 23.5163.215 山东3060.9 969.5 842.4 423.3 314.6 127.1 5.7 1885.7 16.7 183.316 河南2163.8 583.9 523.9 237.1 228.8 60.0 0.6 1448.6 1.4 129.317 湖北2222.2 677.5 601.9 266.8 195.9 75.6 3.9 1471.3 4.6 64.818 湖南2418.9 555.8 497.8 196.7 175.2 58.0 3.8 1587.9 2.8 268.519 广东2895.2 576.3 547.4 171.3 216.3 29.0 1.7 2155.6 9.5 152.020 广西1900.9 697.4 589.5 348.5 187.6 107.9 2.9 1125.6 1.6 73.621 海南1902.8 656.1 639.2 324.3 165.4 16.9 0.3 1187.2 2.1 57.122 重庆1773.4 449.1 406.3 188.7 172.8 42.8 2.5 1107.3 0.9 213.523 四川2514.5 612.8 533.5 178.0 270.7 79.3 6.1 1669.5 7.0 219.124 贵州1432.8 412.5 324.7 167.7 122.2 87.7 1.4 846.3 1.0 171.625 云南1837.1 623.0 532.9 277.2 185.6 90.1 1.5 1089.9 6.8 115.926 西藏1022.3 203.9 92.3 53.2 8.8 111.5 0.2 800.7 0.1 17.527 陕西2261.3 580.1 442.6 240.6 128.4 137.5 3.9 1496.8 4.6 175.928 甘肃1622.3 473.2 391.2 298.3 74.4 82.0 0.9 1068.2 4.3 75.729 青海1753.8 447.9 348.0 190.1 92.5 99.8 1.7 1196.5 7.4 100.330 宁夏2592.8 1029.8 870.5 406.2 359.3 159.3 0.2 1325.6 31.3 205.831 新疆2705.0 1444.4 1109.7 813.2 236.6 334.7 1.0 1126.0 44.4 89.22.2、模型的具体程序:data data1;input area $ 1-6 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 ;cards;1 北京5318.9 730.2 606.4 124.2 232.5 123.7 1.9 4093.2 23.5 470.22 天津3267.8 1242.8 1172.9 203.3 699.5 69.9 1.2 1896.1 6.0 121.63 河北2289.6 779.6 725.0 362.7 226.2 54.6 3.1 1361.7 14.9 130.34 山西2080.9 500.0 441.3 254.4 126.3 58.7 0.7 1431.2 4.0 145.15 内蒙古3338.7 1426.9 1223.5 865.7 316.6 203.3 1.7 1617.3 52.2 240.66 辽宁3926.2 1671.2 1546.2 719.9 754.5 125.0 3.8 1803.7 38.7 408.97 吉林4517.7 2129.9 1836.9 1404.1 393.3 293.1 5.1 1741.0 202.9 438.78 黑龙江4424.6 2047.0 1812.2 1405.0 368.8 234.8 2.9 1699.1 301.8 373.99 上海5487.1 241.3 229.9 37.3 32.6 11.4 0.1 4616.7 1.4 627.610 江苏3412.9 632.1 561.8 236.1 137.5 70.3 12.8 2438.9 5.5 323.711 浙江5437.2 1320.2 1192.4 159.4 724.4 127.8 5.5 3587.7 23.7 500.112 安徽2390.0 554.9 490.7 297.2 116.7 64.2 6.0 1666.2 3.0 159.913 福建3026.0 626.4 566.8 251.0 208.1 59.6 0.7 2168.2 10.8 219.814 江西2199.8 680.6 591.7 339.7 160.4 89.0 4.5 1328.0 23.5 163.215 山东3060.9 969.5 842.4 423.3 314.6 127.1 5.7 1885.7 16.7 183.316 河南2163.8 583.9 523.9 237.1 228.8 60.0 0.6 1448.6 1.4 129.317 湖北2222.2 677.5 601.9 266.8 195.9 75.6 3.9 1471.3 4.6 64.818 湖南2418.9 555.8 497.8 196.7 175.2 58.0 3.8 1587.9 2.8 268.519 广东2895.2 576.3 547.4 171.3 216.3 29.0 1.7 2155.6 9.5 152.020 广西1900.9 697.4 589.5 348.5 187.6 107.9 2.9 1125.6 1.6 73.621 海南1902.8 656.1 639.2 324.3 165.4 16.9 0.3 1187.2 2.1 57.122 重庆1773.4 449.1 406.3 188.7 172.8 42.8 2.5 1107.3 0.9 213.523 四川2514.5 612.8 533.5 178.0 270.7 79.3 6.1 1669.5 7.0 219.124 贵州1432.8 412.5 324.7 167.7 122.2 87.7 1.4 846.3 1.0 171.625 云南1837.1 623.0 532.9 277.2 185.6 90.1 1.5 1089.9 6.8 115.926 西藏1022.3 203.9 92.3 53.2 8.8 111.5 0.2 800.7 0.1 17.527 陕西2261.3 580.1 442.6 240.6 128.4 137.5 3.9 1496.8 4.6 175.928 甘肃1622.3 473.2 391.2 298.3 74.4 82.0 0.9 1068.2 4.3 75.729 青海1753.8 447.9 348.0 190.1 92.5 99.8 1.7 1196.5 7.4 100.330 宁夏2592.8 1029.8 870.5 406.2 359.3 159.3 0.2 1325.6 31.3 205.831 新疆2705.0 1444.4 1109.7 813.2 236.6 334.7 1.0 1126.0 44.4 89.2run;proc print;run;三、运行结果及分析1. 使用INSIGHT 模块做主成分分析的步骤使用INSIGHT 模块做主成分分析的步骤如下:1) 在INSIGHT模块中打开数据集L.jjzb;选择菜单“Analyze”?“Multivariate(Y X)(多元分析)”,打开“Multivariate(Y X)”对话框;2) 将做主成分分析的变量x 1~x10为Y变量,将变量area 选为Label 变量。