统计学课后题
- 格式:doc
- 大小:38.50 KB
- 文档页数:11
第一章复习思考题与练习题:一、思考题1.统计的基本任务是什么?2.统计研究的基本方法有哪些?3.如何理解统计总体的基本特征。
4.试述统计总体和总体单位的关系。
5.标志与指标有何区别何联系。
二、判断题1、社会经济统计的研究对象是社会经济现象总体的各个方面。
()2、在全国工业普查中,全国企业数是统计总体,每个工业企业是总体单位。
()3、总体单位是标志的承担者,标志是依附于单位的。
()4、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。
()5、全面调查和非全面调查是根据调查结果所得的资料是否全面来划分的()。
三、单项选择题1、社会经济统计的研究对象是()。
A、抽象的数量关系B、社会经济现象的规律性C、社会经济现象的数量特征和数量关系D、社会经济统计认识过程的规律和方法2、某城市工业企业未安装设备普查,总体单位是()。
A、工业企业全部未安装设备B、工业企业每一台未安装设备C、每个工业企业的未安装设备D、每一个工业3、标志是说明总体单位特征的名称,标志有数量标志和品质标志,因此()。
A、标志值有两大类:品质标志值和数量标志值B、品质标志才有标志值C、数量标志才有标志值D、品质标志和数量标志都具有标志值4、统计规律性主要是通过运用下述方法经整理、分析后得出的结论()。
A、统计分组法B、大量观察法C、综合指标法D、统计推断法5、指标是说明总体特征的,标志是说明总体单位特征的,所以()。
A、标志和指标之间的关系是固定不变的B、标志和指标之间的关系是可以变化的C、标志和指标都是可以用数值表示的D、只有指标才可以用数值表示答案:二、 1.× 2.× 3.√ 4.× 5.×三、 1.C 2.B 3.C 4.B 5.B第三章一、复习思考题1.什么是平均指标?平均指标可以分为哪些种类?2.为什么说平均数反映了总体分布的集中趋势?3.为什么说简单算术平均数是加权算术平均数的特例?4.算术平均数的数学性质有哪些?5.众数和中位数分别有哪些特点?6.什么是标志变动度?标志变动度的作用是什么?7.标志变动度可分为哪些指标?它们分别是如何运用的?8.平均数与标志变动度为什么要结合运用?二、练习题(教材第四章P108课后习题答案)1.某村对该村居民月家庭收入进行调查,获取的资料如下:按月收入分组(元)村民户数(户)500~600 600~700 700~800 800~900 900以上20 30 35 25 10合计120 要求:试用次数权数计算该村居民平均月收入水平。
《统计学》课后题答案第一章导论一、选择题1.C2.A3.C4.C5.C6.B7.A8.D9.C 10.D 11.A 12.C 13.C 14.A 15.B 16.A 17.C 18.B 19.D 20.A 21.D 22. D23.B 24.C 25.A 26.A 27.A 28.B 29.A 30.D 31.C 32.A 33.B第二章数据的收集一、选择题1.A2.B3.A4.D5.B6.C7.D8.D9.D 10.C 11.C 12.A 13.D 14.D 15.C 16.A 17.D 18.C 19.B 20.B 21.A 22.B 23.C 24.A 25.B 26.B 27.A 28.B 29.C 30.C (A)二、判断题1.∨2.∨3.×4. ∨5. ×6. ×7. ∨8. ×9. ×10. ×第三章数据整理与显示一、选择题CABCD CBBAB BACBD DDBC第四章数据分布特征的测度一、选择题1.A2.C3.B4.C5.D6.D7.A8.B9.A 10.B 11.A 12.D 13.C 14.C 15.D 16.A 17.A 18.B 19.A 20.B 21.A 22.A 23.B 24.C 25.C 26.D 27.D 28.A 29.D 30.C 31.C 32.D二、判断题1. ×2. ∨3. ×4. ×5. ×6. ×7. ∨8. ×9. × 10. ∨ 11. ∨ 12. ×四、计算题1. 11399073.8954ki ii kii x fx f=====∑∑甲11.96σ===甲73.89100%100% 6.18%11.96x σν=⨯=⨯=甲73.8100%100%7.43%9.93x σν=⨯=⨯=乙甲的代表性强2. 10.2510.966ki ii kii x fx f====∑∑0.250.056σ==0.250.056100%100% 5.834%0.966xσν=⨯=⨯= 1114.534ki ii kii x fx f====∑∑10.1295σ==10.1295100%100% 2.857%4.534xσν=⨯=⨯=该教练的说法不成立。
1.判断题(把" √"或" Ⅹ"填在题后的括号里)(1)重复抽样的抽样误差一定大于不重复抽样的抽样误差。
(Ⅹ)(2)在抽样推断中,全及总体指标值是确定的、唯一的,而样本指标是一个随机变量。
(√)(3)在缺少总体方差的资料时,也可以用样本方差资料来代替,以计算抽样误差。
(√)(4)在其他条件不变的情况下,提高抽样估计的可靠程度,则降低了抽样估计的精确程度。
(√)(5)抽样估计的优良标准有三个:无偏性、可靠性和一致性。
(Ⅹ)(6)总体参数区间估计必须具备三个要素,即估计值、抽样误差范围和抽样误差的概率度。
(√)2.单选题(1)在抽样调查中,无法避免的误差是(D)A.登记性误差B.系统性误差C.极限误差D.随机误差(2)抽样调查所必须遵循的基本原则是(B)A.准确性原则B.随即原则C.可靠性原则D.灵活性原则。
(3)某工厂连续生产,在一天中每隔1h抽出10min的产品进行检验,这种抽查方式是(B)A.简单随机抽样B.等距抽样C.分层抽样D.整群抽样(4)在简单随机抽样条件下,当抽样平均误差缩小一半时,样本单位数应为原来的。
CA.2倍B.3倍C.4倍D.1/4倍(5)反映抽样指标与全及总体指标之间抽样误差的可能范围的指标是(C)A.概率度 B.抽样误差系数 C.抽样平均误差 D.抽样极限误差。
(6)在抽样推断中,样本容量(D)A.越少越好B.越多越好C.取决于统一的抽样比例D.取决于对抽样推断可靠性的要求3多选题(1)抽样法的基本特点有(ACDE)A.根据部分实际资料对全部总体的数量特征作出估计B.深入研究某些复杂的专门问题 C.按随机原则从全部总体中抽选样本单位 D.调查单位少,调查范围小,了解总体基本情况 E.抽样推断的抽样误差可以事先计算并加以控制(2)抽样估计中的抽样误差(ACE)A.是不可避免要产生的B.是可以通过改进调查方式来消除的C.是可以事先计算出来的D.是只能在调查结束后才能计算的E.其大小是可以控制的(3)在抽样推断中ABD)A.全及总体是唯一确定的B.总体参数只能有一个C.统计量是唯一确定的D.统计量是随机的E.总体参数是随机的(4)要增大抽样估计的置信程度,可采用的方法有(CE)A.增加样本容量B.缩小抽样误差范围C.扩大抽样误差范围D.提高估计精确度E.降低估计精确度(5)从总体中抽取样本单位的具体方法有(ABCD)A.简单随机抽样B.重复抽样C.不重复抽样D.等距抽样E.非概率抽样(6)抽样推断的组织形式有(CDEF)A.重复抽样B.不重复抽样C.随机抽样D.分层抽样E.等距抽样F.整群抽样4计算题(1)某灯泡厂1月份生产灯泡10万只,抽取1%。
第一章总论一、单项选择题1.威廉·配第是(B )的代表人物。
A.记述学派B.政治算术学派C.社会学派D.数理统计学派2.以下属于推断统计学研究范围的是(D)。
A.数据调查与收集B.数据的计算C.数据汇总D.抽样估计3.调查某企业职工的健康状况,总体单位是(D )。
A.这个企业B.所有的职工C.每个职工D.每个职工的健康状况4.数量指标表现为(C)。
A.相对数В.平均数C.绝对数D.变异数5.名义级数据可以用来(A )。
A.分类B.比较大小C.加减运算D.加、减、乘、除四则运算6.间距级数据之间不可以(D )。
A.比较是否相等B.比较大小C.进行加减运算D.进行乘除运算7.2个大学生的身高分别为165厘米、172厘米,则165、172是(D )。
A.2个变量B. 2 个标志C.2个指标D. 2个数据8.总体与总体单位的确定(A)。
A.与研究目的有关B.与研究目的无关C.与总体范围大小有关D.与研究方法有关9,通过有限数量的种子发芽试验结果来估计整批种子的发芽率,这种统计方法属于(A)。
A. f断统计学B.描述统计学C.数学D.逻辑学10.国势学派对统计学的主要贡献是(C)A.采用了数量分析方法B.引入了大数法则C.提出了“统计学"一词D.证明了小样本理论11.统计学是一门关于研究客观事物数量方面和数量关系的(C )。
A.社会科学B.自然科学C.方法论科学D.实质性科学12.数理统计学的奠基人是(C )。
A.威廉·配第B.阿亭瓦尔C.凯特勒D.恩格尔13.统计学研究的特点是(B)A.大量性、总体性、变异性B.数量性、总体性、变异性C.大量性、总体性、同质性D.数量性、总体性、同质性14.通过测量或计算取得其值的是(B)A.品质变量B.连续变量C.离散变量D.以上都不对15.统计学的创始人是(A)。
A.威廉·配第B.阿享瓦尔C.凯特勒D.恩格尔二、多项选择题1.“统计”一词有三层含义,即(BD)。
第三章统计数据的整理和显示习题二、单项选择题1.统计分组的关键问题是( A >A确定分组标志和划分各组界限 B确定组距和组数C确定组距和组中值 D确定全距和组距4.某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为(C >b5E2RGbCAP每个组上限与下限的中点值称为组中值,对于开口组的组限是按相邻组的组距来计算的,所以末组开口组的组中值=末组下限+邻组组限/2=200+<200-170)=230p1EanqFDPwA260 B 215 C 230 D 1855.下列分组中按品质标志分组的是( B >品质标志是说明事物的性质或属性特征的,它反映的是总体单位在性质上的差异,它不能用数值来表现。
A人口按年龄分组 B产品按质量优劣分组C企业按固定资产原值分组 D乡镇按工业产值分组6.对企业先按经济类型分组,再按企业规模分组,这样的分组,属于( C >A简单分组 B平行分组 C复合分组 D再分组7.用组中值代表各组内的一般水平的假定条件是( D > A各组的次数均相等 B各组的组距均相等C各组的变量值均相等 D各组次数在本组内呈均匀分布9.对某地区的全部商业企业按实现的销售额多少进行分组,这种分组属于( A >A变量分组 B属性分组 C分组体系 D复合分组10.在频数分布中,频率是指( C >A各组频数之比 B各组频率之比 C各组频数与总频数之比 D 各组频数与各组次数之比11.频数分布用来表明( A >A总体单位在各组的分布状况 B各组变量值构成情况C各组标志值分布情况 D各组变量值的变动程度12.在分组时,若有某单位的变量值正好等于相邻组的下限时,一般应将其归在( B >A上限所在组 B下限所在组C任意一组均可 D另设新组13.在编制组距数列时,当全距不变的情况下,组距与组数的关系是( B >A正例关系 B反比例关系 C乘积关系 D毫无关系14.统计表的宾词是用来说明总体特征的( C >A标志 B总体单位 C统计指标 D统计对象15.统计表的主词是统计表所要说明的对象,一般排在统计表的( A >A左方 B上端中部 C右方 D下方三、多项选择题1.统计分组的作用在于( BCD >A区分现象的类型 B反映现象总体的内部结构变化C比较现象间的一般水平 D分析现象的变化关系 E研究现象之间数量的依存关系2.指出下表表示的分布数列所属的类型(ABC >A品质数列 B变量数列 C分组数列 D异距数列 E等距数列3.指出下列分组哪些是品质分组( ABCD >A人口按性别分组 B企业按产值多少分组C家庭按收入水平分组 D在业人口按文化程度分组E宾馆按星级分组6.从形式上看,统计表由哪些部分构成(CDE>A总标题 B主词 C纵栏标题 D横行标题 E宾词7.按主词是否分组,统计表可分为( AC >A单一表 B简单表 C分组表 D复合表 E综合表9.统计数据整理的内容一般有( BCE >A对原始数据进行预处理 B对统计数据进行分组C 对统计数据进行汇总 D对统计数据进行分析E编制统计表、绘制统计图11.某单位100名职工按工资额分为300以下、300-400、400-600、600-800、800以上等五个组。
第1章导论1、某森林公园的一项研究试图确定哪些因素有利于成年松树长到60英尺以上的高度。
经估计,森林公园生长着25000颗成年松树,该研究需要从中随机抽取250颗成年松树并丈量它们的高度后进行分析。
该研究的总体是()A、250颗成年松树B、公园中25000颗成年松树C、所有高于60英尺的成年松树D、森林公园中所有年龄的松树2、某森林公园的一项研究试图确定成年松树的高度。
该研究需要从中随机抽取250颗成年松树并丈量它们的高度后进行分析。
该研究所感兴趣的变量是()A、森林公园中松树的年龄B、森林公园中松树的数量C、森林公园中松树的高度D、森林公园中数目的种类3、推断统计的主要功能是()A、应用总体的信息描述样本B、描述样本中包含的信息C、描述总体中包含的信息D、应用样本信息描述总体4、对高中生的一项抽样调查表明,85%的高中生愿意接受大学教育。
这一叙述是()的结果A、定性变量B、试验C、描述统计D、推断统计5、一名统计学专业的学生为了完成其统计学作业,在图书馆找到一本参考书中包含美国50个州的家庭收入中位数.在该生的作业中,他应该将此数据报告来源于()A、试验B、实际观察C、随机抽样D、已发表的资料6、某大公司的人力资源部主任需要研究公司雇员的饮食习惯.他注意到,雇员的午饭要么从家里带来,要么在公司餐厅就餐,要么在外面的餐馆就餐.该研究的目的是为了改善公司餐厅的现状。
这种数据的收集方式可以认为是()A、观察研究B、设计的试验C、随机抽样D、全面调查7、下列不属于描述统计问题的是()A、根据样本信息对总体进行的推断B、感兴趣的总体或样本C、图、表或其他数据汇总工具D、了解数据分布特征8、某大学的一位研究人员希望估计该大学一年级新生在教科书上的花费,为此,他观察了200名新生在教科书上的花费,发现他们每个学期平均在教科书上的花费是250元。
该研究人员感兴趣的总体是()A、该大学的所有学生 B、所有的大学生C、该大学所有的一年级新生D、样本中的200名新生9、某大学的一位研究人员希望估计该大学一年级新生在教科书上的花费,为此,他观察了200名新生在教科书上的花费,发现他们每个学期平均在教科书上的花费是250元。
统计学第一至四章答案第一章一、思考题1.统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
统计方法可分为描述统计和推断统计。
2.统计数据的分类:按计量尺度:分类数据、顺序数据和数值型数据按获取数据的方式:观测数据和实验数据按数据与时间的关系:截面数据和时间序列数据特点:分类数据各类别之间是平等的并列关系,各类别之间的顺序可以任意改变;顺序数据的分类是有序的;数值型数据说明的是现象的数量特征,是定量数据;观测数据是通过调查或观测而收集到的数据,是在没有对事物进行人为控制的条件下得到的;实验数据是在实验中控制实验对象而收集到的数据;截面数据也称静态数据,描述的是现象在某一时刻的变化情况;时间序列数据也称动态数据,描述的是现象随时间的变化情况。
3.对武昌分校的全体教师进行工资调查,那么全体教师就是总体,从中抽取五十名教师进行调查,这五十名教师的集合就是样本,全体教师工资的总体平均值和总体标准差等描述特征的数值就是参数,五十名教师工资的样本平均值和样本标准差等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说教师的工资。
4.有限总体:指总体的围能够明确确定,而且元素的数目是有限可数的。
例如:武昌分校10 级金融专业学生无限总体:指总体所包含的元素是无限的、不可数的。
例如:整个宇宙的星球5.变量可分为分类变量、顺序变量、数值型变量。
同时数值型变量可分为离散型变量和连续型变量。
6.离散型变量只能取有限个值,而且其取值都以整位数断开,可以一一列举,例如“产品数量” 、“企业数”。
连续型变量的取值指连续不断的,不能一一列举。
例如“温度” 、“年龄”。
二、练习题1.(1)数值型变量(2)分类变量(3)数值型变量(4)顺序变量(5)分类变量2.(1)这一研究的总体是IT 从业者,样本是从IT 从业者中抽取的1000 人,样本量是1000(2)“月收入”是数值型变量(3)“消费支付方式”是分类变量3.(1)这一研究的总体是所有的网上购物者(2)“消费者在网上购物的原因”是分类变量第二章一、思考题1:答:1: 普查的特点:①:普查通常是一次性的或周期性的;②:普查一般需要规定统一的调查时间;③:普查的数据一般比较准确;4:普查的使用围比较狭窄,只能调查一些最基本的、特定的现象。
第一章练习题一、单项选择题1.统计的含义有三种,其中的基础是()A.统计学B .统计方法 C.统计工作D .统计资料2. 对30名职工的工资收入进行调查,则总体单位是()A. 30名职工 C. 每一名职工 3. 下列属于品质标志的是()A. 某人的年龄 C. 某人的体重 4. 商业企业的职工人数,商品销售额是( A. 连续变量 C .前者是连续变量,后者是离散变量B. 30名职工的工资总额D. 每一名职工的工资B. 某人的性别D. 某人的收入)B •离散变量D .前者是离散变量,后者是连续变量5. 了解某地区工业企业职工的情况,下列哪个是统计指标( A .该地区每名职工的工资额C. 该地区职工的工资总额二、多项选择题 1. 社会经济统计的特点,可概括为( A .数量性 C.总体性 E. 社会性2. 统计学的研究方法是( A .大量观察法 C .统计模型法 E. 直接观察法3. 下列标志哪些属于品质标志( A.学生年龄B 教师职称4. 下列哪些属于离散型变量A 年龄B 机器台数C 人口数D 学生成绩5. 总体,总体单位,标志,指标这几个概念间的相互关系表现为(A. 没有总体单位就没有总体,总体单位也离不开总体而独立存在B. 总体单位是标志的承担者C. 统计指标的数值来源于标志D. 指标是说明统计总体特征的,标志是说明总体单位特征的E. 指标和标志都能用数值表现6. 指标和标志之间存在着变换关系,是指()A. 在同一研究目的下,指标和标志可以对调)B .该地区职工的文化程度D .该地区职工从事的工种 )B .同质性D .具体性 B .归纳推断法D .综合分析法)C 企业规模D 企业产值B.在研究目的发生变化时,指标有可能成为标志C.在研究目的发生变化时,标志有可能成为指标D.在不同研究目的下,指标和标志可以相互转化7.在说明和表现问题方面,正确的定义是()A.标志是说明总体单位特征的B.标志是说明统计总体特征的C.变异是可变的数量标志的差异D.变量是可变的数量标志E.标志值是变量的数量表现三、填空题1._____________________ 统计工作过程包括、、、四个阶段。
第二章均值向量和协方差阵的检验1、试谈willks统计量在多元方差分析中的重要意义。
2、形象分析的基本思路是什么?形象又称轮廓图,是将总体样本的均值绘制到同一坐标轴里所得的折线图,每一个指标都表示为折线图上的一点。
形象分析是将两(多)总体的形象绘制到同一个坐标下,根据形象(轮廓图)的形状对总体的均值进行比较分析。
第三章聚类分析1、聚类分析的基本思想和功能是什么?聚类分析的核心思想是根据具体的指标(变量)对所研究的个体或者对象进行分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强。
聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类。
对样品的分类常称为Q型聚类分析,对变量的分类常称为R型的聚类分析。
聚类分析的目的或功能就是把相似的研究对象归成类,即使类间对象的同质性最大化和类与类间对象的异质性最大化。
2、试述系统聚类法的原理和具体步骤(1)系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
(2)系统聚类的具体步骤:假设总共有N个样品(或变量)第一步:将每个样品(或变量)独自聚成一类,共有N类;第二步:根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其他的样品(或变量)仍各自聚为一类,共聚成N-1类;第三步:将“距离”最近的两个类进一步聚成一类,共聚成N-2类;。
,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。
3、试述K-均值聚类的方法原理这种聚类方法的思想是把每个样品聚集到其最近形心(均值)类中。
首先随机从数据集中选取 K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。
计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。
4、试述模糊聚类的思想方法模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法。
在模糊聚类中,每个样本不再仅属于某一类,而是以一定的隶属度属于每一类。
换句话说,通过模糊聚类分析,可得到样本属于各个类别的不确定性程度,即建立起了样本对于类别的不确定性的描述,这样就更能准确地反映现实世界。
第四章判别分析1、应用判别分析应该具备什么样的条件?判别分析最基本的要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上;解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。
2、试述贝叶斯判别法的思路思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。
将贝叶斯思想用于判别分析,就得到贝叶斯判别。
3、试述费歇判别方法的思想。
费歇判别的思想是投影,将K组P维数据投影到某一个方向,使得它们的投影组和组之间尽可能地分开。
4、什么是逐步判别分析凡具有筛选变量能力的判别方法统称为逐步判别法。
逐步判别法的基本思想是:逐步引入变量,每次引入一个"最重要"的变量,同时也检验先前引入的变量,如果先前引入的变量其判别能力随新引入变量而变不显著,则及时将其从判别式中剔除,直到判别式中的变量都很显著,且剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。
5、简要叙述判别分析的步骤及流程。
判别分析的6个步骤过程:(1)判别分析的对象:这一步骤主要根据判别分析的研究目的定义观测变量。
(2)判别分析的研究设计:主要包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割。
(3)假定:推导判别函数的关键假定是解释变量的多元正态性和被解释变量定义的各组的未知但相等的协方差结构。
(4)估计判别模型和评估整体拟合:研究者必须确定估计的方法,然后确定保留的函数个数;根据估计的函数可用多种方法来评估模型拟合。
(5)结果的解释:这个过程主要介绍在判别分析中每个解释变量的相对重要性,主要有标准化判别权重、判别载荷(结构相关系数)、偏F值三种方法确定重要性。
(6)结果的验证:通常采用分割样本或者交叉验证法。
判别分析的流程:研究问题>设计要点>假定>估计判别函数>使用分类矩阵估计预测的精度>判别函数的解释>判别结果的验证第五章主成分分析1、主成分的基本思想是什么在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。
这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。
基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。
主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。
既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。
一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:1.每一个主成分都是各原始变量的线性组合;2.主成分的数目大大少于原始变量的数目3.主成分保留了原始变量绝大多数信息4.各主成分之间互不相关通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。
2、主成分在应用中的主要作用是什么?设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
3、由协方差阵出发和由相关阵出发求主成分有什么不同?一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。
但是,对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。
对于取值范围相差不大或是度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。
其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为1,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。
由此看来,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。
第六章因子分析1、因子分析与主成分分析有什么本质不同?主成分分析和因子分析是两种把变量维数降低以便于描述、理解和分析的方法:实际上主成分分析可以说是因子分析的一个特例。
(1)因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。
(2)主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
(3)主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。
因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
(4)主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。
(5)在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。
在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。
(6)和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。
大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾于使用因子分析,并且借助旋转技术帮助更好解释。
而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。
当然,这中情况也可以使用因子得分做到。
所以这种区分不是绝对的。
2、因子载荷a ij的统计定义是什么?它在实际问题分析中的作用是什么?因子载荷a(ij)的统计意义就是第i个变量与第j个公共因子的相关系数即表示X(i)依赖F(j)的份量(比重)。
统计学术语称作权,心理学家将它叫做载荷,即表示第i个变量在第j个公共因子上的负荷,它反映了第i个变量在第j个公共因子上的相对重要性。
在因子分析中,通常只选其中m个(m<p主因子),即根据变量的相关选出第一主因子ƒ1,使其在各变量的公共因子方差中所占的方差贡献为最大,然后消去这个因子的影响,而从剩余的相关中,选出与之不相关的因子,使其在各个变量的剩余因子方差贡献中为最大,如此往复,直到各个变量公共因子方差被分解完毕为止。
第七章对应分析1、试述对应分析的思想方法及特点。
思想:对应分析又称为相应分析,也称R—Q分析。
是因子分子基础发展起来的一种多元统计分析方法。
它主要通过分析定性变量构成的列联表来揭示变量之间的关系。
当我们对同一观测数据施加R和Q型因子分析,并分别保留两个公共因子,则是对应分析的初步。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
特点:对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。