当前位置:文档之家› 第3章 国民收入分配统计分析

第3章 国民收入分配统计分析

多元统计分析课后习题解答_第四章

第四章判别分析 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X= 和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时,

D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果 它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构造一个“划分”,这个“划分”就构成了一个判别规则。 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是 1 和 2, 对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则 X ,D 2(X ,G 1)D 2(X ,G 2) X ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ??? ''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X)

多元统计分析第三章假设检验与方差分析

第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=

应用多元统计分析习题解答_朱建平_第七章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++++++ 1,2,,i p = 因子载荷阵为1112 121 2221212 (,,,)m m m p p pm a a a a a a A A A a a a ????? ?==?? ?? ?? ? ? A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了

多元统计分析课后习题解答_第四章知识讲解

第四章判别分析 4.1 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时, D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空 间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一 个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划 分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X , 要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2 (X ,G 2),则 X ,D 2 (X ,G 1) D 2(X ,G 2) X ,D 2(X ,G 1)> D 2 (X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ?? ?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为

03第三篇 多元统计分析作业题

第三篇 多元统计分析作业题 1 证明题 1)已知ψ==A X E X Z T T T ,这里用到关系1-ψ=E A 。以二变量为例证明: 12*-Λ=ψ=A X A X Z T T T 1)(-=T T A X 。 式中X 为标准化原始变量矩阵,A 为载荷矩阵,Z 为非标准化主成分得分,Z *为标准化的因子得分,E 为单位化特征向量构成的矩阵即正交矩阵,Ψ为特征根的平方根的倒数构成的对角阵,Λ为特征根构成的对角阵,对于二变量有 ?????? ??=ψ21 /10 /1λλ, ?? ? ???=Λ21 00λλ. 2)对于二变量因子模型,我们有 ?? ?++=++=222221122 112211111εεu f a f a x u f a f a x . 试以 x 1为例证明1 2 22==+j x j j u h σ ,这里∑== p k kj j a h 1 2 22 21 211a a +=。 2 计算题 1)现有一组古生物腕足动物贝壳标本的两个变量:长度x 1和宽度x 2。所测数据如下(表2.1)。 要求: ① 利用Excel 对数据进行主成分分析。 ② 借助SPSS 对该数据进行主成分分析,并计算结果与Excel 的计算结果进行对比,理解各个表格所给参数的含义。 ③ 用本例数据验证证明题?的推导结果。 表2.1 古生物腕足动物贝壳标本数据 样品编号 长度x 1 宽度x 2 样品编号 长度x 1 宽度x 2 1 3 2 14 12 10 2 4 10 15 12 11 3 6 5 16 13 6 4 6 8 17 13 14 5 6 10 18 13 15 6 7 2 19 13 17 7 7 13 20 14 7 8 8 9 21 15 13 9 9 5 22 17 13

多元统计分析-第三章 多元正态分布

第三章 多元正态分布 多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。 第一节 一元统计分析中的有关概念 多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。 一、随机变量及概率分布函数 (一)随机变量 随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。 (二)随机变量的概率分布函数 随机变量X 的概率分布函数,简称为分布函数,其定义为: )()(x X P x F ≤= 随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。 1、离散型随机变量的概率分布 若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。 设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…, 记为 k k p x X P ==)((Λ,2,1=k ) 称k k p x X P ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。 离散型随机变量的概率分布具有两个性质: (1) 0≥k p ,Λ,2,1=k (2)11 =∑ ∞ =k k p 2、连续型随机变量的概率分布 若随机变量X 的分布函数可以表示为 dt t f x F x ?∞-=)()( 对一切R x ∈都成立,则称X 为连续型随机变量,称 )(x f 为X 的概率分布密度函数,简

应用多元统计分析习题解答 第七章讲解学习

应用多元统计分析习题解答第七章

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++++ ++ 1,2,,i p = 因子载荷阵为1112 12122 21212(,,,)m m m p p pm a a a a a a A A A a a a ??????==????????A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1Cov(,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a

最新多元统计分析第三章 假设检验与方差分析

多元统计分析第三章假设检验与方差分析

第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=

多元统计分析讲义(第四章)

Equation Chapter 1 Section 1 Array《多元统计分析》 Multivariate Statistical Analysis ; ^ ) 主讲:统计学院许启发() 统计学院应用统计学教研室 School of Statistics 2004年9月

第三章 主成分分析 【教学目的】 1.让学生了解主成分分析的背景、基本思想; 2.掌握主成分分析的基本原理与方法; 3.掌握主成分分析的操作步骤和基本过程; 4.] 5.学会应用主成分分析解决实际问题。 【教学重点】 1.主成分分析的几何意义; 2.主成分分析的基本原理。 §1 概述 一、什么是主成分分析 1.研究背景 在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。本章主要介绍主成分分析。 主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。 > 概括地说,主成分分析(principal component analysis )就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。主成分概念最早是由Karl Parson 于1901年引进的,1933年Hotelling 把这个概念推广到随机向量。在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归可克服多重共线性。 2.基本思想及意义 哲学理念:抓住问题的主要矛盾。 主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这p 个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择 如果将选取的第一个线性组合即第一个综合指标记为1F ,希望它能尽可能多地反映原来指标的信息,即1()Var F 越大,1F 所包含的原指标信息①就越多,1F 的方差应该最大,称1F 为第一主成分。 如果第一主成分1F 不足以代表原来p 个指标的信息,再考虑选取2F 即选择第二个线性组合。为了有效地反映原来的信息,1F 中已包含的信息,无须出现在2F 中,即12(,)0Cov F F ,称2F 为第二主成分。 仿此可以得到p 个主成分。 ① 度量信息最经典的方差是方差。

《应用多元统计分析》第七章因子分析实验报告.doc

《应用多元统计分析》第七章因子分析实验报告 第七章因子分析实验报告实验项目 名称 因子分析的上机实现 实验 目的及要求 SPSS 软件中 factor analysis的计算机操作及结果分析,使 学生能熟练应用计算机软件进行因子分析与结果分析,培养 实际应用能力。 实验 内容 对企业经济效益体系的 8 项指标建立因子分析模型(附表数据)。这 8 项指标分别为: x1- 固定资产利税率, x2- 资金利税率, x3- 销售收入利税率, x4- 资金利润率, x5- 固定资产利润

率, x6- 资金周转天数, x7- 万元产值能耗, x8- 全员劳动生产率。 在分析过程中,提取因子的方法为“主成分”法,并以数据的“相关阵”为分析矩阵,并且提取 3 个因子,采用“最大方差旋转法”进行因子旋转。 (1)则这 3 个因子的累积方差贡献率为多少? (2)请写出原始变量 x1 和 x2 的因子表达式; (3)所提取的 3 个公共因子分别在 8 个指标中的哪些指标上 有较大载荷?并据此说明所提取的公因子概括了企业的 何种能力? (4)分别写出因子得分表达式,并计算“大同”企业的综合因子得分。 实验步骤 实验环境

Windows xp 、Windows vista、Windows 7等,软件SPSS 11.0 版本及以上。 实验结果与 分析 1 .选择菜单项 Analyze → Data Reduction → Factor。, 2 .打开 Factor Analysis 对话框,将原始变量“固定资产利税率”到“全员劳动生产率”移入Variables列表框中。如下图。 3、单击点击 Extraction 按钮,打开 Extraction 子对话框,如错误!未找到引用源。,设置有关因子提取的选项。如果选 择相关系数矩阵,则表示首先对原始数据进行标准化,然后 再进行因子分析;如果选择协方差矩阵,则表示直接对原始 数据进行因子分析。这里我们选择默认的相关系数矩阵。因 子碎石图其实就是样本协差阵的特征根按大小顺序排列 的折线图,可以用来帮助确定提取多少个因子。提取的 3 个公共因子,所以我们在Mumber of factors中输入3即可。 4.点击 Rotation 按钮,打开 Rotation 子对话框,如图 7-4 ,设置有关因子旋转的选项。

第三章 多元统计分析(3)

第三章多元统计分析 §4 聚类分析 分类是人类认识世界的方式,也是管理世界的有效手段。在科学研究中非常重要,许多科学的研究都是从分类研究出发的。没有分类就没有效率;没有分类,这个世界就没有秩序。瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”——能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。由此可见分类成果的重要性。最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。本节主要讲述统计学意义的数字分类方法思想和过程。 1 聚类的分类 分类研究的成果的重要性决定了方法的重大实践意义。在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词……;英文还可以根据首字母分类:ABCD……;汉字则还可以根据笔划,如此等等。在生物学中,将生物划分为:界,门,纲,目,科,属,种。例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。如果发现了新的生物,就可以方便地将其归类。在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。 表3-3-1 各种生物在分类学上的位置举例 位置白菜虎 界植物界动物界 门种子植物门脊索动物门 亚门被子植物亚门脊椎动物亚门 纲双子叶植物纲哺乳动物纲 目十字花目食肉目 科十字花科猫科 属油菜属猫属 种白菜虎 当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。分类的方式也会影响工作的效率。书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。 早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。本节要讲述的就是根据多个指标进行数字分类的一种多元

多元统计分析应用 第四章课后习题

第四章判别分析 习题4.8 (1)根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 (2)现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味评分为8,信任度评分平均为5,试预测该饮料的销售情况。 将数据导入SPSS,分析得到以下结果: 1.典型判别函数的特征函数的特征值表 表1-1 特征值表 表1-1所示是典型判别函数的特征值表,只有两个判别函数,所以特征值只有2个。函数1的特征值为17.791,函数2的特征值为0.720,判别函数的特征值越大,说明函数越具有区别判断力。函数1方差的累积贡献率高达96.1%,且典型相关系数为0.973,而函数2方差的贡献率仅为3.9%,典型相关系数为0.647。由此,说明函数1的区别判断力比函数2的强,函数1更具有区别判断力。 2.Wilks检验结果 表1-2 Wilks 的Lambda 上表中判别函数1和判别函数2的Wilks’Lambda值为0.031,判别函数2的Wilks’Lambda值为0.581。“1到2”表示两个判别函数的平均数在三个类间的差异情况,P值=0.002<0.05表示差异达到显著水平“2”表示在排除了第一个判别函数后,第二个判别函数在三个组别间的差异情况,P值=0.197>0.05表示判别函数2未达到显著水平。 3.建立贝叶斯判别函数

表1-3 贝叶斯判别法函数系数 上表为贝叶斯判别函数的系数矩阵,用数学表达式表示各类的贝叶斯判别函数为: 第一组: F1=-81.843-11.689X1+12.97X2+16.761X3 第二组: F2=-94.536-10.707X1+13.361X2+17.086X3 第三组: F3=-17.499-2.194X1+4.960X2+6.447X3 将新品牌饮料样品的自变量值分别代入上述三个贝叶斯判别函数,得到三个函数值为: F1=65.271,F2=65.661,F3=47.884 比较三个值,可以看出F2=65.661最大,据此得出新品牌饮料样品应该属于第二组,即该饮料的销售情况为平销。 4.个案观察结果表 表1-4 个案观察结果表

应用多元统计分析课后答案 (2)

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

多元统计分析 第四章至第九章 课后题数据

4.8 某超市经销十种品牌饮料,其中四种畅销,三种平销,三种滞销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。 销售情况 产品序号 销售价格 口味评分 信任度评分 畅销 1 2. 2 5 8 2 2.5 6 7 3 3 3 9 4 3.2 8 6 平销 5 2.8 7 6 6 3.5 8 7 7 4. 8 9 8 滞销 8 1.7 3 4 9 2.2 4 2 10 2.7 4 3 (1) 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 (2) 现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。 4.9 银行的贷款部门需要判别每个客户的信用好坏(是否为履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(1X )、受教育程度(2X )、现在所从事工作的年数(3X )、未变更住址的年数(4X )、收入(5X )、负债收入比例(6X )、信用卡债务(7X )、其他债务(8X )等来判断其信用情况。下表是从银行的客户资料中抽取的部分数据,(1)根据样本资料分别用距离判别法、贝叶斯判别法和费希尔判别法建立判别函数和判别规则。(2)某客户的如上情况资料为(53,1,918,50,11.20,2.02,3.58),对其进行信用好坏的评。 目前信用好坏 客户序 号 X1 X2 X3 X4 X5 X6 X7 X8 已履行还贷责任 1 23 1 7 2 31 6.6 0.34 1.71 2 34 1 17 3 59 8 1.81 2.91 3 42 2 7 23 41 4.6 0.9 4 0.94 4 39 1 19 5 48 13.1 1.93 4.3 6 5 35 1 9 1 34 5 0.4 1.3 未履行还贷责任 6 3 7 1 1 3 24 15.1 1. 8 1.82 7 2 9 1 13 1 42 7.4 1.46 1.65 8 32 2 11 6 75 23.3 7.76 9.72 9 28 2 2 3 23 6.4 0.19 1.29 10 26 1 4 3 27 10.5 2.47 0.36 5.8 下表是15个上市公司2001年的一些主要财物指标,使用系统聚类法和K 均值法分别对这些公司进行聚类,并对结果进行比较分析。 公司编号 净资产收益率 每股 净利润 总资产周转率 资产负债率 流动负债比率 每股 净资产 净利润增长率 总资产增长率 1 11.09 0.21 0.05 96.98 70.53 1.86 -44.04 81.99 2 11.96 0.59 0.74 51.78 90.73 4.95 7.02 16.11

应用多元统计分析SAS作业第三章

3-8假定人体尺寸有这样的一般规律,身高(X 1),胸围(X 2)和上半臂围(X 3)的平均尺寸比例是6:4:1,假设()()1,,X n αα=L 为来自总体()123=,,X X X X '的随机样本,并设()~,X N μ∑。试利用表3.4中男婴这一数据来检验其身高、胸围和上半臂围这三个尺寸变量是否符合这一规律(写出假设H 0,并导出检验统计量)。 解:设32,~(,),~(,)Y CX X N Y N C C C μμ'=∑∑。 121231233106,,,,,014C X X X μμμμμμμ??-?? ? == ? ?-?? ? ??其中,分别为 的样本均值。则检验三个变量是否符合规律的假设为 0212:,:H C O H C O μμ=≠。 检验统计量为 2 1(1)1~(1,1) (3,6)(1)(1) n p F T F p n p p n n p ---+= --+==--, 由样本值计算得:=(82,60.2,14.5)X ',及 15840.2 2.5=40.215.86 6.552.5 6.559.5A ?? ? ? ??? , 2-1(1)()()()=47.1434T n n CX CAC CX ''=-,

221(1)12 =18.8574(1)(1)5 n p F T T n p ---+= ?=--, 对给定显著性水平=0.05α,利用软件SAS9.3进行检验时,首先计算p 值: p =P {F ≥18.8574}=0.0091948。 因为p 值=0.0091948<0.05,故否定0H ,即认为这组男婴数据与人类的一般规律不一致。在这种情况下,可能犯第一类错误·且犯第一类错误的概率为0.05。 SAS 程序及结果如下: prociml ; n=6;p=3; x={7860.616.5, 7658.112.5, 9263.214.5, 815914, 8160.815.5, 8459.514 }; m0={00,00}; c={10 -6,01 -4}; ln={[6]1}; x0=(ln*x)`/n; print x0; mm=i(6)-j(6,6,1)/n; a=x`*mm*x; a1=inv(c*a*c`); a2=c*x0; dd=a2`*a1*a2; d2=dd*(n-1); t2=n*d2; f=(n+1-p)*t2/((n-1)*(p-1)); print x0 a d2 t2 f; p0=1-probf(f,p-1,n-p+1); fa=finv(0.95,2,4); print p0; run ;

多元统计分析第四章至第九章课后题数据

某超市经销十种品牌饮料,其中四种畅销,三种平销,三种滞销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。 销售情况 产品序号 销售价格 口味评分 信任度评分 畅销 1 5 8 2 6 7 3 3 3 9 4 8 6 平销 5 7 6 6 8 7 7 9 8 滞销 8 3 4 9 4 2 10 4 3 (1) 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 (2) 现有一新品牌的饮料在该超市试销,其销售价格为,顾客对其口味的评分平均为8,信 任评分平均为5,试预测该饮料的销售情况。 银行的贷款部门需要判别每个客户的信用好坏(是否为履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(1X )、受教育程度(2X )、现在所从事工作的年数(3X )、未变更住址的年数(4X )、收入(5X )、负债收入比例(6X )、信用卡债务(7X )、其他债务(8X )等来判断其信用情况。下表是从银行的客户资料中抽取的部分数据,(1)根据样本资料分别用距离判别法、贝叶斯判别法和费希尔判别法建立判别函数和判别规则。(2)某客户的如上情况资料为(53,1,918,50,,,),对其进行信用好坏的评。 目前信用好坏 客户序 号 X1 X2 X3 X4 X5 X6 X7 X8 已履行还贷责任 1 23 1 7 2 31 2 34 1 17 3 59 8 3 42 2 7 23 41 4 39 1 19 5 48 5 35 1 9 1 34 5 未履行还贷责任 6 3 7 1 1 3 24 7 29 1 13 1 42 8 32 2 11 6 75 9 28 2 2 3 23 10 26 1 4 3 27 下表是15个上市公司2001年的一些主要财物指标,使用系统聚类法和K 均值法分别对这 些公司进行聚类,并对结果进行比较分析。 公司编号 净资产收益率 每股净利 总资产周转率 资产负债流动负债比率 每股净资净利润增长率 总资产增长率

多元统计分析-第三章 多元正态分布

第三章 多元正态分布 多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。 第一节 一元统计分析中的有关概念 多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。 一、随机变量及概率分布函数 (一)随机变量 随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。 (二)随机变量的概率分布函数 随机变量X 的概率分布函数,简称为分布函数,其定义为: )()(x X P x F ≤= 随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。 1、离散型随机变量的概率分布 若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。 设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p , …,记为 k k p x X P ==)(( ,2,1=k ) 称k k p x X P ==)(( ,2,1=k )为离散型随机变量X 的概率分布。 离散型随机变量的概率分布具有两个性质: (1) 0≥k p , ,2,1=k (2)11 =∑∞ =k k p 2、连续型随机变量的概率分布 若随机变量X 的分布函数可以表示为 dt t f x F x ?∞-=)()( 对一切R x ∈都成立,则称X 为连续型随机变量,称 )(x f 为X 的概率分布密度函数,简

(整理)多元统计分析各章的电子版数据

第二章数据

第三章数据 例3-1 X1 职工标准工资收入 X5 单位得到的其他收入 X2 职工奖金收入 X6 其他收入 X3 职工津贴收入 X7 性别 X4 其他工资性收入 X8 就业身份 X1 X2 X3 X4 X5 X6 X7 X8 540.00 0.0 0.0 0.0 0.0 6.00 男国有1137.00 125.00 96.00 0.0 109.00 812.00 女集体1236.00 300.00 270.00 0.0 102.00 318.00 女国有1008.00 0.0 96.00 0.0 86.0 246.00 男集体1723.00 419.00 400.00 0.0 122.00 312.00 男国有1080.00 569.00 147.00 156.00 210.00 318.00 男集体1326.00 0.0 300.00 0.0 148.00 312.00 女国有1110.00 110.00 96.00 0.0 80.00 193.00 女集体1012.00 88.00 298.00 0.0 79.00 278.00 女国有1209.00 102.00 179.00 67.00 198.00 514.00 男集体1101.00 215.00 201.00 39.00 146.00 477.00 男集体 例3-3 English Norwegian Danish Dutch German French One En en een ein un Two To to twee zwei deux Three Tre tre drie drei trois Four Fire fire vier vier quatre Five Fem fem vijf funf einq Six Seks seks zes sechs six seven Sju syv zeven siebcn sept Eight Ate otte acht acht huit Nine Ni ni negen neun neuf Ten Ti ti tien zehn dix Spanish Italian Polish Hungarian Finnish Uno uno jeden egy yksi Dos due dwa ketto kaksi Tres tre trzy harom kolme cuatro quattro cztery negy neua Cinco cinque piec ot viisi Seix sei szesc hat kuusi Siete sette siedem het seitseman Ocho otto osiem nyolc kahdeksau nueve nove dziewiec kilenc yhdeksan Diez dieci dziesiec tiz kymmenen

应用多元统计分析习题解答第七章

第七章因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、 简化数据的技术。② 两种分析的求解过程是类似的, 都是从一个协方差阵出发,利用特征值、特征向量求解。因 子分析可以说是主成分分析的姐妹篇, 将主成分分析向前推进一步便导致因子分析。 因子分 析也可以说成是主成分分析的逆问题。 如果说主成分分析是将原指标综合、 归纳,那么因子 分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标 变换到变异程度大的方向上为止, 突出数据变异的方向, 归纳重要信息。而因子分析是从显 在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因 子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量, 通过具体指标测评抽象因子的统计分析方 法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子 分析可以用于分类。如用考试分数将学生的学习状况予以分类; 用空气中各种成分的比例对 空气的优劣予以分类等等②因子分析可以用于探索潜在因素。 即是探索未能观察的或不能观 测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。 在社会调查 分析中十分常用。③因子分析的另一个作用是用于时空分解。 如研究几个不同地点的不同日 期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判 断各自的影响和变化规律。 7.3 简述因子模型、一 m 卜中载荷矩阵A 的统计意义。 答:对于因子模型 X i =a i 1F 1 - mF ? a j F j I" a m F m ? ;i i =1,2,Hl , p X i 与F j 的协方差为: m Cov(X i , F j ) =Cov(' a ik F k °F j ) k=i m = Cov(' a ik F k ,F j ) Cov(「F j ) k d = a ij 若对X i 作标准化处理,=a j ,因此a ij 一方面表示X i 对F j 的依赖程度;另一方面也反映了 变量X i 对公共因子F j 的相对重要性。 m 变量共同度h :a i2 i "2|||, p j 4 a ii 因子载荷阵为 a 2i III a 22 III a pi a p2 III III III III a im a 2m III a pm T A ,川,Am ) 一

相关主题
文本预览
相关文档 最新文档