应用多元统计分析第六章习题解答
- 格式:ppt
- 大小:292.00 KB
- 文档页数:38
2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=的子向量的概率分布,其概率密度函数的维数小于p 。
2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。
解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。
2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=--其中1ax b ≤≤,2c x d ≤≤。
求(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数;(3)判断1X 和2X 是否相互独立。
(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;112121222[()()()()2()()]()()()dx cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()dd c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰ 121222202()()2[()2()]()()()()dd c c d c x a x b a t x a t dt b a d c b a d c ------=+----⎰ 2212122222()()[()2()]1()()()()d cdc d c x a x b a t x a t b a d c b a d c b a------=+=----- 所以 由于1X 服从均匀分布,则均值为2b a+,方差为()212b a -。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
主成分分析6.1 试述主成分分析的基本思想。
答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。
当第一个组合不能提取止。
这就是主成分分析的基本思想。
6.2 主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。
以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”6.3 简述主成分分析中累积贡献率的具体含义。
答:主成分分析把p 个原始变量12,,,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。
这里我们()m p <个主成分,则称11pmm kkk k ψλλ===∑∑ 为主成分1,,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,,,p X X X 的能力。
通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。
答:这个说法是正确的。
即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。
从协方差矩阵出发的,其结果受变量单位的影响。
主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。
实际表明,这种差异有时很大。
我6.6 已知X =()’的协差阵为 试进行主成分分析。
解:=0计算得当时,同理,计算得时,易知相互正交单位化向量得,,综上所述,第一主成分为第二主成分为第三主成分为6.7 设X=()’的协方差阵(p为, 0<p<1证明:为最大特征根,其对应的主成分为。
证明:==,为最大特征根当时,=所以,6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度函数的维数小于p 。
2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。
解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。
2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=--其中1ax b ≤≤,2c x d ≤≤。
求(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数;(3)判断1X 和2X 是否相互独立。
(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;112121222[()()()()2()()]()()()dx cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()dd c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰ 121222202()()2[()2()]()()()()dd c c d c x a x b a t x a t dt b a d c b a d c ------=+----⎰ 2212122222()()[()2()]1()()()()d cdc d c x a x b a t x a t b a d c b a d c b a------=+=----- 所以 由于1X 服从均匀分布,则均值为2b a+,方差为()212b a -。
多元统计分析课后习题答案多元统计分析课后习题答案在学习多元统计分析时,课后习题是巩固所学知识的重要环节。
通过解答习题,我们可以进一步理解和应用统计学的概念和方法。
下面将给出一些多元统计分析课后习题的答案,希望能对大家的学习有所帮助。
1. 在多元统计分析中,什么是协方差矩阵?如何计算协方差矩阵?答:协方差矩阵是用来衡量多个随机变量之间的线性关系的矩阵。
它是一个对称矩阵,对角线上的元素是各个变量的方差,非对角线上的元素是两个变量之间的协方差。
计算协方差矩阵的方法是,首先计算每个变量的平均值,然后计算每个变量与其他变量的协方差。
最后将这些协方差按照矩阵的形式排列,即得到协方差矩阵。
2. 什么是主成分分析?主成分分析的步骤是什么?答:主成分分析是一种用于降维的统计方法,它可以将多个相关变量转化为一组无关的主成分。
主成分分析的目标是找到能够解释原始变量大部分方差的少数几个主成分。
主成分分析的步骤如下:(1) 标准化数据:将原始数据进行标准化处理,使得每个变量的均值为0,标准差为1。
(2) 计算协方差矩阵:根据标准化后的数据计算协方差矩阵。
(3) 计算特征值和特征向量:求解协方差矩阵的特征值和特征向量。
(4) 选择主成分:根据特征值的大小选择主成分,通常选择特征值较大的前几个主成分。
(5) 构造主成分:将选择的主成分与原始数据进行线性组合,得到新的主成分。
3. 什么是判别分析?判别分析的步骤是什么?答:判别分析是一种用于分类的统计方法,它通过寻找最佳的分类边界,将样本分为不同的类别。
判别分析的目标是找到能够最大程度地区分不同类别的线性组合。
判别分析的步骤如下:(1) 收集样本数据:首先收集包含已知类别的样本数据。
(2) 计算类均值向量:根据样本数据计算每个类别的均值向量。
(3) 计算类内离散度矩阵:根据样本数据计算每个类别的类内离散度矩阵。
(4) 计算类间离散度矩阵:根据样本数据计算类间离散度矩阵。
(5) 计算投影向量:根据类内离散度矩阵和类间离散度矩阵计算投影向量。
第6章多重共线性的情形及其处理思考与练习参考答案6.1 试举一个产生多重共线性的经济实例。
答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。
由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。
再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。
6.2多重共线性对回归参数的估计有何影响?答:1、完全共线性下参数估计量不存在;2、近似共线性下OLS估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义;5、模型的预测功能失效。
6.3 具有严重多重共线性的回归方程能不能用来做经济预测?答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。
但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。
6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系?答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。
当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。
6.5 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现?答:请参考第三次上机实验题——机场吞吐量的多元线性回归模型,注意利用二手数据很难避免多重共线性的出现,所以一般利用逐步回归和主成分回归消除多重共线性。
如果进行自己进行试验设计如正交试验设计,并收集数据,选择向量使设计矩阵X的列向量(即X1,X2,X p)不相关。
6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。