现代统计分析方法与应用(人大何晓群)第2章统计学基础回归资料
- 格式:ppt
- 大小:1.81 MB
- 文档页数:98
第一章回归分析概述1.2 回归分析与相关分析的联系与区别是什么?答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.第二章一元线性回归分析思考与练习参考答案2.1一元线性回归有哪些基本假定?答:假设1、解释变量X是确定性变量,Y是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(εi)=0 i=1,2, …,nVar (εi)=σ2i=1,2, …,nCov(εi,εj)=0 i≠j i,j= 1,2, …,n假设3、随机误差项ε与解释变量X之间不相关:Cov(X i, εi)=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布εi~N(0, σ2) i=1,2, …,n2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。
何晓群编著,《现代统计分析方法与应用》第三版,中国人民大学出版社,2012。
数据和部分程序下载第2章服装标准例程序利用R软件,运行如下R程序便可计算相应的条件均值和条件协方差矩阵:#均值向量m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1);m;#协方差矩阵sigma=matrix(c(29.66,6.51,1.85,9.36,10.34,6.51,30.53,25.54,3.54,19.53,1.85,25.54,39.86,2.23,20.70,9.36,3.54,2.23,7.03,5.21,10.34,19.53,20.70,5.21,27.36),5,5);sigma;#条件均值x5=85;m1=matrix(m[1:4,1],4,1)+matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%(x5-sigma[5,1]);m1;#条件协方差1(d[x1,x2,x3,x4|x5])d1=sigma[1:4,1:4]-matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%matrix(sigma[5,1:4],1,4);d1;#条件协方差2(d[x1,x2,x3|x4,x5])d2=d1[1:3,1:3]-matrix(d1[1:3,4]*d1[4,4]^(-1),3,1)%*%matrix(d1[4,1:3],1,3);d2;注:上面程序假定585X ,可以根据实际情况更改5X的值以计算相应的条件均值。
利用R软件,运行如下的R程序便可计算出偏相关系数:#均值向量m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1);m;#协方差矩阵sigma=matrix(c(29.66,6.51,1.85,9.36,10.34,6.51,30.53,25.54,3.54,19.53,1.85,25.54,39.86,2.23,20.70,9.36,3.54,2.23,7.03,5.21,10.34,19.53,20.70,5.21,27.36),5,5);sigma;#偏相关系数1(r[12.45])r1=d2[1,2]/sqrt(d2[1,1]*d2[2,2]); r1;#偏相关系数2(r[13.45])r2=d2[1,3]/sqrt(d2[1,1]*d2[3,3]); r2;#偏相关系数3(r[23.45])r3=d2[2,3]/sqrt(d2[2,2]*d2[3,3]); r3;第3章例3.1 某超市为了研究顾客对三种牌号的矿泉水的喜好比例,以便为下一次进货提供决策,随机观察了150名购买者,并记录下他们所买的品牌,统计出购买三种品牌的人数如表3-1。
第二章 一元线性回归2.14 解答:(1)散点图为:(2)x 与y 之间大致呈线性关系。
(3)设回归方程为01y x ββ∧∧∧=+1β∧=12217()ni ii nii x y n x yxn x --=-=-=-∑∑0120731y x ββ-∧-=-=-⨯=-17y x ∧∴=-+可得回归方程为(4)22ni=11()n-2i i y y σ∧∧=-∑ 2n 01i=11(())n-2i y x ββ∧∧=-+∑=2222213⎡⎤⨯+⨯+⨯⎢⎥+⨯+⨯⎣⎦(10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1169049363110/3=++++=6.1σ∧=(5)由于211(,)xxN L σββ∧t σ∧==服从自由度为n-2的t 分布。
因而/2||(2)1P t n αασ⎡⎤⎢⎥<-=-⎢⎥⎣⎦也即:1/211/2(p t t ααβββ∧∧∧∧-<<+=1α-可得195%β∧的置信度为的置信区间为(7-2.3537+2.353 即为:(2.49,11.5)2201()(,())xxx Nn L ββσ-∧+t ∧∧==服从自由度为n-2的t 分布。
因而/2|(2)1P t n αα∧⎡⎤⎢⎥⎢⎥<-=-⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦即0/200/2()1p βσββσα∧∧∧∧-<<+=- 可得195%7.77,5.77β∧-的置信度为的置信区间为()(6)x 与y 的决定系数22121()490/6000.817()ni i nii y y r y y ∧-=-=-==≈-∑∑(7)由于(1,3)F F α>,拒绝0H ,说明回归方程显著,x 与y 有显著的线性关系。
(8)t σ∧==其中2221111()22n ni i i i i e y y n n σ∧∧====---∑∑ 7 3.661==≈/2 2.353t α= /23.66t t α=>∴接受原假设01:0,H β=认为1β显著不为0,因变量y 对自变量x 的一元线性回归成立。
资料范本本资料为word版本,可以直接编辑和打印,感谢您的下载应用回归分析(第三版)何晓群刘文卿课后习题答案完整版地点:__________________时间:__________________说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容第二章一元线性回归分析思考与练习参考答案2.1 一元线性回归有哪些基本假定?答:假设1、解释变量X是确定性变量,Y是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(εi)=0 i=1,2, …,nVar (εi)=s2 i=1,2, …,nCov(εi, εj)=0 i≠j i,j= 1,2, …,n假设3、随机误差项ε与解释变量X之间不相关:Cov(Xi, εi)=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布εi~N(0, s2 ) i=1,2, …,n2.2 考虑过原点的线性回归模型Yi=β1Xi+εi i=1,2, …,n误差εi(i=1,2, …,n)仍满足基本假定。
求β1的最小二乘估计解:得:2.3 证明(2.27式),Sei =0 ,SeiXi=0 。
证明:其中:即: Sei =0 ,SeiXi=02.4回归方程E(Y)=β0+β1X的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。
答:由于εi~N(0, s2 ) i=1,2, …,n所以Yi=β0 + β1Xi + εi~N(β0+β1Xi , s2 )最大似然函数:使得Ln(L)最大的,就是β0,β1的最大似然估计值。
同时发现使得Ln(L)最大就是使得下式最小,上式恰好就是最小二乘估计的目标函数相同。
值得注意的是:最大似然估计是在εi~N(0, s2 )的假设下求得,最小二乘估计则不要求分布假设。
所以在εi~N(0, s2 ) 的条件下,参数β0,β1的最小二乘估计与最大似然估计等价。
学号:20135035028 姓名:杨栋珂班级:2013级统计班一、简要概述统计分析方法的步骤及流程。
答:1.统计分析方法的步骤:(1)根据实际问题提炼具体问题,然后确定欲达目标;(2)根据定性理论设置指标变量;(3)收集整理统计数据;(4)根据目标和数据选择统计方法,构造理论模型;(5)进行统计计算,估计模型参数;(6)进行统计检验,修改;(7)统计模型的具体应用。
2.统计分析方法的流程:二、试述P 值的意义。
答:(1)人们在阅读一些专业文献,尤其是化学实验、医学研究报告、社会调查研究报告时,通常会见到一个被称为P 值的量作为他们研究结果的一部分。
国际通用的几种统计软件如SPSS 、SAS 、TSP 等在某种计算的结果中也都有一个P 值。
P 值实际上是一个与统计假设检验相关联的概率。
(2)P 值就是在零假设成立的情况下,检验统计量的取值等于或超过所观察到的值的概率,从而P 值即为否定的最低显著性水平。
(3)P 值的统计学意义是结果真实程度(能够代表总体)的一种估计方法。
P 值为结果可信程度的一个递减指标,P 值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。
P 值是将观察结果认为有效即具有总体代表性的犯错概率。
在许多研究领域,0.05的P 值通常被认为是可接受错误的边界水平,P 值的结果小于等于0.05被认为是统计学意义的边界线。
但是这种显著性水平还包含了相当高的犯错可能性。
三、简述多项分布与二项分布的联系与区别。
答:1.二项分布即重复n 次独立的伯努利试验,这一系列试验被称为n 重伯努利实验。
当试验次数为1时,二项分布服从0-1分布。
2.多项分布是二项分布的推广,把二项分布公式推广至多种状态,就得到了多项分布,多项分布可以看成是多项实验得到的分布。
3.多项实验有如下性质:(1)多项实验由n 个相同的试验所组成。
(2)某个试验的结果落在某一特定组,比如说组i 中的概率为p i (i =1,2,…k )且在试验之间保持不变,且有∑p i =1k i=1,且试验是独立的。