《回归分析——基于R》 第3章 多元线性回归
- 格式:pdf
- 大小:1013.91 KB
- 文档页数:56
《回归分析——基于R》第3章多元线性回归多元线性回归是统计学中一种常用的方法,用于探究多个自变量与一个因变量之间的关系。
在本章中,我们将介绍多元线性回归的基本概念、假设以及实现过程,并通过R语言进行实例分析。
多元线性回归的基本概念是建立一个包含多个自变量的线性回归模型,该模型试图将自变量与因变量之间的线性关系进行拟合,并通过最小化残差平方和来寻找最佳拟合结果。
多元线性回归模型的一般形式可以表示为: Y=β0+β1*X1+β2*X2+...+βn*Xn+ε其中,Y表示因变量,X1到Xn表示自变量,β0到βn表示回归系数,ε表示误差项或残差。
回归系数表示因变量在自变量作用下的变化情况,误差项表示模型无法解释的部分。
多元线性回归的实现过程可以通过最小二乘法来求解回归系数。
首先,需要检验多元线性回归模型是否满足基本假设,包括线性关系、多元正态分布、同方差性和无自相关性。
然后,使用R语言的lm(函数来进行模型拟合,得到回归系数和其他统计指标。
最后,需要对模型进行诊断分析,检验模型的拟合程度和统计显著性等。
在R语言中,可以使用lm(函数进行多元线性回归分析。
该函数的一般用法为lm(formula, data),其中formula表示回归模型的公式,data表示数据集。
例如,如果要进行一个基于身高和体重预测体脂率的多元线性回归分析,可以使用以下代码:```R#导入数据data <- read.csv("data.csv")#构建回归模型model <- lm(bodyfat ~ height + weight, data=data)#查看回归系数summary(model)```在实例分析中,我们使用了一个数据集,并将其中的身高和体重作为自变量,体脂率作为因变量。
通过lm(函数构建了一个多元线性回归模型,并使用summary(函数查看了回归系数的统计指标,例如t值、p值以及置信区间。
统计学习导论:基于R应⽤——第三章习题第三章习题部分证明题未给出答案1.表3.4中,零假设是指三种形式的⼴告对TV的销量没什么影响。
⽽电视⼴告和收⾳机⼴告的P值⼩说明,原假设是错的,也就是电视⼴告和收⾳机⼴告均对TV的销量有影响;报纸的P值⾼,说明原假设成⽴,也就是报纸⼴告对TV的销量没啥影响。
2.KNN回归和KNN近分类都是典型的⾮参数⽅法。
这两者的区别在于,前者的输⼊和输出均为定量值;⽽后者的输⼊和输⼊和输出均为定性值。
3.⾸先,有题⽬可知下⾯关系:Y = 50 + 20(gpa) + 0.07(iq) + 35(gender) + 0.01(gpa * iq) - 10 (gpa * gender)(a) 当IQ和GPA⼀定的时候,Y的可变量是35*gender-10(gpa*gender).所以当GPA⼩的时候,⽆法判断前⾯变量的正负号,⽽当GPA⾜够⼤的时候,该变量⼀定是负的。
所以当GPA⾜够⼤时,男性平均收⼊⾼于⼥性(b) 直接套公式Y= 50 + 20 * 4 + 0.07 * 110 + 35 + 0.01 (4 * 110) - 10 * 4= 137.1(c)错误。
中⽂版61页有⽐较好的解释,实验分层原则规定:如果模型中含有交互项,那么即使主效应的系数的p值不显著,也应该包含在模型中。
4.(a)⼀般来说,三次回归的训练RSS会⽐线性回归的训练RSS⼩,因为三次回归会对数据进⾏贴近训练集的拟合。
(b)题⽬中明确说明该数据的实际模型是线性拟合,所以⽤三次拟合会产⽣过拟合,⽽线性拟合有更好的泛化能⼒,所以线性回归的测试RSS⼩。
(c)答案和(a)⼀样(d)由于不知道实际情况,所以⽆法判断。
8.Auto = read.table("Auto.data.txt", header = T ,na.strings="?")Auto = na.omit(Auto)(a)attach(Auto)lm.fit = lm(mpg ~ horsepower)summary(lm.fit)i.由summary的结果来看,F-statistic很⼤⽽p-value很⼩,说明两者是有相关性的。
多元线性回归模型第三章 多元线性回归模型基本要求:1、理解多元线性回归模型的定义2、理解多元线性回归模型的假定3、掌握参数估计的计算4、理解参数统计性质第一节 多元线性回归模型及假定一、多元线性回归模型许多经济现象往往要受多个因素的影响,研究被解释变量受多个解释变量的影响,就要利用多元回归模型。
多元线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量Y 与多个解释变量k X X X ,,,21 之间存在线性关系。
假定被解释变量Y 与多个解释变量k X X X ,,,21 之间具有线性关系,是解释变量的多元线性函数,称为多元线性回归模型。
即k k X X X Y 22110(3-1)其中Y 为被解释变量,(1,2,,)j X j k L 为k 个解释变量,(0,1,2,,)j j k L 为1k 个未知参数, 为随机误差项。
被解释变量Y 的期望值与解释变量k X X X ,,,21 的线性方程为:01122()k k E Y X X X L (3-2)称为多元总体线性回归方程,简称总体回归方程。
对于n 组观测值),,2,1(,,,,21n i X X X Y ki i i i ,其方程组形式为:01122,(1,2,,)i i i k ki i Y X X X i n L L(3-3) 即nkn k n n n k k k k X X X Y X X X Y X X X Y 2211022222121021121211101 其矩阵形式为n Y Y Y 21=kn n nk k X X X X X X X X X212221212111111k 210+n 21 即Y X βμ(3-4) 其中1n Y n Y Y Y 21为被解释变量的观测值向量; )1(k n Xkn n nk k X X X X X X X X X212221212111111为解释变量的观测值矩阵;(1)1k βk 210为总体回归参数向量;1nμn 21为随机误差项向量。