第13章多元线性回归
- 格式:ppt
- 大小:508.00 KB
- 文档页数:51
目录第一章课程设计的名称、目的、任务及要求 (1)1.1 课程设计的名称 (1)1.2 课程设计的目的 (1)1.3 课程设计的任务 (1)1.4 课程设计的要求 (2)第二章问题分析 (3)2.1 背景资料 (3)2.2 问题重述 (3)2.3 问题分析 (3)第三章假设与符号约定 (5)3.1 模型假设 (5)3.2 模型符号约定 (5)第四章模型的建立与求解 (6)4.1数据分析 (6)4.2模型的建立 (7)4.3模型求解过程 (10)4.3.1问题二的求解过程 (10)4.3.2问题三的求解过程 (10)4.3.3问题四的求解过程 (11)第五章模型结果分析及检验 (14)5.1模型分析及检验 (14)5.2模型评价 (20)结论 (22)参考文献 (23)结束语 (24)第一章 课程设计的名称、目的、任务及要求1.1 课程设计的名称本文研究的课题的名称为:多元线性回归问题。
1.2 课程设计的目的养猪生产的最终目的是为满足消费者对瘦肉的要求,一般瘦肉率越高的猪卖的价格更高一些,而瘦肉率就是指猪含有的瘦肉量,瘦肉在整个中所占的比率。
我们知道猪的瘦肉总产量与许多因素有关,包括猪的眼肌面积、猪的腿瘦肉量及猪的腰瘦肉量。
这三者的多少直接影响猪瘦肉的产量,究竟哪些因素对猪瘦肉的产量影响更大一些,针对上诉问题本文采用多元线性回归方法,分析猪的瘦肉量与哪个因素联系更加密切,且与三个因素之间存在着怎么的线性关系。
1.3 课程设计的任务根据下表1中的某猪场25头育肥猪4个胴体性状的数据资料,试进行瘦肉量y 对眼肌面积(1x )、腿肉量(2x )、腰肉量(3x )的多元线性回归分析。
1.4 课程设计的要求根据表1的数据完成下面问题的求解:1)画出散点图y 与1x ,y 与2x ,y 与3x 并观察y 与1x ,2x , 3x 的关系; 2)求y 关于1x ,2x , 3x 的线性回归方程:0112233ˆˆˆˆˆya a x a x a x =+++ (1) 求出0123,,,a a a a 的值;3)对上述回归模型和回归系数进行检验;4)再分别求y 关于单个变量1x ,2x , 3x 的线性回归方程:10111ˆˆˆy a a x =+ (2) 20222ˆˆˆy a a x =+ (3) 30333ˆˆˆya a x =+ (4) 求出ij a 的值; 分别求y 关于两个变量1x ,2x , 3x 的线性回归方程:10111122ˆˆˆˆy a a x a x =++ (2’) 20222233ˆˆˆˆy a a x a x =++ (3’) 30311333ˆˆˆˆy a a x a x =++ (4’) 求出系数ij a 的值;并说明这六个回归方程对原来问题求解的优劣。
多元线性回归的计算模型多元线性回归模型的数学表示可以表示为:Y=β0+β1X1+β2X2+...+βkXk+ε,其中Y表示因变量,Xi表示第i个自变量,βi表示第i个自变量的回归系数(即自变量对因变量的影响),ε表示误差项。
1.每个自变量与因变量之间是线性关系。
2.自变量之间相互独立,即不存在多重共线性。
3.误差项ε服从正态分布。
4.误差项ε具有同方差性,即方差相等。
5.误差项ε之间相互独立。
为了估计多元线性回归模型的回归系数,常常使用最小二乘法。
最小二乘法的目标是使得由回归方程预测的值与实际值之间的残差平方和最小化。
具体步骤如下:1.收集数据。
需要收集因变量和多个自变量的数据,并确保数据之间的正确对应关系。
2.建立模型。
根据实际问题和理论知识,确定多元线性回归模型的形式。
3.估计回归系数。
利用最小二乘法估计回归系数,使得预测值与实际值之间的残差平方和最小化。
4.假设检验。
对模型的回归系数进行假设检验,判断自变量对因变量是否显著。
5. 模型评价。
使用统计指标如决定系数(R2)、调整决定系数(adjusted R2)、标准误差(standard error)等对模型进行评价。
6.模型应用与预测。
通过多元线性回归模型,可以对新的自变量值进行预测,并进行决策和提出建议。
多元线性回归模型的计算可以利用统计软件进行,例如R、Python中的statsmodels库、scikit-learn库等。
这些软件包提供了多元线性回归模型的函数和方法,可以方便地进行模型的估计和评价。
在计算过程中,需要注意检验模型的假设前提是否满足,如果不满足可能会影响到模型的可靠性和解释性。
总而言之,多元线性回归模型是一种常用的预测模型,可以分析多个自变量对因变量的影响。
通过最小二乘法估计回归系数,并进行假设检验和模型评价,可以得到一个可靠的模型,并进行预测和决策。
第1章导论【真题演练】一、(12年4月)借助于某些正规的计量方式而做出的决策,称为( A )A.定量决策B.定性决策C.混合性决策D.满意决策二、(12年4月)利用直观材料,依托个人经验的主观判断和分析能力,对未来的发展进行预测属于( c )A.经济预测B.科技预测C.定性预测D.定量预测3、(11年7月)按照决策人员的主观经验或知识而制定的决策,称之为( B )A.定量决策B.定性决策C.混合性决策D.满意决策4、(12年4月)对于管理领域,运筹学也是对管理决策工作进行决策的___计量___方式。
五、(11年7月)运筹学应用多种分析方式,对各类可供选择的方案进行比较评价,为制定最优的管理决策提供___数量___上的依据。
六、(11年4月)作为运筹学应用者,接受管理部门的要求,搜集和阐明数据,成立和实验_数学模型_,预言未来作业,然后制定方案,并推荐给领导部门。
7、(10年7月)运筹学把复杂的功能关系表示成_数学模型_,以便通过定量分析为决策提供数量依据。
八、(10年4月)在现今信息时期,运筹学和信息技术方式的分界限将会____消失____,并将离开各自原来的领域,组合成更通用更普遍的管理科学的形式。
九、(09年7月)决策方式一般分为定性决策、定量决策、___混合型决策___三类。
10、(09年4月)运筹学是一门研究如何有效地组织和管理____人机系统____的科学。
1一、(09年4月)名词解释:定性预测1二、(11年7月)名词解释:定量预测【同步练习】一、运筹学研究和运用的模型,不只限于数学模型,还有效___符号___表示的模型和___抽象___的模型。
二、在某公司的预算模型中,__收益表__是显示公司效能的模型,___平衡表__是显示公司财务情况的模型。
3、运筹学工作者观察待决策问题所处的环境应包括___内部___环境和___外部___环境。
4、企业领导的主要职责是___作出决策___,首先肯定问题,然后__制定目标___,确认约束条件和估价方案,最后选择___最优解___。
目 录第一部分 考研真题精选一、单项选择题二、多项选择题三、简答题四、综合题第二部分 章节题库第1章 绪 论第2章 统计图表第3章 集中量数第4章 差异量数第5章 相关关系第6章 概率分布第7章 参数估计第8章 假设检验第9章 方差分析第10章 χ2检验第11章 非参数检验第12章 线性回归第13章 多变量统计分析简介第14章 抽样原理及方法第一部分 考研真题精选一、单项选择题1已知某小学一年级学生的体重平均数21kg,标准差3.2kg,身高平均数120cm,标准差6.0cm,则下列关于体重和身高离散程度的说法正确的是( )。
[统考2019研]A.体重离散程度更大B.身高离散程度更大C.两者离散程度一样D.两者无法比较【答案】A【解析】计算体重和身高的变异系数,CV体重=(3.2/21)×100%=15.2%,CV身高=(6/120)×100%=5%。
由此可知体重离散程度更大。
2已知某正态总体的标准差为16,现从中随机抽取一个n=100的样本,样本标准差为16,则样本平均数分布的标准误为( )。
[统考2019研]A.0.16B.1.6C.4D.25【答案】B【解析】总体正态,且方差已知,则样本平均数的分布为正态分布,标准误SE=σ/sqr(n)=16/10=1.6。
3如果学生参加压力量表测试的分数服从正态分布,平均数为5,标准差为2,那么分数处在5和9之间的学生百分比约为( )。
[统考2019研]A.34%B.48%C.50%D.68%【答案】B【解析】计算原始分数为5的标准分数Z1=0,原始分数为9的标准分数Z2=2,已知±1.96包含95%的个体,则可估计p(0<Z<2)=0.48。
4对样本平均数进行双尾假设检验,在α=0.10水平上拒绝了虚无假设。
如果用相同数据计算总体均值的置信区间,下列描述正确的是( )。
[统考2019研]A.置信区间不能覆盖总体均值B.置信区间覆盖总体均值为10%C.置信区间覆盖总体均值为90%D.置信区间覆盖总体均值为0.9%【答案】C【解析】置信度即置信区间覆盖总体均值的概率,题干说明置信度为1-α=0.90。
第二十章 Logistic 回归分析第13章介绍的多重线性回归研究一个正态随机因变量Y 与一组自变量X =(1X ,2X ,...,p X )的数量关系。
其应用的前提条件是:Y 与X 呈线性关系;各个体观测资料彼此独立;各X 处的Y 呈正态分布;不同X 处Y 的方差相等。
医学中还常研究二分类因变量(如患病与未患病、阳性与阴性等)或多分类因变量Y 与一组自变量(1X ,2X ,...,p X )的关系,线性回归分析方法就无能为力。
logistic 回归分析则是处理该类资料的有效方法。
本章将主要介绍二分类因变量的logistic 回归分析,对于多分类因变量的logistic 回归分析方法,请参考有关专著。
第一节 logistic 回归模型一、logistic 回归模型例20-1 为探讨超重和肥胖对高血压病的影响,2004年,某研究者采用整群抽样的方法,对某地6个镇35周岁以上的常住人口进行高血压普查,同时收集了身高、体重等相关信息。
体质指数25≥BMI 判为“超重或肥胖”,25<BMI 为“正常”;收缩压≥140 mmHg 和(或)舒张压≥90 mmHg 判为“高血压”。
整理后资料见表20-1。
记样本患病率为P ,是相应总体概率π的估计值;自变量X 为体质指数,赋值为1与0,1=X 表示“超重或肥胖”,0=X 表示“正常” ;因变量Y 为是否患病,1=Y 表示“患病”,0=Y 表示“未患病”。
表20-1 不同体质指数组高血压患病率体质指数(X ) 调查人数 患病(Y =1)未患病(Y =0)患病率(%)正常 (X =0) 6792 1331 5461 19.60 超重或肥胖(X =1) 4148 1656 2492 39.92 合计109402987795327.30该研究旨在建立高血压患病率与体质指数间的数量关系模型,估计超重与肥胖对高血压患病的风险。
由于因变量Y 为二分类变量,不满足线性回归分析条件,首先对π进行数据变换:)ln()1ln()(log Odds it =-=πππ这个变换将取值在0-1间的π值转换为值域在(-∞+∞ ,)的)(log πit 值。