(11)第11章 一元线性回归
- 格式:ppt
- 大小:9.59 MB
- 文档页数:92
《统计学》课后思考题《统计学》课后思考题第⼀章导论1、解释描述统计和推断统计描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计⽅法。
推断统计:研究如何利⽤样本数据来推断总体特征的统计⽅法。
2、统计数据可分为哪⼏个类型?不同类型的数据各有什么特点?3、举例说明总体、样本、参数、统计量、变量这⼏个概念总体:所研究的全部元素的集合,其中的每⼀个元素称为个体。
eg.要检验⼀批灯泡的使⽤寿命,这批灯泡构成的集合就是总体。
样本:从总体中抽取的⼀部分元素的集合。
eg.从⼀批灯泡中随机抽取100个,这100个灯泡就构成了⼀个样本。
参数:研究者想要了解的总体的某种特征值。
eg.总体平均数⽤µ表⽰,总体标准差⽤σ表⽰。
统计量:根据样本数据计算出来的⼀个量。
eg.样本标准差⽤s表⽰变量:说明现象某种特征的概念。
eg.商品销售额、受教育程度等第三章数据的图表展⽰1、分类数据和顺序数据的整理和图⽰⽅法各有哪些分类数据整理:频数、⽐例、百分⽐、⽐率图⽰:条形图、帕累托图、饼图、环形图顺序数据整理:累计频数、累计频率(累计百分⽐)图⽰:累计频数分布图和累计频率分布图分类数据的整理和图⽰⽅法同样适⽤于顺序数据2、茎叶图与直⽅图相⽐有什么优点?它们的应⽤场合是什么?茎叶图是由“茎”和“叶”两部分组成的、反映原始数据分布的图形,其图形是由数字组成的。
通过茎叶图,可以看数据的分布形状及数据的离散状况。
与直⽅图相⽐,茎叶图既能给出数据的分布状况,⼜能给出⼀个原始数值,即保留了原始数据的信息。
⽽直⽅图不能给出原始数值。
在应⽤⽅⾯,直⽅图⼀般适⽤于⼤批量数据,茎叶图通常适⽤于⼩批量数据。
第四章数据的概括性度量1、⼀组数据的分布特征可以从哪⼏个⽅⾯进⾏测度?⼀是分布的集中趋势,反映各数据向其中⼼值靠拢或聚集的程度;⼆是分布的离散程度,反映各数据远离其中⼼值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
2、简述众数、中位数和平均数的特点和应⽤场合(1)众数特点:是⼀组数据分布的峰值,不受极端值影响。
第十一章 一元线性回归一、填空题1、对回归系数的显著性检验,通常采用的是 检验。
2、若回归方程的判定系数R 2=0.81,则两个变量x 与y 之间的相关系数r 为_________________。
3、若变量x 与y 之间的相关系数r=0.8,则回归方程的判定系数R 2为____________。
4、对于直线趋势方程bx a y c +=,已知∑=,0x ∑=130xy ,n=9,1692=∑x, a=b ,则趋势方程中的b=______。
5、回归直线方程bx a y c +=中的参数b 是_____________。
估计待定参数a 和 b 常用的方法是-_________________。
6、相关系数的取值范围_______________。
7、在回归分析中,描述因变量y 如何依赖于自变量x 和误差项的方程称为 。
8、在回归分析中,根据样本数据求出的方程称为 。
9、在回归模型εββ++=x y 10中的ε反映的是 。
10、在回归分析中,F 检验主要用来检验 。
11、说明回归方程拟合优度检验的统计量称为 。
二、单选题1、年劳动生产率(x :千元)和工人工资(y :元)之间的回归方程为1070y x =+,这意味着年劳动生产率没提高1千元,工人工资平均( )A 、 增加70元B 、 减少70元C 、增加80元D 、 减少80元 2、两变量具有线形相关,其相关系数r=-0.9,则两变量之间( )。
A 、强相关B 、弱相关C 、不相关D 、负的弱相关关系 3、变量的线性相关关系为0,表明两变量之间( )。
A 、完全相关B 、无关系C 、不完全相关D 、不存在线性关系 4、相关关系与函数关系之间的联系体现在( )。
A 、相关关系普遍存在,函数关系是相关关系的特例 B 、函数关系普遍存在,相关关系是函数关系的特例C 、相关关系与函数关系是两种完全独立的现象D 、相关关系与函数关系没有区别 5、已知x 和y 两变量之间存在线形关系,且δx =10, δy =8, δxy2=-7,n=100,则x 和y 存在着( )。
第11章一元线性回归(相关与回归)学习指导一、本章基本知识梳理基本知识点含义或公式相关关系 客观现象之间确实存在的、但在数量表现上不是严格对应的依存关系。
函数关系 客观现象之间确实存在的、而且数量表现上是严格对应的依存关系。
因果关系有相关关系的现象中能够明确其中一种现象(变量)是引起另一种现象(变量)变化的原因,另一种现象是这种现象变化的结果。
起影响作用的现象(变量)称为“自变量”;而受自变量影响发生变动的现象(变量)称为“因变量”。
因果关系∊相关关系,但相关关系中还包括互为因果关系的情况。
相关关系的种类 按涉及变量多少分为单相关、复相关;按相关方向分为正相关、负相关;按相关形态分为线性相关、非线性相关等。
线性(直线) 相关系数 简称相关系数,反映具有直线相关关系的两个变量关系的密切程度。
()()∑∑∑∑∑∑∑---==2222y yn x xn yx xy n SS S r yx xy相关系数的 显著性检验 ——t 检验 ()().2;,212:0:,0:020221Hn t t Hn t t rn r t HH,拒绝不能拒绝检验统计量-〉-〈--=≠=ααρρ回归方程中的 参数β0和β1为回归直线的截距、起始值,表示在没有自变量x 的影响(即x =0)时,其他各种因素对因变量y 的平均影响;β1为回归系数、斜率,表示自变量x 每变动一个单位,因变量y 的平均变动量。
β1的最小平方估计:∑∑∑∑∑⎪⎭⎫ ⎝⎛--=221x x n yx xy nβ估计标准误差反映因变量实际值与其估计值之间的平均差异程度,表明其估计值对实际值的代表性强弱。
其值越大,实际值与估计值之间的平均差异程度越大,估计值的代表性越差。
()代替。
用大样本条件下,分母可;n n yyS e 2ˆ2--=∑总离差平方和S S T反映因变量的n 个观察值与其均值的总离差。
回归离差平方和S S R 反映自变量x 的变化对因变量y 取值变化的影响;或者说,是由于x 与y 之间的线性关系引起的y 取值的变化,也称为可解释的平方和。
河南科技大学2024年硕士生招生考试初试自命题科目考试大纲明栏里加备注。
河南科技大学硕士研究生招生考试《统计学》考试大纲考试科目代码:432 考试科目名称:统计学一、考试基本要求及适用范围概述掌握课程内容的基本理论和基本方法,具备学习统计学基础课、专业课的理解能力、解题表达叙述能力、计算能力、逻辑推理能力以及严谨的作风和严密的思想方法,进而培养抽象思维能力。
熟悉和掌握统计学的思维方法和研究方法具备解决问题的基本技能。
二、考试形式本课程考试形式为闭卷笔试,考试时间180分钟,总分150分。
三、考试内容第1章导论主要内容:统计及其应用领域,统计数据的类型,统计中的几个基本概念。
重点内容:统计数据的类型,统计中的几个基本概念。
第2章数据的搜集主要内容:数据的来源,调查数据,实验数据,数据的误差。
重点内容:调查数据,实验数据,数据的误差。
第3章数据的图表展示主要内容:数据的预处理,品质数据的整理与展示,数值型数据的整理与展示,合理使用图表。
第4章数据的概括性度量主要内容:集中趋势的度量,离散程度的度量,偏态与峰态的度量。
重点内容:集中趋势的度量,离散程度的度量,偏态与峰态的度量。
第5章概率与概率分布主要内容:随机事件及其概率,概率的性质与运算法则,离散型随机变量及其分布,连续型随机变量的概率分布。
重点内容:离散型随机变量及其分布,连续型随机变量的概率分布。
第6章统计量及其抽样分布主要内容:统计量,关于分布的几个概念,由正态分布导出的几个重要分布,样本均值的分布与中心极限定理,样本比例的抽样分布,两个样本平均值之差的分布,关于样本方差的分布。
重点内容:由正态分布导出的几个重要分布,样本均值的分布与中心极限定理,样本比例的抽样分布,两个样本平均值之差的分布,关于样本方差的分布。
第7章参数估计主要内容:参数估计的基本原理,一个总体参数的区间估计,两个总体参数的区间估计,样本量的确定。
重点内容:参数估计的基本原理,一个总体参数的区间估计,样本量的确定。
第11章 一元线性回归分析欧阳光明(2021.03.07)11.1(1)散点图(略),产量与生产费用之间正的线性相关关系。
(2)920232.0=r(3) 检验统计量2281.24222.142=>=αt t ,拒绝原假设,相关系数显著。
11.2(1)散点图(略)。
11.3 (1)0ˆβ表示当0=x 时y 的期望值。
(2)1ˆβ表示x 每变动一个单位y 平均下降0.5个单位。
11.4 (1)%902=R(2)1=e s11.5 一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近10个卡车运货记录的随机样本,得到运送距离要求:(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态: (2)计算线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
解:(1)可能存在线性关系。
(2)x 运送距离(km )y 运送时间(天) x 运送距离(km )Pearson 相关性 1.949(**) 显著性(双侧)0.000 N10 10 y 运送时间(天)Pearson 相关性 .949(**) 1显著性(双侧) 0.000 N**. 在 .01 水平(双侧)上显著相关。
有很强的线性关系。
(3)模型非标准化系数标准化系数t 显著性B标准误Beta1(常量) 0.118 0.355 0.333 0.748 x 运送距离(km )a. 因变量: y 运送时间(天)回归系数的含义:每公里增加0.004天。
11.6 下面是7个地区2000年的人均国内生产总值(GDP )和人均消费水要求:(1)人均GDP 作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
一元线性回归方程求解1、典型的一元线性回归方程为y=a+bx ,已知一组数据: y 1,,y 2,…y n ; x 1,x 2,…x n ,基本上呈线性关系。
求他们之间的函数公式。
2 、nx x i∑=ny y ∑i=S xx =∑x i 2-n1(∑x i )2 S yy =∑y i 2-n1(∑y i )2 S xy =∑x i y i -n1(∑x i )(∑y i ) b= S xy / S xx a=y -b x 3 、相关性检验采用相关系数r ,r 是介于0~1之间的小数,越接近于1,线性方程的准确性越高,一般工程上要大于0.95.S R =bS xy S e =S yy - S R r=(1-Se/S r )4、回归方程求解比较繁琐,有条件的可编制电脑程序,也可采用execl 表格计算。
例题;某计量单位标定千斤顶,压力表读数P (Mpa )和千斤顶顶力N (KN )基本呈线性关系,N=a+Bp数据及计算见下表nx x i∑==385/11=35 ny y ∑i==9544.225/11=867.66S xx =∑x i 2-n 1(∑x i )2=16225-3852/11=2750S yy =∑y i 2-n 1(∑y i )2=10114588-9544.2252/11=1833476.1S xy =∑x i y i -n1(∑x i )(∑y i )=404988.88-385×9544.225/11=70941.005b= S xy / S xx =70941.005/2750=25.797 a=y -b x =867.66-25.797×35=-35.235 回归方程为N=-35.235+25.797PS R =bS xy =25.797×70941.005=1830065.11 S e =S yy - S R =1833476.1-1830065.11=3410.99 r=(1-Se/S r )=(1-3410.99/1830065.11)=0.999此回归方程的可信度非常高。
一元线性回归模型案例分析一、研究的目的要求居民消费在社会经济的持续发展中有着重要的作用。
居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。
改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。
但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。
例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。
为了研究全国居民消费水平及其变动的原因,需要作具体的分析。
影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。
为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。
二、模型设定我们研究的对象是各地区居民消费的差异。
居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。
而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。
所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。
因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。
因此建立的是2002年截面数据模型。
影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。