第11章 统计学
- 格式:ppt
- 大小:294.50 KB
- 文档页数:44
十一章1. 解:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多元线性回归分析。
相关分析,相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析和回归分析是研究客观现象之间数量联系的重要统计方法。
既可以从描述统计的角度,也可以从推断统计的角度来说明。
所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
它们具有共同的研究对象,在具体应用时,相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。
由于相关分析不能指出变量间相互关系的具体形式,所以回归分析要对具有相关关系的变量之间的数量联系进行测定,从而为估算和预测提供了一个重要的方法。
在有关管理问题的定量分析中,推断统计加具有更加广泛的应用价值。
需要指出的是,相关分析和回归分析只是定量分析的手段。
通过相关与回归分析,虽然可以从数量上反映现象之间的联系形式及其密切程度,但是现象内在联系的判断和因果关系的确定,必须以有关学科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。
因此,在应用时要把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
《统计学原理》课程教学大纲课程类型:理论、实训课程适用专业:现代物流课程适用层次:高技一、说明1、课程作用和目标(1)课程作用:《统计学原理》是经济类各专业的基础课程,与经济类各专业联系密切,拓展今后就业面。
(2)课程学习目标和要求:一方面加强对社会经济问题的学习、研究及学习其他专业课程提供数量分析方法,另一方面为进一步学习专业统计奠定理论和方法的基础。
在教学中要按照专业培养目标的要求,重点讲授本课程的基本理论和基本方法,并注重学生基本技能的训练及培养利用数量分析方法解决实际问题的能力。
2、教学中应注意的问题(1)本课程是经济类各专业的基础课,旨在为学生学习专业知识打基础。
应该特别重视统计学的基本理论、基本知识和基本技能的讲授。
(2)本课程教学内容理论性与实践性较强,为保证教学质量,教师在教学过程中就注意启发式教学方法,多举案例,充分调动学生学好本课程的积极性。
(3)在经济体制改革时期,本门课程的内容也处于不断变动中。
因此,教师在组织本门课程教学时,应注意指导学生参阅有关文献资料,并不断用新知识丰富教学,教好教活本门课程。
(4)在实施教学时,可有计划地多做练习,指导学生做力所能及的社会调查,以培养学生的实际操作能力。
(5)由于经济类各学科内容联系较密切,在讲授本门课程时,教师应注意同其他学科内容的衔接,按照教学方案规定的进度,合理地调整同其他相关学科重复的内容。
三、考核方式:考查1、考试形式:形式(三次小测),平时成绩与期末成绩比例3:72、考查内容:(1)统计概述及统计学中的基本概念;统计数据的采集和整理。
(2)统计综合指标的计算,包括总量指标、相对指标、平均指标和变异指标。
(3)抽样技术中调查的方法、抽样误差的计算、参数估计的确定;统计指数的计算,时间数列的分析。
3、成绩评价办法:以三次测试的平均成绩,作为学生总评成绩。
4、考试时间:100分钟5、试卷结构:(1)试题的分值:卷面分值为100分.(2)题目难易比例:容易题(20%)一般题(70%)难题(10%)四、课程参考资料1、教材:《统计学原理》,韩兆洲主编:暨南大学出版社,第7版2、参考书:《统计基础知识》,娄庆松、曹少华主编,高等教育出版社—2006.6教研组长: _____________________专业系:_____________________教务处:_____________________教学主管校长审批:_______________。
目录第一章P10 (1)第二章P34 (2)第三章P66 (3)第四章P94 (8)第七章P176 (11)第八章P212 (15)第10 章P258 (17)第11 章P291 (21)第13 章P348 (26)第14 章P376 (30)第一章P10一、思考题1.1什么是统计学?1.2解释描述统计和推断统计。
1.3统计数据可分为哪几种类型?不同类型的数据各有什么特点?1.4解释分类数据、顺序数据和数值型数据的含义。
1.5举例说明总体、样本、参数、统计量、变量这几个概念。
1.6变量可分为哪几类?1.7举例说明离散型变量和连续型变量。
1.8请举出统计应用的几个例子。
1.9请举出应用统计的几个领域。
1.1 指出下面变量的类型:(1)年龄(2)性别(3)汽车产量(4)员工对企业某项改革措施的态度(赞成、中立、反对)(5)购买商品时的支付方式(现金、信用卡、支票)(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
1.2 某研究部门准备抽取 2000 个职工家庭推断该城市所有职工家庭的年人均收入。
要求:(1)描述总体和样本。
(2)指出参数和统计量。
(1)总体是该市所有职工家庭的集合;样本是抽中的 2000 个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的 2000 个职工家庭的年人均收入。
1.3 一家研究机构从 IT 从业者中随机抽取 1000 人作为样本进行调查,其中 60%的人回答他们的月收入在5000 元以上,50%的人回答他们的消费支付方式是用信用卡。
回答下列问题:(1)这一研究的总体是什么?(2)月收入是分类变量、顺序变量还是数值型变量?(3)消费支付方式是分类变量、顺序变量还是数值型变量?(4)这一研究涉及截面数据还是时间序列数据?(1)总体是所有 IT 从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
1.4 一项调查表明,消费者每月在网上购物的平均花费是 200 元,他们选择在网上购物的主要原因是“价格便宜”。
第十一章 多元线性回归与logistic 回归一、教学大纲要求(一)掌握内容1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。
2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。
3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P 值下结论。
4.logistic 回归模型结构:模型结构、发病概率比数、比数比。
5.logistic 回归参数估计方法。
6.logistic 回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。
(二)熟悉内容 常用统计软件(SPSS 及SAS )多元线性回归分析方法:数据准备、操作步骤与结果输出。
(三)了解内容 标准化偏回归系数的解释意义。
二、教学内容精要(一) 多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系,称为多元线形回归(multiple linear regression ),简称多元回归(multiple regression )基本形式:01122ˆk kY b b X b X b X =+++⋅⋅⋅+ 式中Y ˆ为各自变量取某定值条件下应变量均数的估计值,1X ,2X ,…,k X 为自变量,k 为自变量个数,0b 为回归方程常数项,也称为截距,其意义同直线回归,1b ,2b ,…, k b 称为偏回归系数(partial regression coefficient ),j b 表示在除j X 以外的自变量固定条件下,j X 每改变一个单位后Y 的平均改变量。
(二) 多元线性回归的分析步骤Y ˆ是与一组自变量1X ,2X ,…,kX 相对应的变量Y 的平均估计值。
多元回归方程中的回归系数1b ,2b ,…, k b 可用最小二乘法求得,也就是求出能使估计值Yˆ和实际观察值Y 的残差平方和22)ˆ(∑∑-=Y Y e i 为最小值的一组回归系数1b ,2b ,…, k b 值。
第十一章统计决策I.学习目的本章对统计决策的基本理论、方法及其应用,作扼要的介绍。
通过学习,要求:1. 理解有关统计决策的基本概念与基本步骤,能够运用收益矩阵表与决策树形图表述所要研究的决策问题;2. 了解各种决策准则的特点与适用的场合,能够运用这些准则,进行完全不确定性决策与一般风险型决策;3. 了解贝叶斯决策的基本思想,掌握后验概率的计算方法,并在此基础上进行决策分析。
n.课程内容要点第一节统计决策的基本概念一、什么是统计决策所谓决策,就是在占有一定信息的基础上,利用各种方法,对影响特定目标的各种因素进行计算和分析,从而选择关于未来行动的“最佳方案”或“满意方案”的过程。
狭义的统计决策方法是一种研究非对抗型和非确定型决策问题的科学的定量分析方法。
开展统计决策研究,有助于避免决策的盲目性,提高决策的科学性。
二、统计决策的基本步骤(一)确定决策目标;反映决策目标的变量,称为目标变量。
当决策所要求达到的目标只有一个时,称为单目标决策。
当决策所要求达到的目标不止一个时,称为多目标决策。
(二)拟定备选方案备选方案是决策者可以调控的因素,备选方案中所调控的变量称为行动变量。
所有备选方案的集合称为行动空间。
(三)列出自然状态所谓自然状态,是指实施行动方案时,可能面临的客观条件和外部环境。
所有可能出现的状态的集合称为状态空间,而相应的各种状态可能出现的概率的集合称为状态空间的概率分布。
(四)测算结果(五)选择“最佳”或“满意”的方案(六)实施方案三、收益矩阵表第二节完全不确定型决策一、完全不确定型决策的准则(一)最大的最大收益值准则该准则又称乐观准则或“好中求好”准则。
在决策时,先选出各种状态下每个方案的最大收益值,然后再从中选择最大者,并以其相对应的方案作为所要选择的方案。
(二)最大的最小收益值准则该准则又称悲观准则或“坏中求好”准则。
在决策时,先选出各种状态下每个方案的最小收益值,然后再从中选择最大者,并以其相对应的方案作为所要选择的方案。
第十一章一元线性回归练习题答案二.填空题 1. 不能;因为该相关系数为样本计算出的相关系数,它的大小受样本数据波动的影响,它是否显著尚需检验;t 检验;2.图1;不能;因为图1反映的是线性相关关系,图2反映的是非线性性相关关系,相关系数只能反映线性相关变量间的相关性的强弱,不能反映非线性相关性的强弱。
三.计算题1.(1) SSR 的自由度是1,SSE 的自由度是18。
(2)2418/6080220/1/==-=SSE SSR F(3)判定系数%14.57140802===SST SSR R 在y 的总变差中,由57.14%的变差是由于x 的变动说引起的。
(4)7559.05714.02-=-=-=R r相关系数为-0.7559。
(5)线性关系显著和:线性关系不显著和y x y x H 10H :因为414.424=>=αF F,所以拒绝原假设,x 与y 之间的线性关系显著。
2.(1)方差分析表df SS MS F Significance F回归分析 1 425 425 85 0.017 残差 15 75 5 - - 总计16500---(2)判定系数%8585.05004252====SST SSR R表明在维护费用的变差中,有85%的变差可由使用年限来解释。
(3)9220.085.02===R r二者相关系数为0.9220,属于高度相关(4)x y248.1388.6ˆ+= 分布;显著。
的自由度为t n r n r t 2);12||2---=回归系数为1.248,表示每增加一个单位的产量,该行业的生产费用将平均增长1.248个单位。
(5)线性关系显著性检验:线性关系显著:生产费用和产量之间性关系不显著生产费用和产量之间线10:H H因为Significance F=0.017<05.0=α,所以线性关系显著。
(6)348.3120248.1388.6248.1388.6ˆ==⨯++=x y当产量为10时,生产费用为31.348万元。
第十一章非参数检验第一节符号检验符号检验的方法·符号检验的特点和作用第二节配对符号秩检验配对符号秩检验的方法·配对符号秩检验的效力第三节秩和检验秩和检验的方法·秩和检验的近似第四节游程检验游程的概念·游程检验的方法·差符号游程检验第五节累计频数检验累计频数检验的方法·累计频数检验的应用一、填空1.非参数检验,泛指“对分布类型已知的总体进行参数检验”()的所有检验方法。
2.符号检验的零假设就是配对观察结果的差平均起来等于()。
3.理论研究表明,对于配对样本非正态分布的差值d,()是最佳检验。
4.秩和检验检验统计量U是U1和U2中较()的一个。
5.秩尺度之统计量的均值和标准差只取决于()。
6.()常被用作经验分布与理论分布的比较。
7.绝对值相等的值,应将它们的秩()。
8.符号检验,在分布自由检验中称为()。
9.符号检验和配对符号秩检验,都只适用于()样本。
10.数据序列ABBABAAABABBABBAAAAAB的总游程数是()二、单项选择1.下列检验中,不属于非参数统计的方法的是()。
A总体是否服从正态分布 B 总体的方差是否为某一个值C 样本的取得是否具有随机性D 两组随机变量之间是否相互独立2.下列情况中,最适合非参数统计的方法是()。
A反映两个大学新生成绩的差别B 反映两个大学新生家庭人均收入的差别C 反映两个大学三年级学生对就业前景的看法差别D反映两个大学在校生消费水平的差别3.不属于非参数检验的是()。
A符号检验B游程检验C累计频数检验 D F检验4.在累计频数检验中,卡方的自由度为()。
A n1B 2C n2D n1+n25.配对符号秩检验的效力( )。
A 小于符号检验B 大于t 检验C 介于符号检验与t 检验之间D 无法与符号检验及t 检验比较 6.如果我们说非参数检验的效力是80%,下列哪种解释正确。
( )A 如果用参数检验需要100个数据,那么在同等的检验效力下,非参数检验只要80个数据;B 如果用非参数检验需要100个数据,那么在同等的检验效力下,参数检验只要80个数据;C 如果用参数检验需要100个数据,那么在同等的检验效力下,非参数检验只要20个数据;D 如果用非参数检验需要100个数据,那么在同等的检验效力下,参数检验只要20个数据;7.对于秩和检验,U 1、U 2和n 1、 n 2的关系是( )。
第11章一元线性回归一、思考题1.解释相关关系的含义,说明相关关系的特点。
答:变量之间存在的不确定的数量关系,称为相关关系。
相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。
对这种关系不确定的变量是不能用函数关系进行描述的。
2.相关分析主要解决哪些问题?答:相关分析就是对两个变量之间线性关系的描述与度量,它要解决的问题包括:(1)变量之间是否存在关系;(2)如果存在关系,它们之间是什么样的关系;(3)变量之间的关系强度如何;(4)样本所反映的变量之间的关系能否代表总体变量之间的关系。
3.相关分析中有哪些基本假定?答:在进行相关分析时,对总体主要有以下两个假定:(1)两个变量之间是线性关系;(2)两个变量都是随机变量。
4.简述相关系数的性质。
答:相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若是根据样本数据计算的,则称为样本相关系数,记为r 。
相关系数的性质:(1)r 的取值范围在-1~+1之间,即-1≤r ≤1。
若0<r ≤1,表明x 与y 之间存在正线性相关关系;若-1≤r <0,表明x 与y 之间存在负线性相关关系;若r =+1,表明x 与y 之间为完全正线性相关关系;若r =-1,表明x 与y 之间为完全负线性相关关系。
可见当|r |=1时,y 的取值完全依赖于x ,二者之间即为函数关系;当r =0时,说明y 的取值与x 无关,即二者之间不存在线性相关关系。
(2)r 具有对称性。
x 与y 之间的相关系数xy r 和y 与x 之间的相关系数yx r 相等,即xy r =yx r 。
(3)r 数值大小与x 和y 的原点及尺度无关。
改变x 和y 的数据原点及计量尺度,并不改变r 数值大小。
(4)r 仅仅是x 与y 之间线性关系的一个度量,它不能用于描述非线性关系。
第11章 一元线性回归分析11.1(1)散点图(略),产量与生产费用之间正的线性相关关系。
(2)920232.0=r(3) 检验统计量2281.24222.142=>=αt t ,拒绝原假设,相关系数显著。
11.2 (1)散点图(略)。
(2) 8621.0=r11.3 (1)0ˆβ表示当0=x 时y 的期望值。
(2)1ˆβ表示x 每变动一个单位y 平均下降0.5个单位。
(3) 7)(=y E 11.4 (1)%902=R (2)1=e s11.5 一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近10(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态: (2)计算线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(2)x 运送距离(km )y 运送时间(天)x 运送距离(km )Pearson 相关性 1.949(**) 显著性(双侧)0.000 N10 10 y 运送时间(天)Pearson 相关性 .949(**) 1显著性(双侧) 0.000 N**. 在 .01 水平(双侧)上显著相关。
有很强的线性关系。
(3)模型非标准化系数标准化系数t显著性B标准误Beta1 (常量)0.118 0.355 0.333 0.748 x 运送距离(km )a. 因变量: y 运送时间(天)回归系数的含义:每公里增加0.004天。
(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(a=0.05)。
(6)如果某地区的人均GDP 为5 000元,预测其人均消费水平。
1. 以下检验方法属参数法的是()。
A、t检验7. 下列统计分析方法属于非参数检验的是()。
A、Wilcoxon单样本秩和检验7. 下列统计分析方法属于参数检验的是()。
B、完全随机设计的方差分析8. 关于统计分析方法的选择,下列说法错误的是()。
D、对于定量变量自然是选择它所对应的那些统计方法如t检验、方差分析或检验等3. 关于参数检验和非参数检验的说法错误的是()。
D、多数非参数检验方法简便,易于理解且检验效能高4. 对于配对比较的秩和检验,其检验假设为()。
C、样本的差数来自中位数为0的总体1. 两小样本比较作假设检验首先考虑()。
D、资料符合t检验还是秩和检验三组比较的秩和检验,样本例数均为5,确定5. P值应查()。
B、H界值表9. 高血压临床试验分为试验组和对照组,分析考虑治疗0周、2周、4周、6周、8周血压的动态变化和改善情况,为了直观显示出两组血压平均变动情况,宜选用的统计图是()。
B、线图符合4. t检验条件的数值变量资料如果采用秩和检验,则()。
B、第二类错误增大2. 在进行两样本比较的秩和检验时,以下无效假设正确的是()。
B、H0:两样本对应的总体分布相同9. 某研究者打算比较1995-2010年之间两种疾病的死亡率的变化速度,其统计图宜采用()。
A、半对数线图3. 配对比较的秩和检验的基本思想是--- 如果检验假设成立,则对样本来说()。
D、正秩和和负秩和的绝对值不会相差很大6. 当观察性研究设计和完全随机设计的数据分析时,不可能选择的统计分析方法是()。
D、配对t检验10. 欲用统计图表示某市1980年和1990年不同性别高血压的患病情况,应用()。
A、复式条图5. 欲比较三种药物治疗效果有无差别,如果治疗效果为有序分类变量,宜采用()。
A、Wilcoxon秩和检验3. 成组设计两样本比较的秩和检验,检验统计量T通常为()。
B、样本量较小组对应的秩和秩和检验和1. t检验相比,其优点是()。