新人教A版高中数学选修1-2:第一章、回归分析和独立性检验
- 格式:doc
- 大小:635.28 KB
- 文档页数:20
课题:独立性检验的基本思想及其初步应用教材:人教A版·普通高中课程标准实验教科书·数学·选修1-2一、教学任务分析1. 在统计学中,独立性检验就是检验两个分类变量是否相关的一种统计方法. 高中数学研究的是两个分类变量各取2个值即2×2列联表的情况:2. 独立性检验与回归分析都可以判断两个变量的相关关系. 两者既有了解又有区别,回归分析适用于定量变量的问题,独立性检验适用于分类变量的问题.二、教学目标(1)能够用列联表、三维柱形图、二维条形图、等高条形图直观地判断两个分类变量是否相关.(2)了解独立性检验的基本思想,能够按照独立性检验的步骤去检验两个分类变量的关系.(3)通过独立性检验的学习,了解数学在统计与概率中的确定性思维特点,体会直观与抽象、感性与理性的了解.三、教学重点、难点教学重点:理解独立性检验的基本思想及实施步骤.教学难点:(1)了解独立性检验的基本思想.(2)了解随机变量卡方的含义.四、教学方法与手段采用“活动(课前)→问题→解决问题→总结”的教学方法,即:在教师的引导下,通过开放性问题的设置来启发学生思考,在思考中体会数学概念的形成过程中所蕴涵的数学思想和方法,加强学生能力的培养.利用计算器进行数据计算,通过Excel软件作图,通过整理的课件呈现更丰富的教学素材.五、课前准备(1)布置实习作业学完《§1.1回归分析的基本思想及其初步应用》后,让学生完成判断两个变量是否相关的题目,一类是可以用回归分析解决的(如问题一),另一类则不行(如问题二). 把这两类问题以实习作业的形式要求学生进行收集数据、整理分析数据、得出结论并进行估计与预测. 作业要求思路清晰、图文并茂、言之有理.(2)本节课前的实习作业问题一:课外学习时间与学习成绩的关系问题二:高中学生是否喜欢音乐与性别的关系这里是我的一个实习作业的范例。
六、教学流程(一)创设情景,问题引入(二)观察感知,启发引导(三)自主探究,体会思想(四)例题学习,变式巩固(五)知识应用,尝试练习(六)解决疑问,尝试小结(七)课后作业,自主学习八、教学反思1. 注重系统学习,课后作业为下一节课作铺垫.课前作业(即前面学习的作业)的中“问题二”与熟悉的问题有些类似,都是两个变量的相关关系,但却不能使用回归分析的方法来做. 尽管如此,学生还是能够利用比例、图形去解决问题,为新课学习提供了很好的铺垫. 本节课的作业,除了巩固所学知识,也要为下一节课作铺垫.2. 解决疑问,尝试小结在教学设计过程中,预留时间给学生提出自己的问题,尝试自己去小结,可让学生做到自主学习,进行课堂复习,有时还能克服学生在下课前的疲劳状态.给时间学生思考本节课还不懂的问题,可写在小纸上. 对于学生提出的问题,适当解决. 这样可方便进行教学反思,也为下一节课的设计提供一些材料.独立性检验的基本思想及其初步应用的教案说明教材:人教A版·普通高中课程标准实验教科书·数学·选修1-2针对所教班级的数学基础比较弱,本节课通过之前准备的两个实习作业,让学生在一定的感性认识的基础上,带着问题与好奇心,感受数学从感性认识上升到理性认识,共同经历从定性描述到定量描述的过程,从中认识数学解决问题的方法. 根据新课程的特点,本课以学生发展为本,遵循学生的认知规律,体现循序渐进、共同探究与启发式的教学原则,充分发挥学生的主体作用与教师在适当环节的引导作用.一、对教学目标和教学重难点的认识:根据数学学科的特点、学生身心发展的合理需要,本节课从认知、能力、情感等层面确定了相应的教学目标.重点是理解独立性检验的基本思想及实施步骤;而难点是了解独立性检验的基本思想及随机变量卡方的含义二、教学方法的选择:采用“活动(课前)→问题→解决问题→总结”的教学方法,即:在教师的引导下,通过开放性问题的设置来启发学生思考,在思考中体会数学概念的形成过程中所蕴涵的数学思想和方法,加强学生能力的培养.三、教学手段的利用:采用多媒体技术,通过各种素材的呈现,提高学生学习兴趣、激活学生思维、加深理解.四、教学过程的说明:针对学生已有的体验以及学生的认知水平,把教学过程分为了七个环节:。
人教版A版高中数学选修1-2课后习题解答高中数学选修1-2课后题答案第一章统计案例1.1 回归分析的基本思想及其初步应用回归分析是一种统计分析方法,用于探究自变量与因变量之间的关系。
它的基本思想是通过建立数学模型,利用已知数据进行拟合,从而预测或解释未知数据。
回归分析的初步应用包括简单线性回归和多元线性回归。
1.2 独立性检验的基本思想及其初步应用独立性检验是一种用于检验两个变量之间是否存在关联的方法。
其基本思想是通过观察两个变量之间的频数或频率分布,来判断它们是否相互独立。
独立性检验的初步应用包括卡方检验和Fisher精确检验。
第二章推理证明2.1 合情推理与演绎推理合情推理是指根据已知事实和常识,推断出可能的结论。
演绎推理是指根据已知的前提和逻辑规则,推导出必然的结论。
两种推理方法都有其适用的场合,需要根据具体情况进行选择。
2.2 直接证明与间接证明直接证明是指通过逻辑推理,直接证明所要证明的命题成立。
间接证明是指采用反证法或归谬法,证明所要证明的命题的否定不成立,从而推出所要证明的命题成立。
第三章数系的扩充与复数的引入3.1 数系的扩充与复数的概念数系的扩充是指在实数系的基础上引入新的数,使得一些原来不可解的方程可以得到解。
复数是指由实部和虚部组成的数,可以表示在平面直角坐标系中的点。
复数的引入扩充了数系,使得一些原本无解的方程可以得到解。
3.2 复数的代数形式的四则运算复数的代数形式是指将复数表示为实部和虚部的和的形式。
复数的四则运算包括加减乘除四种运算,可以通过对实部和虚部分别进行运算来得到结果。
第四章框图4.1 流程图流程图是一种用图形表示算法或过程的方法。
它由各种基本符号和连线构成,用于描述算法或过程的各个步骤及其执行顺序。
流程图可以帮助人们更好地理解算法或过程,从而提高效率。
4.2 结构图结构图是一种用于描述程序结构的图形表示方法。
它包括顺序结构、选择结构和循环结构三种基本结构,可以用来表示程序的控制流程。
新课程标准数学选修1—2第一章课后习题解答第一章统计案例1.1回归分析的基本思想及其初步应用练习(P8)1、画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.说明:学生在对常用的函数图象比较了解的情况下,通过观察散点图可以判断两个变量的关系更近似于哪种函数.2、分析残差可以帮助我们解决以下两个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错.(2)分析残差图可以发现模型选择是否合适.说明:分析残差是回归诊断的一部分,可以帮助我们发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等. 本题只要求学生能回答上面两点即可,主要让学生体会残差和残差图可以用于判断模型的拟合效果.3、(1)解释变量和预报变量的关系式线性函数关系.R=.(2)21说明:如果所有的样本点都在一条直线上,建立的线性回归模型一定是该直线,所以每个=+,没有随机误差项,是严样本点的残差均为0,残差平方和也为0,即此时的模型为y bx aR=.格的一次函数关系. 通过计算可得21习题1.1 (P9)1、(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近似呈线性关系.y表示GDP值,t表示年份. 根据截距和斜率的最小二乘计算公式,得(2)用tˆ14292537.729a≈-,ˆ7191.969b≈从而得线性回归方程ˆ7191.96914292537.729=-.y t残差计算结果见下表.GDP 值与年份线性拟合残差表(年实际GDP 值为117251.9,所以预报与实际相差4275.540-.(4)上面建立的回归方程的20.974R =,说明年份能够解释约97%的GDP 值变化,因此所建立的模型能够很好地刻画GDP 和年份的关系.说明:关于2003年的GDP 值的来源,不同的渠道可能会有所不同.2、说明:本题的结果与具体的数据有关,所以答案不唯一.3、由表中数据得散点图如下:从散点图中可以看出,震级x 与大于或等于该震级的地震数N 之间不呈线性相关关系,随着x 的减少,所考察的地震数N 近似地以指数形式增长. 做变换lg y N =,得到的数据如下表所示.x 和y 的散点图如下:从这个散点图中可以看出x 和y 之间有很强的线性相关性,因此可以用线性回归模型拟合它们之间的关系. 根据截距和斜率的最小二乘计算公式,得ˆ 6.704a≈,ˆ0.741b ≈-, 故线性回归方程为 ˆ0.741 6.704y x =-+. 20.997R ≈,说明x 可以解释y 的99.7%的变化.因此,可以用回归方程 0.741 6.704ˆ10x N-+= 描述x 和N 之间的关系. 1.2独立性检验的基本思想及其初步应用练习(P15)列联表的条形图如图所示.由图及表直观判断,好像“成绩优秀与班级有关系”. 因为2K 的观测值0.653 6.635k ≈<,由教科书中表1-11克重,在犯错误的概率不超过0.01的前提下,不能认为“成绩与班级有关系”.说明:(1)教师应要求学生画出等高条形图后,从图形上判断两个分类变量之间是否有关系. 这里通过图形的直观感觉的结果可能会出错.(2)本题与例题不同,本题计算得到的2K 的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”. 这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立. 在独立性检验中,没有推出小概率事件发生类似于反证法中没有推出矛盾.习题1.2 (P16)1、假设“服药与患病之间没有关系”,则2K 的值应该比较小;如果2K 的值很大,则说明很可能“服药与患病之间没有关系”. 由列联表中数据可得2K 的观测值 6.110 5.024k ≈>,而由教科书表1-11,得2( 5.024)0.025P K ≥≈,所以在犯错误的概率不超过0.025的前提下可以认为“服药与患病之间有关系”. 又因为服药群体中患病的频率0.182小于没有服药群体中患病的频率0.400,所以“服药与患病之间关系”可以解释为药物对于疾病有预防作用. 因此在犯错误的概率不超过0.025的前提下,可以认为药物有效.说明:仿照例1,学生很容易完成此题,但希望学生能理解独立性检验在这里的具体含义,即“服药与患病之间关系”可以解释为“药物对于疾病有预防作用”.2、如果“性别与读营养说明之间没有关系”,由题目中所给数据计算,得2K 的观测值为8.416k ≈,而由教科书中表1-11知2(7.879)0.005P K ≥≈,所以在犯错误的概率不超过0.005的前提下认为“性别与读营养说明之间有关系”.3、说明:需要收集数据,所有没有统一答案. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.4、说明:需要从媒体上收集数据,学生关心的问题不同,收集的数据会不同. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.第一章 复习参考题A 组(P19)根据散点图,可以认为中国人口总数与年份呈现很强的线性相关关系,因此选用线性回归模型建立回归方程.由最小二乘法的计算公式,得 2095141.503a ≈-,1110.903b ≈,则线性回归方程为 ˆ1110.9032095141.503yx =-. 由2R 的计算公式,得 20.994R ≈,明线性回归模型对数据的拟合效果很好.根据回归方程,,预计2003年末中国人口总数约为129997万人,而实际情况为129227万人,预测误差为770万人;预计2004年末中国人口总数约为131108万人,而实际情况为129988万人,预测误差为1120万人.说明:数据来源为《中国统计年鉴》(2003). 由于人数为整数,所以预测的数据经过四舍五入的取整运算.2、(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域内分布,猜想销售总额与利润之间呈现线性相关关系.(2)由最小二乘法的计算公式,得 ˆ1334.5a≈,ˆ0.026b ≈, 则线性回归方程为 ˆ0.0261334.5yx =+ 其残差值计算结果见下表:(3)对于(2)中所建立的线性回归方程,20.457R ≈,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系. 说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确.3、由所给数据计算得2K 的观测值为 3.689k ≈,而由教科书中表1-11知2( 2.706)0.10P K ≥=所以在犯错误的概率不超过0.10的前提下认为“婴儿的性别与出生的时间有关系”.第一章 复习参考题B 组(P19)1、因为 21(,)()ni i i Q a b y a bx ==--∑21(()())n i i i y bx y bx a y bx ==--+--+∑ 2211()()n n i i i i y bx y bx a y bx ===--++-+∑∑12()()ni i i y bx y bx a y bx =---+-+∑ 并且221()()n i a y bx n a y bx =-+=-+∑,12()()n i i i y bx y bx a y bx =--+-+∑ 1()(())ni i i a y bx y bx ny nbx ==-+--+∑ ()()0a y b x n y n b xn y n b x=-+--+= 所以 221(,)()()ni i i Q a b y bx y bx n a y bx ==--++-+∑.考察上面的等式,等号右边的求和号中不包含a ,而另外一项非负,所以ˆa和ˆb 必然使得等号右边的最后一项达到最小值,即 ˆˆ0ay bx -+=, 即ˆˆy a bx =+. 2、总偏差平方和21()n i i y y =-∑表示总的效应,即因变量的变化效应;残差平方和21ˆ()ni i y y =-∑表示随机误差的效应,即随机误差的变化效应;回归平方和21ˆ()ni yy =-∑表示表示变量的效应,即自变量的变化效应. 等式 222111ˆˆ()()()n n n i ii i i y y y y y y ===-=-+-∑∑∑ 表示因变量的变化总效应等于随机误差的变化效应与自变量的变化效应之和.3、说明:该题主要是考察学生应用回归分析模型解决实际问题的能力,解答应该包括如何获取数据,如何根据散点图寻找合适的模型去拟合数据,以及所得结果的解释三方面的内容.。
第一章 统计案例1.1回归分析的基本思想及其初步应用(一)教学目标:(1).知识与技能:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用 (2).过程与方法:了解回归分析的基本思想、方法及初步应用 (3).情感,态度与价值观:充分利用图形的直观性,简捷巧妙的解题 教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析. 教学难点:解释残差变量的含义,了解偏差平方和分解的思想. 教学方法:讲解法,引导法 教学过程: 一、复习准备:1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报. 二、讲授新课: 1. 教学例题:① 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编 号 1 2 3 4 5 6 7 8 身高/cm165165 157 170 175 165 155 170 体重/kg 4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm 的女大学生的体重. (分析思路→教师演示→学生整理)第一步:作散点图第二步:求回归方程第三步:代值计算② 提问:身高为172cm 的女大学生的体重一定是60.316kg 吗? 不一定,但一般可以认为她的体重在60.316kg 左右.③ 解释线性回归模型与一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y bx a =+来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm 的3名女大学生的体重分别为48kg 、57kg 和61kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165cm 的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e (即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型y bx a e =++,其中残差变量e 中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型.因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.2. 相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义. 三,课堂练习1. 下列两个变量具有相关关系的是( ) A. 正方体的体积与边长 B. 人的身高与视力 C.人的身高与体重D.匀速直线运动中的位移与时间2. 在画两个变量的散点图时,下面哪个叙述是正确的( ) A. 预报变量在x 轴上,解释变量在 y 轴上 B. 解释变量在x 轴上,预报变量在 y 轴上 C. 可以选择两个变量中任意一个变量在x 轴上 D. 可选择两个变量中任意一个变量在 y 轴上3. 回归直线y bx a =+必过( )A. (0,0)B. (,0)xC. (0,)yD. (,)x y 4.r 越接近于1,两个变量的线性相关关系 .5. 已知回归直线方程0.50.81y x =-,则25x =时,y 的估计值为 四,总结求线性回归方程的步骤、线性回归模型与一次函数的不同.五:作业:一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)画散点图;(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制在什么范围内?板书设计1.1回归分析的基本思想及其初步应用(一)例1第一步:作散点图 , 第二步:求回归方程 , 第三步:代值计算解释线性回归模型与一次函数的不同课堂练习:总结:作业:课后反思:1.1回归分析的基本思想及其初步应用(二)教学目标:(1).知识与技能:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型(2).过程与方法:了解在解决实际问题的过程中寻找更好的模型的方法,了解可用残差分析的方法,比较两种模型的拟合效果.(3).情感,态度与价值观:充分利用图形的直观性,简捷巧妙的解题教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学方法:讲解法,引导法 教学过程: 一、复习准备:1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 二、讲授新课:1. 教学总偏差平方和、残差平方和、回归平方和:(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即21()ni i SST y y ==-∑.残差平方和:回归值与样本值差的平方和,即21()ni i i SSE y y ==-∑.回归平方和:相应回归值与样本均值差的平方和,即21()ni i SSR y y ==-∑.(2)学习要领:①注意i y 、i y 、y 的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即222111()()()nnni i i i i i i y y y y y y ===-=-+-∑∑∑;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数22121()1()nii i n ii yy R yy ==-=--∑∑来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 2R 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.2. 教学例题:例2 关于x 与Y 有如下数据: x 2 4 5 6 8 y3040605070为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.(答案:52211521()155110.8451000()i iiiiy yRy y==-=-=-=-∑∑,221R=-521521()18010.821000()i iiiiy yy y==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.)三,课堂练习2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有()A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反 D. a与r的符号相反3. 在一次抽样调查中测得样本的5个样本点数值如下表:四,总结分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.五:作业:1.下列有关线性回归的说法,不正确的是()A.变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图C.线性回归方程最能代表具有线性相关关系的x,y之间的关系D.任何一组观测值都能得到具有代表意义的线性回归方程2. 在建立两个变量与的回归模型中,分别选择了4个不同的模型,它们的相关指数如下,其中拟合最好的模型是()A.模型1的相关指数为0.98B.模型2的相关指数为0.80C.模型3的相关指数为0.50D.模型4的相关指数为0.25板书设计1.1回归分析的基本思想及其初步应用(二)(1)总偏差平方和:回归平方和:残差平方和:例2关于x与Y有如下数据课堂练习:总结:作业:课后反思:1.1回归分析的基本思想及其初步应用(三)教学目标:(1).知识与技能:了解常用函数的图象特点,选择不同的模型建模,体会有些非线性模型通过变换可以转化为线性回归模型。
1122211()()()nni i i ii i n ni i i i x x y y x y nx yb x x x nxa y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑选修1-2第一部分 变量间的相关关系与统计案例【基础知识】一、回归分析1.两个变量的线性相关:判断是否线性相关 ①用散点图(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ②用相关系数r(3)除用散点图外,还可用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,ni ix y nx yr -•=∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系. 2.回归方程:两个变量具有线性相关关系,数据收集如下:可用最小二乘法得到回归方程ˆybx a =+,其中3.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报. (2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心.样本点中心一定落在回归直线上。
4、回归效果的刻画:用相关指数2R来刻画回归的效果,公式是µ2 2121()1()ni iiniiy yRy y==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好二.独立性检验的基本思想及其初步应用题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A.r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r 4<r 2<0<r 3<r 1D. r 2<r 4<0<r 1<r 3【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).题型二 线性回归方程【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一组价格x 9 10 11 销售量y1110865通过分析,发现销售量y 与商品的价格x 具有线性相关关系,则销售量y 关于商品的价格x 的线性回归方程为________.(参考公式:b ^= ,a ^=y -b ^x )【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据父亲身高x /cm 174 176 176 176 178 儿子身高y /cm 175 175176177177则y 对x 的线性回归方程为( ). A .y =x -1 B .y=x +1C.y=88+12x D.y=176题型三独立性检验【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男女总计走天桥402060走斑马线203050总计6050110由K2=n ad-dc2a+b c+d a+c b+d,算得K2=110×40×30-20×20260×50×60×50≈.附表:P(K2≥k)k对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误概率不超过%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误概率不超过%的前提下,认为“选择过马路的方式与性别无关【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[,的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺分组[,29.90)[,29.94)[,29.98)[,30.02)[,30.06)[,30.10)[,30.14)频数12638618292614乙厂:(1)试分别估计两个分厂生产零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂附错误!,巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=,则有99%的把握确认这两个变量间有关系;其中错误的个数是( )A. 0B. 1C. 2D. 32.已知回归直线斜率的估计值为,样本点的中心为点(4,5),则回归直线的方程为( ) A. y ^=+4 B. y ^=+5 C. y ^=+ D. y ^=+ 3. 已知x 、y 取值如下表:x014568y从所得的散点图分析可知:y与x线性相关,且y^=+a,则a=( )A. B.C. D.4. 从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:身高x(cm)160165170175180体重y(kg)6366707274根据上表可得回归直线方程:y^=+a^,据此模型预报身高为172 cm的高三男生的体重为( )A. kgB. kgC. kgD. kg5.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x 的回归直线方程:y^=+.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过的前提下认为事件A和B有关系,则具体计算出的数据应该是( ) A.k≥ B.k< C.k≥ D.k<7.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:非统计专业统计专业男1310女720为了判断主修统计专业是否与性别有关系,根据表中数据得到,k=50(13×20-10×7)220×30×23×27≈,因为k>,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.8、某种产品的广告费支出与销售额(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为百万元时,销售额多大9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤(参考数值:)9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和优秀率都相同,勤奋程度和自觉性都一样)。
第一章 统计案例1.1 回归分析的基本思想及其初步应用A 级 基础巩固一、选择题1.已知x 和y 之间的一组数据x 0 1 2 3 y1357则y 与x 的线性回归方程y =b x +a 必过点( )A .(2,2) B.⎝ ⎛⎭⎪⎫32,0 C .(1,2)D.⎝ ⎛⎭⎪⎫32,4 解析:∵x -=14(0+1+2+3)=32,y -=14(1+3+5+7)=4,∴回归方程y ^=b ^x +a ^必过点⎝⎛⎭⎪⎫32,4.答案:D2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x -5.648;③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:①中y 与x 负相关而斜率为正,不正确;④中y 与x 正相关而斜率为负,不正确.答案:D3.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如表:甲乙丙丁R 2 0.98 0.78 0.50 0.85A .甲B .乙C .丙D .丁解析:相关指数R 2越大,表示回归模型的效果越好. 答案:A4.如图所示的是四个残差图,其中回归模型的拟合效果最好的是( )解析:残差图中,只有A 、B 是水平带状区域分布,且B 中残差点散点分布集中在更狭窄的范围内所以B 项中回归模型的拟合效果最好.答案:B5.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元) 6.2 7.58.08.59.8根据上表可得回归直线方程y =b x +a ,其中b =0.76,a ^=y --b ^x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元解析:先求a ^,再利用回归直线方程预测. 由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元). 答案:B 二、填空题6.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为________,相关指数R 2=________.解析:由题意知,y i =y ^i ∴相应的残差e ^i =y i -y ^i =0.相关指数R 2=1-答案:0 17.甲、乙、丙、丁4位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和如表:甲乙丙丁散点图残差平方和115106124103精度高.解析:由图表知,丁同学拟合的残差平方和为103最小.即R 2最大,所以丁的拟合效果好,精度高.答案:丁8.若下表数据对应的y 关于x 的线性回归方程为y ^=0.7x +a ,则a =________.解析:x -=4.5,y =3.5,回归直线过样本中心点(x -,y -),则3.5=0.7×4.5+a ,所以a =0.35.答案:0.35 三、解答题9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如表数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b ^x -; (2)预计在今后的销售中,销售与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x -=16(8+8.2+8.4+8.6+8.8+9)=8.5,y -=16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y --b ^x -=80+20×8.5=250, 从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000=-20(x-8.25)2+361.25.当且仅当x=8.25时,L取得最大值.故当单价定为8.25元时,工厂可获得最大利润.10.某企业每天由空气污染造成的经济损失y(单位:元)与空气污染指数(API)x的数据统计如下:空气污染指数(API)x150200250300经济损失y 200350550800(1)求出y与x的线性回归方程y^=b^x+a^;(2)若该地区某天的空气污染指数为800,预测该企业当天由空气污染造成的经济损失;(3)若相关指数R2=0.958 7,请说明其含义.解:(1)x-=14(150+200+250+300)=225,y-=14(200+350+550+800)=475.所以b^=50 00012 500=4,a^=y--b^x-=475-4×225=-425,所以y^=4x-425.(2)当x =800时,y ^=4×800-425=2 775.即当空气污染指数为800时,预测该企业当天造成的经济损失是2 775元.(3)R 2=0.9587,说明该企业每天空气污染造成经济损失的95.87%是由空气污染指数API 引起的,所以回归模型的拟合效果较好.B 级 能力提升1.某产品的广告费用x 与销售额y 的统计数据如下表所示:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析:x -=4+2+3+54=3.5,y -=49+26+39+544=42,因为数据的样本中心点(3.5,42)在线性回归直线上,回归方程y ^=b ^x +a ^=9.4x +a ^,所以42=a ^+9.4×3.5,所以a ^=9.1, 所以线性回归方程是y ^=9.4x +9.1,所以广告费用为6万元时销售额为9.4×6+9.1=65.5(万元). 答案:B2.已知方程y ^=0.85x -82.71是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,y ^的单位是kg ,那么针对某个体(160,53)的残差是________.解析:把x =160代入y ^=0.85x -82.71, 得y ^=0.85×160-82.71=53.29, 所以残差e ^=y -y ^=53-53.29=-0.29. 答案:-0.293.(2015·重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y (千亿元)567810(1)求y 关于t 的回归方程y =b t +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款.附:回归方程y ^=b ^t +a ^中,b ^=解:(1)由题设条件列表计算如下:it iy it 2it i y i12345123455678101491625512213250∑153655120这里n=5,t-=1n∑i=1nt i=155=3,y-=1n∑i=1ny i=365=7.2.从而b^=l tyl tt=1210=1.2,a^=y--b^t-=7.2-1.2×3=3.6,故所求回归方程为y^=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y^=1.2×6+3.6=10.8(千亿元).1.2 独立性检验的基本思想及其初步应用A级基础巩固一、选择题1.给出下列实际问题,其中不可以用独立性检验解决的是() A.喜欢参加体育锻炼与性别是否有关B.喝酒者得胃病的概率C.喜欢喝酒与性别是否有关D.青少年犯罪与上网成瘾是否有关解析:独立性检验主要是对两个分类变量是否有关进行检验,故不可用独立性检验解决的问题是B.答案:B2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%解析:由等高条形图知:女生喜欢理科的比例为20%,男生不喜欢理科的比例为40%,因此,B、D不正确.从图形中,男生比女生喜欢理科的可能性大些.答案:C3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是()A.100个心脏病患者中至少有99人打鼾B.1个人患心脏病,则这个人有99%的概率打鼾C.100个心脏病患者中一定有打鼾的人D.100个心脏病患者中可能一个打鼾的人都没有解析:这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.答案:D4.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:以下说法正确的是()A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关解析:根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.答案:D5.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表3A.成绩B.视力C.智商D.阅读量解析:根据K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),代入题中数据计算得D选项K2最大.答案:D二、填空题6.独立性检验所采用的思路是:要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.解析:独立性检验的前提是假设两个分类变量无关系,然后通过随机变量K2的观测值来判断假设是否成立.答案:无关系不成立7.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如表:随机变量K2的观测值为k=50×(13×20-10×7)223×27×20×30≈4.844.因为k>3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.解析:因为随机变量K2的观测值k>3.841,所以在犯错误的概率不超过0.05的前提下认为“主修统计专业与性别有关系”.故这种判断出现错误的可能性为5%.答案:5%8.对某校小学生进行心理障碍测试得到的列联表解析:由2×2列联表,代入计算k2的观测值k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=110×(700-200)230×80×20×90≈6.365 7.因为6.365 7>5.024,所以在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.答案:在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.三、解答题9.下表是某地区的一种传染病与饮用水的调查表:(1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水有关,并比较两种样本在反映总体时的差异.附表:解:(1)K2=830×(52×218-466×94)2518×312×146×684≈54.21.因为54.21>10.828,所以有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:把表中数据代入公式,得K2=86×(5×22-50×9)255×31×14×72≈5.785,因为5.785>3.841,所以我们有95%的把握认为该地区这种传染病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但可信度不同,(1)中有99.9%的把握肯定结论的正确性,(2)中有95%的把握肯定结论的正确性.10.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将2×2列联表补充完整.(2)生时间有关系?解:(1)列2×2列联表:(2)k =89×(24×26-31×8)255×34×32×57≈3.689>2.706.根据临界值表知P (K 2≥2.706)≈0.10.因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.B 级 能力提升1.通过随机询问100名性别不同的大学生是否爱好某项运动,得到如下的列联表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该运动与性别无关” 解析:由2×2列联表,得K 2的观测值k =100×(38×5-25×32)270×30×63×37≈7.601>6.635.又由P (K 2≥6.635)≈0.01,知选项C 正确. 答案:C2.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的效率为5%.解析:由独立性检验的思想方法,知①正确. 答案:①3.“开门大吉”是某电视台推出的游戏节目,选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:20~30;30~40(单位:岁).其猜对歌曲名称与否的人数如图所示.(1)写出2×2列联表;判断能否在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系,说明你的理由.(下面的临界值表供参考)(2)6名选手,求20~30岁与30~40岁各有几人.参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解析:(1)根据所给的二维条形图得到列联表:k =120×(10×70-10×30)220×100×40×80=3.因为3>2.706,所以在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系.(2)按照分层抽样方法可知,20~30岁年龄段抽取:6×40120=2(人);30~40岁年龄段抽取:6×80120=4(人).在上述抽取的6名选手中,年龄在20~30岁的有2人,年龄在30~40岁的有4人.。