高中数学选修1-2《统计案例》知识点讲义汇编
- 格式:doc
- 大小:158.00 KB
- 文档页数:6
人教版高中数学选修1-2知识点第一章统计案例1.线性回归方程①变量之间的两类关系:函数关系与相关关系;[来源:简单高中生(ID:jiandan100cn)]②制作散点图,判断线性相关关系;∧1nnx i y i -nx i =1y ⎪⎪③线性回归方程:y =bx +a (最小二乘法)。
其中,⎨⎪b =i =x i2-nx 2⎪⎪⎧⎩a =y -b ⎪x∑∑注意:线性回归直线经过定点(x ,y ).2.相关系数(判定两个变量线性相关性):∑nnnr =i =1i =i =11(i-x )y i -y ∑(xi-x )∑(yi-y )22(x注意:(1)r >0时,变量x ,y 正相关;r <0时,变量x ,y 负相关;(2)①|r |越接近于1,两个变量的线性相关性越强;②|r |接近于0时,两个变量之间几乎不存在线性相关关系。
3.条件概率对于任何两个事件A 和B ,在已知B 发生的条件下,A 发生的概率称为B 发生时A 发生的条件概率.记为P (A |B ),其公式为P (A |B )=P (AB )P (A )4.相互独立事件(1)一般地,对于两个事件A ,B ,如果P (AB )=P (A )P (B ),则称A 、B 相互独立.(2)如果A 1,A 2,…,A n 相互独立,则有P (A 1A 2…A n )=P (A 1)P (A 2)…P (A n ).(3)如果A ,B 相互独立,则A 与-B ,-A 与B ,-A 与-B 也相互独立.5.独立性检验(分类变量关系):[来源:简单高中生(ID:jiandan100cn)](1)2×2列联表设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1;通过观察得到下表所示数据:并将形如此表的表格称为2×2列联表(2)独立性检验根据2×2列联表中的数据判断两个变量A,B是否独立的问题叫2×2列联表的独立性检验。
复习课(一) 统计案例回归分析(1)变量间的相关关系是高考解答题命题的一个,主要考查变量间相关关系的判断,求解回归方程并进行预报估计,题型多为解答题,有时也有小题出现.(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题.[考点精要]1.一个重要方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归直线方程为y =bx +a .其中b =∑i =1nx i -xy i -y∑i =1nx i -x2,a =y -b x .2.重要参数相关系数r 是用来刻画回归模型的回归效果的,其绝对值越大,模型的拟合效果越好. 3.两种重要图形[典例] (2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 1 2 3 4 5 6 7 8 零件尺寸 9.95 10.12 9.96 9.9610.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得x =116∑i =116x i =9.97,s =116∑i =116x i -x 2=116⎝⎛⎭⎪⎪⎫∑i =116x 2i -16x2≈0.212,∑i =116i -8.52≈18.439,∑i =116(x i -x )(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x -3s ,x +3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1nx i -xy i -y∑i =1nx i -x2∑i =1ny i -y2,0.008≈0.09.[解] (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数为r =∑i =116x i -xi -8.5∑i =116x i -x2∑i =116i -8.52=-2.780.212×16×18.439≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s ,x +3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,所以这条生产线当天生产的零件尺寸的均值的估计值为10.02,∑i =116x 2i =16×0.2122+16×9.972≈1 591.134, 剔除第13个数据,剩下数据的样本方差为 115(1 591.134-9.222-15×10.022)≈0.008, 所以这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.[类题通法]求线性回归方程的基本步骤[注意] 对非线性回归问题应利用变量代换,把问题化为线性回归分析问题,使之得到解决.[题组训练]1.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的回归系数为b ,回归截距是a ,那么必有( )A .b 与r 的符号相同B .a 与r 的符号相同C .b 与r 的符号相反D .a 与r 的符号相反解析:选A 正相关时,b >0,r >0;负相关时,b <0,r <0.2.为研究某种图书每册的成本费y (元)与印刷数x (千册)的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.x y u∑i =18(x i -x )2∑i =18(x i -x )(y i -y )∑i =18(u i -u )2∑i =18(u i -u )(y i -y )15.253.630.269 2 085.5-230.30.7877.049表中u i =1x i ,u =18∑i =18u i .(1)根据散点图判断:y =a +bx 与y =c +dx哪一个更适宜作为每册成本费y (元)与印刷数x (千册)的回归方程类型?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(回归系数的结果精确到0.01);(3)若每册书定价为10元,则至少应该印刷多少千册才能使销售利润不低于78 840元?(假设能够全部售出,结果精确到1)(附:对于一组数据(ω1,v 1),(ω2,v 2),…,(ωn ,v n ),其回归直线v =a +βω的斜率和截距的最小二乘估计分别为β=∑i =1nωi -ωv i -v∑i =1nωi -ω2,α=v -βω)解:(1)由散点图判断,y =c +d x适宜作为每册成本费y (元)与印刷册数x (千册)的回归方程.(2)令u =1x,先建立y 关于u 的线性回归方程,由于d =∑i =18u i -uy i -y∑i =18u i -u2=7.0490.787≈8.957≈8.96, ∴c =y -d ·u =3.63-8.957×0.269≈1.22, ∴y 关于u 的线性回归方程为y =1.22+8.96u , 从而y 关于x 的回归方程为y =1.22+8.96x.(3)假设印刷x 千册,依题意:10x -⎝ ⎛⎭⎪⎫1.22+8.96x ·x ≥78.840.即8.78x ≥87.8,解得x ≥10,∴至少印刷10千册才能使销售利润不低于78 840元.独立性检验(1)为容易题,多与概率、统计等内容综合命题.(2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系” 这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系” 成立,在该假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过概率P(K2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k>6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系” 这一结论成立的可信程度约为99%.[考点精要]独立性判断的方法(1)当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;(2)当χ2>2.706时,有90%的把握判定变量A,B有关联;(3)当χ2>3.841时,有95%的把握判定变量A,B有关联;(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.[典例] (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)附:P (χ2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828,χ2=n ad -bc 2a +bc +d a +cb +d.[解] (1)旧养殖法的箱产量低于50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A 的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466根据表中数据及χ2的计算公式得, χ2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[类题通法]独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)χ2统计量法:通过公式χ2=n ad -bc 2a +bc +d a +cb +d先计算χ2,再与临界值表作比较,最后得出结论.[题组训练]1.如果有99%的把握认为变量A 和B 有关系,那么χ2( ) A .χ2≥3.841 B .χ2<3.841 C .χ2≥6.635D .χ2<6.635解析:选C 将χ2的值与临界值比较,可知若有99%的把握认为变量A 和B 有关系,则χ2≥6.635.故选C.2.下表是某地区的一种传染病与饮用水的调查表:得病 不得病 总计 干净水 52 466 518 不干净水 94 218 312 总计146684830(1)能否有99%的把握认为这种传染病与饮用水的卫生程度有关,请说明理由. (2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否有95%的把握认为这种疾病与饮用水有关.解:(1)把表中的数据代入公式得 χ2=830×52×218-466×942146×684×518×312≈54.21.∵54.21>6.635,所以有99%的把握认为该地区这种传染病与饮用水不干净有关. (2)依题意得2×2列联表:得病 不得病 总计 干净水 5 50 55 不干净水 9 22 31 总计147286此时,χ2=86×5×22-50×9214×72×55×31≈5.785.因为5.785>3.841,所以有95%的把握认为该种疾病与饮用水不干净有关.1.为了研究气温对某种饮料销售的影响,经过统计,得到一个卖出饮料数与当天气温的对比表:摄氏温度 -1 3 8 13 17 饮料瓶数3405273122( ) A .140 B .190 C .210D .240解析:选B 依题意得x =15×(-1+3+8+13+17)=8,y =15×(3+40+52+73+122)=58,则回归直线必经过点(8,58),于是有a =58-6×8=10.当x =30时,y =6×30+10=190,故选B.2.下列说法中正确的有:( ) ①若r >0,则x 增大时,y 也相应增大; ②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.A .①②B .②③C .①③D .①②③解析:选C 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确.r <0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.3.有下列数据:A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:选A 分别把x =1,2,3,代入求值,求最接近y 的值.即为模拟效果最好,故选A.4.某产品的广告费用x 与销售额y 的统计数据如下表:6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析:选B x =4+2+3+54=3.5,y =49+26+39+544=42,∵数据的样本中心点(3.5,42)在线性回归直线上,回归方程y =bx +a =9.4x +a ,∴42=a +9.4×3.5,∴a =9.1,∴线性回归方程是y =9.4x +9.1,∴广告费用为6万元时销售额为9.4×6+9.1=65.5(万元).5.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是( )A .有99%的人认为该栏目优秀B .有99%的人认为该栏目是否优秀与改革有关系C.有99%的把握认为电视栏目是否优秀与改革有关系D.没有理由认为电视栏目是否优秀与改革有关系解析:选 D 只有χ2>6.635时才能有99%的把握认为电视栏目是否优秀与改革有关系.而即使χ2>6.635也只是对“电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,故选D.6.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效果与教学措施( )优、良、中差总计实验班48250对比班381250总计8614100A.有关B.无关C.关系不明确D.以上都不正确解析:选A 随机变量χ2=100×48×12-38×2250×50×86×14≈8.306>6.635,则有99%的把握认为“实验效果与教学措施有关”.7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如表),由最小二乘法求得回归方程y=0.67x+54.9.零件数x(个)1020304050加工时间y(min)62758189 现发现表中有一个数据看不清,请你推断出该数据的值为________.解析:由表格知x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a.则a+62+75+81+89=75×5,所以a=68.答案:688.某学校对课程《人与自然》的选修情况进行了统计,得到如下数据:选未选总计男40545450女230220450总计635265900那么,认为选修《人与自然》与性别有关的把握是______.解析:χ2=n ad-bc2a+b c+d a+c b+d=163.794>6.635,即有99%的把握认为选修《人与自然》与性别有关.答案:99%9.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则r 1,r 2的大小关系为________.解析:对于变量X 与Y 而言,Y 随X 的增大而增大,故变量Y 与X 正相关,即r 1>0;对于变量U 与V 而言,V 随U 的增大而减小,故变量V 与U 负相关,即r 2<0.故r 2<0<r 1.答案:r 2<r 110.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗?总成绩情况数学成绩情况总成绩好 总成绩不好总计 数学成绩好 478 12 490 数学成绩不好399 24 423 总计87736913解:根据题意,χ2=913×478×24-399×122490×423×877×36≈6.233>3.841,因此有95%的把握认为“文科学生总成绩不好与数学成绩不好有关系”.11.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如表所示:积极参加 班级工作 不太主动 参加班级工作总计 学习积极性高 18学习积极性一般19总计50(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是25,请完成上面的2×2列联表.(2)在(1)的条件下,试运用独立性检验的思想方法分析:能否有99%的把握认为学生的学习积极性与对待班级工作的态度有关?并说明理由.P (χ2≥k )0.010 0.005 0.001 k6.6357.87910.828解:(1)如果随机抽查这个班的一名学生,抽到积极参加班级工作的学生的概率是1225,所以积极参加班级工作的学生有24人,由此可以算出学习积极性一般且积极参加班级工作的人数为6,不太主动参加班级工作的人数为26,学习积极性高但不太主动参加班级工作的人数为7,学习积极性高的人数为25,学习积极性一般的人数为25,得到:积极参加 班级工作 不太主动 参加班级工作总计 学习积极性高 18 7 25 学习积极性一般6 19 25 总计 242650(2)χ2=50×18×19-6×7225×25×24×26≈11.538,因为11.538>6.635,所以有99%的把握可以认为学习积极性与对待班级工作的态度有关系.12.如图是我国2012年到2018年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2020年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.892×2.646×0.55≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2020年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2020年我国生活垃圾无害化处理量将约为1.82亿吨.。
统计案例知识梳理一、知识结构图:二、要点回顾:1.2×2列联表.2.独立性检验与相关性检验(见下表).含义所用统计量步骤相同点不同点独立性检验2χ都是统计学中的常用方法,且步骤相似,思想一致所用的统计量不同,临界值不同相关性检验r三、关键信息强化:1.独立性检验的两个重要工具是:2χ统计量和临界值,只有准确计算2χ(熟记计算公式),熟记各临界值及统计决断的原则,才能正确地处理独立性检验的问题.2.线性回归方程y bx a=+中回归系数b和回归截距a的意义:b的意义:x每增加(或减少)一个单位,y平均改变b个单位.a的意义:y不受x变化影响的部分.3.由线性回归方程中a b,的计算公式a y bx=-知:回归直线y bx a=+必过点()x y,.4.做回归分析要有实际意义,而如何才能知道有无实际意义呢?———相关性检验.5.相关系数r和临界值0.05r是正确进行相关性检验的两大重要因素.要明确相关系数r的大小与相关程度的关系(即r的性质),并要会根据公式r的查法要熟练掌握.计算或利用计算器计算.另外0.056.相关性检验就是检验r与r的大小关系.0.05四、特别警示:1.分析两个变量相关关系的常用方法:(1)利用散点图进行判断:把样本数据表示的点在平面直角坐标系中作出,从而得到散点图,如果这些点大致分布在通过散点图中心的一条直线的附近,那么就说这两个变量之间具有线性相关关系.r≤而且r越接近于1,相关程度越强;(2)利用相关系数r进行判断:1r越接近于0,相关程度越弱.2.对具有相关关系的两个变量进行统计分析时,首先进行相关性检验,在确认具有线性相关关系后,再求线性回归方程.3.在实际问题中,经常会面临需要推断的问题,在作推断时,我们不能仅凭主观意愿作出结论,而是需要通过试验来收集数据,并根据独立性检验的原理做出合理的推断.4.统计方法是可能犯错误的,不管是回归分析还是独立性检验,得到的结论都可能犯错误.好的统计方法就是要尽量降低犯错误的概率,比如在推断吸烟与患肺癌是否有关时,通过收集数据,整理分析数据得出的结论是“吸烟与患肺癌有关”,而且这个结论犯错误的概率在0.01以下,实际上,这是统计思维与确定性思维差异的反应,这是数学问题,不一定在实际中得到验证.五、应用举例:例1考察人的高血压是否与食盐摄入量有关,对某地区人群进行跟踪调查,得到以下数据:有多大把握认为高血压病与食盐摄入量有关? 解:由公式得22(34135326220)163380.154910.8286015732541379χ⨯-⨯⨯=≈>⨯⨯⨯, ∴有99.9%的把握说高血压病与食盐摄入量有关.例2 对某种产品进行一项腐蚀加工试验,得到腐蚀时间x (s )和腐蚀深度y (m μ)数据如下:(1)进行相关性检验;(2)如果x 与y 之间具有线性相关关系,求出线性回归方程,并预测当腐蚀时间为75s 时,腐蚀深度为多少m μ? 解:(1)计算得0.050.98360.632r r =>=, 则x 与y 具有线性相关关系. (2)求得 4.93a =,0.32b =, ∴线性回归方程为0.32 4.93y x =+,当腐蚀时间为75s 时,将75x =代入得29y ≈, ∴腐蚀深度约为29m μ.。
第一章 统计案例一、回归分析得基本思想及其初步应用1、数学变量相关关系得定义:当一个或几个相互联系得变量取一定得数值时,与之相对应得另一变量得值虽然不确定,但它仍按某种规律在一定得范围内变化。
变量间得这种相互关系,称为具有不确定性得相关关系、(1)按方向分类①正相关:两个变量得变化趋势相同,从散点图可以瞧出各点散布得位置就是从左下角到右上角得区域,即一个变量得值由小变大时,另一个变量得值也由小变大。
②负相关:两个变量得变化趋势相反,从散点图可以瞧出各点散布得位置就是从左上角到右下角得区域,即一个变量得值由小变大时,另一个变量得值由大变小。
正相关 负相关 不相关 (2)相关性系数r(在《必修3》中有介绍)用相关系数r 来衡量两个变量之间得相关关系2、两变量之间得关系存在两种不同得类型(1)相关关系——非确定性关系 (2)函数关系——确定性关系3、回归分析就是对具有相关关系得两个变量进行统计分析得一种常用方法。
其基本步骤就是:①画出两个变量得散点图; ②求回归直线方程;③并用回归直线方程进行预报。
4、回归直线方程:()()()10.00,2,.b b r x y ≠==说明:回归系数因为当时,相关系数这时不具有线性相关关系.称为样本点的中心,回归直线必定经过样本点的中心例如:,.i y bx a e a b e e y y=++=-4、线性回归模型用来表示其中和为模型的未知参数,称为随机误差 残差:5、相关指数就是用来刻画回归效果得, 越大,残差平方与越小,模型得拟合效果就越好。
二、独立性检验得基本思想及其初步应用1、列联表假设有两个分类变量X 与Y,它们得值域分另为{x 1, x 2}与{y 1, y 2},其样本频数列联表为: y 1 y 2 总计 x 1 a b a+b x 2 c d c+d 总计a+cb+da+b+c+d()()()()()222=n ad bc K n a b c d a b c d a c b d -=+++++++、随机变量,其中为样本容量.3、独立性检验(1)利用随机变量来判断“两个分类变量有关系”得方法称为独立性检验,并且能较精确地给出这种判断得可靠程度。
选 修 1-2 知 识 点 总 结第一章:统计案例一.回归分析的基本思想及其初步应用1.正相关:如果点散布在从左下角到右上角的区域,则称这两个变量的关系为正相关。
2.负相关:如果点散布在从左上角到右下角的区域,则称这两个变量的关系为负相关。
3.回归直线方程的斜率和截距公式:⎪⎪⎩⎪⎪⎨⎧-=--=---=∑∑∑∑====xb y a xn x yx n yx x x y yx x b n i i ni ii n i i ini i1221121)()()((此公式不要求记忆)。
4.最小二乘法:求回归直线,使得样本数据的点到它的距离的平方最小的方法。
e :我们把线性回归模型e a bx y ++=,其中b a ,为模型的未知参数,e 称为随机误差。
随机误差a bx y e i i i --=eˆ:我们用回归方程a x b y ˆˆˆ+=中的y ˆ估计a bx +,随机误差)(a bx y e +-=, 所以y y e ˆˆ-=是e 的估计量,故a x b y y y e ii i i i ˆˆˆˆ--=-=,e ˆ称为相应于点),(i i y x 的残差。
2R :∑∑==---=ni ini iy yyy R 12122)()ˆ(1,2R 的表达式中21)(∑=-ni i y y 确定,(1)2R 越大,残差平方和21)ˆ(∑=-ni i yy 越小,即模型的拟合效果越好; (2)2R 越小,残差平方和21)ˆ(∑=-ni i yy 越大,即模型的拟合效果越差。
2R 越接近1,表示回归效果越好。
二.独立性检验的基本思想及其初步应用1.分类变量:这种变量的不同“值”表示个体所属的不同类别的变量。
2.列联表:列出两个分类变量的频数表,称为列联表。
22⨯列联表:2K 的观测值:))()()(()(2d b c a d c b a bc ad n k ++++-=。
0k 表:如果0k k ≥,就推断“Y X ,有关系”,这种推断犯错误的概率不超过α; 否则,在样本数据中没有发现足够证据支持结论“Y X ,有关系”。
统计案例一、基础知识:1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法; 判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1) 在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系, 我们将它称为正相关.(2) 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负 相关. (3) 如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关 关系. (1)最小一乘法: 使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(X I , y i ), (X 2 , y 2),…,(X n ,nA A A A 刀 i =1 (XL X 胖一 y )y = bx + a ,贝Hb = —!一n 二 =刀 i =1 (Xi _ X f其中,b 是回归方程的斜率,a 是在y 轴上的截距.3. 残差分析(1) 残差:对于样本点(X 1, y 1), (X 2, y 2),…,(x n , y n ),它们的随机误差为 e i = y i — bx i — a ,AAAAAi = 1,2,…,n ,其估计值为 e i = y i — y i = y — bx i — a , i = 1,2,…,n , e i 称为相应于点(X i , y“ 的残差.nA2刀 i =1 (y 一 y d (2) 相关指数:R = 1— 一.E i =1 (y i - y )2 4. 独立性检验(1) 利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2) 列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量 X 和Y ,它们的可能取值分别为{X 1, X 2}和{y 1,沁,其样本频数列联表(2 X 2列联表)为n刀 X i y i — nx y A — A — & , a = y — b Xy n ),其回归方程为则由该观测数据算得的线性回归方程可能是( )A. y = 0.4x + 2.3D.y =— 0.3x + 4.4的数据如下表:年份2007 20082009 2010 2011 2012 2013年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;⑵利用(1)中的回归方程,分析 2007年至2013年该地区农村居民家庭人均纯收入的变 化情况,并预测该地区 215年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:n刀 t i — t y i — yAi =1 A — A —b = n —, a = y — b t .刀 t 「T 2i = 1— 1[解](1)由所给数据计算得 t = 7(1 + 2 + 3; 4; 5 + 6 + 7) = 4, —1y = 7(2.9 + 3.3 + 3.6+ 4.4+ 4.8 + 5.2+ 5.9)= 4.3,7—刀(t i — t )2= 9+ 4+ 1 + 0+ 1 + 4 + 9= 28, 3 分7刀(t i —)(y i — y )= (— 3) X (— 1.4) + (— 2) X (— 1) + (— 1) X (— 0.7) + 0 X 0.1+ 1X 0.5 +i = 12X 0.9+ 3X 1.6 = 14,P(K 2> k)0.15 0.10 0.05 0.025 0.010 0.005 0.001k2.072 2.7063.841 5.024 6.635 7.879 10.828a +b a ;:b l dc +d (其中 n = a + b + c + d 为样本容量)-、例题:1、(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数 x = 3, y = 3.5,B.y = 2x - 2.4C.y = — 2x ; 9.52、(2014全国卷n )某地区2007年至2013年农村居民家庭人均纯收入 y (单位:千元)则随机变量714 A— A —=0,5, a = y — b t = 4.3 — 0.5 X 4 = 2.3,28所求回归方程为y = 0.5t + 2.3.6分(2)由⑴知,b = 0.5>0 ,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加0.5千元.9分将2015年的年份代号t = 9代入(1)中的回归方程,得y = 0.5X 9 + 2.3= 6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12分2、[2016石家庄模拟]班主任对班级22名学生进行了作业量多少的调查,数据如下:在喜欢玩电脑游戏的12人中,有10人认为作业多,2人认为作业不多;在不喜欢玩电脑游戏 的10人中,有3人认为作业多,7人认为作业不多. (1) 根据以上数据建立一个 2X 2列联表;(2) 试问喜欢玩电脑游戏与认为作业多少是否有关系.参考公式:K2'=a + bC ;;a ;cb + d ,其中 n = a + b + c + d.参考数据:2P(K > k °)0.050 0.010 0.001k 0 3.841 6.63510.828解(1)根据题中所给数据,得到如下列联表:认为作业多认为作业不多总计 喜欢玩 电脑游戏10212不喜欢玩 电脑游戏 3 7 10 总计13 9222i = 1•••有95%的把握认为喜欢玩电脑游戏与认为作业多少有关. 三、作业1、2 .某产品的广告费用 x 与销售额y 的统计数据如下表:根据上表可得回归方程y = bx + a 中的b 为9.4,据此模型预报广告费用为 6万元时销售额 为(B )A . 63.6万元B . 65.5万元 C. 67.7万元 D . 72.0万元2、 [2017温州月考]为了检验某套眼保健操预防学生近视的作用,把 500名做该套眼保健操的学生与另外 500名未做该套眼保健操的学生的视力情况作记录并比较, 提出假设H 。
第一章 统计案例
一、回归分析的基本思想及其初步应用
1、数学变量相关关系的定义:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。
变量间的这种相互关系,称为具有不确定性的相关关系.
(1)按方向分类
①正相关:两个变量的变化趋势相同,从散点图可以看出各点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大。
②负相关:两个变量的变化趋势相反,从散点图可以看出各点散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小。
正相关 负相关 不相关
(2)相关性系数r (在《必修3》中有介绍)
用相关系数r 来衡量两个变量之间的相关关系
()()
()()
1
2
2
1
1
n
i
i
i n n
i
i
i i x x
y y r x x y y ===--=
--∑∑∑
2、两变量之间的关系存在两种不同的类型
(1)相关关系——非确定性关系 (2)函数关系——确定性关系
3、回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。
其基本步骤是:①画出两个变量的散点图; ②求回归直线方程;
③并用回归直线方程进行预报。
4、回归直线方程:∧
∧∧+=a x b y
⎪⎪
⎪⎩
⎪⎪⎪⎨⎧
-=--=---=∧∧====∧∑∑∑∑x b y a x n x y
x n y x x x y y x x b n i i n
i i i n
i i n i i i ,)())((1
221121
()()()10.00,2,.
b b r x y ≠==说明:回归系数因为当时,相关系数这时不具有线性相关关系.
称为样本点的中心,回归直线必定经过样本点的中心
例如:
,.i y bx a e a b e e y y
=++=-4、线性回归模型用来表示其中和为模型的未知参数,称为随机误差 残差:
5、相关指数2R 是用来刻画回归效果的,
2R 越大,残差平方和越小,模型的拟合效果就越好。
二、独立性检验的基本思想及其初步应用
1、列联表
假设有两个分类变量X 和Y ,它们的值域分另为{x 1, x 2}和{y 1, y 2},其样本频数列联表为: y 1 y 2 总计 x 1 a b a+b x 2
c
d
c+d 总计 a+c
b+d
a+b+c+d
()()
2
21
2
11n
i i i n
i
i y y R y y ==-=-
-∑∑
()()()()()
2
2
2=n ad bc K n a b c d a b c d a c b d -=+++++++、随机变量,其中为样本容量.
3、独立性检验
(1)利用随机变量2
K 来判断“两个分类变量有关系”的方法称为独立性检验,并且能较精确地给出这种判断的可靠程度。
(2)具体的做法是,由表中的数据算出随机变量K 2的值。
K 2的值越大,说明“X 与Y 有关系”成立的可能性越大。
下表k 是观测值,概率P 为犯错误的概率。
2()P K k ≥ 0.50
0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
例如:
4、利用列联表直接计算发现 和 相差很大,就判断两个分类变量之间有关系。
a a
b +
c c d
+。