3 第3讲 变量间的相关关系、统计案例
- 格式:doc
- 大小:636.50 KB
- 文档页数:15
第1讲概率与统计(小题)热点一随机抽样1.随机抽样的各种方法中,每个个体被抽到的概率都是相等的.2.系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.3.分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.例1(1)(2019·汉中联考)某机构对青年观众是否喜欢跨年晚会进行了调查,人数如下表所示:不喜欢喜欢男性青年观众3010女性青年观众3050现要在所有参与调查的人中用分层抽样的方法抽取n人做进一步的调研,若在“不喜欢的男性青年观众”的人中抽取了6人,则n等于()A.12 B.16 C.20 D.24(2)(2019·上饶联考)某校高三科创班共48人,班主任为了解学生高考前的心理状况,将学生按1至48的学号用系统抽样方法抽取8人进行调查,若抽到的最大学号为48,则抽到的最小学号为________.跟踪演练1(1)(2019·漳州质检)某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,编号分别为001,002,…,599,600从中抽取60个样本,如下提供随机数表的第4行到第6行:32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 4284 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 0432 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45若从表中第6行第6列开始向右依次读取3个数据,则得到的第6个样本编号为()A .522B .324C .535D .578(2)(2019·合肥质检)某工厂生产的A ,B ,C 三种不同型号的产品数量之比为2∶3∶5,为研究这三种产品的质量,现用分层抽样的方法从该工厂生产的A ,B ,C 三种产品中抽出样本容量为n 的样本,若样本中A 型产品有10件,则n 的值为( ) A .15 B .25 C .50 D .60 热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数 频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.4.对于其他的统计图表,要注意结合问题背景分析其所表达的意思,进而解决所给问题. 例2 (1)(2019·厦门质检)下图是某公司2018年1月至12月空调销售任务及完成情况的气泡图,气泡的大小表示完成率的高低,如10月份销售任务是400台,完成率为90%,则下列叙述不正确的是( )A .2018年3月的销售任务是400台B .2018年月销售任务的平均值不超过600台C .2018年第一季度总销售量为830台D .2018年月销售量最大的是6月份(2)(2019·临沂质检)已知8位学生的某次数学测试成绩的茎叶图如图,则下列说法正确的是( )A .众数为7B .极差为19C.中位数为64.5 D.平均数为64跟踪演练2(1)已知某高中的一次测验中,甲、乙两个班级的九科平均分的雷达图如图所示,下列判断错误的是()A.乙班的理科综合成绩强于甲班B.甲班的文科综合成绩强于乙班C.两班的英语平均分分差最大D.两班的语文平均分分差最小(2)(2019·黄冈模拟)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:将阅读时间不低于30分钟的学生称为“阅读霸”,则下列命题正确的是()A.抽样表明,该校约有一半学生为阅读霸B.该校只有50名学生不喜欢阅读C.该校只有50名学生喜欢阅读D.抽样表明,该校有50名学生为阅读霸热点三变量间的相关关系、统计案例高考中解决变量间的相关关系问题时需注意:(1)回归直线一定过样本点的中心(x,y).(2)随机变量K2的观测值k越大,说明“两个变量有关系”的可能性越大.例3(1)(2019·皖江联考)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温x (℃) 18 13 10 -1 用电量y (度)24343864由表中数据得线性回归方程y ^=b ^x +a ^中b ^=-2,预测当温度为-5 ℃时,用电量的度数约为( )A .64B .66C .68D .70(2)某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表:使用智能手机不使用智能手机总计 学习成绩优秀 4 8 12 学习成绩不优秀16 2 18 总计201030附表:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828经计算K 2的观测值k =10,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响跟踪演练3 (1)(2019·长春质检)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),上图为选取的15名志愿者身高与臂展的折线图,下图为身高与臂展所对应的散点图,并求得其回归方程为y ^=1.16x -30.75,以下结论中不正确的为( )A .15名志愿者身高的极差小于臂展的极差B .15名志愿者身高和臂展成正相关关系C .可估计身高为190厘米的人臂展大约为189.65厘米D .身高相差10厘米的两人臂展都相差11.6厘米(2)(2019·泸州模拟)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100附表:P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算得,K 2的观测值k =100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”真题体验1.(2019·全国Ⅰ,文,6)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生2.(2018·全国Ⅰ,文,3)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半3.(2018·全国Ⅲ,文,14)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.押题预测1.某市气象部门根据2018年各月的每天最高气温平均值与最低气温平均值(单位:℃)数据,绘制如下折线图:那么,下列叙述错误的是( )A .各月最高气温平均值与最低气温平均值总体呈正相关B .全年中,2月份的最高气温平均值与最低气温平均值的差值最大C .全年中各月最低气温平均值不高于10 ℃的月份有5个D .从2018年7月至12月该市每天最高气温平均值与最低气温平均值都呈下降趋势 2.给出如下列联表患心脏病 患其他病 总 计 高血压 20 10 30 非高血压 30 50 80 总 计5060110P (K 2≥10.828)≈0.001,P (K 2≥6.635)≈0.010,参照公式k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得到的正确结论是( )A .有99%以上的把握认为“高血压与患心脏病无关”B .有99%以上的把握认为“高血压与患心脏病有关”C .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病无关”D .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病有关” 3.某设备的使用年数x 与所支出的维修总费用y 的统计数据如下表:使用年数x (单位:年) 2 3 4 5 6 维修总费用y (单位:万元)1.54.55.56.57.5根据上表可得线性回归方程为y ^=1.4x +a ^.若该设备维修总费用超过12万元就报废,据此模型预测该设备最多可使用________年.A 组 专题通关1.(2019·河北省五个一名校联盟联考)经调查,某市骑行共享单车的老年人、中年人、青年人的比例为1∶3∶6,用分层抽样的方法抽取了一个容量为n 的样本进行调查,其中中年人数为12人,则n 等于( ) A .30 B .40 C .60D .802.某校李老师本学期负责高一甲、乙两个班的数学课,两个班都是50个学生,如图反映的是两个班的本学期5次数学测试中的班级平均分对比情况,根据图中信息,下列结论不正确的是( )A .甲班的数学平均成绩高于乙班B .乙班的数学成绩没有甲班稳定C .下次测试乙班的数学平均分高于甲班D .在第1次测试中,甲、乙两个班总平均分为783.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7 D .0.84.某学校为落实学生掌握社会主义核心价值观的情况,用系统抽样的方法从全校2 400名学生中抽取30人进行调查.现将2 400名学生随机地从1~2 400编号,按编号顺序平均分成30组(1~80号,81~160号,…,2 321~2 400号),若第3组与第4组抽出的号码之和为432,则第6组抽到的号码是( ) A .416 B .432 C .448 D .4645.(2019·郑州质检)若1,2,3,4,m (m ∈R )这五个数的平均数等于其中位数,则m 等于( ) A .0或5 B .0或52 C .5或52 D .0或5或526.(2019·长春质检)下列命题:①在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率,R 2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在线性回归方程y ^=-0.5x +2中,当解释变量x 每增加一个单位时,预报变量y ^平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的个数是( ) A .1 B .2 C .3 D .47.(2019·衡水质检)某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )A .得分在[40,60)之间的共有40人B .从这100名参赛者中随机选取1人,其得分在[60,80)的概率为0.5C .估计得分的众数为55D .这100名参赛者得分的中位数为658.(2019·济宁模拟)如图为某市国庆节7天假期的楼房认购量与成交量的折线图,小明同学根据折线图对这7天的认购量(单位:套)与成交量(单位:套)作出如下判断:①日成交量的中位数是16;②日成交量超过日平均成交量的有2天;③认购量与日期正相关;④10月7日认购量的增幅大于10月7日成交量的增幅.则上述判断正确的个数为( )A .0B .1C .2D .39.(2019·广东天河区普通高中测试)为保证树苗的质量,林业管理部门在每年3月12日植树节前都对树苗进行检测,现从甲、乙两种树苗中各抽测了10株树苗的高度(单位:cm),其茎叶图如图所示,则下列描述正确的是( )A .甲种树苗的平均高度大于乙种树苗的平均高度,甲种树苗比乙种树苗长得整齐B .甲种树苗的平均高度大于乙种树苗的平均高度,乙种树苗比甲种树苗长得整齐C .乙种树苗的平均高度大于甲种树苗的平均高度,乙种树苗比甲种树苗长得整齐D .乙种树苗的平均高度大于甲种树苗的平均高度,甲种树苗比乙种树苗长得整齐10.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得出2×2列联表,由计算可得K 2≈8.806.P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828参照附表,得到的正确结论是( )A .有99.5%以上的把握认为“爱好该项运动与性别无关”B .有99.5%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”11.已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组数据如下表所示,则下列说法中错误的是( )x 6 8 10 12 y6m32A.变量x ,y 之间呈现负相关关系 B .可以预测当x =20时,y ^=-3.7 C .m =4D .由表格数据知,该回归直线必过点(9,4)12.(2019·江淮质检)为了了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是( )A .是否倾向选择生育二胎与户籍有关B .是否倾向选择生育二胎与性别有关C .倾向选择生育二胎的人员中,男性人数与女性人数相同D .倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数13.(2019·河南省九师联盟质检)为了了解世界各国的早餐饮食习惯,现从由中国人、美国人、英国人组成的总体中用分层抽样的方法抽取一个容量为m 的样本进行分析.若总体中的中国人有400人、美国人有300人、英国人有300人,且所抽取的样本中,中国人比美国人多10人,则样本容量m =________.14.某班40名学生参加普法知识竞赛,成绩都在区间[40,100]内,其频率分布直方图如图所示,则成绩不低于60分的人数为________.15.(2019·成都模拟)节能降耗是企业的生存之本,树立一种“点点滴滴降成本,分分秒秒增效益”的节能意识,以最好的管理,来实现节能效益的最大化.为此某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润:年号1 2 3 4 5 年生产利润y (单位:千万元)0.70.811.11.4预测第8年该国企的生产利润约为________千万元.参考公式及数据:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2;a ^=y -b ^x ,∑i =15(x i -x )(y i-y )=1.7, i =15(x i -x )2=10.根据该折线图,下列结论正确的是________(填序号). ①月接待游客量逐月增加;②年接待游客量逐年增加; ③各年的月接待游客量髙峰期大致在7,8月份;④各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳.B 组 能力提高17.(2019·葫芦岛模拟)近日,据媒体报道称,“杂交水稻之父”袁隆平及其团队培育的超级杂交稻品种“湘两优900(超优千号)”再创亩产世界纪录,经第三方专家测产,该品种的水稻在实验田内亩产1 203.36公斤.中国工程院院士袁隆平在1973年率领科研团队开启了杂交水稻王国的大门,在数年的时间内就解决了十多亿人的吃饭问题,有力回答了世界“谁来养活中国”的疑问.2012年,在袁隆平的实验田内种植了A ,B 两个品种的水稻,为了筛选出更优的品种,在A ,B 两个品种的实验田中分别抽取7块实验田,如图所示的茎叶图记录了这14块实验田的亩产量(单位:10 kg),通过茎叶图比较两个品种的平均数及方差,并从中挑选一个品种进行以后的推广,有如下结论:①A 品种水稻的平均产量高于B 品种水稻,推广A 品种水稻;②B 品种水稻的平均产量高于A 品种水稻,推广B 品种水稻;③A 品种水稻的产量比B 品种水稻更稳定,推广A 品种水稻;④B 品种水稻的产量比A 品种水稻更稳定,推广B 品种水稻;其中正确结论的编号为( )A .①②B .①③C .②④D .①④18.(2019·南昌模拟)已知具有线性相关的五个样本点A 1(0,0),A 2(2,2),A 3(3,2),A 4(4,2),A 5(6,4),用最小二乘法得到回归直线l 1:y ^=b ^x +a ^,过点A 1,A 2的直线l 2:y =mx +n ,那么下列说法中,正确的有________.(填序号) ①m >b ^,a ^>n ; ②直线l 1过点A 3;③∑i =15(y i -b ^x i -a ^)2≥∑i =15 (y i -mx i -n )2; ④∑i =15|y i -b ^x i -a ^|≥∑i =15|y i -mx i -n |.⎝ ⎛⎭⎪⎪⎫参考公式:b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2= ∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2,a ^=y -b ^x。
完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
第3课时 变量间的相关关系与统计案例一、基础知识总结复习1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散分布在从左下角到右上角的区域内. ②负相关:从散点图上看,点散分布在从左上角到右下角的区域内. (2)线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. (3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法. ②回归方程:两个具有线性相关关系的变量的一组数据:11(,)x y ,22(,)x y ,…,(,)n n x y ,其回归方程为y bx a =+,其中,112222211()()()nniii ii i nniii i x x y y x y nx yxy x y b x xx x xnx====----===---∑∑∑∑,a y bx =-b 是斜率,a 是y 轴上的截距.0b 正相关,0b 负相关.③样本中心:(,)x y 叫做具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的样本点的中心. (4)样本相关系数:()()niix x y y xy x y r --==∑,用它来衡量两个变量间的线性相关关系的强弱. ①当r >0时,表明两个变量正相关; ②当r <0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近0, 表明两个变量的线性相关性越弱.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.(5)相关指数2R :① 22121()1()niii niii y y R y y ==-=--∑∑(线性回归模型中21R 0≤≤,且2R 越大拟合效果越好).②在含一个解释变量的线性相关关系中,22R r =,残差平方和越小,2R 越大.(6)总偏差平方和、残差平方和、回归平方和总偏差平方和:21()ni i y y =-∑;残差平方和21()ni i i y y =-∑;回归平方和21()ni i y y =-∑.残差的平方和越小,观测值更接近预报值,拟合效果越好,相关性也越强,预报更准确.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.一般地,假设有两个分类变量X 和Y ,它们的可能取值分别为{}12,x x 和{}12,y y ,则样本频数列联表(称为2×2列联表)为:随机变量22()()()()()n ad bc K a b a c b d c d -=++++ (其中n a b c d =+++为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”. 2K 越大,X 与Y 的无关性越小,相关性越强.二、基础知识过关判断下列结论的正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.(√) (3)通过回归方程y bx a =+可以估计和观测变量的取值和变化趋势.(√) (4)任何一组数据都对应着一个回归直线方程.(×)有线性和非线性拟合 (5)事件X ,Y 关系越密切,则由观测数据计算得到的2K 的观测值越大.(√) (6)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(√) (7)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√) (8)某同学研究卖出的热饮杯数y 与气温x (C )之间的关系,得回归方程 2.352147.767y x =-+,则气温为2℃时,一定可卖出143杯热饮.(×),只能预报不能确定(9)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)只能说相关的可能性大,但不能预报优秀程度 (10)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小(×).应越大 三、典型例题与练习20()P K k ≥ 0k 0.001 10.828 0.50 0.455 0.010 6.635 0.005 7.879 0.025 5.024 0.05 3.841 0.10 2.706 0.15 2.072 0.25 1.323 0.40 0.708[例1](1)对变量x ,y 有观测数据()i i x y ,(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据()i i u v , (i =1,2,…,10),得散点图2.由这两个散点图可以判断( ) A .变量x 与y 正相关,u 与v 正相关 B .变量x 与y 正相关,u 与v 负相关 C .变量x 与y 负相关,u 与v 正相关 D .变量x 与y 负相关,u 与v 负相关 解:由图1可知,各点整体呈递减趋势,x 与y 负相关;由图2可知,各点整体呈递增趋势,u 与v 正相关.选C(2)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( ) A .r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1 D .r 2<r 4<0<r 1<r 3解:因为正相关0r ,负相关0r ,132400 00r r r r ,,,∴又因为相关性越强,r 越大,从散点看(1)(2)相关性强,图象近似成直线了,24r r |24310r r r r ∴;故选A.练习1.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用21c xy c e =拟合时的相关指数为21R ,用拟合时的相关指数为22R , 则2212R R ;③x 、y 之间不能建立回归直线方程. 解:①显然正确;由散点图知,用21c xy c e =拟合的效果比用y bx a =+拟合的效果要好,2212R R ∴,故②正确;x ,y 之间能建立回归直线方程,只不过预报精度不高,故③不正确.故填:①②2.如图所示,有A ,B ,C ,D ,E 五组数据,去掉________组数据后,剩下的四组数据具有较强的线性相关关系. 解:因为散点图呈带状区域时有较强的线性相关关系,带关区域越窄,相关性越强,故去掉D 组数据.填写答案:D[例2]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:719.32i i y ==∑,7140.17i i i t y ==∑,0.55= 2.646≈.参考公式:相关系数1()()niii t t y y r =--=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,a y bt =-解:(1) 由折线图中数据得4t=,721()28i i t t =-=∑∴,0.55=0.55 1.1 2.646 2.9106=⨯=⨯=又7711()()7i i i i i i t t y y t y t y ==--=-∑∑∵,719.32i i y ==∑,7117i i y y ==∑∴777111()()40.1749.32 2.89i i i i i i i i t t y y t y t y ===--=-=-⨯=∑∑∑∴, 2.890.9932.9106r =≈因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2) 719.32i i y ==∑∵,7119.321.3377i i y y ===≈∑∴,又721()28i i t t =-=∑∵, 71()() 2.89i ii t t y y =--=∑∴, 2.890.1028b =≈∴,1.330.1040.93a y bt =-=-⨯=∴所以,y 关于t 的回归方程为0.930.1y t =+.根据年份代码,2016年对应t =9,0.930.109 1.83y =+⨯= 所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.练习.某公司为确定下一年度投入某种产品的宣 传费,需了解年宣传费x (单位:千元)对年 销售量y (单位:t)和年利润z (单位:千元)的 影响.对近8年的年宣传费x i 和年销售量 y i (i =1,2,…,8)数据作了初步处理,得 到下面的散点图及一些统计量的值.表中i i x ω=8118i i ωω==∑, (1)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为0.2z y x =-.根据(2)的结果回答下列问题: ①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率 和截距的最小二乘估计分别为:121()()()nii i nii uu v v uu β==--=-∑∑,v u αβ=-解:(1)由散点图可以判断,y c x =+适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)先作变换,令w =x ,则y c d ω=+,所以先建立y 关于w 的线性回归方程. 根据题目所给出的统计量有:81821()()108.8681.6()iii ii y y d ωωωω==--===-∑∑ 6.8,563y ω==∵,56368 6.8100.6c y d ω=-=-⨯=∴,100.668y ω=+∴,因此y 关于x 的回归方程为100.668y x =+(3)①由(2)知, 100.668y x =+所以当x =49时,年销售量y 的预报值100.66849576.6y =+=,0.2z y x =-∵∴年利润z 的预报值0.2576.64966.32z =⨯-=.②根据(2)的结果知,年利润z 的预报值:0.2(100.620.12z x x =+-=-+∵所以当13.66.82==时,即46.24x =时,z 取得最大值.[例3] 为了解某地区观众对某大型综艺节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众观看该节目的场数与所对应的人 数的表格:将收看该节目场数不低于13场的观众称为“歌迷”,已知“歌迷”中有10名女性.(1)根据已知条件完成如下2×2列联表,并判断我们能否有95%的把握认为是否为“歌迷”与性别有关?(2)将收看该节目所有场数(14场)的观众称为“超级歌迷”,已知“超级歌迷”中有2名女性,若从“超级歌迷”中任意选取2人,求至少有1名女性观众的概率. 注:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解:(1)由统计表可知,在抽取的100人中,“歌迷”有25人,非歌迷有75人,哥歌迷中有10名女性,所以男歌迷有15人,又因为100名观众中有55名女性,所以非歌迷中有45名女性,所以非歌迷的男性有30名,从而完成2×2列联表如下:2100(30104515)100 3.0303.8417525554533K ⨯-⨯==≈⨯⨯⨯所以我们没有95%的把握认为是否为“歌迷”与性别有关. (2)由统计表可知,“超级歌迷”有5人,其中2名女性,3名男性,记“从“超级歌迷”中任意选取2人,至少有1名女性观众”的事件为A ,因为从5名歌迷中任选2人的不同选法有2510C =种,其中有一名是女性的选法有11326C C =种,有两名女性的选法有221C =种, 16()0.710P A +==∴. [注] :1.独立性检验的一般步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值.(3)查表比较K 2与临界值的大小关系,作统计判断 2.两个分类变量x 和y 是否有关系的判断方法(1)当K 2≤2.706时,没有充分的证据判定变量x ,y 有关联,可以认为变量x ,y 没有关联; (2)当K 2>2.706时,有90%的把握判定变量x ,y 有关联; (3)当K 2>3.841时,有95%的把握判定变量x ,y 有关联; (4)当K 2>6.635时,有99%的把握判定变量x ,y 有关联; (5)当K 2>10.828时,有99.9%的把握判定变量x ,y 有关联.练习.大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞.某高校文学社从男女学生中各抽取50名同学调查他们对莫言作品的了解程度,结果如下:(1)试估计该校学生阅读莫言作品超过50篇的概率;(2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了解”,否则为“一般了解”.根据题意完成下表,并判断能否有75%的把握认为对莫言作品非常了解与性别有关?附:K 2=解:(1)由抽样调查表可知,学生阅读莫言作品在50篇以上的人有79人,所以估计该校学生阅读莫言作品超过50篇的概率约为79100.(2)因为阅读超过75篇的男生有30人,女生有25人,阅读不超过75篇的男生有20人,女生有25人,所以列联表如下:。
第3讲 变量间的相关关系、统计案例1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=y --b ^x -.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性. 3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d(2)K 2K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 的关系越密切,由观测数据计算得到的K 2的观测值越大.( ) (5)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) 答案:(1)× (2)√ (3)√ (4)√ (5)√某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200D.y ^=10x -200解析:选A.因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D. 又因为x =0时,y >0,所以应选A.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( ) 附:P (K 2≥k 0)0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.635 10.828A.0.1%B .1%C .99%D .99.9%解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”. 下面是一个2×2列联表y 1 y 2 总计 x 1 a 21 73 x 2 2 25 27 总计b46则表中a 、b 处的值分别为解析:因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54. 答案:52、54已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=________.x 0 1 3 4 y2.24.34.86.7解析:由已知得x -=2,y -=4.5,因为回归方程经过点(x -,y -),所以a ^=4.5-0.95×2=2.6. 答案:2.6相关关系的判断[典例引领]已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关【解析】 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关. 【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.[通关练习]1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.某公司在2017年上半年的收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:月份 1月份 2月份 3月份 4月份 5月份 6月份 收入x 12.3 14.5 15.0 17.0 19.8 20.6 支出y5.635.755.825.896.116.18A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系解析:选C.月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.线性回归方程及其应用(高频考点)线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下三个命题角度: (1)由回归直线方程求参数值; (2)求回归直线方程; (3)利用回归方程进行预测.[典例引领]角度一 由回归直线方程求参数值(2017·高考山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225 ∑i =110y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A .160 B .163 C .166D .170【解析】 由题意可知y ^=4x +a ^,又x -=22.5,y -=160,因此160=22.5×4+a ^,所以a ^=70,因此y ^=4x +70.当x =24时,y ^=4×24+70=96+70=166. 【答案】 C角度二、三 求回归直线方程并进行预测(2016·高考全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y -)2=0.55,7≈2.646.参考公式:相关系数r =回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:【解】 (1)由折线图中数据和附注中参考数据得2.89,r = 2.890.55×2×2.646≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y -=9.327≈1.331及(1)得b ^==2.8928≈0.103,a ^=y --b ^t ≈1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.求回归直线方程的步骤[提醒] 利用回归直线方程进行预测是对总体的估计,此估计值不是准确值.(2018·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:x 1 2 3 4 5 y7.06.55.53.82.2(1)求y 关于x 的线性回归方程y =b x +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i-n x -y -∑n i =1x 2i -n x -2, a ^=y --b ^x -.解:(1) x -=3,y -=5,∑5i =1x i y i =62.7,∑5i =1x 2i =55, 解得b ^=-1.23,a ^=8.69, 所以y ^=8.69-1.23x .(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,所以当x ≈2.72时,年利润z 最大.独立性检验[典例引领](2017·高考全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg, 新养殖法的箱产量不低于50 kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)精确到0.01). 附:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).【解】 (1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2=200×(62×66-34×38)100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).(1)独立性检验的一般步骤①根据样本数据制成2×2列联表;②根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;③查表比较K 2与临界值的大小关系,作出统计判断. (2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题. ②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K 2.(2018·惠州市第三次调研考试)在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.(1)求a 的值,并计算所抽取样本的平均值x (同一组中的数据用该组区间的中点值作代表); (2)填写下面的2×2列联表,并判断能否有超过95%的把握认为“获奖与学生的文、理科有关”?文科生 理科生 总计 获奖 5 不获奖 总计200附表及公式:K 2=(a +b )(c +d )(a +c )(b +d )P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828x -=45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69. (2)2×2列联表如下:文科生 理科生 总计 获奖 5 35 40 不获奖 45 115 160 总计50150200因为K 2=200×(5×115-35×45)40×160×50×150=256≈4.167>3.841, 所以有超过95%的把握认为“获奖与学生的文、理科有关”.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式; (2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势; (3)求出线性回归方程. 易错防范(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为是准确值,而实质上是预测值(期望值). (3)独立性检验中统计量K 2的观测值k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.1.(2018·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=150,由最小二乘法求得回归直线方程为y ^=0.67x +54.9,则y 1+y 2+y 3+y 4+y 5的值为( ) A .75 B .155.4 C .375D .466.2解析:选C.由x 1+x 2+x 3+x 4+x 5=150,得x -=30,代入回归直线方程y ^=0.67x +54.9,得y -=75,则y 1+y 2+y 3+y 4+y 5=375.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:选C.根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.3.(2018·赣州摸底考试)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________. 解析:令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y=∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.答案:574.有甲、乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表:) 解析:成绩与班级有无关系,就是看随机变量的值与临界值2.706的大小关系. 由公式得K 2的观测值k =90×(10×38-7×35)217×73×45×45≈0.653<2.706,所以成绩与班级无关.答案:无关5.(2018·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)请完成上面的列联表;(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”. 参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解:(1)(2)K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.6.(2018·成都市第二次诊断性检测)某项科研活动共进行了5次试验,其数据如下表所示:y 601 605 597599 598(1)从特征量y 的5次试验数据中随机地抽取两个数据,求至少有一个大于600的概率; (2)求特征量y 关于x 的线性回归方程y ^=b ^x +a ^,并预测当特征量x 为570时特征量y 的值. (附:回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=解:(1)记“至少有一个大于600”为事件A , 则P (A )=1-C 23C 25=710.(2)由题中表格可知,x -=555+559+551+563+5525=556,y -=601+605+597+599+5985=600.所以b ^=-1×1+3×5+(-5)×(-3)+7×(-1)+(-4)×(-2)(-1)2+32+(-5)2+72+(-4)2=30100=0.3,a ^=y --b ^x -=600-0.3×556=433.2, 所以线性回归方程为y ^=0.3x +433.2. 当x =570时,y ^=0.3×570+433.2=604.2 故特征量x 为570时,特征量y 的估计值为604.2.1.(2018·张掖市第一次诊断考试)中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:年龄 [15,25)[25,35)[35,45)[45,55)[55,65]支持“延迟 退休”的人数155152817(1)由以上统计数据填2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;(2)若以458人参加某项活动.现从这8人中随机抽2人.(ⅰ)抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率. (ⅱ)记抽到45岁以上的人数为X ,求随机变量X 的分布列及数学期望. 参考数据:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)列联表如下:因为K 2=100×(35×5-45×15)50×50×80×20=254=6.25>3.841, 所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)(ⅰ)抽到1人是45岁以下的概率为68=34,抽到1人是45岁以下且另一人是45岁以上的概率为C 16C 12C 28=37.故所求概率为3734=47.(ⅱ)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁以上的应抽2人.则X =0,1,2.P (X =0)=C 26C 28=1528,P (X =1)=C 16C 12C 28=1228=37,P (X =2)=C 22C 28=128.可得随机变量X 的分布列为X 0 1 2 P152837128故E (X )=1×37+2×128=12.2.(2018·广东汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:使用年数x 2 3 4 5 6 7 售价y 20 12 8 6.4 4.4 3 z =ln y3.002.482.081.861.481.10下面是z(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^、a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年. 参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x -2,a ^=y --b ^x -,r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139, ∑6i =1(x i -x -)2≈4.18, ∑6i =1(y i -y -)2≈13.96,∑6i =1(z i -z -)2≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34. 解:(1)由题意,知x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,又∑6i =1x i z i =47.64,∑6i =1(x i -x -)2≈4.18, ∑6i =1(z i -z -)2≈1.53, 所以r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36, 所以a ^=z --b ^x -=2+0.36×4.5=3.62, 所以z 与x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62.令x =9,得y ^=e -0.36×9+3.62=e 0.38,因为ln 1.46≈0.38,所以y ^=1.46,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.(3)当y ^≥0.711 8,即e -0.36x +3.62≥0.711 8=e ln 0.711 8=e -0.34时,则有-0.36x +3.62≥-0.34,解得x ≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.。