数学选修-3学案:统计案例习题课含答案
- 格式:docx
- 大小:203.49 KB
- 文档页数:6
一、选择题1.下列说法中错误的是( )A .先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50m +,100m +,150m +,……的学生,这种抽样方法是系统抽样法.B .一组数据的方差为2s ,平均数为x ,将这组数据的每一个数都乘以2,所得的一组新数据的方差和平均数为24s ,2x .C .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1.D .若一组数据1,a ,3的平均数是2,则该组数据的方差是23. 2.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问400名不同的大学生是否爱好某项运动,利用22⨯列联表,计算可得2K 的观测值7.556k ≈,附表:参照附表,得到的正确结论是A .有99%以上的把握认为“爱好该项运动与性别无关”B .有99%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别无关”3.为了解高中生对电视台某节目的态度,在某中学随机调查了110名学生,根据得到的联表算得2K 的观测值 5.278k ≈. 附表:参照附表,得到的正确结论是 ( )A .在犯错误的概率不超过1%的前提下,认为“喜欢该节目与性别有关”B .在犯错误的概率不超过1%的前提下,认为“喜欢该节目与性别无关”C .有97.5%以上的把握认为“喜欢该节目与性别有关”D .有97.5%以上的把握认为“喜欢该节目与性别无关” 4.下列命题是假命题...的是( )A.某企业有职工150人,其中高级职称15人,中级职称45人,一般职员90人,若用分层抽样的方法抽出一个容量为30的样本,则一般职员应抽出18人;B .用独立性检验(列联表法)来考察两个分类变量是否有关系时,算出的随机变量的值越大,说明“与有关系”成立的可能性越大;C .已知向量,,则是的必要条件;D .若,则点的轨迹为抛物线.5.对于独立性检验,下列说法正确的是()A.2 3.841K>时,有95%的把握说事件A与B无关B.2 6.635K>时,有99%的把握说事件A与B有关C.2 3.841K≤时,有95%的把握说事件A与B有关D.2 6.635K>时,有99%的把握说事件A与B无关6.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.37.某学校课题组为了研究学生的数学成绩和物理成绩之间的关系,随机抽取高二年级20名学生某次考试成绩(百分制)如下表所示:序1234567891011121314151617181920号数学9575809492656784987167936478779057837283成绩物理9063728791715882938177824885699161847886成绩若数学成绩90分(含90分)以上为优秀,物理成绩85(含85分)以上为优秀,则有多少把握认为学生的数学成绩与物理成绩有关系()A.95% B.97.5% C.99.5% D.99.9%8.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程y bx a =+,计算得7b =,则当投入10万元广告费时,销售额的预报值为 A .75万元 B .85万元 C .99万元D .105万元9.为了普及环保知识,增强环保意识,随机抽取某大学30名学生参加环保知识测试,得分如图所示,若得分的中位数为m e ,众数为m 0,平均数为x -,则( )A .m e =m 0=x -B .m 0<x -<m e C .m e <m 0<x -D .m 0<m e <x -10.给出以下四个说法:①绘制频率分布直方图时,各小长方形的面积等于相应各组的组距; ②在刻画回归模型的拟合效果时,R 2的值越大,说明拟合的效果越好; ③设随机变量ξ服从正态分布N (4,22),则P (ξ>4)=12; ④对分类变量X 与Y ,若它们的随机变量K 2的观测值k 越小,则判断“X 与Y 有关系”的犯错误的概率越小. 其中正确的说法是( ) A .①④B .②③C .①③D .②④11.以下四个命题中:①某地市高三理科学生有15000名,在一次调研测试中,数学成绩ξ服从正态分布()2100,N σ,已知()801000.40P ξ<≤=,若按成绩分层抽样的方式抽取100分试卷进行分析,则应从120分以上(包括120分)的试卷中抽取15分; ②已知命题:p x ∀∈R ,sin 1x ≤,则:p x ⌝∃∈R ,sin 1x >;③在[]4,3-上随机取一个数m ,能使函数()222f x x mx =+在R 上有零点的概率为37; ④在某次飞行航程中遭遇恶劣气候,用分层抽样的20名男乘客中有5名晕机,12名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用独立性检验,有97%以上的把握认为与性别有关.()2P k k ≥0.15 0.1 0.05 0.0250k2.072 2.706 3.841 5.024其中真命题的序号为( ) A .①②③ B .②③④C .①②④D .①③④12.下列说法:①将一组数据中的每个数据都乘以同一个非零常数a 后,标准差也变为原来的a 倍; ②设有一个回归方程35y x =-,变量x 增加1个单位时,y 平均减少5个单位; ③线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱; ④在某项测量中,测量结果ξ服从正态分布()()21,0N σσ>,若ξ位于区域()0,1的概率为0.4,则ξ位于区域()1,+∞内的概率为0.6⑤利用统计量2χ来判断“两个事件,X Y 的关系”时,算出的2χ值越大,判断“X 与Y 有关”的把握就越大 其中正确的个数是 A .1B .2C .3D .4二、填空题13.在吸烟与患肺病是否相关的判断中,有下面的说法:(1)从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.(2)从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;(3)若2 6.635K >,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病; 其中说法正确的是________.14.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参照附表,在犯错误的概率最多不超过______(填百分比)的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”.参考公式:K 2=2()()()()()n ad bc a b c d a c b d -++++15.某单位为了了解用电量y (度)与气温x (度)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下的对照表由表中数据,得回归直线方程ˆˆˆybx a =+,若ˆ2b =-,则ˆa =________. 16.已知方程是根据女大学生的身高预报她的体重的回归方程,其中的单位是,的单位是,那么针对某个体的残差是______.17.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1; ③某项测量结果ξ服从正态分布()21,σN ,()50.81ξP ≤=,则()30.19ξP ≤-=;④对于两个分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握程度越大.以上命题中其中真命题的个数为___________. 18.以下四个命题中:①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量的线性相关性越强,相关系数的绝对值越接近于1; ③某项测量结果服从正太态布,则; ④对于两个分类变量和的随机变量的观测值来说,越小,判断“与有关系”的把握程度越大.以上命题中其中真命题的个数为___________.19.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温. 气温(℃)14 12 86用电量(度) 22 26 34 38由表中数据得线性方程x b a yˆˆˆ+=中2ˆ-=b ,据此预测当气温为5℃时,用电量的度数约为 .20.关于变量,x y 的一组样本数据11()a b ,,22()a b ,,……,(),n n a b (2n ≥,12,,,n a a a ⋅⋅⋅不全相等)的散点图中,若所有样本点(,)i i a b (1,2,,i n =⋅⋅⋅)恰好都在直线21y x =-+上,则根据这组样本数据推断的变量,x y 的相关系数为_____________.三、解答题21.随着新冠疫情防控进入常态化,人们的生产生活逐步步入正轨.为拉动消费,某市发行2亿元消费券.为了解该消费券使用人群的年龄结构情况,该市随机抽取了50人,对是否使用过消费券的情况进行调查,结果如下表所示,其中年龄低于45岁的人数占总人数的35. 年龄(单位:岁)[15,25) [25,35) [35,45) [45,55) [55,65)[65,75)99%的把握认为是否使用消费券与人的年龄有关.)20k 0.152.07222()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)从使用消费券且年龄在[15,25)与[25,35)的人中按分层抽样方法抽取6人,再从这6人中选取2名,记抽取的两人中年龄在[15,25)的人数为X ,求X 的分布列与数学期望. 22.国家逐步推行全新的高考制度.未来新高考不再分文、理科,采用33+模式,其中语文、数学、外语三科为必考科目,满分各150分,另外考生还要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物6门科目中自选3门参加考试(6选3),每科目满分100分.为了应对新高考,某高中从高一年级1000名学生(其中男生550人,女生450人)中,采用分层随机抽样的方法从中抽取n 名学生进行调查.(1)已知抽取的n 名学生中女生有45人,求n 的值;(2)学校计划在高一上学期开设选修中的物理和地理两个科目,为了了解学生对这两个科目的选课情况,对在(1)的条件下抽取到的n 名学生进行问卷调查(假设每名学生在这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的22⨯列联表.请将列联表补充完整,并判断是否有99%的把握认为选择科目与性别有关,说明理由;(3)在抽取的选择地理的学生中用分层抽样的方法再抽取6名学生,然后从这6名学生中抽取2名学生了解学生对地理的选课意向情况,求这2名学生中至少有1名男生的概率.总计参考数据及公式:()2P K k ≥0.1 0.05 0.01 0.005 0.001 k2.7063.8416.6357.87910.828()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 23.某校从高三年级的男女生中各随机抽取了100人的体育测试成绩(以下称体测成绩,单位:分),数据都落在[)60100,内,其统计数据如表所示(其中不低于80分的学生为优秀).(1)请根据如表数据完成22⨯列联表,并通过计算判断,是否有95%的把握认为体测成绩与性别有关?(2)视频率为概率,在全校的高三学生中任取3人,记取出的3人中优秀的人数为X ,求X 的分布列和数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++24.2020年春节期间,因新冠肺炎疫情的影响,全国开启了“在家待着就是为国家做贡献”的模式,这种减少外出的居家隔离方式,既降低了自身的被感染风险、有效地节约了相对有限的医疗资源,更是对他人负责、减轻政府负担的有效之举,我们可以利用在家的这段时间观看电视了解疫情的动态、陪伴家人以及自我提高.某机构为了调查30~60岁的人在家看电视情况,他们随机抽取了某个社区的男女各50位市民,下面是根据调查结果绘制的市民日均看电视时间的频率分布表.将日均看电视时间不低于4小时的市民称为“电视迷”,已知“电视迷”中有15名女性.(Ⅰ)根据已知条件完成下面22⨯列联表,并据此资料判断是否有90%的把握认为“电视迷”与性别有关?(Ⅱ)现从“电视迷”市民中按分层抽样的方法抽取5位市民,再从中随机抽取3人赠送礼品,试求抽取3人中恰有2位女性市民的概率.参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:)2k0.500.45525.共享单车进驻城市,绿色出行引领时尚.某市有统计数据显示,2020年该市共享单车用户年龄等级分布如图1所示,一周内市民使用单车的频率分布扇形图如图2所示.若将共享单车用户按照年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用单车用户”,使用次数为5次或不足5次的称为“不常使用单车用户”.已知在“经常使用单车用户”中有5 6是“年轻人”.(1)现对该市市民进行“经常使用共享单车与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,补全下列22⨯列联表,并根据列联表的独立性检验,判断是否有85%的把握认为经常使用共享单车与年龄有关?年轻人 非年轻人 合计 经常使用单车用户 120 不常使用单车用户80 合计16040200使用共享单车情况与年龄列联表(2)将(1)中频率视为概率,若从该市市民中随机任取3人,设其中经常使用共享单车的“非年轻人”人数为随机变量X ,求X 的分布列与期望. 参考数据:独立性检验界值表()20P K k ≥ 0.15 0.10 0.050 0.025 0.0100k2.0722.7063.841 5.024 6.635其中,22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++26.2016年欧洲杯将于2016年6月10日到7月10日在法国举行.为了使得赛会有序进行,欧足联在全球范围内选聘了30名志愿者(其中男性16名,女性14名).调查发现,男性中有10人会英语,女性中有6人会英语. (1)根据以上数据完成以下2×2列联表:并回答能否在犯错的概率不超过0.10的前提下认为性别与会英语有关?参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++参考数据:(2)会英语的6名女性志愿者中曾有4人在法国工作过,若从会英语的6名女性志愿者中随机抽取2人做导游,则抽出的2人都在法国工作过的概率是多少?【参考答案】***试卷处理标记,请不要删除一、选择题 1.C 解析:C 【分析】根据题意,对选项中的命题进行分析,判断真假性即可. 【详解】对于A ,根据抽样方法特征是数据多,抽样间隔相等,是系统抽样,所以A 正确; 对于B ,一组数据的方差为2s ,平均数为x ,将这组数据的每一个数都乘以2,所得的一组新数据的方差和平均数为24s ,2x ,所以B 正确;对于C ,两个随机变量的线性相关性越强,则相关系数||r 的值越接近于1,所以C 错误;对于D ,一组数据1、a 、3的平均数是2,所以2a =;所以该组数据的方差是222212[(12)(22)(32)]33s =⨯-+-+-=,所以D 正确.故选:C .【点睛】本题主要考查抽样和统计,考查方差和平均数的计算,考查两个随机变量的相关性,意在考查学生对这些知识的理解掌握水平2.B解析:B 【分析】根据2K 的观测值7.556k ≈,对照表中数据,即可得到相应的结论. 【详解】根据2K 的观测值7.556k ≈,对照表中数据得出有0.01的几率说明这两个变量之间的关系是不可信的,即有10.0199%-=的把握说明两个变量之间有关系,故选B . 【点睛】本题主要考查独立性检验的应用,独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式计算2K 的观测值k ;(3)查表比较k 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误)3.C解析:C 【分析】因为5.278 6.635<,根据附表中的数据,即可得到判断的结论,得到答案. 【详解】因为5.278 6.635<,所以不能在犯错误的概率不超过1%的前提下,认为“喜欢该节目与性别有关”;又5.278 5.024>,所以有97.5%以上的把握认为“喜欢该节目与性别有关”,故选C . 【点睛】本题主要考查独立性检验的应用,独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式计算2K 的观测值k ;(3)查表比较k 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误)4.D解析:D 【分析】根据分层抽样的概念易得,解出方程即可判断为真;用独立性检验(列联表法)的判定方法即可得出B 为真;根据充分条件和必要条件的定义以及向量的数量积的应用,进行判断即可得到C 为真;可将原式化为,表示动点到定点和到动直线距离相等的点的轨迹,但是定点在定直线上,故可判断D. 【详解】设一般职员应抽出人,根据分层抽样的概念易得,解得,即一般职员应抽出18人,故A为真;用独立性检验(列联表法)来考察两个分类变量是否有关系时,算出的随机变量的值越大,说明“与有关系”成立的可能性越大,可知B为真;若,则,即不成立,若,则,即成立,故是的必要条件,即C为真;方程即:,化简得,即表示动点到定点的距离和到直线的距离相等的点的集合,且在直线上,故其不满足抛物线的定义,即D为假,故选D.【点睛】本题主要考查了分层抽样的概念,独立性检验在实际中的应用,充分条件、必要条件的判定,抛物线的定义等,属于中档题.5.B解析:B【分析】根据独立性检验中卡方的概念知,选B.【详解】K 时,有99%的把握说事件A与B有关选B.根据独立性检验中卡方的概念知,2 6.635【点睛】本题主要考查了独立性检验中卡方的概念,属于中档题.6.B解析:B【解析】【分析】根据独立性检验的思想,对题目中的命题进行分析、判断正误即可.【详解】对于①,对事件A与B无关时,说明两事件的影响较小,不是两个互不影响,①错误;对于②,事件A与B关系密切,说明事件A与B的相关性就越强,K2就越大,②正确;对于③,K2的大小不是判定事件A与B是否相关的唯一根据,判定两事件是否相关除了公式外;还可以用三维柱形图和二维条形图等方法来判定,③错误;故选:B.【点睛】本题考查了独立性检验思想的应用问题,属于基础题.K 2值是用来判断两个变量相关的把握度的,不是用来判断两个变量是否相关的.7.C解析:C 【解析】分析:根据题意,列出22⨯列联表,求出观测值2K ,根据观测值对应的数值得出结论. 详解:根据题意,列出22⨯列联表,如下;则220(51212)8.80177.879671413K ⨯⨯-⨯==>⨯⨯⨯,因为观测值对应的数值为0.005,所以有99.5%的把握认为学生的数学成绩与物理成绩之间有关系. 故选C.点睛:本题考查了独立性检验的应用,属于基础题.考查利用数学知识研究实际问题的能力以及相应的运算能力.8.B解析:B 【解析】分析:根据表中数据求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,然后再求当10x =的函数值即可. 详解:由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50), ∴ˆ5075a=⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+. 当10x =时,710158ˆ5y=⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元. 故选B .点睛:本题考查回归直线过样本中心这一结论和平均数的计算,考查学生的运算能力,属容易题.9.D解析:D由条形图知,30名学生的得分情况依次为2个人得3分,3个人得4分,10个人得5分,6个人得6分,3个人得7分,2个人得8分,2个人得9分,2个人得10分,中位数为第15,16个数(分别为5,6)的平均数,即m e=5.5,5出现的次数最多,故众数为m0=5,平均数为x=130(2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10)≈5.97,故m0<m e<x.故答案为D.点睛:这个题目考查的是条型分布直方表的应用,以及基本量:均值,平均数的考查;一般在这类图中平均数就是将数据加到一起除以数据的个数即可,在频率分布直方表中是取每个长方条的中点乘以相应的频率并相加即可.10.B解析:B【解析】①中各小长方形的面积等于相应各组的频率;②正确,相关指数R2越大,拟合效果越好,R2越小,拟合效果越差;③随机变量ξ服从正态分布N(4,22),正态曲线对称轴为x=4,所以P(ξ>4)=;④对分类变量X与Y,若它们的随机变量K2的观测值k越小,则说明“X与Y有关系”的犯错误的概率越大.故选B.11.B解析:B【解析】对于①,在一次调研测试中,数学成绩ξ服从正态分布N(100,σ2),∴数学成绩ξ关于ξ=100对称,∵P(80<ξ≤100)=0.40,∴P(ξ>120)=P(ξ<80)=0.5-0.40=0.1,则该班数学成绩在120分以上的人数为0.1×100=10,故①错误;对于②,已知命题p:∀x∈R,sinx≤1,则¬p:∃x∈R,sinx>1,故②正确;对于③,由2m)2−8≥0,解得m≤-2或m≥2,∴在[-4,3]上随机取一个数m,能使函数()222f x x mx=++在R上有零点的概率为37,故③正确;对于④,填写2×2列联表如下:晕机不晕机合计男乘客51520女乘客8412合计131932则k2的观测值k=()232158545.398 5.02420121319⨯⨯-⨯≈>⨯⨯⨯有97%以上的把握认为晕机与性别有关.故④对12.B解析:B 【解析】逐一考查所给的说法:①将一组数据中的每个数据都乘以同一个非零常数a 倍,原说法错误;②设有一个回归方程35y x =-,变量x 增加1个单位时,y 平均减少5个单位,原说法正确;③线性相关系数r 的绝对值越大,两个变量的线性相关性越强;反之,线性相关性越弱,原说法错误;④在某项测量中,测量结果ξ服从正态分布()()21,0N σσ>,若ξ位于区域()0,1的概率为0.4,则ξ位于区域()1,+∞内的概率为0.5,原说法错误;⑤利用统计量2χ来判断“两个事件,X Y 的关系”时,算出的2χ值越大,判断“X 与Y 有关”的把握就越大,原说法正确. 本题选择B 选项.二、填空题13.(1)【分析】根据题意利用独立性检验的定义与基本思想对题目中的命题进行逐个分析判断即可求解出答案【详解】根据独立性检验的基本思想在犯错误的概率不超过005的前提下认为吸烟与患肺病有关系的意思为有的把解析:(1) 【分析】根据题意,利用独立性检验的定义与基本思想,对题目中的命题进行逐个分析、判断,即可求解出答案. 【详解】根据独立性检验的基本思想,在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系的意思为有95%的把握认为这个推理是正确的,所以(1)正确.从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系的意思为有99%的把握认为这个推理是正确的,而不是说某个人吸烟就有99%的可能患有肺病,所以(2)错误.同(2)中的推论,所以也不能在100个吸烟的人中必有99人患有肺病,故(3)错误.故答案为(1). 【点睛】本题主要考查了独立性检验的基本思想,2K 是检验两个事件相关程度的量,是相关关系,是反映有关和无关的概率.14.5【解析】由题意计算观测值K2=参照附表可得:在犯错误的概率不超过5的前提下认为小动物是否被感染与有没有服用疫苗有关故答案为:5解析:5% 【解析】由题意,计算观测值K 2=()210010302040 4.762 3.84150503070⨯⨯-⨯=>⨯⨯⨯参照附表,可得:在犯错误的概率不超过5%的前提下,认为“小动物是否被感染与有没有服用疫苗有关”. 故答案为:5%.15.【解析】试题分析:由题意得即样本中心点代入回归直线方程得考点:回归直线方程的应用 解析:60【解析】试题分析:由题意得181********x ++-==,24343864404y +++==,即样本中心点15(,40)2,代入回归直线方程,得15402602ˆˆaa =-⨯+⇒=. 考点:回归直线方程的应用.16.【解析】试题分析:由回归直线方程可知当时所以针对个体的残差是考点:线性回归方程 解析:0.29-【解析】试题分析:由回归直线方程可知当160x =时,53.29y =,所以针对个体的残差是5353.290.29-=-.考点:线性回归方程.17.【解析】试题分析:对于①从匀速传递的新产品生产流水线上质检员每20分钟抽取一件新产品进行某项指标检测这样的抽样是系统抽样而不是分层抽样故①错;对于②两个随机变量的相关性知识可知②正确;对于③变量所以 解析:2【解析】试题分析:对于①,从匀速传递的新产品生产流水线上,质检员每20分钟抽取一件新产品进行某项指标检测,这样的抽样是系统抽样,而不是分层抽样,故①错;对于②,两个随机变量的相关性知识可知②正确;对于③变量2(1,)N ξσ~,所以()()30.191510.810.19ξξP ≤-==-P ≤=-=,故③正确;对于④,随机变量2K 观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,故④错,所以真命题有2个. 考点:1. 回归分析的基本思想及其应用初步;2.统计与概率.18.2【解析】试题分析:从匀速传递的产品生产流水线上质检员每10分钟从中抽取一件产品进行某项指标检测这样的抽样是系统抽样①错;两个随机变量的线性相关性越强相关系数的绝对值越接近于1②正确;某项测量结果服解析:2 【解析】试题分析:从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样,①错;两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,②正确;某项测量结果服从正太态布,则,③正确;对于两个分类变量和的随机变量的观测值来说,越大,判断“与有关系”的把握程度越大,④错.故只有2个正确.考点:抽样方法(系统抽样),线性相关关系,正态分布,独立性检验.19.【解析】试题分析:由回归方程过样本平均数点则:由代入可得:由当气温为5℃时用电量的度数约为:40考点:回归方程的性质及应用解析:【解析】试题分析:由回归方程过样本平均数点(,)x y ,则:10,30x y ==,由2ˆ-=b代入x b a yˆˆˆ+=可得: ˆ50a=,由ˆ502y x =-当气温为5℃时,用电量的度数约为:40 考点:回归方程的性质及应用.20.-【解析】所有样本点都在直线上说明这两个变量间完全负相关故其相关系数为-1故填-1解析:-1 【解析】所有样本点都在直线上,说明这两个变量间完全负相关,故其相关系数为-1,故填-1.三、解答题21.(1)列联表答案见解析,有99%的把握认为是否使用消费券与人的年龄有关;(2)分布列答案见解析,数学期望:23. 【分析】(1)根据年龄低于45岁的人数占总人数的35.可列出关于,m n 的方程组求解. 根据数据列联表,由公式22()()()()()n ad bc K a b c d a c b d -=++++计算k 的值,查表可作结论.(2)考查超几何分布求分布列,若随机变量服用超几何分布()~,,X H m M N ,则概率。
本章整合知识建构综合应用专题一确定回归直线方程的策略准确确定回归直线方程,有利于进一步加强数学应用意识,培养运用所学知识解决实际问题的能力,正确地求出回归直线方程是本节的重点,现介绍求回归直线方程的三种方法. 一、利用回归直线过定点确定回归直线方程回归直线方程y=a+bx 经过样本的中心(x,y)点,(x,y)称为样本点的中心,回归直线一定过此点.A.y=0.5x-1B.y=xC.y=2x+0.3D.y=x+1 答案:B二、利用公式求a,b ,确定回归直线方程 利用公式求回归直线方程时应注意以下几点:①求b 时利用公式b=2111)())((∑∑==---ni ini i x xy y x x,先求出x =n 1(x 1+x 2+x 3+…+x n ),y =n1(y 1+y 2+ y 3+…+y n ).再由a=y -b x 求a 的值,并写出回归直线方程.②线性回归方程中的截距a 和斜率b 都是通过样本估计而来,存在着误差,这种误差可能导致预报结果的偏差.③回归直线方程y=a+bx 中的b 表示x 每增加1个单位时y 的变化量,而a 表示y 不随x 的变化而变化的量.④可以利用回归直线方程y=a+bx 预报在x 取某一个值时y 的估计值.(2)求化学成绩y 对数学成绩x 的回归直线方程. 解:(1)散点图略. (2) x =51×(88+76+73+66+63)=73.2,y =51×(78+65+71+64+61)=67.8. 所以b=251151)())((∑∑==---i i i ix xy y x x≈0.625.a=y -b x =67.8-0.625×73.2=22.05.所以y 对x 的回归直线方程为y=0.625x+22.05.三、先判定相关性,再求回归直线方程利用样本相关系数r 来判断两个变量之间是否有线性相关关系时,可以依据若|r|>0.75,我们认为有很强的线性相关关系,可以求回归直线方程,并可用求得的回归直线方程来预报变量的取值;若|r|<0.75,则认为两个变量之间的线性相关关系并不强,这时求回归直线方程没有太大的实际价值.(1)y 与x 是否具有相关关系;(2)如果y 与x 具有线性相关关系,求回归直线方程. 解:(1)由已知表格中的数据,求得x =71,y =72.3,r=2101121011)()())((∑∑∑===----i i n i ii i y y x xy y x x≈0.78.由于0.78>0.75,所以y 与x 之间具有很强的线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为: y=a+bx,则有b=∑∑==---1012101)())((i ii i ix xy y x x=1.22,a=y -b x =72.3-1.22×71=-14.32.所以y关于x的回归直线方程为y=1.22x-14.32.专题二可线性化的回归分析一、曲线线性化的意义曲线的线性化是曲线拟合的重要手段之一,对于某些非线性的资料可以通过简单的变量替换使之线性化,这样就可以按最小二乘法原理求出变换后变量的线性回归方程,在实际工作中常利用该线性回归方程绘制资料的标准工作曲线,同时根据需要可将此线性回归方程还原成曲线回归方程,实现对曲线的拟合.二、常用的非线性函数(一)指数函数y=ae bx (1)对(1)式的两边取对数,得lny=lna+bx当b>0时,y随着x的增大而增大;当b<0时,y随着x的增大而减小.当以lny和x绘制的散点图呈直线趋势时,可考虑采用指数函数来描述y与x间的非线性关系,lna和b分别为截距与斜率.更一般的指数函数是y=ae bx+k,式中的k为一常量,往往未知,应用时可试用不同的值.(二)对数函数y=a+blnx(x>0)当b>0时,y随着x的增大而增大,先快后慢;当b<0时,y随着x的增大而减小,先快后慢,当以y和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中a和b分别为截距与斜率.更一般的对数函数是y=a+bln(x+k),式中的k为一常量,往往未知.(三)幂函数y=ax b(a>0,x>0)(2)当b>0时,y随着x的增大而增大;b<0时,y随着x的增大而减小.对(2)式的两边取对数,得lny=lna+blnx,当以lny和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中lna和b分别为截距与斜率.更一般的幂函数是y=ax b+k,式中的k为一常量,往往未知.以上三种模型是我们在日常生活中常遇到的曲线模型,掌握这三种模型,有利于我们研究更多的曲线拟合与回归分析的问题.三、利用线性回归拟合曲线的一般步骤(一)绘制散点图一般根据资料性质结合专业知识便可确定资料的曲线类型,不能确定时,可在方格坐标纸上绘制散点图,根据散点的分布,选择接近的、合适的曲线类型.(二)进行变量替换y′=f(y),x′=g(x)使变换后的两个变量呈线性相关关系.(三)按最小二乘法原理求线性回归方程及进行方差分析.(四)将线性化方程转换为关于原始变量x,y的回归方程.【例1】经过调查得到8个厂家同种类型的产品年新增加投资额和年利润额的数据资料,如表(1)所示.表(1) 八个厂家年新增投资额与年利润额数据资料的增大Y也有明显的增加的趋势,因此两者之间存在着相关关系,但是这种相关关系与其用一条直线来描述倒不如用曲线描述更加合适,因此Y 与x 之间更加倾向于被认为是一种非线性关系.回归方程也需要用一些非线性函数来刻画,比如图(2) 年新增加投资额与年利润额数据的散点图图3 经过对数变换后的散点图Y=β0·e β1·x ; ① 或者Y=β0+β1·x 2 ②等等.图(3)给出的是变量lnY 与变量x 的散点图,从中可以看出这些点基本上是围绕一条直线波动,说明变量lnY 与x 之间近似是一种线性关系,从而也印证了回归方程取①形式的合理性.同时,图(3)也提示我们一种求解回归方程①的思路,即通过求解变量lnY 对x 的线性回归方程即可得到相应的①式所表示的Y 和x 的回归方程,即在图(3)中的回归直线同图(2)中的曲线(Ⅱ)是一致的.具体来说,首先对样本数据(x i ,Y i ),i=1,2,…,n 作对数变换 Z i =lnY i ,i=1,2,…,n ; ③ 然后利用最小二乘法求出变量Z 对x 的回归方程 Z=a 0+a 1·x ; ④即图(3)中的直线方程,则相应的形如①式的Y 对x 的回归方程是 Y=e z =e a0·e a1x ; ⑤ 即β0=e a0,β1=a 1.利用表(1)中给出的数据,可以得到lnY 对x 的线性回归方程是 Z=1.314+0.100x由此可得Y 对x 的回归方程是 Y=3.720 5·e 0.100x; ⑥如果采用形如②式的抛物线型回归方程,容易看出,令ω=x 2,②式就是表示了变量Y 对ω的线性回归方程:Y=β0+β1·ω; ⑦ 所以,对样本数据做变换ωi =x i 2(i=1,2,…,n ),利用(ωi ,Y i )(i=1,2,…,n )求解出⑦中的系数估计值β0、β1代入②式即得到Y 对x 的回归方程. 对表(1)中的数据计算结果为Y=4.413+0.057x 2; ⑧ 专题三独立性检验的基本方法判断结论成立的可能性的一般步骤:(1)假设两个分类变量X 和Y 没有关系; (2)给定一个显著水平,查表给出临界值;(3)计算χ2=;))()()(()(2d b d c b a c a bc ad n ++++-(4)若χ2大于临界值,则认为x 与y 有关系,否则没有充分的理由说明这个结论不成立随机抽取189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,根据上述数据能得出什么结论?分析:首先由已知条件确定a ,b ,c ,d ,n 的数值,再利用公式求出χ2的观测值,最后与临界值比较再下结论. 解:由题目中表的数据可知:a=54,b=40,c=32,d=63,a+b=94,c+d=95,a+c=86,b+d=103,n=189.代入公式得χ2=103869594)32406354(1892⨯⨯⨯⨯-+⨯≈10.759.因为10.759>6.635,所以有99%的把握认为员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革态度和工作积极性是有关的. 【例2】在一次恶劣气候的飞行航程中调查男女乘客晕机的情况如下表所示,根据此资料您是χ2=57323455)8312624(892⨯⨯⨯⨯-⨯⨯≈3.689.因为3.689>2.706,所以有90%的把握认为此次飞行中晕机与否跟男女性别有关. 几点注意:(1)在列联表中注意各项的对应及有关值的确定,避免混乱. (2)若要判断X 与Y 有关时,先假设X 与Y 无关.(3)把计算出的χ2的值与相关的临界值作比较,确定出“X 与Y 有关系”的把握.科海观潮 相关与相关系数一、什么是相关事物总是相互联系的,它们之间的关系多种多样,分析起来,大概有以下几种情况:(1)一种是因果关系,即一种现象是另一种现象的因,而另一种现象则是果.例如学习的努力程度是学习成绩好坏的因(至少是部分的因);在一定刺激强度范围内,刺激强度经常是反应强度的因等.(2)第二种是共变关系,即表面看来有联系的两种事物都与第三种现象有关,这时两种事物之间的关系,便是共变关系.例如春天出生的婴儿与春天栽种的小树,就其高度而言,表面上看来都在增长,好像有关,其实,这二者都是受时间因素影响在发生变化,在它们本身之间并没有直接的关系.(3)第三种是相关关系,即两类现象在发展变化的方向与大小方面存在一定的关系,但不能确定这两类现象之间哪个是因,哪个是果;也有理由认为这两者并不同时受第三因素的影响,即不存在共变关系.具有相关关系的两种现象之间,关系是复杂的,甚至可能包含有暂时尚未认识的因果关系及其共变关系在内.例如,同一组学生的语文成绩与数学成绩的关系,即属于相关关系.统计学中所讲的相关是指具有相关关系的不同现象之间的关系程度.相关的情况有以下三种:一是两列变量变动方向相同,即一列变量变动时,另一列变量亦同时发生或大或小与前一列变量同方向的变动,这称为正相关.如身高与体重的关系,一般讲身长越长体重就越重.第二种相关情况是负相关,这时两列变量中若有一列变量变动时,另一列变量呈或大或小,但与前一列变量指向相反的变动.例如初学打字时练习次数越多,出现错误的量就越少等.第三处相关情况是零相关,即两列变量之间无关系.这种情况下,一列变量变动时,另一列变量作无规律的变动.如学习成绩优劣与身高之间的关系,就属零相关,即无相关关系,二者都是独立的随机变量.二、相关系数相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标,作为样本间相互关系程度的统计特征数,常用r表示,作为总体参数,一般用ρ表示,并且是指线性相关而言.相关系数的取值介于-1.00至+1.00之间,常用小数形式表示.它只是一个比率,不代表相关的百分数,更不是相关量的相等单位的度量.相关系数的正负号,表示相关方向,正值表示正相关,负值表示负相关.相关系数取值的大小表示相关的程度.相关系数为0时,称零相关即毫无相关,为1.00时,表示完全正相关,相关系数为-1.00时,为完全负相关.这二者都是完全相关.如果相关系数的绝对值在1.00与0之间不同时,则表示关系程度不同.接近1.00端一般为相关程度密切,接近0端一般为关系不够密切.(注意:若是非线性相关关系,而且直线相关计算r 值可能很小,但不能说两变量关系不密切)关于这一点如何判定,尚需考虑计算相关系数时样本数目的多少.如果样本数目较少,受取样偶然因素的影响较大,很有可能本来无关的两类事物,却计算出较大的相关系数来.例如欲研究身高与学习有无关系,如果只选3、5个人,很可能遇到身材愈高学习愈好这一类偶然现象,这时虽然计算出的相关系数可能接近1.00,但实际上这两类现象之间并无关系.究竟如何综合考虑样本数目大小,相关系数取值大小而判定相关是否密切这一问题,一般要经过统计检验后方能确定.相关系数不是等距的度量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,如只能说相关系数r=0.50的两列数值比相关系数r=0.25的两列数值之间的关系程度更密切,而绝不能说前二者的密切程度是后二者密切程度的两倍.也不能说相关系数从0.25到0.50与从0.50到0.75所提高的程度一样多.存在相关关系,即相关系数取值较大的两类事物之间,不一定存在因果关系,这一点要从事物的本质方面进行分析,绝不可简单化.计算相关系数一般要求成对的数据,即若干个体中每个个体要有两种不同的观测值.例如每个学生(智力相同者)的算术和语文成绩;每个人的视反应和听反应时;每个学生的智力分数与学习成绩等等.任意两个个体之间的观测值不能求相关.计算相关的成对数据的数目,一般以30以上为宜.。
一、选择题1.以下四个命题:①从匀速传递的产品生产流水线上,每30分钟从中抽取一件产品进行检测,这样的抽样是分层抽样;②某市进行了一次全市高中男生身高统计调查,数据显示某市30000高中男生的身高ξ(单位:cm )服从正态分布()2172,N σ,且(172180)0.4P ξ<≤=,那么该市身高高于180cm 的高中男生人数大约为3000;③随机交量X 服从二项分布(100,0.4)B ,若随机变量21Y X =+,则Y 的数学期望为()81E Y =,方差为()48D Y =;④分类变量X 与Y ,它们的随机变量2K 的观测值为k ,当k 越小,“X 与Y 有关系的把握程度越大其中正确的个数是( ) A .1B .2C .3D .42.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e3.某科研机构为了研究中年人秃发与患心脏病是否有关,随机调查了一些中年人的情况,具体数据如表,根据表中数据则可判定秃发与患心脏病有关,那么这种判定出错的可能性为( ) 患心脏病情况秃发情况 患心脏病无心脏病 秃发 20 300 不秃发5450A .0.1B .0.05C .0.01D .0.994.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试,统计得到成绩与专业的列联表:( )附:参考公式及数据:(1)统计量:()()()()()22n ad bcKa b c d a c b d-=++++,(n a b c d=+++).(2)独立性检验的临界值表:则下列说法正确的是A.有95%的把握认为环保知识测试成绩与专业有关B.有95%的把握认为环保知识测试成绩与专业无关C.有99%的把握认为环保知识测试成绩与专业有关D.有99%的把握认为环保知识测试成绩与专业无关5.某种产品的广告费支出x与销售额y(单位:万元)之间有下表关系:y与x的线性回归方程为 6.5175ˆ.y x=+,当广告支出5万元时,随机误差的效应(残差)为()A.40 B.20C.30 D.106.在独立性检验中,统计量2χ有三个临界值:2.706、3.841和6.635,在一项打鼾与患心脏病的调查中,共调查了1000人,经计算的2χ=18.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A.有95%的把握认为两者无关B.约有95%的打鼾者患心脏病C.有99%的把握认为两者有关D.约有99%的打鼾者患心脏病7.对于相关指数R2,下列说法正确的是A.R2的取值越小,模型拟合效果越好B.R2的取值可以任意大,且R2取值越大,拟合效果越好C.R2的取值越接近于1,模型拟合效果越好D.以上答案都不对8.某市政府调查市民收入与旅游欲望时,采用独立性检验法抽取3 000人,计算发现k2=6.023,则根据这一数据查阅下表,市政府断言市民收入增减与旅游欲望有关系的把握是()P (K 2≥k ) … 0.25 0.15 0.10 0.025 0.010 0.005 …k…1.323 2.072 2.706 5.024 6.635 7.879 …A .90%B .95%C .97.5%D .99.5%9.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅临界值表来确定推断“X 与Y 有关系”的可信度,如果k >5.024,那么就推断“X 和Y 有关系”,这种推断犯错误的概率不超过( ) A .0.25 B .0.75 C .0.025 D .0.97510.由某个22⨯列联表数据计算得随机变量2K 的观测值k 6.879=,则下列说法正确的是 ( )0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.7081.3232.0722.7063.8415.0246.6357.87910.828A .两个分类变量之间有很强的相关关系B .有99%的把握认为两个分类变量没有关系C .在犯错误的概率不超过1.0%的前提下认为这两个变量间有关系D .在犯错误的概率不超过0.5%的前提下认为这两个变量间有关系 11.已知变量x ,y 的一组观测数据如表所示: x 3 4 5 6 7 y4.02.5-0.50.5-2.0据此得到的回归方程为y bx a =+,若a =7.9,则x 每增加1个单位,y 的预测值就( ) A .增加1.4个单位B .减少1.2个单位C .增加1.2个单位D .减少1.4个单位12.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,统计数据如下表 数学 物理 85~100分 85分以下 合计 85~100分 37 85 122 85分以下35143178附:K≈,现判断数学成绩与物理成绩有关系,则判断出错的概率不会超过经计算2 4.514A.0.5% B.1% C.2% D.5%二、填空题13.在一次独立试验中,有200人按性别和是否色弱分类如下表(单位:人)你能在犯错误的概率不超过_____的前提下认为“是否色弱与性别有关”?14.利用独立性检验考察两个分类变量X与Y是否有关系时,若K2的观测值k=6.132,则有__________的把握认为“X与Y有关系”.15.如果根据性别与是否爱好运动的列联表得到K2≈3.852>3.841,则判断性别与是否爱好运动有关,那么这种判断犯错的可能性不超过________.16.某班主任对全班50名学生作了一次调查,所得数据如表:不喜欢玩电脑游戏81523总计262450由表中数据计算得到K2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.17.某单位为了了解用电量度与气温之间的关系,随机统计了某天的用电量与当天气温.由表中数据得回归直线方程中,据此预测当气温为5℃时,用电量的度数约为____.18.给出下列5种说法:①标准差越小,样本数据的波动也越小;②回归分析研究的是两个相关事件的独立性;③在回归分析中,预报变量是由解释变量和随机误差共同确定的;④相关指数是用来刻画回归效果的,的值越大,说明回归模型的拟合效果越好.⑤对分类变量X与Y的随机变量K2的观测值k来说,k越小,判断“X与Y有关系”的把握越小.其中说法正确的是________(请将正确说法的序号写在横线上).19.已知与之间的一组数据如图所示,当m变化时,与的回归直线方程ˆy bx a=+必过定点.0123135m+-7m20.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”__________.(填有或没有)附:()()()()()22n ad bcKa b c d a c b d-=++++三、解答题21.今年疫情期间,许多老师进行抖音直播上课某校团委为了解学生喜欢抖音上课是否与性别有关,从高三年级中随机抽取30名学生进行了问卷调查,得到如下列联表:已知在这30人中随机抽取1人抽到喜欢抖音上课的学生的概率是8 15.(1)请将上面的列联表补充完整,并据此资料分析能否有95%的把握认为喜欢抖音上课与性别有关?(2)若从这30人中的女生中随机抽取2人,记喜欢抖音上课的人数为X,求X的分布列、数学期望.附临界值表:参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.22.2020年是脱贫攻坚的收官之年,国务院扶贫办确定的贫困县全部脱贫摘帽,脱贫攻坚取得重大胜利,为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础在产业扶贫政策的大力支持下,西部某县新建了甲、乙两家玩具加工厂,加工同一型号的玩具质监部门随机抽检了两个厂的各100件玩具,在抽取中的200件玩具中,根据检测结果将它们分成“A”、“B”、“C”三个等级,A、B等级都是合格品,C等级是次品,统计结果如下表所示:在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由原厂家自行销.(1)请根据所提供的数据,完成上面的2×2列联表(表二),并判断是否有95%的把握认为产品的合格率与厂家有关?(2)每件玩具的生产成本为30元,A、B等级产品的出厂单价分别为60元、40元.另外已知每件次品的销毁费用为4元.若甲厂抽检的玩具中有10件为A等级,用样本的频率估计概率,试判断甲、乙两厂能否都能盈利,并说明理由.附:22()()()()()n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.23.2017年10月9日,教育部考试中心下发了《关于2018年普通高考考试大纲修订内容的通知》,在各科修订内容中明确提出,增加中华优秀传统文化的考核内容,积极培育和践行社会主义核心价值观,充分发挥高考命题的育人功能和积极导向作用.鞍山市教育部门积极回应,编辑传统文化教材,在全是范围内开设书法课,经典诵读等课程.为了了解市民对开设传统文化课的态度,教育机构随机抽取了200位市民进行了解,发现支持开展的占75%,在抽取的男性市民120人中支持态度的为80人.(1)完成22⨯列联表(2)判断是否有99.9%的把握认为性别与支持有关?附:22()()()()()n ad bcKa b c d a c b d-=++++.24.某中学在2020年元旦校运动会到来之前,在高三年级学生中招募了16名男性志愿者和14名女性志愿者,其中男性志愿者,女性志愿者中分别有10人和6人喜欢运动会,其他人员均不喜欢运动会.(1)根据题设完成下列22⨯列联表:(2)在犯错误的概率不超过0.050的前提下能否有95%的把握认为喜欢运动会与性别有关?并说明理由.(3)如果喜欢运动会的女性志愿者中只有3人懂得医疗救护,现从喜欢运动会的女性志愿者中随机抽取2人负责医疗救护工作,求“抽取得2名志愿者都懂得医疗救护”的概率.注:()()()()()()22n ad bcK n a b c da b c d a c b d-==+++ ++++临界值表25.2020年3月,因为新冠肺炎疫情的影响,我市全体学生只能在网上在线学习,为了研究学生在线学习情况,市教研院数学学科随机从市区各高中学校抽取120名学生对线上教学情况进行调查(其中,男生与女生的人数之比为3:1),结果发现:男生中有40名对于线上教学满意,女生中有10名表示对于线上教学不满意.(1)请完成如表2×2列联表,并回答能否有95%的把握认为对“线上教学是否满意与性别有关”;(2)采用分层抽样的方法,从被调查的对线上教学满意的学生中,抽取6名学生,再从这6名学生中抽取2名学生,作线上学习的经验介绍,求所选取的2名学生性别不同的概率.附:参考公式及临界值表()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++26.2020年5月22日晚,国际权威医学杂志《柳叶刀》在线发表了全球首个新冠疫苗临床试验结果,该试验结果来自我国的陈薇院士和朱凤才教授团队、由于非人灵长类动物解剖生理、组织器官功能和免疫应答反应等性状与人类非常接近,所以常选择恒河猴进行科研和临床实验.某生物制品研究所将某一型号疫苗用在恒河猴身上进行科研和临床实验,得到部分数据如下表.现从注射疫苗的恒河猴中任取1只,取到感染病毒的恒河猴的概率为2 5 .95%把握认为注射此种疫苗有效?(2)在感染病毒的恒河猴中,按未注射疫苗和注射疫苗的比例抽取5只进行病理分析,然后从这5只恒河猴中随机抽取3只对注射疫苗情况进行核实,求恰好抽到2只未注射疫苗的恒河猴的概率.附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.【参考答案】***试卷处理标记,请不要删除一、选择题 1.A 解析:A 【分析】根据抽样方式的特征,可判断①;根据正态分布的性质,可判断②;根据二项分布的期望与方差特点,可判断③;根据独立性检验的方法和步骤,可判断④. 【详解】解:①根据抽样是间隔相同,且样本间无明显差异,故①应是系统抽样,即①为假命题;②某市进行了一次全市高中男生身高统计调查,数据显示某市30000高中男生的身高ξ(单位:cm )服从正态分布()2172,N σ,且(172180)0.4P ξ<≤=,所以()1(180)1721800.12P P ξξ>=-<≤=,所以该市身高高于180cm 的高中男生人数大约为300000.13000⨯=人,故②为真命题;③随机交量X 服从二项分布(100,0.4)B ,则()1000.440E X =⨯=,()()1000.410.424D X =⨯⨯-=,若随机变量21Y X =+,则Y 的数学期望为()()2181E Y E X =+=,方差为()()2296D Y D X ==;故③为假命题;④对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越小,故④为假命题. 故选:A . 【点睛】本题以命题的真假判断为载体考查了抽样方法,正态分布,二项分布及独立性检验等知识点,属于中档题.2.B解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y ee e +==⨯,故3c e =.故选:B. 【点睛】本题考查非线性回归问题的转化,是基础题.3.C解析:C 【分析】首先列出22⨯联表,通过计算出2K 的值,然后作统计推断,得出正确的结论. 【详解】列出22⨯联表如下图所示:()277520450530015.96825750455320K ⨯⨯-⨯=≈⨯⨯⨯ 6.635>,故判断错误的概率不超过0.01,故选C .【点睛】本小题主要考查补全22⨯联表,考查2K 的计算以及独立性检验的概念,属于基础题. 独立性检验的步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式22n ad bc K a b c d a c b d -=++++()()()()(),计算2K 的观测值;(3)比较2K 与临界值的大小关系作统计推断. 4.A解析:A 【解析】分析:首先计算观测值k 0的值,然后给出结论即可. 详解:由列联表计算观测值:()2401413672804.912 3.8412119202057k ⨯⨯-⨯==≈>⨯⨯⨯, 则有95%的把握认为环保知识测试成绩与专业有关.本题选择A 选项.点睛:本题主要考查独立性检验及其应用等知识,意在考查学生的转化能力和计算求解能力.5.D解析:D 【解析】∵y 与x 的线性回归方程为 6.5175ˆ.y x =+ 当5x =时,ˆ50y=. 当广告支出5万元时,由表格得:60y = 故随机误差的效应(残差)为605010.-= 故选D .6.C解析:C 【解析】因为统计量2χ有三个临界值:2.706、3.841和6.635,而2χ=18.87>6.635,所以有99%的把握认为两者有关,选C.7.C解析:C 【解析】两个变量y 与x 的回归模型中,它们的相关指数R 2越接近于1,这个模型的拟合效果越好.故选C .8.C解析:C 【详解】∵2 6.023 5.024K =>∴可断言市民收入增减与旅游欲望有关的把握为97.5%. 故选C.点睛:本题主要考查独立性检验的实际应用.独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式22()()()()()n ad bc K a b c d a c b d -=++++,计算出2K 的值;(3)查表比较2K 与临界值的大小关系,作统计判断.9.C解析:C【解析】∵P (k >5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X 和Y 有关系”. 考点:独立性检验.10.C【解析】由22⨯列联表数据计算得随机变量2K 的观测值是 6.879 6.635k =>,通过对照表中数据得,在犯错误的概率不超过1.0%的前提下,认为这两个变量间有关系,故选C.11.D解析:D 【解析】由表格得 5x =,0.9y =,∵回归直线方程为7ˆ9ˆ.y bx =+,过样本中心, ∴57.90.9b +=,即75b =-,则方程为77.95ˆyx =-+,则x 每增加1个单位,y 的预测值就减少1.4个单位,故选D.12.D解析:D 【解析】23.841 4.514 6.635k <=<,则0.010.05P <<,出错概率不超过5%选D.二、填空题13.05【解析】【分析】根据表中的数据求出然后对照临界值表可得答案【详解】由题意得列联表为 男 女 合计 正常 73 117 190 色弱 7 3 10 合计 80 120 200 由列联表中的解析:05 【解析】 【分析】根据表中的数据求出2K ,然后对照临界值表可得答案. 【详解】 由题意得列联表为由列联表中的数据可得2200(7331177) 3.947 3.8418012010190K ⨯⨯-⨯=≈>⨯⨯⨯,所以在犯错误的概率不超过0.05的前提下可认为“是否色弱与性别有关”. 故答案为0.05.K后查临界值表时不是查最大允许值,而是先根据题目要求的在独立性检验中,再求出2K相比较.另外,临界值百分比找到第一行对应的数值,再将该数值对应的k值与求得的2.表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1p 14.5【解析】∵K2的观测值k=6132>5024且k=6132<6635对照临界值表得有1–0025=975的把握认为X与Y有关系故答案为975解析:5%【解析】∵K2的观测值k=6.132>5.024,且k=6.132<6.635,对照临界值表得,有1–0.025=97.5%的把握认为“X与Y有关系”.故答案为97.5%.15.【解析】∵P(K2≥3841)≈005∴判断性别与是否爱好运动有关出错的可能性不超过5点睛:根据卡方公式计算再与参考数据比较就可确定可能性解析:5%【解析】∵P(K2≥3.841)≈0.05.∴判断性别与是否爱好运动有关,出错的可能性不超过5%.点睛:根据卡方公式计算2K,再与参考数据比较,就可确定可能性.16.不能【解析】查表知若要在犯错误的概率不超过001的前提下认为喜欢玩电脑游戏与认为作业多有关则临界值k0=6635本题中k≈5059<6635所以不能在犯错误的概率不超过001的前提下认为喜欢玩电脑游解析:不能【解析】查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.考点:独立性检验.17.40【解析】试题分析:∵∴∴当时考点:线性回归方程解析:40【解析】试题分析:∵,,∴,∴当时,考点:线性回归方程18.①③④⑤【解析】试题分析:由题;①标准差越小样本数据的波动也越小由方差定义正确;②回归分析研究的是两个相关事件的独立性;错误因为相关性;③④⑤回到定义都正确考点:统计中的特征量及回归分析与独立性检验解析:①③④⑤【解析】试题分析:由题;①标准差越小,样本数据的波动也越小,由方差定义,正确;②回归分析研究的是两个相关事件的独立性;错误,因为相关性;③,④,⑤回到定义都正确.考点:统计中的特征量及回归分析与独立性检验.19.【解析】试题分析:易得因线性回归直线必过样本中心点所以当变化时与的回归直线方程必过定点考点:线性回归直线必过样本中心点解析:【解析】试题分析:易得,.因线性回归直线必过样本中心点,所以当m变化时,y与x的回归直线方程ˆy bx a=+必过定点.考点:线性回归直线必过样本中心点.20.有【解析】根据表中数据计算观测值对照临界值知有95的把握认为南方学生和北方学生在选用甜品的饮食习惯方面有差异解析:有【解析】根据表中数据,计算观测值22100(60102010)1003.8417030802021K⨯-⨯==>⨯⨯⨯,对照临界值知,有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”。
一、选择题1.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e2.已知两个统计案例如下:①为了探究患肺炎与吸烟的关系,调查了339名50岁以上的人,调查结果如下表:②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:则对这些数据的处理所应用的统计方法是( ) A .①回归分析,②取平均值 B .①独立性检验,②回归分析 C .①回归分析,②独立性检验D .①独立性检验,②取平均值3.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .5,35b d ==B .15,25b d ==C .20,20b d ==D .30,10b d ==4.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:2()P K k≥0.0500.0250.0100.0050.001k 3.841 5.024 6.6357.87910.828由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是() A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关5.某中学共有5000人,其中男生3500人,女生1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:附:22()=()()()()n ad bcKa cb d a d b c-++++,其中n a b c d=+++.2()P K k≥0.100.050.010.005k 2.706 3.841 6.6357.879已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,我们()A.没有理由认为“该校学生每周平均体育锻炼时间与性别有关”B.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D .有99.5%的把握认为“该校学生每周平均体育锻炼时间与性别有关”6.通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘” 能做到“光盘” 男 45 10 女3015则有( )以上的把握认为“该市民能否做到‘光盘’与性别有关”,附表及公式()20P K k ≥0.100 0.050 0.010 0.001 0k 2.7063.8416.63510.828()()()()()22n ad bc K a b c d a c b d -=++++A .90%B .95%C .99%D .99.9%7.为了普及环保知识,增强环保意识,随机抽取某大学30名学生参加环保知识测试,得分如图所示,若得分的中位数为m e ,众数为m 0,平均数为x -,则( )A .m e =m 0=x -B .m 0<x -<m e C .m e <m 0<x -D .m 0<m e <x -8.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据见下表:心脏病 无心脏病 秃发 20 300 不秃发5450根据表中数据得到()277520450530015.96820750320455k ⨯⨯-⨯=≈⨯⨯⨯,因为K 2≥10.828,则断定秃发与心脏病有关系,那么这种判断出错的可能性为( ) A .0.1B .0.05C .0.01D .0.0019.给出以下四个说法:①绘制频率分布直方图时,各小长方形的面积等于相应各组的组距;②在刻画回归模型的拟合效果时,R2的值越大,说明拟合的效果越好;③设随机变量ξ服从正态分布N(4,22),则P(ξ>4)=12;④对分类变量X与Y,若它们的随机变量K2的观测值k越小,则判断“X与Y有关系”的犯错误的概率越小.其中正确的说法是()A.①④B.②③C.①③D.②④10.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数与方差 B.回归分析C.独立性检验 D.概率11.某中学学生会为了调查爱好游泳运动与性别是否有关,通过随机询问110名性别不同的高中生是否爱好游泳运动得到如下的列联表:由()()()()()22n ad bcka b c d a c b d-=++++并参照附表,得到的正确结论是A.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别有关”B.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别无关”C.有99.9%的把握认为“爱好游泳运动与性别有关”D.有99.9%的把握认为“爱好游泳运动与性别无关”12.通过随机询问2016名性别不同的大学生是否爱好某项运动,得到2 6.023K=,则根据这一数据查阅表,则有把握认为“爱好该项运动与性别有关”的可信程度是()2()P K k≥…0.250.150.100.0250.0100.005…k… 1.323 2.072 2.706 5.024 6.6357.879…A.90%B.95%C.97.5%D.99.5%二、填空题13.给出下列结论:①在回归分析中,可用相关指数2R的值判断模型的拟合效果,2R越大,模型的拟合效果越好;②某工厂加工的某种钢管,内径与规定的内径尺寸之差是离散型随机变量;③随机变量的方差和标准差都反映了随机变量的取值偏离均值的平均程度,它们越小,则随机变量偏离均值的平均程度越小;④甲、乙两人向同一目标同时射击一次,事件A:“甲、乙中至少一人击中目标”与事件B:“甲、乙都没有击中目标”是相互独立事件.其中结论正确的是______.14.新闻媒体为了了解观众对央视某节目的喜爱与性别是否有关,随机调查了观看该节目的观众110名,得到如下的2×2列联表:试根据样本估计总体的思想,估计约有________的把握认为“喜爱该节目与否和性别有关”.参考附表:(参考公式:K2=()()()()()2n ad bca b c d a c b d-++++,其中n=a+b+c+d)15.某市电信宽带私人用户月收费标准如下表:假定每月初可以和电信部门约定上网方案.若某用户每月上网时间为66小时,应选择__________方案最合算.16.下列是某厂1~4月份用水量(单位:百吨)的一组数据,由其散点图可知,用水量y与月份x 之间有较好的线性相关关系,其线性回归方程是=﹣0.7x+,则= . 月 份x 1 2 3 4 用水量y4.5432.517.为了判断高中二年级学生是否喜欢足球运动与性别的关系,现随机抽取50名学生,得到22⨯列联表:喜欢 不喜欢 总计 男 15 10 25 女520 25 总计 203050(参考公式22()()()()()n ad bc k a b c d a c b d -=++++,()n a b c d =+++)20()P K k ≥ 0.010 0.005 0.0010k 6.635 7.879 10.828则有___________以上的把握认为“喜欢足球与性别有关”.18.为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:理科 文科 总计 男 13 10 23 女 7 20 27 总计203050已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到≈4.844,则认为选修文理科与性别有关系出错的可能性约为________. 19.下列说法:①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大.②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则,c k 的值分别是4e 和0.3.③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,1,1,3b x y ===则1a =.正确的序号是________________.20.已知下列命题:①从匀速传递的产品生产流水线上,质检员每30分钟从生产流水线中抽取一件产品进行某项指标检测,这样的抽样方法是系统抽样;②两个变量的线性相关程度越强,则相关系数的值越接近于1;③两个分类变量X 与Y 的观测值2k ,若2k 越小,则说明“X 与Y 有关系”的把握程度越大;④随机变量X ~(0,1)N ,则(1)2(1)1P X P X <=<-. 其中为真命题的是__________.三、解答题21.为研究男、女生的身高差异,现随机从高三某班选出男生、女生各10人,并测量他们的身高,测量结果如下(单位:厘米): 男:173 178 174 185 170 169 167 164 161 170 女:165 166 156 170 163 162 158 153 169 172(1)根据测量结果完成身高的茎叶图(单位:厘米),并分别求出男、女生身高的平均值;(2)请根据测量结果得到20名学生身高的中位数h (单位:厘米),将男、女生身高不低于h 和低于h 的人数填入下表中,并判断是否有90%的把握认为男、女生身高有差异? 人数 男生 女生身高h ≥ 身高h <参照公式:()()()()()22n ad bc k a b c d a c b d -=++++()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.001 0k2.7063.8415.0246.6357.87910.828175厘米为偏高.采用分层抽样的方法从以上男生中抽取5人作为样本.若从样本中任取2人,试求恰有1人身高属于正常的概率.22.某实验学校为提高学习效率,开展学习方式创新活动,提出了完成某项学习任务的两种新的学习方式.为比较两种学习方式的效率,选取40名学生,将他们随机分成两组,每组20人,第一组学生用第一种学习方式,第二组学生用第二种学习方式.40名学生完成学习任务所需时间的中位数40min m =,并将完成学习任务所需时间超过min m 和不超过min m 的学生人数得到下面的列联表:(Ⅰ)估计第一种学习方式且不超过m 的概率、第二种学习方式且不超过m 的概率; (Ⅱ)能否有99%的把握认为两种学习方式的效率有差异?附:()()()()()22n ad bc K a b c d a c b d -=++++,23.某科研小组为了验证一种治疗新冠肺炎的新药的效果,选60名患者服药一段时间后,记录了这些患者的生理指标x 和y 的数据,并统计得到如下的22⨯列联表(不完整):在生理指标 1.8x >的人中,设A 组为生理指标65y ≤的人,B 组为生理指标65y >的人,将他们服用这种药物后的康复时间(单位:天)记录如下: A 组:10,11,12,13,14,15,16,17,19. B 组:12,13,14,15,16,17,20,21,25.(1)填写上表,并判断是否有95%95%的把握认为患者的两项生理指标x 和y 有关系; (2)从A ,B 两组人中随机各选1人,A 组选出的人记为甲,B 组选出的人记为乙,求乙的康复时间比甲的康复时间长的概率.附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.)20k0.2524.在第十五次全国国民阅读调查中,某地区调查组获得一个容量为200的样本,其中城镇居民150人,农村居民50人,在这些居民中,经常阅读的城镇居民100人,农村居民24人.(1)完成上面2×2列联表,并判断是否有95%的把握认为经常阅读与居民居住地有关?(2)从该地区居民城镇的居民中,随机抽取5位居民参加一次阅读交流活动,记这5位居民中经常阅读的人数为X,若用样本的频率作为概率,求随机变量X的分布列和期望.附:K2=2()()()()()n ad bca b c d a c b d-++++,其中n=a+b+c+d.25.某足球运动员进行射门训练,若打进球门算成功,否则算失败.已知某天该球员射门成功次数与射门距离的统计数据如下:(1)请问是否有90%的把握认为该球员射门成功与射门距离是否超过30米有关?参考公式及数据:22(),()()()()n ad bc K n a b c d a b c d a c b d -==+++++++.(2)当该球员距离球门30米射门时,设射门角(射门点与球场底线中点的连线和底线所成的锐角或直角)为([0,])2πθθ∈,其射门成功率为2+3()cos sin 4f θθθθθ=+⋅-,求该球员射门成功率最高时射门角θ的值.26.已知某种新型病毒的传染能力很强,给人们生产和生活带来很大的影响,所以创新研发疫苗成了当务之急.为此,某药企加大了研发投入,市场上这种新型冠状病毒的疫苗A 的研发费用x (百万元)和销量y (万盒)的统计数据如下:(1)根据上表中的数据,建立y 关于x 的线性回归方程y bx a =+(用分数表示); (2)根据所求的回归方程,估计当研发费用为1600万元时,销售量为多少?参考公式:()()()1122211nniii i i i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【参考答案】***试卷处理标记,请不要删除一、选择题 1.B 解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y e e e +==⨯,故3c e=.故选:B.【点睛】本题考查非线性回归问题的转化,是基础题.2.B解析:B【分析】根据独立性检验和回归分析的概念,即可作出判定,得到答案.【详解】由题意,独立性检验通常是研究两个分类变量之间是否有关系,所以①采用独立性检验,回归分析通常是研究两个具有相关关系的变量的相关程度,②采用回归分析,综上可知①是独立性检验,②是回归分析,故选B.【点睛】本题主要考查了独立性检验和回归分析的概念及其判定,其中解答中熟记独立性检验和回归分析的概念是解答的关键,着重考查了分析问题和解答问题的能力,属于基础题.3.D解析:D【解析】【分析】根据公式()()()()()22n ad bcKa b c d a c b d-=++++,分别利用4个选项中所给数据求出2K的值,比较所求值的大小即可得结果.【详解】选项A:22160(535155)3204010502K⨯⨯-⨯==⨯⨯⨯,选项B:22260(5251515)152040204016K⨯⨯-⨯==⨯⨯⨯,选项C:22360(5201520)24204025357K⨯⨯-⨯==⨯⨯⨯,选项D:22 460(5101530)96 204035257K⨯⨯-⨯==⨯⨯⨯,可得222431K K K>>22K>,所以由选项D中的数据得到的2K值最大,说明X与Y有关系的可能性最大,故选D.【点睛】本题主考查独立性检验的基本性质,意在考查对基本概念的理解与应用,属于基础题.解答独立性检验问题时,要注意应用2K越大两个变量有关的可能性越大这一性质.4.D解析:D【解析】【分析】由题意结合独立性检验的结论和临界值表给出结论即可.【详解】根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.本题选择D选项.【点睛】本题主要考查独立性检验的思想及其应用等知识,意在考查学生的转化能力和计算求解能力.5.B解析:B【解析】分析:根据题设收集的数据,得到男生学生的人数,进而得出22⨯的列联表,利用计算公式,求解2K的值,即可作出判断.详解:由题意得,从5000人中,其中男生3500人,女生1500人,抽取一个容量为300人的样本,其中男女各抽取的人数为35003002105000⨯=人,1500300905000⨯=人,又由频率分布直方图可知,每周体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周体育锻炼时间超过4小时的人数为3000.75225⨯=人,又在每周体育锻炼时间超过4小时的人数中,女生有60人,所以男生有22560165-=人,可得如下的22⨯的列联表:结合列联表可算得22300(456016530)4.762 3.8412109075225K⨯⨯-⨯=≈>⨯⨯⨯,所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”,故选B.点睛:本题主要考查了独立性检验的基础知识的应用,其中根据题设条件得到男女生的人数,得出22⨯的列联表,利用公式准确计算是解答的关键,着重考查了分析问题和解答问题的能力.6.A解析:A【解析】分析:根据列联表中数据代入公式计算k 的值,和临界值表比对后即可得到答案. 详解:将列联表中数据代入公式可得()210045153010 3.030 2.70675255545k ⨯⨯-⨯=≈>⨯⨯⨯,所以有0090的把握认为“该市居民能否做到‘光盘’”与性别有关.点睛:独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(3) 查表比较2K 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.)7.D解析:D 【解析】由条形图知,30名学生的得分情况依次为2个人得3分,3个人得4分,10个人得5分,6个人得6分,3个人得7分,2个人得8分,2个人得9分,2个人得10分,中位数为第15,16个数(分别为5,6)的平均数,即m e =5.5,5出现的次数最多,故众数为m 0=5,平均数为x =130(2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10)≈5.97,故m 0<m e <x . 故答案为D.点睛:这个题目考查的是条型分布直方表的应用,以及基本量:均值,平均数的考查;一般在这类图中平均数就是将数据加到一起除以数据的个数即可,在频率分布直方表中是取每个长方条的中点乘以相应的频率并相加即可.8.D解析:D 【解析】010.828,10.0010.99999.90k ≥∴-==,则有0099.9以上的把握认为秃发与患心脏病有关,故这种判断出错的可能性为10.9990.001-=,故选D.【方法点睛】本题主要考查独立性检验的实际应用,属于难题.独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(3) 查表比较2K 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.)9.B解析:B 【解析】①中各小长方形的面积等于相应各组的频率;②正确,相关指数R 2越大,拟合效果越好,R 2越小,拟合效果越差;③随机变量ξ服从正态分布N (4,22),正态曲线对称轴为x =4,所以P (ξ>4)=;④对分类变量X 与Y ,若它们的随机变量K 2的观测值k 越小,则说明“X 与Y 有关系”的犯错误的概率越大.故选B.10.C解析:C【解析】判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C. 考点:独立性检验的意义.11.A解析:A 【解析】()22110403020207.8 6.63560506050k ⨯-⨯=≈>⨯⨯⨯,所以有99%的把握认为“爱好游泳运动与性别有关”,所以在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别有关”12.C解析:C 【解析】因为2 6.023K =,且5.024 6.023 6.635≤≤,所以有把握认为“爱好该项运动与性别有关”的可信度P 满足10.02510.010P -≤≤-,即0.9750.99P ≤≤,应选答案C 。
回归分析的基本思想及其初步应用(一)【学习要求】1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果. 3.掌握建立线性回归模型的步骤.【学法指导】通过对典型案例的讨论,了解回归分析的基本思路、方法及其初步应用.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.学习中应该通过生活中详实事例理解回归分析的方法,其步骤为通过散点图,直观地了解两个变量的关系,然后,通过最小二乘法建立回归模型,最后通过分析残差、相关指数等,评价模型的好坏.重点是了解回归分析的思想方法,对其理论基础不做要求,避免单纯记忆和机械套用公式进行计算.【知识要点】1.线性回归模型(1)函数关系是一种 关系,而相关关系是一种 关系.(2)回归分析是对具有 关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线的斜率和截距的最小二乘估计公式分别为b ^= =∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^= ,其中 称为样本点的中心.(4)线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为 ,自变量x 称为 ,因变量y 称为 . 2.残差的概念对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i = ,i =1,2,…,n , 其估计值为e ^i = = ,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的 .3.刻画回归效果的方式 (1)残差图法作图时 为残差, 可以选为的样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.在残差图中,残差点 地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度 ,说明模型拟合精度越高. (2)残差平方和法残差平方和∑ni =1(y i -y ^i )2,残差平方和 ,模型拟合效果越好.(3)利用R 2刻画回归效果R 2= ;R 2表示 变量对于 变量变化的贡献率.R 2越接近于 ,表示回归的效果越好.【问题探究】[课堂导入] “名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?探究点一 线性回归方程问题1 两个变量之间的关系分几类? 问题2 什么叫回归分析?问题3 对具有线性相关关系的两个变量进行回归分析有哪几个步骤?例1求根据女大学生的身高预报体重的回归方程,并预报一名身高为172 cm 的女大学生的体重.思考 根据前面得到的回归方程,能否预测一名美国女大学生的体重?建立回归模型后能否一劳永逸,在若干年后还可以使用,或者适用于多年以前的女大学生体重预测? 小结 在使用回归方程进行预报时要注意:(1)回归方程只适用于我们所研究的样本的总体; (2)我们建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值. 跟踪训练1 某班5名学生的数学和物理成绩如表:(1(2)求物理成绩y 对数学成绩x 的回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩. 探究点二 线性回归分析问题1 利用求得的回归方程进行预报,为什么得到的预报值和实际值并不相同? 问题2 给出两个变量的回归方程,怎样判断拟合效果的好坏? 问题3 如果R 2≈0.64,表示什么意义?例2 某运动员训练次数与运动成绩之间的数据关系如下:(1)作出散点图; (2)求出回归方程; (3)作出残差图;(4)计算相关指数R 2;(5)试预测该运动员训练47次及55次的成绩.小结 解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.跟踪训练2 假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几?【当堂检测】1.下列各组变量之间具有线性相关关系的是 ( )A .出租车费与行驶的里程B .学习成绩与学生身高C .身高与体重D .铁的体积与质量2.若劳动生产率x (千元)与月工资y (元)之间的线性回归方程为y ^=50+80x ,则下列判断正确的是 ( ) A .劳动生产率为1 000元时,月工资为130元B .劳动生产率提高1 000元时,月工资平均提高80元C .劳动生产率提高1 000元时,月工资平均提高130元D .月工资为210元时,劳动生产率为2 000元3.实验测得四组(x ,y )的值是(1,2),(2,3),(3,4),(4,5),则y 对x 的线性回归方程是( ) A .y ^=x +1B .y ^ =x +2C .y ^ =2x +1D .y ^=x -14.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( ) A .y ^=1.23x +4B .y ^ =1.23x +5C .y ^ =1.23x +0.08D .y ^=0.08x +1.23【课堂小结】(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); (3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y ^=b ^x +a ^);(4)按一定规则估计回归方程中的参数;(5)提出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.【课后作业】一、基础过关1.在下列各量之间,存在相关关系的是( )①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系; ⑤某户家庭用电量与电价之间的关系. A .②③B .③④C .④⑤D .②③④2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是 ( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y ) C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg D .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 3.某产品的广告费用x根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 ( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元4.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑ni =1(y i -y ^i )2如下表哪位同学的实验结果体现拟合A ,B 两变量关系的模型拟合精度高?( )A .甲B .乙C .丙D .丁5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y ^=0.577x -0.448(x 为人的年龄,y (单位:%)为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是 ( )A .年龄为37岁的人体内脂肪含量都为20.90%B .年龄为37岁的人体内脂肪含量都为21.01%C .年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D .年龄为37岁的人群中的大部分人的体内脂肪含量为31.50% 6.下表是x 和y 之间的一组数据,则 ( )A .点(2,3)B .点(1.5,4)C .点(2.5,4)D .点(2.5,5)二、能力提升7.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈________,表明“气温解释了85%的热茶销售杯数变化”或者说“热茶销售杯数差异有85%是由气温引起的”.8.对具有线性相关关系的变量x 和y ,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.9.一组观察值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =a +bx i +e i (i =1,2,…,n ),若e i 恒为0,则R 2为________.10.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.11若加工时间y 与零件个数x 之间有较好的相关关系.(1)求加工时间与零件个数的回归方程; (2)试预报加工10个零件需要的时间.12.在一段时间内,分5已知∑5i =1x i y i =62,∑5i =1x 2i=16.6. (1)画出散点图;(2)求出y 对x 的回归方程;(3)如价格定为1.9万元,预测需求量大约是多少?(精确到0.01 t).三、探究与拓展13.关于x 与y 有如下数据:有如下的两个线性模型:①y ^=6.5x +17.5; ②y ^=7x +17. 试比较哪一个模型拟合的效果更好.回归分析的基本思想及其初步应用(二) 【学习要求】1.进一步体会回归分析的基本思想.2.通过非线性回归分析,判断几种不同模型的拟合程度.【学法指导】两个具有相关关系的变量不一定都呈现线性相关关系,我们可以通过散点图确定回归模型,并从变换后数据的散点图、残差平方和、相关指数等方面比较模型的拟合效果.通过将非线性模型转化为线性回归模型,体会“转化”的思想,体会统计方法的特点,认识统计方法的应用.【知识要点】1.如果两个变量不呈现线性相关关系,常见的两个变量间的关系还有指数关系、二次函数关系.2.两个变量间的非线性关系可以通过对解释变量的变换(对数变换、平方变换等)转化为另外两个变量的 关系.3.比较不同模型的拟合效果,可以通过 的大小, 的大小.【问题探究】探究点一 非线性回归模型问题1 有些变量间的关系并不是线性相关,怎样确定回归模型? 问题2 如果两个变量呈现非线性相关关系,怎样求出回归方程? 例1 某地区不同身高的未成年男性的体重平均值如下表:试建立y 与x 之间的回归方程.小结 根据已有的函数知识,可以发现样本分布在某一条指数型函数曲线y =c 1e 的周围,其中c 1和c2是待定参数;可以通过对x 进行对数变换,转化为线性相关关系.跟踪训练1 在彩色显影中,由经验知:形成染料光学密度y 与析出银的光学密度x 由公式y =A e (b <0)表示.现测得试验数据如下:试求y 对x 的回归方程. 探究点二 非线性回归分析问题1 对于两个变量间的相关关系,是否只有唯一一种回归模型来拟合它们间的相关关系? 问题2 对同一个问题建立的两种不同回归模型,怎样比较它们的拟合效果? 例2 为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图; (2)描述解释变量x 与预报变量y 之间的关系; (3)计算相关指数.小结 研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差e ^1,e ^2,…,e ^n 来判断原始数据中是否存在可疑数据,用R 2来刻画模型拟合的效果.跟踪训练2 对两个变量x ,y 取得4组数据(1,1),(2,1.2),(3,1.3),(4,1.37),甲、乙、丙三人分别求得数学模型如下:甲y =0.1x +1,乙y =-0.05x 2+0.35x +0.7,丙y =-0.8·0.5x +1.4,试判断三人谁的数学模型更接近于客观实际.【当堂检测】1.散点图在回归分析中的作用是 ( ) A .查找个体个数 B .比较个体数据大小关系 C .探究个体分类 D .粗略判断变量是否相关2.变量x ,y 的散点图如图所示,那么x ,y 之间的样本相关系数r 最接近的值为 ( )A .1B .-0.5C .0D .0.5 3.变量x 与y 之间的回归方程表示 ( ) A .x 与y 之间的函数关系 B .x 与y 之间的不确定性关系C .x 与y 之间的真实关系形式D .x 与y 之间的真实关系达到最大限度的吻合4.非线性回归分析的解题思路是______________________【课堂小结】非线性回归问题的处理方法(1)指数函数型y =e bx +a①函数y =e bx +a 的图象:②处理方法:两边取对数得ln y =ln e bx +a,即ln y =bx +a .令z =ln y ,把原始数据(x ,y )转化为(x ,z ),再根据线性回归模型的方法求出b ,a .【课后作业】一、基础过关 1.下列说法正确的是( )①线性回归方程适用于一切样本和总体;②线性回归方程一般都有时间性; ③样本的取值范围会影响线性回归方程的适用范围; ④根据线性回归方程得到的预测值是预测变量的精确值. A .①③④B .②③C .①②D .③④2.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为 ( )A .-1 B.0 C .12 D .13对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是 ( )A .y =2x -2B .y =(12)xC .y =log 2xD .y =12(x 2-1)4.某地财政收入x 与支出y 满足回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过 ( ) A .10亿 B .9亿 C .10.5亿D .9.5亿5.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ②相关指数R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好. 其中正确命题的个数是 ( )A .0B .1C .2D .3二、能力提升6.为了考察两个变量x 和y 之间的线性相关性,甲、乙两个同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2.已知在两个人的试验中发现对变量x 的观测数据的平均值恰好相等,都为s ,对变量y 的观测数据的平均值也恰好相等,都为t .那么下列说法正确的是 ( ) A .直线l 1和l 2有交点(s ,t ) B .直线l 1和l 2相交,但是交点未必是点(s ,t ) C .直线l 1和l 2由于斜率相等,所以必定平行 D .直线l 1和l 2必定重合7.研究人员对10个家庭的儿童问题行为程度(X )及其母亲的不耐心程度(Y )进行了评价结果如下,家庭1,2,3,4,5,6,7,8,9,10,儿童得分:72,40,52,87,39,95,12,64,49,46,母亲得分:79,62,53,89,81,90,10,82,78,70. 下列哪个方程可以较恰当的拟合( )A .y ^=0.771 1x +26.528 B .y ^=36.958ln x -74.604 C .y ^=1.177 8x 1.014 5 D .y ^=20.924e0.019 3x8.如果散点图的所有点都在一条直线上,则残差均为______,残差平方和为_______,相关指数为________. 9.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =e bx+a的周围,令z =lny ,求得线性回归方程为z ^=0.25x -2.58,则该模型的回归方程为________.10.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得:∑8i =1x i =52,∑8i =1y i =228,∑8i =1x 2i =478,∑8i =1x i y i =1 849,则y 与x 的线性回归方程是________________.11.某种产品的广告费支出x ((1)画出散点图;(2)求y 关于x 的线性回归方程.12(1)利用所给数据求年需求量与年份之间的线性回归方程y =b x +a ; (2)利用(1)中所求出的线性回归方程预测该地2012年的粮食需求量.三、探究与拓展13检验每册书的成本费y 元与印刷册数的倒数1x 之间是否有线性相关关系,如有,求出y 对1x的回归方程.独立性检验的基本思想及其初步应用 【学习要求】1.了解分类变量的意义.2.了解2×2列联表的意义. 3.了解随机变量K 2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.【学法指导】独立性检验的基本思想是统计上的假设检验思想,利用两个分类变量的列联表,构造随机变量K 2,K 2越大说明两个变量有关系的可能性越大.【知识要点】1.分类变量和列联表 (1)分类变量变量的不同“值”表示个体所属的 ,像这样的变量称为分类变量. (2)列联表①定义:列出的两个分类变量的 称为列联表. ②2×2列联表一般地,假设两个分类变量X和Y ,它们的取值分别为 和 ,其样本频数列联表(也称为2×2列联表)2(1)定义:利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)K 2= ,其中n =a +b +c +d . (3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定 k 0.②利用公式计算随机变量K 2的 k .③如果 ,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在 不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中 支持结论“X 与Y 有关系”.3. 等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否 ,常用等高条形图展示列联表数据的 .(2)观察等高条形图发现a a +b 和cc +d相差很大,就判断两个分类变量之间 .【问题探究】[课堂导入] 5月31日是世界无烟日.有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.这些疾病与吸烟有关的结论是怎样得出的呢?探究点一 列联表和等高条形图 问题1 举例说明什么是分类变量?问题2 什么是列联表?怎样从列联表判断两个分类变量有无关系? 问题3 等高条形图对分析两个分类变量是否有关系,有何帮助?例1 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.根据这些数据能否断定“患呼吸道疾病与吸烟有关”?(用列联表和等高条形图说明).小结 利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,a a +b 与cc +d 相差越大,两个分类变量有关系的可能性就越大.跟踪训练1 在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?探究点二 独立性检验问题1 利用列联表及等高条形图判断两个分类变量是否有关有什么优缺点? 问题2 随机变量K 2有何作用?问题3 独立性检验的基本思想是什么?例2 在某医院,因为患心脏病而住院的665名男性病人中有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系;(2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系? 小结 (1)利用随机变量K 2进行独立性检验的步骤: ①根据实际问题需要的可信度α确定临界值k 0; ②根据给出数据计算得出随机变量K 2的观测值k ;③如果k ≥k 0,就认为在犯错误的概率不超过α的前提下,认为两变量有关系;否则,认为两个分类变量没有关系.(2)独立性检验能精确判断可靠程度,而等高条形图的优点是直观,但只可以粗略判断两个分类变量是否有关系,一般在通过图表判断后还需要用独立性检验来确认.跟踪训练2 为了探究吸烟习惯与患慢性气管炎是否有关,调查了339名50岁以上的人,获数据如下:吸烟习惯与患慢性气管炎是否相关?试用独立性检验的思想说明理由.【当堂检测】1.下面是一个则表中a 、b A .94,96 B .52,50 C .52,60 D .54,52 2.观察下列各图,其中两个分类变量x ,y 之间关系最强的是( )3.经过对K 2的统计量的研究,得到了若干个临界值,当K 2的观测值k >3.841时,我们 ( ) A .在犯错误的概率不超过0.05的前提下可认为A 与B 有关 B .在犯错误的概率不超过0.05的前提下可认为A 与B 无关 C .在犯错误的概率不超过0.01的前提下可认为A 与B 有关 D .没有充分理由说明事件A 与B 有关系4.根据下表计算:K2的观测值k≈________.(保留3位小数)【课堂小结】1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.【课后作业】一、基础过关1.下面说法正确的是() A.统计方法的特点是统计推断准确、有效B.独立性检验的基本思想类似于数学上的反证法C.任何两个分类变量有关系的可信度都可以通过查表得到D.不能从等高条形图中看出两个分类变量是否相关2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为() A.99% B.99.5% C.99.9% D.无关系4.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是() A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确5.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大()A.aa+b与dc+dB.ca+b与ac+dC.aa+b与cc+dD.aa+b与cb+c6根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的二、能力提升7.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是()A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关8.如果K2的观测值为6.645,可以认为“x与y无关”的可信度是________.9.为研究某新药的疗效,给50设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.10.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特(1(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?11.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?12.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?三、探究与拓展13试说明在这三种心理障碍中哪一种与性别关系最大?章末复习课【知识结构】【题型解法】题型一回归分析思想的应用回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.例1一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:((2)若线性相关,求线性回归方程;(3)求出相关指数;(4)作出残差图;(5)进行残差分析;(6)试制订加工200个零件的用时规定.小结回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R2来检验模型的拟合效果,从而得到最佳模型.跟踪训练1且知x与y具有线性相关关系,求出y对x的线性回归方程,并说明拟合效果的好坏.题型二独立性检验思想的应用独立性检验的基本思想是统计中的假设检验思想,类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理.例2为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B 后的试验结果.(疱疹面积单位:mm2)表1。
第四课时第三章统计案例小结与复习同步练习一、选择题1.观察下列各图形:其中两个变量x、y具有相关关系的图是( )A.①②B.①④C.③④D.②③2.对分类变量X与Y的随机变量K2的观测值k,说法正确的是()A.k越大,“X与Y有关系”可信程度越小B.k越小,“X与Y有关系"可信程度越小C.k越接近于0,“X与Y无关”程度越小D.k越大,“X与Y无关”程度越大3.工人月工资(元)依劳动产值(千元)变化的回归直线方程为错误!=60+90x,下列判断正确的是( )A.劳动产值为1 000元时,工资为50元B.劳动产值提高1 000元时,工资提高150元C.劳动产值提高1 000元时,工资提高90元D.劳动产值为1 000元时,工资为90元4.在一次对性别与说谎是否相关的调查中,得到如下数据:)A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有99%的把握认为是否说谎与性别有关C.在此次调查中有99.5%的把握认为是否说谎与性别有关D.在此次调查中没有充分的证据显示说谎与性别有关5.在4个独立性检验中,根据试验数据分别得到的K2统计量的值为:①6。
98;②4。
75;③2.93;④9。
24。
则能有99%的把握说两个事件有关的独立性检验的个数为( )参考数据如下表:A。
1 B.2C.3 D.4二、填空题6.下列关于线性回归,有以下说法:①变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到的表示具有相关关系的两个变量的一组数据的图形叫做散点图;③线性回归直线方程最能代表观测值x,y之间的线性相关关系;④任何一组观测值都能得到具有代表意义的回归直线方程.其中正确的说法是________.7.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则________两变量更强的线性相关性.8.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm。
一、选择题1.以下四个结论,正确的是( )①质检员从匀速传递的产品生产流水线上,每间隔15分钟抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②在回归直线方程0.1.3ˆ1y x =+中,当变量ˆx 每增加一个单位时,变量ˆy增加0.13个单位;③在频率分布直方图中,所有小矩形的面积之和是1;④对于两个分类变量X 与Y ,求出其统计量2K 的观测值k ,观测值k 越大,我们认为“X 与Y 有关系”的把握程度就越大. A .②④B .②③C .①③D .③④2.下列关于回归分析与独立性检验的说法正确的是() A .回归分析和独立性检验没有什么区别;B .回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系;C .独立性检验可以100%确定两个变量之间是否具有某种关系.D .回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验;3.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问400名不同的大学生是否爱好某项运动,利用22⨯列联表,计算可得2K 的观测值7.556k ≈,附表:20()P K k ≥0.15 0.100.050.025 0.010 0.005 0.0010k 2.0722.7063.8415.0246.6357.879 10.828参照附表,得到的正确结论是A .有99%以上的把握认为“爱好该项运动与性别无关”B .有99%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别无关” 4.下列命题是假命题...的是( ) A .某企业有职工150人,其中高级职称15人,中级职称45人,一般职员90人,若用分层抽样的方法抽出一个容量为30的样本,则一般职员应抽出18人; B .用独立性检验(列联表法)来考察两个分类变量是否有关系时,算出的随机变量的值越大,说明“与有关系”成立的可能性越大;C .已知向量,,则是的必要条件; D .若,则点的轨迹为抛物线.5.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是A .10200ˆyx =-+ B .10200ˆyx =+ C .10200ˆyx =-- D .10200ˆyx =- 6.下列命题正确的个数是:( )①对于两个分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握程度越大;②在相关关系中,若用211c xy c e =拟合时的相关指数为21R ,用2y bx a =+拟合时的相关指数为22R ,且2212R R >,则1y 的拟合效果好;③利用计算机产生0~1之间的均匀随机数a ,则事件“310a ->”发生的概率为23; ④“0,0a b >>”是“2b aa b+≥”的充分不必要条件 A .1B .2C .3D .47.某中学共有5000人,其中男生3500人,女生1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:附:22()=()()()()n ad bc K a c b d a d b c -++++,其中n a b c d =+++.20()P K k ≥0.100.050.01 0.0050k 2.7063.8416.6357.879已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,我们( )A .没有理由认为“该校学生每周平均体育锻炼时间与性别有关”B .有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C .有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D .有99.5%的把握认为“该校学生每周平均体育锻炼时间与性别有关”8.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:根据上表可得回归方程y bx a=+,计算得7b=,则当投入10万元广告费时,销售额的预报值为A.75万元B.85万元C.99万元D.105万元9.某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表:计算得K2=10,则下列选项正确的是()A.有99.5%的把握认为使用智能手机对学习有影响B.有99.5%的把握认为使用智能手机对学习无影响C.在犯错误的概率不超过0.1%的前提下,认为使用智能手机对学习有影响D.在犯错误的概率不超过1%的前提下,认为使用智能手机对学习无影响10.为了考查两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合11.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:则认为多看电视与人冷漠有关系的把握大约为( ) 附:K 2=. P (K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828A .99%B .97.5%C .95%D .90%12.有下列数据: x123y35.9912.01下列四个函数中,模拟效果最好的为( ) A .B .C .D .二、填空题13.教材上一例问题如下:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据如下表,试建立y 与x 之间的回归方程. 温度 x /℃ 21 23 25 27 29 32 35 产卵数y /个711212466115325某同学利用图形计算器研究它时,先作出散点图(如图所示),发现两个变量不呈线性相关关系. 根据已有的函数知识,发现样本点分布在某一条指数型曲线21c xy c e 的附近(1c 和2c 是待定的参数),于是进行了如下的计算:根据以上计算结果,可以得到红铃虫的产卵数y 对温度x 的回归方程为__________.(精确到0.0001) (提示:21c xy c e 利用代换可转化为线性关系)14.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如表根据列联表数据,求得K 2≈__________.15.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:男公务员 女公务员 生二胎 80 40 不生二胎4040则________(填“有”或“没有”)99%以上的把握认为“生二胎与性别有关”. 附:K 2=. P (K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.82816.某班主任对全班50名学生作了一次调查,所得数据如表:认为作业多认为作业不多总计喜欢玩电脑游戏18927不喜欢玩电脑游戏81523总计262450由表中数据计算得到K 2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.17.某单位为了了解用电量y (度)与气温x (度)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下的对照表由表中数据,得回归直线方程ˆˆˆy bx a =+,若ˆ2b=-,则ˆa =________. 18.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温(如表),并求得线性回归方程为^=-2x +60.不小心丢失表中数据c ,d ,那么由现有数据知2c+d=______. x c 13 10 -1 y243438d19.在2017年3月15日,某市物价部门对本市的5家商场的某种商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示: 价格x 9 9.5 10 10.5 11 销售量y1110865由散点图可知,销售量y 与价格x 之间有较好的线性相关关系,其线性回归方程是:3.2y x a =-+,则a =__________.20.已知x 、y 之间的一组数据如下:x 0 1 2 3 y8264则线性回归方程ˆya bx =+所表示的直线必经过点________. 三、解答题21.据我国一项专题调查显示,北京市高级职称知识分子中竟有高达75.3%的人处于亚健康状态,更令人担忧的是85%以上的企业管理者处于慢性疲劳状态或亚健康状态,这是由他们的特殊工作、生活环境和行为模式所决定的.亚健康是指非病非健康的一种临界状态,如果这种状态不能及时得到纠正,非常容易引起身心疾病.某高科技公司为了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查.该公司处于正常工作状态的员工(包括管理人员)共有10000人.其中男性员工有6000人,女性员工有4000人,从10000中用分层抽样的方法随机抽取了500人的样本,以调查健康状况. (1)求男性员工、女性员工各抽取多少人?(2)通过不记名问卷调查方式,得到如下等高条形图:其中0.2a =、0.1b =,根据以上等高条形图,完成下列22⨯列联表;健康 亚健康 总计男员工 女员工总计500附:22(),()()()()n ad bc K n a b c d a b a c c d b d -==+++++++. ()20P K k ≥0.50 0.25 0.05 0.025 0.010 0k0.4551.3213.8405.0246.63522.2017年10月9日,教育部考试中心下发了《关于2018年普通高考考试大纲修订内容的通知》,在各科修订内容中明确提出,增加中华优秀传统文化的考核内容,积极培育和践行社会主义核心价值观,充分发挥高考命题的育人功能和积极导向作用.鞍山市教育部门积极回应,编辑传统文化教材,在全是范围内开设书法课,经典诵读等课程.为了了解市民对开设传统文化课的态度,教育机构随机抽取了200位市民进行了解,发现支持开展的占75%,在抽取的男性市民120人中支持态度的为80人.支持不支持合计男性 女性 合计(1)完成22⨯列联表(2)判断是否有99.9%的把握认为性别与支持有关?附:22()()()()()n ad bc K a b c d a c b d -=++++. 2()P K k ≥0.15 0.100.050.025 0.010 0.005 0.001 k 2.0722.7063.8415.0246.6357.87910.82823.某单位280名员工参加“我爱阅读”活动,他们的年龄在25岁至50岁之间,按年龄分组:第1组[)25,30,第2组[)30,35,第3组[)35,40,第4组[)40,45,第5组[)45,50,得到的频率分布直方图如图所示.(1)现要从年龄低于40岁的员工中用分层抽样的方法抽取12人,为了交流读书心得,现从上述12人中再随机抽取3人发言,设3人中年龄在[)35,40的人数为ξ,求ξ的数学期望;(2)为了估计该单位员工的阅读倾向,现对从该单位所有员工中按性别比例抽取的40人做“是否喜欢阅读国学类书籍”进行调查,调查结果如下表所示:(单位:人)喜欢阅读国学类不喜欢阅读国学类合计 男 16 4 20 女 8 12 20 合计241640根据表中数据,我们能否有99%的把握认为该单位员工是否喜欢阅读国学类书籍和性别有关系?附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++()20P K k ≥0.025 0.010 0.005 0.001 0k 5.0246.6357.87910.82824.受新冠肺炎疫情影响,本学期同学们在家上网课时间达三个多月,电脑屏幕代替了黑板,对同学们的视力造成了很大的损伤.某学校为了了解同学们现阶段的视力情况,对全校高三1000名学生的视力情况进行了调查,从中随机抽取了100名学生的体检表,绘制了频率分布直方图如图:(1)求a 的值,并估计这1000名学生视力的中位数(精确到0.01);(2)为了进一步了解视力与学生成绩是否有关,对本年级名次在前50名与后50名的学生进行了调查,得到如下数据:前50名 后50名 近视4232不近视818根据表中数据,能否有95%把握认为视力与学习成绩有关?(3)若报考某高校某专业的资格为:视力不低于5.0,以该样本数据来估计全市高三学生的视力,现从全市视力在4.8以上的同学中随机抽取4名同学,这4名同学中有资格报该校该专业的人数为X,求X的分布列及数学期望.()2≥0.100.050.0250.0100.005P K kk 2.706 3.841 5.024 6.6357.87925.2020年寒假是特殊的寒假,因为疫情全体学生只能在家进行网上在线学习,为研究学生网上学习的情况,某校社团对男女各10名学生进行了网上在线学习的问卷调查,每名学生给出评分(满分100分),得到如图所示的茎叶图.(1)根据茎叶图判断男生组和女生组哪个组对网课的评价更高?并说明理由;(2)如图是按该20名学生的评分绘制的频率分布直方图,求a的值并估计这20名学生评分的平均值(同一组中的数据用该组区间中点值作为代表);(3)求该20名学生评分的中位数m,并将评分超过m和不超过m的学生数填入下面的列联表:超过m不超过m男生女生根据列联表,能否有85%的把握认为男生和女生的评分有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++,()2P K k0.500.400.250.150.100.050.025k0.4550.708 1.323 2.072 2.706 3.841 5.02426.某企业是否支持进军新的区域市场,在全体员工中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否有99%的把握认为“新员工和老员工是否支持进军新的区域市场有差异”;(2)已知在被调查的新员工中有6名来自市场部,其中2名支持进军新的区域市场,现在从这6人中随机抽取3人,设其中支持进军新的区域市场人数为随机变量X,求X的分布列和数学期望.附:()22()()()()n ac bdKa b a c b d c d-=++++【参考答案】***试卷处理标记,请不要删除一、选择题1.D解析:D【分析】利用系统抽样和分层抽样的知识判断①的正确性;利用回归直线方程的知识判断②的正确性;利用频率分布直方图的知识判断③的正确性;利用独立性检验的知识判断④的正确性.【详解】①,是系统抽样,不是分层抽样,所以①错误. ②,y增加0.1,所以②错误. ③,在频率分布直方图中,所有小矩形的面积之和是1,所以③正确. ④,对于两个分类变量X与Y ,求出其统计量2K 的观测值k ,观测值k 越大,我们认为“X 与Y 有关系”的把握程度就越大,所以④正确. 综上所述,正确的序号为③④. 故选:D 【点睛】本小题主要考查抽样方法、回归直线方程、频率分布直方图和独立性检验等知识,属于基础题.2.D解析:D 【分析】根据题意可知,利用回归分析和独立性检验的定义,排除错误选项,即可求解出答案. 【详解】回归分析是指将具有相关关系的两个变量之间的数量关系进行测定,通过建立数学表达式进行统计估计和预测的统计研究方法.独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.根据以上定义,可知A 、B 、C 均错误,故答案选D . 【点睛】本题主要考查了回归分析与独立性检验的定义的区别.3.B解析:B 【分析】根据2K 的观测值7.556k ≈,对照表中数据,即可得到相应的结论. 【详解】根据2K 的观测值7.556k ≈,对照表中数据得出有0.01的几率说明这两个变量之间的关系是不可信的,即有10.0199%-=的把握说明两个变量之间有关系,故选B . 【点睛】本题主要考查独立性检验的应用,独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式计算2K 的观测值k ;(3)查表比较k 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误)4.D解析:D 【分析】根据分层抽样的概念易得,解出方程即可判断为真;用独立性检验(列联表法)的判定方法即可得出B 为真;根据充分条件和必要条件的定义以及向量的数量积的应用,进行判断即可得到C 为真;可将原式化为,表示动点到定点和到动直线距离相等的点的轨迹,但是定点在定直线上,故可判断D. 【详解】设一般职员应抽出人,根据分层抽样的概念易得,解得,即一般职员应抽出18人,故A 为真; 用独立性检验(列联表法)来考察两个分类变量是否有关系时,算出的随机变量的值越大,说明“与有关系”成立的可能性越大,可知B 为真;若,则,即不成立,若,则,即成立,故是的必要条件,即C 为真;方程即:,化简得,即表示动点到定点的距离和到直线的距离相等的点的集合,且在直线上,故其不满足抛物线的定义,即D 为假,故选D.【点睛】本题主要考查了分层抽样的概念,独立性检验在实际中的应用,充分条件、必要条件的判定,抛物线的定义等,属于中档题.5.A解析:A 【解析】试题分析:因为商品销售量x 与销售价格ˆy负相关,所以排除B ,D 选项, 将0x =代入10200ˆyx =--可得2000ˆy =-<,不符合实际.故A 正确. 考点:线性回归方程.【方法点睛】本题主要考查线性回归方程,属容易题.线性回归方程ˆˆˆy bx a =+当ˆ0b<时ˆ,x y 负相关;当ˆ0b >时ˆ,x y 正相关. 6.C解析:C 【解析】分析:根据独立性检验的性质可判断①;根据回归分析的基本原理可判断②;根据几何概型概率公式可判断③; 根据不等式的性质可判断④.详解:①对于两个分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握程度越小,①错误;②在相关关系中,若用211c x y c e =拟合时的相关指数为21R ,用2y bx a =+拟合时的相关指数为22R ,且2212R R >,则1y 的拟合效果好,②正确;③利用计算机产生0~1之间的均匀随机数a ,则事件“310a ->”发生的概率为1123103-=-,正确; ④“0,0a b >>”可得到“2b a a b +≥”, “2b aa b+≥”时“0,0a b >>”不一定成立,所以“0,0a b >>”是“2b aa b+≥”的充分不必要条件,正确,即正确命题的个数是3,故选C. 点睛:本题主要通过对多个命题真假的判断,主要综合独立性检验、回归分析、几何概型概率公式、不等式的性质,属于中档题.这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.7.B解析:B 【解析】分析:根据题设收集的数据,得到男生学生的人数,进而得出22⨯的列联表,利用计算公式,求解2K 的值,即可作出判断.详解:由题意得,从5000人中,其中男生3500人,女生1500人,抽取一个容量为300人的样本,其中男女各抽取的人数为35003002105000⨯=人,1500300905000⨯=人, 又由频率分布直方图可知,每周体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周体育锻炼时间超过4小时的人数为3000.75225⨯=人, 又在每周体育锻炼时间超过4小时的人数中,女生有60人,所以男生有22560165-=人,可得如下的22⨯的列联表:结合列联表可算得22300(456016530) 4.762 3.8412109075225K ⨯⨯-⨯=≈>⨯⨯⨯,所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”, 故选B.点睛:本题主要考查了独立性检验的基础知识的应用,其中根据题设条件得到男女生的人数,得出22⨯的列联表,利用公式准确计算是解答的关键,着重考查了分析问题和解答问8.B解析:B 【解析】分析:根据表中数据求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,然后再求当10x =的函数值即可. 详解:由题意得11(24568)5,(3040506070)5055x y =++++==++++=, ∴样本中心为(5,50).∵回归直线ˆ7ˆyx a =+过样本中心(5,50), ∴ˆ5075a=⨯+,解得ˆ15a =, ∴回归直线方程为ˆ715yx =+. 当10x =时,710158ˆ5y=⨯+=, 故当投入10万元广告费时,销售额的预报值为85万元. 故选B .点睛:本题考查回归直线过样本中心这一结论和平均数的计算,考查学生的运算能力,属容易题.9.A解析:A 【解析】因为7.879<K 2<10.828,所以有99.5%的把握认为使用智能手机对学习有影响. 故选A.10.A解析:A 【解析】回归直线方程过样本中心点,过A 选项正确.11.A解析:A 【解析】由公式可计算得K 2≈11.377>6.635.故选A.点睛:(1)独立性检验的关键是正确列出2×2列联表,并计算出K 2的值.(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断.12.A解析:A 【解析】当x =1,2,3时,分别代入求y 值,离y 最近的值模拟效果最好,可知A 模拟效果最好.故选A.考点:非线性回归方程的选择.13.【解析】分析:由题意首先将非线性问题转化为线性问题然后结合线性回归方程的公式整理计算即可求得最终结果详解:对回归方程:两侧作对数运算可得:即与之间具有线性相关关系结合题中的图片可知两者之间的回归方程解析:0.2720 3.8492ˆx ye -= 【解析】分析:由题意首先将非线性问题转化为线性问题,然后结合线性回归方程的公式整理计算即可求得最终结果.详解:对回归方程:y 21c xc e =两侧作对数运算可得:21l ˆln n yc x c =+, 即ln ˆy与x 之间具有线性相关关系, 结合题中的图片可知两者之间的回归方程系数为:1ln 3.84917ˆc a==-,20.27206ˆ2c b ==, 即:ln 0.272026 3.8417ˆ9yx =-, 据此可得,红铃虫的产卵数y 对温度x 的回归方程为0.2720 3.8492ˆx ye -=. 点睛:本题主要考查非线性回归方程的计算,等价转化的数学思想等知识,意在考查学生的转化能力和计算求解能力.14.469【解析】由计算公式K2=得K2≈7469解析:469 【解析】 由计算公式K 2=,得K 2≈7.469.15.没有【解析】由于K2=<6635故没有99以上的把握认为生二胎与性别有关解析:没有 【解析】由于K 2=2200(80404040)5012080120809⨯-⨯=⨯⨯⨯<6.635,故没有99%以上的把握认为“生二胎与性别有关”.16.不能【解析】查表知若要在犯错误的概率不超过001的前提下认为喜欢玩电脑游戏与认为作业多有关则临界值k0=6635本题中k≈5059<6635所以不能在犯错误的概率不超过001的前提下认为喜欢玩电脑游解析:不能 【解析】查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k 0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关. 考点:独立性检验.17.【解析】试题分析:由题意得即样本中心点代入回归直线方程得考点:回归直线方程的应用 解析:60【解析】试题分析:由题意得181********x ++-==,24343864404y +++==,即样本中心点15(,40)2,代入回归直线方程,得15402602ˆˆaa =-⨯+⇒=. 考点:回归直线方程的应用.18.100【解析】点睛:函数关系是一种确定的关系相关关系是一种非确定的关系事实上函数关系是两个非随机变量的关系而相关关系是非随机变量与随机变量的关系如果线性相关则直接根据用公式求写出回归方程回归直线方程解析:100 【解析】2296,44c dx y ++== 962260,1002,2100ˆ4ˆ2d c ay bx d c c d ++=-=+==-+= 点睛:函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.如果线性相关,则直接根据用公式求ˆˆ,ab ,写出回归方程,回归直线方程恒过点(),x y . 19.40【解析】根据题意:解析:40 【解析】 根据题意:99.51010.511105x ++++==,111086585y ++++==,3.2y x a =-+, 3.210840a ∴=⨯+=20.(155)【解析】由题意可得:线性回归方程过样本中心点即线性回归方程所表示的直线必经过点(155)点睛:(1)正确理解计算的公式和准确的计算是求线性回归方程的关键(2)回归直线方程必过样本点中心解析:(1.5,5) 【解析】由题意可得:0123 1.54x +++==,826454y +++==, 线性回归方程过样本中心点,即线性回归方程ˆya bx =+所表示的直线必经过点(1.5,5)点睛:(1)正确理解计算,b a的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y bx a=+必过样本点中心(),x y.三、解答题21.(1)300人;200人;(2)列联表见解析,能有99%的把握认为亚健康与性别有关.【分析】(1)由题意可得样本容量与总体的比例为120,用比例乘以男性员工和女性员工即可得出抽取人数;(2)根据等高条形图计算男性健康240人,亚健康60人,女性健康180人,亚健康20人,完成22⨯列联表,代入2K公式计算即可.【详解】解:(1)因为样本容量与总体的比例为5001 1000020=,所以男性员工应抽取1600030020⨯=人,女性员工应抽取1400020020⨯=人;(2)由等高条形图可知:样本中男员工处于亚健康人数为:3000.260⨯=,样本中女员工处于亚健康人数为:2000.120⨯=,完成22⨯列联表为根据列联表中的数据,得到2500(2402018060)8.929 6.63530020080420k⨯⨯-⨯=≈>⨯⨯⨯.因此,能有99%的把握认为亚健康与性别有关.【点睛】独立性检验三个步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式22(),()()()()n ad bcK n a b c da b a c c d b d-==+++++++,计算2K的值;(3)查表比较2K与临界值的大小关系,作统计判断. 22.(1)列联表见解析.(2) 有99.9%的把握认为性别与支持有关.【解析】分析:(1)先由题得到抽取的男性市民为120人,持支持态度的为150人,男性公民中持支持态度的为80人,再完成2×2列联表.(2)先计算2K ,再判断是否有99.9%的把握认为性别与支持有关.详解:(1)抽取的男性市民为120人,持支持态度的为20075%=150⨯人,男性公民中持支持态度的为80人,列出22⨯列联表如下:(2)2200(80107040)1001.11110.82815050801209K ⨯-⨯==≈>⨯⨯⨯所以有99.9%的把握认为性别与支持有关.点睛:本题主要考查22⨯列联表和独立性检验,意在考查学生对这些知识的掌握水平和基本的计算能力.23.(1)2;(2)能有99%的把握认为该单位员工是否喜欢阅读国学类书籍和性别有关系. 【分析】(1)先根据频率分布直方图和分层抽样求出在第三组抽取的人数,然后利用超几何分布即可;(2)先利用公式计算出2k ,然后和参考数值比较即可. 【详解】解:(1)由频率分布直方图得低于40岁的员工数为:()28010.0650.025168⨯-⨯-⨯=.年龄在[)35,40的人数为 ()10.020.020.060.025280112-+++⨯⨯=⎡⎤⎣⎦ 所以在[)35,40前三组应抽取112128168⨯=人, 抽取的人数由上可知,ξ的所有可能取值为0,1,2,3,其概率分别为()343121055C P C ξ=== ()128431212155C C P C ξ===()218431228255C C P C ξ=== ()3831214355C P C ξ===所以, 11228140123255555555E ξ=⨯+⨯+⨯+⨯= (2)假设0H :“是否喜欢看国学类书籍和性别无关系”,根据表中数据,。
一、选择题1.在一次对性别与是否说谎有关的调查中,得到如下数据,根据表中数据判断如下结论中正确的是( )A .在此次调查中有95%的把握认为是否说谎与性别有关B .在此次调查中有99%的把握认为是否说谎与性别有关C .在此次调查中有99.5%的把握认为是否说谎与性别有关D .在此次调查中没有充分证据显示说谎与性别有关 2.以下四个命题:①从匀速传递的产品生产流水线上,每30分钟从中抽取一件产品进行检测,这样的抽样是分层抽样;②某市进行了一次全市高中男生身高统计调查,数据显示某市30000高中男生的身高ξ(单位:cm )服从正态分布()2172,N σ,且(172180)0.4P ξ<≤=,那么该市身高高于180cm 的高中男生人数大约为3000;③随机交量X 服从二项分布(100,0.4)B ,若随机变量21Y X =+,则Y 的数学期望为()81E Y =,方差为()48D Y =;④分类变量X 与Y ,它们的随机变量2K 的观测值为k ,当k 越小,“X 与Y 有关系的把握程度越大其中正确的个数是( ) A .1B .2C .3D .43.下列说法错误..的是( ) A .10xy ≠是5x ≠或2y ≠的充分不必要条件B .若命题p :x R ∀∈,210x x ++≠,则p ⌝:x R ∃∈,210x x ++=C .已知随机变量()2~2,X N σ,且()40.84P X ≤=,则()00.16P X ≤=D .相关系数r 越接近1,表示线性相关程度越弱. 4.下列关于回归分析与独立性检验的说法正确的是() A .回归分析和独立性检验没有什么区别;B .回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系;C .独立性检验可以100%确定两个变量之间是否具有某种关系.D .回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验;5.对于独立性检验,下列说法正确的是( ) A .2 3.841K >时,有95%的把握说事件A 与B 无关 B .2 6.635K >时,有99%的把握说事件A 与B 有关 C .2 3.841K ≤时,有95%的把握说事件A 与B 有关 D .2 6.635K >时,有99%的把握说事件A 与B 无关6.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:2()P K k ≥ 0.0500.025 0.010 0.005 0.001 k3.8415.0246.6357.87910.828由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,以下说法正确的是( ) A .没有充足的理由认为课外阅读量大与作文成绩优秀有关 B .有0.5%的把握认为课外阅读量大与作文成绩优秀有关 C .有99.9%的把握认为课外阅读量大与作文成绩优秀有关 D .有99.5%的把握认为课外阅读量大与作文成绩优秀有关 7.下列命题中正确命题的个数是(1)对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越大;(2)若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变; (3)在残差图,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高; (4)设随机变量ξ服从正态分布()0,1N ; 若()1P p ξ>=,则()1102P p ξ-<<=-( ) A .4B .3C .2D .18.下列判断错误的是A .若随机变量ξ服从正态分布()()21,,30.72N P σξ≤=,则()10.28P ξ≤-=;B .若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上,则相关系数1r =-;C.若随机变量ξ服从二项分布:15,5Bξ⎛⎫~ ⎪⎝⎭, 则()1Eξ=;D.am bm>是a b>的充分不必要条件;9.为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试,统计得到成绩与专业的列联表:()附:参考公式及数据:(1)统计量:()()()()()22n ad bcKa b c d a c b d-=++++,(n a b c d=+++).(2)独立性检验的临界值表:则下列说法正确的是A.有95%的把握认为环保知识测试成绩与专业有关B.有95%的把握认为环保知识测试成绩与专业无关C.有99%的把握认为环保知识测试成绩与专业有关D.有99%的把握认为环保知识测试成绩与专业无关10.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”,得到如下的列联表:由此表得到的正确结论是()A.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过0.01的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”11.有下列数据: x123y35.9912.01下列四个函数中,模拟效果最好的为( ) A .B .C .D .12.如表为某公司员工工作年限x (年)与平均月薪y (千元)对照表.已知y 关于x 的线性回归方程为0.70.35y x =+,则下列结论错误的是( ) x 3 4 5 6 y2.5t44.5A .回归直线一定过点(4.5,3.5)B .工作年限与平均月薪呈正相关C .t 的取值是3.5D .工作年限每增加1年,工资平均提高700元二、填空题13.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程=x +必过(,);④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079,则其两个变量之间有关系的可能性是90%.其中错误的个数是________. 14.给出下列四个结论:(1)如图Rt ABC ∆中,2,90,30.AC B C =∠=︒∠=︒是斜边上的点,.以为起点任作一条射线交于点,则点落在线段上的概率是32;(2)设某大学的女生体重与身高具有线性相关关系,根据一组样本数据,用最小二乘法建立的线性回归方程为,则若该大学某女生身高增加,则其体重约增加;(3)若()f x 是定义在上的奇函数,且满足,则函数()f x 的图像关于对称;(4)已知随机变量ξ服从正态分布()()21,,40.79,N P σξ≤=则.其中正确结论的序号为________________15.某市电信宽带私人用户月收费标准如下表:假定每月初可以和电信部门约定上网方案. 方案类别基本费用超时费用甲包月制70元乙有限包月制(限60小时)50元0.05元/分钟(无上限)丙有限包月制(限30小时)30元0.05元/分钟(无上限)若某用户每月上网时间为66小时,应选择__________方案最合算.16.某单位为了了解用电量y (度)与气温x (度)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下的对照表. 气温x (度) 18 13 10 -1 用电量y (度)24343864由表中数据,得回归直线方程ˆˆybx a =+,若ˆ2b =-,则ˆa =________. 17.下列4个命题:①为了了解800名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔为40;②四边形ABCD 为长方形,2AB =,1BC =,O 为AB 中点,在长方形ABCD 内随机取一点P ,取得的P 点到O 的距离大于1的概率为12π-;③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 2y x =的图象; ④已知回归直线的斜率的估计值为1.23,样本点的中心为()4,5,则回归直线方程为1.230.08y x =+.其中正确的命题有__________.(填上所有正确命题的编号)18.关于变量,x y 的一组样本数据11()a b ,,22()a b ,,……,(),n n a b (2n ≥,12,,,n a a a ⋅⋅⋅不全相等)的散点图中,若所有样本点(,)i i a b (1,2,,i n =⋅⋅⋅)恰好都在直线21y x =-+上,则根据这组样本数据推断的变量,x y 的相关系数为_____________. 19.已知下列命题:①从匀速传递的产品生产流水线上,质检员每30分钟从生产流水线中抽取一件产品进行某项指标检测,这样的抽样方法是系统抽样;②两个变量的线性相关程度越强,则相关系数的值越接近于1;③两个分类变量X 与Y 的观测值2k ,若2k 越小,则说明“X 与Y 有关系”的把握程度越大;④随机变量X ~(0,1)N ,则(1)2(1)1P X P X <=<-. 其中为真命题的是__________. 20.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程ˆ35yx =-,若变量x 增加一个单位时,则y 平均增加5个单位; ③线性回归方程^^^y b x a =+所在直线必过(),x y ; ④曲线上的点与该点的坐标之间具有相关关系;⑤在一个22⨯列联表中,由计算得213.079K =,则其两个变量之间有关系的可能性是0090.其中错误的是________.三、解答题21.2019年4月,中国电信公布了2019年的终端洞察报告,其中,国产手机品牌表现抢眼,统治地位不容置疑.在2018年6~11月上市的新机中,用户最满意机型与用户推荐机型的项目中国产手机优势明显,华为及荣耀手机分别占据不同价位段的榜单第一,OPPO 、vivo 、小米、魅族均有机型占据榜单.在用户满意机型调研项目中,曾经位于神坛地位的苹果手机也仅仅只有iPhone XR 一款位列第三.(1)从上表中15个机型中任取3个,求这3个机型恰好有2个是“华为”或“荣耀”的概率; (2)测试数据源于消费者的反馈,从反馈信息中随机抽取500个“华为畅享9plus ”消费者,其中来自城市300个,来自农村200个,统计他们对“华为畅想9plus ”的满意情况如下:满意 不满意城市 270 30农村170 30根据上表数据,问是否有95%的把握认为消费者是否满意与城市用户还是农村用户有关? (附:()()()()()22n ad bc a b c d a c b d χ-=++++,当2 3.841χ>时,有95%的把握说事件A 与B 有关;当26.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的)22.我国新型冠状病毒肺炎疫情期间,以网络购物和网上服务所代表的新兴消费展现出了强大的生命力,新兴消费将成为我国消费增长的新动能.某市为了了解本地居民在2020年2月至3月两个月网络购物消费情况,在网上随机对1000人做了问卷调查,得如表频数分布表:(1)作出这些数据的频率分布直方图,并估计本市居民此期间网络购物的消费平均值; (2)在调查问卷中有一项是填写本人年龄,为研究网购金额和网购人年龄的关系,以网购金额是否超过4000元为标准进行分层抽样,从上述1000人中抽取200人,得到如表列联表,请将表补充完整并根据列联表判断,在此期间是否有95%的把握认为网购金额与网购人年龄有关.参考公式和数据:()()()()()22n ad bc K a b c d a c b d -=++++.(其中n a b c d =+++为样本容量)23.在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状的这一阶段称为潜伏期.一研究团队统计了某地区200名患者的相关信息,得到如下表格: 潜伏期(单位:天) []0,2(]2,4(]4,6(]6,8(]8,10(]10,12 (]12,14人数174360502631(1)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,根据上表数据将如下列联表补充完整,并根据列联表判断是否有99%的把握认为该传染病的潜伏期与患者年龄有关.潜伏期6≤天 潜伏期6>天 总计 50岁以上(含50岁)10050岁以下 55总计200(2)将200名患者的潜伏期超过6天的频率视为该地区每名患者潜伏期超过6天发生的概率,每名患者的潜伏期是否超过6天相互独立.为了深入研究,该团队随机调查了该地区20名患者,其中潜伏期超过6天的人数为X ,求随机变量X 的期望和方差. 附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 24.为了促进我国人口均衡发展,从2016年1月1日起,全国统一实施全面放开二孩政策,这也是为了重建大国人口观,重新认识人口价值、人口规律、人口问题,某研究机构为了了解人们对全面放开生育二孩政策的态度,随机调查了200人,得到的统计数据如下面的不完整的2×2列联表所示(单位:人):(1)完成2×2列联表,并求是否有90%的把握认为是否“支持生育二孩”与性别有关? (2)该研究机构从样本中筛选出4名男性和3名女性共7人作为代表,这7个代表中有2名男性和2名女性支持生育二孩现从这7名代表中任选3名男性和2名女性参加座谈会,记ξ为参加会议的支持生育二孩的人数,求ξ的分布列及数学期望()E ξ.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:25.根据国家统计局数据,1999年至2019年我国进出口贸易总额从3万亿元跃升至31.6万亿元,中国在国际市场上的贸易份额越来越大对外贸易在国民经济中的作用日益突出.将年份1999,2004,2009,2014,2019分别用1,2,3,4,5代替,并表示为t ,y 表示全国进出口贸易总额.(1)根据以上统计数据及图表,给出了下列两个方案,请解决方案1中的问题. 方案1:用y bt a =+作为全国进出口贸易总额y 关于t 的回归方程,根据以下参考数据,求出y 关于t 的回归方程,并求相关指数21R .方案2:用dt y ce =作为全国进出口贸易总额y 关于t 的回归方程,求得回归方程0.57212.3259x y e =,相关指数22R .(2)通过对比(1)中两个方案的相关指数,你认为哪个方案中的回归方程更合适,并利用此回归方程预测2020年全国进出口贸易总额. 参考数据:y()()51=--∑i i i t ty y()521i i y y=-∑17.14 74 555.7920.140.340.66 1.86 2.048.192++++=222220.140.34 1.86 2.04 2.1412.336++++=③8.1920.0147555.792≈④12.3360.0222555.792≈参考公式:线性回归方程中的斜率和截距的最小二乘法估计公式分别为:()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-,相关指数()()221211nii i n ii yy R yy==-=--∑∑.26.某大学的一个社会实践调查小组,在对大学生就餐“光盘习惯”的调查中,随机发放了120份调查问卷.对收回的100份有效问卷进行统计,得到如下22⨯列联表:做不到光盘能做到光盘合计 男 45 10 55 女 x y 45 合计75m100(1)求表中x ,y 的值;(2)若在犯错误的概率不超过P 的前提下认为良好“光盘习惯”与性别有关,那么根据临界值表,最精确的P 的值应为多少?请说明理由.附:独立性检验统计量22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【解析】根据上表数据可求得20.027 1.323k ≈<,再结合课本上的概率附表可知在此次调查中没有充分证据显示说谎与性别有关,故选D2.A解析:A 【分析】根据抽样方式的特征,可判断①;根据正态分布的性质,可判断②;根据二项分布的期望与方差特点,可判断③;根据独立性检验的方法和步骤,可判断④. 【详解】解:①根据抽样是间隔相同,且样本间无明显差异,故①应是系统抽样,即①为假命题;②某市进行了一次全市高中男生身高统计调查,数据显示某市30000高中男生的身高ξ(单位:cm )服从正态分布()2172,N σ,且(172180)0.4P ξ<≤=,所以()1(180)1721800.12P P ξξ>=-<≤=,所以该市身高高于180cm 的高中男生人数大约为300000.13000⨯=人,故②为真命题;③随机交量X 服从二项分布(100,0.4)B ,则()1000.440E X =⨯=,()()1000.410.424D X =⨯⨯-=,若随机变量21Y X =+,则Y 的数学期望为()()2181E Y E X =+=,方差为()()2296D Y D X ==;故③为假命题;④对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越小,故④为假命题. 故选:A . 【点睛】本题以命题的真假判断为载体考查了抽样方法,正态分布,二项分布及独立性检验等知识点,属于中档题.3.D解析:D 【分析】A 选项,由“若10xy ≠,则5x ≠或2y ≠”的逆否命题判断充分性,由其否命题判断必要性;由全称命题的否定的概念判断选项B ;由正态分布的性质判断选项C ;由相关系数的概念判断选项D. 【详解】对于选项A,命题“若10xy ≠,则5x ≠或2y ≠”的逆否命题为“若5x =且2x =,则10xy =”,为真命题,而命题“若10xy =,则5x =且2x =”为假命题,所以10xy ≠是5x ≠或2y ≠的充分不必要条件,故A 正确;对于选项B,由全称命题的否定可得p ⌝:x R ∃∈,210x x ++=,故B 正确;对于选项C,由随机变量()2~2,X N σ,且()40.84P X ≤=,则()()()041410.840.16P X P X P X ≤=≥=-≤=-=,故C 正确;对于选项D,相关系数r 越接近1,表示线性相关程度越强,故D 错误, 故选:D 【点睛】本题考查充分不必要条件的判断,考查全称命题的否定,考查正态分布的概率,考查相关系数的概念,熟练掌握各知识点是解题关键.4.D解析:D 【分析】根据题意可知,利用回归分析和独立性检验的定义,排除错误选项,即可求解出答案. 【详解】回归分析是指将具有相关关系的两个变量之间的数量关系进行测定,通过建立数学表达式进行统计估计和预测的统计研究方法.独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.根据以上定义,可知A 、B 、C 均错误,故答案选D .【点睛】本题主要考查了回归分析与独立性检验的定义的区别.5.B解析:B 【分析】根据独立性检验中卡方的概念知,选B. 【详解】根据独立性检验中卡方的概念知,2 6.635K >时,有99%的把握说事件A 与B 有关选B. 【点睛】本题主要考查了独立性检验中卡方的概念,属于中档题.6.D解析:D 【解析】 【分析】由题意结合独立性检验的结论和临界值表给出结论即可. 【详解】根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关, 即有99.5%的把握认为课外阅读量大与作文成绩优秀有关. 本题选择D 选项. 【点睛】本题主要考查独立性检验的思想及其应用等知识,意在考查学生的转化能力和计算求解能力.7.B解析:B 【解析】 【分析】根据独立性检验的定义可判断(1);根据方差的性质可判断(2);根据残差的性质可判断(3);根据正态分布的对称性可判断(4). 【详解】(1)对分类变量X 与Y 的随机变量2K 的观测值K 来说,K 越大,判断“X 与Y 有关系”的把握越大,故(1)错误;(2)若将一组样本数据中的每个数据都加上同一个常数后,数据的离散程度不变,则样本的方差不变,故(2)正确;(3)根据残差的定义可知,在残差图,残差点分布的带状区域的宽度越狭窄,预测值与实际值越接近,其模型拟合的精度越高,(3)正确;(4)设随机变量ξ服从正态分布()0,1N ,若()1P p ζ>=,则()1P p ζ<-=,则()1112P p ζ-<<=-,则()1102P p ζ-<<=-,故(4)正确, 故正确的命题的个数为3个,故选B. 【点睛】本题主要通过对多个命题真假的判断,主要综合考查独立性检验的定义、方差的性质、残差的性质以及正态分布的对称性,属于中档题. 这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.8.D解析:D 【解析】分析:根据正态分布的对称性求出()1P ξ≤-的值,判断A 正确; 根据线性相关关系与相关系数的定义,判断B 正确; 根据二项分布的均值计算公式求出()E ξ的值,判断C 正确; 判断充分性和必要性是否成立,得出D 错误.详解:对于A ,随机变量ξ服从正态分布()21,N σ,∴曲线关于1ξ=对称,131310.720.28PP P ξξξ∴≤-=≥=-≤=-=()()(),A 正确;对于B ,若n 组数据()()()1122,,,,...,,n n x y x y x y 的散点都在1y x =-+上, 则x y ,成负相关,且相关关系最强,此时相关系数1r =-,B 正确;对于C ,若随机变量ξ服从二项分布: 15,5B ξ⎛⎫~ ⎪⎝⎭,则1515E(),ξ=⨯= C 正确;对于D ,am >bm 时,a >b 不一定成立,即充分性不成立,a b am bm >时,> 不一定成立,即必要性不成立,是既不充分也不必要条件,D 错误. 故选:D .点睛:本题考查了命题真假的判断问题,是综合题.9.A解析:A 【解析】分析:首先计算观测值k 0的值,然后给出结论即可. 详解:由列联表计算观测值:()2401413672804.912 3.8412119202057k ⨯⨯-⨯==≈>⨯⨯⨯, 则有95%的把握认为环保知识测试成绩与专业有关. 本题选择A 选项.点睛:本题主要考查独立性检验及其应用等知识,意在考查学生的转化能力和计算求解能力.10.C解析:C 【解析】由2×2列联表得到a =45,b =10,c =30,d =15.则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100.所以K 2的观测值k =2100675-30055457525⨯⨯⨯()≈3.030.因为2.706<3.030<3.841.选C. 点睛:根据卡方公式求K 2,再与参考数据比较,最后作出判断.11.A解析:A 【解析】当x =1,2,3时,分别代入求y 值,离y 最近的值模拟效果最好,可知A 模拟效果最好.故选A.考点:非线性回归方程的选择.12.C解析:C 【解析】由已知中的数据可得:3456 4.54x +++== , 2.54 4.51144t ty ++++==,∵数据中心点(),x y 一定在回归直线上,∴110.7 4.50.354t+=⨯+解得3t =,故C 错误;故11 3.54t+=, 回归直线一定过点(4.53.5,),ABD 正确;故选C . 二、填空题13.3【解析】【分析】逐一分析各个说法即可得到结论【详解】由方差的性质知:方差反映一组数据的波动大小将一组数据中的每个数据都加上或者减去同一个常数后方差恒不变①正确;一个回归方程=3-5x 变量x 增加一个解析:3 【解析】 【分析】逐一分析各个说法即可得到结论 【详解】由方差的性质知:方差反映一组数据的波动大小,将一组数据中的每个数据都加上或者减去同一个常数后,方差恒不变,①正确;一个回归方程ˆy=3-5x ,变量x 增加一个单位时,y 平均减少5个单位,②错误线性回归方程必过样本中心点,③正确;曲线上的点与该点的坐标之间具有一一对应关系④错误.在一个2×2列联表中,由计算得K 2=13.079,则其两个变量之间有关系的可能性是99.90%,故⑤错误综上所述,其中错误的个数是3个 故答案为3 【点睛】本题主要考查了线性回归方程,考查了独立性检验,考查了方差的变化特点,考查了相关关系,是一道考查的知识点比较多的题目,综合性较强,注意分析,本题不需要计算,只要理解概念即可得到结论14.②③④【解析】试题分析:由题可知•所以则点落在线段上的概率为故 不正确;‚根据线性回归方程为知回归系数为085即身高增加则其体重约增加故 正确;ƒ由于是定义在上的奇函数则于是即函数的图像关于对称故解析:②③④ 【解析】试题分析:由题可知,•,,所以,则点落在线段上的概率为,故 不正确;‚根据线性回归方程为,知回归系数为0.85,即身高增加,则其体重约增加,故 正确;ƒ由于()f x 是定义在上的奇函数,则,于是,即函数()f x 的图像关于对称,故ƒ正确;④随机变量ξ服从正态分布,图像关于对称,由于,故,故④正确;综上所述,正确的为②③④;考点:•两个变量的线性相关 正态曲线分布的特点及曲线所表示的意义15.乙【解析】试题分析:选用方案甲时为70元当选用议案乙时用户消费为元;当用方案丙时用户消费为元所以用方案乙最合算考点:实际应用问题比较大小解析:乙 【解析】试题分析:选用方案甲时为70元,当选用议案乙时,用户消费为506600.0568+⨯⨯=元;当用方案丙时,用户消费为3036600.05138+⨯⨯=元,所以用方案乙最合算. 考点:实际应用问题,比较大小.16.【解析】试题分析:由回归方程过样本平均数点则:由代入可得:考点:回归方程的性质及应用解析:【解析】试题分析:由回归方程过样本平均数点(,)x y ,则:10,40x y ==,由2ˆ-=b代入x b a yˆˆˆ+=可得:ˆ60a =。
3.1回归分析的基本思想及其初步应用(一)(新授课) 3.1回归分析的基本思想及其初步应用(二)(新授课) 3.1回归分析的基本思想及其初步应用(三)(新授课) 3.1 回归分析的基本思想及其初步应用(四)(新授课) 3.2 独立性检验的基本思想及其初步应用(一)(新授课)3.2 独立性检验的基本思想及其初步应用(二)(新授课)第三章统计案例单元练习题(习题课)一、课程目标在《数学3(必修)》概率统计内容的基础上,通过典型案例进一步介绍回归分析的基本思想、方法以及初步应用;通过典型案例介绍独立性检验的基本思想、方法以及初步应用,使学生认识统计方法在决策中的作用。
二、学习目标1、通过典型案例的探究,进一步了解回归分析的基本思想、方法及其应用。
2、通过典型案例的探究,了解独立性检验的基本思想、方法以及初步应用。
三、本章知识框图四、课时分配本章共2小结,教学约需2课时,具体安排如下3.1 回归分析的基本思想及其初步应用约4课时3.2 独立性检验的基本思想及其初步应用约2课时3.1 回归分析的基本思想及其初步应用(一)(新授课)一、教学目标: 知识与能力:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 过程与方法:通过本节的学习,让雪生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想。
情感、态度与价值观:培养学生运用所学的知识,解决实际问题的能力。
二、教学重点与难点: 重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析.难点:解释残差变量的含义,了解偏差平方和分解的思想. 三、教学过程: (一)课前复习: 1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.(二)讲授新课: 1. 举例应用:例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示: 编 号 1 2 3 4 5 6 7 8身高/cm 165 165 157 170 175 165 155 170体重/kg 48 57 50 54 64 61 43 59求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm 的女大学生的体重. (分析思路→教师演示→学生整理)第一步:作散点图 第二步:求回归方程 第三步:代值计算 (1)思考:身高为172cm 的女大学生的体重一定是60.316kg 吗? 不一定,但一般可以认为她的体重在60.316kg 左右. (2)解释线性回归模型与一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y bx a =+来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm 的3名女大学生的体重分别为48kg 、57kg 和61kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165cm 的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e (即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型y bx a e =++,其中残差变量e 中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.10203040506070150155160165170175180身高/cm体重/k g2. 相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.(三)课时小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.四、课后反思:3.1 回归分析的基本思想及其初步应用(二)(新授课)一、教学目标: 知识与能力:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 过程与方法:从散点图中点的分布上发现直接求回归方程存在的不足,从中引导学生去发现解决问题的新思路,进行回归分析,进而介绍残差分析的方法。
一、选择题1.已知x 与y 之间的几组数据如下表:参考公式:线性回归方程y bx a =+,其中()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-;相关系数()()niix x y y r --=∑上表数据中y 的平均值为2.5,若某同学对m 赋了三个值分别为1.5,2,2.5得到三条线性回归直线方程分别为11y b x a =+,22y b x a =+,33y b x a =+,对应的相关系数分别为1r ,2r ,3r ,下列结论中错误..的是( ) A .三条回归直线有共同交点 B .相关系数中,2r 最大 C .12b b >D .12a a >2.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e3.为了调查某校高二学生的身高是否与性别有关,随机调查该校64名高二学生,得到2×2列联表如表:附:K 2()()()()2()n ad bc a b c d a c b d -=++++由此得出的正确结论是( )A .在犯错误的概率不超过0.01的前提下,认为“身高与性别无关”B .在犯错误的概率不超过0.01的前提下,认为“身高与性别有关”C .有99.9%的把握认为“身高与性别无关”D .有99.9%的把握认为“身高与性别有关” 4.下列命题正确的个数是:( )①对于两个分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握程度越大;②在相关关系中,若用211c x y c e =拟合时的相关指数为21R ,用2y bx a =+拟合时的相关指数为22R ,且2212R R >,则1y 的拟合效果好;③利用计算机产生0~1之间的均匀随机数a ,则事件“310a ->”发生的概率为23; ④“0,0a b >>”是“2b aa b+≥”的充分不必要条件 A .1B .2C .3D .45.对四对变量Y 和x 进行线性相关性检验,已知n 是观测值组数,r 是相关系数,且已知: ①n=7,r=0.953 3;②n=15,r=0.301 2;③n=17,r=0.499 1;④n=3,r=0.995 0,则变量Y 和x 具有线性相关关系的是( ) A .①和② B .①和③ C .②和④D .③和④6.下列说法中,不正确的是A .两个变量的任何一组观测值都能得到线性回归方程B .在平面直角坐标系中,用描点的方法得到表示两个变量的关系的图象叫做散点图C .线性回归方程反映了两个变量所具备的线性相关关系D .线性相关关系可分为正相关和负相关7.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A .平均数与方差 B .回归分析 C .独立性检验 D .概率8.某商场为了解毛衣的月销售量y (件)与月平均气温()x C 之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:)C(件)由表中数据算出线性回归方程ˆybx a =+中的2b =-,气象部门預测下个月的平均气温约为6C ,据此估计该商场下个月毛衣销售量约为( )件. A .46 B .40 C .38 D .589.下列说法:①将一组数据中的每个数据都乘以同一个非零常数a 后,标准差也变为原来的a 倍; ②设有一个回归方程35y x =-,变量x 增加1个单位时,y 平均减少5个单位; ③线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;④在某项测量中,测量结果ξ服从正态分布()()21,0N σσ>,若ξ位于区域()0,1的概率为0.4,则ξ位于区域()1,+∞内的概率为0.6⑤利用统计量2χ来判断“两个事件,X Y 的关系”时,算出的2χ值越大,判断“X 与Y 有关”的把握就越大 其中正确的个数是 A .1B .2C .3D .410.下列说法:①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大.②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则,c k 的值分别是4e 和0.3.③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,2,1,3b x y ===,则1a =.④如果两个变量x 与y 之间不存在着线性关系,那么根据它们的一组数据()(,1,2,,)i i x y i n =不能写出一个线性方程正确的个数是( )A .1B .2C .3D .411.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,统计数据如下表合计 72 228 3002()P K k ≥ 0.050 0.010 0.001 k 3.8416.63510.828附:经计算2 4.514K ≈,现判断数学成绩与物理成绩有关系,则判断出错的概率不会超过 A .0.5%B .1%C .2%D .5%12.已知回归方程0.8585.7y x ∧=-,则该方程在样本()165,57 处的残差为( ) A .111.55B .54.5C .3.45D .2.45二、填空题13.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参照附表,在犯错误的概率最多不超过______(填百分比)的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”.参考公式:K 2=2()()()()()n ad bc a b c d a c b d -++++14.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如下表: 专业 性别非统计专业统计专业男生1310女生7 20为了检验主修统计专业是否与性别有关系,根据表中的数据得到随机变量K 2的观测值为.因为k >3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.15.如表是降耗技术改造后生产某产品过程中记录产量(吨)与相应的生产能耗(吨标准煤)的几组对应数据,根据表中提供的数据,求出y 关于x 的线性回归方程ˆˆ0.70.3yx =+,那么表中m 的值为__________.x3 4 5 6y2.5m44.516.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温.由表中数据得线性方程=+x 中=﹣2,据此预测当气温为5℃时,用电量的度数约为_____.17.在吸烟与患肺病这两个分类变量的计算中,“若2x 的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系”这句话的意思: ①是指“在100个吸烟的人中,必有99个人患肺病 ②是指“有1%的可能性认为推理出现错误”; ③是指“某人吸烟,那么他有99%的可能性患有肺病”; ④是指“某人吸烟,如果他患有肺病,那么99%是因为吸烟”. 其中正确的解释是______.18.4月16日摩拜单车进驻大连市旅顺口区,绿色出行引领时尚,旅顺口区进行了“经常使用共享单车与年龄关系”的调查,得下列22⨯列联表:年轻人 非年轻人 合计 经常使用单车用户 100 20 120 不常使用单车用户 60 20 80 合计16040200则得到的2χ=__________.(小数点后保留一位) (附:()()()()()22χ-=++++n ad bc a b c d a c b d )19.以下说法正确的是_____________ . ①类比推理属于演绎推理.②设有一个回归方程ˆ23yx =- ,当变量每增加1个单位,y 平均增加3个单位. ③样本相关系数r 满足以下性质:1r ≤,并且r 越接近1,线性相关程度越强;r 越接近0,线性相关程度越弱.④对复数12,z z 和自然数n 有()1212nn n z z z z ⋅=⋅.20.某班主任对全班50名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:则至少有________的把握认为学生的学习积极性与对待班级工作的态度有关.(请用百分数表示).注:独立性检验界值表三、解答题21.奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:(2)你能否在犯错误的概率不超过0.01的前提下认为该高校学生是否愿意提供志愿者服务与性别有关? 下面的临界值表供参考:独立性检验统计量()()()()2n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.22.某学校为了推进素质教育,因材施教,提高课堂教学及学生学习效率,特将高一入学的前80名均分设立第一层次的两个零级班零甲班和零乙班,现以一次考试的数学成绩为样本,并规定成绩数据落在[]120150,之内的数据为优秀,否则为不够优秀,考试成绩数据如表所示:(1)若从零甲的数学考试成绩中,依次有放回的随机抽查5个数据,设抽到优秀成绩的次数为ξ,求ξ的分布列与数学期望及方差;(以频率作为概率)(2)由以上统计数据完成下面22⨯列联表,并回答有多大的把握认为抽取的数据为优秀成绩与对两个班级的选择有关?附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.23.已知某种新型病毒的传染能力很强,给人们生产和生活带来很大的影响,所以创新研发疫苗成了当务之急.为此,某药企加大了研发投入,市场上这种新型冠状病毒的疫苗A 的研发费用x (百万元)和销量y (万盒)的统计数据如下: (1)根据上表中的数据,建立y 关于x 的线性回归方程y bx a =+(用分数表示); (2)根据所求的回归方程,估计当研发费用为1600万元时,销售量为多少?参考公式:()()()1122211nniii i i i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.24.“海水稻”就是耐盐碱水稻,是一种介于野生稻和栽培稻之间的普遍生长在海边滩涂地区,具有耐盐碱的水稻,它比其它普通的水稻均有更强的生存竞争能力,具有抗涝,抗病虫害,抗倒伏等特点,还具有预防和治疗多种疾病的功效,防癌效果尤为显著.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x (‰)对亩产量y (吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量y 与海水浓度x 之间的相关关系,用最小二乘法计算得y 与x 之间的线性回归方程为.88ˆ0ˆy bx=+.(2)①完成上述残差表:②统计学中,常用相关指数2R 来刻画回归效果,2R 越大,模型拟合效果越好,并用它来说明预报变量与解释变量的相关性.你能否利用以上表格中的数据,利用统计学的相关知识,说明浇灌海水浓度对亩产量的贡献率?(计算中数据精确到0.01)(附:残差公式ˆˆi i i ey y =-,相关指数()()22121ˆ1niii nii y yR y y ==-=--∑∑)25.为了研究某学科成绩是否与学生性别有关,采用分层抽样的方法,从高二年级抽取了30名男生和20名女生的该学科成绩,得到如图所示男生成绩的频率分布直方图和女生成绩的茎叶图,规定80分以上为优分(含80分).(1)(i )请根据图示,将2×2列联表补充完整;优分 非优分 总计男生 女生总计50(ii )据列联表判断,能否在犯错误概率不超过10o o 的前提下认为“学科成绩与性别有关”?(2)将频率视作概率,从高二年级该学科成绩中任意抽取3名学生的成绩,求成绩为优分人数X 的分布列与数学期望.参考公式:()()()()()22()n ad bc K n a b c d a b c d a c b d -==+++++++. 参考数据:()20P K k ≥ 0.1000.050 0.025 0.010 0.005 0.001 0k 2.7063.8415.0246.6357.87910.82826.为迎接2022年北京冬季奥运会,普及冬奥知识,某校开展了“冰雪答题王”冬奥知识竞赛活动.现从参加冬奥知识竞赛活动的学生中随机抽取了100名学生,将他们的比赛成绩(满分为100分)分为6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]得到如图所示的频率分布直方图.(Ⅰ)求a 的值;(Ⅱ)记A 表示事件“从参加冬奥知识竞赛活动的学生中随机抽取一名学生,该学生的比赛成绩不低于80分”,估计A 的概率;(Ⅲ)在抽取的100名学生中,规定:比赛成绩不低于80分为“优秀”,比赛成绩低于80分为“非优秀”.请在答题卡上将22⨯列联表补充完整,并判断是否有99.9%的把握认为“比赛成绩是否优秀与性别有关”?参考公式及数据:22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++.()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.001 0k 2.7063.8415.0246.6357.87910.828【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】由题意可得5m n +=,分别取m 与n 的值,由公式计算出1122123,,,,,,b a b a r r r 的值,逐一分析四个选项,即可得到答案. 【详解】由题意,1410m n +++=,即5m n +=. 若 1.5m =,则 3.5n =,此时12342.54x +++==, 2.5y =.()()()()()()()()()()411 2.51 2.52 2.5 1.5 2.53 2.5 3.5 2.54 2.54 2.5 5.5iii x x y y =--=--+--+--+--=∑ ,()()()4222221 1.50.50.5 1.55i i x x =-=-+-++=∑ , ()()()42222211.511 1.5 6.5i i y y =-=-+-++=∑.则1 5.51.15b ==,1 2.5 1.1 2.50.25a =-⨯=- ,1r =≈; 若2m =,则3n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.52 2.53 2.53 2.54 2.54 2.55iii x x y y =--=--+--+--+--=∑,()4215i i x x=-=∑,()()()42222211.50.50.5 1.55i i y y =-=-+-++=∑.2515b ==,2 2.51 2.50a =-⨯=,21r ==; 若 2.5m =,则 2.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 2.5 2.53 2.5 2.5 2.54 2.54 2.5 4.5iii x x y y =--=--+--+--+--=∑,()4215i i x x =-=∑,()()422211.5 1.5 4.5i i y y =-=-+=∑,3r ==由样本点的中心相同,故A 正确;由以上计算可得,相关系数中,2r 最大,12b b >,12a a <,故B ,C 正确,D 错误. 故选:D . 【点睛】本题考查线性回归方程与相关系数的求法,考查计算能力,是中档题.2.B解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y e e e +==⨯,故3c e =.故选:B.【点睛】本题考查非线性回归问题的转化,是基础题.3.D解析:D 【分析】根据22⨯列联表,计算2k ,与临界值表比较即可得出结论. 【详解】K 的观测值:K 2264(862426)34303232⨯⨯-⨯=≈⨯⨯⨯20.330;由于20.330>10.828,∴有99.9%的把握认为“身高与性别有关”,即在犯错误的概率不超过0.001的前提下,认为“身高与性别有关” 故选:D . 【点睛】本题主要考查了独立性检验的应用问题,K 2的计算,22⨯列联表,考查了运算能力,属于中档题.4.C解析:C 【解析】分析:根据独立性检验的性质可判断①;根据回归分析的基本原理可判断②;根据几何概型概率公式可判断③; 根据不等式的性质可判断④.详解:①对于两个分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握程度越小,①错误;②在相关关系中,若用211c x y c e =拟合时的相关指数为21R ,用2y bx a =+拟合时的相关指数为22R ,且2212R R >,则1y 的拟合效果好,②正确;③利用计算机产生0~1之间的均匀随机数a ,则事件“310a ->”发生的概率为1123103-=-,正确; ④“0,0a b >>”可得到“2b a a b +≥”, “2b aa b+≥”时“0,0a b >>”不一定成立,所以“0,0a b >>”是“2b aa b+≥”的充分不必要条件,正确,即正确命题的个数是3,故选C. 点睛:本题主要通过对多个命题真假的判断,主要综合独立性检验、回归分析、几何概型概率公式、不等式的性质,属于中档题.这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.5.B解析:B 【解析】分析:先查相关系数检验的临界值表,再判断变量Y 和x 具有线性相关关系的选项. 详解: 查相关系数检验的临界值表 ①r 0.05=0.754,r >r 0.05; ②r 0.05=0.514,r <r 0.05; ③r 0.05=0.482,r >r 0.05; ④r 0.05=0.997,r 0.05>r.∴y 和x 具有线性相关关系的是①③.故答案为B.点睛:本题主要考查相关系数,意在考查学生对这些知识的掌握水平.6.A解析:A 【解析】要得到线性回归方程应至少有两个变量的两组观测值,因此A 不正确.根据散点图、线性回归方程、线性相关关系的概念可得B ,C ,D 都正确.故选A .7.C解析:C【解析】判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C. 考点:独立性检验的意义.8.A解析:A 【解析】试题分析:根据题意,样本中心点的坐标为()10,38,所以38210,58a a =-⨯+∴=,因此回归直线方程为2ˆ58yx =-+,所以当6x =时,估计该商场下个月毛衣销售量约为26ˆ5846y=-⨯+=,故选A. 考点:回归直线方程.9.B解析:B 【解析】逐一考查所给的说法:①将一组数据中的每个数据都乘以同一个非零常数a 倍,原说法错误;②设有一个回归方程35y x =-,变量x 增加1个单位时,y 平均减少5个单位,原说法正确;③线性相关系数r 的绝对值越大,两个变量的线性相关性越强;反之,线性相关性越弱,原说法错误;④在某项测量中,测量结果ξ服从正态分布()()21,0N σσ>,若ξ位于区域()0,1的概率为0.4,则ξ位于区域()1,+∞内的概率为0.5,原说法错误;⑤利用统计量2χ来判断“两个事件,X Y 的关系”时,算出的2χ值越大,判断“X 与Y 有关”的把握就越大,原说法正确. 本题选择B 选项.10.C解析:C 【解析】①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大,正确; ②∵kx y ce =,∴两边取对数,可得lny ln =(kx ce )kx lnc lnce lnc kx =+=+, 令z lny =,可得z lnc kx =+, ∵0.34z x =+, ∴40.3lnc k ==, ∴4c e =.即②正确;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y =a +bx 中,2,1,3b x y ===,则a =1,正确。
习题课课时目标1.进一步理解回归分析的基本思想.2.了解一些非线性回归问题的解法.1.回归直线方程:y ^=a ^+b ^x 一定过点(x ,y ).2.用相关系数可以对两个变量之间的________________进行较为精确的刻画,运用________的方法研究一些非线性相关问题.一、选择题1.下列说法中错误的是( )A .如果变量x 与y 之间存在着线性相关关系,则我们根据实验数据得到的点(x i ,y i )(i =1,2,…,n )将散布在某一条直线的附近B .如果两个变量x 与y 之间不存在线性关系,那么根据它们的一组数据(x i ,y i )(i =1,2,…,n )不能写出一个线性方程C .设x 、y 是具有相关关系的两个变量,且x 关于y 的线性回归方程为y ^=b ^x +a ^,b ^叫做回归系数D .为使求出的线性回归方程有意义,可用统计假设检验的方法来判断变量y 与x 之间是否存在线性相关关系2.回归方程是y ^=1.5x -15,则( )A.y ^=1.5,x =15B .15是回归系数a ^C .1.5是回归系数a ^D .x =10时,y ^=0 3.有下列说法:①线性回归分析就是由样本点去寻找贴近这些样本点的一条直线的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程y ^=b ^x +a ^及其回归系数b ^,可以估计和观测变量的取值和变化趋势; ④因为由任何一组观测值都可以求得一个回归直线方程,所以没有必要进行相关性检验.其中正确命题个数是( ) A .1 B .2 C .3 D .44.在对两个变量x ,y 进行线性回归分析时有下列步骤: ①对所求出的回归直线方程作出解释; ②收集数据(x i ,y i ),i =1,2,…,n ; ③求回归直线方程;④根据所搜集的数据绘制散点图.如果根据可靠性要求能够得出变量x ,y 具有线性相关的结论,则正确的操作顺序是( )A .①②④③B .③②④①C .②③①④D .②④③①5.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1、l 2,已知两人所得的试验数据中,变量x 和y 的数据的平均值都相等,且分别是s 、t ,那么下列说法正确的是( )A .直线l 1和l 2一定有公共点(s ,t )B.直线l1和l2相交,但交点不一定是(s,t)C.必有l1∥l2D.l1与l2必定重合二、填空题6.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:7.根据统计资料,我国能源生产自1986年以来发展很快.下面是我国能源生产总量(单位:亿吨标准煤)的几个统计数据:的回归模型是下列四种模型中的哪一种________.(填序号)8.下列说法中正确的是________.(填序号)①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法.三、解答题9.假设学生在初一和初二的数学成绩是线性相关的.若10个学生初一(x)和初二(y)数学分数如下:10.在某化学实验中,测得如下表所示的6对数据,其中x(单位:min)表示化学反应进行的时间,y(单位:mg)表示未转化物质的质量.(1)设y与0.001);(2)估计化学反应进行到10 min 时未转化物质的质量(精确到0.1).能力提升11.测得10对某国父子身高(单位:英寸)如下:(1)(2)如果y 与x 之间具有线性相关关系,求回归直线方程; (3)如果父亲的身高为73英寸,估计儿子的身高.12.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数1x之间是否具有线性相关关系?如有,求出y对x 的回归方程.1.利用回归分析可对一些实际问题作出预测.2.非线性回归方程有时并不给出回归模型,这时我们可以画出已知数据的散点图,把它与我们所学过的各种函数(幂函数、指数函数、对数函数、二次函数等)图象进行比较,挑选一种拟和比较好的函数,把问题通过变量转换,转化为线性的回归分析问题,使之得到解决.习题课 答案知识梳理2.线性相关程度 转化 作业设计 1.B 2.D3.C [①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y ^=b ^x +a ^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.] 4.D5.A [线性回归直线方程为y ^=b ^x +a ^ .而a ^ =y -b ^ x ,即a ^ =t -b ^ s ,t =b ^ s +a ^. ∴(s ,t )在回归直线上.∴直线l 1和l 2一定有公共点(s ,t ).] 6.0.999 8 解析x =55,y =91.7,∑10i =1x 2i=38 500, ∑10i =1y 2i =87 777,∑10i =1x i y i=55 950, 所以r =∑10i =1x i y i -10·x ·y(∑10i =1x 2i -10 x2)(∑10i =1y 2i -10 y 2)≈0.999 8.7.① 8.④⑤解析 回归分析就是研究两个事件的相关性;回归模型是需要通过散点图模拟的;回归模型有线性和非线性之分.9.解 因为x =71,y=72.3,∑i =110x 2i =50 520,∑i =110x i y i =51 467,所以,b ^=51 467-10×71×72.350 520-10×712≈1.218 2a ^=72.3-1.218 2×71=-14.192 2,回归直线方程是y ^=1.218 2x -14.192 2.10.解 (1)在y =cd x 两边取自然对数,令ln y =z ,ln c =a ,ln d =b ,则z =a +bx .由已知数据,得由公式得a ≈3.905 5,b ≈-0.221 9,则线性回归方程为z =3.905 5-0.221 9x .而ln c =3.905 5,ln d =-0.221 9,故c ≈49.681,d ≈0.801,所以c 、d 的估计值分别为49.681,0.801.(2)当x =10时,由(1)所得公式可得y ≈5.4(mg).11.解 (1)x =66.8,y =67.01,∑10 i =1x 2i =44 794,∑10 i =1y 2i =44 941.93,x y =4 476.27, x 2=4 462.24,y 2=4 490.34,∑10 i =1x i y i =44 842.4.所以r =∑10i =1x i y i -10x y⎝⎛⎭⎫∑10 i =1x 2i -10x 2⎝⎛⎭⎫∑10 i =1y 2i -10y 2=44 842.4-10×4 476.27(44 794-44 622.4)(44 941.93-44 903.4)=79.76 611.748≈79.781.31≈0.980 2.由小概率0.05与n -2=8在附表中查得r 0.05=0.632,因为r >r 0.05,所以有95%的把握认为y 与x 之间具有线性相关关系.(2)设回归直线方程为y ^=b ^x +a ^.由b ^ =∑10 i =1x i y i -10x y ∑10 i =1x 2i -10x2=44 842.4-44 762.744 794-44 622.4=79.7171.6≈0.464 5,a ^=y -b ^x =67.01-0.464 5×66.8≈35.981 4. 故所求的回归直线方程为y ^=0.464 5x +35.981 4.(3)当x =73时,y ^=0.464 5×73+35.981 4≈69.9,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸. 12.解 把1x 置换为z ,则有z =1x ,从而z 与y 的数据为可作出散点图,从图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.z =110×(1+0.5+0.333+0.2+0.1+0.05+0.033+0.02+0.01+0.005)=0.225 1,y =110×(10.15+5.52+4.08+…+1.15)=3.14,∑10i =1z 2i =12+0.52+0.3332+…+0.012+0.0052≈1.415, ∑10i =1y 2i =10.152+5.522+…+1.212+1.152=171.803, ∑10i =1z i y i =1×10.15+0.5×5.52+…+0.005×1.15 =15.221 02,所以b ^=∑10i =1z i y i -10z y ∑10i =1z 2i -10z 2≈8.976,a ^=y -b ^z =3.14-8.976×0.225 1≈1.120,所以所求的z 与y 的回归方程为y ^=8.976z +1.120.又因为z =1x ,所以y ^=8.976x+1.120.。