2019高中数学专题复习统计、统计案例
- 格式:doc
- 大小:249.50 KB
- 文档页数:9
9.3 统计案例【例1】(2019·山东高考模拟(文))甲、乙两人参加一个射击的中奖游戏比赛,在相同条件下各打靶50次,统计每次打靶所得环数,得下列频数分布表.比赛中规定所得环数为1,2,3,4时获奖一元,所得环数为5,6,7时获奖二元,所得环数为8,9时获奖三元,所得环数为10时获奖四元,没命中则无奖.(1)根据上表,在答题卡给定的坐标系内画出甲射击50次获奖金额(单位:元)的条形图;(2)估计甲射击1次所获奖至少为三元的概率;(3)要从甲、乙两人中选拔一人参加射击比赛,请你根据甲、乙两人所获奖金额的平均数和方差作出选择.【答案】(1)见解析;(2) 1225; (3)派甲参赛比较好.【解析】(1)依题意知甲50次获奖金额(单位:元)的频数分布为其获奖金额的条形图如下图所示(2)甲射击一次所获奖金至少为三元,即打靶所得环数至少为8,因为甲所得环数至少 为8的有166224++=(次)所以估计甲射击一次所获奖金至少为三元的概率为24125025=. (3)甲50次获奖金的平均数为15(1122532242)502⨯⨯+⨯+⨯+⨯=, 乙50次获奖金的平均数为15(1322132442)502⨯+⨯+⨯+⨯=, 甲50次获奖金额的方差为2222155551122532242502222⎡⎤⎛⎫⎛⎫⎛⎫⎛⎫⨯-⨯+-⨯+-⨯+-⨯⎢⎥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎢⎥⎣⎦137********=⨯=. 乙50次获奖金额的方差为2222155551322132442502222⎡⎤⎛⎫⎛⎫⎛⎫⎛⎫-⨯+-⨯+-⨯+-⨯⎢⎥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎢⎥⎣⎦145950220=⨯=. 甲、乙的平均数相等.甲的方差小,故派甲参赛比较好. 【点睛】本题主要考查条形图的应用,古典概型概率公式的应用以及平均数与方差的实际意义,属于中档题. 样本数据的算术平均数12n 1(++...+)x x xx n =,样本方差2222121[()()...()]n s x x x x x x n=-+-++-,标准差s =【举一反三】1.(2020·四川高三期末(文))某次高三年级模拟考试中,数学试卷有一道满分10分的选做题,学生可以从A ,B 两道题目中任选一题作答.某校有900名高三学生参加了本次考试,为了了解该校学生解答该选做题的得分情况,作为下一步教学的参考依据,计划从900名考生的选做题成绩中随机抽取一个容量为10的样本,为此将900名考生选做题的成绩按照随机顺序依次编号为001~900.(1)若采用系统抽样法抽样,从编号为001~090的成绩中用简单随机抽样确定的成绩编号为025,求样本中所有成绩编号之和;(2)若采用分层抽样,按照学生选择A 题目或B 题目,将成绩分为两层.已知该校高三学生有540人选做A 题目,有360人选做B 题目,选取的样本中,A 题目的成绩平均数为5,方差为2,B 题目的成绩平均数为5.5,方差为0.25.(i )用样本估计该校这900名考生选做题得分的平均数与方差;(ii )本选做题阅卷分值都为整数,且选取的样本中,A 题目成绩的中位数和B 题目成绩的中位数都是5.5.从样本中随机选取两个大于样本平均值的数据做进一步调查,求取到的两个成绩来自不同题目的概率. 【答案】(1)4300;(2) (i )平均数为5.2,方差为1.36.(ii )35【解析】(1)由题易知,若按照系统抽样的方法,抽出的编号可以组成以25为首项,以90为公差的等差数列,故样本编号之和即为该数列的前10项之和, 所以1010910259043002S ⨯=⨯+⨯=. (2)(i )由题易知,若按照分层抽样的方法,抽出的样本中A 题目的成绩有6个,按分值降序分别记为1x ,2x ,…,6x ;B 题目的成绩有4个,按分值降序分别记为1y ,2y ,3y ,4y .记样本的平均数为x ,样本的方差为2s .由题意可知,()()126123410x x x y y y y x ++⋅⋅⋅+++++=56 5.545.210⨯+⨯==()()()()22225.250.2520.250.2i i i i x x x x -=--=--⨯-+⎡⎤⎣⎦,1,2,,6i =⋅⋅⋅ ()()()()22225.2 5.50.3 5.520.3 5.50.3i i i i y y y y -=-+=-+⨯-+⎡⎤⎣⎦,1,2,,4i =⋅⋅⋅()()()()()22222126142 5.2 5.2 5.2 5.2 5.210x x x y y s -+-+⋅⋅⋅+-+-+⋅⋅⋅+-=222600.260.25400.3413.6 1.361010⨯-+⨯+⨯++⨯===所以,估计该校900名考生选做题得分的平均数为5.2,方差为1.36.(ii )本选做题阅卷分值都为整数,且选取的样本中,A 题目成绩的中位数和B 题目成绩的中位数都是5.5,易知样本中A 题目的成绩大于样本平均值的成绩有3个,分别为1x ,2x ,3x ,B 题目的成绩大于样本平均值的成绩有2个,分别为1y ,2y .从样本中随机选取两个大于样本平均值的数据共有种10方法,为:()12,x x ,()13,x x ,()23,x x ,()12,y y ,()11,x y ,()21,x y ,()31,x y ,()12,x y ,()22,x y ,()32,x y ,其中取到的两个成绩来自不同题目的取法共有6种,为:()11,x y ,()21,x y ,()31,x y ,()12,x y ,()22,x y ,()32,x y ,记“从样本中随机选取两个大于样本平均值的数据,取到的两个成绩来自不同题目”为事件A , 所以()63105P A ==. 2.(2019·河北高二期中)(2014·长春模拟)对甲、乙两名自行车赛手在相同条件下进行了6次测试,测得他们的最大速度(m/s)的数据如下表:(1)画出茎叶图.(2)分别求出甲、乙两名自行车赛手最大速度(m/s)数据的平均数、方差,并判断选谁参加比赛更合适? 【答案】【解析】(1)画茎叶图如图所示,中间数为数据的十位数.(2)由茎叶图把甲、乙两名选手的6次成绩按从小到大的顺序依次排列为甲:27,30,31,35,37,38; 乙:28,29,33,34,36,38.所以x ̅甲=16×(27+30+31+35+37+38)=33,x ̅乙=16×(28+29+33+34+36+38)=33.s 甲2=16×[(-6)2+(-3)2+(-2)2+22+42+52]=473,s 乙2=16×[(-5)2+(-4)2+0+12+32+52]=383.因为x ̅甲=x ̅乙,s 甲2>s 乙2.所以乙的成绩更稳定,故乙参加比赛更合适.1.(2019·安徽省舒城中学高二月考(文))有关部门要了解甲型H1N1流感预防知识在学校的普及情况,命制了一份有10道题的问卷到各学校做问卷调查.某中学A 、B 两个班各被随机抽取5名学生接受问卷调查,A 班5名学生得分为:5、8、9、9、9,B 班5名学生得分为:6、7、8、9、10.(1)请你判断A 、B 两个班中哪个班的问卷得分要稳定一些,并说明你的理由;(2)求如果把B 班5名学生的得分看成一个总体,并用简单随机抽样方法从中抽取样本容量为2的样本,求样本平均数与总体平均数之差的绝对值不小于1的概率. 【答案】(1)B 班的问卷得分要稳定,见解析;(2)2()5P M = 【解析】(1)B 班的问卷得分要稳定一些,理由如下:589996789108,855A B x x ++++++++====222222(58)(88)(98)(98)(98) 2.45AS -+-+-+-+-∴==222222(68)(78)(88)(98)(108)25BS -+-+-+-+-==,22,A B A B x x S S =>,B ∴班的问卷得分要稳定;(2)记“样本平均数与总体平均数之差的绝对值不小于1”为事件M所有的基本事件分别为:(6,7)、(6,8)、(6,9)、(6,10)、(7,8)、(7,9)、(7,10)、(8,9)、(8,10)、(9,10),(6,7),(6,8),(6,9),(6,10),(7,8),(7,9),(7,10),(8,9),(8,10),(9,10)共10个.事件M 包含的基本事件分别为:(6,7),(6,8),(8,10),(9,10),共4个 由于事件M 符合古典概型,则42()105P M == 2.(2019·兰州市第二十七中学高一期末)某校为了了解甲、乙两班的数学学习情况,从两班各抽出10名学生进行数学水平测试,成绩如下(单位:分): 甲班:82 84 85 89 79 80 91 89 79 74 乙班:90 76 86 81 84 87 86 82 85 83 (1)求两个样本的平均数; (2)求两个样本的方差和标准差; (3)试分析比较两个班的学习情况.【答案】(1)=83.2x 甲,=84x 乙;(2)22=26.36=13.2S S 甲乙,,=5.13S 甲,=3.63S 乙;(3)乙班的总体学习情况比甲班好 【解析】(1)x 甲=110×(82+84+85+89+79+80+91+89+79+74)=83. 2, x 乙=110×(90+76+86+81+84+87+86+82+85+83)=84. (2)2S 甲=110×[(82-83. 2)2+(84-83. 2)2+(85-83. 2)2+(89-83. 2)2+(79-83. 2)2+(80-83. 2)2+(91-83. 2)2+(89-83. 2)2+(79-83. 2)2+(74-83. 2)2]=26. 36,2S 甲=110[(90-84)2+(76-84)2+(86-84)2+(81-84)2+(84-84)2+(87-84)2+(86-84)2+(82-84)2+(85-84)2+(83-84)2]=13. 2,则s 甲 5. 13,s 乙≈3. 63.(3)由于x x <乙甲,则甲班比乙班平均水平低.由于S S >甲乙,则甲班没有乙班稳定. 所以乙班的总体学习情况比甲班好3.(2019·平遥县第二中学高一月考)某技校开展技能大赛,甲、乙两班各选取5名学生加工某种零件,在4个小时内每名学生加工的合格零件数的统计数据的茎叶图如图所示,已知甲班学生在4个小时内加工的合格零件数的平均数为21,乙班学生在4个小时内加工的合格零件数的平均数不低于甲班的平均数.(1)求,m n 的值;(2)分别求出甲、乙两班学生在4个小时内加工的合格零件数的方差2S 甲和2S 乙,并由此比较两班学生的加工水平的稳定性.【答案】(1)8,9m n ==;(2)22=16.8=16.4S S 甲乙,,乙班学生加工水平比甲班稳定.【解析】(1)甲班学生在4个小时内加工的合格零件数的平均数为21, 即()11618212220215x m =+++++=甲,解得m =8. 乙班学生在4个小时内加工的合格零件数的平均数不低于甲班的平均数,即()11014232425215x n =+++++≥乙,又0n 9≤≤,解得n =9. (2)甲班的方差为()()()()()22222211621182121212221282116.85S ⎡⎤=-+-+-+-+-=⎣⎦甲,由(1)可得21x =乙, ∴乙班的方差为()()()()()22222211421192123212421252116.45S ⎡⎤=-+-+-+-+-=⎣⎦乙. ∵方差22S S 甲乙>,∴两班加工的合格零件数的平均数相同,乙班更稳定些.4.(2019·安徽高二期中(文))大城市往往人口密集,城市绿化在健康人民群众肺方面发挥着非常重要的作用,历史留给我们城市里的大山拥有品种繁多的绿色植物更是无价之宝.改革开放以来,有的地方领导片面追求政绩,对森林资源野蛮开发受到严肃查处事件时有发生.2019年的春节后,广西某市林业管理部门在“绿水青山就是金山银山”理论的不断指引下,积极从外地引进甲、乙两种树苗,并对甲、乙两种树苗各抽测了10株树苗的高度(单位:厘米),数据如下面的茎叶图:(1)据茎叶图求甲、乙两种树苗的平均高度;(2)据茎叶图,运用统计学知识分析比较甲、乙两种树苗高度整齐情况.【答案】(1)27(厘米),30(厘米);(2)甲种树苗长的比较整齐,乙种树苗长的参差不齐【解析】(1)甲种树苗的平均高度为192120292325373132332710+++++++++=(厘米).乙种树苗的平均高度为101410272630474644463010+++++++++=(厘米). (2)甲种树苗的方差为:()164364941641001625363810+++++++++=,乙种树苗的方差为:()1400256400169160289256196256223.810+++++++++=,故甲种树苗长的比较整齐,乙种树苗长的参差不齐.5.(2019·福建厦门外国语学校高二期中)某中学的高二(1)班男同学有45名,女同学有15名,老师按照分层抽样的方法组建了一个4人的课外兴趣小组. (1)求课外兴趣小组中男、女同学的人数;(2)经过一个月的学习、讨论,这个兴趣小组决定选出两名同学做某项实验,方法是先从小组里选出1名同学做实验,该同学做完后,再从小组内剩下的同学中选一名同学做实验,求选出的两名同学中恰有一名女同学的概率;(3)试验结束后,第一次做试验的同学得到的试验数据为68,70,71,72,74,第二次做试验的同学得到的试验数据为69,70,70,72,74 ,请问哪位同学的实验更稳定?并说明理由. 【答案】(1) 男、女同学的人数分别为3人,1人;(2) 12;(3) 第二位同学的实验更稳定,理由见解析 【解析】(1)设有x 名男同学,则45604x=,∴3x =,∴男、女同学的人数分别为3人,1人 (2)把3名男同学和1名女同学记为123,,,a a a b ,则选取两名同学的基本事件有12(,)a a ,13(,)a a ,1(,)a b ,21(,)a a ,23(,)a a ,2(,)a b ,31(,)a a ,32(,)a a ,3(,)a b ,1(,)b a ,2(,)b a ,3(,)b a 共12种,其中恰有一名女同学的有6种,∴选出的两名同学中恰有一名女同学的概率为61122P == (3)16870717274715x ++++==,26970707274715x ++++== 2222221(6871)(7071)(7171)(7271)(7471)45s -+-+-+-+-==,2222222(6971)(7071)(7071)(7271)(7471) 3.25s -+-+-+-+-==因2212s s >,所以第二位同学的实验更稳定.6.(2019·陕西高一期末)为选派一名学生参加全市实践活动技能竟赛,A 、B 两位同学在学校的学习基地现场进行加工直径为20mm 的零件测试,他俩各加工的10个零件直径的相关数据如图所示(单位:mm )A 、B 两位同学各加工的10个零件直径的平均数与方差列于下表;根据测试得到的有关数据,试解答下列问题:(Ⅰ)计算s 2B ,考虑平均数与方差,说明谁的成绩好些;(Ⅱ)考虑图中折线走势情况,你认为派谁去参赛较合适?请说明你的理由. 【答案】(Ⅰ)0.008,B 的成绩好些(Ⅱ)派A 去参赛较合适 【解析】(Ⅰ)由题意,根据表中的数据,利用方差的计算公式,可得S 2B 22221[5(2020)3(19.920)1(120)1(20.220)]0.00810=⨯-+⨯-+⨯-+⨯-= ∴S 2A >S 2B ,∴在平均数相同的情况下,B 的波动较小, ∴B 的成绩好些.(Ⅱ)从图中折线趋势可知:尽管A 的成绩前面起伏大,但后来逐渐稳定,误差小,预测A 的潜力大, ∴派A 去参赛较合适.7.(2019·沙雅县第二中学高二期末)某车间20名工人年龄数据如表所示: (1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图; (3)求这20名工人年龄的方差.【答案】(1)众数为30,极差为21;(2)见解析;(3)方差,12.6 【解析】(1)这20名工人年龄的众数为30,极差为401921-=; (2)茎叶图如下:(3)年龄的平均数为19283293305314323403020+⨯+⨯+⨯+⨯+⨯+=,故这20名工人年龄的方差为()()()222222211132315041321020⎡⎤-+⨯-+⨯-+⨯+⨯+⨯+⎣⎦ ()1112112341210025212.62020=+++++=⨯=. 8.(2020·北京高一期末)根据以往的成绩记录,甲、乙两名队员射击中靶环数(环数为整数)的频率分布情况如图所示.假设每名队员每次射击相互独立.(Ⅰ)求图中a的值;(Ⅱ)队员甲进行2次射击.用频率估计概率,求甲恰有1次中靶环数大于7的概率;(Ⅲ)在队员甲、乙中,哪一名队员的射击成绩更稳定?(结论无需证明)【答案】(Ⅰ)0.06;(Ⅱ)38;(Ⅲ)甲【解析】(I)由题意1(0.190.450.290.01)0.06a=-+++=;(II)记事件A为甲中射击一次中靶环数大于7,则()0.450.290.010.75P A=++=,甲射击2次,恰有1次中靶数大于7的概率为:()()()()()() P P AA P AA P A P A P A P A =+=+3 0.750.250.250.758 =⨯+⨯=;(III)甲稳定.9.(2019·永济市涑北中学校高一月考)甲、乙两名技工在相同的条件下生产某种零件,连续6天中,他们日加工的合格零件数的统计数据的茎叶图,如图所示(1)写出甲、乙的中位数和众数;(2)计算甲、乙的平均数与方差,并依此说明甲、乙两名技工哪名更为优秀.【答案】(1)见解析(2)甲更为优秀.【解析】解:(1)甲的中位数为2020202+=,众数为20;乙的中位数为192019.52+=,众数为23.(2)181920202122206x+++++==甲,()()()()()()2222222182019202020202021202220563S -+-+-+-+-+-==甲, 171819202323206x +++++==乙,()()()()()()22222221720182019202020232023201663S -+-+-+-+-+-==乙,由于x x =甲乙,且22S S <甲乙,所以甲更为优秀.10.(2019·四川高三期中(文))根据幼儿身心发展的特征,幼儿园通常着重在健康、科学、社会、语言、艺术五大领域对幼儿展开全方位的教育和培养.经调查发现,一个幼儿除了在幼儿园进行五大领域的系统学习之外,还会报一些课外兴趣班.而家长朋友们对于是否额外报这些课外兴趣班的态度也是不一样的.某调查机构对某幼儿园的100名幼儿家长就孩子是否报课外兴趣班的赞同程度进行调查统计,得到家长对幼儿报课外兴趣班赞同度y 的频数分布表:(1)分别计算对幼儿报兴趣班的赞同度不低于60%的家长比例和对幼儿报兴趣班的赞同度低于20%的家长比例;(2)求家长对幼儿报兴趣班的赞同度的平均数与方差的估计值.(同一组中的数据用该组区间的中点值代替)【答案】(1)0.72,0.02; (2)0.70,0.0496.【解析】(1)根据家长对幼儿报课外兴趣班赞同度y 的频数分布表, 对幼儿报兴趣班的赞同度不低于60%的家长比例为28440.72100+==; 对幼儿报兴趣班的赞同度低于20%的家长比例为20.02100=. (2)由题意,家长对幼儿报兴趣班的赞同度的平均数为()10.1020.30120.50140.70280.9044100y =⨯+⨯+⨯+⨯+⨯0.70=, 其方差为()()()22222210.6020.40120.20140280.2044100s ⎡⎤=-⨯+-⨯+-⨯+⨯+⨯⎣⎦0.0496=,所以家长对幼儿报兴趣班的赞同度的平均数与方差的估计值分别为0.70和0.0496.11.(2020·江西高二月考(理))某学校需要从甲、乙两名学生中选一人参加数学竞赛,抽取了近期两人5次数学考试的成绩,统计结果如下表:(1)若从甲、乙两人中选出一人参加数学竞赛,你认为选谁合适?请说明理由. (2)若数学竞赛分初赛和复赛,在初赛中有两种答题方案:方案一:每人从5道备选题中任意抽出1道,若答对,则可参加复赛,否则被淘汰.方案二:每人从5道备选题中任意抽出3道,若至少答对其中2道,则可参加复赛,否则被润汰. 已知学生甲、乙都只会5道备选题中的3道,那么你推荐的选手选择哪种答题方条进人复赛的可能性更大?并说明理由.【答案】(1)见解析;(2)选方案二【解析】(1)解法一:甲的平均成绩为180********835x ++++==;乙的平均成绩为29076759282835x ++++==, 甲的成绩方差()25211150.85i i s x x==-=∑;乙的成绩方差为()25221148.85i i s x x==-=∑;由于12x x =,2212s s >,乙的成绩较稳定,派乙参赛比较合适,故选乙合适. 解法二、派甲参赛比较合适,理由如下:从统计的角度看,甲获得85以上(含85分)的概率135P =,乙获得85分以上(含85分)的概率225P = 因为12P P >故派甲参赛比较合适,(2)5道备选题中学生乙会的3道分别记为a ,b ,c ,不会的2道分别记为E ,F .方案一:学生乙从5道备选题中任意抽出1道的结果有:a ,b ,c ,E ,F 共5种,抽中会的备选题的结果有a ,b ,c ,共3种. 所以学生乙可参加复赛的概率135P =. 方案二:学生甲从5道备选题中任意抽出3道的结果有(),,a b c ,(),,a b E ,(),,a b F ,(),,a c E ,(),,a c F ,(),,a E F ,(),,b c E ,(),,b c F ,(),,b E F ,(),,c E F ,共10种,抽中至少2道会的备选题的结果有:(),,a b c ,(),,a b E ,(),,a b F ,(),,a c E ,(),,a c F ,(),,b c E ,(),,b c F 共7种,所以学生乙可参加复赛的概率2710P =因为12P P <,所以学生乙选方案二进入复赛的可能性更大.12.(2020·陕西高二期末(文))某赛季,甲、乙两名篮球运动员都参加了7场比赛,他们所有比赛得分的情况如下:甲:15,17,14,23,22,24,32; 乙:12,13,11,23,27,31,30 .(1)求甲、乙两名运动员得分的中位数.(2)分别求甲、乙两名运动员得分的平均数、方差,你认为哪位运动员的成绩更稳定? 【答案】(1) 甲中位数是22,乙中位数是23;(2)21x =甲,21x =乙,22367S =甲,24667S =乙,甲运动员的成绩更稳定.【解析】(1)将甲运动员得分的数据由大到小排列:32,24,23,22,17,15,14. 将乙运动员得分的数据由大到小排列:31,30,27,23,13,12,11.∴甲运动员得分的中位数是22,乙运动员得分的中位数是23.(2)1(15171423222432)217x ==甲++++++, 1(12131123273130)217x ==乙++++++, 22221236[(2115)(2117)(2132)]77S =⋯=甲-+-++-,22221466[(2112)(2113)(2130)]77S =⋯=乙-+-+-,∴22S S <甲乙,∴甲运动员的成绩更稳定.13.(2019·广东执信中学高二期中(理))某超市从2014年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,整理得到数据分组及频率分布表和频率分布直方图:(1)写出频率分布直方图中a 的值,并做出甲种酸奶日销售量的频率分布直方图;(2)记甲种酸奶与乙种酸奶日销售量(单位:箱)的方差分别为2212,s s 。
第1讲 统计与统计案例高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点,2016年,2017年和2018年在解答题中均有考查.1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是( )A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析 设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.答案 A2.(2018·全国Ⅲ卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析 因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.答案 分层抽样3.(2018·全国Ⅱ卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.(2)利用模型②得到的预测值更可靠.理由如下:考 点 整 合1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.2.统计中的四个数据特征3.直方图的两个结论4.回归分析与独立性检验y1Y2总计x1a b a+b x2c d c+d 总计a+c b+d n热点一 抽样方法【例1】 (1)(2018·合肥模拟)某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n=( )A.860B.720C.1 020D.1 040(2)(2018·长沙雅礼中学质检)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.(2)依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人.答案 (1)D (2)4【训练1】 (1)(2018·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( )A.13B.19C.20D.51(2)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析 (1)由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,即7号,20号,33号,46号.∴样本中还有一位同学的编号为20号.答案 (1)C (2)18热点二 用样本估计总体考法1 数字特征与茎叶图的应用【例2-1】(2018·北京东城区质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( )A.①②③B.②③④C.①②④D.①③④。
§10.1随机抽样1.抽样调查(1)抽样调查通常情况下,从调查对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标作出推断,这就是抽样调查.(2)总体和样本调查对象的全体称为总体,被抽取的一部分称为样本.(3)抽样调查与普查相比有很多优点,最突出的有两点:①迅速、及时;②节约人力、物力和财力.2.简单随机抽样(1)简单随机抽样时,要保证每个个体被抽到的概率相同.(2)通常采用的简单随机抽样的方法:抽签法和随机数法.3.分层抽样(1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.4.系统抽样系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按分组的间隔(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机械抽样.题组一思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)简单随机抽样是一种不放回抽样.( √)(2)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( ×)(3)抽签法中,先抽的人抽中的可能性大.( ×)(4)系统抽样在第1段抽样时采用简单随机抽样.( √)(5)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( ×)(6)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( ×)题组二教材改编2.在“世界读书日”前夕,为了了解某地 5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( ) A.总体B.个体C.样本的容量D.从总体中抽取的一个样本答案 A解析由题目条件知,5 000名居民的阅读时间的全体是总体;其中1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200.3.某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( )A.33,34,33 B.25,56,19C.20,40,30 D.30,50,20答案 B解析因为125∶280∶95=25∶56∶19,所以抽取人数分别为25,56,19.4.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是( )A.10 B.11C.12 D.16答案 D解析从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.题组三易错自纠5.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( ) A.5,10,15,20,25 B.3,13,23,33,43C.1,2,3,4,5 D.2,4,6,16,32答案 B解析间隔距离为10,故可能的编号是3,13,23,33,43.6.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取的男生人数为________.答案30解析因为男生与女生的比例为180∶120=3∶2,所以应该抽取的男生人数为50×33+2=30.题型一简单随机抽样1.某班级有男生20人,女生30人,从中抽取10人作为样本,其中一次抽样结果是:抽到了4名男生,6名女生,则下列命题正确的是( )A.这次抽样中可能采用的是简单随机抽样B.这次抽样一定没有采用系统抽样C.这次抽样中每个女生被抽到的概率大于每个男生被抽到的概率D.这次抽样中每个女生被抽到的概率小于每个男生被抽到的概率答案 A解析利用排除法求解.这次抽样可能采用的是简单随机抽样,A正确;这次抽样可能采用系统抽样,男生编号为1~20,女生编号为21~50,间隔为5,依次抽取1号,6号,…,46号便可,B错误;这次抽样中每个女生被抽到的概率等于每个男生被抽到的概率,C和D均错误,故选A.2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08 B.07 C.02 D.01答案 D解析由题意知前5个个体的编号为08,02,14,07,01.3.下列抽取样本的方式不属于简单随机抽样的个数为( )①从无限多个个体中抽取100个个体作为样本;②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③从20件玩具中一次性抽取3件进行质量检验;④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A.0 B.1 C.2 D.3答案 A解析①不是简单随机抽样.②不是简单随机抽样.由于它是放回抽样.③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.④不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.思维升华应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.题型二 系统抽样典例 (1)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:13 0 0 3 4 5 6 6 8 8 8 9 14 1 1 1 2 2 2 3 3 4 4 5 5 5 6 6 7 8 15 0 122333若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ) A .3 B .4 C .5 D .6 答案 B解析 由题意知,将1~35号分成7组,每组5名运动员,成绩落在区间[139,151]内的运动员共有4组,故由系统抽样法知,共抽取4名.故选B.(2)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14 答案 B解析 由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12. 引申探究1.若本例(2)中条件不变,若号码“5”被抽到,那么号码“55”________被抽到.(填“能”或“不能”) 答案 不能解析 若55被抽到,则55=5+20n ,n =2.5,n 不是整数.故不能被抽到.2.若本例(2)中条件不变,若在编号为[481,720]中抽取8人,则样本容量为________. 答案 28解析 因为在编号[481,720]中共有720-480=240人,又在[481,720]中抽取8人, 所以抽样比应为240∶8=30∶1,又因为单位职工共有840人,所以应抽取的样本容量为84030=28.思维升华 (1)系统抽样适用的条件是总体容量较大,样本容量也较大.(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.(3)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定.跟踪训练 将参加夏令营的600名学生按001,002,…,600进行编号.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分别住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,则三个营区被抽中的人数依次为( ) A .26,16,8 B .25,17,8 C .25,16,9 D .24,17,9答案 B解析 由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N +)组抽中的号码是3+12(k -1).令3+12(k -1)≤300,得k ≤1034,因此第Ⅰ营区被抽中的人数是25;令300<3+12(k -1)≤495,得1034<k ≤42,因此第Ⅱ营区被抽中的人数是42-25=17;第Ⅲ营区被抽中的人数为50-25-17=8.题型三 分层抽样命题点1 求总体或样本容量典例 (1)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n 等于( ) A .9 B .10 C .12 D .13 答案 D解析 ∵360=n 120+80+60,∴n =13.(2)某市电视台为调查节目收视率,想从全市3个区按人口数用分层抽样的方法抽取一个容量为n 的样本.已知3个区人口数之比为2∶3∶5,如果最多的一个区抽出的个体数是60,那么这个样本的容量为( ) A .96 B .120 C .180 D .240 答案 B解析 设样本容量为n ,则52+3+5=60n,解得n =120.命题点2 求某层入样的个体数典例 (1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师的人数为( )A.90 B .100 C .180 D .300 答案 C解析 由题意得抽样比为3201 600=15,∴该样本中的老年教师的人数为900×15=180.(2)(2017·重庆一诊)我国古代数学专著《九章算术》中有一衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣( ) A .104人 B .108人 C .112人 D .120人答案 B解析 由题意可知,这是一个分层抽样的问题,其中北乡可抽取的人数为300×8 1008 100+7 488+6 912=300×8 10022 500=108,故选B.思维升华 分层抽样问题类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算. (3)确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.跟踪训练 (1)(2017·南昌一模)某校为了了解学生学习的情况,采用分层抽样的方法从高一1 000人,高二1 200人,高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n 等于( ) A .860 B .720 C .1 020 D .1 040 答案 D解析 分层抽样是按比例抽样的,所以81× 1 2001 000+1 200+n=30,解得n =1 040.(2)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________.答案200,20解析该地区中小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20.五审图表找规律典例 (12分)某单位有2 000名职工,老年、中年、青年分布在管理、技术开发、营销、生产各部门中,如下表所示:(1)若要抽取40人调查身体状况,则应怎样抽样?(2)若要开一个25人的讨论单位发展与薪金调整方面的座谈会,则应怎样抽选出席人?(3)若要抽20人调查对天津全运会举办情况的了解,则应怎样抽样?抽取40人调查身体状况↓(观察图表中的人数分类统计情况)样本人群应受年龄影响↓(表中老、中、青分类清楚,人数确定)要以老、中、青分层,用分层抽样↓要开一个25人的座谈会↓(讨论单位发展与薪金调整)样本人群应受管理、技术开发、营销、生产方面的影响↓(表中管理、技术开发、营销、生产分类清楚,人数确定) 要以管理、技术开发、营销、生产人员分层,用分层抽样 ↓要抽20人调查对天津全运会举办情况的了解↓可认为全运会是大众体育盛会,一个单位人员对情况了解相当 将单位人员看作一个整体 ↓(从表中数据看总人数为2 000) 人员较多,可采用系统抽样 规范解答解 (1)按老年、中年、青年分层用分层抽样法抽取,[1分] 抽取比例为402 000=150.[2分]故老年人、中年人、青年人各抽取4人,12人,24人.[4分] (2)按管理、技术开发、营销、生产分层用分层抽样法抽取,[5分] 抽取比例为252 000=180,[6分]故管理、技术开发、营销、生产各部门分别抽取2人,4人,6人,13人.[8分] (3)用系统抽样,对全部2 000人随机编号,号码从0001~2000,每100号分为一组,从第一组中用简单随机抽样抽取一个号码,然后将这个号码分别加100,200,…,1 900,共20人组成一个样本.[12分]1.某工厂平均每天生产某种机器零件10 000件,要求产品检验员每天抽取50件零件,检查其质量状况,采用系统抽样方法抽取,将零件编号为0000,0001,0002,…,9999,若抽取的第一组中的号码为0010,则第三组抽取的号码为( ) A .0210 B .0410 C .0610 D .0810 答案 B解析 将零件分成50段,分段间隔为200,因此,第三组抽取的号码为0010+2×200=0410,故选B.2.(2017·榆林月考)打桥牌时,将洗好的扑克牌(52张)随机确定一张为起始牌后,开始按次序搬牌,对任何一家来说,都是从52张总体中抽取一个13张的样本,则这种抽样方法是( )A .系统抽样B .分层抽样C .简单随机抽样D .非以上三种抽样方法答案 A解析 符合系统抽样的特点,故选A.3.用简单随机抽样的方法从含有10个个体的总体中抽取一个容量为3的样本,其中某一个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( ) A.110,110 B.310,15 C.15,310 D.310,310答案 A解析 在抽样过程中,个体a 每一次被抽中的概率是相等的,因为总体容量为10,故个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性均为110,故选A.4.(2017·长沙一中测试)某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250 答案 A解析 方法一 由题意可得70n -70=3 5001 500,解得n =100. 方法二 由题意,得抽样比为703 500=150,总体容量为3 500+1 500=5 000,故n =5 000×150=100.5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( ) A .7 B .9 C .10 D .15 答案 C解析 由系统抽样的特点知,抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人. 6.福利彩票“双色球”中红色球的号码由编号为01,02,…,33的33个个体组成,某彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为( )A.23 B .09 C .02 D .17答案 C解析 从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02. 7.(2017·雅礼中学月考)某中学教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1000进行编号,求得间隔数k =20,即分50组每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( ) A .177 B .157 C .417 D .367 答案 B解析 根据系统抽样的特点可知,抽取出的编号成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.8.将某班的60名学生编号为01,02,…,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是______________. 答案 16,28,40,52解析 编号组数为5,间隔为605=12,因为在第一组抽得04号,所以4+12=16,16+12=28,28+12=40,40+12=52, 所以其余4个号码依次为16,28,40,52.9.(2017·江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件. 答案 18解析 ∵样本容量总体个数=60200+400+300+100=350,∴应从丙种型号的产品中抽取350×300=18(件).10.(2017·潍坊模拟)某高中在校学生有2 000人.为了响应“阳光体育运动”的号召,学校开展了跑步和登山的比赛活动.每人都参与而且只能参与其中一项比赛,各年级参与比赛的人数情况如下表:其中a ∶b ∶c =2∶3∶5,全校参与登山的人数占总人数的5.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则从高二年级参与跑步的学生中应抽取的人数为________. 答案 36解析 根据题意可知,样本中参与跑步的人数为200×35=120,所以从高二年级参与跑步的学生中应抽取的人数为120×32+3+5=36.11.200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号,分为40组,分别为1~5,6~10,…,196~200,若第5组抽取号码为22,则第8组抽取号码为________.若采用分层抽样,40岁以下年龄段应抽取________人.答案 37 20解析 将1~200编号分为40组,则每组的间隔为5,其中第5组抽取号码为22,则第8组抽取的号码应为22+3×5=37;由已知条件得,200名职工中40岁以下的职工人数为200×50%=100,设在40岁以下年龄段中应抽取x 人,则40200=x100,解得x =20.12.一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为1,2,…,10.现用系统抽样的方法抽取一个容量为10的样本,规定如果在第1组中随机抽取的号码为m ,那么在第k 组中抽取的号码的个位数字与m +k 的个位数字相同.若m =6,则在第7组中抽取的号码是________.答案 63解析 m =6,则在第7组中抽取的号码的个位数字与13的个位数字相同,而第7组中数字编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.13.(2017·宁夏中卫二模)某市教育主管部门为了全面了解2017届高三学生的学习情况,决定对该市参加2017年高三第一次全省统一考试(后称统考)的32所学校进行抽样调查.将参加统考的32所学校进行编号,依次为1到32,现用系统抽样法抽取8所学校进行调查,若抽到的最大编号为31,则最小编号是( ) A .3 B .1 C .4 D .2 答案 A解析 根据系统抽样的特点可知,总体分成8组,组距为328=4,若抽到的最大编号为31,则最小编号是3.14.为调查德克士各分店的经营状况,某统计机构用分层抽样的方法,从A ,B ,C 三个城市中抽取若干家德克士分店组成样本进行深入研究,有关数据见下表:(单位:个)则样本容量为________. 答案 6解析 设所求的样本容量为n ,由题意得 n26+13+39=226,解得n =6.15.(2018·泉州质检)某公司员工对户外运动分别持“喜欢”“不喜欢”和“一般”三种态度,其中持“一般”态度的比持“不喜欢”态度的多12人,按分层抽样方法从该公司全体员工中选出部分员工座谈户外运动,如果选出的人有6人对户外运动持“喜欢”态度,有1人对户外运动持“不喜欢”态度,有3人对户外运动持“一般”态度,那么这个公司全体员工中对户外运动持“喜欢”态度的有( ) A .36人 B .30人 C .24人 D .18人答案 A解析 设持“喜欢”“不喜欢”“一般”态度的人数分别为6x ,x,3x ,由题意可得3x -x =12,x =6,∴持“喜欢”态度的有6x =36(人).16.(2017·开封模拟)某公路设计院有工程师6人,技术员12人,技工18人,要从这些人中抽取n 个人参加市里召开的科学技术大会.如果采用系统抽样和分层抽样的方法抽取,不用剔除个体,如果参会人数增加1人,则在采用系统抽样时,需要在总体中先剔除1个个体,求n .解 总体容量为6+12+18=36.当样本容量为n 时,由题意知,系统抽样的间隔为36n,分层抽样的比例是n 36,抽取的工程师人数为n 36×6=n 6,技术员人数为n 36×12=n3,技工人数为n 36×18=n2,所以n 应是6的倍数,36的约数,即n =6,12,18. 当样本容量为(n +1)时,总体容量剔除以后是35人, 系统抽样的间隔为35n +1,因为35n +1必须是整数, 所以n 只能取6,即样本容量n =6.。
第三课 统计案例[核心速填] (建议用时4分钟)1.分析判断两个变量相关关系常用的方法(1)散点图法:把样本数据表示的点在直角坐标系中标出,得到散点图,由散点图的形状分析.(2)相关指数法:利用相关指数R 2进行检验,在确认具有相关关系后,再求线性回归方程.2.求线性回归方程的步骤(1)画散点图:从直观上观察两个变量是否线性相关. (2)计算:利用公式求回归方程的系数的值.b ^=∑i =1nx i -x-yi -y-∑i =1nx i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.(3)写出方程:依据y ^=a ^+b ^x ,写出回归直线方程. 3.两种特殊可线性化回归模型的转化(1)将幂型函数y =ax m(a 为正的常数,x ,y 取正值)化为线性函数.如果将y =ax m两边同取以10为底的对数,则有lg y =m lg x +lg a .令u =lg y ,v =lg x ,lg a =b ,代入上式,得u =mv +b ,其中m ,b 是常数.这是u ,v 的线性函数.如果以u 为纵坐标,v 为横坐标,则u =mv +b 的图象就是一直线.(2)将指数型函数y =ca x(a >0且a ≠1,c >0且为常数)化为线性函数.将y =ca x两边同取以10为底的对数,有lg y =x lg a +lg c ,令lg y =u ,lg a =k ,lg c =b ,得u =kx +b ,其中,k 和b 是常数,与幂型函数不同的是x 依然保持原来的,只是用y 的对数lg y 代替了y .4.在实际问题中常用的三个数值(1)当K 2>6.635时,表示有99%的把握认为“事件A 与B 有关系”. (2)当K 2>3.841时,表示有95%的把握认为“事件A 与B 有关系”. (3)当K 2≤3.841时,认为事件A 与B 是无关的.[体系构建][题型探究]一组观测值,可以画出散点图或利用相关系数r ,判断两个变量是否具有线性相关关系,若具有线性相关关系,可得出线性回归直线方程.利用公式求回归直线方程时应注意以下几点:(1)求b ^时,利用公式b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x -y-ni =1x 2i -n x -2,先求出x =1n (x 1+x 2+x 3+…+x n ),y =1n (y 1+y 2+y 3+…+y n ).再由a ^=y -b ^ x 求a ^的值,并写出回归直线方程.(2)回归直线一定经过样本点的中心(x -,y -).(3)回归直线方程中的截距a ^和斜率b ^都是通过样本估计得来的,存在误差,这种误差可能导致预报结果的偏差.(4)回归直线方程y ^=a ^+b ^x 中的b ^表示x 每增加1个单位时预报变量y 的平均变化量,而a ^表示预报变量y 不随x 的变化而变化的部分.以下是某地收集到的新房屋的销售价格y 和房屋的面积x 的数据:(2)若线性相关,求线性回归方程;(3)根据(2)的结果估计当房屋面积为150 m 2时的销售价格.【导学号:95032252】[解] (1)数据对应的散点图如图所示.(2)由散点图知y 与x 具有线性相关关系.由表中数据知x -=15∑i =15x i =109,y -=15∑i =15y i =23.2,∑i =15x 2i =60 975,∑i =15x i y i =12 952.设所求回归直线方程为y ^=b ^x +a ^,则b ^=5i =1x i y i -5x -y -∑i =15x 2i -5x -2≈0.196 2,a ^=y --b ^x -≈1.814 2,故所求回归直线方程为y ^=0.196 2x +1.814 2.(3)根据(2),当x =150时,销售价格的估计值为y ^=0.1962×150+1.814 2=31.244 2(万元).1.已知某连锁经营公司的5个零售店某月的销售额和利润额资料如下表:(2)根据如下的参考公式与参考数据,求利润额y 与销售额x 之间的线性回归方程; (3)若该公司还有一个零售店某月销售额为10千万元,试估计它的利润额是多少.(参考公式:b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.其中,∑i =15x i y i =112,∑i =15x 2i =200)[解] (1)散点图.(2)由已知数据计算得n =5,x -=305=6,y -=175=3.4,b ^=112-5×6×3.4200-5×6×6=0.5,a ^=3.4-0.5×6=0.4.则线性回归方程为y ^=0.5x +0.4.(3)将x =10代入线性回归方程中得到y ^=0.5×10+0.4=5.4(千万元). 即估计该零售店的利润额约为5.4千万元.决实际问题的效果进行评价.一方面可以对比残差或残差平方和的大小,同时观察残差图,进行残差分析;另一方面也可以研究数据的R 2(相关系数r ).对模型拟合效果的分析能够帮助我们利用最优化的模型来解决实际问题.在研究弹簧伸长长度y (cm)与拉力x (N)的关系时,对不同拉力的6根弹簧进行测量,测得如下表中的数据:若依据散点图及最小二乘法求出的回归直线方程为y =0.18x +6.34,求R 2,并结合残差说明拟合效果.【导学号:95032253】[解] 列表求值如下:x -=17.5,y -≈9.49,∑i =16x i y i =1 076.2,∑i =16x 2i =2 275,∑i =16(y i -y ^i )2=0.017 4,∑i =16(y i-y -)2=14.678 4.∴R 2=1-0.017 414.678 4≈0.998 81,回归模型拟合效果较好.由表中数据可以看出残差比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高.2.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得b =6.5, (1)求y 与x 的线性回归方程;(2)现有第二个线性模型:y ^=7x +17,且R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由. [解] (1)依题意设y 与x 的线性回归方程为y ^=6.5x +a ^.x -=2+4+5+6+85=5,y -=30+40+60+50+705=50,∴y ^=6.5x +a ^经过(x -,y -), ∴50=6.5×5+a ^,∴a ^=17.5,∴y 与x 的线性回归方程为y ^=6.5x +17.5.(2)由(1)的线性模型得y i -y ^i 与y i -y -的关系如下表:所以∑i =15(y i -y ^i )2=(-0.5)2+(-3.5)2+(-10)2+(-6.5)2+0.52=155.∑i =15(y i -y -)2=(-20)2+(-10)2+102+02+202=1 000.所以R 21=1-∑i =15y i -y ^i2∑i =15y i -y-2=1-1551 000=0.845.由于R 21=0.845,R 2=0.82知R 21>R 2, 所以(1)的线性模型拟合效果比较好.是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.(1)根据以上数据列出2×2列联表;(2)判断40岁以上的人患胃病与生活规律是否有关.【导学号:95032254】[思路探究] (1)解决本题关键是首先弄清问题中的两个分类变量及其取值分别是什么,其次掌握2×2列联表的结构特征.(2)利用2×2列联表计算K 2的观测值,再结合临界值表来分析相关性的大小. [解] (1)由已知可列2×2列联表如下:k =-280×460×220×320≈9.638.因为9.638>7.879,因此,我们在犯错误的概率不超过0.005的前提下认为40岁以上的人患胃病和生活规律有关.3.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行问卷调查得到了如下的列联表:(1)请将上面的列联表补充完整(不用写计算过程);(2)能否有99%的把握认为喜爱打篮球与性别有关?说明你的理由. (参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d )[解] (1)依题意可知喜爱打篮球的学生的人数为50×0.6=30. 列联表补充如下:(2)因为k =5020×15-5×1025×25×30×20≈8.333>6.635,所以,有99%的把握认为喜爱打篮球与性别有关.。
专题突破练18 统计与统计案例1.甲、乙两人参加某体育项目训练,近期的五次测试成绩得分情况如图所示.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.2.(2018全国卷2,文18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①;=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.3.(2018河北唐山一模,文18)某水产品经销商销售某种鲜鱼,售价为每千克20元,成本为每千克15元.销售宗旨是当天进货当天销售.如果当天卖不出去,未售出的全部降价处理完,平均每千克损失3元.根据以往的销售情况,按[0,100),[100,200),[200,300),[300,400),[400,500]进行分组,得到如图所示的频率分布直方图.(1)根据频率分布直方图计算该种鲜鱼日需求量的平均数(同一组中的数据用该组区间中点值代表);(2)该经销商某天购进了300千克这种鲜鱼,假设当天的需求量为x千克(0≤x≤500),利润为Y元.求Y关于x的函数关系式,并结合频率分布直方图估计利润Y不小于700元的概率.4.某单位N名员工参加“我爱阅读”活动,他们的年龄在25岁至50岁之间,按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],得到的频率分布直方图如图所示.(1)求正整数a,b,N的值;(2)现要从年龄低于40岁的员工中用分层抽样的方法抽取42人,则年龄在第1,2,3组的员工人数分别抽取多少?(3)为了估计该单位员工的阅读倾向,现对该单位所有员工中按性别比例抽查的40人是否喜欢阅读国学类书籍进行了调查,调查结果如下所示:(单位:人)下面是年龄的分布表:根据表中数据,我们能否有99%的把握认为该单位员工是否喜欢阅读国学类书籍和性别有关系?附:K2=,其中n=a+b+c+d.5.(2018百校联盟四月联考,文18)每年的寒冷天气都会带热“御寒经济”,以餐饮业为例,当外面太冷时,不少人都会选择叫外卖上门,外卖商家的订单就会增加,下表是某餐饮店从外卖数据中抽取的5天的日平均气温与外卖订单数(1)经过数据分析,一天内平均气温x(℃)与该店外卖订单数y(份)成线性相关关系,试建立y 关于x的回归方程,并预测气温为-12 ℃时该店的外卖订单数(结果四舍五入保留整数); (2)天气预报预测未来一周内(七天),有3天日平均气温不高于-10 ℃,若把这7天的预测数据当成真实数据,则从这7天任意选取2天,求恰有1天外卖订单数不低于160份的概率.附注:回归方程x+中斜率和截距的最小二乘估计公式分别为:.6.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.附:,K2=.7.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在30分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的成绩平均分(同一组数据用该组区间中点值作代表),从计算结果看,判断数学成绩与性别是否有关;(2)K2=,其中8.(2018全国百强校最后一卷,文19)下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x=年份-2 013.(1)已知y与x具有线性相关关系,求y关于x的线性回归方程,并预测2018年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调査平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:,K2=,n=a+b+c+d.参考答案专题突破练18统计与统计案例1.解 (1)由图象可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.=13,=13,×[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,×[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由,可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.2.解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)3.解(1)=50×0.001 0×100+150×0.002 0×100+250×0.003 0×100+350×0.0025×100+450×0.001 5×100=265.(2)当日需求量不低于300千克时,利润Y=(20-15)×300=1 500(元);当日需求量不足300千克时,利润Y=(20-15)x-(300-x)×3=8x-900(元);故Y=由Y≥700得,200≤x≤500,所以P(Y≥700)=P(200≤x≤500)=0.003 0×100+0.002 5×100+0.001 5×100=0.7.4.解(1)总人数N==280,a=28,第3组的频率是1-5×(0.02+0.02+0.06+0.02)=0.4,所以b=280×0.4=112.(2)因为年龄低于40岁的员工在第1,2,3组,共有28+28+112=168(人),利用分层抽样在168人中抽取42人,每组抽取的人数分别为:第1组抽取的人数为28×=7(人),第2组抽取的人数为28×=7(人),第3组抽取的人数为112×=28(人),所以第1,2,3组分别抽7人、7人、28人.(3)假设H0:“是否喜欢阅读国学类书籍和性别无关”,根据表中数据,求得K2的观测值k=≈6.860 5>6.635,查表得P(K2≥6.635)=0.01,从而能有99%的把握认为该单位员工是否喜欢阅读国学类书籍和性别有关系.5.解 (1)由题意可知=-6,=110,(x i-)2=42+22+02+(-2)2+(-4)2=40,(x i-)(y i-)=4×(-60)+2×(-25)+0×5+(-2)×30+(-4)×50=-550, 所以=-13.75,=110+13.75×(-6)=27.5,所以y关于x的回归方程为=-13.75x+27.5,当x=-12时,=-13.75x+27.5=-13.75×(-12)+27.5=192.5≈193.所以可预测当平均气温为-12 ℃时,该店的外卖订单数为193份.(2)外卖订单数不低于160份的概率就是日平均气温不高于-10 ℃的概率,由题意,设日平均气温不高于-10 ℃的3天分别记作A,B,C,另外4天记作a,b,c,d, 从这7天中任取2天结果有:(A,B),(A,C),(A,a),(A,b),(A,c),(A,d),(B,C),(B,a),(B,b),(B,c),(B,d),(C,a),(C,b ),(C,c),(C,d),(a,b),(a,c),(a,d),(b,c),(b,d),(c,d)共21种,恰有1天平均气温不高于-10 ℃的结果有:(A,a),(A,b),(A,c),(A,d),(B,a),(B,b),(B,c),(B,d),(C,a),(C,b),(C,c),(C,d)共12种,所以所求概率P=.6.解 (1)旧养殖法的箱产量低于50 kg的频率为=≈15由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值到55 7.解 (1)=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5.=45×0.15+55×0.10+65×0.125+75×0.25+85×0.325+95×0.05=71.5.从男、女生各自的成绩平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K2=≈1.79.∵1.79<2.706,∴在犯错误的概率不超过0.1的前提下不能认为“数学成绩与性别有关”.8.解(1)由题意得=2.5,=200,=30,x i y i=2 355,所以=71,所以=200-71×2.5=22.5,所以y关于x的线性回归方程为=71x+22.5.由于2 018-2 013=5,所以当x=5时,=71×5+22.5=377.5,所以预测2018年该百货零售企业的线下销售额为377.5万元.故K2的观测值K2=≈6.109,由于6.109>5.024,所以可以在犯错误的概率不超过0.025 的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关.11。
课时作业62 变量间的相关关系与统计案例1.(2019·辽宁丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K 2=6.705,则所得到的统计学结论是:有 的把握认为“学生性别与支持该活动没有关系”.( C )附:C .1%D .0.1%解析:因为6.635<6.705<10.828,因此有1%的把握认为“学生性别与支持该活动没有关系”,故选C.2.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( C )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关解析:由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关,故选C.3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( B )A.116 B .18 C.14D .12解析:依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18.4.为考察A 、B 两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法正确的是( C ) A .药物A 、B 对该疾病均没有预防效果 B .药物A 、B 对该疾病均有显著的预防效果 C .药物A 的预防效果优于药物B 的预防效果 D .药物B 的预防效果优于药物A 的预防效果解析:根据两个等高条形图知,药物A 实验显示不服药与服药时患病的差异较药物B 实验显示明显大,∴药物A 的预防效果优于药物B 的预防效果.故选C.5.(2019·河南焦作一模)已知变量x 和y 的统计数据如下表:根据上表可得回归直线方程为y =b x -0.25,据此可以预测当x =8时,y ^=( C ) A .6.4 B .6.25 C .6.55D .6.45解析:由题意知x =3+4+5+6+75=5,y =2.5+3+4+4.5+65=4,将点(5,4)代入y ^=b ^x -0.25,解得b ^=0.85,则y ^=0.85x -0.25, 所以当x =8时,y ^=0.85×8-0.25=6.55,故选C.6.(2019·南昌模拟)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.附表:由K 2=a +bc +d a +cb +d算得,K 2=258×42×35×65≈9.616,参照附表,得到的正确结论是( C )A .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别无关”C .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”D .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关” 解析:由题意K 2的观测值≈9.616>6.635,所以在犯错误的概率不超过0.01的前提下认为“生育意愿与城市级别有关”.7.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.77x +52.9.解析:由已知可计算求出x =30,而线性回归方程必过点(x ,y ),则y =0.77×30+52.9=76,设模糊数字为a ,则a +62+75+80+905=76,计算得a =73.8.(2019·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)过 0.025 .附表:解析:由列联表计算K 2的观测值k =30×20×20×30≈5.556>5.024,∴推断犯错误的概率不超过0.025.9.(2019·安徽蚌埠段考)为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有解析:由2×2列联表可知,K 2=-240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.10.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n = 10 .解析:x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n 5,回归直线一定经过样本点中心(x ,y ),即6+n5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.11.(2019·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=a +bc +d a +cb +d,n =a +b +c +d .解:(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs .其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6.(2)由题意,得K 2的观测值为k =-2++++=163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.12.(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t -.解:(1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.10, a ^=y -b ^ t -=1.331-0.10×4≈0.93. 所以y 关于t 的回归方程为 y ^=0.93+0.10t .将2016年对应的t =9代入回归方程得:y ^=0.93+0.10×9=1.83. 所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.13.(2019·湖南张家界一模)已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误的是( C )A.变量x ,B .可以预测,当x =20时,y ^=-3.7 C .m =4D .该回归直线必过点(9,4)解析:由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x =14×(6+8+10+12)=9,y =14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C 错;由m =5,得y =6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C.14.(2019·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( C )A.b ^>b ′,a ^>a ′ B .b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D .b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16x i y i -6 x·y∑i =16x 2i -6 x 2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.15.(2019·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有 12 人.则k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2019·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量;(3)请用数据说明回归方程预报的效果.参考数据:y -=54,∑i =17(t i -t -)(y i -y -)=21,14≈3.74,∑i =17(y i -y ^i )2=94. 参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,线性回归方程y ^=a ^+b ^t ,b ^=∑i =1nt i -ty i -y∑i =1n t i -t2,a ^=y -b ^t -.反映回归效果的公式为:R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2,其中R 2越接近于1,表示回归的效果越好.解:(1)由折线图中的数据得,t =4,∑i =17(t i -t -)2=28,∑i =17(y i -y -)2=18,所以r =2128×18≈0.935. 因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y -=54,b ^=∑i =17t i -ty i -y∑i =17t i -t2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2017年对应的t =8代入得y ^=34×8+51=57,所以预测2017年该企业污水净化量约为57吨.(3)因为R 2=1-∑i =17y i -y ^i2∑i =17y i -y2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.。
(十八) 统计、统计案例(注意命题点的区分度)一、选择题1.(2017·福州质检)在检测一批相同规格共500 kg 航空用耐热垫片的品质时,随机抽取了280片,检测到有5片非优质品,则这批航空用耐热垫片中非优质品约为( )A .2.8 kgB .8.9 kgC .10 kgD .28 kg解析:选B 由题意可知,抽到非优质品的概率为5280,所以这批航空用耐热垫片中非优质品约为500×5280=12514≈8.9 kg.2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加C .各年的月接待游客量高峰期大致在7,8月D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 解析:选A 根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确.3.一次数学考试后,某老师从自己所带的两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图.已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x -y 的值为( )A .2B .-2C .3D .-3解析:选D 由题意得,72+77+80+x +86+905=81,解得x =0,易知y =3,∴x -y=-3.4.采用系统抽样方法从 1 000人中抽取50人做问卷调查,为此将他们随机编号为1,2,…,1 000,适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.抽到的50人中,编号落入区间[1,400]的人做问卷A ,编号落入区间[401,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷C 的人数为( )A .12B .13C .14D .15解析:选A 由题意组距为1 00050=20,故抽到的号码构成以8为首项,以20为公差的等差数列,且此等差数列的通项公式为a n =8+(n -1)×20=20n -12.由751≤20n -12≤1 000,解得38.15≤n ≤50.6.再由n ∈N *,可得39≤n ≤50,故做问卷C 的人数为50-39+1=12.5.已知x ,y 的取值如下表所示:x 2 3 4 y645若y 与x 呈线性相关,且线性回归方程为y ^=b ^x +132,则b ^=( )A.12 B .-12 C .2 D .-2解析:选B 由表中数据得x =3,y =5,线性回归方程一定过样本中心点(x ,y ),所以5=3b ^+132,解得b ^=-12.6.(2017·广州模拟)为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理后,作出了如图所示的频率分布直方图.已知图中从左到右的前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,则被抽查的美术生的人数是( )A .35B .48C .60D .75解析:选C 设被抽查的美术生的人数为n ,因为后2个小组的频率之和为(0.037 5+0.012 5)×5=0.25,所以前3个小组的频率之和为0.75.又前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,所以前3个小组的频数分别为5,15,25,所以n =5+15+250.75=60.7.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,计算得K 2的观测值k =8.01,若推断“喜欢乡村音乐与性别有关系”,则这种推断犯错误的概率不超过( )P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828A .0.01B .0.025C .0.005D .0.001解析:选C 由K 2的观测值k =8.01,观测值同临界值进行比较可知,这种推断犯错误的概率不超过0.005.8.在某次测量中得到的A 样本数据如下:42,43,46,52,42,50,若B 样本数据恰好是A 样本数据每个都减5后所得数据,则A ,B 两样本的下列数字特征对应相同的是( )A .平均数B .标准差C .众数D .中位数解析:选B A 样本数据的平均数x =2756,B 样本数据的平均数x ′=x -5.A 样本数据的方差s 2=16[(42-x )2+(43-x )2+…+(50-x )2],B 样本数据的方差s ′2=16[(42-x )2+(43-x )2+…+(50-x )2],所以A ,B 两样本的标准差相同.9.某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图(如图所示).据此估计此次考试成绩的众数是( )A .100B .110C .115D .120解析:选C 众数是一组数据中出现次数最多的数,结合题中频率分布折线图可以看出,数据“115”对应的纵坐标最大,所以相应的频率最大,频数最大,据此估计此次考试成绩的众数是115.10.以模型y =c e kx去拟合一组数据时,为了求出回归方程,设z =ln y ,其变换后得到线性回归方程z =0.3x +4,则c =( )A .0.3B .e 0.3C .4D .e 4解析:选D 因为z =ln y =ln(c e kx)=ln c +kx ,又z =0.3x +4,所以ln c =4,c =e 4.11.在样本的频率分布直方图中,共有4个小长方形,这4个小长方形的面积由小到大依次构成等比数列{a n },已知a 2=2a 1,且样本容量为300,则对应小长方形面积最小的一组的频数为( )A .20B .40C .30D .无法确定解析:选A 在等比数列{a n }中,a 2=2a 1,则q =2,由题意S 4=a 11-241-2=15a 1=1,a 1=115,即小长方形面积最小的一组的面积为115,所以频数为300×115=20,故选A.12.为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为( )A .9B .10C .11D .12解析:选B 不妨设样本数据为x 1,x 2,x 3,x 4,x 5,且x 1<x 2<x 3<x 4<x 5,则由样本方差为4,知(x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)2=20.若5个整数的平方和为20,则这5个整数的平方只能在0,1,4,9,16中选取(每个数最多出现2次),当这5个整数的平方中最大的数为16时,分析可知,总不满足和为20;当这5个整数的平方中最大的数为9时,0,1,1,9,9这组数满足要求,此时对应的样本数据为x 1=4,x 2=6,x 3=7,x 4=8,x 5=10;当这5个整数的平方中最大的数不超过4时,总不满足和为20,因此不存在满足条件的另一组数据.故选B.二、填空题13.具有线性相关关系的变量x ,y 满足如下表所示的一组数据.若y 与x 的线性回归方程为y ^=3x -32,则m 的值是________.x 0 1 2 3 y-11m8解析:由已知得x =14×(0+1+2+3)=2,y =4×(-1+1+m +8)=m4+2,又点(x ,y )在线性回归直线上,所以m 4+2=3×32-32,解得m =4.答案:414.(2017·江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析:应从丙种型号的产品中抽取 60×300200+400+300+100=18(件).答案:1815.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,计算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.已知家庭的月储蓄y 关于月收入x 的线性回归方程为y ^=b ^x +a ^,则变量x 与y ________(填“正相关”或“负相关”);若该居民区某家庭月收入为7千元,预测该家庭的月储蓄是________千元.解析:由题意知n =10,x =110∑i =110x i =8,y =110∑i =110y i =2,∴b ^=184-10×8×2720-10×82=0.3,a ^=2-0.3×8=-0.4,∴y ^=0.3x -0.4,∵0.3>0,∴变量x 与y 正相关. 当x =7时,y ^=0.3×7-0.4=1.7(千元). 答案:正相关 1.716.(2017·石家庄质检)设样本数据x 1,x 2,…,x 2 017的方差是4,若y i =2x i -1(i =1,2,…,2 017),则y 1,y 2,…,y 2 017的方差为________.解析:设样本数据的平均数为x , 则y i =2x i -1的平均数为2x -1,则y 1,y 2,…,y 2 017的方差为12 017[(2x 1-1-2x +1)2+(2x 2-1-2x +1)2+…+(2x 2017-1-2x +1)2]=4×12 017[(x 1-x )2+(x 2-x )2+…+(x 2 017-x )2]=4×4=16. 答案:16 三、解答题17.对甲、乙两名自行车赛手在相同条件下进行了6次测试,测得他们的最大速度(m/s)的数据如下表.甲273830373531乙332938342836(1)画出茎叶图,由茎叶图判断哪位选手的成绩较稳定;(2)分别求出甲、乙两名自行车赛手最大速度(m/s)数据的平均数、中位数、标准差,并判断选谁参加比赛更合适.解:(1)茎叶图如图所示:由茎叶图可知,乙的成绩较稳定.(2)因为v甲=16(27+38+30+37+35+31)=33,v乙=16(33+29+38+34+28+36)=33. 甲的中位数:33,乙的中位数:33.5.s2甲=16[]-62+52+-32+42+22+-22=473,s2乙=16[]02+-42+52+12+-52+32=383,故s甲=1413,s乙=1143,所以选乙参赛更合适.18.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.(1)求抽取的90名同学中的男生人数;(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?愿意选修英语口语课程不愿意选修英语口语课程总计男生25女生总计35附:K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d. P(K2≥k0)0.1000.0500.0250.0100.005 k0 2.706 3.841 5.024 6.6357.879解:(1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.(2)2×2列联表如下:愿意选修英语口语课程不愿意选修英语口语课程总计男生252550 女生301040 总计553590由K2=n ad-bc2a+b c+d a+c b+d,代入数据得K2=90×25×10-25×30250×40×55×35=45077≈5.844>5.024.所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.19.(2017·北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计值为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9, 故样本中分数小于50的频率为0.1,故分数在区间[40,50)内的人数为100×0.1-5=5. 所以总体中分数在区间[40,50)内的人数估计为 400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60, 女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.20.下表是高三某位文科生连续5次月考的历史、政治的成绩,结果统计如下:月份 9 10 11 12 1 历史(x 分) 79 81 83 85 87 政治(y 分)7779798283(1)求该生5次月考历史成绩的平均分和政治成绩的方差;(2)一般来说,学生的历史成绩与政治成绩有较强的线性相关关系,根据上表提供的数据,求两个变量x ,y 的线性回归方程y ^ =b ^x +a ^.(附:b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )解:(1)x =15×(79+81+83+85+87)=83,∵y =15×(77+79+79+82+83)=80,∴s 2y =15× [(77-80)2+(79-80)2+(79-80)2+(82-80)2+(83-80)2]=4.8.(2)由(1)知x =83,y =80,则∑i =15(x i -x )(y i -y )=(-4)×(-3)+(-2)×(-1)+0×(-1)+2×2+4×3=30,∑i =15(x i -x )2=(-4)2+(-2)2+02+22+42=40,∴b ^=3040=0.75,a ^=80-0.75×83=17.75.故所求的线性回归方程为y ^=0.75x +17.75.。