当前位置:文档之家› 数学: 专题十五 统计、统计案例

数学: 专题十五 统计、统计案例

数学: 专题十五 统计、统计案例
数学: 专题十五 统计、统计案例

专题十五 ?

??

统计、统计案例

[题组全练]

1.(2018·石家庄模拟)某校高一年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为140的样本,则此样本中男生人数为() A.80B.120

C.160 D.240

解析:选A因为男生和女生的比例为560∶420=4∶3,样本容量为140,所以应该

抽取男生的人数为140×

4

4+3

=80,故选A.

2.(2018·南宁模拟)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()

A.100,20 B.200,20

C.200,10 D.100,10

解析:选B由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选 B.

3.从30个个体(编号为00~29)中抽取10个样本,现给出某随机数表的第11行到第15行(见下表),如果某人选取第12行的第6列和第7列中的数作为第一个数并且由此数向右读,则选取的前4个的号码分别为()

92644607202139207766381732561640

5858 7766 3170 0500 2593 0545 5370 7814

2889 6628 6757 8231 1589 0062 0047 3815

5131 8186 3709 4521 6665 5325 5383 2702

9055 7196 2172 3207 1114 1384 4359 4488

A.76,63,17,00B.16,00,02,30

C.17,00,02,25 D.17,00,02,07

解析:选D在随机数表中,将处于00~29的号码选出,满足要求的前4个号码为17,00,02,07.

4.(2019届高三.南昌调研)某校高三(2)班现有64名学生,随机编号为0,1,2, (63)

依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8

的样本,若在第1组中随机抽取的号码为5,则在第6组中抽取的号码为________.

解析:由题知分组间隔为64

8=8,又第1组中抽取的号码为5,所以第6组中抽取的号

码为5×8+5=45.

答案:45

5.采用系统抽样方法从1 000人中抽取50人做问卷调查,将他们随机编号1,2,…,1 000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.若抽到的50人中,编号落入区间[1,400]的人做问卷A ,编号落入区间[401,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷C 的人数为________.

解析:根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差d =1 000

50

=20的等差数列{a n },∴通项公式a n =8+20(n -1)=20n -12,令751≤20n -12≤1 000,得76320≤n ≤253

5

,又∵n ∈N *,∴39≤n ≤50,∴做问卷C 的共有12人.

答案:12

[系统方法]

解决抽样问题应关注的两点

(1)解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.

(2)在系统抽样的过程中,要注意分段间隔,需要抽取n 个个体,样本就需要分成n 个组,则分段间隔即为N

n (N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后

面的每组中按规则抽取每个个体.

[题组全练]

1.(2019届高三·贵阳模拟)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是( )

A .15

B .18

C .20

D .25

解析:选A 根据频率分布直方图,得第二小组的频率是0.04×10=0.4,∵频数是40,∴样本容量是40

0.4=100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,∴成绩在

80~100分的学生人数是100×0.15=15.

2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:

则下面结论中不正确的是( ) A .新农村建设后,种植收入减少

B .新农村建设后,其他收入增加了一倍以上

C .新农村建设后,养殖收入增加了一倍

D .新农村建设后,养殖收入与第三产业收入的总

和超过了经济收入的一半

解析:选A 设新农村建设前,农村的经济收入为a ,则新农村建设后,农村经济收入为2a .

新农村建设前后,各项收入的对比如下表:

故选A.

3.(2018·长春质检)已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( )

A .95,94

B .92,86

C .99,86

D .95,91

解析:选B 由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选

B.

4.(2018·武汉调研)从某选手的7个得分中去掉1个最高分,去掉1个

最低分后,剩余5个得分的平均数为91分,如图所示是该选手得分的茎

叶图,其中有一个数字模糊,无法辨认,在图中用x 表示,则剩余5个得分的方差为________.

解析:去掉一个最高分99分,一个最低分87分,剩余的得分为93分,90分,(90+x )分,91分,87分,则93+90+90+x +91+875=91,解得x =4,所以这5个数的方差s 2

=1

5

[(91-93)2+(91-90)2+(91-94)2+(91-91)2+(91-87)2]=6. 答案:6

[系统方法]

1.频率分布直方图的应用

(1)已知频率分布直方图中的部分数据,求其他数据.可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.

(2)已知频率分布直方图,求某种范围内的数据.可利用图形及某范围结合求解. 2.数字特征及其特点

平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.

[多维例析]

角度一 线性回归分析

[例1] (2018·陕西质检)基于移动互联网技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验.某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司2018年6月~11月六个月内的市场占有率进行了统计,结果如下表:

(1)请在给出的坐标纸中作出散点图,并用相关系数说明能否用线性回归模型拟合市场占有率y 与月份代码x 之间的关系;

(2)求y 关于x 的线性回归方程,并预测该公司2019年3月份的市场占有率. 参考数据:∑i =1

6

(x i -x )2=17.5,∑i =1

6

(x i -x )(y i -y )=35, 1 330≈36.5.

参考公式:相关系数r =

∑i =1

n

(x i -x )(y i -y )

∑i =1

n

(x i -x )2∑i =1

n

(y i -y )2

回归直线方程为y ^=b ^x +a ^,

其中b ^=

∑i =1

n

(x i -x )(y i -y )

∑i =1

n

(x i -x )2

,a ^=y -b ^x .

[解] (1)作出散点图如下.

∵y =

11+13+16+15+20+21

6

=16,

∴∑i =1

6

(y i -y )2=76,

∴r =

∑i =1

6

(x i -x )(y i -y )

∑i =1

6

(x i -x )2∑i =1

6

(y i -y )2

35

17.5×76

351 330≈35

36.5

≈0.96. ∴两变量之间具有较强的线性相关关系,故可用线性回归模型拟合市场占有率y 与月份代码x 之间的关系.

(2)由参考数据及(1)知b ^

∑i =1

6

(x i -x )(y i -y )

∑i =1

6

(x i -x )2

35

17.5

=2, x =

1+2+3+4+5+6

6

=3.5,

∴a ^=y -b ^

x =16-2×3.5=9, ∴y 关于x 的线性回归方程为y ^

=2x +9.

2019年3月的月份代码为x =10,∴y ^

=2×10+9=29, ∴估计该公司2019年3月份的市场占有率为29%. [类题通法]

1.求线性回归方程的步骤

(1)计算x ,y ; (2)计算∑i =1

n

x i y i ,∑i =1

n

x 2i ;

(3)计算b ^=

∑i =1

n (x i -x )(y i -y )∑i =1

n

(x i -x )2

∑i =1

n

x i y i -n x y

∑i =1

n

x 2i -n x 2

a ^=y -

b ^

x ;

(4)写出线性回归方程y ^=b ^x +a ^

.

[注意] 样本点的中心(x ,y )必在回归直线上. 2.相关系数r

(1)当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.

(2)r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.

角度二 非线性回归分析

[例2] 某机构为研究某种图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.

表中u i =1x i ,u =18∑i =1

8

u i .

(1)根据散点图判断:y =a +bx 与y =c +d

x 哪一个模型更适合作为该图书每册的成本费

y (单位:元)与印刷数量x (单位:千册)的回归方程?(只要求给出判断,不必说明理由)

(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(回归系数的结果精确到0.01).

(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)

附:对于一组数据(ω1,ν1),(ω2,ν2),…,(ωn ,νn ),其回归直线ν^=α^+β^

ω的斜率和

截距的最小二乘估计分别为β^

∑i =1

n

(ωi -ω)(νi -ν)

∑i =1

n

(ωi -ω)2

,α^=ν-β^ω.

[解] (1)由散点图判断,y =c +d

x 更适合作为该图书每册的成本费y (单位:元)与印刷数

量x (单位:千册)的回归方程.

(2)令u =1

x

,先建立y 关于u 的线性回归方程,

由于d ^=

∑i =1

8

(u i -u )(y i -y )

∑i =1

8

(u i -u )2

=7.0490.787

≈8.957≈8.96, ∴c ^=y -d ^

·u =3.63-8.957×0.269≈1.22, ∴y 关于u 的线性回归方程为y ^

=1.22+8.96u , ∴y 关于x 的回归方程为y ^

=1.22+8.96x .

(3)假设印刷x 千册,

依题意得10x -????1.22+8.96x x ≥78.840, ∴x ≥10,

∴至少印刷10 000册才能使销售利润不低于78 840元. [类题通法]

解决非线性回归问题的关键是适当换元,将非线性回归分析转化为线性回归分析问题求解.

[综合训练]

1.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.

为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^

=99+17.5t .

(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^

=-30.4+13.5×19=226.1(亿元).

利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y ^

=99+17.5×9=256.5(亿元).

(2)利用模型②得到的预测值更可靠. 理由如下:

(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^

=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.

(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.

(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分) 2.某市春节期间7家超市的广告费支出x i (万元)和销售额y i (万元)数据如下:

(1)若用线性回归模型拟合y 与x 的关系,求y 关于x 的线性回归方程;

(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程为y ^

=-0.17x 2+5x +20,经计算二次函数回归模型和线性回归模型的R 2分别约为0.92和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出为3万元时的销售额.

参数数据及公式:x =8,y =42,∑i =17

x i y i =2 794,

∑i =1

7

x 2i =708,b ^

∑i =1

n

x i y i -n x y ∑i =1

n

x 2i -n x

2

,a ^=y -b ^

x .

解:(1)

∵b ^

∑i =1

7

x i y i -7x y

∑i =1

7

x 2i -7x

2

2 794-7×8×42

708-7×82

=1.7,

∴a ^=y -b ^

x =42-1.7×8=28.4. ∴y 关于x 的线性回归方程是y ^

=1.7x +28.4. (2)∵0.75<0.92,

∴二次函数回归模型更合适.

当x =3万元时,y ^

=-0.17×9+5×3+20=33.47, ∴预测A 超市销售额为33.47万元.

[由题知法]

[典例] (2018·郑州质量预测)2018年10月份郑州市进行了高三学生的体育学业水平测试,为了考察高中学生的身体素质情况,现抽取了某校1 000名(男生800名,女生200名)学生的测试成绩,根据性别按分层抽样的方法抽取100名学生的测试成绩进行分析,得到

如下统计表:

男生测试情况:

(1)现从抽取的100名且测试等级为“优秀”的学生中随机选出2名学生,求选出的这2名学生恰好是一男一女的概率;

(2)若测试等级为“良好”或“优秀”的学生为“体育达人”,其他等级(含病残免试)的学生为“非体育达人”,根据以上统计数据填写下面列联表,并回答能否在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关?”

临界值表:

附:K2=

n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

,其中n=a+b+c+d.

[解](1)按分层抽样的方法男生应抽取80名,女生应抽取20名,

∴x=80-(5+10+15+47)=3,y=20-(2+3+10+2)=3.

抽取的100名且测试等级为“优秀”的3名男生分别记为A,B,C,2名女生分别记为a,b.

从5名学生中任选2名,总的基本事件有(A,B),(A,C),(A,a),(A,b),(B,C),(B,a),(B,b),(C,a),(C,b),(a,b),共10个.

设“选出的2名学生恰好是一男一女”为事件M,

则事件M包含的基本事件有(A,a),(A,b),(B,a),(B,b),(C,a),(C,b),共6个,

∴P(A)=6

10=

3

5.

(2)2×2列联表如下:

则K2=

n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

=100×(50×15-30×5)2

80×20×55×45

≈9.091.

∵9.091>6.635且P(K2≥6.635)=0.010,

∴能在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关”.[类题通法]独立性检验的关键

(1)根据2×2列联表准确计算K2的观测值k,若2×2列联表没有列出来,要先列出此表.

(2)K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.

[应用通关]

2018年2月22日上午,山东省委、省政府在济南召开山东省全面展开新旧动能转换重大工程动员大会,会议动员各方力量,迅速全面展开新旧动能转换重大工程.某企业响应号召,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品.设备改造前的样本的频率分布直方图和设备改造后的样本的频数分布表如下所示.

设备改造后样本的频数分布表:

(1)完成下面的2×2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关;

(2)根据上述数据,试从产品合格率的角度对改造前后设备的优劣进行比较; (3)根据市场调查,设备改造后,每生产一件合格品企业可获利180元,一件不合格品亏损100元,用频率估计概率,求生产1 000件产品企业大约能获利多少元?

附:

K 2

=n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

,n =a +b +c +d.

解:(1)根据题中图和表得到2×2列联表:

将2×2列联表中的数据代入公式得 K 2

=400×(172×8-28×192)2

200×200×364×36

≈12.210.

∵12.210>6.635,

∴有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关. (2)由2×2列联表可知, 设备改造后产品的合格率约为192

200=0.96, 设备改造前产品的合格率约为

172

200

=0.86, 即设备改造后产品的合格率更高,因此,设备改造后性能更好.

(3)用频率估计概率,1 000件产品中大约有960件合格品,40件不合格品,则180×960-100×40=168 800,

∴该企业大约能获利168 800元.

[专题跟踪检测](对应配套卷P200)

1.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.

若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是()

A.3B.4

C.5 D.6

解析:选B由系统抽样可知,35人分为7组,每组5人,最后一组成绩均大于151,前两组成绩均小于139,故成绩在区间[139,151]上的运动员人数为4.

2.“双色球”彩票中红色球的号码由编号为01,02,…,33的33个个体组成,一位彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为()

A.23

C.02 D.17

解析:选C从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.故选C.

3.(2018·昆明调研)下图是1951~2016年我国年平均气温变化图.

根据上图,判断下列结论正确的是()

A.1951年以来,我国年平均气温逐年增高

B .1951年以来,我国年平均气温在2016年再创新高

C .2000年以来,我国年平均气温都高于1981~2010年的平均值

D .2000年以来,我国年平均气温的平均值高于1981~2010年的平均值

解析:选D 由1951~2016年我国年平均气温变化图可以看出,年平均气温有升高的也有降低的,所以选项A 不正确;2016年的年平均气温不是最高的,所以选项B 不正确;2012年的年平均气温低于1981~2010年的平均值,所以选项C 不正确;2000年以来,只有2012年的年平均气温低于1981~2010年的平均值,所以2000年以来,我国年平均气温的平均值高于1981~2010年的平均值,故选项D 正确,故选D.

4.(2018·惠州模拟)某商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:

由表中数据算出线性回归方程y =b x +a 中的b =-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )

A .46件

B .40件

C .38件

D .58件

解析:选A 由题中数据,得x =10,y =38,回归直线y ^=b ^x +a ^

过点(x ,y ),且b ^=-2,代入得a ^=58,则回归方程y ^

=-2x +58,所以当x =6时,y =46,故选A.

5.(2018·郑州质量预测)我市某高中从高三年级甲、乙两个班中

各选出7名学生参加2018年全国高中数学联赛(河南初赛),他们取得的成绩(满分140分)的茎叶图如图所示,其中甲班学生成绩的中位数是81,乙班学生成绩的平均数是86,若正实数a ,b 满足a ,G ,b 成等差数列且x ,G ,y 成等比数列,则1a +4

b

的最小值为( )

A.49 B .2 C.94

D .9

解析:选C 由甲班学生成绩的中位数是81,可知81为甲班7名学生的成绩按从小到大的顺序排列的第4个数,故x =1.由乙班学生成绩的平均数为86,可得(-10)+(-6)+(-4)+(y -6)+5+7+10=0,解得y =4.由x ,G ,y 成等比数列,可得G 2=xy =4,由正实数a ,b 满足a ,G ,b 成等差数列,可得G =2,a +b =2G =4,所以1a +4b =1

4

(a +b )????1a +4b =14????1+4a b +b a +4≥14×(5+4)=94(当且仅当b =2a 时取等号).故1a +4b 的最小值为94

,选C.

6.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据频率分布直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )

A .56

B .60

C .120

D .140

解析:选D 由频率分布直方图可知,每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,所以每周的自习时间不少于22.5小时的人数是200×0.7=140.

7.空气质量指数(Air Q uality Index ,简称A Q I)是定量描述空气质量状况的

指数,空气质量按照A Q I 大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的A Q I 记录数据中,随机抽取10个,其茎叶图记录如图所示.根据该统计数据,估计此地该年A Q I 大于100的天数约为__________.(该年为365天)

解析:该样本中A Q I 大于100的频数是4,频率为2

5,由此估计该地全年A Q I 大于100

的概率为25,估计此地该年A Q I 大于100的天数约为365×2

5

=146.

答案:146

8.某学校高二年级共有女生300人,现调查她们每天的课外运动时间,发现她们的课外运动时间介于30分钟到90分钟,如图是统计结果的频率分布直方图,则她们的平均运动时间大约是________分钟.

解析:由题图得平均运动时间约为35×0.1+45×0.1+55×0.5+65×0.2+75×0.05+85×0.05=56.5(分钟).

答案:56.5

9.如图所示的茎叶图记录了甲、乙两位射箭运动员的5次比赛

成绩(单位:环),若两位运动员平均成绩相同,则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.

解析:由题意知87+89+90+91+93

5=90,

88+89+90+91+90+x

5

=90,

解得x =2,

所以s 2甲=15×[(87-90)2+(89-90)2+(90-90)2+(91-90)2+(93-90)2

]=4, s 2乙=15

×[(88-90)2+(89-90)2+(90-90)2+(91-90)2+(92-90)2]=2, 所以s 2甲>s 2乙,所以成绩较为稳定(方差较小)的那位运动员成绩的方差为2.

答案:2

10.某公司为了解广告投入对销售收益的影响,在若干地区共投入4万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.

(1)根据频率分布直方图,计算图中各小矩形的宽度;

(2)试估计该公司投入4万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);

(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:

由表中的数据显示,x 与y 之间存在线性相关关系,请将(2)的结果填入空白栏,并求出y 关于x 的回归直线方程.

附:b ^=

∑i =1

n

x i y i -n x y ∑i =1

n

x 2i -n x

2

,a ^=y -b ^

x .

解:(1)设各小矩形的宽度为m ,由频率分布直方图中各小矩形的面积和为1,可知(0.08+0.10+0.14+0.12+0.04+0.02)·m =1,

解得m =2,

故图中各小矩形的宽度为2.

(2)由(1)知各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],它们的中点的横坐标分别为1,3,5,7,9,11,

各组对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,

故可估计销售收益的平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5.

(3)由(2)可知空白栏中填5, 由题意可知,x =1+2+3+4+5

5

=3,

y =

2+3+2+5+7

5

=3.8,

∑i =1

5

x i y i =1×2+2×3+3×2+4×5+5×7=69,

∑i =1

5

x 2i =12+22+32+42+52

=55,

所以b ^=69-5×3×3.855-5×32=1.2,

a ^

=3.8-1.2×3=0.2,

故所求的回归直线方程为y ^

=1.2x +0.2.

11.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:

(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.

(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:

(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?

附:K2=

n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

解:(1)第二种生产方式的效率更高.

理由如下:

(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.

(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.

(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.

(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.

(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)

统计与统计案例真题与解析

统计与统计案例 A 级 基础 一、选择题 1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( ) A .860 B .720 C .1 020 D .1 040 2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A .13 B .19 C .20 D .51 3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程y ^ =mx +0.35,则预测2019年捐赠的现金大约是( ) A.5万元 C .5.25万元 D .5.5万元 4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )

A.3,5 B.5,5 C.3,7 D.5,7 5.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下: 记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是() A.a=0.015,s21s22 C.a=0.015,s21>s22D.a=0.15,s21

2019年高考数学统计案例(文科) 含解析

统计案例 一、选择题 1.(2018·长春一模)完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的15名艺术特长生中选出3名调查学习负担情况.宜采用的抽样方法依次是( ) A .①简单随机抽样,②系统抽样 B .①分层抽样,②简单随机抽样 C .①系统抽样,②分层抽样 D .①②都用分层抽样 答案:B 解析:因为社会购买能力的某项指标受到家庭收入的影响,而社区中各个家庭收入差别明显,所以①用分层抽样法;从某中学的15名艺术特长生中选出3名调查学习负担情况,个体之间差别不大,且总体和样本容量较小,所以②用简单随机抽样法,故选B. 2.(2018·贵州遵义联考)某校高三年级有1 000名学生,随机编号为0001,0002,…,1 000.现按系统抽样方法,从中抽出200人,若0122号被抽到了,则下列编号也被抽到的是( ) A .0927 B .0834 C .0726 D .0116 答案:A 解析:系统抽样就是等距抽样,被抽到的编号满足0122+5k ,k ∈Z .因为0927=0122+5×161,故选A. 3.(2018·江西九校联考(一))一组数据共有7个数,其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数据的平均数、中位数、众数依次成等差数列,则这个数的所有可能值的和为( ) A .3 B .17 C .-11 D .9 答案:D 解析:设这个数是x ,则平均数为25+x 7,众数为2,若x ≤2,则

中位数为2,此时x =-11,若2

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

专题五 第1讲 统计与统计案例(解析版)

第1讲 统计与统计案【典例】 【要点提炼】 考点一 统计图表 1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率 组距. 2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中: (1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等. (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和. 【热点突出】 【典例】1 (1)(多选)(2020·新高考全国Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( ) A .这11天复工指数和复产指数均逐日增加 B .这11天期间,复产指数增量大于复工指数的增量 C .第3天至第11天复工复产指数均增大都超过80% D .第9天至第11天复产指数增量大于复工指数的增量 【答案】 CD (2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根

据调查结果绘制学生周末阅读时间的频率分布直方图如图所示: 将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是( ) A.抽样表明,该校约有一半学生为阅读霸 B.该校只有50名学生不喜欢阅读 C.该校只有50名学生喜欢阅读 D.抽样表明,该校有50名学生为阅读霸 【答案】 A 【解析】根据频率分布直方图可列下表: 阅读时间(分 钟) [0,10 ) [10,20) [20,30) [30,40) [40,50) [50,60] 抽样人数(名) 10 18 22 25 20 5 抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸. 易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂. (2)频率分布直方图中纵坐标不要误以为频率. 【拓展训练】1 (1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )

高中数学教学案例分析29771

教学案例 我所带的是高二(2)班,她是个庞大的班级,有56名学生。 在第一周上课的几天里,我渐渐的发现一名“怪”学生——张勇明。这名学生坐在教室正中间第二排的位置上。这样的位置是老师能看到的最佳位置,就在老师眼皮底下。上课时,其他这种位置的同学慑于被老师盯上,一般都规规矩矩的坐着,认认真真的听课,而这位同学却不然,他好象一点也不怕被我盯上。 上课时,先是看着黑板听一会儿,然后就弯下腰半趴在课桌上什么也不看,懒懒的样子,不知道在干什么。下课后我走到他跟前问他是不是有什么事,他笑着摇摇头说没有。 课后(2)班主任周老师告诉我,其实那个学生的数学基础挺扎实的,只是有些懒不能长久坚持下去,应该多注意多关照一下。 在以后的上课中,我在提问其他同学问题的时候,也有意无意的去提问他。课后,走到他跟前问他有没有不清楚的问题。 渐渐的在以后的课堂上,这位同学半趴在课桌上的次数少了,当讲到关键处时,我也能看到他在集中精力听。而且我还发现他一个很好的学习习惯——提前预习书本内容,提前做课后练习及习题。有一次我讲四种命题的关系,下课后我走到张勇明跟前,看到他已经把下一节充分必要条件的练习题做过啦,而且准确无误。 中段考试成绩出来了,张勇明的数学考了75分(满分150分),全班第一名。其中有一道数学大题难度较大,我曾在课堂上给同学们讲过,可是只有张勇明一个学生作对,其他做对的同学寥寥无几。 由此,我体会到:由于(2)班大部分同学基础比较薄弱,而高中阶段新内容新知识的接受又需要以前所学内容做铺垫,而以前的知识又没真正掌握,这样恶性循环下去以致使他们失去了学习的兴趣。所以在课堂上,多数同学听的蒙蒙胧胧似懂非懂。 针对这种现象,我要求同学做到:(1)把以前的数学课本从家里找到带到教室来,放在课桌上有意识的经常翻一翻。这样有些没记住的公式或不熟悉的公理定理就能记住了。(2)同学们作课堂笔记的时候,对于涉及到的旧知识内容如果不了解,那么也要做笔记。这样易于查漏补缺,新旧内容一起巩固并掌握。(3)当天事情当天做。每天上完新课后,若有不懂的问题争取当天解决,或者问我或者问同学。(4)经常复习巩固。

高中数学统计与统计案例概率知识点上课讲义

高中数学统计与统计案例概率知识点

统计与统计案例概率(文科) 知识点 1.抽样调查 (1)抽样调查 通常情况下,从调查对象中按照一定的方法抽取一部分,进行______,获取数据,并以此对调查对象的某项指标作出______,这就是抽样调查. (2)总体和样本 调查对象的称为总______体,被抽取的称为样______本. (3)抽样调查与普查相比有很多优点,最突出的有两点: ①______ ②节约人力、物力和财力. 2.简单随机抽样 (1)简单随机抽样时,要保证每个个体被抽到的概率. (2)通常采用的简单随机抽样的方法:_____ 3.分层抽样 (1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样. (2)分层抽样的应用范围: 当总体是由差异明显的几个部分组成时,往往选用分层抽样. 4.系统抽样 系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按______(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机

械抽样. 5.统计图表 统计图表是______数据的重要工具,常用的统计图表有______ 6.数据的数字特征 (1)众数、中位数、平均数 众数:在一组数据中,出现次数最多的数据叫作这组数据的众数. 中位数:将一组数据按大小依次排列,把处在______位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数. 平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ). 在频率分布直方图中,中位数左边和右边的直方图的面积应该______ (2)样本方差 标准差s = 1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2], 其中x n 是样本数据的第n 项,n 是,______x 是______ 标准差是刻画数据的离散程度的特征数,样本方差是标准差的______.通常用样本方差估计总体方差,当______时,样本方差很接近总体方差. 7.用样本估计总体 (1)通常我们对总体作出的估计一般分成两种,一种是______,另一种______. (2)在频率分布直方图中,纵轴表示,______数据落在各小组内的频率用______表示,各小长方形的面积总和等于.______ (3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图. (4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且______,方便表示与比较.

2015届高考数学二轮专题训练:专题七 第3讲 统计与统计案例

第3讲 统计与统计案例 考情解读 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中、低档题. 1.随机抽样 (1)简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少. (2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多. (3)分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成. 2.常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距× 频率 组距 =频率; ②各小长方形的面积之和等于1; ③小长方形的高=频率组距,所有小长方形的高的和为1 组距. (2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数

(2)方差:s 2=1 n [(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 标准差: s = 1 n [(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 4.变量的相关性与最小二乘法 (1)相关关系的概念、正相关和负相关、相关系数. (2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q =∑i =1 n (y i -a -bx i )2 最小时,得到线性回归方程y ^ =b ^ x +a ^ 的方法叫做最小二乘法. 5.独立性检验 对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是 则K 2 (χ2 )=n (ad -bc )2 (a +b )(c +d )(a +c )(b +d ) (其中n =a +b +c +d 为样本容量). 热点一 抽样方法 例1 (1)(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14 (2)(2014·石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________. 思维启迪 (1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取号码的间隔相同;(2)分层抽样最重要的是各层的比例. 答案 (1)B (2)200 解析 (1)由840 42=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为 720-48020=240 20 =12. (2)本题属于分层抽样,设该学校的教师人数为x ,所以1603 200=160-150 x ,所以x =200.

专题突破练20 统计与统计案例

专题突破练20 统计与统计案例 1. (2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题: (1)算出第三组[60,70)的频数,并补全频率分布直方图; (2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表) 2.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^ =-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^ =99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d.

统计与统计案例(文科)

统计与统计案例 第一节随机抽样 1.下面的抽样方法是简单随机抽样的是( ) A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖 B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格 C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见 D.用抽签方法从10件产品中选取3件进行质量检验 答案:D 2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( ) 答案:D 3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( ) A.50 B.40 C.25 D.20 答案:C 4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14 答案:B 5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案:4 6.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在

抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A.90 B.100 C.180 D.300 答案:C 7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________. 答案:5 8.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90 C.45 D.126 答案:B 9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人). 从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________. 答案:30 10.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件. 答案:1800 11.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人. 答案:40

高中数学统计案例分析及知识点归纳总结

统计 一、知识点归纳 1、抽样方法: ①简单随机抽样(总体个数较少) ②系统抽样(总体个数较多) ③分层抽样(总体中差异明显) 注意:在N 个个体的总体中抽取出n 个个体组成样本,每个个体被抽到的机会(概率)均为N n 。 2、总体分布的估计: ⑴一表二图: ①频率分布表——数据详实 ②频率分布直方图——分布直观 ③频率分布折线图——便于观察总体分布趋势 注:总体分布的密度曲线与横轴围成的面积为1。 ⑵茎叶图: ①茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数、众位数等。 ②个位数为叶,十位数为茎,右侧数据按照从小到大书写,相同的数据重复写。 3、总体特征数的估计: ⑴平均数:n x x x x x n ++++= 321; 取值为n x x x ,,,21 的频率分别为n p p p ,,,21 ,则其平均数为n n p x p x p x +++ 2211; 注意:频率分布表计算平均数要取组中值。 ⑵方差与标准差:一组样本数据n x x x ,,,21 方差:2 1 2)(1 ∑=-= n i i x x n s ; 标准差:2 1 )(1∑=-= n i i x x n s 注:方差与标准差越小,说明样本数据越稳定。 平均数反映数据总体水平;方差与标准差反映数据的稳定水平。 ⑶线性回归方程 ①变量之间的两类关系:函数关系与相关关系; ②制作散点图,判断线性相关关系 ③线性回归方程:a bx y +=∧ (最小二乘法) 1 221n i i i n i i x y nx y b x nx a y bx ==? -? ?=??-??=-??∑∑ 注意:线性回归直线经过定点),(y x 。

数学: 专题十五 统计、统计案例

专题十五 ? ?? 统计、统计案例 [题组全练]

1.(2018·石家庄模拟)某校高一年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为140的样本,则此样本中男生人数为() A.80B.120 C.160 D.240 解析:选A因为男生和女生的比例为560∶420=4∶3,样本容量为140,所以应该 抽取男生的人数为140× 4 4+3 =80,故选A. 2.(2018·南宁模拟)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为() A.100,20 B.200,20 C.200,10 D.100,10 解析:选B由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选 B. 3.从30个个体(编号为00~29)中抽取10个样本,现给出某随机数表的第11行到第15行(见下表),如果某人选取第12行的第6列和第7列中的数作为第一个数并且由此数向右读,则选取的前4个的号码分别为() 92644607202139207766381732561640 5858 7766 3170 0500 2593 0545 5370 7814 2889 6628 6757 8231 1589 0062 0047 3815 5131 8186 3709 4521 6665 5325 5383 2702 9055 7196 2172 3207 1114 1384 4359 4488 A.76,63,17,00B.16,00,02,30 C.17,00,02,25 D.17,00,02,07 解析:选D在随机数表中,将处于00~29的号码选出,满足要求的前4个号码为17,00,02,07. 4.(2019届高三.南昌调研)某校高三(2)班现有64名学生,随机编号为0,1,2, (63) 依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8

统计与统计案例(文科)教程文件

统计与统计案例(文科)

统计与统计案例 第一节随机抽样 1.下面的抽样方法是简单随机抽样的是( ) A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖 B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格 C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见 D.用抽签方法从10件产品中选取3件进行质量检验 答案:D 2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( ) 答案:D 3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( ) A.50 B.40 C.25 D.20 答案: C 4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14 答案:B 5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案:4 6.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,

在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A.90 B.100 C.180 D.300 答案:C 7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________. 答案:5 8.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90 C.45 D.126 答案:B 9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人). 个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________. 答案:30 10.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件. 答案:1800 11.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人. 答案:40

统计案例分析典型例题

统计案例分析及典型例题 §抽样方法 1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度 2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案①②③ 3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案3,9,18 4.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= . 答案80 例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请 用抽签法和随机数表法设计抽样方案. 解抽签法: 第一步:将18名志愿者编号,编号为1,2,3, (18) 第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 基础自测

第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法: 第一步:将18名志愿者编号,编号为01,02,03, (18) 第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读; 第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09. 第四步:找出以上号码对应的志愿者,就是志愿小组的成员. 例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k= 10 0001=100将总体均分为10段,每段含100个工人. (5)从第一段即为0001号到0100号中随机抽取一个号l. (6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法并写出具体过程. 解 应采取分层抽样的方法. 3分 过程如下: (1)将3万人分为五层,其中一个乡镇为一层. 5分 (2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300× 15 2 =40(人); 300×155=100(人);300×15 2=40(人); 300× 15 3=60(人), 10分 因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分 (3)将300人组到一起即得到一个样本. 14分

高中数学优秀教学案例设计汇编(上册)

高中数学教学设计大赛获奖作品汇编 (上部)

目 录 1、集合与函数概念实习作业…………………………………… 2、指数函数的图象及其性质…………………………………… 3、对数的概念………………………………………………… 4、对数函数及其性质(1)…………………………………… 5、对数函数及其性质(2)…………………………………… 6、函数图象及其应用…………………………………… 7、方程的根与函数的零点…………………………………… 8、用二分法求方程的近似解…………………………………… 9、用二分法求方程的近似解…………………………………… 10、直线与平面平行的判定…………………………………… 11、循环结构 ………………………………………………… 12、任意角的三角函数(1)………………………………… 13、任意角的三角函数(2)…………………………………… 14、函数sin()y A x ω?=+的图象………………………… 15、向量的加法及其几何意义……………………………………… 16、平面向量数量积的物理背景及其含义(1)……………… 17、平面向量数量积的物理背景及其含义(2)…………………… 18、正弦定理(1)…………………………………………………… 19、正弦定理(2)…………………………………………………… 20、正弦定理(3)……………………………………………………

21、余弦定理……………………………………………… 22、等差数列……………………………………………… 23、等差数列的前n项和……………………………………… 24、等比数列的前n项和……………………………………… 25、简单的线性规划问题……………………………………… 26、拋物线及其标准方程……………………………………… 27、圆锥曲线定义的运用………………………………………

2021届高三新题数学9月(适用新高考)专题二十 统计与统计案例(原卷版)

专题二十 统计与统计案例 一、单选题 1.(2020·河南宛城·南阳华龙高级中学月考(文))在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (2n ≥, 1x ,2x ,……,n x 不全相等)的散点图中,若所有样本点()(),1,2,,i i x y i n =???都在直线2 15 y x = +上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C . 12 D .1 二、多选题 2.(2020·江苏省丰县中学期末)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算2K 的观测值 5.059k ≈,则可以推断出( ) 附: A .该俱乐部的男性会员对运动场所满意的概率的估计值为 2 3 ; B .调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意; C .有97.5%的把握认为男性会员、女性会员对运动场所的评价有差异; D .有99%的把握认为男性会员、女性会员对运动场所的评价有差异. 第II 卷(非选择题)

三、解答题 3.(2020·河南宛城·南阳华龙高级中学月考(文))微信是现代生活中进行信息交流的重要工具.据统计,某公司200名员工中0090的人使用微信,其中每天使用微信时间少于一小时的有60人,其余的员工每天使用微信时间不少于一小时,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中0075是青年人.若规定:每天使用微信时间不少于一小时为经常使用微信,那么经常使用微信的员工中 2 3 都是青年人. (1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,完成22?列联表: (2)由列联表中所得数据判断,能否在犯错误的概率不超过0.001的前提下认为“经常使用微信与年龄有关”? 2 2 ()()()()() n ad bc k a b c d a c b d -=++++ 4.(2020·江苏泰州·期末)某企业的甲、乙两种产品在东部地区三个城市以及西部地区两个城市的销售量x , y 的数据如下:

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习 A组 一、选择题 1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为() A.200 B.240 C.400 D.480 解析:选C设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,由此估计学生人数为0.4×1 000=400. 2.AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0~50),二级良(51~100),三级轻度污染(101~150),四级中度污染(151~200),五级重度污染(201~300),六级严重污染(大于300).如图是昆明市2019年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2020年4月份空气质量优的天数为() A.3 B.4 C.12 D.21

解析:选C从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为4 10= 2 5, 所以估计昆明市2020年4月份空气质量为优的天数为30×2 5=12,故选C. 3.(成都模拟)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图. 已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是() A.最低气温与最高气温为正相关 B.10月的最高气温不低于5月的最高气温 C.月温差(最高气温减最低气温)的最大值出现在1月 D.最低气温低于0 ℃的月份有4个 解析:选D在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D. 4.(承德模拟)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是() A.是否倾向选择生育二胎与户籍有关 B.是否倾向选择生育二胎与性别无关

高考文科数学二轮复习统计与统计案例

第2讲统计与统计案例 [做小题——激活思维]s 1.采用系统抽样的方法从800人中抽取40人参加某种测试,为此将800人随机编号为1,2,…,800,分组后在第一组采用简单随机抽样的方法抽到的号码为18,在抽到的40人中,编号落入区间[1,200]的人做试卷A,编号落入区间[201,560]的人做试卷B,其余的人做试卷C,则做试卷C的人数为() A.10B.12C.18D.28 [答案]B 2.某校有高级教师26人,中级教师104人,其他教师若干人,现按分层抽样的方法从该校的所有教师中抽取56人进行某项调查,已知从其他教师中共抽取了16人,则该校共有教师人数为() A.81 B.152 C.182 D.202 [答案]C 3.为了参加端午节龙舟赛,某龙舟队进行了6次测试,测得最 大速度(单位:m/s)的茎叶图如图所示,则6次测试的最大速度的平 均数为________m/s,方差为________. [答案]3347 3

4.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据,第i 次试验零件个数x i (单位:个)与加工零件所花费时间 y i (单位:小时)的数据资料,算得∑10i =1 x i =80,∑10i =1 y i =20,∑10i =1 x i y i =184,∑10i =1 x 2i =720,那么加工零件所花费时间y 对零件个数x 的线性回归方程为________. y ^ =0.3x -0.4 [由题意知 n =10,x =1n ∑n i =1 x i =8010=8,y =1n ∑n i =1 y i =20 10=2, 又∑n i =1x 2i -n x 2=720-10×82=80, ∑n i =1 x i y i -n x y =184-10×8×2=24, 由此得b ^=2480=0.3,a ^=y -b ^ x =2-0.3×8=-0.4, 故所求回归方程为y ^ =0.3x -0.4.] 5.在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表: 感染与服用疫苗有关”. 0.05 [由题意算得, K 2 =100×(10×30-20×40)250×50×30×70 ≈4.762>3.841,

相关主题
文本预览
相关文档 最新文档