当前位置:文档之家› 2015年高三文科复习——统计与统计案例:【考点3】变量的相关性、最小二乘法及统计案例(解析版)

2015年高三文科复习——统计与统计案例:【考点3】变量的相关性、最小二乘法及统计案例(解析版)

2015年高三文科复习——统计与统计案例:【考点3】变量的相关性、最小二乘法及统计案例(解析版)
2015年高三文科复习——统计与统计案例:【考点3】变量的相关性、最小二乘法及统计案例(解析版)

统计与统计案例

【考点3:变量的相关性与统计案例】

[归纳·知识整合]

1.两个变量的线性相关 (1)正相关:

在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关:

在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线

如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.

[探究] 相关关系和函数关系有何异同点? 提示:(1)相同点:两者均是指两个变量的关系. (2)不同点:①函数关系是一种确定的关系,而相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 2.回归方程

(1)最小二乘法:

求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:

方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^

是待定参数.

b

?=∑∑==---n i i n

i i

i

x x y y

x x 1

2

1

)()

)((=

∑∑==--n

i i

n

i i

i x n x y

x n y

x 1

2

2

1

; a

?=y -b ?x 3.回归分析

(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心

对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^ =b ^ x +a ^

的斜率和截距的最小二乘估计分别为:

b

?=∑∑==---n i i n

i i

i

x x y y

x x 1

2

1

)()

)((=

∑∑==--n

i i n

i i

i x n x y

x n y

x 1

2

2

1

,a

?=y -b ?x 其中x =

1n ∑n

i =1x i

,y =1

n ∑n

i =1y i

,(x ,y )称为样本点的中心. (3)相关系数

①r =

∑n

i =1

(x i -x )(y i -y )

∑n i =1

(x i -x )2∑n i =

1

(y i -y )2

∑n

i =1x i y i -n x y

(∑n

i =1

x 2

i -n x

2

)(∑n

i =1

y 2

i -n y 2

)

②当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.

r 的绝对值越接近于1,表明两个变量的线性相关性 越强.r 的绝对值越接近于0,表明两个变量之间_几乎不存在线性相关关系_.通常|r |大于0.75时,认为两个变量有很强的线性相关性. (4)相关指数

残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b

^

x i -a ^,i =1,2,…,n ,e ^

i 称为相应于点(x i ,y i )的残差.

相关指数:R2=1-∑

n

i=1

(y i-y

^

i

)2

n

i=1

(y i-y)2

.

R2越大,意味着残差平方和越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.

4.独立性检验

(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.

(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为

2×2列联表:

y1y2总计

x1 a b a+b

x2 c d c+d

总计a+c b+d a+b+c+d

K2=nad-bc2

a+ba+cb+dc+d

(其中n=a+b+c+d为样本容量),则利用独立性检验判断表来判断“X与Y的关系”

[题型剖析]

题型1:变量的相关关系的判断

【典型例题】

1.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y 影响的试验,得到如下表所示的一组数据(单位:kg).

施化肥量x 15202530354045

棉花产量y 330345365405445450455

(1)画出散点图;

(2)判断是否具有相关关系.

解(1)散点图如图所示

(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.

2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()

A.r2<r1<0

B.0<r2<r1

C.r2<0<r1

D.r2=r1

解析:选C对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U 的增大而减小,故V与U负相关,即r2<0,所以有r2<0

【变式训练】

1.下列关系中,是相关关系的为()

①学生的学习态度与学习成绩之间的关系;

②教师的执教水平与学生的学习成绩之间的关系;

③学生的身高与学生的学习成绩之间的关系;

④家庭的经济条件与学生的学习成绩之间的关系.

A.①②

B.①③

C.②③

D.②④

解析:选A①中学生的学习态度与学习成绩之间不是因果关系,但具有相关性是相关关系.②教师的执教水平与学生的学习成绩之间的关系是相关关系.③④都不具备相关关系.

2.观察下列各图形:

其中两个变量x 、y 具有相关关系的图是( ) A.①② B.①④ C.③④ D.②③

解析:选C 相关关系有两种情况:所有点看上去都在一条直线附近波动,是线性相关;若所有点看上去都在某条曲线(不是一条直线)附近波动,是非线性相关.①②是不相关的,而③④是相关的. 题型2:线性回归方程及回归分析 【典型例题】

1.某种产品的广告费支出x 与销售额(单位:百万元)之间有如下对应数据:

x 2 4 5 6 8 y 30 40 50 60 70

如果y 与x 之间具有线性相关关系. (1)作出这些数据的散点图; (2)求这些数据的线性回归方程;

(3)预测当广告费支出为9百万元时的销售额. 解:(1)

(2)x =5,y =50,b ^=7, a ^=y --b ^x -=15,∴线性回归方程为y ^

=7x +15.

(3)当x =9时,y ^

=78.即当广告费支出为9百万元时,销售额为78百万元.

2.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:

单价x (元)

8 8.2 8.4 8.6 8.8 9 销量y (件)

90 84 83 80 75 68 (1)求回归直线方程y ^=bx +a ,其中b =-20,a =y --b x -

(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)

[自主解答] (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =1

6

(y 1+y 2+y 3+y 4+y 5+y 6)=80.

所以a =y -b x =80+20×8.5=250,从而回归直线方程为y ^

=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =(x -4)(-20x +250) =-20x 2+330x -1 000

=-20???

?x -33

42+361.25. 当且仅当x =8.25时,L 取得最大值.

故当单价定为8.25元时,工厂可获得最大利润. 3.(1)对于回归分析,下列说法错误的是 ( )

A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定

B.线性相关系数可以是正的或负的

C.回归分析中,如果r 2=1或r =±1,说明x 与y 之间完全线性相关

D.样本相关系数r ∈(-1,1) 答案:D

(2)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是

( )

A.模型1的相关指数R 2为0.98

B.模型2的相关指数R 2为0.80

C.模型3的相关指数R 2为0.50

D.模型4的相关指数R 2为0.25 答案:A

【变式训练】

1.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为( ) A.y ^=1.23x +4 B.y ^

=1.23x +5 C.y ^=1.23x +0.08 D.y ^

=0.08x +1.23

解析:选C 因回归直线方程必过样本点的中心(x ,y ),将点(4,5)代入A 、B 、C 检验可知.

2.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的线性回归直

线方程:y ^

=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.

解析:x 变为x +1,y ^

=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元. 答案:0.245 3.(2012·课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i

=1,2,…,n )都在直线y =1

2x +1上,则这组样本数据的样本相关系数为( )

A.-1

B.0

C.1

2

D.1

解析:选D 因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1. 4.①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上.

上面是关于相关系数r 的几种说法,其中正确的序号是________. 答案:①③

5.以下四个命题,其中正确的是 ( ) ①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样; ②两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;

③在线性回归方程y ^

=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^

平均增加0.2个单位; ④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. A.①④ B.②④ C.①③ D.②③ 答案:D

6.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:

推销员编号

1 2 3 4 5 工作年限x /年

3 5 6 7 9 推销金额y /万元

2 3 3 4 5 (1)以工作年限为自变量x ,推销金额为因变量y ,作出散点图; (2)求年推销金额y 关于工作年限x 的线性回归方程;

(3)若第6名推销员的工作年限为11年,试估计他的年推销金额. 解:(1)依题意,画出散点图如图所示,

(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为y ^=b ^x +a ^

. 则b ^=1020=0.5,a ^=y -b ^x -

=0.4,

∴年推销金额y 关于工作年限x 的线性回归方程为

y ^

=0.5x +0.4.

(3)由(2)可知,当x =11时, y ^

=0.5x +0.4=0.5×11+0.4=5.9(万元). ∴可以估计第6名推销员的年推销金额为5.9万元. 题型3:独立性检验及其应用 【典型例题】

1.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:

男 女 总计

走天桥

40 20 60 走斑马线

20 30 50 总计

60 50 110 由K 2=nad -bc 2a +bc +da +cb +d

,算得K 2=110×40×30-20×20

2

60×50×60×50≈7.8.

附表:

P (K 2≥k ) 0.050 0.010 0.001 k 3.841 6.635 10.828

对照附表,得到的正确结论是( )

A.有99%以上的把握认为“选择过马路的方式与性别有关”

B.有99%以上的把握认为“选择过马路的方式与性别无关”

C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”

D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”

解析:选A ∵K 2

=110×40×30-20×20260×50×60×50

≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.

2.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效? 解 根据题目所给的数据作出如下的列联表:

色盲 不色盲 总计

38 442 480 女

6 514 520 总计

44 956 1 000 根据列联表作出相应的等高条形图,如图所示.

从等高条形图来看,男性患色盲的频率要高一些,因此直观上可以认为色盲与性别有关. 根据列联表中所给的数据可以有

a =38,

b =442,

c =6,

d =514,a +b =480,c +d =520, a +c =44,b +d =956,n =1 000,

代入公式K 2

=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),

得K 2=1 000×(38×514-6×442)2480×520×44×956

≈27.1. 由于K 2=27.1>10.828,所以我们有99.9%的把握认为性别与患色盲有关. 这个结论只对所调查的480名男人和520名女人有效.

3. (2012·湖南联考)衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中

随机抽取1人为优秀的概率为3

11

.

优秀 非优秀 合计 甲班 10 乙班 30 合计 110

(1)请完成上面的列联表;

(2)根据列表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”;

参考公式与临界值表:K 2

=nad -bc 2a +bc +da +cb +d

P (K 2≥k 0) 0.100 0.050 0.025 0.010 0.001 k 0 2.706 3.841 5.024 6.635 10.828

[自主解答] (1)列联表如下:

优秀 非优秀 合计

甲班

10 50 60 乙班

20 30 50 合计

30 80 110

(2)根据列联表中的数据,得到K 2=110×10×30-20×50260×50×30×80

≈7.486<10.828. 因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.

【变式训练】

1.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )

A.若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病

B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病

C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误

D.以上三种说法都不正确

解析:选C 根据独立性检验的思想知.

2.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:

理科 文科

13 10 女

7 20

已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.

根据表中数据,得到K 2=50×13×20-10×7223×27×20×30

≈4.844.则认为选修文科与性别有关系出错的可能性为________. 解析:k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%. 答案:5%

3.(2012辽宁改编)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:

将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性. (1)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为“体育迷”与性别有关?

非体育迷 体育迷 合计

女 合计

(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.

附K 2

=nad -bc 2a +bc +da +cb +d

,

P (K 2≥k ) 0.05 0.01 k 3.841 6.635

[准确规范答题]

(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成2×2列联表如下:

非体育迷 体育迷 合计

30 15 45 女

45 10 55 合计

75 25 100

将2×2列联表中的数据代入公式计算,得K 2=100×30×10-45×15275×25×45×55=10033

≈3.030.因为3.030<3.841,所以我们没有95%的把握认为“体育迷”与性别有关.

(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件为(a 1,a 2),(a 1,a 3),(a 2,a 3),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2),其中a i 表示男性,i =1,2,3,b j 表示女性,j =1,2.由10个基本事件组成,而且这些基本事件的出现是等可能的.用A 表示“任选2人中,至少有1人是女性”这一事件,则A 为(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2),?(11分)

由7个基本事件组成,因而P (A )=7

10

.

【高考真题综合训练】

1.[2014·重庆卷] 已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )

A.y ^=0.4x +2.3

B.y ^=2x -2.4

C.y ^=-2x +9.5

D.y ^=-0.3x +4.4

答案:A [解析] 因为变量x 与y 正相关,则在线性回归方程中,x 的系数应大于零,排除B,D ;将x =3,y =3.5分别代入A,B 中的方程只有A 满足,故选A. 2.[2014·泰安一模] 为了调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样的方法从该地区调查了500位老人,其结果如下表:

性别

是否需要 志愿者

男 女 需要

40 30 不需要

160 270 由K 2=n (ad -bc )

2

(a +b )(c +d )(a +c )(b +d ),得

K 2

=500×(40×270-30×160)2200×300×70×430

≈9.967.

附表:

P (K 2≥k ) 0.050 0.010 0.001 k 3.841 6.635 10.828

参照附表,可得到的结论是( )

A.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别有关”

B.在犯错误的概率不超过0.1%的前提下,认为“需要志愿者提供帮助与性别无关”

C.有99%以上的把握认为“需要志愿者提供帮助与性别有关”

D.有99%以上的把握认为“需要志愿者提供帮助与性别无关” 答案:C [解析] 由数据知,选项C 正确.

3.[2014·韶关一模] 设某大学的女生体重y (kg)与身高x (cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),

用最小二乘法建立的线性回归方程为y ^

=0.85x -85.71,给出下列结论: ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y ); ③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg ; ④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg. 其中,正确结论的序号是______________. 答案:①②③ [解析] 利用有关概念可知,①②③正确. 4.[2014·湖北卷] 根据如下样本数据

x 3 4 5 6 7 8 y 4.0 2.5 -0.5 0.5 -2.0 -3.0 得到的回归方程为\s\up6(^(^)y ^

=bx +a ,则( ) A.a >0,b <0 B.a >0,b >0 C.a <0,b <0 D.a <0,b >0

答案:A [解析] 作出散点图如下:

由图像不难得出,回归直线\s\up6(^(^)y ^

=bx +a 的斜率b <0,截距a >0,所以a >0,b <0.故选A.

5.(2013年高考福建卷(文))某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关.现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,在将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.

(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的频率. (2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22 的列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?

附表:

【答案】解:(Ⅰ)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有600.053?=(人), 记为1A ,2A ,3A ;25周岁以下组工人有400.052?=(人),记为1B ,2B 从

2名工人,所有可能的结果共有10种,他们

是:12(,)A A ,13(,)A A ,23(,)A A ,11(,)A B ,12(,)A B ,21(,)A B ,22(,)A B ,31(,)A B ,32(,)A B ,12(,)B B

其中,至少有名“25周岁以下组”工人的可能结果共有7种,它们

是:11(,)A B ,12(,)A B ,21(,)A B ,22(,)A B ,31(,)A B ,32(,)A B ,12(,)B B .故所求的概率:710

P =

(Ⅱ)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手600.2515?=(人),“25周岁以下组”中的生产能手400.37515?=(人),据此可得22?列联表如下:

生产能手 非生产能手 合计

25周岁以上组

15 45 60 25周岁以下组

15 25 40 合计

30 70 100 所以得:222

()100(15251545)25

1.79()()()()6040307014

n ad bc K a b c d a c b d -??-?===≈++++???

因为1.79 2.706<,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.

6.[2014·安徽卷] 某高校共有学生15 000人,其中男生10 500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时). (1)应收集多少位女生的样本数据?

(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图1-4所示),其中样本数据的分

组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.

图1-4

(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.

P (K 2≥k 0) 0.10 0.05 0.010 0.005 k 0

2.706

3.841

6.635

7.879

附:K 2

=n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

解: (1)300×4500

15 000

=90,所以应收集90位女生的样本数据.

(2)由频率分布直方图得每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75. (3)由(2)知,300位学生中有300×0.75=225(位)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:

男生 女生 总计 每周平均体育运动时间不超过4小时 45 30 75 每周平均体育运动时间超过4小时

165 60 225 总计

210

90

300

结合列联表可算得K 2

=300×(165×30-45×60)275×225×210×90=100

21

≈4.762>3.841.

所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.

7.[2014·辽宁卷] 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:

喜欢甜品 不喜欢甜品 合计

南方学生

60 20 80 北方学生

10 10 20 合计

70 30 100 (1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;

(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.

附:χ2=n (n 11n 22-n 12n 21)2

n 1+n 2+n +1n +2

,

P (χ2≥k ) 0.100 0.050 0.010 k 2.706 3.841 6.635

18.解:(1)将2×2列联表中的数据代入公式计算,得

χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2

=100×(60×10-20×10)270×30×80×20=10021≈4.762.

由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.

(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3)}, 其中a i 表示喜欢甜品的学生,i =1,2,b j 表示不喜欢甜品的学生,j =1,2,3. Ω由10个基本事件组成,且这些基本事件的出现是等可能的.

用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3)}.

事件A 由7个基本事件组成,因而P (A )=7

10

.

高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版选修2_3202012251102

假设检验(hypothesis testing) 方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA) ?概述 假设检验是分析数据的一种方法。回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?” 最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。最有名的分布就是正态分布,它是:检验的基础。t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。 ?适用场合 ·想知道一组或更多组数据的平均值、比例、方差或其他特征时; ·当结论是基于更大总体中所取得的样本时。 例如: ·想确定一个过程的均值或方差有否改变; ·想确定很多数据集的均值或方差是否不同: ·想确定两组不同的数据集的比例是否不同; ·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。 ?实施步骤 假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。 如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。这些定义解释了假设检验的慨念,然后再回来看这个步骤。 本书不可能详细地涉及假设检验。这个步骤是个综述和快速参考。要得到更多的信息,查阅统计学参考书或请教统计学家。 1确定要从数据中获得的结论。选择适当的检验方法。用哪种检验取决于检验的目的和数据的种类。可以用表5.7和表5.8概括的常用的假设检验,或者请教统计学家以得到帮助。 2建立零假设和备择假设。确定问题是属于双尾检验、左尾检验还是右尾检验。 3选择显著性水平。。 4计算检验统计量,可借助计算机软件。 5用统计分布的统计表或计算机程序等来确定检验统计量的P值。对于z检验可用表A.1正态曲线以下的曲线。 6把P值与左尾或右尾检验的α或者双尾检验的α/2作比较,如果P值较小,那么拒绝零假设并会得到备择假设可能正确的结论。否则,不能拒绝零假设,并得出没有足够证据支持备择假设的结论。 ?备择步骤 步骤1~4同上。然后: 5用统计表或计算机程序确定如下所示的检验统计量的临界值和拒绝域。以z检验作为示例,对t检验、F检验或卡方检验,用统计量f、F或χ2来替换z。 6比较检验统计量和拒绝域。如果检验统计量值落在拒绝域内,拒绝零假设,结论是备择假设可能止确。否则,不拒绝零假设,结论是没有足够的证据支持备择假设。 ?示例:t检验

高三文科数学统计概率的总结课件.doc

实用标准文案 统计概率考点总结 【考点一】分层抽样 01、交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社 区做分层抽样调查。假设四个社区驾驶员的总人数为N ,其中甲社区有驾驶员96 人。若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N 为() A 、101 B、808 C、1212 D、2012 02、某个年级有男生560 人,女生420 人,用分层抽样的方法从该年级全体学生中抽取一个容量为280 的 样本,则此样本中男生人数为____________. 03、一支田径运动队有男运动员56 人,女运动员42 人。现用分层抽样的方法抽取若干人,若抽取的男运 动员有8 人,则抽取的女运动员有______人。 04、某单位有840 名职工, 现采用系统抽样方法, 抽取42 人做问卷调查, 将840 人按1, 2, , 840 随机 编号, 则抽取的42 人中, 编号落入区间[481, 720] 的人数为() A .11 B.12 C.13 D.14 05、将参加夏令营的600 名学生编号为:001,002,,, 600,采用系统抽样方法抽取一个容量为50 的样 本,且随机抽得的号码为003.这600 名学生分住在三个营区,从001 到300 在第Ⅰ营区,从301 到495 住在第Ⅱ营区,从496 到600 在第Ⅲ营区,三个营区被抽中的人数依次为( ) A .26, 16, 8 B.25,17,8 C.25,16,9 D.24,17, 9 【考点二】频率分布直方图(估计各种特征数据) 01、从某小区抽取100 户居民进行月用电量调查, 发现其用电 量都在50 到350 度之间, 频率分布直方图所示. (I) 直方图中x的值为________; (II) 在这些用户中, 用电量落在区间100,250 内的户数为_____. 02、下图是样本容量为200 的频率分布直方图。根据样本的频率分布直 方图估计,样本数据落在[6,10]内的频数为,数据落在(2, 10)内的概率约为 精彩文档

高考文科数学试题汇编 统计

I单元统计 I1随机抽样 17.I1,I2[2013·安徽卷] 为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如下: (1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格); (2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x1,

x 2,估计x 1-x 2的值. 17.解:(1)设甲校高三年级学生总人数为n ,由题意知,30 n =0.05,即n =600. 样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级此次联考数学成绩及格率为1-530=56. (2)设甲、乙两校样本平均数分别为x 1′,x 2′,根据样本茎叶图可知, 30(x 1′-x 2′)=30x 1′-30x 2′ =(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92 =2+49-53-77+2+92 =15. 因此x 1′-x 2′=0.5,故x 1-x 2的估计值为0.5分. 3.I1[2013·湖南卷] 某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差别,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n =( ) A .9 B .10 C .12 D .13 3.D [解析] 根据抽样比例可得360=n 120+80+60,解得n =13, 选D.

案例统计公式(绝对精华)

统计案例 一、回归分析 1. 线性回归方程???y bx a =+的求法 (1)求变量x 的平均值,即1231 ()n x x x x x n =+++???+ (2)求变量y 的平均值,即1231 ()n y y y y y n = +++???+ (3)求变量x 的系数?b ,即1 2 1 ()() ?() n i i i n i i x x y y b x x ==--=-∑∑(题目给出,不用记忆) 1 2 1()() ?() n i i i n i i x x y y b x x ==--=-∑∑ 1 1 1 1 2 2 1 1 1 2n n n n i i i i i i i i n n n i i i i i x y x y xy x y x xx x =======--+= -+∑∑∑∑∑∑∑1 22 21 2n i i i n i i x y nx y nx y nx y x nx nx ==--+= -+∑∑12 21 n i i i n i i x y nx y x nx ==-= -∑∑(理解记忆) (其中1 1 n n i i i x x nx ====∑∑,1 1 n n i i i y y ny ====∑∑,() ,x y 称为样本点中心) (4)求常数?a ,即??a y bx =- (5)写出回归方程???y bx a =+(?a ,?b 的意义:以?a 为基数,x 每增加1个单位,y 相应地平均增加?b 个单位) 注意:若?0b >则正相关,若?0b <则负相关. 2. 相关系数 假设两个随机变量的取值分别是()11,x y ,()22,x y ,……,(),n n x y ,则变量间线性相关系数的计算公式如下: ()() n n i i i i x x y y x y nx y r ---= = ∑∑ 相关系数r 的性质: (1)当0r >时,表明两个变量正相关;当0r <时,表明两个变量负相关;当0r =时,表明

中级统计师《统计工作实务》单选题试题及参考答案

中级统计师《统计工作实务》单选题试题及参考答案 1.增值税的课税对象是( ) a.产品销售成本 b.产品销售利润 c.法定增值额 d法定工资额 答案:c 2.既表明企业在一定时期内实现的盈亏总额,又反映企业最终财务成果的是( )。 a业利润 b.利润总额 c.净利润 d.应付利润 答案:b 3.财政管理的目标是( )。 保持财政收支的相对平衡 保持或正或负的财政收支差额 保持或大或小的财政收支差额 将财政收支差额控制在一定比率的范围内 答案:d 4. r﹠d人员折合全时当量是指( )。 参加r﹠d项目人员的全时当量 分摊在参加r﹠d项目的管理和直接服务人员的全时当量 参加r﹠d项目人员的全时当量和分摊在参加r﹠d项目的管理和直接服务人员的全时当量之和 参加r﹠d项目人员的全时当量和分摊在参加r﹠d项目的管理和直接服务人员的全时当量 答案:c 5. 城镇居民家庭恩格尔系数是( )。 食品支出总额与居民家庭人均纯收入之比 食品支出总额与居民家庭总收入之比 居民家庭消费支出总额与总收入之比 食品支出总额与家庭消费支出总额入之比 答案:d 6. 城镇居民家庭可支配收入指居民家庭可以用来自由支配的收入,其公式是( )。 a.可支配收入=家庭总收入-经营性支出 b.可支配收入=家庭总收入-经营性支出-交纳个人所得税 c.可支配收入=家庭总收入-经营性支出-交纳个人所得税-个人交纳的社会保障支出 d.可支配收入=家庭总收入-经营性支出-交纳个人所得税-个人交纳的社会保障支出-记账补贴 答案:d 7. 样本轮换的目的是增强样本代表性,减轻调查户记账的负担,城镇中的经常调查户每年轮换的比例是( )。 a.100% b.1/2

(新)高中数学第一章统计案例1_1独立性检验假设检验素材新人教B版选修1-21

假设检验 1、某厂生产的化纤纤度服从正态分布 )04.0,(2 μN 。某天测得25根纤维的纤度的均值39.1=x ,问与原设计的标准值1.40有无显著差异?(取05.0=α) 解 设厂生产的化纤纤度为X ,则总体)04.0,(~2μN X ,且总体方差2204.0=σ已 知。顾客提出要检验的假设为 40 .1:0=μH , 40.1:1≠μH 因为已知总体标准差04.0=σ,所以选用U 检验,且在0H 成立的条件下有 )1,0(~25 04.00 N X U μ-= 针对备择假设40.1:1≠μH ,拒绝域的形式可取为 } /{0 c n X U W >-= =σμ 为使犯第一类错误的概率不超过05.0=α,就要在40.10 =μ时,使临界值c 满足 ()05 .0=>c U P 成立。由此,在给定显著性水平05.0=α时,得到临界值为 96 .1975.02/1===-u u c α 故相应的拒绝域为

{} 96.1>=U W 利用来自总体的样本值求得 25 .125 /04.040.139.1-=-= u 即 975 .096.125.1u u =<= 成立。显然,样本未落在拒绝域内,因此在05.0=α水平上认为纤维的纤度与原设计的标准值1.40没有显著差异。 2、设某厂生产的洗衣机的使用寿命(单位:小时)X 服从正态分布),(2σu N 但2 ,σu 未 知。随机抽取20台,算得样本均值1832=X ,样本标准差=S 497,检验该厂生产的洗衣机的平均使用时数“2000=μ”是否成立?(取检验水平05.0=α) 解 待检验假设 2000 0=μ:H 20001≠μ:H H 的拒绝域: 21α - >t T =2.093 T 的观测值 512 .1/2000 -=-=n S X T W ∈ 不能拒绝 H ,可以认为洗衣机的平均使用时数“2000=u ”. 3、在正常情况下,某炼钢厂的铁水含碳量(%)X ~ ),.(2 554σN (σ未知)。一日测得5炉铁水含碳量如下:

高三文科数学统计概率总结

统计概率考点总结 【考点一】分层抽样 01、交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规得知晓情况,对甲、乙、丙、丁四个社区 做分层抽样调查。假设四个社区驾驶员得总人数为N ,其中甲社区有驾驶员96人。若在甲、乙、丙、丁四个社区抽取驾驶员得人数分别为12,21,25,43,则这四个社区驾驶员得总人数N 为( ) A 、101 B 、808 C 、1212 D 、2012 02、某个年级有男生560人,女生420人,用分层抽样得方法从该年级全体学生中抽取一个容量为280得样 本,则此样本中男生人数为____________、 03、一支田径运动队有男运动员56人,女运动员42人。现用分层抽样得方法抽取若干人,若抽取得男运动 员有8人,则抽取得女运动员有______人。 04、某单位有840名职工, 现采用系统抽样方法, 抽取42人做问卷调查, 将840人按1, 2, , 840随机 编号, 则抽取得42人中, 编号落入区间[481, 720]得人数为( ) A.11 B.12 C.13 D.14 05、将参加夏令营得600名学生编号为:001,002,……600,采用系统抽样方法抽取一个容量为50得样本, 且随机抽得得号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495住在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中得人数依次为( ) A.26, 16, 8 B.25,17,8 C.25,16,9 D.24,17,9 【考点二】频率分布直方图(估计各种特征数据) 01、从某小区抽取100户居民进行月用电量调查,发现其用电 量都在50到350度之间,频率分布直方图所示、 (I)直方图中x 得值为________; (II)在这些用户中,用电量落在区间[)100,250内得户数为_____、 02、下图就是样本容量为200得频率分布直方图。 根据样本得频率分布直方图估计,样本数据落在[6,10] 内得频数为 ,数据落在(2,10)内得概率约为 03、有一个容量为200得样本,其频率分布直方图如图所示,根据样本得频率分布直方图估计,样本数据落 在区间)10,12??内得频数为 A.18 B.36 C.54 D.72 04、如上题得频率分布直方图,估计该组试验数据得众数为_______,

高考文科数学试题分类汇编11:概率与统计

高考文科数学试题分类汇编11:概率与统计 一、选择题 1 .(2013年高考安徽(文))若某公司从五位大学毕业生甲、乙、丙、丁、戌中录用三人,这五人被录用的 机会均等,则甲或乙被录用的概率为 ( ) A . 23 B . 25 C . 35 D . 910 【答案】D 2 .(2013年高考重庆卷(文))下图是某公司10个销售店某月销售某 产品数量(单位:台)的茎叶图,则数据落在区间[20,30)内的概率为( ) A .0.2 B .0.4 C .0.5 D .0.6 【答案】B 3 .(2013年高考湖南(文))已知事件“在矩形ABCD 的边CD 上随机取一点P,使△APB 的最大边是AB”发 生的概率为.2 1 ,则 AD AB =____ ( ) A . 12 B . 14 C D 【答案】D 4 .(2013年高考江西卷(文))集合A={2,3},B={1,2,3},从A,B 中各取任意一个数,则这两数之和等于4的 概率是 ( ) A . 2 3 B . 1 3 C . 12 D . 16 【答案】C 5 .(2013年高考湖南(文))某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件. 为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n=___ ( ) A .9 B .10 C .12 D .13 【答案】D 6 .(2013年高考山东卷(文))将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均 分为91,现场做的9个分数的茎叶图后来有一个数据模糊,无法辨认,在图中以x 表示: 则7个剩余分数的方差为 ( ) A . 116 9 B . 367 C .36 D 【答案】B 7 .(2013年高考四川卷(文))某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎 叶图如图所示.以组距为5将数据分组成[0,5),[5,10),,[30,35),[35,40]时,所作的频率分布直方图是 8 7 7 9 4 0 1 0 9 1 x

【免费下载】概率论与数理统计案例

实例1 发行彩票的创收利润某一彩票中心发行彩票 10万张, 每张2元. 设头等奖1个, 奖金 1万元, 二等奖2个,奖金各 5 千元;三等奖 10个, 奖金各1千元; 四等奖100个, 奖金各100元; 五等奖1000个, 奖金各10 元.每张彩票的成本费为 0.3 元, 请计算彩票发行单位的创收利润.解:设每张彩票中奖的数额为随机变量X , 则X 10000 5000 1000 100 10 0p 51/1052/10510/105100/1051000/100p 每张彩票平均能得到奖金 05512()10000500001010E X p =? +?++? 0.5(),=元每张彩票平均可赚20.50.3 1.2(), --=元因此彩票发行单位发行 10 万张彩票的创收利润为:100000 1.2120000().?=元实例2 如何确定投资决策方向?某人有10万元现金,想投资于某项目,预估成功的机会为 30%,可得利润8万元 , 失败的机会为70%,将损失 2 万元.若存入银行,同期间的利率为5% ,问是否作此项投资?解:设 X 为投资利润,则 X 8 -2p 0.3 0.7()80.320.71(),E X =?-?=万元存入银行的利息:故应选择投资.1050.5(),%?=万元实例3 商店的销售策略某商店对某种家用电器的销售采用先使用后付款的方式,记使用寿命为X (以年计),规定1,1500;12,2000;23,2500; 3,3000.X X X X ≤<≤<≤>一台付款元一台付款元一台付款元一台付款元10,1e ,0,()100, 0.x X x f x x Y -?>?=??≤? 设寿命服从指数分布概率密度为试求该商店一台家用电器收费的数学期望定盒位置保护层防腐跨接地线弯曲半径标高等,要求技术交底。管线敷设技术、电气课校对图纸,编写复杂设备与装置高中资料试卷调试方案,编写重要设备高中资料、电气设备调试高中中资料试卷工况进行自动处理,尤其要避免错误高中资料试卷保护装置动作,并

统计案例一_----独立性检验

统计案例一独立性检验 研修学院数学教研室闻岩 一、课标要求 学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。 内容与要求 1.统计案例(约14课时) 通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。 (1)通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用。 (2)通过对典型案例(如“质量控制”“新药是否有效”等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用(参见例1)。------删掉了 (3)通过对典型案例(如“昆虫分类”等)的探究,了解聚类分析的基本思想、方法及初步应用。------删掉了 (4)通过对典型案例(如“人的体重与身高的关系”等)的探究,进一步了解回归的基本思想、方法及初步应用。 说明与建议 1.统计案例的教学中,应鼓励学生经历数据处理的过程,培养他们对数据的直观感觉,认识统计方法的特点(如统计推断可能犯错误,估计结果的随机性),体会统计方法应用的广泛性。应尽量给学生提供一定的实践活动机会,可结合数学建模的活动,选择1个案例,要求学生亲自实践。对于统计案例内容,只要求学生了解几种统计方法的基本思想及其初步应用,对于其理论基础不作要求,避免学生单纯记忆和机械套用公式进行计算。 2.教学中,应鼓励学生使用计算器、计算机等现代技术手段来处理数据,有条件的学校还可运用一些常见的统计软件解决实际问题。 例1某地区羊患某种病的概率是0.4,且每只羊患病与否是彼此独立的。今研制一种新的预防药,任选5只羊做实验,结果这5只羊服用此药后均未患病。问此药是否有效。 初看起来,会认为这药一定有效,因为服药的羊均未患病。但细想一下,会有问题,因为大部分羊不服药也不会患病,患病的羊只占0.4左右。这5只羊都未患病,未必是药的作用。分析这问题的一个自然想法是:若药无效,随机抽取5只羊都不患病的可能性大不大。若这件事发生的概率很小,几乎不会发生,那么现在我们这几只羊都未患病,应该是药的效果,即药有效。 现假设药无效,5只羊都不生病的概率是 (1-0.4)5≈0.078. 这个概率很小,该事件几乎不会发生,但现在它确实发生了,说明我们的假设不对,药是有效的。 这里的分析思想有些像反证法,但并不相同。给定假设后,我们发现,一个概率很小几乎不会发生的事件却发生了,从而否定我们的“假设”。 应该指出的是,当我们作出判断“药是有效的”时,是可能犯错误的。犯错误的概率是0.078。也就是说,我们有近92%的把握认为药是有效的。 二、全国考纲的要求 17.统计案例 了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. ①独立检验 列联表)的基本思想、方法及简单应用. 了解独立检验(只要求22

高中数学概率统计知识万能公式(文科)

第六部分 概率与统计万能知识点及经典题型Ⅰ 【考题分析】 1、考试题型:选择填空1个,解答题:18(必考) 2、考题分值:17分; 3、解答题考点:①频率直方图的应用,②线性回归直线的应用,③独立性检验和概率 4、难度系数:0.7-0.8左右,(120分必须全对,100以上者全对) 【知识总结】 一、普通的众数、平均数、中位数及方差 1、 众数:一组数据中,出现次数最多的数。 2、平均数:①、常规平均数:12n x x x x n ++???+= ②、加权平均数:112212n n n x x x x ωωωωωω++???+=++???+ 3、中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数。 4、方差:2222121 [()()()]n s x x x x x x n = -+-+???+- 二、频率直方分布图下的频率 1、频率 =小长方形面积:f S y d ==?距;频率=频数/总数 2、频率之和:121n f f f ++???+=;同时 121n S S S ++???+=; 三、频率直方分布图下的众数、平均数、中位数及方差 1、众数:最高小矩形底边的中点。 2、平均数: 112233n n x x f x f x f x f =+++???+ 112233n n x x S x S x S x S =+++???+ 3、中位数:从左到右或者从右到左累加,面积等于0.5时x 的值。 4、方差:22221122()()()n n s x x f x x f x x f =-+-+???+- 四、线性回归直线方程:???y bx a =+ 其中:1 1 2 22 1 1 ()() ?() n n i i i i i i n n i i i i x x y y x y nxy b x x x nx ====---∑∑== --∑∑ , ??a y bx =- 1、线性回归直线方程必过样本中心(,)x y ; 2、?0:b >正相关;?0:b <负相关。 3、线性回归直线方程:???y bx a =+的斜率?b 中,两个公式中分子、分母对应也相等;中间可以推导得到。 五、回归分析 1、残差:??i i i e y y =-(残差=真实值—预报值)。 分析:?i e 越小越好; 2、残差平方和:21 ?()n i i i y y =-∑, 分析:①意义:越小越好; ②计算:222211221 ????()()()()n i i n n i y y y y y y y y =-=-+-+???+-∑ 3、拟合度(相关指数):2 21 2 1 ?()1() n i i i n i i y y R y y ==-∑=- -∑, 分析:①.(]20,1R ∈的常数; ②.越大拟合度越高; ()() n n i i i i x x y y x y nx y ---?∑∑

2019年高考数学统计案例(文科) 含解析

统计案例 一、选择题 1.(2018·长春一模)完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的15名艺术特长生中选出3名调查学习负担情况.宜采用的抽样方法依次是( ) A .①简单随机抽样,②系统抽样 B .①分层抽样,②简单随机抽样 C .①系统抽样,②分层抽样 D .①②都用分层抽样 答案:B 解析:因为社会购买能力的某项指标受到家庭收入的影响,而社区中各个家庭收入差别明显,所以①用分层抽样法;从某中学的15名艺术特长生中选出3名调查学习负担情况,个体之间差别不大,且总体和样本容量较小,所以②用简单随机抽样法,故选B. 2.(2018·贵州遵义联考)某校高三年级有1 000名学生,随机编号为0001,0002,…,1 000.现按系统抽样方法,从中抽出200人,若0122号被抽到了,则下列编号也被抽到的是( ) A .0927 B .0834 C .0726 D .0116 答案:A 解析:系统抽样就是等距抽样,被抽到的编号满足0122+5k ,k ∈Z .因为0927=0122+5×161,故选A. 3.(2018·江西九校联考(一))一组数据共有7个数,其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数据的平均数、中位数、众数依次成等差数列,则这个数的所有可能值的和为( ) A .3 B .17 C .-11 D .9 答案:D 解析:设这个数是x ,则平均数为25+x 7,众数为2,若x ≤2,则

中位数为2,此时x =-11,若2

计数原理、概率、随机变量及其分布、统计、统计案例

计数原理、概率、随机变量及其分布、统计、统计案例 第Ⅰ卷(选择题 共60分) 一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的) 1.已知随机变量ξ服从正态分布N (1,σ2),P (ξ≤4)=,则P (ξ≤-2)=( ) A . B . C . D . 2.以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分) 已知甲组数据的平均数为17,乙组数据的中位数为17,则x ,y 的值分别为( ) A .2,6 B .2,7 C .3,6 D .3,7 3.将4个颜色互不相同的球全部收入编号为1和2的两个盒 子里,使得放入每个盒子里的球的个数不小于该盒子的编号,则不同的放球方法有( ) A .10种 B .20种 C .36种 D .52种 4.已知f (x )、g (x )都是定义在R 上的函数,g (x )≠0,f ′(x )g (x )-f (x )g ′(x )<0,fx gx =a x ,f 1g 1+ f -1 g -1=52,则关于x 的方程abx 2+2x +5 2=0(b ∈(0,1))有两个不同实根的概率为( ) 5.用0,1,…,9十个数字,可以组成有重复数字的三位数的个数为( ) A .243 B .252 C .261 D .279 6.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y 与x 负相关且y ^ =-; ② y 与x 负相关且y ^ =-+; ③y 与x 正相关且y ^ =+; ④y 与x 正相关且y ^ =--. 其中一定不正确的结论的序号是( ) A .①② B .②③

2015中级统计师《统计工作实务》真题及答案

2015 中级统计师《统计工作实务》真题及答案 二?一五年度全国统计专业技术中级资格考试 统计工作实务试卷 1.在你拿到试卷的同时将得到一份专用答题卡,所有试题均须在专用答题卡上作答,在试卷或草稿纸上作答不得分。 2.答题时请认真阅读试题,对准题号作答。 一、单项选择题(以下每小题各有四项备选答案,其中只有一项是正确的。本题共40 分,每小题 1 分。) 1.由于统计工作覆盖面广,涉及到社会的各个领域,所产生的社会关系十分复杂,因此,统计法的调整对象具有()。 A .全面性和特殊性 B.特殊性和复杂性 C.特殊性和专业性 D .专业性和复杂性 2. 《全国经济普查条例》属于()。 A .统计行政规章 B.地方性统计法规 C.统计行政法规

D ?统计法律 3.根据统计法确定的统计工作的基本原则,统计标准应当是() A .完整的 B.必要的 C.统一的 D .可行的 4.政府统计调查取得的统计资料,()。 A .除依法应当保密以外,应当及时公开 B.应当全部及时公开 C.应当依法予以保密 D .不得对外提供 5.我国政府统计系统在统 计业务管理方面实行()。 A .垂直管理 B.统一管理 C.分级管理 D ?委托管理 6.下列各项中不属于县级以上地方各级人民政府统计机构职责的是()

A ?执行国家统计标准 B?组织重大国情国力普查 C ?搜集、整理、提供基本统计资料 D .监督检查统计法规和统计制度的实施 7.统计人员进行统计调查时,应当出示县级以上人民政府统计机构或者有关部门()。 A ?开具的证明 B?出具的身份证件 C ?颁发的工作证件 D .制定的调查表 8.根据法律法规的有关规定,不属于统计行政许可事项的是() A ?统计从业资格认定 B.涉外调查机构资格认定 C ?涉外社会调查项目审批 D .政府统计调查项目审批 9.根据法律法规规章规定,应当取得统计从业资格的人员是( A .国家机关、企业事业单位、社会团体、其他组织和个人

高中数学统计案例--独立性检验 同步练习

统计案例--独立性检验 同步练习 1、下列关于卡方2χ的说法正确的是( ) A.2χ在任何相互独立问题中都可用与检验是否相关 B. 2χ的值越大,两个事件的相关性越大 C.2χ是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这类问题 D. ) )()()(() (2d b c a d c b a bc ad n ++++-= χ. 2、在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是( ) A. 若统计量635.62>χ,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病 B. 若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99人患有肺病 C. 若从统计量中求出有95%把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误 D. 以上说法均错误 3 A. 种子经过处理跟是否生病有关 B. 种子经过处理跟是否生病无关 C. 种子是否经过处理决定是否生病 D. 以上都是错误的 4、若由一个22?列联表中的数据计算得013.42=χ,那么有 的把握认为两个变量有关系. 5、独立性检验所采用的思路是:要研究A 、B 两类型因子彼此相关,首先假设这两类因子彼此 ,在此假设下构造2χ统计量.如果2χ的观测值较大,那么在一定程度上说明假设 . 6、某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该搜集那些数据? . 7、打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打与患心脏病有关吗?有多大把握认为你的结论成立?

8、为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50名患者服用 9、某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了189名员工进行调查,其中支持企业改革的调查者中,工作积极的54人,工作一般的32人,而不太赞成企业改革的调查者中,工作积极的40人,工作一般的63人. (1)根据以上数据建立一个2 2 的列联表; (2)对于人力资源部的研究项目,根据以上数据可以认为企业的全体员工对待企业改革的 态度与其工作积极性是否有关系?

高三文科数学概率与统计

达濠侨中高三数学(文科)第二轮复习题 概率与统计 一 选择题 1.(2015·新课标全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( ) A .逐年比较,2008年减少二氧化硫排放量的效果最显着 B .2007年我国治理二氧化硫排放显现成效 C .2006年以来我国二氧化硫年排放量呈减少趋势 D .2006年以来我国二氧化硫年排放量与年份正相关 2.为了解某社区居民的家庭收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元 3.一个频数分布表(样本容量为30)不小心被损坏了一部分,若样本中数据在[20,60)上的频率为0.8,则估计样本在[40,50),[50,60)内的数据个数共为( ) A .15 B .16 C .17 D .19 4. 【2015高考新课标文】如果3个正整数可作为一个直角三角形三条边的边长,则称这3个数为一组勾股数,从1,2,3,4,5中任取3个不同的数,则这3个数构成一组勾股数的概率为( ) (A ) 310 (B )15 (C )110 (D )1 20 5. 设复数(1)z x yi =-+(,)x y R ∈,若||1z ≤,则y x ≥的概率( ) A .3142π+ B . 112π+ C .1142π- D . 112π - 6.某班级有50名学生,现用系统抽样的方法从这50名学生中抽出10名学生,将这50名学生随机编号为1~50号,并按编号顺序平均分成10组(1~5号,6~10号,…,46~50号),若在第三组抽到的编号是13,则在第七组抽到的编号是( ) A .23 B .33 C .43 D .53 7.在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等

2高考文科数学统计习题答案

2020年4月28日习题 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: (1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关: 箱产量<50kg箱产量≥50kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。 附: P()0.0500.0100.001 k 3.841 6.63510.828

(2)根据箱产量的频率分布直方图得列联表 箱产量<50kg箱产量≥50kg 旧养殖法6238 新养殖法3466 K2= 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)箱产量的频率分布直方图平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.

2020年4月29日习题 某险种的基本保费为(单位:元),继续购买该险种的投保人称为续保人,续保人的本年度的保费与其上年度的出险次数的关联如下: 上年度 出 险 次 数 保费 随机调查了设该险种的200名续保人在一年内的出险情况,得到如下统计表:出险次数 概数 (Ⅰ)记为事件:“一续保人本年度的保费不高于基本保费”.求的估计值;(Ⅱ)记为事件:“一续保人本年度的保费高于基本保费但不高于基本保费的160%”.求的估计值; (Ⅲ)求续保人本年度平均保费的估计值.

随机变量、统计案例

随机变量的分布列及统计案例复习学案参考答案 例1、解析 ∵P (A )=C 22+C 23 C 25=25,P (AB )=C 22C 25 =110, ∴P (B |A )=P (AB )P (A )=1 4 . 答案 B 例2、解析 该题为几何概型,圆的半径为1,正方形的边长为2,∴圆的面积为 π,正方形面积为2,扇形面积为π4.故P (A )=2π,P (B |A )=P (A ∩B )P (A )=1 4. 答案 (1)2π (2)1 4 例3、 专题三 离散型随机变量的分布列、均值与方差 例4、 解 设A 、B 、C 分别为甲、乙、丙三台机床各自独立加工同一种零件是一等品的事件,依题意得 ?????????P (A ·B -)=14,P (B ·C -)=112,P (A ·C )=29,即???? ??? ??P (A )·(1-P (B ))=14,P (B )·(1-P (C ))=112,P (A )·P (C )=29, 得27[P (C )]2-51P (C )+22=0, 解得P (C )=23或P (C )=119 (舍). ∴P (A )=13,P (B )=14,P (C )=2 3 . 即甲、乙、丙三台机床各自独立加工的零件是一等品的概率分别为13,14,2 3. (2)记D 为从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的事件. P (D )=1-P (D -)=1-(1-P (A ))·(1-P (B ))·(1-P (C ))=1-23× 34×13=56,即从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的概率为56.

中级统计师真题及答案 《统计基础理论及相关知识》

二○一六年度全国统计专业技术中级资格考试 统计基础理论及相关知识试卷 1.在你拿到试卷的同时将得到一份专用答题卡,所有试题均须在专用答题卡上作答,在试卷或草稿纸上作答不得分。 2.答题时请认真阅读试题,对准题号作答。 一、单项选择题(以下每小题各有四项备选答案,其中只有一项是正确的。本题共 40分,每小题1分。) 1.统计分析中研究如何用样本统计量估计总体参数的统计方法是()。 A. 描述统计 B. 推断统计 C. 理论统计 D. 数理统计 2.“天气形势”、“职业”等是从现象的属性来表现现象的特征,这类变量属于()。 A. 定性变量 B. 定量变量 C. 定距变量 D. 定比变量 3.在抽取样本单位时,如果先将总体分成组,然后在每一组中随机抽选样本单元,这种抽样的方法是()。 A. 简单随机抽样 B. 分层抽样 C. 系统抽样 D. 整群抽样 4.能够反映变量分布的统计图是()。 统计基础理论及相关知识试卷第 1 页(共18页)

A. 饼图 B. 散点图 C. 环形图 D. 直方图 5.有一数列59、44、38、22、90、32,其中位数是()。 A. 38 B. 22 C. 41 D. 30 6.某地区2015年居民的月平均收入为5200元,标准差为200元。则该地区居民收入的离散系数为()。 A. 19.61% B. 3.85% C. 0.15% D.0.27% 7.张红是某大学一年级的学生,她参加了微积分的两次考试。第一次考试中,全班的平均成绩是75分,标准差是10分;第二次考试中,全班的平均成绩是70分,标准差是15分。张红每次考试成绩都是85分。假定考试分数近似服从正态分布,则张红两次考试的成绩在班里的相对位置()。 A. 不相同,第一次比第二次好 B. 不相同,第二次比第一次好 C. 相同 D. 因为不知道班里人数而无法判断8.某学校10000名女生身高服从正态分布,其均值为160cm,标准差为5cm,其中6827名女生身高的可能范围是()。 A. 160cm到165cm B. 150cm到170cm C. 155cm到165cm D. 155cm到160cm 9.从一个服从正态分布的总体中随机抽取样本容量为n的样本,在95%的置信度下对总体参数进行估计的结果为:20±0.08错误!未找到引用源。。如果其他条件不变,样本量扩大到原来的4倍,则总体参数的置信区间应该是()。 A. 20±0.16错误!未找到引用源。 B. 20±0.04错误!未找到引用源。 C. 80±0.16错误!未找到引用源。 D. 80±0.04 统计基础理论及相关知识试卷第 2 页(共18页)

高中文科数学(统计与概率)综合练习

《概率与统计》练习 求:(Ⅰ)年降雨量在) 200 , 100 [范围内的概率; (Ⅱ)年降雨量在) 150 , 100 [或) 300 , 250 [范围内的概率; (Ⅲ)年降雨量不在) 300 , 150 [范围内的概率; (Ⅳ)年降雨量在) 300 , 100 [范围内的概率. > · 2.高三某班40名学生的会考成绩全部在40分至100分 之间,现将成绩分成6段:) 50 , 40 [、) 60 , 50 [ 、) 70 , 60 [、 ) 80 , 70 [、) 90 , 80 [、] 100 , 90 [.据此绘制了如图所示的频率分布直方图。在这40名学生中, (Ⅰ)求成绩在区间) 90 , 80 [内的学生人数; (Ⅱ)从成绩大于等于80分的学生中随机选2名学生,求至少有1名学生成绩在区间] 100 , 90 [内的概率. " @

3.已知集合}1,1(},2,0,2{-=-=B A . ; (Ⅰ)若},|),{(B y A x y x M ∈∈=,用列举法表示集合M ; (Ⅱ)在(Ⅰ)中的集合M 内,随机取出一个元素),(y x ,求以),(y x 为坐标的点位于区 域D :?? ? ??-≥≤-+≥+-10202y y x y x 内的概率. . 4.某生物技术公司研制出一种新流感疫苗,为测试该疫苗的有效性(若疫苗有效的概率小于%90,则认为测试没有通过),公司选定2000个流感样本分成三组,测试结果如 A 组 B 组 C 组 ? 疫苗有效 673 x y 疫苗无效 77 90 z > 已知在全体样本中随机抽取1个,抽到B 组疫苗有效的概率是33.0. (Ⅰ)求x 的值; (Ⅱ)现用分层抽样的方法在全体样本中抽取360个测试结果,问C 组应抽取几个? (Ⅲ)已知465≥y ,30≥z ,求不能通过测试的概率.

相关主题
文本预览
相关文档 最新文档