当前位置:文档之家› 变量间的相关关系、统计案例

变量间的相关关系、统计案例

变量间的相关关系、统计案例
变量间的相关关系、统计案例

变量间的相关关系、统计案例

1.相关性

(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.

(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.

(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.线性回归方程 (1)最小二乘法

如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (2)线性回归方程

方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数. ?????

b =

∑n

i =1

(x i

-x )(y i

-y )∑n

i =1

(x i

-x )2

=∑n

i =1

x i y i

-n x y

∑n i =1

x 2i

-n x 2

a =y -

b x .

3.回归分析

(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心

对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心. (3)相关系数

①r =

∑n

i =1 (x i -x )(y i -y )

∑n i =1

(x i -x )2

∑n i =1

(y i -y )

2

n

i=1

x i y i-n x y

n

i=1

x2i-n x2∑

n

i=1

y2i-n y2

②当r>0时,表明两个变量正相关;

当r<0时,表明两个变量负相关;

当r=0时,表明两个变量线性不相关.

|r|值越接近于1,表明两个变量之间的线性相关程度越高. |r|值越接近于0,表明两个变量之间的线性相关程度越低.

4.独立性检验

设A,B为两个变量,每一个变量都可以取两个值,

变量A:A1,A2=A1;变量B:B1,B2=B1.

2×2列联表:

构造一个统计量

χ2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

.

利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.

当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当χ2>2.706时,有90%的把握判定变量A,B有关联;

当χ2>3.841时,有95%的把握判定变量A,B有关联;

当χ2>6.635时,有99%的把握判定变量A,B有关联.

概念方法微思考

1.变量的相关关系与变量的函数关系有什么区别?

提示相同点:两者均是指两个变量的关系.

不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.

②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.

2.如何判断两个变量间的线性相关关系?

提示散点图中点的分布从整体上看大致在一条直线附近,或者通过计算相关系数作出判断.

3.独立性检验的基本步骤是什么?

提示列出2×2列联表,计算χ2值,根据临界值表得出结论.

4.线性回归方程是否都有实际意义?根据回归方程进行预测是否一定准确?

提示(1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.

(2)根据回归方程进行预测,仅是一个预测值,而不是真实发生的值.

题组一思考辨析

1.判断下列结论是否正确(请在括号中打“√”或“×”)

(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)

(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(√)

(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√)

(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得线性回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.(×)

(5)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越大.(√)

题组二教材改编

2.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()

A.回归分析

B.均值与方差

C.独立性检验

D.概率

答案 C

解析“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.

3.下面是2×2列联表:

则表中a,b的值分别为()

A.94,72

B.52,50

C.52,74

D.74,52

答案 C

解析 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74.

4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y =0.67x +54.9.

现发现表中有一个数据看不清,请你推断出该数据的值为 . 答案 68

解析 由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,

则62+a +75+81+89=75×5,∴a =68. 题组三 易错自纠

5.某医疗机构通过抽样调查(样本容量n =1 000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查阅临界值表知P (χ2≥3.841)≈0.05,现给出四个结论,其中正确的是( )

A.在100个吸烟的人中约有95个人患肺病

B.若某人吸烟,那么他有95%的可能性患肺病

C.有95%的把握认为“患肺病与吸烟有关”

D.只有5%的把握认为“患肺病与吸烟有关” 答案 C

解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.

6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)

现已知其线性回归方程为y =0.36x +a ,则根据此线性回归方程估计数学得90分的同学的物理成绩为 .(四舍五入到整数) 答案 73

解析 x =60+65+70+75+80

5

=70,

y=62+64+66+68+70

5=66,

所以66=0.36×70+a,a=40.8,

即线性回归方程为y=0.36x+40.8.

当x=90时,y=0.36×90+40.8=73.2≈73.

题型一相关关系的判断

例1(1)观察下列各图形,

其中两个变量x,y具有相关关系的图是()

A.①②

B.①④

C.③④

D.②③

答案 C

解析由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以

③④中的两个变量具有相关关系.

(2)(2018·合肥质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是()

A.逐年比较,2008年减少二氧化硫排放量的效果最显著

B.2007年我国治理二氧化硫排放显现成效

C.2006年以来我国二氧化硫年排放量呈减少趋势

D.2006年以来我国二氧化硫年排放量与年份正相关

答案 D

解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;

2007年二氧化硫排放量较2006年降低了很多,B选项正确;

虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C 选项正确;

自2006年以来我国二氧化硫年排放量与年份负相关,D 选项错误,故选D. 思维升华 判定两个变量正,负相关性的方法

(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.

(2)相关系数:当r >0时,正相关;当r <0时,负相关. (3)线性回归方程中:当b >0时,正相关;当b <0时,负相关.

跟踪训练1 在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-1

2x +1上,则这组样本数据

的样本相关系数为( ) A.-1 B.0 C.-1

2 D.1

答案 A

解析 完全的线性关系,且为负相关,故其相关系数为-1,故选A.

题型二 回归分析

命题点1 线性回归分析

例2 下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.

注:年份代码1~7分别对应年份2011~2017.

(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量. 附注:

参考数据:∑i =1

7

y i =9.32,∑i =1

7

t i y i =40.17,

∑i =1

7

(y i -y )2=0.55,7≈2.646.

参考公式:相关系数r =

∑i =1

n

(t i -t )(y i -y )

∑i =1

n

(t i -t )2∑i =1

n

(y i -y )2

回归方程y =a +bt 中斜率和截距的最小二乘估计公式分别为:

b =

∑i =1

n

(t i -t )(y i -y )

∑i =1

n

(t i -t )2

,a =y -b t .

解 (1)由折线图中数据和附注中参考数据得 t =4,∑i =17

(t i -t )2=28,

∑i =1

7

(y i -y )2=0.55.

∑i =1

7

(t i -t )(y i -y )

=∑i =1

7

t i y i -t ∑i =1

7

y i

=40.17-4×9.32=2.89, 所以r ≈ 2.89

0.55×2×2.646

≈0.99.

因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系. (2)由y =9.327

≈1.331及(1)得

b =

∑i =1

7

(t i -t )(y i -y )

∑i =1

7

(t i -t )2

2.89

28

≈0.10, a =y -b t ≈1.331-0.10×4≈0.93. 所以y 关于t 的回归方程为y =0.93+0.10t . 将2019年对应的t =9代入回归方程得 y =0.93+0.10×9=1.83.

所以预测2019年我国生活垃圾无害化处理量约为1.83亿吨. 命题点2 非线性回归

例3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值

.

表中w i =x i ,w =18∑i =1

8

w i .

(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)

(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;

(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预测值是多少? ②年宣传费x 为何值时,年利润的预测值最大?

附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+β u 的斜率和截距的最小二乘估计分别为

β=

∑i =1

n

(u i -u )(v i -v )

∑i =1

n

(u i -u )2

,α=v -β u .

解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于

d =

∑i =1

8

(w i -w )·

(y i -y )∑i =1

8

(w i -w )2

108.8

1.6

=68, c =y -d w =563-68×6.8=100.6,

所以y 关于w 的线性回归方程为y =100.6+68w , 因此y 关于x 的回归方程为y =100.6+68x . (3)①由(2)知,当x =49时,

年销售量y 的预测值y =100.6+6849=576.6, 年利润z 的预测值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预测值 z =0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.6

2=6.8,

即x =46.24时,z 取得最大值.

故年宣传费为46.24千元时,年利润的预测值最大. 思维升华 回归分析问题的类型及解题方法 (1)求回归方程

①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. ②利用公式,求出回归系数b .

③待定系数法:利用回归直线过样本点的中心求系数a .

(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b .

(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.

跟踪训练2 (2018·全国Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.

为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y=99+17.5t.

(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;

(2)你认为用哪个模型得到的预测值更可靠?并说明理由.

解(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).

利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y=99+17.5×9=256.5(亿元).

(2)利用模型②得到的预测值更可靠.

理由如下:

(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.

2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.

5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.

(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.

题型三独立性检验

例4(2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:

(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;

(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:

(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).

附:

χ2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

.

解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.

由题意知,P(A)=P(BC)=P(B)P(C).

旧养殖法的箱产量低于50 kg的频率为

(0.012+0.014+0.024+0.034+0.040)×5=0.62,

故P(B)的估计值为0.62.

新养殖法的箱产量不低于50 kg的频率为

(0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.

因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表如下:

χ2

=200×(62×66-34×38)2100×100×96×104

≈15.705.

由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.

(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,

箱产量低于55 kg 的直方图面积为

(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为 50+0.5-0.340.068

≈52.35 (kg).

思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.

②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表.

②根据公式χ2

=n (ad -bc )2

(a +b )(a +c )(b +d )(c +d )

计算χ2的值.

③比较χ2与临界值的大小关系,做统计推断.

跟踪训练3 (2018·郑州检测)某企业生产的某种产品被检测出其中一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机地从这两条流水线上生产的大量产品中各抽取50件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在[195,210)内,则为合格品,否则为不合格品.甲流水线样本的频数分布表和乙流水线样本的频率分布直方图如下: 甲流水线样本的频数分布表

乙流水线样本频率分布直方图

(1)根据乙流水线样本频率分布直方图,估计乙流水线生产产品的该项质量指标值的中位数; (2)若将频率视为概率,某个月内甲、乙两条流水线均生产了5 000件产品,则甲,乙两条流水线分别生产出不合格品约多少件?

(3)根据已知条件完成下面2×2列联表,并回答是否有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”?

附:

χ2

=n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

(其中n =a +b +c +d ).

解 (1)设乙流水线生产产品的该项质量指标值的中位数为x , 因为(0.012+0.032+0.052)×5=0.48<0.5 <(0.012+0.032+0.052+0.076)×5=0.86, 则(0.012+0.032+0.052)×5+0.076×(x -205) =0.5, 解得x =3 900

19

.

(2)由甲、乙两条流水线各抽取的50件产品可得, 甲流水线生产的不合格品有15件,

则甲流水线生产的产品为不合格品的概率为P 甲=1550=3

10

乙流水线生产的产品为不合格品的概率为P 乙=(0.012+0.028)×5=1

5

.

于是,若某个月内甲、乙两条流水线均生产了5 000件产品,则甲、乙两条流水线生产的不合格品件数分别为5 000×310=1 500,5 000×1

5=1 000.

(3)2×2列联表:

则χ2

=100×(35×10-40×15)2

50×50×75×25

=4

3≈1.3, ∵1.3<2.072,

∴没有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”.

线性回归方程及其应用

数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程.主要包括:收集数据、整理数据、提取信息、构建模型对信息进行分析、推断、获得结论.

例 某地最近十年粮食需求量逐年上升,下表是部分统计数据:

(1)利用所给数据求年需求量与年份之间的线性回归方程y =bx +a ; (2)利用(1)中所求出的线性回归方程预测该地2019年的粮食需求量.

解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.

对处理的数据,容易算得x =0,y =3.2,

b =(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02

260

40

=6.5, a =y -b x =3.2.

由上述计算结果,知所求线性回归方程为 y -257=6.5(x -2010)+3.2, 即y =6.5(x -2010)+260.2.

(2)利用所求得的线性回归方程,可预测2019年的粮食需求量大约为6.5×(2019-2010)+260.2=6.5×9+260.2=318.7(万吨).

素养提升 例题中利用所给数据求回归方程的过程体现的就是数据分析素养.

1.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A.x 与y 正相关,x 与z 负相关 B.x 与y 正相关,x 与z 正相关 C.x 与y 负相关,x 与z 负相关 D.x 与y 负相关,x 与z 正相关 答案 C

解析 因为y =-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z =by +a (b >0),所以z =-0.1bx +b +a ,-0.1b <0,所以x 与z 负相关.故选C.

2.下表提供了某工厂节能降耗技术改造后,一种产品的产量x (单位:吨)与相应的生产能耗y (单位:吨)的几组对应数据:

根据上表提供的数据,求得y 关于x 的线性回归方程为y =0.7x +0.35,那么表格中t 的值为( ) A.3 B.3.15 C.3.25 D.3.5 答案 A

解析 x =3+4+5+64

=4.5,

y =

2.5+t +4+4.54=11+t

4

线性回归方程过样本点的中心(x ,y ), 所以11+t

4=0.7×4.5+0.35,

解得t =3.

3.(2018·江西省百校联盟联考)下表是我国某城市在2017年1月份至10月份期间各月最低温度与最高温度(单位:℃)的数据一览表.

已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( ) A.最低温度与最高温度为正相关

B.每月最高温度与最低温度的平均值在前8个月逐月增加

C.月温差(最高温度减最低温度)的最大值出现在1月

D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大 答案 B

解析 将最高温度、最低温度、温差列表如下:

由表格可知,最低温度大致随最高温度的升高而升高,A 正确; 每月最高温度与最低温度的平均值在前8个月不是逐月增加,B 错误; 月温差的最大值出现在1月,C 正确;

1月至4月的月温差相对于7月至10月,波动性更大,D 正确.

4.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y =1

3x +a ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a 的值是( )

A.116

B.18

C.14

D.12

答案 B

解析 依题意可知样本点的中心为????

34,38, 则38=13×34+a ,解得a =18

. 5.为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计数据表:

根据上表可得线性回归方程y =bx +a ,其中b =0.59,a =y -b x ,据此估计该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用为( ) A.1.795 万元 B.2.555 万元 C.1.915 万元 D.1.945 万元 答案 A

解析 x =2.09+2.15+2.50+2.84+2.925

=2.50(万元), y =

1.25+1.30+1.50+1.70+1.75

5

=1.50(万元),

又b =0.59,

所以a =y -b x =0.025,y =0.59x +0.025,

故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为y =0.59×3.00+0.025=1.795(万元).

6.(2018·江西南城一中、高安中学等九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.

由χ2

=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )

得χ2

=100×(45×22-20×13)2

65×35×58×42

≈9.616.

参照下表,

正确的结论是( )

A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”

B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”

C.有99%以上的把握认为“生育意愿与城市级别有关”

D.有99%以上的把握认为“生育意愿与城市级别无关” 答案 C

解析 ∵χ2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C. 7.某市居民2010~2014年家庭年平均收入x (单位:万元)与年平均支出y (单位:万元)的统计资料如下表所示:

根据统计资料,居民家庭年平均收入的中位数是 ,家庭年平均收入与年平均支出有 相关关系.(填“正”或“负”) 答案 13 正

解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.

8.某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m 与年销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:

经测算,年广告支出m 与年销售额t 满足线性回归方程t =6.5m +17.5,则p = . 答案 60

解析 由于回归直线过样本点的中心,m =5,t =190+p 5,

代入t =6.5m +17.5,解得p =60.

9.以下四个命题,其中正确的序号是 .

①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;

②两个随机变量相关性越强,则相关系数的绝对值越接近于1;

③在线性回归方程y =0.2x +12中,当自变量x 每增加一个单位时,因变量y 平均增加0.2个单位;

④对分类变量X 与Y 的统计量χ2来说,χ2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③

解析 ①是系统抽样;对于④,统计量χ2越小,说明两个相关变量有关系的把握程度越小. 10.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:

已知P (χ2

≥3.841)≈0.05,P (χ2

≥5.024)≈0.025.根据表中数据,得到χ2

50×(13×20-10×7)2

23×27×20×30

≈4.844,则有 的把握认为选修文科与性别有关. 答案 95%

解析 由题意,χ2

=50×(13×20-10×7)2

23×27×20×30

≈4.844,因为4.844>3.841,所以有95%的把握认

为选修文科与性别有关.

11.某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x 年与年销售量y (单位:万件)之间的关系如下表.

(1)在图中画出表中数据的散点图;

(2)根据散点图选择合适的回归模型拟合y 与x 的关系(不必说明理由); (3)建立y 关于x 的回归方程,预测第5年的销售量. 参考公式:回归直线的斜率和截距的最小二乘估计分别为

b =∑i =1

n (x i -x )(y i -y )∑i =1

n

(x i -x )2

∑i =1

n

x i y i -n x y

∑i =1

n

x 2i -n x

2

,a =y -b x .

解 (1)作出的散点图如图所示:

(2)根据散点图可知,可以用线性回归模型拟合y 与x 的关系. (3)观察(1)中散点图可知各点大致分布在一条直线附近,列出表格:

可得x =52,y =69

2

所以b =

∑i =1

4

x i y i -4x y ∑i =1

4

x 2i -4x

2

=418-4×52×

69

230-4×???

?522=73

5.

a =y -

b x =692-735×5

2=-2,

所以所求线性回归方程为y =

73

5

x -2. 将x =5代入所求线性回归方程,得y =73

5×5-2=71.

故预测第5年的销售量为71万件.

统计与统计案例真题与解析

统计与统计案例 A 级 基础 一、选择题 1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( ) A .860 B .720 C .1 020 D .1 040 2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A .13 B .19 C .20 D .51 3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程y ^ =mx +0.35,则预测2019年捐赠的现金大约是( ) A.5万元 C .5.25万元 D .5.5万元 4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )

A.3,5 B.5,5 C.3,7 D.5,7 5.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下: 记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是() A.a=0.015,s21s22 C.a=0.015,s21>s22D.a=0.15,s21

案例统计公式(绝对精华)

统计案例 一、回归分析 1. 线性回归方程???y bx a =+的求法 (1)求变量x 的平均值,即1231 ()n x x x x x n =+++???+ (2)求变量y 的平均值,即1231 ()n y y y y y n = +++???+ (3)求变量x 的系数?b ,即1 2 1 ()() ?() n i i i n i i x x y y b x x ==--=-∑∑(题目给出,不用记忆) 1 2 1()() ?() n i i i n i i x x y y b x x ==--=-∑∑ 1 1 1 1 2 2 1 1 1 2n n n n i i i i i i i i n n n i i i i i x y x y xy x y x xx x =======--+= -+∑∑∑∑∑∑∑1 22 21 2n i i i n i i x y nx y nx y nx y x nx nx ==--+= -+∑∑12 21 n i i i n i i x y nx y x nx ==-= -∑∑(理解记忆) (其中1 1 n n i i i x x nx ====∑∑,1 1 n n i i i y y ny ====∑∑,() ,x y 称为样本点中心) (4)求常数?a ,即??a y bx =- (5)写出回归方程???y bx a =+(?a ,?b 的意义:以?a 为基数,x 每增加1个单位,y 相应地平均增加?b 个单位) 注意:若?0b >则正相关,若?0b <则负相关. 2. 相关系数 假设两个随机变量的取值分别是()11,x y ,()22,x y ,……,(),n n x y ,则变量间线性相关系数的计算公式如下: ()() n n i i i i x x y y x y nx y r ---= = ∑∑ 相关系数r 的性质: (1)当0r >时,表明两个变量正相关;当0r <时,表明两个变量负相关;当0r =时,表明

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

(新人教A版)2020版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理

考试要求 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用. 知 识 梳 理 1.相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数. (1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^ =b ^ x +a ^ ,则b ^ =∑n i =1 (x i -x - )(y i -y - )∑n i =1 (x i -x - )2=∑n i =1 x i y i -nx - y - ∑n i =1 x 2 i -nx -2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^ 是在y 轴上的截距. 回归直线一定过样本点的中心(x - ,y - ). 3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x - ,y - )称为样本点的中心. (3)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强. r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.

【免费下载】概率论与数理统计案例

实例1 发行彩票的创收利润某一彩票中心发行彩票 10万张, 每张2元. 设头等奖1个, 奖金 1万元, 二等奖2个,奖金各 5 千元;三等奖 10个, 奖金各1千元; 四等奖100个, 奖金各100元; 五等奖1000个, 奖金各10 元.每张彩票的成本费为 0.3 元, 请计算彩票发行单位的创收利润.解:设每张彩票中奖的数额为随机变量X , 则X 10000 5000 1000 100 10 0p 51/1052/10510/105100/1051000/100p 每张彩票平均能得到奖金 05512()10000500001010E X p =? +?++? 0.5(),=元每张彩票平均可赚20.50.3 1.2(), --=元因此彩票发行单位发行 10 万张彩票的创收利润为:100000 1.2120000().?=元实例2 如何确定投资决策方向?某人有10万元现金,想投资于某项目,预估成功的机会为 30%,可得利润8万元 , 失败的机会为70%,将损失 2 万元.若存入银行,同期间的利率为5% ,问是否作此项投资?解:设 X 为投资利润,则 X 8 -2p 0.3 0.7()80.320.71(),E X =?-?=万元存入银行的利息:故应选择投资.1050.5(),%?=万元实例3 商店的销售策略某商店对某种家用电器的销售采用先使用后付款的方式,记使用寿命为X (以年计),规定1,1500;12,2000;23,2500; 3,3000.X X X X ≤<≤<≤>一台付款元一台付款元一台付款元一台付款元10,1e ,0,()100, 0.x X x f x x Y -?>?=??≤? 设寿命服从指数分布概率密度为试求该商店一台家用电器收费的数学期望定盒位置保护层防腐跨接地线弯曲半径标高等,要求技术交底。管线敷设技术、电气课校对图纸,编写复杂设备与装置高中资料试卷调试方案,编写重要设备高中资料、电气设备调试高中中资料试卷工况进行自动处理,尤其要避免错误高中资料试卷保护装置动作,并

专题突破练20 统计与统计案例

专题突破练20 统计与统计案例 1. (2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题: (1)算出第三组[60,70)的频数,并补全频率分布直方图; (2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表) 2.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^ =-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^ =99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d.

计数原理、概率、随机变量及其分布、统计、统计案例

计数原理、概率、随机变量及其分布、统计、统计案例 第Ⅰ卷(选择题 共60分) 一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的) 1.已知随机变量ξ服从正态分布N (1,σ2),P (ξ≤4)=,则P (ξ≤-2)=( ) A . B . C . D . 2.以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分) 已知甲组数据的平均数为17,乙组数据的中位数为17,则x ,y 的值分别为( ) A .2,6 B .2,7 C .3,6 D .3,7 3.将4个颜色互不相同的球全部收入编号为1和2的两个盒 子里,使得放入每个盒子里的球的个数不小于该盒子的编号,则不同的放球方法有( ) A .10种 B .20种 C .36种 D .52种 4.已知f (x )、g (x )都是定义在R 上的函数,g (x )≠0,f ′(x )g (x )-f (x )g ′(x )<0,fx gx =a x ,f 1g 1+ f -1 g -1=52,则关于x 的方程abx 2+2x +5 2=0(b ∈(0,1))有两个不同实根的概率为( ) 5.用0,1,…,9十个数字,可以组成有重复数字的三位数的个数为( ) A .243 B .252 C .261 D .279 6.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y 与x 负相关且y ^ =-; ② y 与x 负相关且y ^ =-+; ③y 与x 正相关且y ^ =+; ④y 与x 正相关且y ^ =--. 其中一定不正确的结论的序号是( ) A .①② B .②③

高考一轮复习变量间的相关关系与统计案例

第3讲 变量间的相关关系与统计案例 【2015年高考会这样考】 以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用. 【复习指导】 高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式. 基础梳理 1.相关关系的分类 从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则 ?? ??? b ^=∑i =1n (x i -x )(y i -y )∑i =1n (x i -x )2 = ∑i =1n x i y i -n x y ∑i =1 n x 2i -n x 2 , a ^=y -b ^ x . 其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数

r= ∑ i=1 n (x i-x)(y i-y) ∑ i=1 n (x i-x)2∑ i=1 n (y i-y)2 ,用它来衡量两个变量间的线性相关关系. (1)当r>0时,表明两个变量正相关; (2)当r<0时,表明两个变量负相关; (3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差 平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好. 6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1y2总计 x1 a b a+b x2 c d c+d 总计a+c b+d a+b+c+d K2=n(ad-bc)2 (a+b)(a+c)(c+d)(b+d) (其中n=a+b+c+d为样本容量),可利用独立性检验

随机变量、统计案例

随机变量的分布列及统计案例复习学案参考答案 例1、解析 ∵P (A )=C 22+C 23 C 25=25,P (AB )=C 22C 25 =110, ∴P (B |A )=P (AB )P (A )=1 4 . 答案 B 例2、解析 该题为几何概型,圆的半径为1,正方形的边长为2,∴圆的面积为 π,正方形面积为2,扇形面积为π4.故P (A )=2π,P (B |A )=P (A ∩B )P (A )=1 4. 答案 (1)2π (2)1 4 例3、 专题三 离散型随机变量的分布列、均值与方差 例4、 解 设A 、B 、C 分别为甲、乙、丙三台机床各自独立加工同一种零件是一等品的事件,依题意得 ?????????P (A ·B -)=14,P (B ·C -)=112,P (A ·C )=29,即???? ??? ??P (A )·(1-P (B ))=14,P (B )·(1-P (C ))=112,P (A )·P (C )=29, 得27[P (C )]2-51P (C )+22=0, 解得P (C )=23或P (C )=119 (舍). ∴P (A )=13,P (B )=14,P (C )=2 3 . 即甲、乙、丙三台机床各自独立加工的零件是一等品的概率分别为13,14,2 3. (2)记D 为从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的事件. P (D )=1-P (D -)=1-(1-P (A ))·(1-P (B ))·(1-P (C ))=1-23× 34×13=56,即从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的概率为56.

变量间的相关关系同步练习题

变量间的相关关系同步练习题 1. 下列两个变量具有相关关系的是( ) A. 正方体的体积与边长 B. 人的身高与体重 C. 匀速行驶车辆的行驶距离与时间 D. 球的半径与体积 2. 两个变量成负相关关系时,散点图的特征是( ) A. 点散布在从左下角到右上角的区域内 B. 点散布在某带形区域内 C. 点散布在某圆形区域内 D. 点散布在从左上角到右下角的区域内 3. 由一组样本数据(1x ,1y ),(2x ,2y ),…,(n x ,n y ),得到回归方程a bx y +=∧ ,那么下面说法不正确的是( ) A. 直线a bx y +=∧ 必经过点(x ,y ) B. 直线a bx y +=∧至少经过点(1x ,1y ),(2x ,2y ),…,(n x ,n y )中的一个点 C. 直线a bx y +=∧的斜率为 ∑∑==--n 1 i 2 2i n 1 i i i x n x y x n y x D. 直线a bx y +=∧ 和各点(1x ,1y ),(2x ,2y ),…,(n x ,n y )的偏差 ()[]∑=+-n 1 i 2 i i a bx y 是该坐标平面上所有直线与这些点的偏差中最小的直线 4. 若施化肥量x (单位:kg )与水稻产量y (单位:kg )的回归方程为250x 5y +=∧ ,则当施化肥量为80kg 时,预计水稻产量为___________。 5. 相关关系与函数关系的区别是___________。 (1)作出这些数据的散点图; (2)通过观察这两个变量的散点图,你能得出什么结论? 7. 某化工厂为预测某产品的回收率y ,需要研究回收率y 和原料有效成分含量x 之间的相关关系,现取了8对观察值,计算得: ∑==8 1 i i 52x , ∑==8 1 i i 228y , ∑=8 1 i 2 i x 478=, ∑==8 1 i i i 1849y x ,则y 与x 的回归方程是( ) A. x 62.247.11y +=∧ B. x 62.247.11y +-=∧ C. x 47.2262.2y +=∧ D. x 62.247.11y -=∧

2021届高三新题数学9月(适用新高考)专题二十 统计与统计案例(原卷版)

专题二十 统计与统计案例 一、单选题 1.(2020·河南宛城·南阳华龙高级中学月考(文))在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (2n ≥, 1x ,2x ,……,n x 不全相等)的散点图中,若所有样本点()(),1,2,,i i x y i n =???都在直线2 15 y x = +上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C . 12 D .1 二、多选题 2.(2020·江苏省丰县中学期末)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算2K 的观测值 5.059k ≈,则可以推断出( ) 附: A .该俱乐部的男性会员对运动场所满意的概率的估计值为 2 3 ; B .调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意; C .有97.5%的把握认为男性会员、女性会员对运动场所的评价有差异; D .有99%的把握认为男性会员、女性会员对运动场所的评价有差异. 第II 卷(非选择题)

三、解答题 3.(2020·河南宛城·南阳华龙高级中学月考(文))微信是现代生活中进行信息交流的重要工具.据统计,某公司200名员工中0090的人使用微信,其中每天使用微信时间少于一小时的有60人,其余的员工每天使用微信时间不少于一小时,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中0075是青年人.若规定:每天使用微信时间不少于一小时为经常使用微信,那么经常使用微信的员工中 2 3 都是青年人. (1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,完成22?列联表: (2)由列联表中所得数据判断,能否在犯错误的概率不超过0.001的前提下认为“经常使用微信与年龄有关”? 2 2 ()()()()() n ad bc k a b c d a c b d -=++++ 4.(2020·江苏泰州·期末)某企业的甲、乙两种产品在东部地区三个城市以及西部地区两个城市的销售量x , y 的数据如下:

2019版高考数学总复习第十章算法初步统计统计案例58变量间的相关关系与统计案例课时作业文20180

课时作业 58 变量间的相关关系与统计案例 一、选择题 1.(2018·石家庄模拟(一))下列说法错误的是( ) A .回归直线过样本点的中心(x -,y - ) B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1 C .对分类变量X 与Y ,随机变量K 2 的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小 D .在回归直线方程x ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^ 平均增加0.2个单位 解析:本题考查命题真假的判断.根据相关定义分析知A ,B ,D 正确;C 中对分类变量 X 与Y 的随机变量K 2的观测值k 来说,k 越大,判断“X 与Y 有关系”的把握程度越大,故 C 错误,故选C. 答案:C 2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元) 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x - .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元 解析:∵x -=10.0,y -=8.0,b ^=0.76,∴a ^=8-0.76×10=0.4,∴回归方程为y ^ =0.76x +0.4,把x =15代入上式得,y ^ =0.76×15+0.4=11.8(万元). 答案:B 3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男 女 合计 爱好 40 20 60 不爱好 20 30 50 合计 60 50 110 由K 2 = n ad -bc 2a +b c + d a +c b +d ,

变量之间的相关关系

课题:§2.3.1变量之间的相关关系 一.教学任务分析: (1)通过具体示例引导学生考察变量之间的关系,在讨论的过程中认识现实世界中存在着不能用函数模型描述的变量关系,从而体会研究变量之间的相关关系的重要性. (2) 通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.会作散点图,并对变量间的正相关或负相关关系作出直观判断. (3) 在解决统计问题的过程中,进一步体会用样本估计总体的思想,理解统计的作用. 二.教学重点与难点: 教学重点:利用散点图直观认识变量间的相关关系. 教学难点:理解变量间的相关关系. ↓ ↓ ↓ 1.创设情景,揭示课题 客观事物是相互联系的,过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系.比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因”,物理是“果”,或者反过来说,事实上数学和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度,所以说,函数关系存在着一种确定性关系,但还存在着另一种非确定性关系——相关关系. 生活中存在着许多相关关系的问题: 问题1:商品销售收入与广告支出之间的关系. 问题2:粮食产量和施肥量之间的关系. 问题3:人体内的脂肪含量与年龄之间的关系. 由上述问题我们知道,两个变量之间的关系,可能是确定关系或非确定关系.当自变量取

值一定时,因变量的取值带有一定的随机性时,两个变量之间的关系称为相关关系.相关关系是一种非确定性关系,函数关系是一种确定性的关系. 2.两个变量的线性相关 问题4: 在一次对人体的脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据: 问题5:某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对照表: 根据上述数据,气温与热茶销售量之间的有怎样的关系? 学生活动:为了了解热茶销量与气温的大致关系,我们以横坐标x表示气温,纵坐标y表示热茶销量,建立直角坐标系,将表中数据构成的6个数对所表示的点在坐标系内标出,得到下

3 第3讲 变量间的相关关系、统计案例

第3讲 变量间的相关关系、统计案例 1.变量间的相关关系 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. (3)回归方程为y ^=b ^x +a ^,其中b ^ =,a ^=y --b ^x -. (4)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性. 3.独立性检验 (1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为: y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a + b + c +d (2)K 2K 2= n (ad -bc )2 (a +b )(c +d )(a +c )(b +d ) (其中n =a +b +c +d 为样本容量). 判断正误(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )

高考数学统计与统计案例.doc

高考数学统计与统计案例1.小吴一星期的总开支分布如图 1 所示,一星期的食品开支如图 2 所示,则小吴一星期的鸡蛋开支占总开支的百分比为() A.1%B.2%C.3%D.5% C[ 由图 1 所示,食品开支占总开支的 30%,由图 2 所示,鸡蛋开支占食 品开支的30 = 1 , 30+40+100+80+ 50 10 1 ∴鸡蛋开支占总开支的百分比为30%×10=3%.故选 C.] 2.(2019 德·州模拟 )某人到甲、乙两市各7 个小区调查空置房情况,调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为() A.4B. 3C.2D.1 B[ 由茎叶图可以看出甲、乙两市的空置房的套数的中位数分别是79,76,因此其差是 79- 76=3,故选 B.] 3.某工厂对一批新产品的长度(单位: mm)进行检测,如图是检测结果的频

率分布直方,据此估批品的中位数() A.20B. 25C.22.5D.22.75 C[ 品的中位数出在概率是 0.5 的地方 . 自左至右各小矩形面依次 0.1,0.2,0.4,??,中位数是 x,由 0.1+0.2+0.08 ·(x-20)=0.5,得 x= 22.5, 故 C.] 4.(2019 ·三明模 )在某次高中数学中,随机抽取 90 名考生,其分数如所示,若所得分数的平均数,众数,中位数分 a, b, c, a,b,c 的大 小关系 () A.b

通用版2020版高考数学大二轮复习专题突破练20统计与统计案例理

专题突破练20 统计与统计案例 1.(2019四川成都二模,理18)为了让税收政策更好地为社会发展服务,国家在修订《中华人民共和国个人所得税法》之后,发布了《个人所得税专项附加扣除暂行办法》,明确“专项附加扣除”就 是子女教育、继续教育、大病医疗、住房贷款利息、住房租金、赡养老人等费用,并公布了相应的定额扣除标准,决定自2019年1月1日起施行.某企业为了调查内部职员对新个税方案的满意程度与年龄的关系,通过问卷调查,整理数据得如下2×2列联表: (1)根据列联表,能否有99%的把握认为满意程度与年龄有关? (2)为了帮助年龄在40岁以下的未购房的8名员工解决实际困难,该企业拟按员工贡献积分x(单位:分)给予相应的住房补贴y(单位:元),现有两种补贴方案,方案甲:y=1 000+700x;方案 乙:y=已知这8名员工的贡献积分为2分,3分,6分,7分,7分,11分,12分,12分,将采用方案甲比采用方案乙获得更多补贴的员工记为“A类员工”.为了解员工对补贴方案的认可度,现从这8名员工中随机抽取4名进行面谈,求恰好抽到3名“A类员工”的概率. 附:K2=-,其中n=a+b+c+d. 参考数据:

2.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为 … 7 建立模型①;=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为 … 7 建立模型②:=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

22 变量间的相关关系与统计案例-艺考生文化课百日冲刺

(二十二) 变量间的相关关系与统计案例 1.下列两个变量之间的关系是相关关系的是 A .正方体的棱长与体积 B .单位面积产量为常数时,土地面积与产量 C .日照时间与水稻的亩产量 D .电压一定时,电流与电阻 2.一位母亲记录了儿子3~9岁的身高,数据略,由此建立的身高与年龄的回归模型为,93.7319.7?+=x y 用这个模型预测这个孩子10岁时的身高,则正确的叙述是 . A .身高一定是145.83 cm B .身高在145.83 cm 以上 C .身高在145.83 cm 左右 D .身高在145.83 cm 以下 3.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是 423.1?+=?x y A 523.1?+=?x y B 08.023.1?+=?x y C 23.108.0?+=?x y D 4.对分类变量X 与Y 的随机变量2 K 的观测值k ,说法正确的是 A .k 越大,“X 与y 有关系”的可信程度越小 B .后越小,“X 与y 有关系”的可信程度越小 C .尼越接近于O ,“X 与y 无关”的可信程度越小 D .后越大,“X 与y 无关”的可信程度越大 5.已知算与y 之间的几组数据如下表: 则y 与x 的线性回归方程a bx y +=?必过 A .点(2,2) B .点(1.5,0) C .点(1,2) D .点(1.5,4) 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到 ,844.430202723)7102013(502 2 ≈????-??=K 因为≥2K ,841.3所以判定主修统计专业与性别有关系,那么 这种判断出错的可能性为

17统计与统计案例

二、考情分析 统计试题主要考察抽样方法、茎叶图、平均数、方差、频率分布表和频率分布直方图、正态分布,抽样方法主要考察系统抽样和分层抽样,较为简单,频率分布直方图和茎叶图是高考的另一个热点,应引起重视, 年高考试题已经设计变量的相关性、独立性检验,也应重视这一新动向三、经典例题: 题型一、抽样方法 (2010安徽)某地有居民100 000户,其中普通家庭99 000户,高收入 1 000户.从普通家庭中以简单随机抽样方式抽取990户,从高收入家庭中以简单随机抽样方式抽取l00户进行调查,发现共有120户家庭拥套或3套以上住房,其中普通家庭50户,高收人家庭70户.依据这些数据并结合所掌握的统计知识,你认为该地拥有3套或3套以上住房的家庭所占比例的合理估计是. 题型二、频率分布直方图和茎叶图与样本的数字特征 (2011)有一个容量为66的样本,数据的分组及各组的频数如下: .5,15.5) 2 [15.5,19.5) 4 [19.5,23.5) .5,27.5)18 [27.5,31.5)11 [31.5,35.5) .5.39.5)7 [39.5,43.5) 3 根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是( 1 6B. 1 3 C. 1 2 D. 2 3 )某老师从星期一到星期五收到信件数分别是10,6,8,5,6,

四、专题训练: 1(2011)已知随机变量 ξ 服从正态分布 2(2,) N a ,且 (4)0.8p ξ<=,则(02)p ξ<<=( ) A.0.6 B .0.4 C .0.3 D .0.2 2(2011)变量X 、Y 对应的一组数据(10,1),(11.3,2),(11.8,3), (12.5,4),(13,5);变量U 与V 对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),1r 表示变量Y 与X 之间的线性相关系数,2r 表示变量V 与U 之间的线性相关系数,则 ( ) A .2 10r r << B .210r r << C .210r r << D .21r r = 3( 根据上表可得回归方程y bx a =+中的b 为9.4,据此模型预测广告费用为6万元时销售额为 ( ) A .63.6万元 B .65.5万元 C .67.7万元 D .72.0万元 4(2010)样本中共有5个个体,其值分别为,0,1,2,3a ,若样本的平均 值为1,则样本方差为( ) A B 65 C D 2 5、某项体育比赛中,七位裁判为一选手打出的分数如下: 90 89 90 95 93 94 93 去掉一个最高分和一个最低分以后,所剩数据的平均数和方差分别是( ) A 92 2 B 92 2.8 C 93 2 D 93 2.8 6、某校高一年级8个班参加合唱比赛的得分的茎叶图如图所示,则这组数据的中位数和平均数分别是( ) A 91.5 91 .5 B 91.5 92 C 91 91.5 D 92 92 7.(2012)样本(12,,,n x x x )的平均数为x ,样本( 12,,m y y y ) 的平均数为 ()y x y ≠,若样本(12,,,n x x x ,12,,m y y y )的平均 数(1)z ax a y =+-,其中1 02 a <<,则n,m 的大小关系为( ) A .n m < B .n m > C .n m = D .不能确定 8.(2011)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关 系, 并由调查数据得到y 对x 的回归直线方程: 0.2540.321y x =+.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加____________万元. 9.(2010)某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉 花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在 区间[5,40]中,其频率分布直方图如图所示,则其抽样的100根中,有 根在棉花纤维的长度小于20mm 。 10.(2010) 将容量为n 的样本中的数据分成6组,绘制频率分布直方图。若第一组至第六组数据的频率之比为2:3:4: 6:4:1,且前三组数据的频数之和等于27,则n 等于 。 11.(2011)一支田径队有男运动员48人,女运动员36人,若用分层抽样 的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为___________ 12.(选做)(2011)某农场计划种植某种新作物,为此对这种作物的两个品种(分别称为品种甲和品种乙)进行田间试验.选取两大块地,每大块地分成n 小块地,在总共2n 小块地中,随机选n 小块地种植品种甲,另外n 小块地种植品种乙. (I )假设4n =,在第一大块地中,种植品种甲的小块地的数目记为X , 求X 的分布列和数学期望; (II )试验时每大块地分成8小块,即n =8,试验结束后得到品种甲和品种 2 结果,你认为应该种植哪一品种?

第3讲 变量间的相关关系与统计案例

第3讲 变量间的相关关系与统计案例 以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用. 【复习指导】 高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式. 1.相关关系的分类 从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^ ,则 ()()() 11 22 211 n n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====? ---? ?==??--?? =-??∑∑∑∑ 其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数 ()() n i i x x y y r --= ∑,用它来衡量两个变量间的线性相关关系. (1)当r >0时,表明两个变量正相关; (2)当r <0时,表明两个变量负相关; (3)r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型

相关主题
文本预览
相关文档 最新文档