当前位置:文档之家› 高中数学练习:变量的相关性与统计案例

高中数学练习:变量的相关性与统计案例

高中数学练习:变量的相关性与统计案例
高中数学练习:变量的相关性与统计案例

高中数学练习:变量的相关性与统计案例基础巩固(时间:30分钟)

1。对变量x,y有观测数据(x

i ,y

i

)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据

(u

i ,v

i

)(i=1,2,…,10),得散点图(2)。由这两个散点图可以判断( C )

(A)变量x与y正相关,u与v正相关

(B)变量x与y正相关,u与v负相关

(C)变量x与y负相关,u与v正相关

(D)变量x与y负相关,u与v负相关

解析:由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关。故选C。

2。(湖南邵阳联考)假设有两个分类变量X和Y的2×2列联表为

Y X y

1

y

2

总计

x

1

a 10 a+10

x

2

c 30 c+30

总计60 40 100

(A)a=45,c=15 (B)a=40,c=20

(C)a=35,c=25 (D)a=30,c=30

解析:由题意可得,当与相差越大,X与Y有关系的可能性越大,分析四组选项,A中的a,c的值最符合题意,故选A。

3。(甘肃模拟)如表是我国某城市在2018年1月份至10月份各月最低温与最高温(℃)的数据一览表。

月份 1 2 3 4 5 6 7 8 9 10

最高温 5 9 9 11 17 24 27 30 31 21 最低温-12 -3 1 -2 7 17 19 23 25 10 已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( B )

(A)最低温与最高温为正相关

(B)每月最高温与最低温的平均值在前8个月逐月增加

(C)月温差(最高温减最低温)的最大值出现在1月

(D)1月至4月的月温差(最高温减最低温)相对于7月至10月,波动性更大

解析:根据题意,依次分析选项,

A中,该城市的各月最低气温与最高气温具有相关关系,根据数据分析可知最低气温与最高气温为正相关,A正确;B中,由表中数据,每月的最低气温与最高气温的平均值依次为-3。5,3,5,4。5,12,20。5,23,

26。5,28,15。5,在前8个月不是逐月增加的,因此B错误;

C中,由表中数据,月温差依次为17,12,8,13,10,7,8,7,6,11,月温差的最大值出现在1月,C正确;D中,根据C中温差的数据可得1月至4月的月温差相对于7月至10月,波动更大,D正确。故选B。

4。(贵阳适应)某公司某件产品的定价x与销量y之间的数据统计表如下,根据数据,用最小二乘法得出y与x的线性回归直线方程为=6。5x+17。5,则表格中n的值应为( D ) x 2 4 5 6 8

y 30 40 n 50 70

解析:由题意得,根据题表中的数据可知==5,=,代入回归直线方

程可得=6。5×5+17。5?n=60,故选D。

5。(定兴中学模拟)“真人秀”热潮在我国愈演愈烈,为了了解学生是否喜欢某“真人秀”节目,在某中学随机调查了110名学生,得到如下列联表:

男女总计

喜欢40 20 60

不喜欢20 30 50

总计60 50 110

由K2=算得K2=≈7。8。

附表:

P(K2≥k) 0。050 0。010 0。001 k 3。841 6。635 10。828

(A)在犯错误的概率不超过0。1%的前提下,认为“喜欢该节目与性别有关”

(B)在犯错误的概率不超过0。1%的前提下,认为“喜欢该节目与性别无关”

(C)有99%以上的把握认为“喜欢该节目与性别有关”

(D)有99%以上的把握认为“喜欢该节目与性别无关”

解析:因为7。8<10。828,所以不能在犯错误的概率不超过0。1%的前提下,认为“喜欢该节目与性别有关”;又因为7。8>6。635,所以有99%以上的把握认为“喜欢该节目与性别有关”,故选C。

6。(四川南充一诊)已知变量x与变量y之间具有相关关系,并测得如下一组数据:x 6 5 10 12

y 6 5 3 2

(A)=0。7x-2。3 (B)=-0。7x+10。3

(C)=-10。3x+0。7 (D)=10。3x-0。7

解析:根据表中数据,得

=(6+5+10+12)=,

=(6+5+3+2)=4,

且变量y随变量x的增大而减小,是负相关,

所以,验证=时,=-0。7×+10。3≈4,

即回归直线=-0。7x+10。3过样本点的中心(,)。

故选B。

7。(广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:

理科文科总计男13 10 23

女7 20 27

总计20 30 50

已知P(K2≥3。841)≈0。05,P(K2≥5。024)≈0。025。

根据表中数据,得到K2=≈4。844,则认为选修文理科与性别有关系出错的可能性约为。

解析:由4。844>3。841。故认为选修文理科与性别有关系出错的可能性约为5%。

答案:5%

8。已知下列表格所示的数据的回归直线方程为=3。8x+,则的值为。

x 2 3 4 5 6

y 251 254 257 262 266

解析:由表格可知,==4,

==258。

由回归直线经过样本点的中心(,),得258=3。8×4+,

所以=242。8。

答案:242。8

能力提升(时间:15分钟)

9。(豪洋中学模拟)某研究机构在对具有线性相关的两个变量x和y进行统计分析时,得到如下数据:

x 4 6 8 10 12

y 1 2 3 5 6

由表中数据求得y关于x的回归方程为=0。65x+,则在这些样本点中任取一点,该点落在回归直线下方的概率为( A )

(A)(B)(C)(D)

解析:因为=8,=3。4,所以3。4=0。65×8+,解得=-1。8,则=0。65x-1。8,可知5

个点中落在回归直线下方的有(6,2),(8,3),共有两个,因而所求概率为,故选A。

10。已知下列命题:

①在线性回归模型中,R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;

②两个变量相关性越强,则相关系数的绝对值就越接近于1;

③在线性回归方程=-0。5x+2中,当解释变量x每增加一个单位时,预报变量平均减少0。5个单位;

④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大。

其中正确命题的序号是。

解析:由R2的性质可知①正确;由相关系数的性质可知②正确;由线性回归方程中回归截距的几何意义可得③正确;对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越小,k越大,“X与Y有关系”的把握程度越大,④错误。所以正确命题的序号是①②③。

答案:①②③

11。在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下联表:

感染未感染总计服用10 40 50

未服用20 30 50

总计30 70 100

参考公式:K2=

) 0。15 0。10 0。05 0。025 P(K2>k

2。072 2。706 3。841 5。024 k

P(K2>k

) 0。010 0。005 0。001

6。635 7。879 10。828 k

参照附表,在犯错误的概率最多不超过(填百分比)的前提下,可认为“该种疫苗对预防埃博拉病毒感染有效果”。

解析:由题意可得,K2的观测值k=≈4。762>3。841,参照附表,可得:在犯错误的概率不超过5%的前提下,认为“该种疫苗对预防埃博拉病毒感染有效果”。答案:5%

12。(青岛一模)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:

x 2 4 5 6 8

y 30 40 50 60 70

根据上表可得回归方程=x+,其中=7,据此估计,当投入10万元广告费时,销售额为万元。

解析:由题意可得:==5,==50,

线性回归方程过样本点的中心,则50=7×5+,所以=15,

线性回归方程为=7x+15,

据此估计,当投入10万元广告费时,销售额为=7×10+15=85万元。

答案:85

13。(漳州二模)合成纤维抽丝工段第一导丝盘速度y对丝的质量很重要,今发现它与电流的周波x有关系,由生产记录得到10对数据,并对数据作了初步处理,得到下面的散点图及一些统计量的值。

496。1

x

i

y

i

168。6

(x

i -)2

1。989

(y

i -)2

0。244

x i y

i

8 364。92

(x

i -)(y

i

-)

0。674

(2)根据表中数据,建立y关于x的回归方程。

参考公式:相关系数r=,回归方程=+x中斜率和截距的最小二乘

估计公式分别是=,=-。

解:(1)根据题意,计算相关系数为

r==;

所以r2=≈0。936且r>0,

故y与x具有很强的正相关关系。

(2)依题意,=≈0。34,

又=x

i

=49。61。

=y

i

=16。86,

解得=16。86-0。34×49。61≈0;

故y关于x的回归直线方程为y=0。34x。

14。(厦门一模)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:

阅读

时间

[0,20)

[20,

40)

[40,

60)

[60,

80)

[80,

100)

[100,

120]

人数8 10 12 11 7 2

若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图。

(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);

(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?

男生女生总计阅读达人

非阅读达人

总计

附:参考公式:K2=,其中n=a+b+c+d。

临界值表:

P(K2≥k

) 0。100 0。050 0。010 0。001

k

2。706 3。841 6。635 10。828

10×+30×+50×+70×+90×+110×=1。6+6+12+15。4+12。6+

4。4=52(分)。

(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图作出2×2列联表

如下:

男生女生总计阅读达人 6 14 20

非阅读达人18 12 30 总计24 26 50

计算K2==≈4。327,

由于4。327<6。635,故没有99%的把握认为“阅读达人”跟性别有关。

相关主题
文本预览
相关文档 最新文档