高中数学练习:变量的相关性与统计案例基础巩固(时间:30分钟)
1。对变量x,y有观测数据(x
i ,y
i
)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据
(u
i ,v
i
)(i=1,2,…,10),得散点图(2)。由这两个散点图可以判断( C )
(A)变量x与y正相关,u与v正相关
(B)变量x与y正相关,u与v负相关
(C)变量x与y负相关,u与v正相关
(D)变量x与y负相关,u与v负相关
解析:由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关。故选C。
2。(湖南邵阳联考)假设有两个分类变量X和Y的2×2列联表为
Y X y
1
y
2
总计
x
1
a 10 a+10
x
2
c 30 c+30
总计60 40 100
(A)a=45,c=15 (B)a=40,c=20
(C)a=35,c=25 (D)a=30,c=30
解析:由题意可得,当与相差越大,X与Y有关系的可能性越大,分析四组选项,A中的a,c的值最符合题意,故选A。
3。(甘肃模拟)如表是我国某城市在2018年1月份至10月份各月最低温与最高温(℃)的数据一览表。
月份 1 2 3 4 5 6 7 8 9 10
最高温 5 9 9 11 17 24 27 30 31 21 最低温-12 -3 1 -2 7 17 19 23 25 10 已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( B )
(A)最低温与最高温为正相关
(B)每月最高温与最低温的平均值在前8个月逐月增加
(C)月温差(最高温减最低温)的最大值出现在1月
(D)1月至4月的月温差(最高温减最低温)相对于7月至10月,波动性更大
解析:根据题意,依次分析选项,
A中,该城市的各月最低气温与最高气温具有相关关系,根据数据分析可知最低气温与最高气温为正相关,A正确;B中,由表中数据,每月的最低气温与最高气温的平均值依次为-3。5,3,5,4。5,12,20。5,23,
26。5,28,15。5,在前8个月不是逐月增加的,因此B错误;
C中,由表中数据,月温差依次为17,12,8,13,10,7,8,7,6,11,月温差的最大值出现在1月,C正确;D中,根据C中温差的数据可得1月至4月的月温差相对于7月至10月,波动更大,D正确。故选B。
4。(贵阳适应)某公司某件产品的定价x与销量y之间的数据统计表如下,根据数据,用最小二乘法得出y与x的线性回归直线方程为=6。5x+17。5,则表格中n的值应为( D ) x 2 4 5 6 8
y 30 40 n 50 70
解析:由题意得,根据题表中的数据可知==5,=,代入回归直线方
程可得=6。5×5+17。5?n=60,故选D。
5。(定兴中学模拟)“真人秀”热潮在我国愈演愈烈,为了了解学生是否喜欢某“真人秀”节目,在某中学随机调查了110名学生,得到如下列联表:
男女总计
喜欢40 20 60
不喜欢20 30 50
总计60 50 110
由K2=算得K2=≈7。8。
附表:
P(K2≥k) 0。050 0。010 0。001 k 3。841 6。635 10。828
(A)在犯错误的概率不超过0。1%的前提下,认为“喜欢该节目与性别有关”
(B)在犯错误的概率不超过0。1%的前提下,认为“喜欢该节目与性别无关”
(C)有99%以上的把握认为“喜欢该节目与性别有关”
(D)有99%以上的把握认为“喜欢该节目与性别无关”
解析:因为7。8<10。828,所以不能在犯错误的概率不超过0。1%的前提下,认为“喜欢该节目与性别有关”;又因为7。8>6。635,所以有99%以上的把握认为“喜欢该节目与性别有关”,故选C。
6。(四川南充一诊)已知变量x与变量y之间具有相关关系,并测得如下一组数据:x 6 5 10 12
y 6 5 3 2
(A)=0。7x-2。3 (B)=-0。7x+10。3
(C)=-10。3x+0。7 (D)=10。3x-0。7
解析:根据表中数据,得
=(6+5+10+12)=,
=(6+5+3+2)=4,
且变量y随变量x的增大而减小,是负相关,
所以,验证=时,=-0。7×+10。3≈4,
即回归直线=-0。7x+10。3过样本点的中心(,)。
故选B。
7。(广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:
理科文科总计男13 10 23
女7 20 27
总计20 30 50
已知P(K2≥3。841)≈0。05,P(K2≥5。024)≈0。025。
根据表中数据,得到K2=≈4。844,则认为选修文理科与性别有关系出错的可能性约为。
解析:由4。844>3。841。故认为选修文理科与性别有关系出错的可能性约为5%。
答案:5%
8。已知下列表格所示的数据的回归直线方程为=3。8x+,则的值为。
x 2 3 4 5 6
y 251 254 257 262 266
解析:由表格可知,==4,
==258。
由回归直线经过样本点的中心(,),得258=3。8×4+,
所以=242。8。
答案:242。8
能力提升(时间:15分钟)
9。(豪洋中学模拟)某研究机构在对具有线性相关的两个变量x和y进行统计分析时,得到如下数据:
x 4 6 8 10 12
y 1 2 3 5 6
由表中数据求得y关于x的回归方程为=0。65x+,则在这些样本点中任取一点,该点落在回归直线下方的概率为( A )
(A)(B)(C)(D)
解析:因为=8,=3。4,所以3。4=0。65×8+,解得=-1。8,则=0。65x-1。8,可知5
个点中落在回归直线下方的有(6,2),(8,3),共有两个,因而所求概率为,故选A。
10。已知下列命题:
①在线性回归模型中,R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;
②两个变量相关性越强,则相关系数的绝对值就越接近于1;
③在线性回归方程=-0。5x+2中,当解释变量x每增加一个单位时,预报变量平均减少0。5个单位;
④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大。
其中正确命题的序号是。
解析:由R2的性质可知①正确;由相关系数的性质可知②正确;由线性回归方程中回归截距的几何意义可得③正确;对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越小,k越大,“X与Y有关系”的把握程度越大,④错误。所以正确命题的序号是①②③。
答案:①②③
11。在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下联表:
感染未感染总计服用10 40 50
未服用20 30 50
总计30 70 100
参考公式:K2=
) 0。15 0。10 0。05 0。025 P(K2>k
2。072 2。706 3。841 5。024 k
P(K2>k
) 0。010 0。005 0。001
6。635 7。879 10。828 k
参照附表,在犯错误的概率最多不超过(填百分比)的前提下,可认为“该种疫苗对预防埃博拉病毒感染有效果”。
解析:由题意可得,K2的观测值k=≈4。762>3。841,参照附表,可得:在犯错误的概率不超过5%的前提下,认为“该种疫苗对预防埃博拉病毒感染有效果”。答案:5%
12。(青岛一模)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 50 60 70
根据上表可得回归方程=x+,其中=7,据此估计,当投入10万元广告费时,销售额为万元。
解析:由题意可得:==5,==50,
线性回归方程过样本点的中心,则50=7×5+,所以=15,
线性回归方程为=7x+15,
据此估计,当投入10万元广告费时,销售额为=7×10+15=85万元。
答案:85
13。(漳州二模)合成纤维抽丝工段第一导丝盘速度y对丝的质量很重要,今发现它与电流的周波x有关系,由生产记录得到10对数据,并对数据作了初步处理,得到下面的散点图及一些统计量的值。
496。1
x
i
y
i
168。6
(x
i -)2
1。989
(y
i -)2
0。244
x i y
i
8 364。92
(x
i -)(y
i
-)
0。674
(2)根据表中数据,建立y关于x的回归方程。
参考公式:相关系数r=,回归方程=+x中斜率和截距的最小二乘
估计公式分别是=,=-。
解:(1)根据题意,计算相关系数为
r==;
所以r2=≈0。936且r>0,
故y与x具有很强的正相关关系。
(2)依题意,=≈0。34,
又=x
i
=49。61。
=y
i
=16。86,
解得=16。86-0。34×49。61≈0;
故y关于x的回归直线方程为y=0。34x。
14。(厦门一模)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
阅读
时间
[0,20)
[20,
40)
[40,
60)
[60,
80)
[80,
100)
[100,
120]
人数8 10 12 11 7 2
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图。
(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);
(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?
男生女生总计阅读达人
非阅读达人
总计
附:参考公式:K2=,其中n=a+b+c+d。
临界值表:
P(K2≥k
) 0。100 0。050 0。010 0。001
k
2。706 3。841 6。635 10。828
10×+30×+50×+70×+90×+110×=1。6+6+12+15。4+12。6+
4。4=52(分)。
(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图作出2×2列联表
如下:
男生女生总计阅读达人 6 14 20
非阅读达人18 12 30 总计24 26 50
计算K2==≈4。327,
由于4。327<6。635,故没有99%的把握认为“阅读达人”跟性别有关。