变量的相关性课后习题
- 格式:doc
- 大小:446.50 KB
- 文档页数:15
第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。
2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。
(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,)()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )A .57.2 3.6B .57.2 56.4C .62.8 63.6D .62.8 3.64.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,476.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。
科 目 数学 年级 高三 备课人 高三数学组第 课时8.9变量的相关性、案例统计考纲定位 会收集现实问题中两个有关联变量的数据并作出散点图,会利用散点图直观认识变量间的相关关系;能根据给出的线性回归方程系数公式建立线性回归方程;了解独立性检验的基本思想、方法及其简单应用.一、回归分析1、若回归直线方程为ˆ2 1.5yx =-,则变量x 增加一个单位,y ( )C A.平均增加1.5个单位 B.平均增加2个单位 C.平均减少1.5个单位 D.平均减少2个单位2、在2012年3月15日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 与售量y 之间的一组数据如下表所示: 价格x 9 9.5 10 10.5 11 销售量y1110865由散点图可知,销售量y 与价格x 之间有较好的线性相关关系,且回归直线方程是ˆˆ3.2yx a =-+,则ˆa =( )D A.-24 B.35.6 C.40.5 D.40 例1、某百货公司1-6月份的售售量x 与利润y 的统计数据如下表: 月份1 2 3 4 5 6 销售量x (万件)1011 13 12 8 6 销售量y (万元) 222529261612(1)根据2-5月份的数据,画出散点图,求出y 关于x 的回归直线方程ˆˆˆybx a =+; (2)若回归直线方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的回归直线方程是理想的,试问所得回归直线方程是否理想?1830ˆ77yx =-变式训练:1、(2012 湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据),(i i y x ),,2,1(n i =,用最小二乘法建立的回归方程为71.8585.0ˆ-=x y,则下列结论中不正确...的是( )D A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心),(y xC .若该大学某女生身高增加1cm ,则其体重约增加85.0kgD .若该大学某女生身高为170cm ,则可断定其体重比为79.58kg2、(2010 湖南)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ) A. ^10200y x =-+ B. ^10200y x =+ C. ^10200y x =-- D. ^10200y x =-3、(2011 山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 42 3 5销售额y (万元)49 26 39 54根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元4、(2011 江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下则y 对x 的线性回归方程为( )A .ˆ1yx =- B .ˆ1y x =+ C .1ˆ882y x =+ D .ˆ176y= 二、独立性检验 1、(2011 湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由22()()()()()n ad bc K a b c d a c b d -=++++算得22110(40302020)7.860506050K ⨯⨯-⨯=≈⨯⨯⨯ 附表:2()P K k ≥0.050 0.010 0.001 k3.8416.63510.828参照附表,得到的正确结论是( )DA .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别有关”2、有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表: 优秀 非优秀 总计 爱好 10 b 不爱好 c 30 总计105已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( ) A.列联表中c 的值为30,b 的值为35 B.列联表中c 的值为15,b 的值为50 C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系” D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 【课后反思】。
第九章相关与回归一.判断题部分题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。
()答案:×题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。
()答案:√题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。
()答案:×题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。
()答案:×题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。
()答案:×题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。
()答案:√题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。
()答案:×题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。
()答案:×题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。
()答案:√题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。
()答案:×题目11:完全相关即是函数关系,其相关系数为±1。
()答案:√题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。
()答案×二.单项选择题部分题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。
A.相关关系B.函数关系C.回归关系D.随机关系答案:B题目2:现象之间的相互关系可以归纳为两种类型,即()。
A.相关关系和函数关系B.相关关系和因果关系第 3 页共27页C.相关关系和随机关系D.函数关系和因果关系答案:A题目3:在相关分析中,要求相关的两变量()。
A.都是随机的B.都不是随机变量C.因变量是随机变量D.自变量是随机变量答案:A题目4:测定变量之间相关密切程度的指标是()。
判断变量之间的独立性或相关性练习题1. 问题描述在统计学和数据分析中,我们经常需要判断变量之间的独立性或相关性,以便更好地理解数据的特征和关系。
本文将提供一些练习题,帮助读者熟悉判断变量之间独立性或相关性的方法和技巧。
2. 变量之间的独立性判断题在下列描述中,判断给出的两个变量是否独立。
问题1:调查了一批成年人的性别和婚姻状况。
其中,男性中已婚比例为70%,女性中已婚比例为65%。
是否可以得出性别与婚姻状况之间相关?问题2:研究了某地区的月平均气温和空调使用率,发现当月气温较高时,空调使用率也相对较高。
是否可以得出气温与空调使用率之间相关?问题3:对一批成年人进行了体质指数(BMI)的测量,并同时记录了其饮食习惯(如常食高糖食品与否)。
分析结果发现,BMI数值较高的人群中,高糖饮食比例较高。
是否可以得出BMI与饮食习惯之间相关?3. 变量之间的相关性判断题在下列描述中,判断给出的两个变量之间是否存在相关性。
问题4:某城市进行了一项交通管制措施,限制了车辆通行时间。
研究发现,在管制时间内,车辆拥堵现象显著减少。
是否可以得出交通管制措施与车辆拥堵之间相关?问题5:调查了一批家庭成员年龄与每月家庭支出的数据,并进行了相关分析。
结果显示,随着家庭成员年龄的增长,家庭支出也呈现上升趋势。
是否可以得出家庭成员年龄与家庭支出之间相关?问题6:研究了某一批学生的熬夜时间与学习成绩,发现熬夜时间较长的学生,其学习成绩普遍较低。
是否可以得出熬夜时间与学习成绩之间相关?4. 解答及分析问题1:性别与婚姻状况相关性分析由于给出了男性和女性中已婚比例的数据,我们可以计算两者之间的卡方检验,从而判断性别与婚姻状况之间是否存在相关性。
问题2:气温与空调使用率相关性分析我们可以使用Pearson相关系数来分析气温与空调使用率之间的相关性。
通过计算相关系数的数值,可以判断两者之间是否存在线性相关关系。
问题3:BMI与饮食习惯相关性分析对于这个问题,我们可以使用卡方检验来判断BMI与饮食习惯之间的相关性。
第3节变量间的相关关系与独立性检验课时训练练题感提知能【选题明细表】A组一、选择题1.(2013衡水中学模拟)对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( A )(A)r2<r4<0<r3<r1 (B)r4<r2<0<r1<r3(C)r4<r2<0<r3<r1 (D)r2<r4<0<r1<r3解析:由题图知(1)(3)为正相关,(1)中的点大致集中在一条直线附近,(3)较分散,所以r1>r3>0,又(2)(4)为负相关且(2)较集中在直线附近,(4)较分散,所以r2<r4<0.综上得r2<r4<0<r3<r1.故选A.2.(2013韶关市调研)已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( C )(A)=1.23x+4 (B)=1.23x+5(C)=1.23x+0.08 (D)=0.08x+1.23解析:由题意可知回归直线=1.23x+a过点(4,5),代入解得a=0.08,所以回归方程为=1.23x+0.08,故选C.3.某产品的广告费用x与销售额y的统计数据如表:根据表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( B )(A)63.6万元 (B)65.5万元(C)67.7万元 (D)72.0万元解析:样本点的中心是(3.5,42),则=-=42-9.4×3.5=9.1,所以回归方程是=9.4x+9.1,把x=6代入得=65.5.故选B.4.设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( A )(A)直线l过点(,)(B)x和y的相关系数为直线l的斜率(C)x和y的相关系数在0到1之间(D)当n为偶数时,分布在l两侧的样本点的个数一定相同解析:样本点的中心(,)必在回归直线上.故选A.5.(2013合肥一中质量检测)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归方程为( C )(A)=2.3x-0.7 (B)=2.3x+0.7(C)=0.7x-2.3 (D)=0.7x+2.3=158,=344,解析:由题中表格,=9,=4,xi y i∴==0.7,=4-0.7×9=-2.3,∴回归直线方程为=0.7x-2.3.故选C.6.(2013东北三校联考)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位;③回归方程=x+必过(,);④有一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( B )(A)0 (B)1 (C)2 (D)3本题可以参考独立性检验临界值表:解析:一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x的系数具备直线斜率的功能,对于回归方程=3-5x,当x增加一个单位时,y平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程=x+必过点(,),③正确;因为K2=13.079>6.635,故有99%的把握确认这两个变量间有关系,④正确.故选B.二、填空题7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如表),由最小二乘法求得回归方程=0.67x+54.9.现发现表中有一个数据模糊看不清,请你推断出该数据的值为.解析:依题意,=×(10+20+30+40+50)=30.由于直线=0.67x+54.9必过点(,),于是有=0.67×30+54.9=75,因此表中的模糊数据是75×5-(62+75+81+89)=68.答案:688.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2=≈4.844,则认为选修文科与性别有关系出错的可能性约为.解析:由K2=4.844>3.841.故认为选修文科与性别有关系出错的可能性约为5%.答案:5%9.(2013济南三模)某市居民2009~2013年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如表所示:根据统计资料,居民家庭年平均收入的中位数是,家庭年平均收入与年平均支出有线性相关关系.解析:5个x值是按从小到大的顺序排列的,因此居民家庭年平均收入的中位数是13万元.以家庭年平均收入x作为x轴,年平均支出Y作为y轴,描点得到散点图如图所示:观察散点图可知,这些点大致分布在一条直线的附近,且总体呈上升趋势,因此家庭年平均收入与年平均支出有正线性相关关系.答案:13万元正10.某工厂经过技术改造后,降低了能源消耗,经统计该厂某种产品的产量x(单位:吨)与相应的生产能耗y(单位:吨)有如下几组样本数据:根据相关性检验,这组样本数据具有线性相关关系,通过线性回归分析,求得回归直线的斜率为0.7.已知该产品的年产量为10吨,则该工厂每年的生产能耗大约为吨.解析:由题知,==4.5,==3.5,故样本数据的中心点为A(4.5,3.5).设回归方程为=0.7x+,将中心点坐标代入得:3.5=0.7×4.5+,解得=0.35,故回归方程为=0.7x+0.35,所以当x=10时,=0.7×10+0.35=7.35,即该工厂每年的生产能耗大约为7.35吨.答案:7.35三、解答题11.(2013湛江高考测试(二))某市甲、乙两个学校高二年级学生分别有1100人和1000人,为了解这两校全体高二年级学生期末统考中的数学成绩情况,采用分层抽样方法从两所学校共抽取了105名高二学生的数学成绩,并得到成绩频数分布表如下,规定考试成绩在[120,150]内为优秀.甲校:乙校:(1)求表中x与y的值;(2)由以上统计数据完成下面2×2列联表,问是否有99%的把握认为学生数学成绩优秀与所在学校有关?解:(1)由分层抽样可知,甲校抽取105×=55(人),乙校抽取105-55=50(人),所以x=6,y=7.(2)K2=≈6.109<6.635,所以没有99%的把握认为学生数学成绩优秀与所在学校有关.12.(2013年高考重庆卷)从某居民区随机抽取10个家庭,获得第i个家庭的月收入x i(单位:千元)与月储蓄y i(单位:千元)的数据资料,算得x i=80,y i=20,x i y i=184,=720.(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y=bx+a中,b=,a=-b,其中,为样本平均值,线性回归方程也可写为=x+.解:(1)由题意知n=10,=8,=2,又-n=720-10×82=80,x i y i-n=184-10×8×2=24,由此得b===0.3,a=-b=2-0.3×8=-0.4,故所求回归方程为y=0.3x-0.4.(2)由于变量y的值随x值的增加而增加(b=0.3>0),故x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).13.(2013大连一模)某工厂用甲、乙两种不同工艺生产一大批同一种零件,零件尺寸均在[21.7,22.3](单位:cm)之间,把零件尺寸在[21.9,22.1)的记为一等品,尺寸在[21.8,21.9)∪[22.1,22.2)的记为二等品,尺寸在[21.7,21.8)∪[22.2,22.3]的记为三等品,现从甲、乙工艺生产的零件中各随机抽取100件产品,所得零件尺寸的频率分布直方图如图所示:(1)根据上述数据完成下列2×2列联表,根据此数据你是否有95%的把握认为选择不同的工艺与生产出一等品有关?(2)若一等品、二等品、三等品的单件利润分别为30元、20元、15元,求出上述甲工艺所抽取的100件产品的单件利润的平均数. 解:(1)2×2列联表如表:K2=≈2.02<3.841,所以没有95%的把握认为选择不同的工艺与生产出一等品有关. (2)甲工艺抽取的100件产品中,一等品有50件,二等品有30件,三等品有20件,所以这100件产品单件利润的平均数为(50×30+30×20+20×15)=24.B组14.(2013年高考福建卷)已知x与y之间的几组数据如表:假设根据如表数据所得线性回归直线方程为=x+,若某同学根据表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b'x+a',则以下结论正确的是( C )(A)>b',>a'(B)>b',<a'(C)<b',>a'(D)<b',<a'解析:由两组数据(1,0)和(2,2)可求b'==2,a'=0-2×1=-2.利用线性回归方程的公式与已知表格中的数据,可求得===,=-=-×=-,所以<b',>a'.故选C.15.已知x,y之间的一组数据如表:对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=x-;④y=x.则根据最小二乘法的思想求得拟合程度最好的直线是(填序号).解析:由题意知=4,=6,∴==,∴=-=-,∴=x-,∴填③.答案:③16.(2013韶关市高考模拟)以下四个命题:①在一次试卷分析中,从每个试室中抽取第5号考生的成绩进行统计,这种抽样方法是简单随机抽样;②样本数据:3,4,5,6,7的方差为2;③对于相关系数r,|r|越接近1,则线性相关程度越强;④通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:由K2==≈7.8.则有99%以上的把握认为“选择过马路的方式与性别有关”,其中正确命题的序号是.附表:解析:对于①,易知该抽样方法属于系统抽样,因此①不正确;对于②,该组数据的平均数是(3+4+5+6+7)=5,方差是(22×2+12×2+02)=2,因此②正确;对于③,由相关系数的意义得知,③正确;对于④,注意到7.8≥6.635,因此有99%以上的把握认为“选择过马路的方式与性别有关”,④正确.答案:②③④。
第八章-相关与回归分析练习题第八章相关与回归分析一、单选题1.相关分析研究的是()A、变量间相互关系的密切程度B、变量之间因果关系C、变量之间严格的相依关系D、变量之间的线性关系2.若变量X的值增加时,变量Y的值也增加,那么变量X和变量Y之间存在着()。
A、正相关关系 B、负相关关系 C、直线相关关系 D、曲线相关关系3.若变量X的值增加时,变量Y的值随之下降,那么变量X和变量Y之间存在着()。
A、正相关关系 B、负相关关系 C、直线相关关系 D、曲线相关关系4.相关系数等于零表明两变量()。
A.是严格的函数关系B.不存在相关关系C.不存在线性相关关系D.存在曲线线性相关关系5.相关关系的主要特征是()。
A、某一现象的标志与另外的标志之间的关系是不确定的B、某一现象的标志与另外的标志之间存在着一定的依存关系,但它们不是确定的关系C、某一现象的标志与另外的标志之间存在着严格的依存关系D、某一现象的标志与另外的标志之间存在着不确定的直线关系 6.时间数列自身相关是指()。
A、两变量在不同时间上的依存关系 B、两变量静态的依存关系C、一个变量随时间不同其前后期变量值之间的依存关系D、一个变量的数值与时间之间的依存关系7.如果变量X和变量Y之间的相关系数为负1,说明两个变量之间()。
A、不存在相关关系 B、相关程度很低 C、相关程度很高 D、完全负相关8.若物价上涨,商品的需求量愈小,则物价与商品需求量之间()。
A、无相关 B、存在正相关 C、存在负相关 D、无法判断是否相关 9.相关分析对资料的要求是()。
A.两变量均为随机的 B.两变量均不是随机的 C、自变量是随机的,因变量不是随机的 D、自变量不是随机的,因变量是随机的 10.回归分析中简单回归是指()。
A.时间数列自身回归 B.两个变量之间的回归 C.变量之间的线性回归 D.两个变量之间的线性回归11.已知某工厂甲产品产量和生产成本有直线关系,在这条直线上,当产量为1000时,其生产成本为30000元,其中不随产量变化的成本为6000元,则成本总额对产量的回归方程为()A. y=6000+24xB. y=6+0.24xC. y=24000+6xD. y=24+6000x12.直线回归方程中,若回归系数为负,则() A.表明现象正相关 B.表明现象负相关C.表明相关程度很弱D.不能说明相关方向和程度二、多项选择题1.下列属于相关关系的有()。
10.3 变量间的相关关系、统计案例基础篇 固本夯基考点一 变量间的相关关系1.(2022届陕西宝鸡期末,4)下列两个变量具有相关关系的是( ) A.正方体的体积与棱长 B.汽车匀速行驶时的路程与时间 C.人的体重与饭量 D.人的身高与视力 答案 C2.(2021西南名校联盟联考,3)已知甲、乙、丙、丁四组数据变量间对应的线性相关系数分别为0.46,0.79, -0.92,0.85,则( )A.甲组数据变量间的线性相关程度最强B.乙组数据变量间的线性相关程度最弱C.丙组数据变量间的线性相关程度最强D.丁组数据变量间的线性相关程度最强 答案 C3.(2020陕西铜川二模,5)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x-6.423; ②y 与x 负相关且y ^=-3.476x+5.648; ③y 与x 正相关且y ^=5.437x+8.493; ④y 与x 正相关且y ^=-4.326x-4.578. 其中不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ 答案 D4.(2020陕西榆林三模,3)如图所示,给出了样本容量均为7的A,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组样本数据的相关系数为r 2,则( )A.r 1=r 2B.r 1<r 2C.r 1>r 2D.无法判定 答案 C5.(2022届四川资阳一诊,4)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019 年年末全国农村贫困人口数进行了统计,制成如下散点图:据此散点图,下面 4个回归方程类型中最适宜作为年末贫困人口数y 和年份代码x 的回归方程类型的是( )A.y=a+bxB.y=a+bx C.y=a+be x D.y=a+bln x 答案 A6.(2022届四川绵阳阶段测试,3)某市物价部门对5家商场的某商品一天的销售量及其价格进行了调查,5家商场的价格x(元)和销售量y(件)之间的一组数据如表所示:价格x(元) 9 9.5 10 10.5 11 销售量y(件)1110865按公式计算,y 与x 的回归直线方程是y ^=-3.2x+a ^,相关系数|r|=0.992,则下列说法错误的是( ) A.变量x,y 线性负相关且相关性较强 B.a ^=40C.当x=8.5时,y 的估计值为12.8D.相应于点(10.5,6)的残差为0.4 答案 D7.(2020兰州一诊,7)近五年来某草场羊只数与草场植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示.年份 1 2 3 4 5 羊只数(万只) 1.4 0.9 0.750.60.3 草场植被指数1.14.315.6 31.349.7根据表及图得到以下判断:①羊只数与草场植被指数成减函数关系;②若利用这五组数据得到的两变量间的相关系数为r 1,去掉第一年数据后得到的相关系数为r 2,则|r 1|<|r 2|; ③可以利用回归直线方程,准确地得到当羊只数为2万只时的草场植被指数. 以上判断中正确的个数是( )A.0B.1C.2D.3 答案 B8.(2020课标Ⅱ,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i=1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i=120x i =60,∑i=120y i =1 200,∑i=120(x i -x )2=80,∑i=120(y i -y )2=9 000,∑i=120(x i -x)(y i -y)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);(2)求样本(x i ,y i )(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由. 附:相关系数 r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2,√2≈1.414.解析(1)由已知得样本平均数y =120∑i=120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i=1,2,…,20)的相关系数 r=∑i=120(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i-y)2=√80×9 000=2√23≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.考点二 独立性检验1.(2022届黑龙江月考,8)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则K 2的观测值可能为( )P(K 2≥k 0) 0.10 0.05 0.025 0.010 0.0050.001k0 2.706 3.841 5.024 6.6357.87910.828A.K2=3.206B.K2=6.625C.K2=7.869D.K2=11.208答案C2.(2022届山西运城期中,7)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验.根据四个实验室得到的列联表画出如下四个等高堆积条形图,最能体现该药物对预防禽流感有显著效果的图形是()答案D3.(2020宁夏石嘴山二模,4)通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到K2的观测值k≈4.892,参照下表,得到的正确结论是()P(K2≥k0)0.100.050.025k0 2.706 3.841 5.024A.有97.5%以上的把握认为“爱好该项运动与性别有关”B.有97.5%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”答案C4.(2021四川南充阆中中学4月质检,6)若由一个2×2列联表中的数据计算得K2=4.013,那么有的把握认为两个变量有关系.()P(K2≥k0)0.150.100.050.0250.0100.0050.001k0 2.0722.7063.8415.0246.6357.87910.828A.95%B.97.5%C.99%D.99.9%答案A5.(2021安徽黄山二模,7)给出下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于0,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1; ③两个模型中残差平方和越小的模型拟合的效果越好;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大. 其中正确命题的个数是( )A.1B.2C.3D.4 答案 C6.(2022届河南焦作模拟,17)第32届夏季奥运会于2021年7月23日至8月8日在日本举行,为了解某校学生对奥运会是否关注,随机调查了该校200名学生,统计结果如表:关注 不关注 合计 女生 34 51 85 男生 66 49 115 合计100100200(1)分别估计该校女生和男生关注奥运会的概率;(2)能否有99%的把握认为该校女生和男生对奥运会的关注度有差异? 参考公式及数据: K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.050 0.010 0.001k3.8416.635 10.828解析 (1)估计该校女生关注奥运会的概率约为3485=25;男生关注奥运会的概率约为66115. (2)由题表中数据可知K2=200×(34×49-66×51)2100×100×85×115=13623≈5.913. 因为5.913<6.635,故没有99%的把握认为该校女生和男生对奥运会的关注度有差异.7.(2022届昆明质检,17)“微信运动”是手机APP 推出的多款健康运动软件中的一款,某学校140名教师均在微信好友群中参与了“微信运动”,对运动10 000步或以上的教师授予“运动达人”称号,低于10 000步称为“参与者”.为了解教师们的运动情况,选取了教师们在某日的运动数据进行分析,统计结果如下:运动达人 参与者 合计 男教师 60 20 80 女教师 40 20 60 合计10040140(1)根据上表说明,能否在犯错误概率不超过0.05的前提下认为获得“运动达人”称号与性别有关; (2)从获得“运动达人”称号的教师中采用按性别分层抽样的方法选取5人参加全国第四届“万步有约”全国健走激励大赛某赛区的活动,若从选取的5人中随机抽取2人作为代表参加开幕式,求抽取的2人都为女教师的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.050 0.0100.001k 03.8416.635 10.828解析 (1)∵K2=140×(60×20-40×20)280×60×100×40≈1.167<3.841,∴不能在犯错误的概率不超过0.05的前提下认为获得“运动达人”称号与性别有关.(2)根据分层抽样方法得:参赛的男教师有60100×5=3人,参赛的女教师有40100×5=2人,抽取的男教师记为A,B,C;女教师记为a,b.从抽取的这五名教师中随机选取2名,有AB,AC,Aa,Ab,BC,Ba,Bb,Ca,Cb,ab 共10种选法,其中2人都是女教师的选法有ab 一种,故抽取的2人都为女教师的概率P=110.8.(2019课标Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).P(K 2≥k)0.050 0.010 0.001 k3.8416.63510.828.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)K2=100×(40×20-10×30)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.综合篇 知能转换考法一 线性回归方程的求解与应用1.(2022届四川模拟,8)已知回归直线的斜率的估计值为1.23,样本点的中心为(5,6),则回归直线方程为( ) A.y ^=-0.15x+1.23 B.y ^=-2.38x+1.23C.y ^=1.23x-2.38 D.y ^=1.23x-0.15 答案 D2.(2022届哈尔滨模拟,10)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间具有线性相关关系,利用下表中的五组数据求得回归直线方程为y ^=b ^x+a ^,根据该回归方程,预测当x=8时,y ^=84.8,则b ^=( )x23456y 25 37 50 56 64A.9.4B.9.5C.9.6D.9.8 答案 C3.(2021甘肃二模,7)某地以“绿水青山就是金山银山”理念为引导,推进绿色发展,现要订购一批苗木,苗木长度与售价如下表:苗木长度x(厘米) 38 485868 7888 售价y(元)16.8 18.8 20.8 22.8 2425.8由表可知,苗木长度x(厘米)与售价y(元)之间存在线性相关关系,回归方程为y ^=0.2x+a ^,则当苗木长度为150厘米时,售价大约为( ) A.33.3元 B.35.5元 C.38.9元 D.41.5元 答案 C4.(2021西安中学二模,4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x-85.71. ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg; ④若该大学某女生身高为170 cm,则其体重必为58.79 kg. 则上述判断不正确的个数是( ) A.1 B.2 C.3 D.4 答案 A5.(2020中原名校质量考评,7)根据最小二乘法,由一组样本数据(x i ,y i )(其中i=1,2,…,300)求得的回归方程是y ^=b ^x+a ^,则下列说法正确的是( )A.至少有一个样本点落在回归直线y ^=b ^x+a ^上B.若所有样本点都在回归直线y ^=b ^x+a ^上,则变量间的相关系数为1 C.对所有的解释变量x i (i=1,2,…,300),b ^x i +a ^的值一定与y i 有误差 D.若回归直线y ^=b ^x+a ^的斜率b ^>0,则变量x 与y 正相关 答案 D6.(2021江西八校4月联考,14)如图,根据已知的散点图得到y 关于x 的线性回归方程为y ^=b ^x+0.2,则b ^= .答案 1.67.(2022届江西顶级名校调研,18)根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作.某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用.自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种新冠疫苗的情况如下表:第x 天 1 2 3 4 5 新接种人数y1015192328(1)建立y 关于x 的线性回归方程;(2)假设全村共计2 000名居民(均未接种过新冠疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天.参考公式:回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i=1nx i y i -nxy ∑i=1nx i 2-nx2,a ^=y -b ^x .解析 (1)x =1+2+3+4+55=3,y =10+15+19+23+285=19,则b ^=10+30+57+92+140-5×3×1912+22+32+42+52-5×32=225,a ^=19-225×3=295,故y 关于x 的线性回归方程为y ^=225x+295.(2)设a n =225n+295,数列{a n }的前n 项和为S n ,易知数列{a n }是等差数列, 则S n =n(a 1+a n )2=n (225+295+225n+295)2=115n 2+8n,因为S 6=127.2,S 7=163.8,所以10S 6=1 272,10S 7=1 638,又2 000×80%=1 600(人),所以预测该村80%居民接种新冠疫苗需要7天.8.(2021广西贵港港北模拟,17)某个体服装店经营各种服装,在某周内获纯利润y(元)与该周每天销售这种服装件数x 之间的一组数据关系如下表:x 3456789y66 69 73 81 89 90 91(1)求x ,y ;(2)若y 与x 线性相关,请求纯利润y(元)与每天销售件数x 的回归直线方程. 参考数据及公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y ∑i=1nx i2-nx 2,a ^=y -b ^x ,∑i=17x i 2=280,∑i=17x i y i =3 487. 解析 (1)x =17×(3+4+5+6+7+8+9)=6,y =17×(66+69+73+81+89+90+91)=5597. (2)设回归直线方程为y ^=b ^x+a ^.∵∑i=17x i 2=280,∑i=17x i y i =3 487,∴b ^=3 487-7×6×5597280-7×36=13328=4.75,a ^=5597-6×4.75≈51.36.∴回归直线方程为y ^=4.75x+51.36.9.(2021成都郫都模拟,18)某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:年份 2015 2016 2017 2018 2019 年份代码x 1 2 3 4 5 交易额y/百亿元912172126(1)请根据上表提供的数据,用相关系数r 说明y 与x 的线性关系的强弱(线性相关系数保留三位小数);(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值x i ,变量y 的观测值为y i (1≤i ≤n),则两个变量的相关系数的计算公式为r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2.统计学认为,对于变量x,y,如果r ∈[-1,-0.75],那么负相关很强;如果r ∈[0.75,1],那么正相关很强;如果r ∈(-0.75,-0.30]或r ∈[0.30,0.75),那么相关性一般;如果r ∈[-0.25,0.25],那么相关性较弱)(2)求出y 关于x 的线性回归方程,并预测2020年该网站“双11”当天的交易额. 参考公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x ,参考数据:√1 860≈43.1.解析 (1)根据题表中的数据,可得x =15×(1+2+3+4+5)=3,y =15×(9+12+17+21+26)=17, 则∑i=15(x i -x )(y i -y )=(1-3)×(9-17)+…+(5-3)×(26-17)=43;√∑i=15(x i -x)2∑i=15(y i -y)2=√10×186≈43.1,所以r=∑i=15(x i -x)(y -y)√∑i=15(x i -x)2∑i=15(y i-y)2=4343.1≈0.998,所以变量y 与x 的线性相关性很强. (2)由(1)可得x =3,y =17,∑i=15(x i -x )(y i -y )=43,∑i=15(x i -x )2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,所以b ^=∑i=15(x i -x)(y i -y)∑i=15(x i -x)2=4310=4.3,则a ^=y -b ^x =17-4.3×3=4.1.所以y 关于x 的线性回归方程为y ^=4.3x+4.1.令x=6,可得y ^=4.3×6+4.1=29.9,故预测2020年该网站“双11”当天的交易额为29.9百亿元.思路分析 (1)利用已知条件求解相关系数,判断即可;(2)根据公式求出回归直线方程的系数,得回归直线方程,然后把x=6代入,求出结果进行预测即可.考法二 独立性检验的应用1.(2022届河南月考,9)某外语学校要学生从德语和日语中选择一种作为“第二外语”进行学习,为了解选择第二外语的倾向与性别的关系,随机抽取100名学生,得到下面的数据表:选择德语 选择日语 男生 15 35 女生3020根据表中提供的数据可知( ) 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.100 0.050 0.010 0.005 0.001 k2.7063.841 6.635 7.87910.828A.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别无关B.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别有关C.有99.5%的把握认为选择第二外语的倾向与性别无关D.有99.5%的把握认为选择第二外语的倾向与性别有关答案D2.(2020江西吉安、抚州、赣州一模,5)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A 的100天日落和夜晚天气,得到如下2×2列联表:夜晚天气下雨未下雨日落云里走出现255未出现2545临界值表P(K2≥k0)0.100.050.0100.001k0 2.706 3.841 6.63510.828并计算得到K2≈19.05,下列小波对地区A天气的判断不正确的是()A.夜晚下雨的概率约为12B.未出现“日落云里走”,夜晚下雨的概率约为514C.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨答案D3.(2020湖南衡阳八中月考,5)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:喜欢应用统计课程不喜欢应用统计课程男生205女生1020附表:P(K2≥k)0.100.050.0250.0100.0050.001k 2.706 3.841 5.024 6.6357.87910.828参考公式:K2=n(ad-bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关答案A4.(2020安徽蚌埠三模,15)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则有99%以上的把握认为是否持乐观态度与国内外差异有关(填“能”或“不能”).P(K2≥k)0.0500.0100.0050.001k 3.841 6.6357.87910.828附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).答案能5.(2021山东青岛一模,15)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k)0.050.0250.0100.001k 3.841 5.024 6.63510.828答案0.0256.(2022届吉林重点高中月考,19)新能源汽车是指除汽油、柴油发动机之外所有的其他能源汽车,被认为能减少空气污染和缓解能源短缺.在当今提倡全球环保的前提下,新能源汽车产业必将成为未来汽车产业发展的导向与目标.新能源汽车也越来越受到消费者的青睐.某机构调查了某地区近期购车的200位车主的性别与购车种类情况,得到数据如下:购置新能源汽车购置传统燃油汽车合计男性10020120女性503080合计15050200 (1)根据表中数据,判断是否有99.9%的把握认为购置新能源汽车与性别有关;(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,参加关于“新能源汽车驾驶体验”的问卷调查,并从这6位车主中随机抽取2位车主赠送一份小礼物,求这2位获赠礼品的车主中至少有1位女性车主的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.10 0.05 0.010 0.001 k 02.7063.8416.63510.828解析 (1)由题表得K2=200×(100×30-20×50)2120×80×150×50=1009≈11.111>10.828.所以有99.9%的把握认为购置新能源汽车与性别有关.(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,其中男性车主有100150×6=4人,记为a,b,c,d;女性车主有50150×6=2人,记为E,F.从这6位车主中随机抽取2位车主包含的基本事件有:ab,ac,ad,aE,aF,bc,bd,bE,bF,cd,cE,cF,dE,dF,EF,共15种. 至少有1位女性车主包含的基本事件有:aE,aF,bE,bF,cE,cF,dE,dF,EF,共9种.故所求概率P=915=35. 7.(2022届山西长治质检,17)为了了解某种新型药物对治疗某种疾病的疗效,某机构日前联合医院进行了小规模的调查.结果显示,相当多的受访者担心使用新药后会有副作用.为了了解使用该种新型药品后是否会引起疲乏症状,该机构随机抽取了某地患有这种疾病的275人进行调查,得到统计数据如下表:无疲乏症状有疲乏症状总计 未使用新药 150 25 t 使用新药 x y 100 总计225m275(1)求2×2列联表中的数据x,y,m,t 的值,并确定能否有95%的把握认为有疲乏症状与使用该新药有关; (2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,再从这4人中随机抽取2人作进一步调查,求这2人中恰有1人有疲乏症状的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.150 0.100 0.050 0.025 0.010 k2.072 2.7063.841 5.0246.635解析 (1)t=150+25=175,x=225-150=75,y=100-75=25,m=25+25=50,所以K 2的观测值k=275×(150×25-75×25)2225×50×100×175≈4.910 7>3.841,故有95%的把握认为有疲乏症状与使用新药有关.(2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,其中无疲乏症状的有75100×4=3人,记为a,b,c;有疲乏症状的有25100×4=1人,记为D,则从这4人中随机抽取2人的情况有ab,ac,aD,bc,bD,cD,共6种,这2人中恰有1人有疲乏症状的情况有aD,bD,cD,共3种.故所求概率P=36=12. 8.(2021安徽五校联盟联考(二),18)网购是当前人们购物的新方式,某公司为了改进营销方式,随机调查了100名市民,统计了不同年龄的人群网购的人数如下表:年龄段(岁) (0,20) [20,40) [40,60) [60,100) 网购人数 26 32 34 8 男性人数1510105(1)若把年龄在[20,60)的人称为“网购迷”,否则称为“非网购迷”,请完成下面的2×2列联表,并判断能否有99%的把握认为网购与性别有关;网购迷非网购迷总计男性 女性 总计(2)若从年龄小于40岁的网购男性中用分层抽样的方法抽取5人,再从中抽取两人,求两人年龄都小于20岁的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.10 0.05 0.01 0.001k2.7063.841 6.635 10.828解析 (1)由题中信息完善2×2列联表如下表所示:网购迷 非网购迷 总计 男性 20 20 40 女性 46 14 60 总计6634100∴K2=100×(20×14-46×20)266×34×40×60≈7.605>6.635,故有99%的把握认为网购与性别有关.(2)年龄在(0,20)、[20,40)的网购男性分别有15人、10人.按分层抽样的方法随机抽取5人,从年龄段(0,20)内抽取3人,分别记为1、2、3;从年龄段[20,40)内抽取2人,分别记为a 、b,从中随机抽取2人的可能结果有(1,2)、(1,3)、(1,a)、(1,b)、(2,3)、(2,a)、(2,b)、(3,a)、(3,b)、(a,b),共10个.用A表示“两人年龄都小于20岁”这一事件,则事件A包含的结果为(1,2)、(1,3)、(2,3),共3个.故事件A发生的概率P(A)=310.9.(2021安徽黄山二模,17)2021年3月5日,人社部和全国两会政府工作报告中针对延迟退休给出了最新消息,人社部表示正在研究延迟退休改革方案,两会上指出十四五期间要逐步延迟法定退休年龄.现对某市工薪阶层关于延迟退休政策的态度进行调查,随机调查了50人,他们月收入的频数分布及对延迟退休政策赞成的人数如下表.月收入(单位:百元)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75]频数510151055赞成人数123534(1)根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异;月收入不低于55百元月收入低于55百元合计赞成不赞成合计(2)若采用分层抽样法从月收入在[25,35)和[65,75]的被调查人中选取6人进行跟踪调查,并随机给其中3人发放奖励,求获得奖励的3人中至少有1人月收入在[65,75]的概率.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k)0.0500.0100.001k 3.841 6.63510.828解析(1)2×2列联表如下:月收入不低于55百元月收入低于55百元合计赞成71118不赞成32932合计104050则K2=50×(7×29-3×11)210×40×32×18≈6.27<6.635,所以没有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异.(2)按照分层抽样的方法可知,月收入在[25,35)的抽取4人,记为a,b,c,d,月收入在[65,75]的抽取2人,记为A,B,则从6人中任取3人的所有情况为{A,B,a}、{A,B,b}、{A,B,c}、{A,B,d}、{A,a,b}、{A,a,c}、{A,a,d}、{A,b,c}、{A,b,d}、{A,c,d}、{B,a,b}、{B,a,c}、{B,a,d}、{B,b,c}、{B,b,d}、{B,c,d}、{a,b,c}、{a,b,d}、{a,c,d}、{b,c,d},共20种, 其中至少有1人月收入在[65,75]的情况有16种, 所以3人中至少有1人月收入在[65,75]的概率为1620=45.应用篇 知行合一应用 回归模型的应用1.(2020课标Ⅰ,5,5分探索创新情境)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A.y=a+bxB.y=a+bx 2C.y=a+be xD.y=a+bln x 答案 D2.(2022届宁夏顶级名校月考,20实际生活)“金山银山不如绿水青山;绿水青山就是金山银山.”复兴村借力“乡村振兴”国策,依托得天独厚的自然资源开展乡村旅游,乡村旅游事业蓬勃发展.复兴村旅游协会记录了近八年的游客人数,见下表.年份2013 年 2014 年 2015 年 2016 年 2017 年 2018 年 2019 年2020 年 年份代码x 1 2 345678 游客人数y (百人)4816 32 51 71 97122为了分析复兴村未来的游客人数变化趋势,公司总监分别用两种模型对变量y 和x 进行拟合,得到了相应的回归方程,绘制了残差图.残差图如下(注:残差e ^i =y i -y ^i ):模型①y ^=bx 2+a;模型②y ^=dx+c.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由; (2)根据(1)中选定的模型求出相应的回归方程(系数均保留两位小数); (3)根据(2)中求出的回归方程来预测2021年的游客人数(结果保留整数). 其中,z=x2,z =18∑i=18z i .参考数据:∑i=18(x i -x )·(y i -y )=728∑i=18(x i -x )2=42∑i=18(z i -z )·(y i -y )=6 868∑i=18(z i -z )2=3 570∑i=18z i =204∑i=18y i =400附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x .解析 (1)选择模型①.理由:根据残差图可以看出, 模型①的估计值和真实值相对比较接近;模型②的残差相对比较大,所以模型①的拟合效果相对较好.(2)由(1)可知y 关于x 的回归方程为y ^=bx 2+a.令z=x 2,则y ^=bz+a,由题中所给数据得b ^=6 8683 570≈1.92,又z =18∑i=18z i =2048=25.5,y =4008=50,所以a ^=50-1.92×25.5=1.04,所以y 关于x 的回归方程为y ^=1.92x 2+1.04. (3)将x=9代入回归方程,可得y ^=1.92×92+1.04≈157, 则2021年游客人数大约为157百人. 3.(2021哈尔滨三中一模,19实际生活)宁夏西海固地区,在1972年被联合国粮食开发署确定为最不适宜人类生存的地区之一.为改善这一地区人民生活的贫困状态,20世纪90年代,党中央和自治区政府决定开始吊庄移民,将西海固地区的人口成批地迁移到更加适合生活的地区.为了帮助移民人口尽快脱贫,党中央作出推进东西部对口协作的战略部署,其中确定福建对口帮扶宁夏,在福建人民的帮助下,原西海固人民实现了快速脱贫,下表是对2016年以来近5年某移民村庄100位移民的年人均收入的统计:年份 2016 2017 2018 2019 2020 年份代码x12 3 4 5 人均年收入y(千元) 1.32.85.78.913.8现要建立y 关于x 的回归方程,有两个不同回归模型可供选择,模型一y^(1)=b ^x+a ^;模型二y ^(2)=c ^x 2+d ^,即使画出y 关于x 的散点图,也无法确定哪个模型拟合效果更好,现用最小二乘法原理,已经求得模型一的方程为y ^=3.1x-2.8.(1)请你用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(计算结果保留到小数点后一位);(2)用计算残差平方和的方法比较哪个模型拟合效果更好(已经计算出模型一的残差平方和为∑i=15(y i -y ^i )2=3.7).参考数据:∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52,其中t i =x i 2,i=1,2,3,4,5.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计公式分别为β^=∑i=1nu i v i -nuv ∑i=1nu i 2-nu 2,α^=v -β^u .解析 (1)令t=x 2,则模型二可化为y 关于t 的线性回归问题, t =1+4+9+16+255=11,y =1.3+2.8+5.7+8.9+13.85=6.5, 则由参考数据可得c ^=∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52≈0.5,d ^=y -c ^t =6.5-0.52×11≈0.8, 则模型二的方程为y ^(2)=0.5x 2+0.8. (2)由模型二的回归方程可得,y ^1(2)=0.5×1+0.8=1.3,y ^2(2)=0.5×4+0.8=2.8,y ^3(2)=0.5×9+0.8=5.3,y ^4(2)=0.5×16+0.8=8.8,y ^5(2)=0.5×25+0.8=13.3,∴∑i=15(y i -y ^i (2))2=02+02+0.42+0.12+0.52=0.42<3.7,故模型二的拟合效果更好.创新篇 守正出奇创新 统计与统计案例的综合应用。
第十一章两变量关联性分析习题
一、是非题
1、Pearson相关系数的假设检验.苦结论为不拒绝H0,可以认为两变量间无关系. ()
2、在同样样本量的情况下.Pearson相关系数|r|越接近1(P<0.05).说明两变量间直线关系越密切. ( )
3、计算关联系数时两随机变量不能为无序分类资料. ()
4、|r|越大(P<0.05),说明X对Y的影响幅度越大. ()
5、ρ≠0,意味着X和Y之间的因果关系成立. ()
二、选择题
1.下列式中可以取负值的是:
A.l xx B.l xy C.l yy D.关联系数
2.直线相关系数的假没检验,其自由度为:
A.n B.n-1 C.n-2 D.2n-1
3.计算Pearson相关系数要求:
A.应变量Y是正态变量.而自变量X可以不满足正态的要求
B.自变量X是正态变量.而应变量Y可以不满足正态的要求
C.应变量Y是定量指标.而自变量X可以是任何类型的数据
D.两变量都要求为满足正态分布规律的随机变量
4.两组资料进行相关性分析.一个r0.01,v1>r1>r0.05,v1,另一个r2>r0.01,v2,可认为:A.第l组资料两变量关系密切
B.第2组资料两变量关系密切
C.很难说哪一组变量关系密切
D.t r1>t r2
三、筒答题
1.r、r s和列联系数的应用条件有何不同?
2.应用线性相关分析时应该意哪些问题?
3.线性相关分析的基本步骤是什么?
4.关联性分析的χ2检验与两个或多个频数分布比较的χ2检验的设计和意义有什么区别?
5.线性相关分析中绘制散点图的目的是什么?能否用散点图来代替相关系数?。
课时作业(五十六) 第56讲变量的相关性与统计案例时间:45分钟分值:100分基础热身1.2011·广东六校联考有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是( )A.①③ B.②④ C.②⑤ D.④⑤2.2011·丰台二模已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为y=0.95x +a,则a=( )A.3.25 B.2.6 C.2.2 D.3.2011·大连双基检测为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好都为s,变量y的观测数据的平均值恰好都为t,那么下列说法中正确的是( ) A.直线l1,l2有公共点(s,t)B.直线l1,l2相交,但是公共点未必是(s,t)C.由于斜率相等,所以直线l1,l2必定平行D.直线l1,l2必定重合4.2011·新余二模为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:则至少有________附:χ2=n(ad-bc)2 (能力提升5.观察下列散点图,则①正相关;②负相关;③不相关,它们的排列顺序与图形相对应的是( )A.a—①,b-②,c-③ B.a-②,b-③,c-①C.a-②,b-①,c-③ D.a-①,b-③,c-②6.对于给定的两个变量的统计数据,下列说法正确的是( )A.都可以分析出两个变量的关系B.都可以用一条直线近似地表示两者的关系C.都可以作出散点图D.都可以用确定的表达式表示两者的关系7.2011·江西卷为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下则y对xA.y=x-1 B.y=x+1C.y=88+12x D.y=1768.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若χ2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确9.2011·南昌一模对一些城市进行职工人均工资水平x(千元)与居民人均消费水平y(元)统计调查后知,y与x具有相关关系,满足回归方程y=0.66x+1.562.若某被调查城市居民人均消费水平为7.675(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为________%(保留两个有效数字).10.2010·广东卷市居民2005~2009年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:________线性相关关系.11.2011·辽宁卷调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.12.2011·九江六校三联假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:若由资料可知y对x b=1.23,请估计使用年限为20年时,维修费用约为________.13.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.14.(10分)(1)画出上表数据的散点图;(2)根据上表提供的数据,求出y关于x的线性回归方程;(3)据此估计广告费用为10万元时,所得的销售收入.(参考数值:∑i =15x 2i =145,∑i =15x i y i =1270)15.(13分)2011·巢湖质检 地震、海啸、洪水、森林大火等自然灾害频繁出现,紧急避险常识越来越引起人们的重视.某校为了了解学生对紧急避险常识的了解情况,从七年级和八年级各选取100名同学进行紧急避险常识知识竞赛.图K56-2(1)和图K56-2(2)分别是对七年级和八年级参加竞赛的学生成绩按40,50),50,60),60,70),70,80分组,得到的频率分布直方图.图K56-2(1)分别计算参加这次知识竞赛的两个年级学生的平均成绩;(注:统计方法中,同一组数据常用该组区间的中点值作为代表)(2)完成下面?附:χ2=(a +b )(c +d )(a .临界值表:难点突破16.(12分)2011·揭阳一模 某食品厂为了检查甲乙两条自动包装流水线的生产情况,随即在这两条流水线上各抽取40件产品作为样本称出它们的重量(单位: g),重量值落在(495,510的产品为合格品,否则为不合格品.下表是甲流水线样本频数分布表,图K56-3是乙流水线样本的频率分布直方图.图K56-3(1)根据上表数据作出甲流水线样本的频率分布直方图;(2)若以频率作为概率,试估计从甲、乙两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少?(3)由以上统计数据完成下面2×2列联表,并回答有多大的把握认为“产品的包装质量与两条自动包装流水线的选择有关”.参考公式:χ2=,其中n=a+b+c+d(a+b)(c+d)(a+c)(b+d)课时作业(五十六)【基础热身】1.C 解析 由变量的相关关系的概念知,②⑤是正相关,①③是负相关,④为函数关系,故选C. 2.B 解析 x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6,故选B. 3.A 解析 因为甲、乙两组观测数据的平均值都是(s ,t ),则由最小二乘法知线性回归直线方程为y =bx +a ,而a =y -b x ,(s ,t )在直线l 1,l 2上,故选A.4.99.5% 解析 χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50(20×15-5×10)225×25×30×20=8.333>7.879,则至少有99.5%的把握认为喜爱打篮球与性别有关.【能力提升】5.D 解析 变量的相关性的图形表示法,在相关变量中,图a 从左下角到右上角是正相关,图c 从左上角到右下角是负相关,图b 的点分布不规则是不相关,故选D.6.C 解析 给出一组样本数据,总可以作出相应的散点图,但不一定能分析出两个变量的关系,更不一定符合线性相关或函数关系,故选C.7.C 解析 由表中数据知回归直线是上升的,首先排除D.x =176,y =176,由线性回归性质知:点(x ,y )=(176,176)一定在回归直线上,代入各选项检验,只有C 符合,故选C.8.C 解析 根据独立性检验的思想知,某人吸烟,只能说其患肺病的可能性较大,有99%的把握认为吸烟与患肺病有关系,但并没有理由认为吸烟者有99%的可能患肺病,故选C.9.83 解析 将y =7.675代入回归方程得x ≈9.262,所以估计该城市人均消费额占人均工资收入的百分比约为7.6759.262≈0.83.10.13 正 解析 本题考查了统计中的线性相关关系、中位数等知识点,该知识点在高考考纲中是A 级要求.11.0.254 【解析】 由题意得y 2-y 1=0.254(x +1)+0.321-0.254x +0.321=0.254,即家庭年收入每增加1万元,年饮食支出平均增加0.254万元.12.24.68万元 解析 易求得(x ,y )=(4,5),所以a =y -b x =5-1.23×4=0.08,所以y =0.08+1.23x ,当x =20时,维修费用约为0.08+1.23×20=24.68.13.① 解析 χ2≈3.918>3.841,而P (χ2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”;但检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆,正确序号为①.14.解答 (1)散点图如图所示.(2)x =2+4+5+6+85=5,y =20+30+50+50+705=44,∑i = 15x 2i = 22 + 42 + 52 + 62 + 82= 145,∑i =15x i y i =2×20+4×30+5×50+6×50+8×70=1270,b =∑i = 15x i y i -5xy∑i = 15x 2i -5x2=1270-5×5×44145-5×25= 8.5,a=-b x=44-8.5×5=1.5,因此回归直线方程为y=8.5x+1.5.(3)当x=10时,y=8.5×10+1.5=86.5.15.解答 (1)七年级学生竞赛平均成绩为(45×30+55×40+65×20+75×10)÷100=56(分),八年级学生竞赛平均成绩为﹙45×15+55×35+65×35+75×15﹚÷100=60(分).(2)2×2列联表如下:∴χ2=100×100×120×80≈8.333>6.635,∴有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”.【难点突破】16.解答 (1)甲流水线样本的频率分布直方图如下:(2)由表知甲样本中合格品数为8(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9,据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75,从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.(3)2×2列联表如下:∵χ2=n(ad-(a+b)(c+d)(a+c)(b+d)=66×14×40×40≈3.117>2.706.∴有90%的把握认为产品的包装质量与两条自动包装流水线的选择有关.。
变量的相关性命题人:李文军 时间:2013年12月13日1.下列两个变量之间的关系具有相关关系的是( )A .家庭的支出与收入B .某家庭用电量与水价间的关系C .单位圆中角的度数与其所对孤长D .正方形的周长与其边长 2.下列关系属于线性负相关的是( )A .父母的身高与子女身高的关系B .农作物产量与施肥量的关系C .吸烟与健康的关系D .数学成绩与物理成绩的关系 3.图中的两个变量是相关关系的是( )A .①②B .①③C .②④D .②③4. (2011江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如则y A .1y x =- B .1y x =+ C .1882y x =+D .176y =5. (2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 42 3 5 销售额y (万元)49 26 39 54 根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元6. 下列有关回归直线方程y ^=b ^x +a ^叙述正确的是( )①反映y ^与x 之间的函数关系 ②反映y 与x 之间的函数关系③表示y ^与x 之间不确定关系 ④表示最接近y 与x 之间真实关系的一条直线A .①②B .②③C .③④D .①④7. 由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程y ^=bx +a ,那么下面说法不正确的是( )A .直线y ^=bx +a 必经过点(x ,y )B .直线y ^=bx +a 至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个C .直线y ^=bx +a 的斜率为∑i =1nx i y i -n x y ∑i =1nx 2i -n x2D .直线y ^=bx +a 和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的总离差∑i =1n[y i -(bx i +a )]2是该坐标平面上所有直线与这些点的离差中最小的直线8. (2011·广东惠州调研)为了考察两个变量x 和y 之间的线性相关性,甲同学做了10次试验,乙同学做了15次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2,已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( )A .l 1与l 2必定平行B .l 1与l 2必定重合C .l 1与l 2有交点(s ,t )D .l 1与l 2相交,但交点不一定是(s ,t ) 9. 工人月工资(元)依劳动生产率(千元)变化的回归方程为y ^=150+60x ,下列判断正确的()A .劳动生产率为1000元时,工资为210元B .劳动生产率提高1000元,则工资平均提高60元C .劳动生产率提高1000元,则工资平均提高210元D .当月工资为270元时,劳动生产率为2000元10.(2010·广东文)某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:根据统计资料,居民家庭平均收入的中位数是__________,家庭年平均收入与年平均支出有__________线性相关关系.11.若施化肥量x 与小麦产量y 之间的回归直线方程为y ^=250+4x ,当施化肥量为50kg 时,预计小麦产量为________.12.(2011辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y对x 的回归直线方程:321.0254.0ˆ+=x y .由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加____________万元.13.(2011广东)某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm和182cm .因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_____cm .14. 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对应数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)15. 高二·二班学生每周用于数学学习的时间x (单位:h)与数学成绩y (单位:分)之间有如下数据:问:某同学每周用于数学学习的时间为18h ,试预测该生数学成绩.16. 一般说来,一个人的身高越高,他的手就越大.为调查这一问题,对10名高三男生的身高与右手一扎(拿)长测量,得到如下一组数据(单位:cm).其中∑i =110x 2i =305730,∑i =110x i y i =37986(1)画出散点图,你能发现两者有相关关系吗? (2)如果有相关关系,求回归直线方程.实验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( ) A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1 D.y ^=x -15对父子的身高数据如下: 则y 对x 的线性回归方程为A .1y x =-B .1y x =+C .1882y x =+D .176y =【解析】由题意可知176,176x y ==,又线性回归直线y a bx =+过点(,)x y ,,代入知选C.设有一个回归方程为y ^=2-1.5x ,则变量x 增加一个单位时( ) A .y 平均增加1.5个单位 B .y 平均增加2个单位 C .y 平均减少1.5个单位 D .y 平均减少2个单位 观测两相关变量得如下数据:解:由表中数据可得:b =∑i =110x i y i -10 x y∑i =110x 2i -10 x -2=545.4154.4≈3.53,a =y -b x =74.9-3.53×17.4≈13.5.方程y^×18+故该同学预计可得77分左右.则两变量间的回归直线方程为( ) A.y ^=12x -1B.y ^=xC.y ^=2x +13D.y ^=x +1下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对应数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) [解析] (1)由题设所给数据,可得散点图如下图.(2)由对照数据,计算得: i =14i 2i =86,x -=3+4+5+64=4.5,y -=2.5+3+4+4.54=3.5,已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x -·y-∑i =14x 2i -4x -2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y --b ^x -=3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y =0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).一般说来,一个人的身高越高,他的手就越大.为调查这一问题,对10名高三男生的身高与右手一扎(拿)长测量,得到如下一组数据(单位:cm).其中∑i =110x 2i =305730,∑i =110x i y i =37986(1)画出散点图,你能发现两者有相关关系吗? (2)如果有相关关系,求回归直线方程. 解:(1)散点图如下:由散点图可以发现,身高与右手一扎长之间的总体趋势成一条直线,所以它们线性相关.(2)设回归直线方程为y ^=bx +a ,由题意可得x =174.8,y =21.7,又∵∑i =110x 2i =305730,∑i =110x i y i =37986.∴b ^≈0.303,a ^=y -b ^x =-31.264, 因此回归直线方程为y ^=0.303x -31.264.为了对2012年成都市中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学(已折算为百分制)、物理、化学分数对应如下表,求y 与x 、z 与x 的线性回归方程(系数精确到0.01).(参考数据:5.77=x ,85=y ,81=z ,1050)(812≈-∑=i i x x ,688))((81≈--∑=i i i y y x x ,755))((81≈--∑=i i iz z x x,5.23550,4.21456,4.321050≈≈≈)(1)利用所给数据求年需求量与年份之间的回归直线方程y bx a =+;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量。
【解析】(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面求回归直线方程,为此对数据预处理如下:对预处理后的数据,容易算得.2.3,5.6402604224294192)11()2()21()4(,2.3,02222=-===+++⨯+⨯+-⨯-+-⨯-===x b y a b y x 由上述计算结果,知所求回归直线方程为257(2006) 6.5(2006) 3.2,y b x a x -=-+=-+即.2.260)2006(5.6+-=∧x y ①(2)利用直线方程①,可预测2012年的粮食需求量为2.2992.26065.62.260)20062012(5.6=+⨯=+-(万吨)≈300(万吨).【评析】本题考查回归分析的基本思想及其初步应用,回归直线的意义和求法,数据处理的基本方法和能力,考查运用统计知识解决简单实际应用问题的能力.(2007宁夏海南)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗(吨标准煤)的几组对照数据(1)请画出上表数据的散点图;年份—2006 -4 -20 2 4 需求量—257 -21 -110 19 29(2)请根据上表提供的数据,崩最小二乘法求出y 关于x 的线性回归方程y bx a =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 【解析】(1)如图(2)由题意, x =46543+++=4.5,y =45.4435.2+++=3.5,y x ini i ∑=1=3⨯2.5+4⨯3+5⨯4+6⨯4.5=66.5,∑=ni x i12=86.所以266.54 4.5 3.566.563ˆ0.7864 4.58681b-⨯⨯-===-⨯-,ˆˆ 3.50.7 4.50.35a Y bX =-=-⨯=. 故线性回归方程为0.70.35y x =+。