第10章 第4节 变量间的相关关系、统计案例
- 格式:doc
- 大小:143.50 KB
- 文档页数:6
第3讲变量间的相关关系、统计案例)1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为错误!=错误!x+错误!,其中错误!=错误!,错误!=错误!-错误!错误!.(4)相关系数当r〉0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:y1y2总计x1a b a+b x2c d c+d总计a+cb+d a+b+c+d(2)K2统计量K2=错误!(其中n=a+b+c+d为样本容量).1.辨明三个易误点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x,y)点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).(3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法求解回归方程的关键是确定回归系数错误!,错误!,因求解错误!的公式计算量太大,一般题目中给出相关的量,如x,错误!,错误!x错误!,错误! x i y i等,便可直接代入求解.充分利用回归直线过样本中心点(错误!,错误!),即有错误!=错误!错误!+错误!,可确定错误!.1.有关线性回归的说法,不正确的是()A.具有相关关系的两个变量是非确定性关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.散点图中的点越集中,两个变量的线性相关性越强D2.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是()A。
第四节变量间的相关关系、统计案例错误!1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)回归方程为y=bx+a,其中b=错误!,a=错误!—b错误!.(3)通过求错误!的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+dχ2=错误!(其中n=a+b+c+d为样本容量).1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(错误!,错误!)点,可能所有的样本数据点都不在直线上.3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).[试一试]1.(2013·石家庄调研)下列结论正确的是()1函数关系是一种确定性关系;2相关关系是一种非确定性关系;3回归分析是对具有函数关系的两个变量进行统计分析的一种方法;4回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.12B.123C.124D.1234解析:选C 由回归分析的方法及概念判断.2.已知x,y之间的数据如表所示,则回归直线过点()x12345y 1.21.82.53.23.8A.(0,0)C.(3,2.5)D.(4,3.2)解析:选C 回归直线恒过定点(错误!,错误!),故错误!=3,错误!=2.5.1.求回归直线方程的步骤(1)依据样本数据画出散点图,确定两个变量具有线性相关关系;(2)计算出错误!,错误!,错误!错误!,错误!i y i的值;(3)计算回归系数a,b;(4)写出回归直线方程y=bx+a.2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式χ2=错误!计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.[练一练]1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误概率不超过0.01的前提下认为这个结论是成立的,则下列说法中正确的是()A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有解析:选D 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.2.在2012伦敦奥运会期间,某网站针对性别是否与看奥运会直播有关进行了一项问卷调查,得出如下表格:则χ2=()A.700 B.750C.800 D.850解析:选B 由题意知,χ2=错误!=750.错误!考点一相关关系的判断1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C 由题知夹在带状区域内的点,总体呈上升趋势的属于正相关;反之,总体呈下降趋势的属于负相关.由图可知,选C.2.已知变量x,y呈线性相关关系,线性回归方程为y=0.5+2x,则变量x,y是()A.线性正相关关系B.由回归方程无法判断其正负相关C.线性负相关关系D.不存在线性相关关系解析:选A 随着变量x增大,变量y有增大的趋势,则x,y称为正相关.3.(2014·镇江模拟)如图所示,有A,B,C,D,E,5组数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D.答案:D[类题通法]相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.考点二回归方程的求法及回归分析[典例] 某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1到6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期1月10日2月10日3月10日4月10日5月10日6月10日昼夜温差x1011131286(℃)就诊人数y222529261612(个)用选取的2组数据进行检验.(1)若选取的是1月与6月的2组数据,请根据2至5月份的数据,求出y关于x的线性回归方程y=bx+a;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试求该小组所得的线性回归方程是否理想?[解] (1)由数据得错误!=错误!=11,错误!=错误!=24,由公式得b=错误!,再由a=错误!—b错误!得a=—错误!,所以y关于x的线性回归方程为y=错误!x—错误!.(2)当x=10时,y=错误!,|错误!—22|<2,同理,当x=6时,y=错误!,|错误!—12|<2,所以该小组所得线性回归方程是理想的.在本例(1)条件下,试预测昼夜温差为5℃时,因感冒而就诊的人数约为多少?解:由(1)知,y=错误!x—错误!,当x=5时,y=错误!—错误!=错误!≈8.6,∴当温差为5℃时,就诊的人数约为9人.[类题通法]利用线性回归方程可以对总体进行预测估计,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据,依据自变量的取值估计和预测因变量的值,在现实生活中有广泛的应用.[针对训练](2013·大连模拟)已知下列表格所示数据的回归直线方程为y=3.8x+a,则a的值为________.x 23456y 251254257262266解:由已知得,错误!a=242.8.答案:242.8考点三独立性检验[典例] (2000名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P(χ2≥x0)0.1000.050.010.001x02.7063.8416.63510.828附:χ2=错误![解] (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中,至少1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A 2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=错误!.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:生产能手非生产能手合计25周岁以上组15456025周岁以下组152540合计3070100所以得χ2=错误!=错误!=错误!≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.[类题通法]1.在2×2列联表中,如果两个变量没有关系,则应满足ad—bc≈0.|ad—bc|越小,说明两个变量之间关系越弱;|ad—bc|越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.[针对训练]欧洲杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,40岁以上调查了50人,不高于40岁调查了50人,所得数据制成如下列联表:不喜欢西班牙队喜欢西班牙队总计40岁以上p q50不高于40岁153550总计a b100已知工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为错误!,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.附χ2=错误!P(χ2≥x0)0.150.100.050.0250.010.0050.001x02.0722.7063.8415.0246.6357.87910.828错误!=错误!,所以p=25,q=25,a=40,b=60,χ2=错误!=错误!=错误!≈4.167>3.841,故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.答案:95%错误![课堂练通考点]1.(2013·石家庄模拟)设(x 1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归方程(如图),以下结论中正确的是()A.x和y正相关B.x和y的相关系数为直线l的斜率C.x和y的相关系数在—1到0之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同解析:选C 由题图知,回归直线的斜率为负值,所以x与y是负相关,且相关系数在—1到0之间,所以C正确,选择C.2.(2013·云南模拟)变量U与V相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U与V的线性回归分析,R2表示解释变量对于预报变量变化的贡献率,则R2=()A.错误!B.错误!C.1D.3解析:选C 依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y—1.4=错误!(x—1),即y=0.8x+0.6上,因此解释变量对于预报变量变化的贡献率R2=1,选C.3.浙江卫视为了调查评价“中国好声音”栏目播出前后浙江卫视的收视率有无明显提高,在播出前后分别从居民点抽取了100位居民,调查对浙江卫视的关注情况,制成列联表,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是()A.有99%的人认为该栏目优秀B.有99%的人认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高C.有99%的把握认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高D.没有理由认为“中国好声音”栏目播出前后浙江卫视的收视率有无明显提高附表:P(χ2≥x0)0.050.010.001x03.8416.63510.828解析:选D 只有χ2视率有明显提高,而即使χ2>6.635也只是对“浙江卫视收视率有明显提高”这个论断成立的可能性大小的结论,与是否有99%的人认为该栏目优秀或收视率提高等无关.故选D.4.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算χ2的观测值x0=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).解析:由观测值x0=27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关.答案:有关5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科合计男131023女72027合计203050已知P(χ2≥3.82根据表中数据,得到χ2=错误!≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:因为χ2≈4.844>3.841,故认为选修文科与性别之间有关系出错的可能性约为5%.答案:5%[课下提升考能]第Ⅰ组:全员必做题1.(2014·枣庄模拟)下面是2×2列联表:y1y2总计x1a273则表中a,b的值分别为()A.94,72B.52,50C.52,74D.74,52解析:选C ∵a+21=73,∴a=52,又a+22=b,∴b=74.2.下列说法:1将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;2设有一个回归方程y=3—5x,变量x增加1个单位时,y平均增加5个单位;3线性回归方程y=bx+a必过样本点的中心(错误!,错误!);4在一个2×2列联表中,由计算得χ2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是()A.0 B.1C.2D.3本题可以参考独立性检验临界值表增加1个单位时,y平均减少5个单位,2错误;由线性回归方程的相关概念易知3正确;因为χ2=13.079>x0=10.828,故有99%的把握确认这两个变量间有关系,4正确.3.(2013·广州模拟)工人月工资(元)依劳动产值(千元)变化的回归直线方程为y=60+90x,下列判断正确的是()A.劳动产值为1000元时,工资为50元B.劳动产值提高1000元时,工资提高150元C.劳动产值提高1000元时,工资提高90元D.劳动产值为1000元时,工资为90元解析:选C 回归系数的意义为:解释变量每增加1个单位,预报变量平均增加b个单位.4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由χ2=错误!,算得χ2=错误!≈7.8.附表:P(χ2≥x0)0.050.010.001x03.8416.63510.828A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性检验的定义,由χ2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.5.某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)42356万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元解析:选B 样本中心点是(3.5,42),a=错误!—b错误!,则a=错误!—b错误!=42—9.4×3.5=9.1,所以回归直线方程是y=9.4x+9.1,把x=6代入得y=65.5.6.高三某学生高考成绩y(分)与高三期间有效复习时间x(天)正相关,且回归方程是y=3x+50,若期望他高考达到500分,那么他的有效复习时间应不低于________天.解析:本题主要考查运用线性回归方程来预测变量取值.当y=500时,易得x=错误!=150.答案:1507.高三某班学生每周用于物理学习的时间x(单位:小时)与物理成绩y(单位:分)之间有如下关系:0.1)解析:由已知可得错误!=错误!=17.4,错误!=错误!=74.9.设回归直线方程为y=3.53x+a,则74.9=3.53×17.4+a,解得a≈13.5.答案:13.58.某中学生物研究性学习小组对春季昼夜温差大小与水稻发芽率之间的关系进行研究,记录了实验室4月10日至4月14日的每天昼夜温差与每天每50颗稻籽浸泡后的发芽数,得到如下资料:日期4月10日4月11日4月12日4月13日4月14日温差x(℃)1012131411发芽数y(颗)1113141612的线性回归方程为________.(参考公式:回归直线方程y=bx+a,其中b=错误!,a=错误!—b错误!)解析:因为错误!=12,错误!=13.2,所以b=错误!=1.2,于是,a=13.2—1.2×12=—1.2,故所求线性回归方程为y=1.2x—1.2.答案:y=1.2x—1.29.(2013·扬州模拟)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.数学888311792108100112物理949110896104101106(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.解:(1)错误!=100+错误!=100;错误!=100+错误!=100;∴s错误!=错误!=142.∴s错误!=错误!.从而s错误!>s错误!,∴物理成绩更稳定.(2)由于x与y之间具有线性相关关系,根据回归系数公式得到b=错误!=错误!=0.5,a=错误!—b错误!=100—0.5×100=50.∴回归方程为y=0.5x+50.当y=115时,x=130,即该生物理成绩达到115分时,他的数学成绩大约为130分.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.10.(2013·郑州模拟)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:60分以下61~70分71~80分81~90分91~100分甲班(人数)36111812乙班(人数)48131510现规定平均成绩在80分以上(不含80分)的为优秀.(1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有95%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.优秀人数非优秀人数合计甲班乙班合计解:(1)由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为错误!=60%,乙班优秀人数为25人,优秀率为错误!=50%,所以甲、乙两班的优秀率分别为60%和50%.(2)列联表如下:优秀人数非优秀人数合计因为χ2=错误!=错误!≈1.010,所以由参考数据知,没有95%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.第Ⅱ组:重点选做题1.在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=错误!x+1上,则这组样本数据的样本相关系数为()A.—1B.0C.错误!D.1解析:选D 利用相关系数的意义直接作出判断.样本点都在直线上时,其数据的估计值与真实值是相等的,即y i=错误!i,代入相关系数公式R=错误!=1.2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x—85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:选D 根据线性回归方程中各系数的意义求解.由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(错误!,错误!),因此B正确.由线性回归方程中系数的意义知,x每增加1cm,其体重约增加0.85kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.。
完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
变量间的相关关系、统计案例1. 两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2. 回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i -n x y∑n i =1x 2i-n x2a ^=y -b ^x.3. 回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4. 独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为 2×2列联表构造一个随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.1. 已知x 、y 的取值如下表:从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a ^=________. 答案 2.6 解析 因为回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入y ^=0.95x +a ^,得a ^=2.6.2. (2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元.答案 0.254 解析 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案 D 解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本点的中心(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是() A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系答案 D 解析只有K2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:() A.99.9% B.97.5% C.95% D.90%答案 A 解析可计算K2≈11.377>10.828.故选A.题型一两个变量间的相关关系例15个学生的数学和物理成绩如下表:思维启迪:将每个学生的数学成绩和物理成绩分别作为点的横坐标和纵坐标,作散点图,然后根据散点图判断两个变量是否存在相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.探究提高判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.对变量x,y有观测数据(x i,y i) (i=1,2,…,10),得散点图(1);对变量u、v有观测数据(u i,v i) (i=1,2,…,10),得散点图(2).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C 解析由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.题型二线性回归分析例2(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y ^=b ^x +a ^,其中b ^=-20,a ^=y -b ^x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 思维启迪:根据回归直线过样本点中心来求线性回归方程,然后利用回归方程求最大利润.解 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250,从而线性回归方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -8.25)2+361.25. 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. 探究提高 回归直线过样本点中心(x ,y )是一条重要性质;利用线性回归方程可以估计总体,帮助我们分析两个变量的变化趋势.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________. 答案 0.5 0.53解析 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故线性回归方程为y ^=0.01x +0.47,将x =6代入得6号打6小时篮球的投篮命中率约为0.53. 题型三 独立性检验例3 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.思维启迪:直接计算K 2的值,然后利用表格下结论.解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500×100%=14%.(2)K 2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>7.879,所以有99.5%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.探究提高 (1)根据样本估计总体是抽样分析的一个重要内容.要使估计的结论更加准确,抽样取得的样本很关键.(2)根据独立性检验知,需要提供服务的老人与性别有关,因此在调查时,采取男、女分层抽样的方法更好,从而看出独立性检验的作用.某班主任对全班50名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:系?说明理由.解 由K 2=50×(18×19-6×7)224×26×25×25≈11.54.∵K 2>10.828,故可以有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系. 典例:(12分)某地10户家庭的年收入和年饮食支出的统计资料如表所示:(2)如果某家庭年收入为9万元,预测其年饮食支出.审题视角 可以画出散点图,根据图中点的分布判断家庭年收入和年饮食支出的线性相关性.规范解答解 (1)由题意,知年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如图所示.[3分]从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.[4分] 因为x =6,y=1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,所以b ^=∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.172,a ^=y -b ^x ≈1.83-0.172×6=0.798.从而得到线性回归方程为y ^=0.172x +0.798.[8分](2)y ^=0.172×9+0.798=2.346(万元).所以家庭年收入为9万元时,可以预测年饮食支出为2.346万元.[12分]温馨提醒 (1)在统计中,用样本的频率分布表、频率分布直方图、统计图表中的茎叶图、折线图、条形图,去估计总体的相关问题,以及用散点图判断相关变量的相关性等都体现了数与形的完美结合.借助于形的直观,去统计数据,分析数据,无不体现了数形结合的思想.(2)本题利用散点图分析两变量间的相关关系,充分体现了数形结合思想的应用.(3)本题易错点为散点图画的不准确,导致判断错误.A组专项基础训练(时间:35分钟,满分:57分)一、选择题(每小题5分,共20分)1.2011·陕西)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案 A 解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B、C错误.D中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以D错误.根据线性回归直线一定经过样本点中心可知A正确.2.(2011·山东)某产品的广告费用x与销售额y的统计数据如下表:根据上表可得线性回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时销售额为() A.63.6万元B.65.5万元C.67.7万元D.72.0万元答案 B解析∵x=4+2+3+54=72,y=49+26+39+544=42,又y^=b^x+a^必过(x,y),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).3. (2012·课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为 ( )A .-1B .0C.12D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. A .①B .①③C .③D .②答案 C解析 ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ;③正确. 二、填空题(每小题5分,共15分)5. 某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:出有________线性相关关系. 答案 13 正解析 把2005~2009年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.3,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.6. 在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K 2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关). 答案 有关解析 由观测值k =27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关. 7. 在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由此得到回归直线的斜率b 是__________.(结果保留两位小数)答案 0.88 解析 把表中数据代入公式b ^=∑5i =1x i y i -5x y ∑5i =1x 2i -5x 2≈0.88.三、解答题(共22分)8. (10分)某企业上半年产品产量与单位成本资料如下:且已知产量x (1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,x =3.5,y=71,∑6i =1x 2i =79,∑6i =1x i y i =1 481,b ^=∑6i =1x i y i -6x y∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82,a ^=y -b ^x =71+1.82×3.5=77.37,∴线性回归方程为y ^ =b ^ x +a ^=-1.82x +77.37.(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入线性回归方程,得y ^=77.37-1.82×6=66.45(元) ∴当产量为6 000件时,单位成本大约为66.45元. 9. (12分)(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y =b x +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求线性回归方程.为此对数据预处理如下:对预处理后的数据,容易算得x =0,y =3.2.b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2.由上述计算结果,知所求线性回归方程为y ^-257=b ^(x -2 006)+a ^=6.5(x -2 006)+3.2,即y ^=6.5(x -2 006)+260.2.① (2)利用直线方程①,可预测2012年的粮食需求量约为 6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).B 组 专项能力提升 (时间:25分钟,满分:43分)一、选择题(每小题5分,共15分) 1. 以下四个命题,其中正确的是( )①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. A .①④B .②④C .①③D .②③答案 D 解析 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.2. (2011·湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 A 解析 根据独立性检验的定义,由K 2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.3.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x( )A.y ^=x -1B.y ^=x +1C.y ^ =88+12xD.y ^=176答案 C解析 因为x =174+176+176+176+1785=176,y =175+175+176+177+1775=176,又y 对x 的线性回归方程表示的直线恒过点(x ,y ),所以将(176,176)代入A 、B 、C 、D 中检验知选C.二、填空题(每小题5分,共15分)4. ①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上.上面是关于相关系数r 的几种说法,其中正确的序号是__________. 答案 ①③解析 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确;r <0,表示两个相关变量负相关,x 增大时,y 相应减小,故②错误;|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.5. (2011·广东)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.答案 185 解析 儿子和父亲的身高可列表如下:设线性回归方程y ^=a ^+b x ,由表中的三组数据可求得b =1,故a ^=y -b ^x =176-173=3,故线性回归方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.6. 某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________ t 钢是废品. 答案 16.68解析 ∵176.5=105.492+42.569x ,∴x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.∴生产的1 000 t 钢中,约有1 000×1.668%=16.68(t)钢是废品. 三、解答题7. (13分)某产品的广告支出x (单位:万元)与销售收入y (单位:万元)之间有下表所对应的数据:(1)(2)求出y 对x 的线性回归方程;(3)若广告费为9万元,则销售收入约为多少万元? 解 (1)作出的散点图如图所示(2)观察散点图可知各点大致分布在一条直线附近,列出下表易得x =52,y =692,所以b ^=∑4i =1x i y i -4x y ∑4i =1x 2i -4x 2=418-4×52×69230-4×⎝⎛⎭⎫522=735,a ^=y -b ^x =692-735×52=-2. 故y 对x 的线性回归方程为y ^=735x -2.(3)当x =9时,y ^=735×9-2=129.4. 故当广告费为9万元时,销售收入约为129.4万元.。
课时规范练 A 组 基础对点练1.(2018·大连双基测试)已知x ,y 的取值如表所示:如果y 与x 线性相关,且线性回归方程为y =b x +132,则b 的值为( )A .-12B.12 C .-110D.110解析:计算得x =3,y =5,代入到y ^=b ^x +132中,得b ^=-12.故选A.答案:A2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:y ^=b ^x +a ^,当b >0时,为正相关,b <0为负相关,故①④错误. 答案:D3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1解析:所有点均在直线上,则样本相关系数最大即为1,故选D. 答案:D4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4解析:依题意知,相应的回归直线的斜率应为正,排除C 、D.且直线必过点(3,3.5),代入A 、B 得A 正确. 答案:A5.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元. 答案:0.2456.某炼钢厂废品率x (%)与成本y (元/吨)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/吨时,可以预计生产的1 000吨钢中,约有________吨钢是废品(结果保留两位小数).解析:因为176.5=105.492+42.569x ,解得x ≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨是废品. 答案:16.687.(2018·合肥模拟)某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)和市场占有率(y %)的几组相关对应数据:(1)(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精确到月).附:b ^=∑i =1nx i y i -n x ·y ∑i =1nx 2i -n x2,a ^=y -b ^x .解析:(1)由题意知x =3,y =0.1,∑i =15x i y i =1.92,∑i =15x 2i =55,所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=1.92-5×3×0.155-5×32=0.042,a ^=y -b ^x =0.1-0.042×3=-0.026, 所以线性回归方程为y ^=0.042x -0.026.(2)由(1)中的回归方程可知,上市时间与市场占有率正相关,即上市时间每增加1个月,市场占有率约增加0.042个百分点.由y ^=0.042x -0.026>0.5,解得x ≥13,故预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.8.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩的平均分(采用百分制),剔除平均分在30分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解析:(1)x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0. 15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.B 组 能力提升练1.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元D .12.2万元解析:∵x =10.0,y =8.0,b ^=0.76,∴a ^=8-0.76×10=0.4,∴回归方程为y ^=0.76x +0.4,把x =15代入上式得,y ^=0.76×15+0.4=11.8(万元),故选B. 答案:B2.根据如下样本数据:得到的回归方程为y ^=b ^x +a ^.若样本点的中心为(5,0.9),则当x 每增加1个单位时,y ( ) A .增加1.4个单位 B .减少1.4个单位 C .增加7.9个单位D .减少7.9个单位解析:依题意得,y =a +b -25=0.9,故a +b =6.5①;又样本点的中心为(5,0.9),故0.9=5b +a ②,联立①②,解得b =-1.4,a =7.9,即y ^=-1.4x +7.9,可知当x 每增加1个单位时,y 减少1.4个单位,故选B. 答案:B3.(2018·岳阳模拟)某考察团对全国10个城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程y ^=0.66x +1.562.若某城市居民人均消费水平为7.675(千元),估计该城市人均消费占人均工资收入的百分比约为________. 解析:由y ^=0.66x +1.562知,当y =7.675时,x =6 113660,故所求百分比为7.675x =7.675×6606 113≈83%. 答案:83%4.(2018·唐山质检)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.解析:x =3+4+5+6+75=5,y =2.5+3+4+4.5+c 5=14+c 5,代入回归直线方程得14+c5=0.85×5-0.25,解得c =6. 答案:65.为了研究男羽毛球运动员的身高x (单位:cm)与体重y (单位:kg)的关系,通过随机抽样的方法,抽取5名运动员测得他们的身高与体重关系如下表:(1)从这5 2 kg 的概率; (2)求回归直线方程y ^=b ^x +a ^.解析:(1)从这5个人中随机地抽取2个人的体重的基本事件有(74,73),(74,76),(74,75),(74,77);(73,76),(73,75),(73,77);(76,75),(76,77);(75,77).满足条件的有(74,76),(74,77),(73,76),(73,75),(73,77),(75,77)6种情况,故2个人体重之差的绝对值不小于2 kg 的概率为610=35.(2)x =176,y =75,b ^=∑5i =1 (xi -x )(y i -y )∑5i =1(x i -x )2=-4×(-1)+(-2)×(-2)+0×1+2×0+4×2(-4)2+(-2)2+02+22+42=0.4,a ^=y -b ^x =4.6, ∴y ^=0.4x +4.6.6.(2018·郑州一中检测)为了解某地区观众对某大型综艺节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众观看该节目的场数与所对应的人数的表格:10名女性. (1)根据已知条件完成如下2×2列联表,并判断我们能否有95%的把握认为是否为“歌迷”与性别有关?(2)将收看该节目所有场数2名女性,若从“超级歌迷”中任意选取2人,求至少有1名女性观众的概率. 注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解析:(1)由统计表可知,在抽取的100人中,“歌迷”有25人,从而完成2×2列联表如下:将2×2列联表中的数据代入公式计算得: K 2=100×(30×10-45×15)275×25×45×55=10033≈3.030<3.841所以我们没有95%的把握认为是否为“歌迷”与性别有关. (2)由统计表可知,“超级歌迷”有5人,其中2名女性,3名男性,设2名女性分别为a 1,a 2,3名男性分别为b 1,b 2,b 3,从中任取2人所包含的基本事件有:(a 1,a 2),(a 1,b 1),(a 1,b 2),(a 1,b 3),(a 2,b 1),(a 2,b 2),(a 2,b 3),(b 1,b 2),(b 1,b 3),(b 2,b 3),共10个,用A 表示“任意选取的2人中,至少有1名女性观众”这一事件, A 包含的基本事件有:(a 1,a 2),(a 1,b 1),(a 1,b 2),(a 1,b 3),(a 2,b 1),(a 2,b 2),(a 2,b 3),共7个, 所以P (A )=710.。
变量间的相关关系与统计案例【知识要点】 1.相关关系的判断(1)如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x 和y 具有线性相关关系.(2)样本数据),(i i y x (i =1,2,…,n )的相关系数21211)()())((y yx x y yx x r ini ini iini ----=∑∑∑=== 当0>r 时,两变量正相关,当0<r 时,两变量负相关,当1||≤r 且||r 越接近于1,相关程度越高,当1||≤r 且||r 越接近于0,相关程度越低. 2.回归方程的求法求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.若变量x 与y 具有线性相关关系,有n 个样本数据),(i i y x (i =1,2,…,n ),则回归方程a x b y+=中斜率和截距的最小二乘估计公式分别为:其中i n i x n x ∑==1_1,i ni y n y ∑==1_1,),(__y x 称为样本点的中心.【重点】 回归直线a x b y+=必过样本点的中心),(__y x ,这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据. 3.独立性检验设X ,Y 为两个变量,它们的取值分别为{}x 1,x 2和{}y 1,y 2,其样本频数列联表(2×2列联表)如下:利用随机变量22()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验.【例题解析】题型一 变量间的相关关系【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( ) A .r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3解析:选A 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.【变式1】四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④解析:选D 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④,故选D.相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性. 【例2】(2014·湖北高考)根据如下样本数据得到的回归方程为y ^=bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <0 解析:选B 由表中数据画出散点图,如图, 由散点图可知b <0,a >0,选B.【例3】对于下列表格所示五个散点,已知求得的线性回归方程为y ^=0.8x -155,则实数m 的值为( )A.8 B .解析:选A x =196+197+200+203+2045=200,y =1+3+6+7+m 5=17+m5.样本中心点为⎝⎛⎭⎫200,17+m 5,将样本中心点⎝⎛⎭⎫200,17+m 5代入y ^=0.8x -155,可得m =8.故A 正确. 题型二 回归方程的求法【例4】某城市理论预测2011年到2015年人口总数与年份的关系如下表所示(1)请根据上表提供的数据,求最小二乘法求出关于的线性回归方程; (2)据此估计2016年该城市人口总数.参考公式:1221,ni ii nii x y nxyb a y bxxnx =-=-==--∑∑解:(1)210,x y ==,…… 2分∑=51i ii yx = 0×5+1×7+2×8+3×11+4×19=132,∑=51i 2ix=222220123430++++=1221ˆˆˆ 3.6ni ii ni i x y nx ybay bx x nx==-∴==-=-∑∑=3.2, 故y 关于x 的线性回归方程为y ˆ=3.2x+3.6 (2)当x=5时,yˆ=3.2*5+3.6即y ˆ=19.6 据此估计2016年该城市人口总数约为196万. 【例5】某保险公司有一款保险产品的历史户获益率(获益率=获益÷保费收入)的频率分布直方图如图所示: (Ⅰ)试估计平均获益率;(Ⅱ)根据经验若每份保单的保费在20元的基础上每增加x 元,对应的销量y (万份)与x (元)有较强线性相关关系,从历史销售记录中抽样得到如下5组x 与y 的对应数据:(ⅰ)根据数据计算出销量y (万份)与x (元)的回归方程为∧∧=+y b x a ; (ⅱ)若把回归方程∧∧=+y b x a 当作y 与x 的线性关系,用(Ⅰ)中求出的平均获益率估计此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益.参考公示:1122211()(),()∧∧∧====-∑--===-∑--∑∑nni ii i i i nni ii i x y nx yx x y y b a y b x x x xnx解析:(Ⅰ)区间中值依次为:0.05,0.15,0.25,0.35,0.45,0.55,取值概率依次为:0.1,0.2,0.25,0.3,0.1,0.05,平均获益率为0.050.100.150.200⨯+⨯+(Ⅱ)(i ) 则6.00.10(40)-=--y x 即0.1010.0=-+y x(ii )设每份保单的保费为20+x 元,则销量为0.1010.0=-+y x ,则保费获益为()(20)(0.1010.0)=+-+f x x x 万元, 22()0.182000.1(40)360=-++=--+f x x x x当40=x 元时,保费收入最大为360万元,保险公司预计获益为3600.275=99⨯万元. 题型三 独立性检验【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:解析:在假设无关的情况下,根据题意K 2=n ?ad -bc ?2?a +b ??c +d ??a +c ??b +d ?≈0.16,可以得到无关的概率大于50%,所以种子经过处理跟是否生病有关的概率小于50%,所以可以认为种子经过处理与是否生病无关.答案:无【例7】某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K 2=n ?ad -bc ??a +b ??c +d ??a +c ??b +d ?,其中n =a +b +c +d )解:(1)由公式K 2=55×?20×20-10×5?230×25×25×30≈11.978>7.879,所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(2)设所抽样本中有m 个男生,则630=m20,得m =4,所以样本中有4个男生,2个女生,分别记作B 1,B 2,B 3,B 4,G 1,G 2.从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,G 1),(B 1,G 2),(B 2,B 3),(B 2,B 4),(B 2,G 1),(B 2,G 2),(B 3,B 4),(B 3,G 1),(B 3,G 2),(B 4,G 1),(B 4,G 2),(G 1,G 2),共15个,其中恰有1个男生和1个女生的事件有(B 1,G 1),(B 1,G 2),(B 2,G 1),(B 2,G 2),(B 3,G 1),(B 3,G 2),(B 4,G 1),(B 4,G 2),共8个.所以恰有1个男生和1个女生的概率为815. 【变式1】经过对计量2K 的研究,得到了若干个临界值如下:当2K 的观测值 3.841K时,我们( A )A. 在犯错误的概率不超过0.05的前提可认为A 与B 有关B. 在犯错误的概率不超过0.05的前提可认为A 与B 无关C. 在犯错误的概率不超过0.01的前提可认为A 与B 有关D. 没有充分理由说明事件A 与B 有关系【变式2】某校高三子啊一次模拟考试后,为了解数学成绩是否与班级有关,对甲乙两个班数学成绩(满分150分)进行分析,按照不小于120分为优秀,120分以下为非优秀的标准统计成绩,已知从全班100人中随机抽取1人数学成绩优秀的概率为310,调查结果如下表所示. (1)请完成上面的列联表;(2)根据列联表的数据,问是否有95%的把握认为“数学成绩与班级有关系”;(3)若按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人的编号,求抽到的编号为6或10的概率.【变式3】为了解人们对新颁布的“生育二孩放开”政策的热度,现在某市进行调查.对[5,65]岁的人群随机抽取了人,得到如下统计表和各年龄段抽取人数的频率分布直方图:(Ⅰ)求,p 的值,并由频率分布直方图估计被调查人群的平均年龄;(Ⅱ)根据以上统计数据填下面2×2列联表,并根据列联表的独立性检验,判断能否有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系?参考数据:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++解:(Ⅰ)从[5,15)岁这一年龄组中抽取的人数为450.8=,且频率为0.010100.1⨯=, ∴5500.1n ==; 2分 又第二组的频率为0.2,则第二组人数为10人,∴50.510p == 4分 平均数0.1100.2200.3300.2400.1500.16033x =⨯+⨯+⨯+⨯+⨯+⨯=(岁) 6分 (Ⅱ) 22⨯列联表如下:225171772256.27 6.635232181152K ⨯⨯==≈<⨯⨯,∴没有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系。
高考数学知识点:变量间的相关关系-统计案例2016-04-22 15:15一、变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.典型例题1:某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.2.由回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.使用K2统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,在选取样本容量时一定要注意.二、两个变量的线性相关1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.2.回归方程为3.求最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.4.相关系数,当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.典型例题2:1.相关关系的判断方法一是利用散点图直观判断,二是利用相关系数作出判断.2.对于由散点图作出相关性判断时,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性.3.由相关系数r判断时|r|越趋近于1相关性越强.三、独立性检验典型例题3:。
1122211()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑学 校: 年 级: 教学课题:统计案例 学员姓名: 辅导科目:数学 学科教师:王光明教学目标 变量间的相关关系与统计案例教学内容考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。
基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,1222211()()ni ii nni i i i x y nx yr x nx y n y ===-•=--∑∑∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K=2()()()()()n ad bca b a c b d c d-++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A.【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).[来源:学科网]解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计60 50110由K 2=n ad -dc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”答案:A解析:∵K2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数1263861829261 4 乙厂:分组[29.86,29.90)[来源:学。
2010~2014年高考真题备选题库 第10章 算法初步、统计、统计案例 第4节 变量间的相关关系、统计案例1.(2014辽宁,12分)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2.解:(1)将2×2χ2=100×(60×10-20×10)270×30×80×20=10021≈4.762.由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.其中a i 表示喜欢甜品的学生,i =1,2.b j 表示不喜欢甜品的学生,j =1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P (A )=710.2.(2013福建,5分)已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:本题主要考查线性回归直线方程,意在考查考生的数形结合能力、转化和化归能力、运算求解能力.由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=6i =1x i y i -6x -·y -6i =1x 2i -6x-2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′. 答案:C3.(2013重庆,13分)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得10i =1x i =80,10i =1y i =20,10i =1x i y i =184,10i =1x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =n i =1x i y i -n x - y-ni =1x 2i -n x-2,a =y --b x -,其中x -,y -为样本平均值,线性回归方程也可写为y ^=b ^x +a ^.解:本题主要考查两个变量的相关性、线性回归方程的求法及预报作用,考查考生的运算求解能力与逻辑思维能力.(1)由题意知n =10,x =1n n i =1x i =8010=8,y -=1n ni =1y i =2010=2.又ni =1x 2i -n x -2=720-10×82=80,ni =1x i y i -n x - y -=184-10×8×2=24,由此可得b =ni =1x i y i -n x - y-ni =1x 2i -n x-2=2480=0.3,a =y --b x -=2-0.3×8=-0.4,故所求回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元). 4.(2013福建,12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:χ2=n (n 11n 2212n 21)n 1+n 2+n +1n +2⎝ ⎛⎭⎪⎫注:此公式也可以写成K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:本题主要考查古典概型、抽样方法、独立性检验等基础知识,考查运算求解能力、应用意识,考查必然与或然思想、化归与转化思想等.(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以得χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )=100×(15×25-15×45)60×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.5.(2012湖南,5分)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:由于回归直线的斜率为正值,故y 与x 具有正的线性相关关系,选项A 中的结论正确;回归直线过样本点的中心,选项B 中的结论正确;根据回归直线斜率的意义易知选项C 中的结论正确;由于回归分析得出的是估计值,故选项D 中的结论不正确.答案:D6.(2012福建,12分)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -b x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000 =-20(x -334)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.7.(2011山东,5分)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析:样本中心点是(3.5,42),则a ^=y --b ^x -=42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.答案:B8.(2011陕西,5分)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A .x 和y 的相关系数为直线l 的斜率B .x 和y 的相关系数在0到1之间C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同D .直线l 过点(x -,y -)解析:回归直线过样本中心点(x -,y -). 答案:D9.(2011辽宁,5分)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.答案:0.25410.(2010新课标全国,12分)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K 2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.。