高中数学 第2讲变量的相关性、回归分析及独立性检验
- 格式:doc
- 大小:304.50 KB
- 文档页数:11
变量间的相关关系与独立性检验【考点梳理】1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2=∑ni =1x i y i -n x y ∑n i =1x 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y )2.4.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为则随机变量K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).【教材改编】1.(必修3P101A组T8改编)改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x作为自变量得到四条回归直线.省城ˆ 2.849.50y x=+,地级市ˆ 2.528.35y x=+,县城ˆ 2.31 6.76y x=+,农村ˆ0.42 1.80y x=+,则四个区域中,大学入学率年增长率最快的区域是()A.省城B.地级市C.县城D.农村[答案] A[解析] 四条回归直线,斜率最大的是省城,故选A.2.(必修3 P87内文改编)登山族为了了解某山高y(百米)与气温x(C )之间的关系,随机统计了4次山高与相应的气温,并制作了对照表.由表中数据,得到线性回归方程ˆˆa∈).由此估计山高为72(百2=-+(ˆRy x a米)处气温的度数为()A.10-B.8-C.6-D.4-[答案] C[解析] 10x=,40y=,∴样本中心点为()10,40,回归直线过样本中心点,∴ˆa=,=-+,即ˆ604020a∴线性回归方程为ˆ260=-+,y x∴山高为72(百米)处气温的度数为6-,故选C.3.(必修3P85探究改编)成年人体脂肪百分比y与年龄x的线性回归关系为ˆ0.5770.448=-,年龄增加一岁则脂肪百分比()y xA.增加57.7% B.增加0.577%C.减少44.8% D.减少0.448%[答案] B[解析] ˆ0.5770.448=-,y x∴()()+---=,故选B.0.57710.4480.5770.4480.577x x4.(选修1-2 P6例2改编)一只红铃虫的产卵y和温度x有关,根据收集的数据散点分布在曲线y=c12c xe的周围,若用线性回归模型建立回归关系,则应作下列哪个变换()A.t=ln x B.t=x2C.t=ln y D.t=e y[答案] C[解析] 由y =c 12c x e 得c 2x =ln yc 1=ln y -ln c 1,令t =ln y ,得t =c 2x +ln c 1,故选C.5.(必修3 P 95B 组T 1改编)某科研所对新研发的一种产品进行合理定价,该产品按事先拟定的价格试销得统计数据.回归方程为y ^=b^x +a ^,(其中已算出b ^=-20);该产品的成本为4.5元/件,为使科研所获利最大,该产品定价应为( ) A .6.5元/件 B .7.5元/件 C .8.5元/件 D .9.5元/件[答案] C[解析] 依题意:x =16(8+8.2+8.4+8.8+8. 6+9)=8.5,y =16(90+84+83+80+75+68)=80. 又b^=-20, ∴a^=y -b ^x =80+20×8.5=250, ∴回归直线的方程为y ^=-20x +250. 设科研所所得利润为W ,设定价为x ,∴W =(x -4.5)(-20x +250)=-20x 2+340x -1 125, ∴当x =34040=8.5时,W max =320.故当定价为8.5元时,W 取得最大值.故选C.6.(必修3 P 92练习T 2改编)已知x ,y 之间的一组数据如下表:对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =85x -25;④y =32x .则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).[答案] ③[解析] 由题意知x =4,y =6, ∴b ^=∑5i =1x i y i -5x y ∑5i =1x 2i-5x 2=85,∴a ^=y -b ^x =-25,∴y ^=85x -25.7.(选修1-2 P 16习题T 2改编)某校某次数学考试规定80分以上(含80分)为优分,在1 000名考生中随机抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:为了研究数学成绩与性别是否有关,采用独立检验的方法进行数据处理,则正确的结论是________.附表及公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[答案] 没有90%以上的把握认为“数学成绩与性别有关” [解析] K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.8.(必修3 P 90例改编)某位同学进行寒假社会实践活动,为了对白天平均气温与某奶茶店的某种饮料销量之间的关系进行分析研究,他分别记录了1月11日至1月15日的白天平均气温x (℃)与该奶茶店的这种饮料销量y (杯),得到如下数据:(1)若先从这5组数据中抽出2组,求抽出的2组数据恰好不是相邻2天数据的概率;(2)请根据所给5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;并根据线性回归方程预测当气象台预报1月16日的白天平均气温为7℃时奶茶店这种饮料的销量.附:线性回归方程y ^=b^x +a ^中, ⎩⎪⎨⎪⎧b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i-x )2=∑i =1nx i y i-nx -y -∑i =1nx 2i-n x 2a^=y -b ^x ,其中x ,y 为样本平均值.[解析] (1)设“选取的2组数据恰好不是相邻2天的数据”为事件A .所有基本事件(m ,n )(m ,n 为日期)为(11,12),(11,13),(11,14),(11,15),(12,13),(12,14),(12,15),(13,14),(13,15),(14,15),共10个,事件A 包括的基本事件有(11,13),(11,14),(11,15),(12,14),(12,15),(13,15)共6个.∴P (A )=610=35.(2)∵x=9+10+12+11+85=10,y=23+25+30+26+215=25.∴由公式,求得b^=2.1,a^=y-b^x=4∴y关于x的线性回归方程为y^=2.1x+4,∵当x=7时,y^=2.1×7+4=18.7,∴该奶茶店这种饮料的销量大约为19杯(或18杯).9.(选修1-2 P15练习改编)甲、乙两所学校高三年级分别有1 200人,1 000人,为了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下:甲校:乙校:(1)计算x,y的值;(2)若规定考试成绩在[120,150]内为优秀,由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.参考数据与公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d临界值表[解析] (1)甲校抽取学生的人数为110×1 2002 200=60, 乙校抽取学生的人数为110×1 0002 200=50,故x =10,y =7. (2)表格填写如下:K 2=110×(15×30-20×45)260×50×35×75≈2.83>2.706.又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.。
10.4 变量间的相关关系考纲传真1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.1.两个变量的线性相关(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1)、(x 2,y 2),…,(x n ,y n ).其回归方程为y ^=b ^x +a ^,则⎩⎪⎨⎪⎧b ^=∑ni =1(x i-x )(y i-y )∑n i =1(x i-x )2=∑ni =1x i y i -n xy ∑ni =1x 2i-nx 2,a ^=y -b ^x .其中(x ,y )称为样本点的中心.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n .e ^i 称为相应于点(x i ,y i )的残差.(2)残差平方和为∑ni =1 (y i-y ^i )2. (3)相关指数:R 2=1-错误!. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.1.(人教A 版教材习题改编)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-10x +200B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200【解析】 由题意回归方程斜率应为负,故排除B ,D ,又销售量应为正值,故C 不正确,故选A.【答案】 A2.(2013·枣庄模拟)下面是2×2列联表:y 1 y 2 合计 x 1 a 21 73 x 2 22 25 47 合计b46120则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52【解析】 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74. 【答案】 C3.(2012·课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1 【解析】 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =错误!=1.【答案】 D4.(2013·济南模拟)考古学家通过研究始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度为________cm.【解析】 根据线性回归方程y ^=1.197x -3.660, 将x =50代入, 得y =56.19,则肱骨长度为56.19 cm. 【答案】 56.195.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K 2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填有关或无关).【解析】∵k=27.63>6.635,∴有99%的把握认为“打鼾与患心脏病有关”.【答案】有关相关关系的判断下面是水稻产量与施化肥量的一组观测数据:施化肥量15202530354045水稻产量320330360410460470480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?【思路点拨】分析观测数据、制图,分析散点图,做出判断.【尝试解答】(1)散点图如下:(2)①从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系.②不会,水稻产量只是在一定范围内随着化肥施用量的增加而增长.,1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.2.在散点图中,若点散布在从左下角到右上角的区域,称为正相关;若散布在从左上角到右下角的区域称为负相关.(2013·九江调研)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1【解析】 对于变量Y 与X ,Y 随着X 的增大而增大, ∴Y 与X 正相关,即r 1>0.对于变量V 与U 而言,V 随U 的增大而减小, 故V 与U 负相关,即r 2<0, 因此r 2<0<r 1. 【答案】 C线性回归分析(2013·合肥模拟)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2002 2004 2006 2008 2010 需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=bx +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.【思路点拨】 (1)为了方便计算,可将数据适当处理,再列对应表格,求回归系数;(2)根据回归方程进行预测分析.【尝试解答】 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,为此对数据预处理如下:年份-2006 -4 -2 0 2 4 需求量-257-21-111929对预处理后的数据,容易算得x =0,y =3.2,b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×2942+22+22+42=26040=6.5,∴a ^=y -b ^x =3.2,由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2 006)+a ^=6.5(x -2 006)+3.2 即y ^=6.5(x -2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨)≈300(万吨).,1.解答本题将年份-2006,需求量-257,有利于计算,进而由回归直线方程进行有效地预测分析.2.正确运用计算b ^、a ^的公式和准确的计算,是求线性回归方程的关键.3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:时间x 1 2 3 4 5 命中率y0.40.50.60.60.4(1)试求小李这5天的平均投篮命中率;(2)请你用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率. 【解】 (1)由图表知,5天的平均投篮命中率 y =0.4+0.5+0.6+0.6+0.45=0.5,(2)x =15(1+2+3+4+5)=3,∴b ^=-2×(-0.1)+(-3)×0+0×0.1+1×0.1+2×(-0.1)(1-3)2+(2-3)2+(4-3)2+(5-3)2=0.01,a ^=y -b ^x =0.5-0.01×3=0.47, 故回归直线方程为y ^=0.47+0.01x 将x =6代入,得y ^=0.53,∴6号打6小时篮球命中率约为0.53.独立性检验(2012·辽宁高考改编)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图9-4-1将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.已知“体育迷”中有10名女性.(1)试求“体育迷”中的男性观众人数; (2)据此资料你是否认为“体育迷”与性别有关? 附:P (K 2≥k ) 0.05 0.01 k3.8416.635K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).【思路点拨】 (1)根据频率分布直方图求“体育迷”人数,进而确定其中男性观众人数.(2)列出2×2列联表,计算K 2的观测值k ,依据独立性检验思想作出判断.【尝试解答】 (1)由频率分布直方图,“体育迷”的频率为(0.005+0.020)×10=0.25.∴“体育迷”观众共有100×0.25=25(名), 因此,男“体育迷”共有25-10=15(名). (2)由(1)列2×2列联表如下:非体育迷 体育迷 合计 男 30 15 45 女 45 10 55 合计7525100将2×2列联表中的数据代入公式计算,得k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100(30×10-45×15)275×25×45×55=10033≈3.030. ∵3.030<3.841.∴我们没有理由认为“体育迷”与性别有关.,1.独立性检验的关键是准确的计算K 2,在计算时,要充分利用2×2列联表. 2.独立性检验的步骤:(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .(3)比较k 与临界值的大小关系作统计推断.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者 男女 需要4030不需要 160 270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:P (K 2≥k ) 0.050 0.010 0.001 k3.8416.63510.828K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )【解】 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)k =500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.两条规律1.函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,相关关系是非随机变量与随机变量的关系.2.当K 2≥3.841时,则有95%的把握说事件A 与B 有关;当K 2≤2.706时,认为两个分类变量无关.三点注意1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.2.线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差.3.独立性检验的随机变量K 2的观测值k =3.841是判断是否有关系的临界值,K 2的观测值k ≤3.841应判断为没有充分证据显示事件A 与B 有关系,而不能作为小于95%的量化值来判断.从近两年高考看,以考查独立性检验,回归分析为主,多为选择题、填空题,也可能以解答题形式考查,主要以实际问题为背景,考查阅读理解、分析问题、解决问题的能力,在解决一些简单实际问题的过程中考查基本的统计思想.思想方法之十八 利用回归分析思想进行科学预测(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y ^=bx +a (其中b ^=-20,a ^=y -b ^x );(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【规范解答】 (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80. 又b ^=-20.所以a ^=y -b ^x =80+20×8.5=250, 从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -334)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.易错提示:(1)在求回归直线方程时,易因为数据较多,公式结构复杂,计算b ^及a ^的值时容易出错.(2)把回归直线中的b ^和a ^弄颠倒,把回归直线写为y =a ^x +b ^,导致结果错误. 防范措施:(1)把计算b ^及a ^的公式结构把握好,代入数据,谨慎运算.(2)注意回归直线方程y ^=b ^x +a ^和通常的一次函数y =kx +b 在系数上的表达习惯不一样,不要把两系数弄颠倒.1.(2012·湖南高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg【解析】 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.【答案】 D2.(2013·烟台模拟)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,k =110×(40×30-20×20)260×50×60×50≈7.8.附表:P (K 2≥k ) 0.050 0.010 0.001 k3.8416.63510.828参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”【解析】 由相关系数K 2的意义,附表所对应的概率为“爱好该运动与性别有关”, ∴有99%以上的把握认为“爱好该项运动与性别有关”. 【答案】 C。
回归分析与独立性检验知识点1:变量的相关性:正相关.负相关.相关系数r :知识点2 线性回归方程:方程y ^=b ^x +a ^称为线性回归方程,其中1221()ni i i ni i x y nx y b x n x a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑,.(x -,y -)称为样本中心点. 知识点3 独立性检验:(1)确定2*2列联表.(2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作正确结论.例1.(2014·安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间 的频率分布直方图(如图8-3所示),其中样本数据的分组区间为: [0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平 均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P (K 2≥k 0)0.10 0.05 0.010 0.005 k 02.7063.8416.6357.879附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).例2. (2016·河南省名校期中)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下:(1)根据以上数据,能否有60%的把握认为“微信控”与“性别”有关?(2)现从调查的女性用户中按分层抽样的方法选出5人赠送营养面膜1份,求所抽取5人中“微信控”和“非微信控”的人数;(3)从(2)中抽取的5人中再随机抽取2人赠送200元的护肤品套装,求这2人中至少有1人为“非微信控”的概率. 参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:微信控 非微信控 总计 男性 26 24 50 女性 30 20 50 总计5644100P (K 2≥k 0)0.50 0.40 0.25 0.05 0.025 0.010 k 00.4550.7081.3233.8415.0246.635例3.(2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:x 1 2 3 4 5 y7.06.55.53.82.2(1)求y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)例4.(2016·全国3卷)如图,是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(注:年份代码1~ 7分别对应年份2008~2014.)(1)由折线图看出,可用线性回归模型拟合y 与t 的关系, 请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016 年我国生活垃圾无害化处理量.例5.(2018年新课标2,12分)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.20002001200220032004200520062007200820092010201120122013201420152016年份20040608014192535374242475356122129148171184209220为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,,17)建立模型①:ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,,7)建立模型②:ˆ9917.5yt =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.极坐标与参数方程知识点一:极坐标,极坐标与直角坐标相互转化 知识点二:参数方程1.化极坐标方程2cos 0ρθρ-=为直角坐标方程为( )A .201y y +==2x 或 B .1x = C .201y +==2x 或x D .1y =2.点M 的直角坐标是(-,则点M 的极坐标为( )A .(2,)3πB .(2,)3π-C .2(2,)3πD .(2,2),()3k k Z ππ+∈3.极坐标方程cos 2sin 2ρθθ=表示的曲线为( )A .一条射线和一个圆B .两条直线C .一条直线和一个圆D .一个圆4.直线cos sin 0x y αα+=的极坐标方程为____________________。
第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。
2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。
(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,)()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )A .57.2 3.6B .57.2 56.4C .62.8 63.6D .62.8 3.64.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,476.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。
为了分析居民的收入与年龄、学历、 职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则在[2500,3000)(元)/月收入段应抽出 人.8.为了调查某厂工人生产某种产品的能力,随机抽查 了20位工人某天生产该产品的数量.产品数量的分组区间为[)45,55,[)[)[)55,65,65,75,75,85,[)85,95由此得到频率分布直方图如图3,则这20名工人中一天生产该产品数量在[)55,75的人数是 .第11题图甲乙1 2 3 49.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到由表中数据计算得 ≈2K ,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?10.在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表:(1)画出散点图;(2)求出Y 对X 的回归直线方程; (3)如果价格定为1.9万元,预测需求量大约是多少?11.佛山市在每年的春节后,市政府都会发动公务员参与到植树活动中去.林管部门在植树前,为保证树苗的质量,都会在植树前对树苗进行检测.现从甲乙两种树苗中各抽测了10(单位:厘米)甲:37,21,31,20,29,19,32,23,25,33乙:10,30,47,27,46,14,26,10,44,46(Ⅰ)根据抽测结果,完成答题卷中的茎叶图,并根据你填写的茎叶图, 对甲、乙两种树苗的高度作比较,写出两个统计结论; (Ⅱ)设抽测的10株甲种树苗高度平均值为x ,将这10株树苗的高度依次输入按程序框图进行的运算,问输出的S 大小为多少?并说明S12.为了了解某年段1000名学生的百米成绩情况,随机抽取了若干学生的百米成绩,成绩全部介于13秒与18秒之间,将成绩按如下方式分成五组:第一组[13,14);第二组[14,15);……;第五组[17,18].按上述分组方法得到的频率分布直方图如图所示,已知图中从左到右的前3个组的频率之比为3∶8∶19,且第二组的频数为8.(Ⅰ)将频率当作概率,请估计该年段学生中百米成绩在[16,17)内的人数;(Ⅱ)求调查中随机抽取了多少个学生的百米成绩;(Ⅲ)若从第一、五组中随机取出两个成绩,求这两个成绩的差的绝对值大于1秒的概率.6.某校从参加高一年级期末考试的学生中抽出60名学生,并统计了他们的物理成绩(成绩均为整数且满分为100分),把其中不低于50分的分成五段,…后画出如下部分..频率分布直方图.观察图形的信息,回答下列问题: (1)求出物理成绩低于50分的学生人数; (2)估计这次考试物理学科及格率(60分及 以上为及格)(3) 从物理成绩不及格的学生中任选两人, 求他们成绩至少有一个不低于50分的概率.[)60,50[)70,60[]100,900.03 1000.025 0.015 0.0059080706050组距频率率分数第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。
2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断。
(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v解析:由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,选C变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,D )()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y31变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( D )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=) 解: (1) 散点图略 (2)4166.5i ii X Y ==∑ 4222221345686ii X==+++=∑ 4.5X = 3.5Y =266.54 4.5 3.566.563ˆ0.7864 4.58681b -⨯⨯-===-⨯- ; ˆˆ 3.50.7 4.50.35a Y bX =-=-⨯= 所求的回归方程为 0.70.35y x =+ (3) 100x =, 1000.35y =+预测生产100吨甲产品的生产能耗比技改前降低9070.3519.65-=(吨)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪____________ .1.78 不能作出这两种手术对病人又发作心脏病的影响有差别的结论.x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为 4502.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是(D ) A .57.2 3.6 B .57.2 56.4 C .62.8 63.6 D .62.8 3.6 4.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为A A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( D ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,47 6.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是760 人. 7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。