2017年高中数学 第一章 统计案例习题课学案(含解析)新人教A版选修1-2
- 格式:doc
- 大小:827.00 KB
- 文档页数:5
学业分层测评(建议用时:45分钟)[学业达标]一、选择题1.在画两个变量的散点图时,下面叙述正确的是( ) A .预报变量在x 轴上,解释变量在y 轴上 B .解释变量在x 轴上,预报变量在y 轴上 C .可以选择两个变量中任意一个变量在x 轴上 D .可以选择两个变量中任意一个变量在y 轴上【解析】 结合线性回归模型y =bx +a +e 可知,解释变量在x 轴上,预报变量在y 轴上,故选B.【答案】 B2.(2016·泰安高二检测)在回归分析中,相关指数R 2的值越大,说明残差平方和( )A .越大B .越小C .可能大也可能小D .以上均错【解析】 ∵R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,∴当R 2越大时,∑i =1n(y i -y ^i )2越小,即残差平方和越小,故选B. 【答案】 B3.(2016·西安高二检测)已知x 和y 之间的一组数据x 0 1 2 3 y1357则y 与x 的线性回归方程y ^=b ^x +a ^必过点( ) A .(2,2)B.⎝ ⎛⎭⎪⎫32,0C .(1,2)D.⎝ ⎛⎭⎪⎫32,4 【解析】 ∵x =14(0+1+2+3)=32,y =14(1+3+5+7)=4, ∴回归方程y ^=b ^x +a ^必过点⎝ ⎛⎭⎪⎫32,4.【答案】 D4.已知人的年龄x 与人体脂肪含量的百分数y 的回归方程为y ^=0.577x -0.448,如果某人36岁,那么这个人的脂肪含量( )【导学号:19220003】A .一定是20.3%B .在20.3%附近的可能性比较大C .无任何参考数据D .以上解释都无道理【解析】 将x =36代入回归方程得y ^=0.577×36-0.448≈20.3.由回归分析的意义知,这个人的脂肪含量在20.3%附近的可能性较大,故选B.【答案】 B5.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元【解析】 样本点的中心是(3.5,42),则a ^=y -b ^x =42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.【答案】 B 二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=12x+1上,则这组样本数据的样本相关系数为________.【解析】根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.【答案】 17.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.【解析】由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y^-5=1.23(x-4),即y^=1.23x+0.08.【答案】y^=1.23x+0.087.某学生课外活动兴趣小组对两个相关变量收集到5组数据如下表:x 1020304050y 62■758189 由最小二乘法求得回归方程为y^=0.67x+54.9,现发现表中有一个数据模糊不清,请推断该点数据的值为________.【解析】由题意可得x=15(10+20+30+40+50)=30,设要求的数据为t,则有y=15(62+t+75+81+89)=307+t5,因为回归直线y^=0.67x+54.9过样本点的中心(x,y),所以307+t5=0.67×30+54.9,解得t=68.【答案】688.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】以x+1代x,得y^=0.254(x+1)+0.321,与y^=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.【答案】 0.254 三、解答题9.(2016·包头高二检测)关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0如由资料可知y 对x 呈线性相关关系.试求:(1)线性回归方程:⎝ ⎛⎭⎪⎪⎫a ^=y -b ^x -,b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i-n (x )2(2)估计使用年限为10年时,维修费用是多少? 【解】 (1)x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5,∑i =15x 2i =90,∑i =15x i y i =112.3, b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x 2=112.3-5×4×590-5×42=1.23.于是a ^=y -b ^x =5-1.23×4=0.08. 所以线性回归方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即估计使用10年时维修费用是12.38万元. 10.关于x 与y 有如下数据:x24568y 3040605070 为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲模型y^=6.5x +17.5,乙模型y^=7x+17,试比较哪一个模型拟合的效果更好.【解】R2甲=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1551 000=0.845,R2乙=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1801 000=0.82,因为84.5%>82%,所以甲模型拟合效果更好.[能力提升]1.某学生四次模拟考试时,其英语作文的减分情况如下表:考试次数x 123 4所减分数y 4.543 2.5 显然所减分数y与模拟考试次数x之间有较好的线性相关关系,则其线性回归方程为()A.y=0.7x+5.25B.y=-0.6x+5.25C.y=-0.7x+6.25D.y=-0.7x+5.25【解析】由题意可知,所减分数y与模拟考试次数x之间为负相关,所以排除A.考试次数的平均数为x=14×(1+2+3+4)=2.5,所减分数的平均数为y=14×(4.5+4+3+2.5)=3.5.即直线应该过点(2.5,3.5),代入验证可知直线y=-0.7x+5.25成立,选D.【答案】 D2.已知x 与y 之间的几组数据如下表:x 1 2 3 4 5 6 y21334假设根据上表数据所得线性回归直线方程为y ^=b ^x +a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′【解析】 根据所给数据求出直线方程y =b ′x +a ′和回归直线方程的系数,并比较大小.由(1,0),(2,2)求b ′,a ′. b ′=2-02-1=2, a ′=0-2×1=-2. 求b ^,a ^时,∑i =16x i y i =0+4+3+12+15+24=58,x =3.5,y =136,∑i =16x 2i =1+4+9+16+25+36=91,∴b ^=58-6×3.5×13691-6×3.52=57, a ^=136-57×3.5=136-52=-13, ∴b ^<b ′,a ^>a ′. 【答案】 C3.(2016·江西吉安高二检测)已知x ,y 的取值如下表所示,由散点图分析可知y 与x 线性相关,且线性回归方程为y =0.95x +2.6,那么表格中的数据m 的值为________.x 0 1 3 4 y2.24.34.8m【解析】 x =0+1+3+44=2,y =2.2+4.3+4.8+m 4=11.3+m 4,把(x -,y -)代入回归方程得11.3+m4=0.95×2+2.6,解得m =6.7.【答案】 6.74.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:日期 12月 1日 12月 2日 12月 3日 12月 4日 12月 5日 温差x (℃) 10 11 13 12 8 发芽y (颗)2325302616该农科所确定的研究方案是:先从这5组数据中选取3组数据求线性回归方程,剩下的2组数据用于回归方程检验.(1)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?(3)请预测温差为14 ℃的发芽数.【解】 (1)由数据求得,x =12,y =27,∑i =13x 2i =434,∑i =13x i y i =977. 由公式求得,b ^=52,a ^=y -b ^x =-3.所以y 关于x 的线性回归方程为y ^=52x -3. (2)当x =10时,y ^=52×10-3=22,|22-23|<2; 当x =8时,y ^=52×8-3=17,|17-16|<2. 所以该研究所得到的线性回归方程是可靠的. (3)当x =14时,有y ^=52×14-3=35-3=32, 所以当温差为14 ℃时的发芽数约为32颗.。
第一章统计案例(120分钟150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.(2016·济宁高二检测)有下列关系:①人的年龄与他拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中同一种树木其横断面直径与高度之间的关系,其中具有相关关系的是( ) A.①②③ B.①② C.②③ D.①③④【解析】选D.曲线上的点与该点的坐标之间是确定关系,故②不是相关关系,其余三种均为相关关系.2.(2016·洛阳高二检测)设有一个回归直线方程=2-1.5x,则变量x每增加一个单位时( )A.y平均增加1.5个单位B.y平均增加2个单位C.y平均减少1.5个单位D.y平均减少2个单位【解析】选C.由回归直线方程可知变量x每增加1个单位,变量y平均减少1.5个单位.3.(2016·青岛高二检测)分类变量X与Y的列联表如下:则以下判断正确的是( )A.ad-bc越小,说明X与Y的关系越弱B.ad-bc越大,说明X与Y的关系越强C.(ad-bc)2越大,说明X与Y的关系越强D.(ad-bc)2越接近于0,说明X与Y的关系越强【解析】选C.根据独立性检验知|ad-bc|越大,X与Y之间的关系越强.知(ad-bc)2越大,X与Y的关系越强.4.在回归分析中,残差图中的纵坐标为( )A.残差B.样本编号C. D.随机误差【解析】选A.残差是真实值与预报值的差,残差分析就是对这些残差画出残差图进行分析,在残差图中,纵坐标代表残差.5.下列结论正确的是( )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④【解析】选C.根据函数的概念和相关关系的概念知①②④正确.6.在一次调查后,根据所得数据绘制成如图所示的等高条形图,则( )A.两个分类变量关系较弱B.两个分类变量无关系C.两个分类变量关系较强D.无法判断【解析】选C.从等高条形图中可以看出,在x1中y1的比重明显大于x2中y1的比重,所以两个分类变量的关系较强.7.某国发生的9.0级地震引发了海啸及核泄漏.核专家为了检测当地动物受核辐射后对身体健康的影响,随机选取了110只羊进行了检测,并将有关数据整理为2×2列联表.10则A,B,C,D的值依次为( )A.20,80,30,50B.20,50,80,30C.20,50,80,110D.20,80,110,50【解题指南】依据列联表中数据的关系,进行加减运算即可.【解析】选B.A=50-30=20,B=60-10=50,C=30+B=80,D=A+10=30.8.(2016·深圳高二检测)下列说法正确的有( )①最小二乘法指的是求各样本数据点到回归直线的距离的和最小的方法;②最小二乘法指的是求各样本数据点到回归直线的距离的平方和最小的方法;③线性回归就是由样本点去寻找一条直线,贴近这些样本点的数学方法;④因为由任何一组观测值都可以求得一个回归直线方程,所以没有必要进行相关性检验.A.1个B.2个C.3个D.4个【解析】选B.由最小二乘法的意义及回归分析的基本思想知,②③正确,①④错误.9.(2016·武汉高二检测)下面是一个2×2列联表:则表中a,b处的值分别为( )A.94,96B.52,50C.52,60D.54,52【解析】选C.因为a+21=73,所以a=52,b=a+8=52+8=60.10.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,得到下面列联表:现判断数学成绩与物理成绩有关系,则判断的出错率为( )A.0.5%B.1%C.2%D.5%【解析】选D.代入公式可得K2的观测值k=≈4.514>3.841. 查表可以判断数学成绩与物理成绩有关的出错率为0.05,即5%.11.(2016·海口高二检测)有下列数据:下列四个函数中,模拟效果最好的为( )A.y=3·2x-1B.y=log2xC.y=3xD.y=x2【解题指南】采用验证法求解本题.【解析】选A.分别将x=1,2,3,代入求值,结果最接近y的函数是y=3·2x-1.12.(2016·锦州高二检测)经统计,某地的财政收入x与支出y满足的线性回归模型是y=bx+a+e(单位:亿元).其中b=0.9,a=2,|e|≤1,e为随机误差,如果今年该地财政收入为10亿元,则今年支出预计不超出( )A.10亿元B.11亿元C.11.5亿元D.12亿元【解析】选D.由已知得y=0.9x+2+e,当x=10时,y=11+e,又|e|≤1,所以-1≤e≤1,故10≤11+e≤12,即今年支出预计不超出12亿元.二、填空题(本大题共4小题,每小题5分,共20分.请把正确答案填在题中横线上)13.(2016·宿州高二检测)独立性检验显示:在犯错误的概率不超过0.1的前提下认为性别与是否喜爱喝酒有关,那么下列说法中正确的是________(填序号).①在100个男性中约有90人喜爱喝酒;②若某人喜爱喝酒,那么此人为男性的可能性为90%;③认为性别与是否喜爱喝酒有关判断出错的可能性为10%;④有90%的把握认为10个男性中有9人爱喝酒.【解析】独立性检验是对两个分类变量有关系的可信程度的判断,而不是因果关系,故只有③正确.答案:③14.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据(个数)对比结果如下:则从表中数据分析,________回归方程更好(即与实际数据更贴近).【解析】可以根据表中数据分析两个回归方程对数据预测的准确率进行判断,甲回归方程的数据准确率为=,而乙回归方程的数据准确率为=.显然甲的准确率高些,因此甲回归方程好些.答案:甲15.(2016·潍坊高二检测)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生进行调查,得到2×2列联表如下:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025,根据表中数据,得到K2的观测值k=≈4.844.则认为“选修文科与性别有关系”出错的可能性不超过________.【解析】因为k=4.844>3.841,故判断出错的可能性不超过0.05.答案:0.0516.(2015·北京高考)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是__________;②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是__________.【解析】①由题干图知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故应填乙.②由题干图可知,比丙的数学成绩排名还靠后的人较多,而总成绩排名中比丙排名靠后的人数比较少,即丙的数学成绩靠前,故填数学.答案:①乙②数学三、解答题(本大题共6小题,共70分.解答时应写出必要的文字说明、证明过程或演算步骤)17.(10分)为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:试用图形方法判断父母吸烟对子女吸烟是否有影响.【解析】等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关”.18.(12分)(2016·海淀高二检测)某学校高三共有学生1000名,经调查其中750名同学经常参加体育锻炼(称为A类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A,B两类分两层),从该年级的学生中共抽取100名同学,如果以身高达到165cm作为达标的标准,对抽取的100名学生得到如下列联表:(1)完成上表.(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系?【解析】(1)由分层抽样知,样本中含经常参加体育锻炼的学生有75人,不经常参加体育锻炼的学生有25人,于是2×2列联表如下:(2)由表中数据得K2的观测值为k=≈1.333<3.841,所以不能在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系.19.(12分)(2015·重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(1)求y关于t的回归方程=t+.(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程=t+中,=,=-.【解析】(1)列表计算如下:这里n=5,=t i==3,=y i==7.2.又-n=55-5×32=10,t i y i-n=120-5×3×7.2=12,从而==1.2,=-=7.2-1.2×3=3.6,故所求回归方程为=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).20.(12分)(2016·扬州高二检测)生物课外活动小组在研究性别与色盲关系时,得到如下2×2列联表:试判断性别与色盲是否有关系?【解析】由列联表中数据可知,K2的观测值为k=≈4.751>3.841,在犯错误的概率不超过0.05的前提下认为“性别与色盲有关系”.21.(12分)(2016·全国卷Ⅲ)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:y i=9.32,t i y i=40.17,=0.55,≈2.646.参考公式:相关系数r=回归方程=+t中斜率和截距的最小二乘估计公式分别为:=,=-.【解析】(1)由折线图中的数据和附注中参考数据得因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y 与t的关系.(2)由==1.331及(1)得==≈0.103,=-≈1.331-0.103×4≈0.92.所以,y关于t的回归方程为=0.92+0.10t.将2016年对应的t=9代入回归方程得:=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.22.(12分)(2016·郑州高二检测)某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.如表是甲流水线样本频数分布表,如图是乙流水线样本的频率分布直方图.甲流水线样本频数分布表(1)根据上表数据作出甲流水线样本的频率分布直方图.(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率.(3)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关?附表:879【解析】(1)甲流水线样本的频率分布直方图如图:(2)由题表知甲样本中合格品数为8+14+8=30,由题图知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为=0.75,乙样本合格品的频率为=0.9.据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.(3)2×2列联表如下:因为K2==≈3.117>2.706.所以能在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.。
新课程标准数学选修1—2第一章课后习题解答第一章统计案例1.1回归分析的基本思想及其初步应用练习(P8)1、画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.说明:学生在对常用的函数图象比较了解的情况下,通过观察散点图可以判断两个变量的关系更近似于哪种函数.2、分析残差可以帮助我们解决以下两个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错.(2)分析残差图可以发现模型选择是否合适.说明:分析残差是回归诊断的一部分,可以帮助我们发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等. 本题只要求学生能回答上面两点即可,主要让学生体会残差和残差图可以用于判断模型的拟合效果.3、(1)解释变量和预报变量的关系式线性函数关系.R=.(2)21说明:如果所有的样本点都在一条直线上,建立的线性回归模型一定是该直线,所以每个=+,没有随机误差项,是严样本点的残差均为0,残差平方和也为0,即此时的模型为y bx aR=.格的一次函数关系. 通过计算可得21习题1.1 (P9)1、(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近似呈线性关系.y表示GDP值,t表示年份. 根据截距和斜率的最小二乘计算公式,得(2)用tˆ14292537.729a≈-,ˆ7191.969b≈从而得线性回归方程ˆ7191.96914292537.729=-.y t残差计算结果见下表.GDP 值与年份线性拟合残差表(年实际GDP 值为117251.9,所以预报与实际相差4275.540-.(4)上面建立的回归方程的20.974R =,说明年份能够解释约97%的GDP 值变化,因此所建立的模型能够很好地刻画GDP 和年份的关系.说明:关于2003年的GDP 值的来源,不同的渠道可能会有所不同.2、说明:本题的结果与具体的数据有关,所以答案不唯一.3、由表中数据得散点图如下:从散点图中可以看出,震级x 与大于或等于该震级的地震数N 之间不呈线性相关关系,随着x 的减少,所考察的地震数N 近似地以指数形式增长. 做变换lg y N =,得到的数据如下表所示.x 和y 的散点图如下:从这个散点图中可以看出x 和y 之间有很强的线性相关性,因此可以用线性回归模型拟合它们之间的关系. 根据截距和斜率的最小二乘计算公式,得ˆ 6.704a≈,ˆ0.741b ≈-, 故线性回归方程为 ˆ0.741 6.704y x =-+. 20.997R ≈,说明x 可以解释y 的99.7%的变化.因此,可以用回归方程 0.741 6.704ˆ10x N-+= 描述x 和N 之间的关系. 1.2独立性检验的基本思想及其初步应用练习(P15)列联表的条形图如图所示.由图及表直观判断,好像“成绩优秀与班级有关系”. 因为2K 的观测值0.653 6.635k ≈<,由教科书中表1-11克重,在犯错误的概率不超过0.01的前提下,不能认为“成绩与班级有关系”.说明:(1)教师应要求学生画出等高条形图后,从图形上判断两个分类变量之间是否有关系. 这里通过图形的直观感觉的结果可能会出错.(2)本题与例题不同,本题计算得到的2K 的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”. 这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立. 在独立性检验中,没有推出小概率事件发生类似于反证法中没有推出矛盾.习题1.2 (P16)1、假设“服药与患病之间没有关系”,则2K 的值应该比较小;如果2K 的值很大,则说明很可能“服药与患病之间没有关系”. 由列联表中数据可得2K 的观测值 6.110 5.024k ≈>,而由教科书表1-11,得2( 5.024)0.025P K ≥≈,所以在犯错误的概率不超过0.025的前提下可以认为“服药与患病之间有关系”. 又因为服药群体中患病的频率0.182小于没有服药群体中患病的频率0.400,所以“服药与患病之间关系”可以解释为药物对于疾病有预防作用. 因此在犯错误的概率不超过0.025的前提下,可以认为药物有效.说明:仿照例1,学生很容易完成此题,但希望学生能理解独立性检验在这里的具体含义,即“服药与患病之间关系”可以解释为“药物对于疾病有预防作用”.2、如果“性别与读营养说明之间没有关系”,由题目中所给数据计算,得2K 的观测值为8.416k ≈,而由教科书中表1-11知2(7.879)0.005P K ≥≈,所以在犯错误的概率不超过0.005的前提下认为“性别与读营养说明之间有关系”.3、说明:需要收集数据,所有没有统一答案. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.4、说明:需要从媒体上收集数据,学生关心的问题不同,收集的数据会不同. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.第一章 复习参考题A 组(P19)根据散点图,可以认为中国人口总数与年份呈现很强的线性相关关系,因此选用线性回归模型建立回归方程.由最小二乘法的计算公式,得 2095141.503a ≈-,1110.903b ≈,则线性回归方程为 ˆ1110.9032095141.503yx =-. 由2R 的计算公式,得 20.994R ≈,明线性回归模型对数据的拟合效果很好.根据回归方程,,预计2003年末中国人口总数约为129997万人,而实际情况为129227万人,预测误差为770万人;预计2004年末中国人口总数约为131108万人,而实际情况为129988万人,预测误差为1120万人.说明:数据来源为《中国统计年鉴》(2003). 由于人数为整数,所以预测的数据经过四舍五入的取整运算.2、(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域内分布,猜想销售总额与利润之间呈现线性相关关系.(2)由最小二乘法的计算公式,得 ˆ1334.5a≈,ˆ0.026b ≈, 则线性回归方程为 ˆ0.0261334.5yx =+ 其残差值计算结果见下表:(3)对于(2)中所建立的线性回归方程,20.457R ≈,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系. 说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确.3、由所给数据计算得2K 的观测值为 3.689k ≈,而由教科书中表1-11知2( 2.706)0.10P K ≥=所以在犯错误的概率不超过0.10的前提下认为“婴儿的性别与出生的时间有关系”.第一章 复习参考题B 组(P19)1、因为 21(,)()ni i i Q a b y a bx ==--∑21(()())n i i i y bx y bx a y bx ==--+--+∑ 2211()()n n i i i i y bx y bx a y bx ===--++-+∑∑12()()ni i i y bx y bx a y bx =---+-+∑ 并且221()()n i a y bx n a y bx =-+=-+∑,12()()n i i i y bx y bx a y bx =--+-+∑ 1()(())ni i i a y bx y bx ny nbx ==-+--+∑ ()()0a y b x n y n b xn y n b x=-+--+= 所以 221(,)()()ni i i Q a b y bx y bx n a y bx ==--++-+∑.考察上面的等式,等号右边的求和号中不包含a ,而另外一项非负,所以ˆa和ˆb 必然使得等号右边的最后一项达到最小值,即 ˆˆ0ay bx -+=, 即ˆˆy a bx =+. 2、总偏差平方和21()n i i y y =-∑表示总的效应,即因变量的变化效应;残差平方和21ˆ()ni i y y =-∑表示随机误差的效应,即随机误差的变化效应;回归平方和21ˆ()ni yy =-∑表示表示变量的效应,即自变量的变化效应. 等式 222111ˆˆ()()()n n n i ii i i y y y y y y ===-=-+-∑∑∑ 表示因变量的变化总效应等于随机误差的变化效应与自变量的变化效应之和.3、说明:该题主要是考察学生应用回归分析模型解决实际问题的能力,解答应该包括如何获取数据,如何根据散点图寻找合适的模型去拟合数据,以及所得结果的解释三方面的内容.。
(时间90分钟,满分120分)一、选择题(本大题共10小题,每小题5分,共50分)1.对有线性相关关系的两个变量建立的回归直线方程y ^=a ^+b ^x 中,回归系数b ^( ) A .可以小于0 B .大于0 C .能等于0D .只能小于0解析:选A ∵b ^=0时,则r =0,这时不具有线性相关关系,但b ^可以大于0也可以小于0.2.在一线性回归模型中,计算其相关指数R 2=0.96,下面哪种说法不够妥当( ) A .该线性回归方程的拟合效果较好B .解释变量对于预报变量变化的贡献率约为96%C .随机误差对预报变量的影响约占4%D .有96%的样本点在回归直线上解析:选D 由相关指数R 2表示的意义可知A 、B 、C 三种说法都很妥当,相关指数R 2=0.96,其值较大,说明残差平方和较小,绝大部分样本点分布在回归直线附近,不一定有96%的样本点在回归直线上,故选D.3.(湖北高考)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关解析:选C 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b^+a ^,故x 与z 负相关.4.下表是某厂1~4月份用水量(单位:百吨)的一组数据:由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是y ^=-0.7x +a ^,则a ^=( )A .10.5B .5.15C .5.2D .5.25解析:选D 样本点的中心为(2.5,3.5),将其代入线性回归方程可解得a ^=5.25. 5.下面的等高条形图可以说明的问题是( )A .“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B .“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C .此等高条形图看不出两种手术有什么不同的地方D .“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握解析:选D 由等高条形图可知选项D 正确.6.根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程为y ^=7.19x +73.93,若用此方程预测儿子10岁时的身高,有关叙述正确的是( )A .身高一定为145.83 cmB .身高大于145.83 cmC .身高小于145.83 cmD .身高在145.83 cm 左右解析:选D 用线性回归方程预测的不是精确值,而是估计值.当x =10时,y =145.83,只能说身高在145.83 cm 左右.7.在2×2列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大( )A.a a +b 与cc +d B.a c +d 与c a +b C.a a +d 与c b +cD.a b +d 与c a +c解析:选A 当ad 与bc 相差越大,两个分类变量有关系的可能性越大,此时a a +b 与cc +d 相差越大.8.如图,5个(x ,y )数据,去掉D (3,10)后,下列说法错误的是( )A .相关系数r 变大B .残差平方和变大C .相关指数R 2变大D .解释变量x 与预报变量y 的相关性变强解析:选B 由散点图知,去掉D 后,x 与y 的相关性变强,且为正相关,所以r 变大,R 2变大,残差平方和变小.9.已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+b ^x ,若∑i =110x i =17,∑i =110yi =4,则b ^的值为()A .2B .1C .-2D .-1解析:选A 依题意知,x -=1710=1.7,y -=410=0.4,而直线y ^=-3+b ^x 一定经过点(x -,y -),所以-3+b ^×1.7=0.4,解得b ^=2.10.两个分类变量X 和Y ,值域分别为{x 1,x 2}和{y 1,y 2},其样本频数分别是a =10,b =21,c +d =35.若X 与Y 有关系的可信程度不小于97.5%,则c 等于( )A .3B .4C .5D .6解析:选A 列2×2列联表如下:故K 2的观测值k =66×[10(35-c )-21c ]231×35×(10+c )(56-c )≥5.024. 把选项A 、B 、C 、D 代入验证可知选A.二、填空题(本大题共4小题,每小题5分,共20分) 11.给出下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系; ③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系; ⑤学生与他(她)的学号之间的关系. 其中有相关关系的是________(填序号).解析:利用相关关系的概念判断.①是不确定关系.②曲线上的点与该点坐标是一种对应关系,即每一个点对应一个坐标,是确定关系.⑤学生与其学号也是确定的对应关系.答案:①③④12.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线方程是________.解析:设回归直线的方程为y ^=b ^x +a ^. 回归直线的斜率的估计值是1.23,即b ^=1.23. 又回归直线过样本点的中心(4,5), 所以5=1.23×4+a ^,解得a ^=0.08, 故回归直线的方程为y ^=1.23x +0.08. 答案:y ^=1.23x +0.0813.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表.由表中数据得线性回归方程y ^=b ^x +a ^,其中b ^=-2.现预测当气温为-4℃时,用电量的度数约为________.解析:x -=14×(18+13+10-1)=10,y -=14×(24+34+38+64)=40,b ^=-2.又回归直线y ^=-2x +a ^过点(10,40), 故a ^=60,所以当x =-4时,y ^=-2×(-4)+60=68. 答案:6814.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得k≈3.918,经查对临界值表P(K2≥3.841)≈0.05.对此,四名同学做出了以下的判断:p:有95%的把握认为“这种血清能起到预防感冒的作用”;q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;r:这种血清预防感冒的有效率为95%;s:这种血清预防感冒的有效率为5%.则下列命题中,正确的是________(填序号).①p∧(綈q);②(綈p)∧q;③(綈p∧綈q)∧(r∨s); ④(p∨綈r)∧(綈q∨s).解析:查对临界值表知P(K2≥3.841)≈0.05,故有95%的把握认为“这种血清能起到预防感冒的作用”;95%仅是指“血清能起到预防感冒的作用”的可信程度,但也有“在100个使用血清的人中一个患感冒的人也没有”的可能,故p真,其余都假.结合复合命题的真假可知,选①④.答案:①④三、解答题(本大题共4小题,共50分.解答时应写出文字说明、证明过程或演算步骤)15.(本小题满分12分)某地区在调查一种传染病与饮用水的关系时得到如下数据:饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.画出列联表,并说明能否在犯错误的概率不超过0.10的前提下认为这种疾病与饮用水有关.解:依题意得2×2列联表:k=86×(5×22-50×9)255×31×14×72≈5.785,由于5.785>2.706,故在犯错误的概率不超过0.10的前提下认为这种传染病与饮用不干净水有关系.16.(本小题满分12分)某同学6次考试的数学、语文成绩在班中的排名x,y如下表:对上述数据用线性回归方程y ^=b ^x +a ^来拟合y 与x 之间的关系. 解:由于x -=4,y -=7.5,∑i =16(x i -x -)(y i -y -)=50,∑i =16(x i -x -)2=28,那么b ^=∑i =16(x i -x -)(y i -y -)∑i =16(x i -x -)2=5028≈1.786, a ^=y --b ^x -=7.5-1.786×4=0.356. 此时可得y ^=1.786x +0.356.17.(本小题满分12分)为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值; (2)绘制发病率的条形统计图,并判断疫苗是否有效?(3)能够有多大把握认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(a+c )(c +d )(b +d ),n =a +b +c +d解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件E ,由已知得P (E )=y +30100=25,所以y =10,B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率,且注射疫苗的发病率小,故判断疫苗有效.(3)K 2=100×(20×10-30×40)250×50×40×60=503≈16.667>10.828.所以至少有99.9%的把握认为疫苗有效.18.(本小题满分14分)在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:(1) (2)求相关指数R 2,并说明其含义; (3)给出37岁时人的脂肪含量的预测值.解:(1)散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系.设线性回归方程为y ^=b ^x +a ^,则由计算器算得b ^≈0.576,a ^≈-0.448,所以线性回归方程为y ^=0.576x -0.448. (2)残差平方和:∑14i =1 e ^2i =∑14i =1(y i -y ^i )2≈37.20, 总偏差平方和:∑14i =1(y i -y -)2≈644.99, R 2=1-37.20644.99≈0.942, 表明年龄解释了94.2%的脂肪含量变化.(3)当x =37时,y ^=0.576×37-0.448≈20.9,故37岁时人的脂肪含量约为20.9%.。
《回归分析的基本思想及其初步应用2》教学设计教学分析:1、本节内容是普通高中课程标准实验教科书《数学(选修1-2)》第一章统计案例1.1回归分析的基本思想及其初步应用的第二课时。
考虑到在《数学(必修3)》的“统计”一章中,学生已经学习了两个变量之间的相关关系以及在第一课时中已经学习了建立线性回归模型的基本步骤,本节课将采取类比和转化的研究方法.2、数据特征:回归分析问题大多建立在实际问题上,数据的收集相对严谨,部分数据的计算具有不可操作性。
3、学情特点:高二的学生已掌握建立线性回归模型的知识,并能用所学知识解决一些简单的实际问题,但对于非线性关系不易理解和计算。
学习目标:1. 会作散点图,并能通过散点图判断两个变量之间是否具有线性相关关系;2. 会用给出的公式求线性回归方程;3. 会借助线性回归模型研究呈非线性关系的两个变量之间的关系.学习重难点:(1)会求线性回归方程.(2)会借助线性回归模型研究非线性关系的两个变量之间的关系.其中求非线性回归方程是本节课的重点也是难点.课时安排:一课时教学过程:一、复习回顾,引入课题回顾1:变量的相关关系的定义,以及与函数关系的区别与联系通过实例,总结变量间相关关系的特点回顾2:散点图在研究变量之间的相关关系的作用通过观察散点图(PPT展示),结合学习过的知识,总结散点图的作用:1.判断变量间是否具有相关关系;2.判断变量间相关关系是正相关还是负相关的;3.判断变量间相关关系是线性相关还是非线性相关的.回顾3:线性回归方程的求法1.给出具体的例题,学生即时完成;2.学生分享解题过程,并总结出求线性回归方程的一般步骤.二、探究新知,总结规律给出如下例题(PPT 展示),设置问题,引导学生深入探究例2 一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据如下表所示,试建立y 关于x 的回归方程.1.自主动手画出散点图,并能判断出y 和x 之间的相关关系是呈线性的还是非线性的;2.观察散点图,猜想y 和x 之间的相关关系能否用相应函数表示;3.合作探究,尝试把两变量的非线性关系转化为另外两个变量的线性关系;4.利用计算器所得结果,建立y 关于x 的回归方程;5.结合上一课时所学残差分析和相关指数2R 判断方程的拟合效果;6.结合学生的学习体会总结求非线性回归方程的一般步骤.三、典例剖析,成果展示学生合作探究,老师适时点拨指导选取y c =+和x c ec y 21=这两种不同类型的题目分别练习,对例题的知识加以补充和巩固。
第一章 统计案例1.2 独立性检验的基本思想及其初步应用A 级 基础巩固一、选择题1.如表是2×2列联表:则表中a ,b A .94,96 B .52,50 C .52,54 D .54,52解析:由⎩⎪⎨⎪⎧a +21=73,a +2=b得⎩⎪⎨⎪⎧a =52,b =54.答案:C2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )A .性别与喜欢理科无关B .女生中喜欢理科的比为80%C .男生比女生喜欢理科的可能性大些D .男生不喜欢理科的比为60%解析:由等高条形图知:女生喜欢理科的比例为20%,男生不喜欢理科的比例为40%,因此,B 、D 不正确.从图形中,男生比女生喜欢理科的可能性大些.答案:C3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )A.100个心脏病患者中至少有99人打鼾B.1个人患心脏病,则这个人有99%的概率打鼾C.100个心脏病患者中一定有打鼾的人D.100个心脏病患者中可能一个打鼾的人都没有解析:这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.答案:D4.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:) A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关解析:根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.答案:D5.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表3A.成绩B.视力C.智商D.阅读量解析:根据K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),代入题中数据计算得D选项K2最大.答案:D二、填空题6.独立性检验所采用的思路是:要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.解析:独立性检验的前提是假设两个分类变量无关系,然后通过随机变量K2的观测值来判断假设是否成立.答案:无关系不成立7.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如表:K2的观测值为k=50×(13×20-10×7)223×27×20×30≈4.844.因为k>3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.解析:因为随机变量K2的观测值k>3.841,所以在犯错误的概率不超过0.05的前提下认为“主修统计专业与性别有关系”.故这种判断出现错误的可能性为5%.答案:5%8.对某校小学生进行心理障碍测试得到的列联表解析:由2×2列联表,代入计算k2的观测值k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=110×(700-200)230×80×20×90≈6.365 7.因为6.365 7>5.024,所以在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.答案:在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.三、解答题9.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.解:根据题目所给数据得如下2×2列联表:∵ad-质量好坏有关系.相应的等高条形图如图所示.图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.10.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将2×2列联表补充完整.(2)解:(1)列2×2列联表:(2)k=89×(24×26-31×8)255×34×32×57≈3.689>2.706.根据临界值表知P(K2≥2.706)≈0.10.因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.B级能力提升1.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’ 与性别有关”D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”解析:列出列联表:∴K2的观测值k=≈3.03075×25×55×45又3.030>2.706,且P(K2≥2.706)≈0.10∴在犯错误的概率不超过0.1的前提下,认为该市居民能否做到“光盘”与性别有关.答案:C2.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①在犯错误的概率不超过0.05的前提下认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的效率为5%.解析:由独立性检验的思想方法,知①正确.答案:①3.某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如表:(已知本次测试合格线是50分,两校合格率均为100%)甲校高二年级数学成绩:乙校高二年级数学成绩:(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”?解:(1)x=10,y=15.甲校的平均分为55×10+65×25+75×35+85×30+95×10≈75.110乙校的平均分为55×15+65×30+75×25+85×15+95×5≈71.90(2)数学成绩不低于80分为优秀,低于80分为非优秀,得到列联表:所以K2的观测值k=≈4.714,110×90×60×140又因为4.714>3.841,故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.。
第一章 统计案例习题课
作业目标
①复习巩固回归分析的基本思想及其初步应用.②复习巩固独立性检验的基
本思想及其初步应用.
作业设计 限时:40分钟 满分:90分
一、选择题:每小题5分,共30分.
1.已知某车间加工零件的个数x与所花费时间y(h)之间的线性回归方程为y^=0.01x+
0.5,则加工600个零件大约需要花费( )
A.6.5 h B.5.5 h C.3.5 h D.0.5 h
解析:将x=600代入回归方程即得A.
答案:A
2.在一次实验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则
y与x
之间的回归直线方程为( )
A.y^=x+1 B.y^=x+2
C.y^=2x+1 D.y^=x-1
解析:A、B、C、D四点在同一条直线上.
答案:A
3.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( )
A.y^=-10x+200 B.y^=10x+200
C.y^=-10x-200 D.y^=10x-200
解析:由负相关的定义知,A正确.
答案:A
4.某卫生机构对366人进行健康体检,阳性家族史者糖尿病发病的有16人,不发病的
有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有____的把握认为糖尿
病患者与遗传有关系( )
A.99.9% B.99.5% C.99% D.97.5%
解析:可以先作出如下列联表(单位:人):
糖尿病患者与遗传列联表
糖尿病发病 糖尿病不发病 总计
阳性家族史 16 93 109
2
阴性家族史 17 240 257
总计 33 333 366
根据列联表中的数据,得到K2的观测值为
k
=-2109×257×33×333≈6.067>5.024.
故有97.5%的把握认为糖尿病患者与遗传有关系.
答案:D
5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100
个吸烟的人中必有99人患有肺病
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,
那么他有99%的可能患有肺病
C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得
推判出现错误
D.以上三种说法都不正确
解析:通过K2的观测值对两个变量之间的关系作出的判断是一种概率性的描述,是一
种统计上的数据,不能把这种推断结果具体到某一个个体上.
答案:C
6.某调查机构调查教师工作压力大小的情况,部分数据如表:
喜欢教师职业 不喜欢教师职业 总计
认为工作压力大 53 34 87
认为工作压力不大 12 1 13
总计 65 35 100
则推断“工作压力大与不喜欢教师职业有关系”,这种推断犯错误的概率不超过( )
A.0.01 B.0.05 C.0.10 D.0.005
解析:K2=nad-bc2a+ba+cc+dd+b
=-287×13×65×35≈4.9>3.841,
因此,在犯错误的概率不超过0.05的前提下,认为工作压力大与不喜欢教师职业有关
系.
答案:B
二、填空题:每小题5分,共15分.
7.已知两个变量x和y之间有线性相关性,5次试验的观测数据如下表:
3
x 100 120 140 160
180
y 45 54 62 75
92
那么变量y关于x的回归方程是__________.
解析:根据公式计算可得b^=0.575,a^=-14.9,所以回归直线方程是y^=0.575x-14.9.
答案:y^=0.575x-14.9
8.已知样本容量为11,计算得∑11i=1xi=510,∑11i=1yi=214,回归方程为y^=0.3x+a^,则
x
≈__________,a^≈__________.(精确到0.01)
解析:由题意知,x=51011≈46.36,y=21411,因为y=0.3x+a^,所以21411=0.3×
510
11
+a^,可求得a^≈5.55.
答案:46.36 5.55
9.调查者通过随机询问72名男女中学生喜欢文科还是理科,得到如下列联表(单位:
名):
性别与喜欢文科还是理科列联表
喜欢文科 喜欢理科 总计
男生 8 28 36
女生 20 16 36
总计 28 44 72
中学生的性别和喜欢文科还是理科__________关系.(填“有”或“没有”)
解析:通过计算K2的观测值k=-236×36×44×28≈8.42>7.879.故我们有99.5%
的把握认为中学生的性别和喜欢文科还是理科有关系.
答案:有
三、解答题:每小题15分,共45分.
10.为了研究性格与血型的关系,抽取80名被试者,他们的血型与性格汇总如下列联
表:
血型
性格
O型或A型 B型或AB型 总计
A型 18 16 34
4
B型 17 29 46
总计 35 45 80
试判断性格与血型是否相关.
(我们规定:如果随机变量K2的观测值k<2.706,就认为没有充分的证据显示“两个分
类变量有关系”)
解:由列联表中的数据得到:
K
2
=-235×45×34×46≈2.030<2.706.
认为没有充分的证据显示“血型与性格有关系”.
11.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积(m2) 115 110 80 135 105
销售价格(万元) 24.8 21.6 18.4 29.2 22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;
(3)据(2)的结果估计当房屋面积为150 m2时的销售价格.
解:(1)数据对应的散点图如下图所示:
(2)x=15∑5i=1xi=109,lxx=∑5i=1 (xi-x)2=1 570,
y=23.2,lxy=∑5i=1 (xi-x)(yi-y
)=308.
设所求回归直线方程为y^=b^x+a^,
5
则b^=lxylxx=3081 570≈0.196 2,a^=y-b^x=1.8166.
故所求回归直线方程为y^=0.196 2x+1.816 6.
(3)据(2),当x=150 m2时,销售价格的估计值为
y
^
=0.196 2×150+1.816 6=31.246 6(万元).
12.对某校小学生进行心理障碍测试,得到如下列联表(单位:名):
性别与心理障碍列联表
焦虑 说谎 懒惰 总计
女生 5 10 15 30
男生 20 10 50 80
总计 25 20 65 110
试说明三种心理障碍分别与性别的关系如何.(我们规定:如果随机变量K2的观测值
k
<2.706,就认为没有充分的证据显示“两个分类变量有关系”)
解:对三种心理障碍焦虑、说谎、懒惰分别构造三个随机变量K21,K22,K23,由题中数据
可得:
K21的观测值k
1
=-230×80×25×85≈0.862 7<2.706,
K22的观测值为k
2
=-230×80×20×90≈6.366>5.024,
K23的观测值为k
3
=-230×80×65×45≈1.410<2.706.
所以样本数据没有充分的证据显示焦虑与性别有关,有97.5%的把握认为说谎与性别有
关,样本数据没有充分的证据显示懒惰与性别有关.