第八章 常用实验结果的分析统计.
- 格式:ppt
- 大小:2.96 MB
- 文档页数:86
第八章成对数据的统计分析(公式、定理、结论图表)一、成对数据的统计相关性1.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.(2)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.4.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.二、一元线性回归模型及其应用1.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:,其回归方程为,则注意:线性回归直线经过定点.(3)相关系数:【方法归纳】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当越趋近于1相关性越强.当残差平方和越小,相关指数越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线过样本点的中心进行求值.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
论文中实验结果的统计分析方法引言:实验是科学研究的重要手段之一,而实验结果的统计分析是对实验数据进行客观、科学评估的关键环节。
本文将探讨论文中实验结果的统计分析方法,旨在帮助读者了解如何正确地处理和解读实验数据。
一、描述性统计分析描述性统计分析是对实验数据进行整体描述和概括的方法,目的是揭示实验数据的基本特征。
常用的描述性统计方法包括:1. 平均值:计算实验数据的平均值可反映数据的集中趋势。
2. 中位数:中位数是将数据按大小排列后,位于中间位置的数值,它能代表数据的中间水平。
3. 方差:方差是实验数据离平均值的分散程度的度量,反映数据的离散程度。
4. 标准差:标准差是方差的平方根,它用于度量实验数据的离散程度,与平均值具有相同的单位。
5. 频数分布表与直方图:通过频数分布表和直方图可以对实验数据的分布情况进行直观的展示和分析。
二、推断性统计分析推断性统计分析是对实验结果进行推断和判断的方法,通过对样本数据进行分析,推断总体的特征。
常用的推断性统计方法包括:1. 参数估计:参数估计是通过样本数据来估计总体参数的值,常用的参数估计方法有点估计和区间估计。
2. 假设检验:假设检验用于判断样本数据是否支持某个特定假设,分为单样本假设检验、双样本假设检验和多样本假设检验等。
3. 方差分析:方差分析是一种用于比较两个或多个样本均值是否存在显著差异的方法,常用于实验设计中的因素比较。
4. 相关分析:相关分析用于确定两个变量之间是否存在相关关系,包括皮尔森相关系数和斯皮尔曼等级相关系数。
三、可视化分析方法可视化分析方法通过图表的方式将实验结果直观地展示出来,帮助读者更好地理解和解读数据。
常用的可视化分析方法包括:1. 折线图:折线图适用于展示数据随时间或其他变量变化的趋势和规律。
2. 饼图:饼图可直观地展示不同类别数据的比例关系。
3. 条形图:条形图适用于比较不同类别数据之间的差异。
4. 散点图:散点图用于展示两个变量之间的相关关系,有助于检测异常值和观察数据的分布情况。
1、答:实验数据为:图一三种抗凝剂处理后红细胞沉降率该例为完全随机设计,可用完全随机设计的方差分析方法进行分析。
.首先,对3个组的数据进行正态检验,Analyse-Descriptive Statics-Explore。
结果如下:图二3个组正态检验结果因n1=n2=n3=4<50,需看Shapiro-Wilk,组别1值为0.683>0.05。
组别2值为0.272>0.05。
组别3值为0.406>0.05。
这三组均服从正态分布。
(1)建立假设、确定检验水准α。
H0:µ1=µ2=µ3,即三种抗凝剂对红细胞沉降率无作用。
H1:µ1,µ2,µ3不等或不全相等, 即三种抗凝剂对红细胞沉降率有作用。
检验水准α=0.05(2)进行方差分析Analyse-Compare Means-one-way ANOV A,将变量和控制变量添加入相应位置后点击Options 选项,勾选Homogeneity of variance test选项,进行方差齐性检验,结果为:图三方差齐性检验结果由上图得该两组样本方差齐性检验满足方差齐性(P>0.05),方差齐性分析结果为:图四方差分析结果由上图得P<0.05,按α=0.05水准拒绝H0,接受H1,差别有统计学意义,可认为不同的抗凝剂对红细胞沉降率的作用有统计学差异。
2、答:实验数据为:图一不同剂量雌激素下磁性大白鼠子宫重量本例中区组数n=4,处理因素水平数g=3,该例选用随机区组设计的方差分析方法进行分析。
首先对处理因素进行正态检验和方差齐性分析。
正态检验Analyse-Descriptive Statics-Explore,Factor list中选入group,结果如下所示:图二3种注射剂量的正态检验结果因n1=n2=n3=4<50,需看Shapiro-Wilk,组别1值为0.246>0.05。
章末质量检测(三) 成对数据的统计分析一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.下列说法中正确的是( )A .相关关系是一种不确定的关系,回归分析是对相关关系的分析,因此没有实际意义B .独立性检验对分类变量关系的研究没有100%的把握,所以独立性检验研究的结果在实际中也没有多大的实际意义C .相关关系可以对变量的发展趋势进行预报,这种预报可能会是错误的D .独立性检验如果得出的结论有99%的可信度,就意味着这个结论一定是正确的2.若经验回归方程为y ^=2-3.5x ,则变量x 增加一个单位,变量y 平均( )A .减少3.5个单位B .增加2个单位C .增加3.5个单位D .减少2个单位3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得χ2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .有99%以上的把握认为“爱好该项运动和性别有关”B .有99%以上的把握认为“爱好该项运动和性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”4.某考察团对全国十大城市的职工人均工资水平x (千元)与居民人均消费水平y (千元)进行统计调查,发现y 与x 具有线性相关关系,经验回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )A .86%B .72%C .67%D .83%5.某调查者从调查中获知某公司近年来科研费用支出x (万元)与公司所获得利润y (万元)的统计资料如下表:则利润yA .y ^=2x +20B .y ^=2x -20C .y ^=20x +2D .y ^=20x -2 6.独立检验中,假设H 0:变量X 与变量Y 没有关系,则在H 0成立的情况下,P (K 2≥6.635)=0.010表示的意义是( )A .变量X 与变量Y 有关系的概率为1%B .变量X 与变量Y 没有关系的概率为99.9%C .变量X 与变量Y 没有关系的概率为99%D .变量X 与变量Y 有关系的概率为99%7.根据某班学生数学、外语成绩得到的2×2列联表如下:那么随机变量χ2约等于A .10.3B .8 C .4.25D .9.3 8.春节期间,“履行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:χ2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.A .在犯错误的概率不超过0.01的前提下认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过0.01的前提下认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过0.1的前提下认为“该市居民能否做到‘光盘’与性别有关”D .在犯错误的概率不超过0.1的前提下认为“该市居民能否做到‘光盘’与性别无关” 二、多项选择题(本大题共4小题,每小题5分,共20分.在每小题给出的四个选项中,有多项符合题目要求.全部选对的得5分,部分选对的得3分,有选错的得0分)9.独立性检验中,为了调查变量X 与变量Y 的关系,经过计算得到χ2≥6.635=x 0.01表示的意义是( )A .有99%的把握认为变量X 与变量Y 没有关系B .有1%的把握认为变量X 与变量Y 有关系C .有99%的把握认为变量X 与变量Y 有关系D .有1%的把握认为变量X 与变量Y 没有关系10.在统计中,由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )利用最小二乘法得到两个变量的经验回归方程为y ^=b ^x +a ^,那么下面说法正确的是( )A .经验回归直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点B .经验回归直线y ^=b ^x +a ^必经过点(x -,y -)C .经验回归直线y ^=b ^x +a ^表示最接近y 与x 之间真实关系的一条直线 D .|r |≤1,且|r |越接近于1,相关程度越大;|r |越接近于0,相关程度越小11.已知由样本数据点集合{(x i ,y i )|i =1,2,…,n },求得的经验回归方程为y ^=1.5x +0.5,且x -=3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的经验回归直线l 的斜率为1.2,则( )A .变量x 与y 具有正相关关系B .去除后的经验回归方程为y ^=1.2x +1.4 C .去除后y 的估计值增加速度变快D .去除后相应于样本点(2,3.75)的残差为0.0512.针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关,则调查人数中男生可能有( )人附表:附:χ2=n (ad -(a +b )(c +d )(a +c )(b +d )A .25B .45C .60D .75三、填空题(本大题共4小题,每小题5分,共20分.请把正确答案填在题中横线上) 13.下列是关于出生男婴与女婴调查的列联表那么A =________,B ,E =________.14.已知样本数为11,计算得∑i =111x i =66,∑i =111y i =132,经验回归方程为y ^=0.3x +a ^,则a ^=________.15.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表,由表中数据得经验回归方程y ^=b ^x +a ^,其中b ^=-2.现预测当气温为-4℃时,用电量的度数约为________.16.在犯错误的概率不超过四、解答题(本大题共6小题,共70分.解答时应写出必要的文字说明、证明过程或演算步骤)17.(本小题满分10分)在改革开放40年成就展上有某地区某农产品近几年的产量统计如表:(1)根据表中数据,建立y 关于x 的经验回归方程y =b x +a ; (2)根据经验回归方程预测2020年该地区该农产品的年产量.附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其经验回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2,a ^=y --b ^x -,(参考数据:i =16(x i -x -)(y i -y -)=2.8,计算结果保留到小数点后两位)18.(本小题满分12分)在海南省第二十四届科技创新大赛活动中,某同学为研究“网络游戏对当代青少年的影响”作了一次调查,共调查了50名同学,其中男生26人,有8人不喜欢玩电脑游戏,而调查的女生中有9人喜欢玩电脑游戏.(1)根据以上数据建立一个2×2的列联表; (2)根据以上数据,在犯错误的概率不超过0.025的前提下,能否认为“喜欢玩电脑游戏与性别有关系”?19.(本小题满分12分)某校团对“学生性别与是否喜欢韩剧有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23,若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有多少人?20.(本小题满分12分)某省级示范高中高三年级对各科考试的评价指标中,有“难度系数”和“区分度”两个指标中,难度系数=年级总平均分满分,区分度=实验班的平均分-普通班的平均分满分.(1)某次数学考试(满分为150分),随机从实验班和普通班各抽取三人,实验班三人的成绩分别为147,142,137;普通班三人的成绩分别为97,102,113.通过样本估计本次考试的区分度(精确到0.01).(2)如下表表格是该校高三年级6次数学考试的统计数据:明,能否利用经验回归模型描述y 与x 的关系(精确到0.01).②t i =|x i -0.74|(i =1,2,…,6),求出y 关于t 的经验回归方程,并预测x =0.75时y 的值(精确到0.01).附注:参考数据:∑i =16x i y i =0.9309,i =16(x i -x -)2i =16(y i -y -)2≈0.0112,∑i =16t i y i =0.0483,i =16(t i -i -)2=0.0073参考公式:相关系数r =i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2i =1n (y i -y -)2,经验回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2,a ^=y --b ^x -.21.(本小题满分12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.25周岁以上(含25周岁)组25周岁以下组(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不小于80件者为“生产能手”,请你根据已知条件画出2×2列联表,并判断是否在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”?(注:χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d))22.(本小题满分12分)某地区在一次考试后,从全体考生中随机抽取44名,获取他们本次考试的数学成绩(x)和物理成绩(y),绘制成如图散点图:根据散点图可以看出y与x之间有线性相关关系,但图中有两个异常点A,B.经调查得知,A 考生由于感冒导致物理考试发挥失常,B 考生因故未能参加物理考试.为了使分析结果更科学准确,剔除这两组数据后,对剩下的数据作处理,得到一些统计的值:∑i =142x i =4641,∑i =142y i =3108,∑i =142x i y i =350350,i =142(x i -x -)2=13814.5,i =142(y i -y -)2=5250,其中x i ,y i 分别表示这42名同学的数学成绩、物理成绩,i =1,2,…,42,y 与x 的相关系数r =0.82.(1)若不剔除A ,B 两名考生的数据,用44组数据作回归分析,设此时y 与x 的相关系数为r 0.试判断r 0与r 的大小关系,并说明理由;(2)求y 关于x 的经验回归方程(系数精确到0.01),并估计如果B 考生加了这次物理考试(已知B 考生的数学成绩为125分),物理成绩是多少?(精确到个位);(3)从概率统计规律看,本次考试该地区的物理成绩ξ服从正态分布N(μ,σ2).以剔除后的物理成绩作为样本,用样本平均数y -作为μ的估计值,用样本方差s 2作为σ2的估计值.试求该地区5000名考生中,物理成绩位于区间(62.8,85.2)的人数Z 的数学期望.附:①经验回归方程y ^=a ^+b ^x 中:b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2,a ^=y --b ^x -.②若ξ~N(μ,σ2),则P(μ-σ<ξ<μ+σ)=0.6826,P(μ-2σ<ξ≤μ+2σ)=0.9544.③125≈11.2.章末质量检测(三)1.解析:相关关系虽然是一种不确定关系,但是回归分析可以在某种程度上对变量的发展趋势进行预报,这种预报在尽量减小误差的条件下可以对生产与生活起到一定的指导作用,独立性检验对分类变量的检验也是不确定的,但是其结果也有一定的实际意义.故选C .答案:C2.解析:由经验回归方程可知b ^ =-3.5,则变量x 增加一个单位,y ^减少3.5个单位,即变量y 平均减少3.5个单位.故选A .答案:A3.解析:∵χ2≈7.8>6.635=x 0.01,∴犯错误的概率不超过α=0.01.故选A . 答案:A4.解析:将y ^=7.675,代入经验回归方程可计算,得x ≈9.26,所以该城市大约消费额占人均工资收入的百分比为7.675÷9.26≈0.83,故选D .答案:D5.解析:设经验回归方程为y ^ =b ^ x +a ^. 由表中数据得,b ^ =1 000-6×5×30200-6×52 =2,∴a ^ =y - -b ^ x -=30-2×5=20, ∴经验回归方程为y ^=2x +20.故选A . 答案:A6.解析:由题意知变量X 与Y 没有关系的概率为0.01,即认为变量X 与Y 有关系的概率为99%.故选D .答案:D7.解析:由公式得χ2=85×(34×19-17×15)251×34×49×36≈4.25.故选C .答案:C8.解析:由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,代入公式得χ2=100×(675-300)255×45×75×25≈3.030<3.841.∵2.706<3.030<3.841,∴在犯错误的概率不超过0.1的前提下认为“该市居民能否做到光盘与性别有关”. 答案:C9.解析:独立性检验中,由χ2≥6.635=x 0.01,它表示的意义是:有1%的把握认为变量X 与变量Y 没有关系,D 正确;即有99%的把握认为变量X 与变量Y 有关系,C 正确.故选CD .答案:CD10.解析:经验回归直线是最能体现这组数据的变化趋势的直线,不一定经过样本数据中的点,故A 不正确,C 正确;经验回归直线一定经过样本中心点,故B 正确;相关系数r满足|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小,故D 正确.故选BCD .答案:BCD11.解析:x - =3,代入y ^ =1.5x +0.5,y -=5,因为重新求得的经验回归直线l 的斜率为1.2,故正相关,设新的数据所以横坐标的平均值x - ,则(n -2)x - =n x --(1.2+4.8)=3n -6=3(n -2),故x - =3,纵坐标的平均数为y - ,则(n -2)y - =n y - -(2.2+7.8)=n y --10=5n -10=5(n -2),y -=5,设新的经验回归方程为y ^ =1.2x +b ^ ,把(3,5)代入5=1.2×3+b ^ ,b ^=1.4, 故新的经验回归方程为y ^=1.2x +1.4,故A ,B 正确,因为斜率为1.2不变,所以y 的增长速度不变,C 错误,把x =2代入,y =3.8,3.75-3.8=-0.05,故D 错误,故选AB .答案:AB12.解析:设男生可能有x 人,依题意可得列联表如下:若有95%的把握认为是否喜欢抖音和性别有关,则χ2>3.841, 由χ2=2x21>3.841,解得x>40.335,由题意知x>0,且x 是5的整数倍,所以45,60和75都满足题意.故选BCD . 答案:BCD13.解析:∵45+E =98,∴E =53, ∵E +35=C ,∴C =88, ∵98+D =180,∴D =82,∵A +35=D ,∴A =47, ∵45+A =B ,∴B =92. 答案:47 92 88 82 53 14.解析:∵∑i =111x i =66,∑i =111y i =132,∴x -=6,y -=12,代入y ^=0.3x +a ^, 可得:a ^=10.2. 答案:10.215.解析:由题意可知x -=14(18+13+10-1)=10,y -=14(24+34+38+64)=40,b ^=-2.又经验回归直线y ^=-2x +a ^过点(10,40),故a ^=60. 所以当x =-4时,y ^=-2×(-4)+60=68. 答案:6816.解析:由列联表中的数据,得χ2=89×(24×26-31×8)255×34×32×57≈3.689>2.706,因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关系. 答案:0.1017.解析:(1)由题意可知:x -=3.5,y -=7,∑i =16 (x i -x -)2=17.5,所以b ^=0.16,又a ^=6.44,故y 关于x 的经验回归方程为y ^=0.16x +6.44. (2)由(1)可得,当年份为2020年时, 年份代码x =7,此时y ^=0.16×7+6.44=7.56.所以可预测2020年该地区该农产品的年产量约为7.56万吨. 18.解析:(1)2×2列联表(2)χ2=50×(18×15-8×9)227×23×24×26≈5.06,又x 0.025=5.024<5.06,故在犯错误的概率不超过0.025的前提下,可以认为“喜欢玩电脑游戏与性别有关系”.19.解析:设男生人数为x ,依题意可得列联表如下:若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则χ2>3.841, 由χ2=38x>3.841,解得x>10.24,∵x 2 ,x6 为整数,∴若在犯错误的概率不超过0.05的前提下认为是否喜欢韩剧和性别有关,则男生至少有12人.20.解析:(1)实验班三人成绩的平均值为142,普通班三人成绩的平均值为104,故估计本次考试的区分度为142-104150 ≈0.25.(2)①由题中的表格可知x - =16(0.64+0.71+0.74+0.76+0.77+0.82)=0.74,y - =16(0.18+0.23+0.24+0.24+0.22+0.15)=0.21,故r =∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2∑i =1n (y i -y -)2≈-0.13.因为|r |<0.75,所以相关性弱,故不能利用经验回归模型描述y 与x 的关系; ②y 与t 的值如下表因为b ^=∑i =16t i y i -6t -·y-∑i =16(t i -t -)2≈0.0483-6×0.266×0.210.007 3≈-0.86,所以a ^=y --b ^t -=0.21+0.86×0.266≈0.25,所以所求经验回归方程y ^=0.86t +0.25, 当x =0.75时,此时t =0.01,则y ≈0.24.21.解析:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是:(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),据此可得2×2列联表如下:所以得χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(15×25-15×45)260×40×30×70 ≈1.79.因为1.79<2.706.所以在犯错误的概率不超过0.1的前提下不能认为“生产能手与工人所在的年龄组有关”.22.解析:(1)r 0<r.理由如下:由图可知,y 与x 成正相关关系, ①异常点A ,B 会降低变量之间的线性相关程度.②44个数据点与其经验回归直线的总偏差更大,回归效果更差,所以相关系数更小. ③42个数据点与其经验回归直线的总偏差更小,回归效果更好,所以相关系数更大. ④42个数据点更贴近其经验回归直线. ⑤44个数据点与其经验回归直线更离散.(2)由题中数据可得:x -=142∑i =142x i =110.5,y -=142∑i =142y i =74,所以∑i =142 (x i -x -)(y i -y -)=∑i =142x i y i -42x -y -=350 350-42×110.5×74=6 916.又因为∑i =142 (x i -x -)2=138 14.5,所以b ^=∑i =142(x i -x -)(y i -y -)∑i =142 (x i -x -)2=0.501,a ^=y --b ^x -=74-0.501×110.5≈18.64,所以y ^=0.50x +18.64. 将x =125代入,得y =0.50×125+18.64=62.5+18.64≈81, 所以估计B 同学的物理成绩均为81分.(3)y -=142∑i =142y i =74,s 2=142∑i =142 (y i -y -)2=142×5 250=125,所以ξ~N (74,125),又因为125≈11.2,所以P (62.8<ξ<85.2)=P (74-11.2<ξ<74+11.2)=0.682 6, 因为Z ~B (5 000,0.682 6),所以E (Z )=5 000×0.682 6=3 413,即该地区本次考试物理成绩位于区间(62.8,85.2)的人数Z 的数学期望为3 413.。