配对设计2×2列联表的精确检验方法及应用
- 格式:pdf
- 大小:150.02 KB
- 文档页数:2
⽥间试验设计作业答案单项选择题1、对于已分组的⼤样本资料,计算其标准差宜采⽤A. 加权法随机法概率法直接法2、对于未分组的⼤样本资料,计算其⽅差宜采⽤概率法直接法加权法随机法3、投掷硬币5次,其中3次⾯值朝上的概率是B. 0.250.1250.31250.64、在直线回归分析和直线相关分析中,下列说法错误的是C. 相关系数可⽤回归系数表⽰,反之则不然直线回归分析的两相关变量可区分为⾃变量和依变量直线相关分析研究的变量呈平⾏关系两相关变量间的决定系数等于其相关系数的平⽅5、关于试验观测值的准确性和精确性,下列表述错误的是精确性低,准确性⼀定低精确性⾼,准确性⼀定⾼准确性低,精确性有可能⾼准确性⾼,精确性⼀定⾼6、若两相关变量的样本观测值共n对,则其相关系数的⾃由度为n-212n-17、表⽰抽样误差⼤⼩应使⽤⽅差极差标准误标准差8、在种⼦发芽试验中,下列事件中属于基本事件的是1粒种⼦发芽某1粒种⼦发芽⾄少有1粒种⼦发芽⾄多有1粒种⼦发芽9、某样本资料的观测值是:18、5、17,20、11、15、12,则该资料的全距为54152010、检验某品牌花⽣油中油酸含量是否⾼于45%应采⽤F. 适合性检验独⽴性检验⼀尾检验两尾检验11、两相关变量x与y,其SPxy=0.36,SSx=0.2,SSy=0.8,则其相关系数为0.90.60.0720.28812、在编号为1、2、3、…、10的10株⽟⽶中随机抽取1株,下列事件中属于复合事件的是取得编号是6的植株取得编号是偶数的植株取得编号是2的植株取得编号是4的植株13、在3次重复的温度和湿度两因素完全随机设计试验中,进⾏不同温度间的平均数的多重⽐较应采⽤u法SSR发14、在3次重复的单因素完全随机设计试验资料的⽅差分析中,总平⽅和分解为处理平⽅和、误差平⽅和处理平⽅和、重复平⽅和、误差平⽅和处理平⽅和、重复平⽅和重复平⽅和、误差平⽅和15、某棉花品种产量样本的算术平均数为150(kg),标准差为6(kg),则其变异系数是96%75%25%4%16、下列变量中属于离散型随机变量的是⽟⽶植株的⾼度⽔稻的产量奶⽜的产奶量油菜花瓣的颜⾊17、对于未分组的样本资料,计算其算数平均数宜采⽤概率法中值法加权法直接法18、若随机变量u服从N (0,1),则右尾概率为0.005的临界u值是1.642.583.471.9619、某样本n个观测值的乘积开n次⽅所得的值,即为该样本的⼏何平均数n次⽅根20、在拉丁⽅设计中,下列说法错误的是E. 拉丁⽅设计可以控制两个⽅向的环境条件变异对试验指标的影响重复数等于处理数与完全随机设计相同,拉丁⽅设计仅使⽤了试验设计的重复和随机排列的原则横⾏区组数等于直列区组数多项选择题21、在下列χ2检验中,需进⾏连续性矫正的是2×2列联表的独⽴性检验9 : 3 : 4的适合性检验9 : 3 : 3 : 1的适合性检验15 : 1的适合性检验4×3列联表的独⽴性检验22、关于t分布,下列表述正确的是t分布的密度曲线是左右对称的t的⾃由度是n-1t的取值范围是(-∞,+∞)当t=0时,t分布的密度函数取得最⼤值当⾃由度⼀定时,t分布两尾概率越⼤,临界t值的绝对值越⼤23、在直线回归分析和直线相关分析中,下列表述错误的是相关变量x与y的直线回归分析中,回归系数显著表明x与y⼀定呈直线关系两相关变量间的决定系数等于其相关系数的平⽅直线回归分析的两相关变量可区分为⾃变量和依变量对同⼀组数据来说,回归系数和相关系数的假设检验是不等价的相关系数可⽤回归系数表⽰,反之则不然24、下列表述正确的是⽤⼏何平均数⽐⽤算数平均数更能代表作物⽣产的平均增长率⽔平样本平均数是相应总体平均数的⽆偏估计值表⽰某⼀过程不同阶段的平均⽔平时,调和平均数优于算数平均数数据资料呈偏态分布时,中位数的代表性优于算数平均数对于同⼀资料来说,算数平均数≥⼏何平均数≥调和平均数25、常⽤于表⽰计量资料的统计图有圆图线图直⽅图条形图多边形图判断题26、离均差的平⽅和最⼩。
§8.3列联表与独立性检验教学目标1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.教学知识梳理知识点一分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.知识点二2×2列联表1.2×2列联表给出了成对分类变量数据的交叉分类频数.2.定义一对分类变量X和Y,我们整理数据如下表所示:知识点三独立性检验1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.独立性检验解决实际问题的主要环节(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.思考独立性检验与反证法的思想类似,那么独立性检验是反证法吗?答案不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.教学案例案例一等高堆积条形图的应用例1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.解:作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.反思感悟等高堆积条形图的优劣点(1)优点:较直观地展示了aa+b与cc+d的差异性.(2)劣点:不能给出推断“两个分类变量有关系”犯错误的概率.跟踪训练1.研究人员选取170名青年男女大学生,对他们进行一种心理测验.发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有18名,否定的有42名.110名男生在相同的题目上作肯定的有22名,否定的有88名.试判断性别与态度之间是否有关系.解:根据题目所给数据建立如下列联表:肯定否定总计女生184260男生2288110总计40130170比较来看,女生中肯定的人数比要高于男生中肯定的人数比,因此可以在某种程度上认为性别与态度之间有关. 案例二 由χ2进行独立性检验 命题角度1 有关“相关的检验”例2.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了 500位老年人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%(2)χ2=500×(40×270-30×160)2200×300×70×430≈9.967.因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.反思感悟 用χ2进行“相关的检验”步骤 (1)零假设:即先假设两变量间没关系. (2)计算χ2:套用χ2的公式求得χ2值.(3)查临界值:结合所给小概率值α查得相应的临界值x α. (4)下结论:比较χ2与x α的大小,并作出结论.跟踪训练2.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),25周岁以下组工人有40×0.05=2(人).从中随机抽取2名工人,记至少抽到一名25周岁以下组工人的事件为A , 故P (A )=1-C 23C 25=710,故所求概率为710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人), 据此可得2×2列联表如下:所以得χ2=(a +b )(c +d )(a +c )(b +d )=100×(15×25-15×45)260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. 命题角度2 有关“无关的检验”例3.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.解:根据列联表中的数据,得到K 2=32468196196)2915716739(3922⨯⨯⨯⨯-⨯⨯=1.78.因为1.78<3.841,所以我们没有理由说“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作心脏病与否与其做过何种手术无关. 反思感悟 独立性检验解决实际问题的主要环节(1)提出零假设H 0:X 和Y 相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值x α比较. (3)根据检验规则得出推断结论.(4)在X 和Y 不独立的情况下,根据需要,通过比较相应的频率,分析X 和Y 间的影响规律. 跟踪训练3.为了研究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高一在校生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关? 解:问题是判断学生选报文、理科是否与对外语的兴趣有关.列出2×2列联表如下:由公式得K 2的观测值k =361×(138×52-73×98)236×125×211×150≈1.871×10-4.因为1.871×10-4<2.706,故可以认为学生选报文、理科与对外语的兴趣无关. 课堂小结 1.知识清单: (1)分类变量. (2)2×2列联表. (3)等高堆积条形图. (4)独立性检验,χ2公式. 2.方法归纳:数形结合.3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题. 当堂检测1.下面是一个2×2列联表:则表中a ,b 处的值分别为( ) A .94,96 B .52,50 C .52,60 D .54,52【答案】C【解析】∵a +21=73,∴a =52,b =a +8=52+8=60.2.某班主任对全班50名学生进行了作业量的调查,数据如下表:则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A .0.01 B .0.005 C .0.05 D .0.001【答案】C 【解析】由公式得χ2=50×(18×15-8×9)226×24×27×23≈5.059>3.841=x 0.05.∴犯错误的概率不超过0.05.3.(多选)若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( ) A .在犯错误的概率不超过0.01的前提下,认为吸烟和患肺癌有关系 B .1个人吸烟,那么这个人有99%的概率患有肺癌 C .在100个吸烟者中一定有患肺癌的人D .在100个吸烟者中可能一个患肺癌的人也没有 【答案】AD【解析】独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.4.某销售部门为了研究具有相关大学学历和能按时完成销售任务的关系,对本部门200名销售人员进行调查,所得数据如下表所示:根据上述数据能得出结论:有________以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”. 【答案】99% 【解析】由公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得χ2=200×(57×65-42×36)299×101×93×107≈9.67.因为9.67>6.635=x 0.01,所以有99%以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.(1)计算a ,b ,c (2)文科学生总成绩不好与数学成绩不好有关系吗? 解:(1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因为P (K 2≥5.024)≈0.025,所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.。
Fisher 精确检验检验两个二进制变量是否是独立的。
该检验可以分析 2x2 列联表,并产生精确的 p 值,以检验以下假设:· H0:行变量和列变量是独立的· H1:行变量和列变量是相关的Fisher 精确检验中的 p 值对于所有样本数量都是准确的,而当单元格计数较小时,用于检查相同假设的卡方检验的结果可能不准确。
例如,可以使用 Fisher 精确检验来分析下面的竞选结果列联表,以确定投票是否独立于投票人的性别。
候选人 A 候选人 B对于该表,Fisher 精确检验产生的 p 值为 0.263。
由于该 p 值大于常用的 a 水平,因此数据与原假设一致。
因而,没有证据表明在竞选中投票人的性别会影响其选择。
您还可以使用 Fisher 精确检验来确定两个总体比率是否相等。
对于此应用,原假设假定两个总体比率是相等的 (H0:p = p);备择假设可以是左尾 (p < p)、右尾 (p > p),或双尾 (p≠ p)。
Fisher 精确检验作为两个比率的检验十分有用,因为它对于所有样本数量都是准确的,而当事件数小于 5 时,以及试验数减去事件数的结果小于 5 时,基于正态近似的 2 个比率的检验可能不准确。
Fisher 精确检验基于超几何分布。
因此,p 值在表的边际合计中是有条件的。
实例:下面用R语言实现检验:> x=c(1,9,11,3)> alle<-matrix(x, nrow=2)> fisher.test(alle,alternative ="two.sided")Fisher's Exact Test for Count Datadata: allep-value = 0.002759alternative hypothesis: true odds ratio is not equal to 195 percent confidence interval:0.0006438284 0.4258840381sample estimates:odds ratio0.03723312通过> help(fisher.test) 来查看使用说明,alternative = "two.sided"是双侧检验,可以根据说明进行调整为单侧'"greater"' or '"less"'.fisher.test package:stats R DocumentationFisher's Exact Test for Count DataDescription:Performs Fisher's exact test for testing the null of independenceof rows and columns in a contingency table with fixed marginals.Usage:fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,control = list(), or = 1, alternative = "two.sided",conf.int = TRUE, conf.level = 0.95,simulate.p.value = FALSE, B = 2000)Arguments:x: either a two-dimensional contingency table in matrix form, ora factor object.y: a factor object; ignored if 'x' is a matrix.fisher.test {stats}R Documentation Fisher's Exact Test for Count DataDescriptionPerforms Fisher's exact test for testing the null of independence of rows and columns in a contingency table with fixed marginals.Usagefisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,control = list(), or = 1, alternative = "two.sided",conf.int = TRUE, conf.level = 0.95,simulate.p.value = FALSE, B = 2000)Argumentsx either a two-dimensional contingency table in matrix form, or a factor object.一个二维矩阵形式的列联表,或一个因素对象。
二乘二列联表解题步骤二乘二列联表解题步骤:第一步:明确题意,寻找题干中的两个变量。
在开始列联表解题之前,我们需要先明确题意,找到题干中的两个变量。
例如:一项调查问卷中,记录了被调查者的性别和最喜欢的球类运动。
这个例子中,两个变量分别是“性别”和“最喜欢的球类运动”。
第二步:绘制二乘二列联表。
根据题目所给的两个变量,绘制一个二乘二的列联表。
在第一列和第一行填上两个变量的取值,例如:在性别这一列填上“男”和“女”,在最喜欢的球类运动这一行填上“足球”和“篮球”。
第三步:统计频数。
根据题目的要求,统计出每个交叉分类下的频数,即每个区域内对应的样本数。
例如:在“男性喜欢足球”的区域内,有18位男性被调查者最喜欢足球。
第四步:计算比例。
以每个交叉分类下的频数为基础,计算出每个分类下的比例。
例如:在“男性喜欢足球”的区域内,男性喜欢足球的比例为36%。
第五步:绘制百分比列联表。
把第四步中计算出的比例填写到表格中,以便更好地了解两个变量之间的关系。
例如:在二乘二列联表中,“男性喜欢足球”的区域内,男性喜欢足球的比例为36%。
第六步:进行分析。
通过表格中不同分类下的比例,可以观察到两个变量之间的关系。
例如:在某项调查问卷中,男性喜欢足球的比例高于女性喜欢足球的比例。
这是一个比较明显的性别和运动喜好的关系。
以上就是二乘二列联表解题的基本步骤。
需要注意的是,在进行统计和计算时,应该准确无误地记录数据,避免出现数据误差。
同时,在分析结果时,应该把数据放在一个较大的背景中进行思考,避免单纯地从个别数据中得出结论。
卫生统计学学习指导与习题集一、选择题(一)A1题每一道题下面有A、B、C、D、E五个被选答案,请从中选择一个最佳答案。
1.下面的变量中,属于分类变量的是(B)A.脉搏B.血型C.肺活量D.红细胞计数E.血压2. 下面的变量中,属于定量变量的是(B)A.性别B.体重C.血型D.职业E.民族3.某人记录了50名病人体重的测定结果:小于50kg的13人,介于50kg和70kg间的20人,大于70kg的17人,此种资料属于(A)A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料4.上述资料可以转换为(C)A.定量资料B.分类资料C.有序资料D.二分类资料E.名义变量资料5.若要通过样本作统计推断,样本应是(C)A.总体中典型的一部分B.总体中任一部分C.总体中随机抽取的一部分D.总体中选取的有意义的一部分E.总体中信息明确的一部分6.统计量(E)A.是统计总体数据得到的量B.反映总体统计特征的量C.是根据总体中的全部数据计算出的统计指标D.是用参数估计出来的E.是由样本数据计算出的统计指标7.因果关系(C)A.就是变量间数量上的联系B.可以用统计方法证明C.必定表现为数量间的联系D.可以通过单独考察两个变量间关系得出E.可以通过变量间数量上的联系来证明(二)A2型每一道题以一个小案例出现,其下面都有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。
1.教材中提及美国人1954年实施了旨在评价Salk疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。
有180万儿童参与,约有1/4参与者得到了随机化。
这180万儿童是(C)A.目标总体B.研究总体C.1份样本D.1份随机样本E.180万份样本2.上述试验最终肯定了索尔克疫苗的效果。
请问此结论是针对(C)而言。
A.180万儿童B.每个儿童C.所有使用索菲克疫苗的儿童D.所有儿童E.180万儿童中随机化的1/4二、是非题1.定量变量、分类变量和有序变量可以相互转换。