C×C列联表资料的假设检验方法
- 格式:pdf
- 大小:87.97 KB
- 文档页数:1
统计学:生物统计附试验设计考点(三)1、问答题在什么条件下方差分析之前要作数据转换?常用的数据转换方法有哪几种?各在什么条件下应用?正确答案:分布的非正态性和方差的不同质经常相伴出现,对这类资料不能直接进行方差分析(江南博哥),而因考虑采用非参数方法分析或进行适当数据转换后再作方差分析。
常用的数据转换方法有三种:平方根转换此法适用于各组均方与其平均数之间有某种比例关系的资料,尤其适用于总体呈泊松分布的资料。
对数转换如果各组数据的标准差或全距与其平均数大体成比例,或者效应为相乘性或非相加性。
反正弦转换反正弦转换也称角度转换。
此法适用于如发病率、感染率、病死率、受胎率等服从二项分布的资料2、问答题适合性检验和独立性检验有何区别?正确答案:独立性检验与适合性检验是两种不同的检验方法,主要区别如下:1、研究目的不同:适合性检验是判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说,独立性检验是分析两类因子是相互独立还是彼此相关;2、独立性检验的次数资料是按两因子属性类别进行归组。
根据两因子属性类别数的不同而构成2×2、2×c、r×c列联表(r为行因子的属性类别数,c为列因子的属性类别数)。
而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。
3、适合性检验按已知的属性分类理论或学说计算理论次数。
独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。
4、在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。
而在r×c列联表的独立性检验中,共有rc个理论次数,但受到以下条件的约束:a、rc个理论次数的总和等于个实际次数的总和;b、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。
但由于r个横行实际次数之和的总和应等于rc个实际次数之和,因而独立的行约束条件只有r-1个;c、类似地,独立的列约束条件有c-1个。
定性资料常用的统计学方法一、χ2检验χ2检验(chi-square test)是一种主要用于分析分类变量数据的假设检验方法,该方法主要目的是推断两个或多个总体率或构成比之间有无差别。
(一)四格表资料的χ2检验例17:为了解吲达帕胺片治疗原发性高血压的疗效,将70名高血压患者随机分为两组,试验组用吲达帕胺片加辅助治疗,对照组用安慰剂加辅助治疗,观察结果见表4 -5-1,试分析吲达帕胺片治疗原发性高血压的有效性。
表4 -5-1 两种疗法治疗原发性高血压的疗效1.四格表χ2检验的原理:对于四格表资料,χ2检验的基本公式为:式中,A为实际频数(actual frequency),T为理论频数(theoreticalfrequency)。
理论频数T根据检验假设H0:π1=π2确定,其中π1和π2分别为两组的总体率。
计算理论频数T的公式为:式中Tij 为第i行第j列的理论频数,ni+和n+j分别为相应行与列的周边合计数,n为总例数。
现以例17为例说明χ2检验的步骤:(1)建立检验假设并确定检验水准。
H0:π1=π2,即试验组与对照组的总体有效率相等H1:π1≠π2,即试验组与对照组的总体有效率不等α=0.05(2)计算检验统计量。
按式(4 -5-2)计算T11,然后利用四格表的各行列的合计数计算T12、T21和T22,即T11=(44×41)/70=25.77,T12=44-25.77=18.23T21=41-25.77=15.23,T22=26-15.23=10.77按式(4 -5-3)计算χ2值(3)确定P值,作出推断结论。
以ν=1查χ2分布界值表,得P<0.005。
按α=0.05水准,拒绝H,接受H1,可以认为两组治疗原发性高血压的总体有效率不等,即可以认为吲达帕胺片治疗原发性高血压优于对照组。
2.四格表资料χ2检验的专用公式:在对两样本率比较时,当总例数n≥40且所有格子的T≥5时,可用χ2检验的通用公式(4 -5-1)。
SPSS软件与应用知到章节测试答案智慧树2023年最新潍坊医学院第一章测试1.下列属于SPSS运行窗口的是()。
参考答案:脚本窗口;数据窗口;结果窗口2.SPSS处理实际问题的一般步骤包括()。
参考答案:结果的解释和表达;数据的加工整理;数据的统计分析;数据的准备3.进行数据编码的过程中,需要考虑变量的()。
参考答案:赋值;个数;名称;类型4.在某调查问卷中,有这样一个问题:“请问您来自哪个省?”从问题类型来看,这个问题属于()。
一般字符型问题5.在某调查问卷中,有这样一个问题:“在淘宝、拼多多、京东、网易严选中,请问您最经常使用的购物网站是什么?(限选2项)”要对这个问题进行编码,需要设置()个变量。
参考答案:26.对于量表中反向计分的题目,其赋值最常通过()完成。
参考答案:变量重新编码7.学习了SPSS软件,就可以不必学习统计学方法了。
()参考答案:错8.数据视图中,一行代表一个个案,即一个研究对象的全部资料都体现在这一行之中。
()参考答案:对9.字符型变量也可以进行算术和比较运算。
()错10.SPSS数据文件的纵向合并就是添加个案的过程。
()参考答案:对第二章测试1.下列可用于计数资料的描述性分析的是()。
参考答案:条形图;饼图2.下列属于计量资料离散趋势指标的是()。
参考答案:方差;标准差;变异系数3.已知某小学二年级共有500名学生,现已完成对其身高的测量。
若要按某个区间标准绘制其分组频数分布表和分组频数分布图,可能需要用到()主菜单。
参考答案:转换;分析4.要描述对数正态分布资料的集中趋势,应选择()。
参考答案:几何均数5.对于多项选择题的描述分析,可通过()完成。
参考答案:多重响应6.在对统计分组后的数据资料进行集中趋势描述时,可使用加权平均数。
()参考答案:对7.在一组观测值中,众数可能不止一个,也可能不存在。
()参考答案:对8.“交叉频数分布表”可通过“分析”——“描述统计”——“频率”完成。
卡方检验是用途很广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
卡方检验基本思想在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?处理发癌数未发癌数合计发癌率%甲组52197173.24乙组3934292.86合计912211380.33 52 19 39 3 是表中最基本的数据,因此上表资料又被称之为四格表资料。
卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T 差值平方与理论频数之比的累计和。
每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*91/113=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
利用统计学软件分析结果如下:data kafang; input row column number @@; cards; 1 1 52 1 2 19 2 1 39 2 2 3 ; run; proc freq; tables row*column/chisq; weight number; run;统计量自由度值概率卡方16.47770.0109(有统计学意义)似然比卡方17.31010.0069连续校正卡方15.28680.0215Mantel-Haenszel 卡方16.42030.0113Phi 系数-0.2394列联系数0.2328Cramer 的V-0.2394二联表的卡方检验方法假设有两个分类变量X和Y,它们的值域分另为{x1, x2}和{y1, y2},其样本频数列联表为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d 若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。
.. 生物统计学习题集参考答案第一章概论一、填空1 变量按其性质可以分为 连续 变量和 非连续 变量。
2 样本统计数是总体 参数 的估计量。
3 生物统计学是研究生命过程中以样本来推断 总体 的一门学科。
4 生物统计学的基本内容包括_试验设置、统计分析_两大部分。
5 统计学的发展过程经历了 古典记录统计学、 近代描述统计学现代推断统计学 3个阶段。
6 生物学研究中,一般将样本容量 n大于等于 30称为大样本。
7 试验误差可以分为__随机误差 、系统误差 两类。
二、判断(-)1 对于有限总体不必用统计推断方法。
(-)2 资料的精确性高,其准确性也一定高。
(+) 3 在试验设计中,随机误差只能减少,而不可能完全消除。
(+)4 统计学上的试验误差,通常指随机误差。
三、名词解释样本:从总体中抽出的若干个体所构成的集合称为样本。
总体:具有相同的个体所构成的集合称为总体。
连续变量:是指在变量范围内可抽出某一范围的所有值。
非连续变量:也称离散型变量,表示变量数列中仅能取得固定数值并且通常是整数。
准确性:也称准确度指在调查或试验中某一试验指标或性状的观测值与真实值接近的程度。
精确性:也称精确度指在调查或试验中同一试验指标或性状的重复观测值彼此接近程度的大小。
第二章 试验资料的整理与特征数的计算一、填空1 1 资料按生物的性状特征可分为资料按生物的性状特征可分为资料按生物的性状特征可分为_________数量性状资料数量性状资料数量性状资料__变量和变量和______变量性变量性状资料状资料__变量。
2 2 直方图适合于表示直方图适合于表示直方图适合于表示______计量计量计量 、、 连续变量连续变量__资料的次数分布。
3 3 变量的分布具有两个明显基本特征,即变量的分布具有两个明显基本特征,即变量的分布具有两个明显基本特征,即__集中性集中性__和____离散性离散性离散性__。
4 4 反映变量集中性的特征数是反映变量集中性的特征数是反映变量集中性的特征数是______平均数平均数平均数______,反映变量离散性的特征,反映变量离散性的特征数是数是______变异数(标准差)变异数(标准差)变异数(标准差)__。
第七章样本率(或构成比)比较的假设检验第七章样本率(或构成比)比较的假设检验第一节样本率与总体率比较的u检验样本率与总体率(一般为已知的理论值、标准值或经大量观察所得到的稳定值等)比较的目的,是推断该样本所代表的未知总体率π与已知总体率π0是否不同。
u检验的适用条件:当样本含量n足够大,且样本率p和(1-p)均不太小,如np与n(1-p)均大于5时,样本率的分布近似正态分布,此时样本率与总体率差别的假设检验可利用正态分布的原理作u 检验。
第二节两个样本率比较的u检验当两样本含量n1及n2足够大,且两个样本率p1、(1-p1)及p2、(1-p2)均不太小,如n1 p1和n1(1- p1)及n2 p2和n2(1- p2)均大于5时,可根据正态分布原理,进行u检验。
第三节四格表资料的χ2检验(两个样本率比较)一、两个样本率资料的四格表形式1、χ2检验的基本思想χ2值反映了实际频数和理论频数的吻合程度。
χ2值越小,说明实际频数与理论频数越吻合,χ2值越大,说明实际频数与理论频数差异越大。
如果检验假设成立,则实际频数与理论频数之差一般不会很大,即出现大的χ2值的概率是小的。
若在无效假设下,出现了大的χ2值的概率P≤α(检验水准),我们就怀疑假设的成立,因此拒绝它。
另外χ2值的大小,还与自由度有关。
故考虑χ2值大小的意义时要同时考虑自由度。
若χ2≥χ2α,,(υ), 则P≤α, 拒绝H0,接受H1。
2、四格表χ2检验的的校正公式(1)当自由度为1的四格表资料,理论数较小时,需做连续性校正。
(2)四格表χ2检验的适用条件当n>40,且所有T≥5时,用χ2检验的基本公式或四格表专用公式。
当n>40,但有1<t<5时,需用四格表χ2检验的校正公式。
< p="">若n≤40,或T≤1时,需用确切概率计算法。
第四节行×列表资料的χ2检验一、多个样本率和构成比资料,其基本数据均可整理成R行C列,称为R×C表,又称行×列表,χ2检验目的是推断其总体率或构成比是否不同。
医学论文中常用统计分析方法的合理选择目前,不少医学论文中的统计分析存在较多的问题。
有报道,经两位专家审稿认为可以发表的稿件中,其统计学误用率为90%-95%[1]。
为帮助广大医务工作者提高统计分析水平,本文将介绍医学论文中常用统计分析方法的选择原则及应用过程中的注意事项。
1.t 检验t检验是英国统计学家W.S.Gosset 1908年根据t分布原理建立起来的一种假设检验方法,常用于计量资料中两个小样本均数的比较。
理论上,t检验的应用条件是要求样本来自正态分布的总体,两样本均数比较时,还要求两总体方差相等。
但在实际工作中,与上述条件略有偏离,只要其分布为单峰且近似正态分布,也可应用[2]。
常用的t检验有如下三类:①单个样本t检验:用于推断样本均数代表的总体均数和已知总体均数有无显著性差别。
当样本例数较少(n<60)且总体标准差未知时,选用t检验;反之当样本例数较多或样本例数较少、总体标准差已知时,则可选用u检验[3]。
②配对样本t检验:适用于配对设计的两样本均数的比较,在选用时应注意两样本是否为配对设计资料。
常用的配对设计资料主要有如下三种情况:两种同质受试对象分别接受两种不同的处理;同一受试对象或同一样本的两个部分,分别接受不同的处理;同一受试对象处理前后的结果比较。
③两独立样本t检验:又称成组t检验,适用于完全随机设计的两样本均数的比较。
与配对t检验不同的是,在进行两独立样本t检验之前,还必须对两组资料进行方差齐性检验。
若为小样本且方差齐,则选用t检验;反之若方差不齐,则选用校正t检验(t’检验),或采用数据变换的方法(如取对数、开方、倒数等)使两组资料具有方差齐性后再进行t检验,或采用非参数检验[4]。
此外,当两组样本例数较多(n1、n2均>50)时,这时应用t检验的计算比较繁琐,可选用u检验[5]。
2.方差分析方差分析适用于两组以上计量资料均数的比较,其应用条件是各组资料取自正态分布的总体且各组资料具有方差齐性。
r乘c列联表卡方检验注意事项
r乘c列联表卡方检验是一种常用的统计分析方法,用于研究两个分类变量之间的关系。
下面是该方法的注意事项:
1. 样本量的要求:在进行r乘c列联表卡方检验之前,需要确定样本量是否足够。
通常来说,每个分类变量的最小期望频数应该大于5,否则可能会影响卡方检验的可靠性。
2. 卡方检验的假设:在进行r乘c列联表卡方检验时,需要建立两个假设,即零假设和备择假设。
零假设是指两个分类变量之间不存在任何关系,备择假设则是指两个分类变量之间存在关系。
3. 卡方统计量的计算:在进行r乘c列联表卡方检验时,需要先计算卡方统计量。
卡方统计量的计算需要使用实际频数和期望频数,通过求和计算得到。
4. 卡方检验的结果解释:在进行r乘c列联表卡方检验后,需要对结果进行解释。
如果卡方值小于临界值,则可以接受零假设,即认为两个分类变量之间不存在显著关系。
如果卡方值大于临界值,则需要拒绝零假设,并认为两个分类变量之间存在显著关系。
5. 置信度和显著性水平的设置:在进行r乘c列联表卡方检验时,需要设置置
信度和显著性水平。
置信度表示对结果的信任程度,通常设置为95%或99%。
显著性水平表示拒绝零假设的临界值,通常设置为0.05或0.01。
总之,进行r乘c列联表卡方检验需要注意样本量的要求,建立假设,计算卡方统计量,解释结果以及设置置信度和显著性水平。
只有在正确使用该方法的前提下,才能得到准确可靠的结果。
a一类错误小于取真接受H1 拒绝H0(真)抽样误差根号下[p*(1-p)/n]正态性检验H0:服从有错:β方差s2=(xi-xba)2求和之后/n-1 {xi2求和后-【x求和后的平方再除n】}/n-1 95%置信区间X吧+_1.96s/根号nOR^(1+_1.96/根号X2)假设检验步骤(1)资料类型:定性定量(2)设计类型:完全随机设计(两独立样本t检验,四格表X;多组独立样本方差分析,R*C列联表X、多组独立样本方差分析,等级资料有序多分类资料秩和检验)(3)判断条件及采用的统计学方法:独立正态(小样本进行正态性检验,由中心极限定理可知,n>50样本均数来自正态分布的总体)方差齐性等方差,等级资料。
(4)有序多分类等级资料秩和检验:建立检验假设,确定检验水准H0:Md=0,即前后变化分数的总体中位数为0;H1:Md≠0,总体中位数不为零a=0.05(5)计算检验统计量T,若相同秩次较多,采用近似正态法,用矫正公式,计算Zc,Z0.05/2=1.96(6)确定P值,做出推断(P》a不拒绝H0,认为差异无统计学意义)查T界值表,若T统计量落在上下界值之间,【检验统计量T选T+-小的值】P>0.05,按a=0.05水准,不拒接H0,差异不具有统计学意义,尚不能说明、、有效。
单因素方差分析=完全随机设计的方差分析 1. 方差分析常用于三个及以上均数的比较,当用于两个均数的比较时,同一资料所得结果与t 检验等价。
2设计思路:主要用于多组定量资料的比较,先进行总的比较,避免一类错误增加。
当组间有统计学差异时再进行组间比较。
2. 方差分析基本思想:根据研究目的和设计类型,将全部观测值的总变异按影响因素分解为相应的若干部分变异,在此基础上,计算假设检验的统计量 F 值,实现对总体均数是否有差别的推断。
(根据研究目的和设计类型,将全部观测值的总变异分解为两个或多个部分,各部分的变异可由不同处理因素的效应或者误差的效应解释。