X2检验的基本思想
- 格式:ppt
- 大小:360.00 KB
- 文档页数:3
X2检验X2检验是用途广泛的假设检验方法,它的原理是检验实际分布和理论分布的吻合程度。
主要用途有:两个及以上样本率(或构成比)之间差异比较,推断两变量间有无相关关系,检验频数分布的拟合优度。
X2检验类型有:四格表资料X2检验(用于两样本率的检验),行×列表X2检验(用于两个及两个以上样本率或构成比的检验), 行×列列联表X2检验(用于计数资料的相关分析)。
在SPSS中,所有X2检验均用Crosstabs完成。
Crosstabls过程用于对计数资料和有序分类资料进行统计描述和统计推断。
在分析时可以产生二维至n维列联表,并计算相应的百分数指标。
统计推断则包括了我们常用的X2检验、Kappa值,分层X2(X2M-H)。
如果安装了相应模块,还可计算n维列联表的确切概率(Fisher's Exact Test)值。
Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。
界面说明【Rows框】用于选择行*列表中的行变量。
【Columns框】用于选择行*列表中的列变量。
【Layer框】Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。
如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。
Layer在这里用的比较少,在多元回归中我们将进行详细的解释。
【Display clustered bar charts复选框】显示重叠条图。
【Suppress table复选框】禁止在结果中输出行*列表。
【Statistics】按钮弹出Statistics对话框,用于定义所需计算的统计量。
Chi-square复选框:计算X2值。
Correlations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。
Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。
第一章绪论1.举例说明总体和样本的概念。
研究人员通常需要了解和研究某一类个体,这个类就是总体。
总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。
但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。
例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。
2.简述误差的概念。
误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。
随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。
3.举例说明参数和统计量的概念。
某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。
根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。
统计量是研究人员能够知道的,而参数是他们想知道的。
一般情况下,这些参数是难以测定的,仅能够根据样本估计。
显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的。
4.简述小概率事件原理。
当某事件发生的概率小于或等于0.05时,统计学上习惯称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓的小概率事件原理,它是进行统计推断的重要基础。
第二章调查研究设计1.调查研究主要特点是什么?调查研究的主要特点是:①研究的对象及其相关因素(包括研究因素和非研究因素)是客观存在的,不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。
2008广东省统计学老师点题部分和答案选择题1、配对设计t检验的统计假设为:B. 差数的均数来自μ=0的总体2、两组比较作t检验的统计假设为:D.X1,X2来自μ1=μ2的两个总体3、假设检验中当P=0.05时,结论为:A.差异有统计学意义4、为了由样本推断总体,样本应当是:E. 总体中有代表性的一部分5、计量资料、计数资料和等级资料的关系有:C.等级资料兼有计量资料和计数资料的一些性质6、某研究者准备通过分析800人的血压资料以评价当地高血压患病情况,问可以可以考虑将血压测量值按哪种变量类型进行处理:D.以上均可(A.计量资料B计数资料.C.等级资料)7、概率是描述某随机事件发生可能性大小的数值,以下对概率的描述哪项错误:E.其值必须由某一统计量对应得概率分布表中得到8、以下哪些属于计量资料:ABCDE(A.身高的测定值;B.体重的测定值;C.血压的测定值;D.脉搏数;E.白细胞数)9、均数和标准差的关系是:E. s越小,x对各变量值的代表性越好10、描述一组偏态分布资料的变异度,以下列哪个指标为好:B.四分位数间距11、正态曲线下、横轴上,从均数μ到μ+1.96σ的面积为:D.47.5%12、计算某抗体滴度的平均水平,一般宜选择:B.几何均数13、用均数与标准差可全面描述下列哪种质料的特征:C.正态分布和近似正态分布14、比较身高和体重两组数据变异度大小宜采用:A.变异系数15、计算124例链球菌中毒的平均潜伏期,一般宜选择:C.中位数16、óx表示:C.样本均数的标准差17、单因素方差分析中,若处理因素无作用,则理论上应该有:C.F=118、两样本均数差别的假设检验用t检验的条件是:B.两总体方差相等;E.两总体均符合正态分布19、标准误的应用包括:B.估计总体均数的可信区间;E.表示抽样误差的大小20、行×列表的X平方检验应注意:B.若有五分之一以上格子的理论数小于5,则要考虑合理并组21、在医学科研中率的标准化,经常采用全国人口的性别年龄构成,其理由是:A.这样便于进行比较22、某医院的资料,计算了各种疾病所占的比例,该指标为:B.构成比23、某医师欲比较三种疗法治疗某病的效果,中药加针灸组20例,其中15例好转,单纯中药组治疗21例,其中12例好转,西药组治疗23例其中18例好转。
第七章X2检验Chi-square testX2分布——计数资料第一节四格表资料的X2检验一、X2检验的基本思想1、X2分布(1)X2分布是一种连续型分布:X2分布(chi-squaredistribution)只有一个参数,即自由度。
当自由度V《2时,曲线呈L形随着V的增加,曲线逐渐趋于对称当自由度V—00无穷时,X2分布趋近正态分布(2)X2分布的一个基本性质是它的可加性:(X1+X2)——X2(V1+V2)(3)X2分布的界值:X2值愈大,P值愈小;反之,X2值愈小,P值愈大。
2、X2检验的基本思想四格表(fourfold table)资料PearsonX2——X2={Σ(A-T)2/T } V =(行数-1)(列数-1)A为实际频数(actual frequency)T为理论频数(theoretical frequency)——根据检验假设H0:π1=π2确定的。
T(RC)=nRnC/nT(RC)为第R行(row)第C列(column)的理论频数,nR为相应行的合计,nC为相应列的合计,n为总列数。
X2值反映了实际频数与理论频数的吻合程度。
3、X2检验的步骤H0::π1=π2,即试验组与对照组——总体有效率相等H1::π1≠π2,即——————————————不等ɑ=0.05——T值——V——P值二、四格表资料X2检验的专用公式X2=(ad-bc)2n/(a+b)(a+c)(d+b)(d+c)a,b,c,d为四格表的实际频数;(a+b)(a+c)(d+b)(d+c)是周边合计数;n为总例数,n=a+b+c+d.四格表资料X2检验的校正公式三、X2C=(Iad-bcI-n/2)2n/(a+b)(a+c)(d+b)(d+c)(1)当n》40且所有的T》5时,用X2检验的基本公式或四格表资料X2检验的专有公式;(2)当n》40但有1《T《5时,用四格表资料X2检验的校正公式。
(3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。
2χ检验法2χ检验法是一种针对总体分布的假设检验。
当总体X 的分布未知时,我们根据一组样本12,,...,nx x x 的值检验关于总体分布的假设:0H :总体X 的分布函数为F(x);(1)若总体X 是离散的,则以上假设相当于0H :总体X 的分布率为()i i P X x p ==; (2)若总体X 是连续的,则以上假设相当于0H :总体X 的概率密度为()f x ;基本思想:将随机实验可能的结果的全体Ω分成k 个互不相容的事件12,,...,,()k i i A A A p A p =。
现重复作同一实验n 次,记事件A i 出现的频率为/i f n ,则当假设H 0为真且n 足够大时,/i f n 与i p 之间应该差异很小。
定理:若n 充分大(n>=50),则当H 0为真时总有2221()(1)ki i i if np k r np χχ=-=--∑,r 为被估计的参数的个数。
结论:对于假设0H (总体X 的分布函数为F(x)),当2221()(1)ki i i if np k r np αχχ=-=--≥∑时,我们认为原假设0H 不成立。
(α称为置信水平,通常取α=0.05)例1.婴儿出生时刻某医院为了研究一天中婴儿出生时刻的分布规律,对2880名婴儿进行了调查,据此分析婴儿出生时解:0H :婴儿出生时刻服从一天内的均匀分布。
记A i 表示婴儿出生时刻落在第i 小时(i=0,1,…,23),则对均匀分布有()1/24i P A =。
利用Excel 很容易计算出221()40.8333ki i i if np np χ=-==∑,在置信水平1-α=0.95下,利用Mathematica计算20.05(23)χ(若查表则更快捷)如下:调入统计函数库 取2(23)χ分布 调入代数函数库解不等式结果为35.1725验证所得结果由于40.8333>35.1725,故假设H 0不成立,即认为婴儿出生时刻不服从均匀分布。
统计学x2和p值计算过程统计学中X^2(卡方)检验和P值的计算过程是用于判断观察值与理论分布是否有显著差异的一种常用统计方法。
本文将详细介绍X^2检验和P值计算的过程。
一、X^2(卡方)检验概述X^2(卡方)检验是一种非参数统计方法,适用于观测数据是分类变量的情况。
它的核心思想是将观测值与理论值进行比较,通过计算卡方值来判断它们之间的差异程度。
计算具体过程如下:1.建立假设:在进行X^2检验时,首先需要建立原假设和备择假设。
原假设(H0)通常为“观测值与理论分布没有显著差异”,备择假设(H1)则通常为“观测值与理论分布存在显著差异”。
2.构建列联表:X^2检验通常使用列联表(Contingency Table)来整理数据,列联表是一个二维表格,行列分别代表两个变量的不同取值,交叉单元中的数值表示对应取值下的观测频数。
3.计算期望值:期望值是指在原假设成立的情况下,理论上每个交叉单元中的期望频数。
计算期望值的公式为:期望频数=(对应行的总频数*对应列的总频数)/总频数。
4.计算卡方值:计算卡方值的公式为:X^2=Σ(观测频数-期望频数)^2/期望频数。
计算得到的卡方值越大,观测值与理论分布之间的差异越大。
5.判断显著性:判断观测值与理论分布之间的差异是否显著,需要结合自由度和显著性水平进行判断。
计算卡方值后,可以查阅卡方分布表,根据初始设定的显著性水平(通常为0.05),确定拒绝域。
6.计算P值:P值是指在原假设成立的情况下,观察到当前或者更极端情况下的概率。
根据卡方分布的性质,可以通过查表或利用统计软件计算出对应的P 值。
如果P值小于设定的显著性水平,就拒绝原假设;否则,不能拒绝原假设。
二、P值计算的方法在进行X^2检验时,计算P值的方法有两种:查表法和计算器法。
下面将分别介绍这两种方法。
1.查表法:查表法是通过查找卡方分布表,确定对应卡方值所对应的P值。
卡方分布表通常提供不同自由度(df,自由度等于行数减1乘以列数减1)和显著性水平下的卡方临界值。