分类数据的检验
- 格式:docx
- 大小:26.43 KB
- 文档页数:9
常用统计方法:T检验、F检验、卡方检验介绍常用的几种统计分析方法:T检验、F检验、卡方检验一、T检验(一)什么是T检验T检验是一种适合小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异。
主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。
(二)T检验有什么用1.单样本T检验用于比较一组数据与一个特定数值之间的差异情况。
样例:难产儿出生数n = 35,体重均值 = 3.42,S = 0.40,一般婴儿出生体重μ0= 3.30(大规模调查获得),问相同否?求解代码:from scipy import statsstats.ttest_1samp(data,sample)检验一列数据的均值与sample的差异是否显著。
(双侧检验)若为单侧检验,则将p值除以22.配对样本的T检验(ABtest)用于检验有一定对应关系的样本之间的差异情况,需要两组样本数相等。
常见的使用场景有:①同一对象处理前后的对比(同一组人员采用同一种减肥方法前后的效果对比);②同一对象采用两种方法检验的结果的对比(同一组人员分别服用两种减肥药后的效果对比);③配对的两个对象分别接受两种处理后的结果对比(两组人员,按照体重进行配对,服用不同的减肥药,对比服药后的两组人员的体重)。
AB测试时互联网运营为了提升用户体验从而获得用户增长而采用的精细化运营手段,简单的说就是分为A版本和B版本哪个更能吸引用户使用。
目的:检验两个独立样本的平均值之差是否等于目标值样例:比较键盘A版本和B版本哪个更好用,衡量标准:谁在规定时间内打错字少,或者两者差异不大求解代码:ttest_rel(data1,data2) (得出的p值是双侧检验的p值)3.独立样本的T检验(要求总体方差齐性)独立样本与配对样本的不同之处在于独立样本T检验两组数据的样本个数可以不等。
样例:比较男生与女生的专业和职业任职得分的均值是否存在显著差异,可采用独立样本T检验进行分析。
概念解释:卡方检验(chi-square test)是一种用于比较观察值与期望值之间差异的统计方法。
它适用于分类数据的分析,可以帮助确定观察到的数据分布是否符合预期的理论分布。
卡方检验通常用于分析两个或多个分类变量之间的关系,例如性别和职业的关联性、不同教育水平对政治立场的影响等。
让我们来深入理解卡方检验的概念和原理。
卡方检验的基本原理是通过比较观察值和期望值之间的差异来判断两个或多个分类变量之间是否存在关联性。
在进行卡方检验之前,我们首先需要建立一个原假设,即假设观察到的数据分布与理论分布相符。
通过一系列计算和统计方法,我们可以得出卡方值,并以此来判断观察值与期望值之间的差异程度。
如果卡方值远大于预期值,我们就可以拒绝原假设,从而得出两个或多个分类变量之间存在显著关联的结论。
接下来,让我们从简单的示例开始,来看一下卡方检验的具体应用。
假设我们想要研究不同职业对投票倾向的影响,我们可以通过卡方检验来判断职业与政治立场之间是否存在关联。
我们收集了一份包括职业和政治立场的调查数据,然后我们可以利用卡方检验来分析这些数据,以确定职业与政治立场之间的关联性。
在分析完具体示例之后,让我们进一步探讨卡方检验的应用范围和局限性。
卡方检验适用于分类数据的分析,可以帮助我们判断不同变量之间是否存在关联性。
然而,卡方检验也有一定的局限性,例如对样本量和数据分布的要求比较严格,同时需要注意变量之间的独立性等。
在应用卡方检验时,我们需要综合考虑数据的特点和实际情况,以确保分析结果的准确性和可靠性。
总结回顾:通过本文的讨论,我们对卡方检验的概念和原理有了深入的理解。
我们了解到卡方检验是一种用于比较观察值和期望值之间差异的统计方法,适用于分类数据的分析。
在具体应用中,我们可以通过卡方检验来判断不同变量之间是否存在关联性,从而深入了解数据的特点和规律。
我们也意识到卡方检验在应用时需要注意一些局限性,需要综合考虑实际情况和数据特点。
分类数据的显著性检验作者:杨元启来源:《科技经济市场》2014年第10期摘要:分类数据是定性数据,有别于定量数据,在数学上不易进行处理分析。
本文对分类数据的显著性检验问题做了一些讨论。
主要介绍了分类数据的X2-检验和似然比检验。
关键词:分类数据;定性数据; X2-检验;似然比检验生活中存在着大量的数据,类型可分为定量数据和定性数据。
定量数据常见于计量、计数等,易于用数学的方法处理分析;但生活中仍有许多不可量化的数据,如表示事物性质、规定事物类别的文字表述型数据,将其统称为定性数据。
对定性数据的研究,有时作纯定性研究,没有或缺乏数量分析,其结论往往具有概括性和较浓的思辨色彩;为便于作定量分析,还得将这些数据合理量化,并建立相应的统计模型。
定性数据有时只表示事物的属性,如人的性别,婚姻状况,物体的颜色、形状。
我们常用数"0"和"1"来表示其属性的分类。
而有些事物的属性有一个顺序关系,如人的文化程度由低到高可分为文盲、小学、初中、高中、中专和大专、大学等5类。
用数0,1,2,3和4分别表示文盲,小学,初中,高中,中专和大专,大学。
有如顾客对某商场营业员服务态度的评价分为"满意"、"一般"、"不满意"三类,可分别用"3"、"2"、"1"表示。
这些数只起一个顺序作用,这一类数据称为有序定性数据,简称有序数据。
本文将对分类数据的显著性检验问题做一些讨论。
主要介绍分类数据的 -检验和似然比检验。
分类数据的显著性检验一般有如下提法。
设总体的某个指标数据被分为r类:A1,…Ar。
根据相关理论,或从经验出发提出了一个原假设:H■:类A■所占的比例为P■=P■(i=1,…,r)其中:P■,i=1,…,r,■P■=1为已知的r个数。
对该总体进行n次独立重复观察,每次观察一个个体,看它属于哪一类。
双向有序分类数据的趋势检验l60?行.凶此,在中国和欧洲问开展远程皮肤病会诊,可以促进学术交流和合作,提高基层皮肤病医生的诊疗水平,促进我国皮肤病的诊疗标准和国际接轨,最终使皮肤病患者享受质优价廉的医疗服务.但是远程皮肤病会诊,尤其是国际远程皮肤病会诊在中国还是一个新生事物.本调查结果显示,7.6%的中国皮肤病患者对远程会诊有所了解,6.0%患者对远程会诊有亲身经验;同时,仅3.6%患者在以前看过欧洲皮肤病医生.因此,中国的皮肤病患者对远程会诊和欧洲的皮肤病医生都不是十分了解.尽管如此,中国皮肤病患者对欧洲皮肤病医生评价也相当高.除了56.66%的患者由于不了解欧洲皮肤病医生认为无法判断外,7.31%的患者认为欧洲皮肤病医生医疗水平很高,21.41%认为医疗水平高,没有患者选择低或很低.而且87.3%的患者认为如果在中国开展国际远程皮肤病会诊时他们会或可能会请欧洲皮肤病医生会诊.此外,调查结果还显示大部分中国皮肤病患者认为可接受的国际远程皮肤病会诊价格在500~2000元之间,对其最大的希望是可以得到负担起的,高价格效益比的,能够彻底治愈疾病的服务.以上结果说明虽然中国皮肤病患者对远程会诊和欧洲皮肤病医生缺乏了解,但对远程会诊和欧洲皮肤病医生仍然有较高的认可度.因此,在我国开展国际远程皮肤病会诊有一定基础.同时中国皮肤双向有序分类数据的趋势检验郑州大学(医学版)2006年1月第4l卷第l期病患者认为可以接受的国际会诊价格比河南省物价局批准的每例200元人民币的远程会诊价格要高的多,因此如果按照河南省物价局的价格开展国际远程皮肤病会诊患者在价格上是能够接受的,但这种价格是否可以使国际远程皮肤病会诊得以可维持性发展还有待进一步研究.此外,患者对国际远程皮肤病会诊有相当大的期待,所以,实施国际远程皮肤病会诊过程中需要通过广大皮肤病患者经常获取医疗信息的途径如电视,报纸等媒体使患者了解远程会诊的意义和作用并了解会诊专家.此外,更重要的是能够尽可能地满足患者对国际远程皮肤病会诊的服务需求,使患者真正受益;同时还应教育患者对远程皮肤病会诊应有合理的期待.参考文献1WhitedJD,HallRP,SimelDL,eta1.Reliabilityandaccu—racyofdermatologistsclinic-basedanddigitalimageconsul—tations.JAmAcadDermatol,1999,4I(8):6932PiccoloD,SmolleJ,WolfIH,eta1.Face—to—facediagnosis stelediagnosisofpigmentedskintumors.ArchDermato1.1999,I35(I2):I4673HighWA,HoustonMS,CalobrisiSD,eta1.Assessmentoftheaccuracyoflow??coststore??and-forwardteledermatologyconsultation.JAmAcadDermatol,2000,42(5Pt1):776(2004—11—12收稿责任编辑姜春霞)丁亚兴'胡东生1)郑州大学公共卫生学院流行病学教研室郑州4500522)天津市卫生防病巾心天津300011#通讯作者,男,44岁,博士研究生导师,教授,研究方向:非传染性疾病流行病学,E—mail:************************关键词双向有序分类数据;趋势检验;SAS程序中图分类号R195.1摘要目的:探讨双向有序分类数据相关的趋势检验方法.方法:根据各种方法的原理及其计算公式,结合实例应用SAS统计软件编程对舣向有序分类数据进行趋势检验.结果:给m了双向有序分类数据不同趋势检验方法的SAS程序,并对如何解释输结果进行了说明.结论:在医学科学研究中应推荐使用趋势检验.Trendtestmethodsfortwo—wayordinalcategoricaldataDINGY axingl,HUDongshengJ)DepartmentofEpidemiology,CollegeofPublcHealth,ZhengzhouUniversity,Zhengzho u450052JournalofZhengzhouUniversity(MedicalSciences)Jan.2005V o1.41No.12)CenterforDiseaseControlandpreventionofTianfinCity,Tianfin300011l6l?Keywordstwo—wayordinalcategoricaldata;trendtest;SASprogramming AbstractAim:Tosummarizethetrendtestanalysismethodsfortwo—wayordinalcategoricaldata.Methods:Based onthetheoriesandcalculationformulasoftrendtestanalysismethodsfortwo—wayordinalcategoricaldata,differentanalysis methodswerediscussedforthemodeldatabyusingSASsoftware.Results:TheSASprogram sforthedataanalysiswere developedandtheinterpretationfortheoutputswasexplained.Conclusion:Trendtestanalysi smethodsformedicalre—searchdatash0uldberecommended.双向有序分类数据是指两个分类变量都是有序变量的数据,包括2种情况:①双向有序且属性不同的数据;②双向有序且属性相同的数据'.常规的检验对有序分类数据的分析将导致信息的丢失. 趋势检验(trendtest)由美国的Breslow于l980年首先提出,它能充分利用等级信息,对数据做出综合分析,是对反应生物学阶梯或等级关系等资料进行假设检验的有效方法..作者对几种趋势检验方法(典型相关分析,CMH检验,CPD趋势性检验和线性趋势分析)进行了总结分析,报道如下.1双向有序且属性相同的分类数据的趋势检验1.1Spearman,Kendall秩相关和典型相关分析对于双向有序数据,可用Spearman或Kendall等级相关分析,如两变量的相关系数有统计学意义,可认为变量问存在趋势关系,由相关系数的符号来判断趋势的走向.Spearman等级相关只适用于分析两变量问的相关,Kendall则既可对两变量作等级相关,也可对多变量作等级相关分析.但因为这两种相关分析给有序变量的等级赋值过于简单,因此不能最大限度地获得两有序变量之间的相关信息. 典型相关分析是在使两有序变量的相关达到极大的前提下,给有序变量的各等级赋值,即对于表的边缘(指"行合计"与"列合计")设法产生一双正态变量,从而进行相关分析.典型相关分析类似主成因分析,考虑到每组变量的线性组合.从这2组线性组合中找到最相关的组合变量,通过少数几个综合变量来反映两组变量问的相关关系,这是典型相关分析的基本思想.典型相关的功能在于分析两组变量问的关系,这两组变量的数目可以不只一个. 当两组都只含一个变量时,就是两变量的简单相关分析;当一组含一个变量,另一组含多个变量,就是一个因变量与多个自变量的多元相关分析;当2组都含多个变量时,就是典型相关分析..典型相关分析手工计算较麻烦,可用SAS程序进行运算.例l某矿职工医院对492名不同期次矽肺患者的胸部平片肺门密度进行分析(表l),问:胸部平片肺门密度级别是否随矽肺期次进展有逐步提高趋势?表1不同期次矽肺患者肺门密度级别分布SAS程序如下:proccorrspearmankendall;varrc;/r为矽肺期次(r=1,2,3);C为肺门密度级别(c=1,2,3)}/freqW;/}W为频数}/run;proccorresp;tablesr,c;weightW;run;运行后结果显示Spearman相关系数r=0.532,P<0.001;Kendall相关系数r=0.498,P<0.001.典型相关分析显示第l对,第2对典型相关系数分别为R.=0.552,R:=0.164;卡方统计量:=149.704,dfl=3+3—2Xl—l=3,P<0.0l(0"31=l1.34);=13.304,df2=3+3—2X2一l=l,P<0.0l(0…)=6.635);2总=163.007(P<0.001);各卡方分量占总卡方值的百分比分别是91.84%和8.16%. 故Spearman相关,Kendall相关及典型相关分析均提示矽肺期次与肺门密度级别问存在直线相关关系,即肺门密度级别随矽肺期次的增加而增加.1.2CMHX检验CMH检验,全称为Coch. ran—Mantel—Hansel检验.根据RXC表中行变量与列变量的属性不同,做非零相关,行平均分差和一般联系3种检验.行列变量均为等级变量时,作非零162?相关检验.非零相关检验的是行变量和列变量之间的相关,实际上就是趋势检验,但这种趋势检验只限于检验线性趋势.计算公式:kikl(n一1)I(r.一.)(c一)n,]Q=————————一[∑(r,一,)n.][£(c.一.)n.)]kinkJni1'n)'n)llJI_l其中ri为行评分,c.为列评分,.为行平均分,.为列平均分,/"t,为行合计数,/"t.为列合计数.该方法SAS运算程序如下: poreeoITspearman;freqW;varre;/r为矽肺期次(r=1,2,3);e为肺门密度级别(c=1,2,3)}/run;proefreq;tablesre/emhexpectednopercentnorownocol: weightW;rnn;例1计算结果:,=1.6606,.=2.1850,Q=125.487;程序运行结果显示了CMH检验的3种统计量,其中NonzeroCorrelation为非零相关统计量, =125.510,自由度为1,P<0.001;Spearman等级相关结果为r=0.532,P<0.001.说明胸部平片肺门密度级别随矽肺期次的增加而增加.1.3CPD趋势性检验CPD是交差积差(Cross ProductDifference)的英文缩写,用它作为1个统计量的符号,代表有序分组数据某实验组的交差积差和,它相当于秩和检验中的秩或Ridit分析中的尺值.CPD分析时先求出各等级CPD值,然后带人到趋势检验公式中进行计算.但CPD只是间接的统计量,需要相应的检验统计量,方可做出统计推断. 其基本方法和原理如下.①等级数量化:对各等级进行评分.按性质分组的数据,评分的一般方法是Z.=一0.5(C一2.+1),C是等级数目,即列联表的列数.对于按数量分组的资料,评分的原则是与分组的间隔相适应.②求出各等级的CPD值:每列相应格子数乘以相应的y值之和为各等级的CPD值. y.为总合计数减去第1行合计数,y_为y...减去第i和(i一1)行的合计数.③分别求出∑njZ;,∑njZ和∑CPDZj(/"tj为各列合计数).④按照公式求出检验统计量.∑CPD.Z./En(∑njZj)一(∑njZj)](n一∑n)3n(/"t一1)郑州大学(医学版)2006年1月第4l卷第l期⑤查//,界值表判断结果.据此对例1进行分析,整理如表2:表2不同期次矽肺患者肺门密度级别分布本例共3个等级,分为Z.=一1,Z=0,Z,:1.CPD.=43×247+1×(一167)+6×(一414)=7970;同法计算出CPD=23366,CPD,=一31336.∑n.Z.=50×(一1)+301×0+141×1=91;同样计算出∑n.Zi=191;∑CPD{Zi=一39306.将上述计算结果带人公式得=一11.48,本例双侧检验H=一11.48,因H000l=3.291,P<0.001; 说明胸部平片肺门密度级别随矽肺期次进展有逐步提高趋势.2双向有序且属性不同的分类数据的趋势检验可采用线性趋势分析,该方法的基本思想是:首先计算R×C表的值,然后将值分解成线性回归分量与偏离线性回归分量2伯.若两分量均有统计学意义,说明两分类变量存在相关关系,但关系不一定是简单的直线关系;若线性回归分量有统计学意义,偏离线性回归分量无统计学意义时,说明两分类变量不仅存在相关关系,而且是线性关系"].计算公式:2b,lr,lrr归222222偏:总一回归偏:总一回归例2某地防疫站用碘剂局部注射治疗219例地方性甲状腺肿的结果见表3¨,问:年龄与疗效之间有无相关关系?表3地方性甲状腺肿患者的年龄与疗效的关系JournalofZhengzhouUniversity(MedicalSciences)Jan.2005V o1.41No.1 SAS程序如下.程序l:procfreq;weightf:tablesYx/chisq;/x为疗效(X=l,2,3,4);Y为年龄分组(Y=l,2,3,4,5)/run;procCOlT;freqf;varY:run;procreg;freqf:modelYX;run;程序2:datatrend;r:5:C=4:kf=54.5856:b=0.55l5l:sb=0.08999:dff:(r—1)(c—1):dfr=l:dfb=dff—dfr;vb=sbsb:kr=round(bb/vb,0.0001);kb=kf—kr:pr=l—probchi(kr,dfr);pr=round(pr,0.0001);ifpr<0.000lthenpr:0.000l:pb=l—probchi(kb,dfb);pb=round(pb,0.0001);ifpb<0.0001thenpb=0.000l:fileprint;put#2@101~hisq—r@20p—r#2@301~hisq—b@40p—bput#3@10kr@20pr#3@30kb@40pb:run;程序l中x,Y的赋值只要是等差数列皆可,运行后可得到值,回归系数b及其标准误s;再将l63?这些值带入程序2.程序2中根据资料不同需要修改的值有r(行数),c(列数),kf(x~值),b(回归系数b),sb(sh).本例结果:程序l运行后可得到2=54.5856,P<0.000l,b=0.55l5l,sh=0.08999.程序2运行后显示21月=37.559,P<0.O0l,有统计学意义;偏2=17.026,P=0.107,无统计学意义.故推断两变量存在线性趋势关系,即局部碘剂注射治疗地方性甲状腺肿的疗效与患者的年龄存在线性相关关系,年龄越大,疗效越差.参考文献l胡良平.WindowsSAS6.12&8.0实用统计分析教程.北京:军事医学科学出版社,2001.275,5282BreslowNE.StatisticalMethodsinCancerResearch.WHO,l980.1:l683杨晋珍,杨文秀.趋势检验在医学研究中的应用.中国公共卫生,l995,ll(7):3304金丕焕.医用统计方法.上海:上海医科大学出版社. 1999.2285方积乾.医学统计学与电脑实验.上海:上海科学技术出版社.2001.4656倪宗瓒.卫生统计学.第4版.北京:人民卫生出版社. 2000.897StokesME.DavisCS.KochGG.Setsof2xrandSxrta—bles.CategoricaldataanalysisusingtheSASsystem.Cary (NE):SASinstituteInc,1995.1298史周华,汪涛,刘勤,等.CMH统计分析方法在多中心2x 2表资料的应用.中国卫生统计,1999,16(1):969刘勤,金丕焕.分类数据的统计分析及SAS编程.上海:复旦大学出版社,2002.34l0王广仪.CPD多指标综合评价法应用之(=三)——趋势检验.中国医院统计,1997,4(3):164ll吴学森,王洁贞.双向有序分类资料线性趋势分析方法的前提条件.中国卫生统计,2003,20(2):79l2郭祖超.医学统计学.北京:人民军医出版社.2001.84l3胡良平.现代统计学与SAS应用.北京:军事医学科学院出版社,2000.380(2005—10—12收稿责任编辑王曼)。
5卡方检验分析卡方检验(Chi-square test)是一种统计方法,用于验证观察数据是否符合理论分布或是否存在相关性。
它通常用于分析分类数据的统计显著性。
卡方检验的基本思想是比较观察频数和期望频数的差异。
观察频数是从实际数据中获取的频数,期望频数是基于理论分布或假设的频数。
通过比较观察频数和期望频数的差距,我们可以评估观察数据与理论分布是否有显著性差异。
卡方检验通常分为两种类型:卡方拟合度检验和卡方独立性检验。
1.卡方拟合度检验:用于验证观察数据是否符合一些理论分布。
例如,我们可以用卡方检验来验证一个骰子的各个面是否具有均匀分布。
在这种情况下,我们将观察频数与期望频数进行比较。
如果差异不显著,则我们可以接受骰子具有均匀分布的假设。
2.卡方独立性检验:用于验证两个分类变量是否相互独立。
例如,我们可以使用卡方检验来验证性别和喜好的关系。
我们可以收集一组数据,其中包含性别和喜好的观察频数。
然后,我们可以使用卡方检验来确定性别和喜好之间是否存在显着的关联。
卡方检验的统计假设如下:-零假设(H0):观察数据与理论分布或变量之间没有显著差异。
-备择假设(H1):观察数据与理论分布或变量之间存在显著差异。
卡方检验的步骤如下:1.根据研究问题和数据类型选择相应的卡方检验。
2.建立零假设和备择假设。
3.计算观察频数和期望频数。
4.计算卡方值,即观察频数与期望频数之间的差异。
5.根据卡方值和自由度计算P值。
6.判断P值是否小于显著性水平,如果小于,则拒绝零假设,否则接受零假设。
需要注意的是,卡方检验对样本量的要求比较高,通常要求每个类别的期望频数都大于5总结起来,卡方检验是一种验证分类数据是否符合理论分布或是否存在相关性的统计方法。
它用于比较观察频数和期望频数之间的差异,并通过计算P值来判断是否存在显著差异。
卡方检验在生物统计学、医学研究和社会科学等领域都得到了广泛应用。
第三讲分类数据的检验
一、引例
十九世纪伟大的英国生物学家孟德尔(Men del)按颜色与形状把豌豆分为四类:黄而圆的,青而圆的,黄而有角的,青而有角的。
按照遗传学理论,孟德尔指出这四类豌豆的个数之比为9:3:3:1,也即豌豆为黄而圆的,青而圆的,黄而有角的,青而有角的概率分别为
9/16,3/16,3/16,1/16。
他通过观察n = 556个豌豆发现,这四类豌豆的个数分别为315,108,101,32。
如何根据这些观察数据对孟德尔的遗传学理论进行检验?
分析:
(0总体为所有的豌豆,豌豆按颜色和形状分为四类:几一黄而圆的,A—青而圆的,A3 —黄而有角的,A—青而有角;
(2)每种豌豆的比率(概率)分别为:p1 =P(A1),p2=P(A),P3 二P(A3),P4 = P(A4),但未知;
(3)根据理论或经验提出假设:
P1 = 9/16,P2 二3/16,p3 = 3/16,p4 = 116 ;
(4)做试验获得观察数据
(5)根据观察数据检验如下假设:
H o: pi = 9/16 , p2=3』16 , 0=3』6 , p4=1?6
若接受H o,说明观察数据符合孟德尔的遗传学理论,也即说明孟德尔的遗传学理论正确;
若拒绝H o,说明观察数据不符合孟德尔的遗传学理论,也即说明孟德尔的遗传学理论不正确。
二、分类数据检验问题的统计模型
(一)问题的一般提法
4、总体分布
设总体根据某项指标分为n类,记为A I,A2,L ,A r,各类所占的比
例记为p i, P2, L , P r,其中P i 0,' P i =1,但P i未知。
也即总体分布
i=1
为:
总体类别A i A2 L A 比例P i P2 L P r
2、假设检验
根据理论,或从经验出发提出一个原假设:
H o: p i = P o,i =1,2,L ,r (*)
其中P io,i =1,2,L ,r 已知,且"P io =1。
i d
3、研究内容
对该总体独立重复观察n个个体,记n个个体中,属于A:的观察
个数为n , i =1,2,L ,r,其中有二n^n,基于观察值n , i =1,2,L ,r对id 原假设(*)进行检验。
(二)检验方法
1、2检验
(1)检验统计量
2 2
(口-npo)
i 4 np iO
(2)统计量的渐进分布
2
若Ho成立,当n—;时,2八(n -nP i0)F ,务“)
i 吕np iO
(3)拒绝域(给定检验水平「,一般取〉=0.1,0.05,0.01)
W 二{2一2_:.(r -1)}
若2• W,则在检验水平:.下拒绝H0 ;
若2 'W,则在检验水平:•下接受H0 ;
(4)检验p值(给定检验水平:•,一般取--0.1,0.05,0.01)
2 2
p 二P (r -1)一
若p l•,则在检验水平:下拒绝H0 ;
若p ,则在检验水平下接受H0 ;
(5)注:2检验采用近似分布进行检验,要求样本容量大,一般n _50,n卩0 丄5,i = 1,2,L ,r。
2、似然比检验
随机向量(m,n2,L ,m)~M(n, p1,p2,L , p r),即(n 1,n2,L ,n r)的联合分
3
布列为:
p(n i,n2,L ,n r; p i, p2,L ,P
r)
n!
n i! n2! L
n;!p i
2 |
P2 L n r
p
样本(n i,n2,L ,n r)的似然函数为:
L(p i, P2,L , p r; n i,n2,L , n r)
n!
n i! n2 !L
n n
i 2 |
p i p2 L
n r
p
检验问题(*)的似然比L(p i0,p2°丄「gm门讥,nJ
Sup L(p i, p2,L , p r;n i,n2,L ,n r)
p i,p2 ,L ,P r
n! n i ri2 n r
P iO P20 L p r 0
n i!门2丄nJ
n! n i n2 n r
SUP P i P2 L P r
p i,P2,L ,p r
n i! n2!L n r!
n n 「
_ p iO p20L n pf1O
I122r
P i,P2 ,L ,P r
注:参数pi, p2,L , p r满足''r p i = 1,似然比可以写为:
i=1
L(p io,p2o,L ,p ro;n i,n2,L ,n r)
Sup L(p i, p2,L , p r;n i,n,L , n r)
P l,P2 ,L ,P r
n n r
n n p io P20 L p 0 Sup p i i p22L p n』d—p i—p2—L P i,P2,L ,P r 1
n P r」
求解Sup P i n P2n L (1— P i — P2 —L P r4)n: P i, P2 ,L , P rJ.
记Q(P i, P2,L , P r」)二P i" p2 L p] (1-p i - P2 -L PrJ
r 4
In Q(p i, p2,L , p r" =、n i l n p i n r
In (1—p P L p^)
(0检验统计量
r
/ 、
-21 n(A) = -2送 n i ln 「P
i0
◎
5/n 丿
(2)统计量的渐进分布
若H o 成立,当n —; *:时,
-21 n(A) = -2三 n i ln f 旦 I —L 2(r -1)
y 5/n 丿
创n
Q o
令:*
肌=0 印 2
M 创
nQ =0
'n 1 =
n r
P 1 一 p — p —L p~
1
1 2
r
」
n 2
n r
可得 P 2 1- P l - P 2亠P r 」
M n r J n r
P r J
1 - P^ - P
2 _ L P r A
P l P 2 Pr J
也即参数P i , P 2,L , P r 的最大似然估计为:
n n
「
P 10 P 20 L 0
i
=1,2,L i'np
(3)拒绝域(给定检验水平「,一般取〉=0.1,0.05,0.01)
W 二{—21 n(_ J— i2.-.(r-1)}
若-2ln(_ J W,则在检验水平:.下拒绝H o ;
若-2ln(_ J - W,则在检验水平:.下接受H o ;
(4)检验p值(给定检验水平:•,一般取〉=0.1,0.05,0.01)
2
p=P (r-1)_-2l n(上)
若p 1 •,则在检验水平:下拒绝H0 ;
若p * ,则在检验水平下接受H0 ;
三、引例分析
(1)记号
A1 :黄而圆的,A2 :青而圆的,A3:黄而有角的,A4 :青而有角;
P1 = P(A1),P2 = P( A2) ,p3 = P(A3),P4 = P( A4);
m :黄而圆的豌豆个数,n2:青而圆的豌豆个数,n3 :黄
而有角的豌豆个数,n4 :青而有角的豌豆个数;
(2)观察数据
n1 = 315,n2 =108,n3 = 101,n4 = 32,n 二n1 n2 n3 n4 = 556 ;
(3)原假设:
H°: p1 =9*6,0=3,16,p3=316,P4 =1 16
(4) 卩检验
检验p值为0.925425895,表明不能拒绝H。
,即认为孟德尔的遗传
学理论是正确的。
(5)似然比检验
检验p值为0.924251904,表明不能拒绝H o,即认为孟德尔的遗传学理论是正确的。