第四讲 两组计量资料平均水平的统计检验
- 格式:doc
- 大小:122.00 KB
- 文档页数:11
Stata软件基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验一、配对设计的平均水平检验统计方法选择原则:如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t 检验小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
例1 10例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表 10例男性矽肺患者血红蛋白值(g/dL)病例号12345678910治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.013.814.013.513.512.014.711.413.812.0问:治疗前后的血红蛋白的平均水平有没有改变这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解释可能会有问题)Stata数据输入结构操作如下:gen d=x1-x2 产生配对差值的变量dswilk d 正态性检验正态性检验结果如下:正态性检验的无效假设为:资料正态分布相应的备选假设为:资料非正态分布α=0.05,由于正态性检验的P值=0.40189>>α,故可以认为资料近似服从正态分布。
ttest d=0 配对t检验: H0:μd=0 vs H1:μd≠0,α=0.05结果如下:P值=0.2237>α,故认为治疗前后的血红蛋白的平均数差异没有统计学意义。
即:没有足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。
如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差为1.65,则输入命令如下:ttesti 样本量样本均数样本标准差 0本例为: ttesti 10 -0.66 1.65 0得到下列结果如下:结果解释与结论同上述相同。
如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test,操作如下:signrank 差值变量名=0假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本例满足正态分布)则H0:差值的中位数=0(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗前的血红蛋白小于治疗后的血红蛋白的概率)H1:差值的中位数≠0α=0.05本例为signrank d=0P值=0.3583>>α,故没有足够的证据说明两个总体不同。
两组计量资料平均水平的统计检验一、配对设计的均数检验统计方法选择原则:A.如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t检验B.小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
(一)配对t检验配对t检验首先计算每对结果之差值,再将差值均数与0作比较。
如果两种处理的效应相同,则差值与0的差别无统计学意义。
检验假设H0:两种处理的效应相同,或总体差值均数为0Stata用于配对样本t检验的命令是:ttest 变量1=变量2例1:男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表10例男性矽肺患者血红蛋白值(g/dL)病例号12345678910治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.013.814.013.513.512.014.711.413.812.0问:治疗前后的血红蛋白的平均水平有没有改变Stata数据输入结构操作如下:gen d=x1-x2 /*产生配对差值的变量d(1)正态性检验sktest d /*正态性检验Sdtest x,by(group)方差齐性检验sktest x if group==0正态性检验stata结果如下:正态性检验的无效假设H0:资料正态分布备选假设H!:资料非正态分布α=0.05,由于正态性检验的P值=0.4885>>α,故可以认为资料近似服从正态分布。
(2)配对T检验ttest d=0 /*配对t检验: H0:μd=0 ,H1:μd≠0,α=0.05 结果如下:足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。
(二)配对符号秩和检验如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test ,stata 命令为:signrank 变量1=变量2 或者 signrank 差值变量=0例:某研究者采用1:1配对方法将16例肝炎患者分别分在两种不同治疗方法组,测定其血中GPT 含量(iu/L ),资料如表9-6第(2)、(3)栏,问:用不同方法治疗的患者GPT 含量有无差别?表9-6 不同治疗方法的肝炎患者血中GPT 含量(iu/L )对子号 (1) 方法1 (2) 方法2 (3) 差值d (4)=(2)-(3)秩次(5) 1 2 3 4 5 6 7 8112 84 30 17 103 233 31 12438 75 30 62 26 30 69 7974 9 0 -45 77 203 -38 456 1 - -3.5 57 -2 3.5假设不满足正态分布条件,则用Wilcoxon 符号秩和检验(1) 建立检验假设,确定检验水准00=d M H :,差值的总体中位数为0 01≠d M H :,差值的总体中位数不为0 05.0=α(2)秩和检验signrank x1=x2 stata 分析结果:Wilcoxon signed-rank testtsign | obs sum ranks expected-------------+---------------------------------positive | 5 27.5 17.5negative | 2 7.5 17.5zero | 1 1 1-------------+---------------------------------all | 8 36 36unadjusted variance 51.00adjustment for ties -0.13adjustment for zeros -0.25----------adjusted variance 50.63Ho: x1 = x2z = 1.405Prob > |z| = 0.1599二、成组设计T检验统计方法选择原则:A.如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布(大样本资料可以忽略正态性问题),则用成组t检验;B.要多大?B. 如果资料不满足方差齐性或正态分布的条件,或者资料分布未知,或者数据一端或两端为不确定数据,可以用成组Wilcoxon秩和检验。
统计检验的方法
统计检验是一种根据样本数据对总体做出推断的方法,是统计学中非常重要的一部分。
它主要用于检验样本数据是否符合某种假设,或者比较不同样本之间的差异是否显著。
下面将介绍一些常见的统计检验方法。
首先是T检验,这是一种用于比较两组数据或检验单个样本平均数与已知值之间的差异的方法。
T检验可以分为单样本T检验、双样本T检验和配对样本T检验。
其中,单样本T 检验用于检验单个样本的平均数是否与已知值存在显著差异;双样本T检验则用于比较两组独立样本的平均数差异;配对样本T检验则用于比较两组配对样本的平均数差异。
其次是卡方检验,这是一种用于比较实际观测频数与期望频数之间差异的统计方法。
卡方检验常用于检验分类变量,如比较两个分类变量之间的关联程度或检验分类变量的分布是否符合预期。
此外,还有F检验,它主要用于检验两个或两个以上总体的方差是否存在显著差异,或者用于回归分析中检验模型的显著性。
除了上述几种常见的统计检验方法外,还有Z检验、U检验、秩和检验等多种方法,它们各有特点和适用场景。
在实际应用中,需要根据具体的研究问题和数据类型选择合适的统计检验方法。
总之,统计检验是统计学中非常重要的一部分,它能够帮助我们根据样本数据对总体做出推断,从而得出科学的结论。
在实际应用中,需要掌握各种统计检验方法的原理和应用场景,并根据具体情况选择合适的方法进行数据分析。
计量资料和计数资料的统计方法计量资料和计数资料是统计学中常见的两种数据类型,它们在统计分析中有着不同的处理方法和应用场景。
本文将分别介绍计量资料和计数资料的统计方法,并探讨其在实际问题中的应用。
一、计量资料的统计方法计量资料是指可以用数值表示的数据,例如身高、体重、温度等。
统计学中常用的计量资料分析方法有描述统计和推断统计。
1. 描述统计描述统计是对收集到的数据进行总结和描述的方法。
常用的描述统计量有平均值、中位数、众数、标准差、方差等。
平均值是计量资料最常用的描述统计量,它可以反映数据的集中趋势。
中位数和众数则可以反映数据的位置和分布情况。
标准差和方差则可以衡量数据的离散程度。
2. 推断统计推断统计是基于样本数据对总体进行推断的方法。
在推断统计中,常用的统计分析方法有假设检验和置信区间估计。
假设检验用于验证关于总体的某个参数的假设,例如总体均值是否等于某个特定值。
置信区间估计则可以给出总体参数的一个区间估计,例如总体均值的置信区间。
二、计数资料的统计方法计数资料是指不连续的、以计数形式出现的数据,例如人数、次数、事件发生次数等。
计数资料的统计方法主要包括频数分布、列联表分析和卡方检验。
1. 频数分布频数分布是计数资料最常用的分析方法之一,它将数据按照不同的取值进行分类,并统计每个类别的频数。
通过频数分布可以直观地了解数据的分布情况和特征。
2. 列联表分析列联表分析是用于分析两个或多个分类变量之间关系的方法。
通过构建列联表可以清晰地展示不同变量之间的交叉频数,并计算各个格子的期望频数和卡方值。
列联表分析可以帮助我们判断两个变量之间是否存在相关性。
3. 卡方检验卡方检验是用于检验两个或多个分类变量之间是否存在显著差异的统计方法。
卡方检验基于计数资料的频数分布和列联表,通过计算观察频数与期望频数的差异,并进行假设检验来判断变量之间是否独立。
三、计量资料和计数资料的应用计量资料和计数资料在实际问题中具有广泛的应用。
计量资料的统计方法计量资料那可是科研和实际工作中的常客呀!到底啥是计量资料呢?简单说就是用数字表示的资料,像身高、体重、血压啥的。
那计量资料的统计方法有哪些呢?首先就是参数检验啦!比如t 检验、方差分析。
这就好比在数字的海洋里找规律,t 检验就像是个小侦探,专门比较两组数据有没有差异。
咱想想,要是两组人的身高不一样,t 检验就能告诉咱这差异是真的不一样呢,还是只是偶然呢?方差分析呢,就更厉害了,能同时比较多组数据。
这就像一场数字大比拼,看看哪一组更厉害。
那做这些统计的时候有啥注意事项呢?可得注意数据的正态性和方差齐性。
要是数据不正态或者方差不齐,那可就麻烦啦!这就像盖房子,地基不牢可不行。
咱得先检查检查数据是不是符合要求,不然得出的结果可就不靠谱喽。
计量资料统计方法安全不?稳定不?那当然啦!只要咱按照正确的方法来,就像走在平坦的大路上,稳稳当当的。
这些方法都是经过无数科学家验证过的,放心用就行。
那计量资料统计方法都用在啥场景呢?那可多了去了。
比如医学研究中,比较不同药物的疗效;工程领域里,分析不同材料的性能。
这就像一把万能钥匙,能打开很多知识的大门。
优势也很明显呀,能给出精确的结果,让咱心里有数。
咱来举个实际案例吧!比如说研究两种减肥方法的效果,咱就可以用计量资料的统计方法。
测量一群人的体重,一部分人用方法A,一部分人用方法B,最后看看两组人的体重变化有没有差异。
哇塞,这多直观呀!结果一出来,咱就知道哪种方法更好啦。
所以说呀,计量资料的统计方法真的超棒!它就像一个神奇的魔法棒,能让我们从一堆数字中找到有用的信息。
咱可得好好掌握这些方法,让它们为我们的工作和研究服务。
Stata软件基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验一、配对设计的平均水平检验统计方法选择原则:如果配对的差值服从近似正态分布(小样本 )或大样本,则用配对t 检验小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
例 1 10 例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL )如下:表 10 例男性矽肺患者血红蛋白值( g/dL )病例号 1 2 3 4 5 6 7 8 9 10治疗前11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3治疗后14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0问:治疗前后的血红蛋白的平均水平有没有改变这是一个典型的前后配对设计的研究 ( 但不提倡,因为对结果的解释可能会有问题 )Stata 数据输入结构X1X211.3141513.8151413.513.512.813.510121114.71211.41313.812.312操作如下:gen d=x1-x2 产生配对差值的变量 dswilk d 正态性检验正态性检验结果如下:. sktest dSkewness/Kurtosis tests for Normality------- joint ------Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2)-------------+-------------------------------------------------------d |0.2790.774 1.430.4885Prob>chi2正态性检验的无效假设为:资料正态分布相应的备选假设为:资料非正态分布=0.05,由于正态性检验的P 值=0.40189>> ,故可以认为资料近似服从正态分布。
两组数据均值差异的统计学方法说起来这两组数据均值差异的统计学方法啊,还真是个有意思的话题。
你别看它听起来枯燥,实际上它可是咱们生活中常用的工具,能帮咱们解决不少实际问题。
比如说,你想知道新推出的广告文案是不是比旧文案更有效,或者新版本的软件是不是比旧版本更稳定,这时候你就得用到这些方法了。
我记得那天,阳光正好,我跟小张坐在办公室里,正对着电脑上的两组数据发愁。
那是一组销售数据,咱们得看看新推出的产品和老产品的销售额均值差异到底大不大。
小张是个新手,对这些方法还不太熟悉,他看着我,眼神里满是疑惑:“刘老师,这两组数据到底该怎么比较啊?”我笑了笑,跟他说:“别着急,咱们先来个T检验。
”T检验啊,可是咱们统计学里的老朋友了。
它专门用来比较两组数据的均值是否存在显著差异。
我就给小张解释:“你看啊,咱们这组数据,样本容量不算大,总体标准差也不知道,这时候T检验就派上用场了。
它就像一把尺子,能衡量出两组数据均值之间的差异到底大不大。
”小张听了,眼睛一亮:“哦,原来是这样啊!那要是数据不服从正态分布呢?”我一拍大腿:“嘿,你小子还挺机灵!这时候咱们就得用上非参数检验了。
非参数检验不依赖于数据的具体分布形式,常用的有Wilcoxon秩和检验、Mann-Whitney U检验这些。
它们就像是万能钥匙,不管数据是什么形状,都能找到合适的锁孔。
”说着,我就给小张演示了一遍。
咱们把两组数据输入到统计软件里,选了个Wilcoxon秩和检验。
结果一出来,嘿,两组数据的均值差异还真挺大的。
小张一看,高兴得跳了起来:“刘老师,咱们的新产品果然受欢迎啊!”我看着他那兴奋的样子,心里也很高兴。
这不仅仅是因为咱们得出了想要的结果,更是因为咱们在这个过程中学到了新知识,解决了实际问题。
不过,我也得提醒小张:“咱们不能光看结果,还得结合实际情况来解释和推断。
比如说,这次销售额的提升,可能是因为新产品的品质好,也可能是因为咱们的营销策略得当。
Stata软件基本操作和数据分析入门
第四讲两组计量资料平均水平的统计检验
一、配对设计的平均水平检验
统计方法选择原则:
如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t 检验
小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
例1 10例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表 10例男性矽肺患者血红蛋白值(g/dL)
病例号12345678910
治疗前11.315.015.013.512.810.011.012.013.012.3
治疗后14.013.814.013.513.512.014.711.413.812.0
问:治疗前后的血红蛋白的平均水平有没有改变
这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解释可能会有问题)
Stata数据输入结构
操作如下:
gen d=x1-x2 产生配对差值的变量d
sktest d 正态性检验
正态性检验结果如下:
正态性检验的无效假设为:资料正态分布
相应的备选假设为:资料非正态分布
α=0.05,由于正态性检验的P值=0.4885>>α,故可以认为资料近似服从正态分布。
ttest d=0 配对t检验: H0:μd=0 vs H1:μd≠0,α=0.05
结果如下:
P值=0.2237>α,故认为治疗前后的血红蛋白的平均数差异没有统计学意义。
即:没有足够的证据可以认为治疗前后的血红蛋白的总体平
均数不同。
如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如下。
设:已知样本量为10,差值的样本均数为-0.66,差值的标准差为1.65,则输入命令如下:
ttesti 样本量样本均数样本标准差 0
本例为: ttesti 10 -0.66 1.65 0
得到下列结果如下:
结果解释与结论同上述相同。
如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test,操作如下:
signrank 差值变量名=0
假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本例满足正态分布)则
H0:差值的中位数=0
(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗
前的血红蛋白小于治疗后的血红蛋白的概率)
H1:差值的中位数≠0
α=0.05
本例为signrank d=0
P值=0.3583>>α,故没有足够的证据说明两个总体不同。
二、平行对照设计的两组资料平均水平统计检验
统计方法选择原则:
如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可以用成组Wilcoxon秩和检验。
例2 为研究噪声对纺织女工子代智能是否有影响,一研究人员在某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织女工及同一单位、条件与接触组相近但不接触噪声的女职工,其
子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中国修订版)测定两组幼儿智商,结果如下。
问噪声对纺织女工子代智能有无影响?(接触组group=0,不接触组group=1)
资料及其结果如下:
方差齐性检验
H0:σ1=σ2vs H1:σ1≠σ2
α=0.1
两组方差齐性的检验命令(仅适合两组方差齐性检验) sdtest x,by(group)
P值=0.8389>>α,因此可以认为两组方差齐性的。
正态性检验:H0:资料服从正态分布vs H1:资料偏态分布α=0.05
每一组资料正态性检验
P值均大于α,因此可以认为两组资料都服从正态分布
H0:μ1=μ2vs H1:μ1≠μ2
α=0.05
ttest x,by(group)
P值(<0.0001)<α,并且由μ0-μ1的95%可信区间为(-17.73557,-7.144429)可以知道,不接触组幼儿的平均智商高于接触组的幼儿平均智商,并且差别有统计学意义。
如果已知两组的样本量、样本均数和样本标准差,也可以用立即命令进行统计检验
ttesti 样本量1 样本均数1 样本标准差1 样本量2 样本均数2 样本标准差2
例如:本例第1组n1=25 均数1=89.08 标准差1=9.115
第2组 n2=25 均数2=101.52 标准差2=9.505
则ttesti 25 89.08 9.115 25 101.52 9.505
结果解释同上。
对方差不齐的情况,(小样本时,资料正态分布)还可以用t’检验
命令:ttest 观察变量名,by(分组变量名) unequal
立即命令为ttesti 样本量1 均数1 标准差1 样本量2 均数2 标准差2,unequal
假定本例的资料方差不齐(实际为方差不齐的),则要用t’检验如下ttest x,by(group) unequal
结果解释同上。
t’检验有许多方法,这里介绍的Satterthwaite方法,主要根据两个样本方差差异的程度校正相应的自由度,由于本例的两个样本方差比较接近,故自由度几乎没有减少(t检验的自由度为48,而本例t’自由度为47.9159)。
由于t检验要求的两组总体方差相同(称为方差齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方差齐性的情况下,样本方差表现为两个样本方差之比 1。
(注意:两个样本方差之差很小,仍可能方差不齐。
如:第一个样本标准差为0.1,样本量为100,第2个样本标准差为0.01,样本量为100,两个样本标准差仅差0.09,但是两个样本方差之比为100。
故用方差齐性检验的结果如下:
方差齐性的立即命令为 sdtesti 样本量1 . 标准差1 样本量2 . 标准差2
sdtesti 100 . 0.1 100 . 0.01
P值<0.0001,因此认为两组的方差不齐。
故方差齐性是考察两个样本方差之比是否接近1。
如果本例的资料不满足t检验要求(注:实际是满足的,只是想用本例介绍成组秩和检验),则用秩和检验(Wilcoxon Ranksum test)。
H0:两组资料所在总体相同
H1:两组资料所在总体不同
=0.05
命令:ranksum 观察变量名,by(分组变量)
本例为ranksum x,by(group)
P值<0.0001< ,故认为两个总体不同
45。