第一章绪论
统计的三大特征:实用性、丰富性、公平性
总体(population):
●是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合。
●同质基础:时间、空间、条件等
●(1)有限总体(finite population):有限观察单位
●(2)无限总体(infinite population):很多为无限总体。
样本
●根据随机化原则从总体中抽取的一定数量(sample size)的个体,称为样本
(sample),用样本信息来推断总体特征。
●从总体中抽取部分个体的过程称为抽样(sampling)。
同质(homogeneity)
●是指影响被研究指标的非实验因素相同。
变异(variation, variablility )
●同质基础上的各观察单位(亦称为个体)之间的差异为变异。如同性别、同年龄、
同民族、同地区儿童的身高有高有低,称为身高的变异。
参数(parameter)和统计量(statistic)
●总体的统计指标称为参数。
如:总体均数(μ),总体发病率,总体死亡率,等,
●样本的统计指标称为统计量
如:样本均数(x),样本发病率,样本死亡率,等,
●统计学上用不同的符号表示。
误差(error)
观察值与实际值的差异,成为误差。
分为:过失误差;系统误差;随机测量误差;随机抽样误差;
(1)过失误差(mistaken error):过失所致的误差(不认真,错误判断,记录等原因);(2)系统误差(systematic error):仪器未校准所致的误差(统一偏高,或偏低);
这两类误差可以避免。
(3)随机测量误差(random measurement error):不同观察者或同一观察者多次观察值的不相同。
这种误差不可避免。
(4)抽样误差(sampling error):总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。这种由抽样引起的差异称为抽样误差。
抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。
由于生物的个体变异是客观存在的,因而抽样误差是不可避免的,但抽样误差有一定的规律性。
小概率事件定理:
“小概率事件一次抽样不可能发生”
变量及变量值
●变量(variable):观察对象的特征或指标。对变量进行取值所采用的工具或标准成
为测量尺度(scale)。
●测量的结果称为变量值(value of variable) 或观察值(observed value,
measurements)。
随机化(randomization)
使总体中的每个个体有均等的机会成为样本观察单位的过程,称为随机化。
●随机抽样旨在避免人的主观性,让机遇起作用,以反映总体的客观情况。
常用:抽签法,随机数目表法,计算器随机数法;
单纯随机抽样(simple random sampling):总体全部观察单位编号,再用随机数字法或抽签法;
整群抽样cluster sampling:直接由若干个群组成的总体中随机抽取若干个群,再对被抽取的每个群的全部观察单位加以调查。
系统抽样systematic sampling:( 间隔抽样,机械抽样)
先将总体观察单位按某顺序号分成n个部分,再从第一部分抽第k号观察单位,依次用此相等间隔机械地从每一部分各抽一个观察单位组成样本。
分层抽样stratified sampling:先按某种特征将总体分为若干组别、类型、区域,再从每一层内随机抽样,组成样本。
●抽样误差:分层抽样<系统抽样<单纯随机抽样<整群抽样
第二章统计资料的收集和整理
一、资料的类型
根据是否定量划分:
(1)计量资料(measurement data)
用定量方法测量每个观察单位的某项指标,所得的数值资料为计量资料,亦称数值变量资料。一般有度量衡单位。
常用:平均数,标准差,t检验,方差分析,相关与回归等分析。
(2)计数资料(enumeration data)
将观察单位按某种属性或类别分组,然后清点各组的观察单位数,为计数资料(亦称分类变量资料,无序分类资料)。
常用:率、构成比、卡方检验等
(3)等级资料(ranked data)
将观察单位按某种属性的不同程度分组,所得各组的观察单位数为等级资料,亦称有序分类资料。
常用:率、构成比、秩和检验等。
三者联系:
等级资料与计数资料不同:属性的分组有程度差别,各组大小顺序排列;
等级资料与计量资料不同:每个观察单位未确切定量,称为半定量资料。
介于计量资料与计数资料之间。
计量资料→计数资料→等级资料
调查设计和实验设计
调查设计一般包括专业设计和统计设计。
实验设计(experiment design)
医学实验的基本要素包括处理因素、受试对象和实验效应三部分。
实验设计应遵循对照(空白对照,试验对照,安慰剂对照,配对对照,组间对照
)、随机、重复(即样本例数)的原则。
频数分布表(frequency distribution table)
●用途:
(1)揭示频数的分布特征:两个重要特征:
●集中趋势(central tendency):数值高低不等,但中等水平的人数最多。
离散趋势(tendency of dispersion):数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。
第三章计量资料的统计描述
集中趋势central tendency
平均数(average):用于描述数值变量资料的集中趋势(平均水平)。
特点:简明概括,便于比较。
包括:算术平均数,几何平均数,中位数,百分位数
1、算术平均数(arithmetic mean)
一组变量值之和除以变量值个数所得的商,简称均数。
总体均数μ,样本均数x表示。
适用条件:资料成正态分布(或近似正态,或对称分布)。
计算方法:直接法,加权法
均数的两个重要属性:
(1)各离均差(各观察值与均数之差)的总和等于零。
(2)离均差的平方和小于各个观察值X与任何数a(a 不等于均数)之差的平方和。
均数是一组观察值理想的代表值。
均数的应用:
(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。(2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映观察值的集中趋势。
2、几何均数geometric mean G
将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。
适用条件:
(1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;
(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如:抗体滴度,药物效价等;
(3)观察值不能有0;
(4)观察值不能同时有正值和负值。
几何均数的应用:
(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;
(2)同一组资料求得的几何均数小于算术均数。
3、中位数(median, M) :位于中间位置上的数值。
把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。
适用于:
(1)资料偏态分布;(2)两端无确定数值;(3)资料分布不清楚;
如:潜伏期,毒物测定值等用中位数表示其集中趋势。
5、百分位数(percentile, P):位于某个百分位置上的数值。
把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,Pr 表示。
百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有
(100-r)%的观察值比它大。
如含量为n的样本,P5即表示:理论上有n5%个观察值比P5小,有n95%个观察值比P5大。一般说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故,样本量不够大时,不应取太近两端的百分位数。
常用的百分位数:5,25,75,95 分位数。百分位数常用于确定医学正常值范围(normal range)。
中位数是特定的百分位数。
四者的比较:
中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。而均数,几何均数是由全部观察值综合计算出的,敏感性好。但理论上,中位数等于算术均数。
百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。
离散趋势tendency of dispersion
常用指标:全距,四分位数间距,方差,标准差,变异系数
1、全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。
故:全距不宜单独使用。
2、四分位数间距(quartile interval Q):
将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。
意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。
优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。
缺点:未考虑全部观察值,不能全面反映资料离散趋势。
3、方差(variance)和标准差(standard deviation SD)
对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和是最好的指标,
意义:方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。
标准差应用:
(1)反映一组观察值的离散程度:
数值单位相同:直接比较标准差;
数值单位不同:计算变异系数;
变异系数(coefficient of variation, CV) 也称离散系数(coefficient of dispersion) 标准差与均数之比用百分数表示。
公式:
常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差,更客观。比如:身高,体重的变异比较
(2)估计变量值的频数分布:
(3)计算标准误
(4)估计医学正常值范围:
双侧:均数± 1.96倍标准差(95%)
单侧:均数± 1.645倍标准差(95%)
正态分布(normal distribution)
概念:频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数
愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。是一种连续型分布。又称高斯分布.
正态分布用N(μ ,σ)表示,其位置与均数有关,形状与标准差有关。
标准正态分布:
为了应用方便,常将式进行变量变换,即:u变换. 所得到的新变量u的分布即为标准正态分布。
u的含义:变量到均数间的距离相当于标准差的倍数。
u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(standard normal distribution)亦称u分布。
正态分布的特征和分布规律:
(1)曲线在x轴的上方,与x轴不相交,当x=μ时,曲线位于最高点。 f(u=0)=0.3989 (2)曲线关于直线x=μ左右对称。
(3)正态分布有两个参数:均数,标准差;标准正态的参数分别为:0, 1。
(4)正态分布的面积分布有一定规律。
正态曲线下面积的分布规律
正态曲线下,横轴上一定区间的面积,等于该区间的频数发生的概率(即所有随机事件发生的概率)。
正态曲线下面积的分布规律的应用:
一、确定医学参考值范围
意义:是正常人指标测定值的波动范围,可用于划分正常,或异常。
步骤:1、抽样 2、控制测量误差 3、取单侧或双侧 4、选定合适的百分界限 5、资料正态性检验 6、进行参考值估计
补充:
常用方法:正态分布法(正态分布),对数正态分布法(对数正态分布或近似正态分布),百分位数法(偏态分布)
二、确定概率分布
三、质量控制
第四章均数的抽样误差和 t分布
一、均数的抽样误差和标准误
均数的抽样误差sampling error of mean
由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差。
用样本均数的标准差来估计,称标准误(standard error)。即总体标准差和样本例数的比值,通常以样本标准差作为总体标准差的估计值
标准误越大,均数的抽样误差越大,样本均数与总体均数间的差异越大。
S 区别
X
S
是方差的平方根。
说明一组数据在其X周围的分散情况(变异程度)。
反映X对这组数值的代表性。是均数的标准差。
说明一组均数在“均数的均数”(≈总体均数)周围的分散情况。
反映用样本均数代表总体均数的可靠性。
表示抽样误差的大小。
标准误的应用
1、用来衡量抽样误差的大小:
标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;
2、结合标准正态分布与 t 分布曲线下的面积规律,估计总体均数的置信区间。
3、用于假设检验。
二、t 分布(t-distribution) ——标准化的均数的分布
t分布曲线特征:
?t分布是一簇对称于0的单峰分布曲线。
?自由度越小(相当于标准差大),曲线的中间越低,两边越高;随自由度增大, t 分布曲线逐渐逼近于标准正态分布曲线。
?当自由度无穷大时, t分布就是标准正态分布曲线。
?每一条t分布曲线,都对应于相应的自由度。
t分布曲线下的面积规律:
与标准正态曲线下的面积规律相似:
?在某一个自由度下,两侧外部总面积为5%的界限的t值称为t0.05/2(υ),把两侧外部总面积为1%的界限的t值称为t0.01/2(υ)。
?因此,中部占95%面积的t值范围:t0.05/2(υ)-- t0.05/2(υ),
中部占99%面积的t值范围:t0.01/2(υ)-- t0.01/2(υ)。
使用t值表注意:
?同一自由度下, P越小,t值越大;P值相同时,自由度越大,t越小;当自由度无穷大时,t值与u值相等。这也是u分布与t分布的区别。
t分布的主要应用:
?总体均数置信区间估计;
?t检验;
三、总体均数置信区间的估计
?统计推断:参数估计,假设检验
?参数估计:
?点估计(point estimation):用样本统计量作为对总体参数的估计值(μ) 。比如均数的估计。
?区间估计(interval estimation):根据选定的置信度估计总体均数所在的区间(a<μ
置信度(confidence level):
?在估计总体均数的置信区间时,如果可能估计错误的概率为α,那么估计正确的概率为1-α , 即为置信度. 常用: 95%, 99%.
置信区间(confidence interval, CI) 根据置信度估计得到的区间,称为置信区间。区间两端的界限值即置信限
置信区间估计方法:
?1、总体标准差已知参照u分布
?2、总体标准差未知,样本例数(>50)足够大,也可参考u分布进行
?3、总体标准差未知,样本例数较小,按t分布原理,依据自由度,查出某个概率相应的t界值
95%置信区间的意义:
?理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为5%.
?或进行100次抽样,可算得100个置信区间,平均有95个置信区间包括客观存在
的总体均数,只有5个置信区间未包括总体均数。
置信区间与正常值范围:
95%正常值范围一般是指同质总体内包括95%个体值的估计范围, 若总体为正态分布S X 961.±
95%置信区间是指按照95%置信度估计的总体参数的可能范围, 常按照下式计算X S 961.±X 。
前者用标准差,后者用标准误。
第五章 假设检验,u , t-检验
假设检验基本思想:
? 先对总体的参数或分布作出某种假设,如假设总体均数(或总体率)为一定值,两
总体均数(或总体率)相等,总体服从正态分布或两总体分布相同等。
? 然后,用适当方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。其
结果将有助于研究者作出决策,采取措施
假设检验步骤:
1、建立检验假设和设定检验水准
无效假设(null hypothesis) H0:假设差异仅由抽样误差所致,而两个总体参数
相同。是从反证法的思想提出的。
备择假设(alternative hypothesis), H1: 即差别不仅是由抽样误差所致,而且
总体参数不同。
H1是和H0相联系的,对立的假设。
确定检验水准(size of a test)
也叫显著性水准(significance level ):用α表示。即:拒绝了实际上成立
的H0的概率;一般取0.05,或0.01.
2、计算统计量
根据研究设计类型,资料特征,统计方法的适用条件,选择和计算统计量。
3、确定概率P 值,作出统计推断结论
计算统计量后,判断在H0成立条件下,出现该统计量或更大统计量的概率。
如果P 大于α,是接受H0的区间;如果大于或等于界值的范围,P 小于或等于α,
是拒绝H0的区间。
双侧,单侧检验:
根据专业知识, μ可能大于,也可能小于 μ 0,称双侧检验;若认为μ大于、等
于不可能小于 μ 0(或相反),为单侧检验。
若不能确定单侧的情况,应采用双侧检验。
在同一t 值的界限上单侧检验的概率仅相当于双侧检验概率的一半。因此,总体均
数间确有差别时,单侧检验比双侧检验更易得出差别有统计意义的结论。对同一资料进行检验,有可能双侧检验无统计意义而单侧检验有统计意义。但用单侧还是双侧检验,必须事先根据专业知识予以确定,不能等到计算完t 值以后再主观选定
选择原则:
? 双侧检验永远是正确的
? 单侧检验只有在少数情况下才是合适的
? 即使要做单侧检验,也必须事先确定
? 单侧检验:有某种倾向时使用;
? 双侧检验:没有任何倾向;
第一类错误与第二类错误
假阳性错误(false positive error),统计上称为第一类错误(type I error),用α表示。
即无效假设(H0:u=u0)是正确的,但被拒绝,误判为有差别(弃真错误)。
统计学上定P≤0.05为有意义,即在统计推断上允许犯假阳性错误的概率为5%。
当无效假设正确时,在100次抽样中,可以有5次推断是错误的。同样,如果定P ≤0.01为有意义,即犯假阳性错误的概率为1%。
故统计学上有意义的界限实际上就是允许犯第一类错误的界限。
假阴性错误(false negative error),统计学上称为第二类错误(type II error)。
即无效假设(H0:u=u0)不正确,实际上应是H1:u≠u0,但算得的统计量t没有超过t0.05的水平从而接受了无效假设,错误地得出无差别的结论(取伪错误)。
用 表示。
I类错误:虽然无效假设为真,但由于抽到了较大(检验统计量)的样本,使得P值小于检验水准而导致被拒绝。
II类错误:虽然无效假设为假,但由于抽到了较小(检验统计量)的样本,使得P值大于检验水准而导致不被拒绝。
第一类错误减小,第二类错误的概率就增大了。
?选择统计学意义水平,应考虑两类错误对所要研究事物的影响哪一个重要。
一般来说,定0.05为有统计学意义的水平是比较适宜的。其他条件不变,增大样本含量可使第二类错误的概率减小。同时正确的实验设计能够减少抽样误差,提高检验效能。
P值的正确理解
P值是指在无效假设的前提下,得到观察到的量(或更极端的量)的概率。
P值越小说明无效假设越不可靠。或者说,P值越小就越有理由推翻无效假设。
至于P值是否属于“小”,一般根据事先确定的检验水准 来判断的。
P值的大小与观察到的量的大小之间没有必然的联系。
实际差别与统计学意义
?统计学意义:如果总体均数相同,抽到这样大统计量的可能性很小,可以拒绝 H0。
但并不意味两总体均数差别很大。
?样本量很大时,即使均数差别不大,统计学意义却显著。
?样本小时,即使均数差别很大,统计学意义却不显著。
u检验和t检验
两者比较:
u检验条件:总体标准差已知,资料服从正态分布情况下(1)样本均数与总体均数比较(2)两大样本均数的比较;
t检验条件:用于样本量小、总体标准差未知时(1)样本与总体均数比较(2)配对设计资料比较(3)两样本均数比较(同时要求两样本的总体方差相同,服从正态分布)
配对资料:
配对设计:两样本中的观察值由于存在某种联系而一一对应结成对子(matching)的情况.
常用配对方式:
?1、同一受试对象处理前后的比较:高血压治疗前后的血压值,或每一名病人有一对数据;
?2、同一对象身体不同部位测定值比较:如左右臂皮肤的敏感试验,测得红斑直径;
?3、同一样品两种不同方法测定结果:两种仪器,两名化验员,两种条件等;
?4、成对设计:动物配对后随机分到两组后的测定结果;
第六章方差分析(一)
概念:方差分析是检验两个或两个以上样本均数间差别无统计意义的统计检验方法。
前提条件:各组总体均数为正态分布,方差齐。
方差分析的基本思想是:
将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。
方差分析主要用于:
1、均数差别的显著性检验
2、分离各有关因素并估计其对总变异的作用
3、分析因素间的交互作用,
4、方差齐性检验。
优点:1、不受对比组数的限制;
2、可同时分析多个因素作用;
3、可分析因素间的相互作用;
4、灵敏度高;
5、结论较准确
均方:
变异程度除与离均差平方和的大小有关外,还与其自由度有关,由于各部分自由度不等,因此各部分离均差平方和不能直接比较,须将各部分离均差平方和除以相应自由度,其比值称为均方差,简称均方(mean square,MS)。
MS组内:组内均方,l组内/ν组内
MS组间:组间均方, l组间/ν组间
总变异(total variation):全部测量值Xij与总均数间的差异∑(xij-x)2,v=N-1=nk-1 组间变异( between group variation ):各组的均数Xi 与总均数间的差异∑n(xi-x )2, v=k-1
组内变异(within group variation ):每组的每个测量值Xij与该组均数的差异∑(xij-xi)2, v=k(n-1)
F值:F=MS组间/MS组内
F界值:F0.05(ν1,ν2)F≥F0.05(ν1,ν2), p≤0.05
公式是在H0成立的条件下进行的,即MS组间与MS组内差别应该很
小, F值应该接近于1。
均数间的相互比较
Student-Newman-Keuls(SNK-q 检验)法:适用于任意两组间进行比较
Dunnett-t 检验:适用于多个实验组与同一个对照组的比较
LSD-t 检验:称最小显著性差异t 检验,适用于对多组中某一对或几对在专业上有特殊意义的均数进行比较。
三种方法是一致的,但并非等价,实际应用中应根据设计选取,不可多种方法一起使用,然后选取有利的结果。
拉丁设计:
对于两个以上的标志进行方差分析,而且各种标志的水平数相同,采用拉丁方设计。其优点是可以从较少的实验数据,获取较多的信息。但设计要求各因素的水平数必须相等,在实际应用时有一定局限性。而且,当各因素间有交互作用时,该设计不合适。
拉丁方是以拉丁字母排列的方阵的简称。
方差齐性检验
多个方差齐性的Bartlett 法
此外,Levene 检验法对原数据是否为正态不灵敏,比较稳健,也常常采用。
方差分析中的数据转换:
(1)平方根转换
x′=√ x 当x<10时, x′=√ x +1 或x′=√ x +1/2
常用于服从普哇松分布的资料(方差随均数而变;二项分布中方差随率变化)
(2)平方根反正弦转换
二项分布中率的比较, x′=arc sin √ x
(3)对数转换
对于均数与标准差呈正比关系的资料x′=lgx 或 x′=lg(x+1)(x>0)
方差分析(二)
当实验的处理是由两个或两个以上的因素,每个因素至少有两个水平的全面组合时,称之为析因实验。
一、2?2析因实验(factorial experiment)设计
两个因素,每个因素有两个水平的实验设计。
单独效应:是指其它因素的水平固定时,同一因素不同水平间的差别。
主效应:指某一因素各水平间的平均差别。
交互效应:某因素的各个单独效应随另一因素水平的变化而变化,且相互间的差别超出随机波动的范围时,称者两个因素间存在交互作用或效应。
如果AB两因素的联合效应不等于A与B的单独效应之和,则A,B存在交互效应,若大
于则有协同作用,若小于则为拮抗作用。
二、2×2×2析因设计
是指有三个因素,每个因素有两个水平的实验设计。
第七章 直线回归与相关
(1) 依存关系:应变量(dependent variable)Y 随自变量(independent variable)X 变
化而变化。 —— 回归分析
(2) 互依关系: 应变量Y 与自变量 X 间的彼此关系 ——— 相关分析
第一节 直线回归 ( linear regression 线性回归)
1.直线回归的概念:直线回归是分析两变量间线性依存变化的数量关系。
2. 函数关系与回归关系:前者是确定关系,后者是不确定关系
直线回归的任务:
就是找出一条最能描述变量间非确定性数量关系的一条直线,此直线为回归直线,相应的直线方程称为直线回归方程( linear regression equation)。
对资料的要求:
自变量 x :正态总体中的随机变量或指定变量 因变量 y :服从正态分布的随机变量
标准估计误差
各实际值Y 与估计值 有一定的误差,称为估计误差。各实际点与回归线纵轴方向的离散程度,可以用类似求标准差的式子进行计算,即标准估计误差
a b 的意义:
a 为回归直线在 y 轴上的截距,即与Y 轴交点的纵坐标(X =0)。
b 为回归系数,即回归直线的斜率;其统计学意义是 x 增加(减)一个单
位,y 平均变动 b 个单位
b >0,Y 随X 的增大而增大(减少 而减少)—— 斜上;
b <0,Y 随X 的增大而减小(减少 而增加)—— 斜下;
b =0,Y 与X 无直线关系 —— 水平。
|b |越大,表示Y 随X 变化越快,直线越陡峭。
3.直线回归方程参数的计算
最小二乘法原则 (least square method):使各实际散点(Y )到直线(?Y
)的纵向距离的平方和最小。即使()2
?∑-Y Y (残差或剩余值)最小 残差(residual)或剩余值,即实测值Y 与假定回归线上的估计值的纵向距离 ()()()Y Y Y Y Y Y -+-=-???Y 回归部分)?(Y Y
-)(Y Y -总情况Y
剩余部分)?(Y Y -Y X
回归系数的检验方法:
方差分析法
12SS MS F n
SS
MS νννν=-回
回回回剩剩
剩剩=;=,=
SS 总=∑-2)(Y Y ,Y 的离均差平方和(total sum of squares),
未考虑X 与Y 的回归关系时Y 的总变异。 1-=n ν
SS 剩=∑-2)?(Y
Y ,为剩余平方和(residual sum of squares), X 对Y 的线性影响之外的一切因素对Y 的变异,即总变异中,
无法用X 解释的部分。SS 剩越小,回归效果越好。 2-=n ν
SS 回=∑-2)?(Y Y
,为回归平方和(regression sum of squares), 由于X 与Y 的直线关系而使Y 变异减小的部分,即总变异中,
可以用X 解释的部分。SS 回越大,回归效果越好。 1=ν
t 检验法
| b -0 | b t = ————= ——,ν= n -2
S b S b = S yx S b ————————,____________∑( x -x ) 2_√
S b 为样本回归系数标准误;S yx 为剩余标准差
同一组资料作直线相关与回归时 tb 与 tr 等值
回归系数的标准误
b 为总体回归系数β 的估计值,其误差为Sb ____________S yx S b = ——————,∑( x -x ) 2_√
决定系数:
回归平方和与总平方和之比,大小反映了回归贡献的相对程度,也就是在Y 的总变异中回归关系所能解释的百分比。
总体回归线的95%置信带,即μ (x=xi)的可信区间
方差由Y 及 b (x - x)的方差两部分构成
个体Yi 值的范围预测
直线回归方程的应用
描述两变量的依存数量关系
利用回归方程进行预测
利用回归方程进行控制
第二直线相关 ( linear correlation )
简单相关(simple correlation),用于双变量正态分布资料。
进行直线相关分析的基本任务在于根据x、y的实际观测值计算表示两个相关变量x与y线性相关程度和性质的统计指标—相关系数r,并进行显著性检验。
1.直线相关的概念
直线相关是研究两变量 x、y 之间协同变化的线性关系的分析方法。
2.对资料的要求
x、y 都是正态分布资料的随机变量。
3.相关系数(correlation coefficient ,r )
*表示方法: -1 ≤ r ≤ 1
意义:描述两个变量直线相关的方向与密切程度的指标。
4、直线回归与直线相关的联系与区别
区别:
1)意义
直线回归反映两变量的依存关系;
直线相关反映两变量的相互关系。
2)对资料的要求
直线回归:自变量是正态总体的随机变量或指定变量,y 一定是正态总体的随机变量;直线相关:两变量均为正态总体的随机变量。
联系:
1)同一组资料的 r 与 b 的正负符号是一致的;
2)同一组资料的 r 和 b 的假设检验结果是一致的,即 t r = t b。
3)两变量间有相关关系,不一定有因果关系;但两变量间有因果关系,一定有相关关系。第三节Spearman 秩相关
适用资料:⑴不服从双变量正态分布
⑵总体分布类型未知
⑶原始数据用等级表示
等级相关系数r s(即Spearman Correlation Coefficient)—反映两变量间相关的密切程度与方向
第八章相对数
计数资料的统计描述
一、常用相对数(relative number)
1、比( ratio)
又称对比指标或相对比,表示两个有联系的同类指标之比,常用倍数或百分数表示。
2、比例(proportion)
又称构成指标,表示某一事物内部各组成部分所占的比重或分布,常用百分数表示。
3、率(rate ):
又称频率指标,表示某现象发生的频率或强度,比例基数用k 表示,据习惯定,一般至少保留1~2为整数。包括%、‰、1/万、1/10万
二、 医学中常用的相对数指标
1、医学人口统计指标
(1)人口总数
(2)人口构成
(3)人口生育
自然增长率=粗出生率-粗死亡率
(4)人口死亡
粗死亡率(总死亡率) mortality rate
2、反映疾病发生水平的频率指标(疾病统计指标)
发病率 ( incidence rate)
某病发病率=(一定时期某病新发生的病例数/同时期内可能发生某病的人口数)?K
(1) 时期:指观察所包括的时间范围,通常为年或月;
(2)新发生的病例数:指第一次发生某种疾病,以第一次就诊为准。
(3)可能发生“某病”:指存在发生某病的危险性和条件(流行病学上为暴露人群)。 患病率(prevalence rate)
指在某时点接受医学检查时,可能发生某病的全体受检人群中被发现的某病病人现患新、旧病例数。
某病患病率=(检查时发现的某病现患病例数/ 该时点受检人口数)?K
适用于病程较长的疾病的统计,反映某种疾病在一定人群中流行的规模或水平
病死率(fatality)
某病死亡率=(观察期间内因某病死亡人数/同期某病病人总数)? K
三、应用相对数应注意的问题
● 1,计算率和构成比的分母不宜过小:否则样本率不稳定,易造成错觉;
● 2,不要将构成比作率分析;
● 3,求平均率时不能直接将几个率相加求其合并率或平均率,而应以总发生数除以
总可能发生例数。
● 4,应注意资料的可比性
资料是否存在偏性
当内部结构不同的相对数间进行比较时,若比较合计率,应计算标准化率。
率的抽样误差与标准误
● 率的抽样误差:
由抽样造成的样本率和总体率的差别称为率的抽样误差。
率的总体标准误用σp 表示 n p )
1( ππσ-=
σp 的样本估计值为率的样本标准误sp n p p s p )
1( -=
总体率的区间估计
当n π≥5和n(1-π)≥5时,样本率p 近似服从均数为π、标准误为σP 的正态分布,当
总体率未知时, σp 用估计值sp 取代
n p p p s p u p )1(--=-=
ππ 总体率的假设检验(u 检验)
适用条件:
1. 适用于一个样本率与一个总体率的比较,或两个样本率间的比较。而不能用于多个率或构成比资料的比较;
2. 要求样本量较大, 一般np 与n (1-p )均大于5,率的分布近似于正态分布。
率的标准化
1. 标准化法(Standardization)的意义
当比较两个总率时,如果两组内部某种能影响指标水平的重要特征的构成上有
差别,往往造成总率的升高或下降,影响两个总率的对比;因此要设法消除其内部构
成的差异,使之能合理地进行比较,所用的方法称为标准化法。标准化法即在一个指
定的标准构成条件下进行率的比对的方法。
目的:采用统一的标准构成以消除内部构成不同对总率的影响,使标准化后的标准化
总率具有可比性。
(1).选择标准人口:
a. 应选择有代表性、较稳定的、数量较大的人群
b. 将比较的两组(或多组)的人口数合并作为标准组
c. 选其中一组(选人口数较多组)作为标准组
1、直接法:以标准人口构成与实际的年龄组别死亡率求得一个调整死亡率。
2、间接法:采用标准年龄组别死亡率与相互比较的两组年龄组别人口数计算求得的死亡率。
第九章 卡方检验(一)
概念:
检验两组(或几组)率或构成比差异是否有统计意义(样本量不限)。行与列两个顺序变量之间是否相关。
卡方检验的基本思想
反映了实际频数和理论频数吻合的程度。如果检验假设成立,则实际频数与理论频数之差一般不会很大,出现大的卡方值的概率是很小的
基本公式:
22()A T T χ-=∑ ν =(R-1)(C-1) X 2检验的专用公式法
)
12)(12()
)()()(()( 22--=++++-=νχd b c a d c b a n bc ad
连续性较正公式:
条件:当四格表中有任一格子理论数1≦T<5,同时总例数n ≧40,
))()()(( .)2/( )5.0( 222
2d b c a d c b a n n bc ad T
T A ++++--=--=∑χχ 配对四格表资料x 2检验
2
22
2(1) ( 40) () ( 40)b c when b c b c
b c when b c b c χχ--=+<+-=+≥+ 配对四格表资料的关联性分析 )12)(12())()()(()( 22--=++++-=νχd b c a d c b a n bc ad 22r
n χχ=+
四格表精确检验法
条件:四格表资料中若 n<40,或有任一格子理论数T<1。
基本思想: 是在周边合计数不变的条件下,表格中实际频数各种组合的概率。
P 值=所有小于等于样本点概率的各种组合的概率之和.
()!()!()!()!!!!!!a b c d a c b d p a b c d n ++++=
行× 列表资料的x 2检验
适用条件:
● 当 R>2 or C>2
● 两个以上的率的比较
● 两个或多个构成比的比较
● 按两种属性分类的频数表资料的关联性分析
计算公式: 2
2 (1)(1)(1)
R C
A n n n R C χν=-=--∑ 行× 列表分类资料的关联性分析
Pearson 列联系数r : 22r n χχ=
+
列联表卡方检验的注意事项:
(1) R*C 表中4/5以上格子的理论数应该>5;
假设1/5以上格子理论数小于5,
a. 增加实验样本含量
b. 相邻行或列数字合并;
C.删除所在行或列的数据
D.直接计算概率
(2) x 2 检验的结果接受H1时仅提示所比较的各组总体来说有差别,但不能表示其间任
一两者间有差别,也不表示差别的强度.
(3)对于顺序变量,用秩和检验更合适.
卡方检验(二)
多个样本率间的多重比较
Bonferroni 法:
''(2)'α
αα
αα
α===比较的次数
(1)多组间的两两比较k (k -1)/2
实验组与同一个对照组的比较
k -1
行乘列表资料的分类和相应检验目的及方法:
A 、对于双向无序行乘列表资料
①若研究目的为多个样本率(或构成比)的比较,可用行列表资料的检验;
②若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表资料的检验以及Pearson 列联系数进行分析。
B 、单向有序行乘列表资料
有两种形式
一种是表资料中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)
是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序表资料可用行列表资料的检验进行分析。
另一种情况是表资料中的分组变量(如疗法)为无序的,而指标变量(如疗效按等
级分组)是有序的(列为顺序变量)。其研究目的为比较不同疗法的疗效,此种单向有序表资料宜用行平均分检验或秩转换的非参数检验进行分析。
C 、双向有序属性相同的行乘列表资料
资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即
水平数3或以上的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验或称Kappa 检验。
D 、双向有序属性不同的行乘列表资料
资料中两个分类变量皆为有序的,但属性不同,对于该类资料,
①若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表料,选用秩转换的非参数检验;
②若研究目的为分析两个有序分类变量间是否存在相关关系,宜用行列平均分检验计算或等级相关分析(spearman 等级相关)或Pearson 积矩相关分析。
③若研究目的为分析两个有序分类变量间是否存在线性变化趋势,宜用有序分组资料的线性趋势检验。
E 、多层列联表的分析
-Mantel-Haenszel Analysis
分层分析,按资料多来源(多中心,多地区),性别,年龄等分层校正。
多层2? r:分层分析时,每层有一个2? r 表形成多层2 ? r 表。求校正的χ2SMH
加权χ2检验
-(率的Cochran 检验)
内部构成不同的两个率差别的统计意义检验,用此法最合适!
第十章 二项分布与普哇松分布
二项分布:
从阳性率为π的总体中随机抽取许多大小为n 的样本,则出现阳性数为x (x=0,1,2,3,…,n )的样本的分布呈二项分布。
二项分布的条件:
1、 各事件是相互独立的
2、 各事件是相互排斥的,适于非遗传,非传染性疾病
二项分布的形态:
当阳性率π≈0.5时,分布是对称的;
当π≠0.5时,分布是偏态的,但n 增大时可趋于对称;
1、n > 50且np 和n (1-p )均≥5时(同率u —test ),二项分布近似正态分布:
1)π可信区间:可用p ±1.96Sp
2) 样本率与总体率,样本率之间的比较用u —test
2、一般当n π<5时,二项分布是偏的,不能用以上方法
二项分布的应用:
1、 计算概率大小,判断疗效
2、 求总体率的可信区间:n<50且 np 和n(1-p)均<5时,须用二项分布法求可信区间
3、 研究家族聚集性:各户居民家属中实际病例数X 的分布与按二项分布公式求得的理
论病例数的分布一致(P>0.05),则不能认为该病具有家族聚集性。
普哇松分布
是指单位时间,单位空间或单位容积中颗粒数或某罕见事件发生数的概率分布。
条件:各事件是相互独立的
与二项分布的比较:
(1) 当总体比例π很小,样本含量n 趋向于无穷大时(重复次数n>100,每次出现
概率<0.01),二项分布趋向于Poission 分布;
(2) 两种分布均要求各事件是相互独立的,均属离散型分布
特征:
1、 Poission 分布的方差等于其平均数σ2=μ,表示Poission 分布变量的变异程度
2、 Poission 分布的特征取决于其平均数,平均数越大(>50),Poission 分布越接近正态
分布。(二项,Poission ,正态三角)
二项分布 正态分布 n>100, but p <0.01 均数越大 (>50)
Poisson 分布
3、 可加性:如果x 1,x 2,…,x n 是从Poission 分布总体中(可以是相同或不同的总体)
随机抽取的样本中的计数,则它们之和也服从Poission 分布;
4、 总数的分布也属Poission 分布:每小格的计数是Poission 分布,共有400个格子计数。
若以此400格为一单元进行观察,则每400格的计数的分布也属Poission 分布。
总体均数的可信区间:
1、 当样本计数x ≤50时,用Poission 分布法即查表法
2、 当x ≥50时,用近似正态分布法(1.96,2.58)
→>>5)
50(即nπn π不接近0和1
计数差别的检验:
1、样本计数与总体计数:(1)μ较小时,Poission分布确切概率法
(2)μ较大时(>50),近似正态法
;
2、两样本计数(不同情况采用不同公式):
(1)时间或体积单位相同;又包括x1,x2>20和x1,x2∈(5,20)
(2)时间或体积单位不同
第十一章非参数检验
参数检验:以特定的总体分布为前提,对总体参数进行假设检验的一类检验方法
非参数检验:是一种不依赖于总体分布的具体形式的统计方法,其比较的是分布,而不是参数,不受总体参数的影响。
非参数检验的优点:
(1)适用范围广:适用于任意分布——分布不明,偏态,方差不齐,半定量资料,数据一端无界限资料
(2)收集资料方便:可使用“等级”,“符号”等评定结果
(3)有较好的稳健性
缺点:
对适用参数检验的资料,采用非参数检验,则会损失信息,在小样本时降低检验效能Power(即检验出相同大小的差异需要较多例数)
配对资料:符号等级检验(查表法/公式法)
两样本比较:两样本等级和检验/中位数检验
中位数检验
意义:如果两组分布位置相同,则在两组合并算得的中位数上下每组应各有一半的数目,故可以检验在中位数上下各观察值数目的差异在两组是否有统计学意义。
n1,n2均>10用四格表卡方检验,n1或n2<10用确切概率法
多组比较:
(1)多组计量资料:H-test——两两比较(专用公式)
中位数检验(n i>10时效果较好)——两两比较(专用公式)(2)多组等级资料(单向有序):H-test——两两比较(两样本的等级和检验,但要调整水准а)
秩变换分析方法,可代替以上(1)(2)和两两比较
H检验
条件:假定抽样总体是连续和相同的,检验其分布位置是否相同。此法与单因素方差分析相对应。
适用:等级资料(两组或多组);
不适用参数检验(F检验)的多组计量资料
等级资料:
是介于计量资料与计数资料之间的一种资料,其等级的差别包含了量的差异,具有计量资料的性质;清点各组例数,又具有了计数资料的性质。
秩变换分析方法:
适用同H-test
原理:(1)求原变量秩次
(2)用秩次代替原变量进行参数检验(方差分析及两两比较的LSD检验)
样本量较大时结果与非参数分析基本一致,但可充分利用现有的参数分析方法。
第十二章 Ridit分析(R-test)
适用资料:1.等级分组资料(与秩和H检验等价);
2.数量分组不很确切的资料(e.g. <20,20-,40-);
3.计量资料转化为计数资料.
单向有序数据:适宜秩和检验或R i d i t分析
优点:Ridit分析能检验各组间的优劣和强弱。X2-test只能检验各组间的构成是否不
同,不能检验各组间的优劣和强弱。
样本与总体比较
总体的确定:
标准组应该是总体,但总体不易得到。
通常是选择一个公认比较稳定,且例数较多的组作标准组。
标准组的平均R值总是等于0.5,对比组R总在0—1之间。
结果判断:
(1)差异的显著性:
95%可信区间—不含()0.5, 差异有意义
—含()0.5, 差异无意义
(2)优劣的判断:
当标准组频数的累计方向从"差→好"时—
①对比组,表示其疗效优于标准组;
R ,表示其疗效差于标准组。
②对比组0.5
若累计方向相反,则结果判断也应相反!
应用本法的注意点
1.标准组要求例数较多,否则应当作"两组比较"处理。
2.近似法较实际情况得出更多的"差异无意义"的结论。因此,当可信区间刚好触及
0.5线时,下结论应慎重。
两组平均Ridit值比较、多组平均Ridit值比较(取合并组作标准组)
适用条件: 相互比较的各组样本中无例数较多者(即无标准组)。
小结
?样本与总体比较(近似法-95%C I)
?两组比较:两组平均R值比较(u-t e s t)
?多组比较:多组平均R值比较(x^2-t e s t)
第十三章多元回归分析
对数据的要求:
样本例数应为研究因素个数的5-10倍;
不能有缺项;
定性、半定量指标应赋值量化,量化时要注意大小顺序