- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目的在于研究各种处理间差异是否有统计学意义的同时,研究受 试着间的差异;
也可以是不同条件下同一因变量的重复测量
目的在于研究各处理间差异是否有统计学意义的同时,研究形成 重复测量条件间的差异以及这些条件与处理间的交互效应。
GLM:重复测量资料方差分析的主要手段 数据结构:若干次重复测量结果作为不同因变量出 现在数据文件中。
Rate constant conc
1 Rate
1e x
100
50
0.0
0.2
0.4
0.6
0.8
1.0
Concentration,ppm Fig.1 The Scatterplot of Rate and Concentration
常见统计分析的错误
结果表述不当
过于看重P值的大小而忽视Power的影响 片面夸大统计学意义的作用 错误理解P<0.01与P<0.05的关系 显著性检验包打天下
为何要把测自不同时间点上的数据看成是 多元的呢?
因为同1 个体的数据重复测自同1个受试对象,它 们之间往往有较高的相关性。
这种相关性通常会减少误差项变异, 从而使得F 测验的分母变小, 其后果是F检验更易于到达显 著即使无效假设是正确的. 换句话说, 犯一类错 误的概率加大了
重复测量设计
样本必须为进行多次重复测量的数据。 可以是对同一条件下同一因变量的重复测量
第二部分
统计方法选择的基本思路
统计方法选择的核心要素
研究目的
组间差异
显著性检验?优效性检验?等效性检验?非劣效性检验?
相互关系
相关与回归、关联性分析(OR、RR、AR)、其它
设计类型
完全随机设计?
配对设计? 随机区组设计?
交叉设计?
析因设计? 其它设计?
数据类型
计量资料?分类资料?等级资料?
干预组 对照组
某指标(度量衡单位) 22 24 26 28 30 32 34 36 38 40
基线
时点1
时点2
时点3
时点4
时 点 (周 )
图 1. 不 同 组 别 某 指 标 历 时 性 变 化 情 况 比 较
时点5
重复测量设计
优点
每一个体作为自身的对照,克服了个体间的变异,减少了一 个差异来源。
配对设计是最简单的重复测量设计 重复测量设计为特殊的两因素设计
其中的一个因素固定为时间因素
分类
对每个对象在同一时间不同因子组合间测量
较为少见,如裂区设计
对每个对象在不同时间点上重复测量
临床研究中极为常用
重复测量设计的方差分析
重复测量设计在临床研究中极为常见(方法详见程序) 可用普通线图描述不同组别某指标随时间变化的趋势
组成
数据管理(约占全部工作量的60%-80%) 数据分析(约占全部工作量的20%-40%)
数据处理的一般原则与基本内容
数据库设计 数据录入 数据管理
数据审核 异常(缺失)值的处理
统计整理:根据研究目 的对原始数据进行科学 的分类、汇总和显示; 使之系统化、条理化、 直观生动和反映总体的 数量特征和规律。
处理
T1
T2
T3
T4
A
xa11,xa12, xa21,xa12, xa31,xa32, xa41,xa42,
xa13,…,xa1i xa23,…,xa2i xa33,…,xa3i xa43,…,xa4i
B
xb11,xb12, xb21,xb12, xb31,xb32, xb41,xb42,
问题
xb13,…,xb1i xb23,…,xb2i xb33,…,xb3i xb43,…,xb4i
要求
各个因素每一水平的样本必须是独立的随机样本 重复观测的数据服从正态分布,且各总体方差相等。
析因设计的几个基本概念
由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提 高
重复测量设计
重复测量设计方差分析的统计前提
每个处理条件内的观察都是独立的; 每个处理条件内的总体分布是正态分布或多元正态分布; 每个处理条件内方差齐; 每个被试者的多元观测值之间存在相关(不能用单因素方差分
析代替).
重复测量设计ຫໍສະໝຸດ tp0.99 >0.05
2.22 <0.05
1.38 >0.05
2.25 <0.05
3.55 <0.01
常见统计分析的错误
未考虑多重共线性
回归模型中两个或两个以上的自变量彼此相关 多重共线性带来的问题有
可能会使回归的结果造成混乱,甚至会把分析引入歧途 可能对参数估计值的正负号产生影响,特别是各回归系数的正
系数的t检验却不显著 回归系数的正负号同预期的符号相反。
第三部分
具体案例讨论
案例1
ABC三组不同时点某指标的变化情况
应该选用何种统计学方法?
如果重复测量方差分析得出结论为差异有统计学意义,如何判 断具体哪两个或多个时点间比较有统计学意义?
如何判断A、B、C三组各时点(T0、T1、T2、T3)间不同组别 的变化情况?(如判断T2时点,A、B、C三组某指标的情况) 如何两两比较?
使用线性回归解决非线性问 题
使用Logistic回归解决队列研 究的资料
使用普通方差分析解决协方 差/多元方差分析问题
多元统计时未考虑自变量的 共线性
主成分分析与因子分析误用
其它
线性回归与非线性回归
Rate constant conc conc2
200
150
Rate
Rate constant conc conc2 conc3
优效、等效和非劣效性检验少为人知
example1 example2 example3 example4 example5
Intervention 21.1±2.2(10) 21.1±2.2(50) 21.1±2.2(120) 21.1±2.2(320) 21.1±2.2(3200)
Control 22.1±2.3(10) 22.1±2.3(50) 21.5±2.3(120) 21.5±2.3(320) 21.3±2.3(3200)
常见统计分析的错误
未进行数据审核
数据中存在逻辑错误 数据中存在异常值 数据中存在过多的缺失值
常见统计分析的错误
统计方法选择不当
选择t检验时未考虑数据 的分布类型
将方差分析拆分成多个t 检验
用单因素方差分析解决 重复测量资料
使用四格表卡方检验时 未考虑N和T的大小
使用卡方检验解决等级 资料问题
分析时可更好地集中于处理效应; 每一个体作为自身的对照,所需样本量相对较小,更加经济.
缺点 滞留效应(Carry-over effect)
前面的处理效应有可能滞留到下一次的处理
潜隐效应(Latent effect)
前面的处理效应有可能激活原本以前不活跃的效应
学习效应(Learning effect)
因素代替为数较多的原始变量,类似于人大代 表的选举。
多因素方差分析
定义
把总变异按照其来源(或实验设计)分为多个部分,从而检验 各个因素对因变量的影响以及各因素间交互作用的统计方法。
析因设计、正交设计、嵌套设计、裂区设计等
优点:效率较高
可以在一次研究中同时检验具有多个水平的多个因素各自对因 变量的影响以及各因素间的交互作用
分布特征
正态分布?对数正态分布?其它偏态分布?
统计方法选择总结
统计方法选择总结(续)
统计方法选择总结(续)
常见统计分析的错误
普查还是抽样调查?
普查无统计推断
随机抽样还是非随机抽样?
非随机抽样不能使用普通的统计推断方法
资料类型误认 未能满足所选择统计的前提适用条件 单因素ANOVA代替重复测量资料的方差分析
负号有可能同我们预期的正负号相反
多重共线性的识别
最简单的方法
计算模型中各对自变量间的相关系数,并进行显著性 检验,若有一个或多个相关系数显著,就表示模型中 所用的自变量之间相关,存在着多重共线性
如果出现下列情况,暗示存在多重共线性
模型中各对自变量之间显著相关。 当模型的线性关系检验(F检验)显著时,几乎所有回归
SAS分析结果
重复测量资料统计分析常见错误
重复进行各时间点不同组别间的t(或F)检验 忽略个体曲线变化特征
重复测量数据不满足常规曲线拟合方法所要求的独立性 假设
差值比较缺乏信度
用差值做组间比较须慎重
须与协方差分析区别开来
案例2
不同处理措施和时间对某一指标的影响 试验对象:大鼠(每个时点宰杀一批)
重复测量设计
重复测量设计与随机区组设计(时间为区组因素)
相同点
数据结构极为相似,甚至完全一样
不同点
重复测量设计:的处理因素在区组(受试者)间是随机分配的,
区组内的各时间点是固定的,不能随机分配;区组内的数据 来自于同一受试者;
随机区组设计:区组内的受试者彼此独立,处理只能在区组内随
机分配,每个受试者接受不同的处理,即区组内的数据来自 于不同的受试者。 使用随机区组设计方差分析处理重复测量设计资料, 会增大犯Ⅰ类错误的风险。
重复测量资料的方差分析
将不同时点的测量值作为不同的变量
data ex12_3;input t0-t4 g@@;cards; 120 108 112 120 117 1 118 109 115 126 123 1 119 112 119 124 118 1 121 112 119 126 120 1 127 121 127 133 126 1 121 120 118 131 137 2 122 121 119 129 133 2 128 129 126 135 142 2 117 115 111 123 131 2 118 114 116 123 133 2 131 119 118 135 129 3 129 128 121 148 132 3 123 123 120 143 136 3 123 121 116 145 126 3 125 124 118 142 130 3 ; proc glm; class g; model t0-t4=g; repeated time 5 contrast(1);run;