科研数据的种类及处理方法

  • 格式:ppt
  • 大小:187.02 KB
  • 文档页数:39

下载文档原格式

  / 39
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计工作步骤
1. 统计设计 2. 资料收集 3. 资料整理 4. 数据分析 5. 写出报告
数据分类
数据分类有多种方法
• 计数资料、计量资料 • 连续资料、离散资料
变量的类型
一)定量变量 二)定性变量
一)定量变量
变量值是定量的,有大小之分,有度 衡量单位,这种变量称定量变量,
1. 离散型 2. 连续型
定性资料的统计分析
• 来自配对研究设计的2×2表
表1 两种培养基对同一痰液同时培养结果
乙培养基
甲培养基



36
34

0
135
表2 两种检测方法对同一组受试者检验结果
金标准检测
试验标准



31
3

2
40
可以有两种方法:
检验两种方法不一致的,可以用McNemar 2 ;
检验两种检验方法结果是否具有一致性,可以用Kappa检验。
方差分析(满足正态性)、非
相关 回归
定量资料的统计分析
• 单因素多组(3组以上) • 使用方差分析
分别有:
一般方差分析 配伍设计方差分析 拉丁方设计方差分析 交叉设计方差分析 析因设计方差分析 重复测量数据方差分析
定量资料的统计分析
• 单因素定量资料假设检验,均须满足 正态性和方差齐性否则,需作变量变换 或选用非参数检验
定性资料的统计分析
基线血压状况随访10年心血管脑卒中事件结果 心血管脑卒中事件
基线血压
发生
没有发生
高血压
58
正常血压
6
398 2354
1. 先进行一般 2检验,如果P<0.05,进行第2步, 否则停止;
2. 计算相对危险度RR(Relative Risk,RR); 3. 用MH 检2 验RR与1之间的差异是否显著。
科研数据的种类 及处理方法
广东省心血管病研究所 麦劲壮
什么是统计学?
• 统计学是一门处理数据中变异性的科学 与艺术 内容包括 数据收集、整理、分析、解释和推断
统计学与医学研究
• 统计学思维和方法已经渗透到医学研究中 如:医学杂志 课题申请 药物开发
• 相对随机化有对照的临床试验而言,医生个 人的临床经验是无计划、杂乱的,而且是非 常不可靠的
哑变量
• 同样,如果连续型定量变量,我们也可以变 成哑变量,例如,如果我们单纯用收缩压 (SPB)作自变量,计算ORSBP=1.02,按此结果, 我们仅能作以下解释:SPB每变化1个单位, 危险增加0.02,临床上,我们想知道高血压 比正常血压危险增加多少,怎样做?
哑变量
SBP或DBP 高血压 正常
1.2 无序定性变量
一些变量虽然可以用1、2、3代表, 但是也是无大小或水平之分的,如职业、 民族等,其中的工、农、商、干部、技 术人员等,并无大小、等级或水平之分, 这些也可以用A、B、C等代表,因此称 无序的定性变量,也称分类变量或名义 变量。
2. 有序定性或等级变量
一些定性变量是有序或有等级的, 这种定性变量就是有序定性或等级变量。
哑变量HP 1 0
假设ORHP=1.82,我们就可以解读为:高血压 是正常血压的危险1.82倍
哑变量
• 注意事项: 进行哑变量转换后,在最后报告中必
须说明转换方法及标准。
谢谢
当的变换变成连续型定量变量进行分析 • 常见例子,通过连续型定量变量“血压
值”,变换成二分类变量“是否高血压”
哑变量
• Logistic、Cox回归分析中,如果自变量 是分类变量,如职业、血型,或特殊目 的时,需要变换成多个哑变量才能分析
以血型为例,血型有A、B、AB 、O型, 需转换成4-1=3个哑变量(假设X1、X2、 X3),具体方法如下
1.离散型定量变量
只能取整数,这些定量变量称离散型 定量变量,如人数、手术数量、红细胞数 量等
2.连续型定量变量
直接测量获得,可以是任意大小,可 以有小数点,有度量单位,如血压、身 高等测量值。
定量变量常用的统计描述
• 均数、全距、几何均数、中位数、分位数、众 数、方差 、标准差、变异系数、偏度系数等
例如,临床检验结果-、± 、+、 ++等, 疗效:治愈、显效、好转、无 效、死亡
定性资料的统计描述
通过频率分布及相对数指标来描述其分布特征 • 百分比 • 构成比 • 发(患)病概率 • 感染率 • 相对比(男女比) • OR(比值比)/ RR(相对危险度)
定性资料的统计分析
• 常见错误:直接根据率的大小作出统计 推断
如果分类变量有n个水平, 则需建立n-1个哑变量。
哑变量
• 哑变量意义 在Logistic回归中,单纯用血型(X)作 为自变量,分析结果X对应的OR是1.89, 这时是没有办法解释结果的,因为,不 知道谁跟谁比,徒有结果,但没有意义
哑变量
• 但是,如果用3个哑变量作为自变量,结果 对应的OR分别是ORX1=1.90、 ORX2=0.89、 ORX3=2.11,这样,我们可以解释为,相对 “O”型血,A型血相对危险是1.90倍、B型 是0.89倍、AB型是2.11倍。

定性资料的统计分析
• 来自横断面研究的资料 两种药物治疗某病患者疗效观察结果 有效 无效
治疗组 30
10
对照组 11
58
该表可以选择一般的 2检验公式进行计算
定性资料的统计分析
来自队列研究设计的2×2表 例子: “中美心血管疾病危险因素研究”,研究 基线血压对10年后心脑血管事件发生的 影响,列表如下
哑变量
哑变量
血型(X)是 X1 X2 X3
A
100
B
0பைடு நூலகம்0
AB
001
O
000
这里是选定“O“型为基准转换成 哑变量,意味着,假如血型 X=A,则X1=1,X2=0,X3=0; X=B,则X1=0,X2=1,X3=0; X=AB,则X1=0,X2=0,X3=1; X=O,则X1=0,X2=0,X3=0;
定性资料的统计分析
• 双向有序且属性相同R×C资料
脑瘤患者MR与CT诊断结果
CT
MR
检出
可疑
检出
60
4
可疑
2
10
未检出
1
3
未检出 2 2 1
与配对设计的2×2列联表资料一样,采用一致 性检验,或称Kappa检验
变量是否可以变换?
• 答案是肯定的 • 但是,仅能连续型-> 有序->无序 ->
二分类这样转换,不能作相反方法转换 • 有的时候,离散型定量变量可以通过适
定性资料的统计分析
• 双向无序R×C资料
心律失常种类与心肌梗塞部位关系
心肌梗塞部位
心律失常种类 下壁
前壁
后壁 心内膜下
窦缓
8
7
2
1
传导阻滞
1
1
2
2
室早
10
2
5
1
用一般的 2检验,或Fisher精确检验
定性资料的统计分析
• 单向有序R×C资料
3种药物治疗某病疗效观察结果
疗效
药物
治愈
显效
好转
无效
例如:用某药治疗某病,甲医院治疗100人, 40人有效,乙医院治疗5人,2人有效, 两家医院有效率均为40%,从而判断甲、 乙医院疗效相差不大。
定性资料的统计分析
• 另外一个常见错误:用 χ2分析一切列联表资料 • 一般来说,2×2列联表一般用 χ2分析,但是,来
自不同研究,分析又略有不同 • R×C表须根据行列数据性质不同,选择不同方
A
15
49
31
5
B
4
9
50
22
C
1
15
45
24
可以选用:
•秩和检验
•Ridit分析
•有序变量Logistic分析
定性资料的统计分析
• 双向有序且属性不同R×C资料
甲状腺肿各年龄组疗效观察
年龄组 20~ 40~ 60~
治愈 41 30 25
显效 2 2 1
疗效
好转 1 2 0
无效 1 0 1
按目的不同,可以选择:秩和检验、Ridit分析、 有序变量Logistic分析、Spearman秩相关分析、 线性趋势检验等方法。
定性资料的统计分析
• 来自病例对照研究设计的2×2表
妇女孕前6个月服用某药者其子代染色体异常的调查结果
子代染色体
母亲是否服药
异常
正常
服药
34
68
未服药
30
128
1. 先进行一般 2检验,如果P<0.05,进行第2步,否则停止;
2. 计算比值比OR(Odds Risk,OR);
3. 用MH 2检验OR与1之间的差异是否显著。
二)定性变量
1.二分类变量与无序定性变量 2.有序定性或等级变量
二)定性变量
二分类变量与无序定性变量 虽然这些变量可能用1、2、3等数字
表示,但并不一定代表其大小或水平
1.1二分类变量
科学研究中,常用1、2代表男女,0、 1代表疾病有无,这些就是二分类变量, 这里0、1、2并无大小、水平之分,可以 用字母代替。
• 资料分布不同,要用相应指标 均数:近似服从对称分布 几何均数:等比数资料 中位数和分位数:偏态资料,尤其包 含不完全信息的资料,比如简易血糖仪 测量的血糖值
定量资料的统计分析
• 单因素:
单组
t检验(满足正态性)、非参数检验
两组
t检验(满足正态性)、非参数检验
多组(大于2组) 参数检验
• 多因素: