当前位置:文档之家› 分类数据的统计分析

分类数据的统计分析

分类数据的统计分析

开设目的

医学科研中分类数据多见

常用的分类数据的统计分析方法 软件实现过程

讲授内容

列联表中变量关联(association)的假设检验 2×2表

行×列表

分层2×2表

CMH方法

解释变量与反应结果间联系的统计模型 LOGISTIC回归模型

Poisson回归模型

对数线性模型

成绩评定

到课次数(20%) 平时作业(30%) 期终测验(50%)

参考资料

分类数据的统计分析及SAS编程

Categorical Data Analysis Using the SAS System

SAS-Base and SAS-STAT User's Guide _Version 8

SPSS 使用教程

分类数据定义

分类数据是指反应变量(应变量)为分类变量,而解释变量(自变量)可是分类变量或连续变量。

列联表中变量关联(association)的假设检验 解释变量与反应结果间联系的统计模型。

分类反应变量的尺度

分类尺度: 分类尺度是两种可能的结果

顺序尺度: 结果不止两种可能性,而且有顺序关系

离散计数: 结果本身是离散计数

名义尺度: 结果多于两类,而类别之间并没有顺序关系

分组计数: 数据本身是连续数据,经分组后,反应变量为在不同组中的例数。

分类数据分析策略

?假设检验

对建立的一个关于联系(association)的假设进行检验,说明列联表的行与列之间是否有关。

?建立模型

用建立模型的方法可求得各参数值,说明各因素的作用。通常用最大似然估计或加权最小二乘法估计。

2×2 列联表资料

χ2

数据分析的常见方法

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率\回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。 对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。 列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的

第十一章 无序分类资料的统计分析

第十一章无序分类资料的统计分析的Stata实现 例11-1 根据某地区的血型普查结果可知,该地区人群中血型为O的占30%,血型为A的占25%,血型为B的占35%,血型为AB的占10%。研究者在邻近该地区的一个山区人群中进行一个血型的流行病调查,在该山区人群中随机抽样调查了200人,检测这些对象的血型,表11-1给出了血型检测的结果。问该山区人群与这个地区人群的血型分布是否一致? 表11-1 山区人群血型抽样调查结果 血型O A B AB 合计 人数50 70 50 30 200 例11-2 某研究小组为研究慢支口服液II号对慢性支气管炎治疗效果,以口服消咳喘为对照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程2周,疗效见表11-3。问慢支口服液II号与消咳喘治疗慢性支气管炎的疗效是否相同? 表11-3 试验组与对照组疗效 组别有效无效合计有效率(%)试验组116 4 120 96.67 对照组82 35 117 70.09 合计198 39 237 83.54

1.建立检验假设,确定检验水准 0H :21ππ=,即两种药物治疗慢性支气管炎的疗效相同 1H :21ππ≠,即两种药物治疗慢性支气管炎的疗效不同 05.0=α 结果: Pearson chi2(1) = 30.4463 Pr = 0.000,05.0

绝0H ,差别有统计学意义,可认为慢支口服液II 号治疗慢性支气管炎有效率高于消咳喘。 例11-3 为评价中西结合治疗抑郁发作的疗效。将187例患者随机分为2组,两组患者均选用阿咪替林西医综合治疗,中西医结合组在上述治疗的同时,再配合中医辨证治疗,根据中医辨证分型采用不同的方剂,治疗结果见表11-5,问两种治疗方案的疗效有无差别? 表11-5 试验组与对照组疗效 组别 有效 无效 合计 有效率(%) 中西医结合组 92(88.973) 2(5.027) 94 97.87 西医组 85(88.027) 8(4.973) 93 91.40 注 ;括号内为理论频数 例11-3 假设检验步骤 1.建立检验假设,确定检验水准 0H :21ππ=,即两种治疗方案疗效相同 1H :21ππ≠,即两种治疗方案疗效不同 05.0=α Stata 命令: 结果:

第十一章 分类资料的回归分析

第十一章分类资料的回归分析 ――Regression菜单详解(下) (医学统计之星:张文彤) 上次更新日期: 10.1 Linear过程 10.1.1 简单操作入门 10.1.1.1 界面详解 10.1.1.2 输出结果解释 10.1.2 复杂实例操作 10.1.2.1 分析实例 10.1.2.2 结果解释 10.2 Curve Estimation过程 10.2.1 界面详解 10.2.2 实例操作 10.3 Binary Logistic过程 10.3.1 界面详解与实例 10.3.2 结果解释 10.3.3 模型的进一步优化与简单诊断 10.3.3.1 模型的进一步优化 10.3.3.2 模型的简单诊断 在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行,我们的老祖先--类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上... 我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代,只不过是我开机准备写这一部分的时候,心里忽然想到,在10年前,国内的统计学应用上还是卡方检验横行,分层的M-H卡方简直就是超级武器,在流行病学中称王称霸,更有那些1:M的配对卡方,N:M的配对卡方,含失访数据的N:M 配对卡方之类的,简直象恐龙一般,搞得我头都大了。其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐龙完全统制地球,Logistic模型就已经飞速进化到了现代人的阶段,各种各样的Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。 特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。

统计学教案习题06分类资料的统计描述

第六章 分类资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 绝对数。 2. 相对数常用指标:率、构成比、比。 3. 应用相对数的注意事项。 4. 率的标准化和动态数列常用指标:标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。 (二)熟悉内容 1. 标准化率的计算。 2. 动态数列及其分析指标。 二、教学内容精要 (一) 绝对数 绝对数是各分类结果的合计频数,反映总量和规模。如某地的人口数、发病人数、死亡人数等。绝对数通常不能相互比较,如两地人口数不等时,不能比较两地的发病人数,而应比较两地的发病率。 (二)常用相对数的意义及计算 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数大小,如率、构成比、比等。 常用相对数的意义及计算见表6-1。 表6-1 常用相对数的意义及计算 常用相对数 概念 表示方式 计算公式 举例 率 (rate ) 又称频率指标,说明一定时期内某现象发生的频率或强度 百分率(%)、千分率 (‰)等 单位时间内的发病率、患病 率,如年(季)发病率、时 点患病率等 构成比 (proportion ) 又称构成指标,说明某一事物内部各组成 部分所占的比重或分布 百分数 疾病或死亡的顺位、位次或所占比重 比 (ratio ) 又称相对比,是A 、B 两个有关指标之 比,说明A 是B 的若干倍或百分之几 倍数或分数 ①对比指标,如男:女 =106.04:100 ②关系指标,如医护人员:病床数=1.64 ③计划完成指标,如完成计划的130.5% (三) 应用相对数时应注意的问题 1. 计算相对数的分母一般不宜过小。 2. 分析时不能以构成比代替率 容易产生的错误有 (1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率; (2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。 %100?=单位总数 可能发生某现象的观察数 发生某现象的观察单位率%100?= 观察单位总数 同一事物各组成部分的位数某一组成部分的观察单构成比B A = 比

分类资料的Logistic回归分析SPSS

S PSS 10.0高级教程十三:分类资料的Logistic回归分析 (2009-02-05 15:32:54) 转载▼ 所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。 随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。 10.3.1 界面详解与实例 例11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析(本例来自《卫生统计学》第四版第11章)。 ?i:标本序号 ?x1:确诊时患者的年龄(岁) ?x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级 ?x3:肾细胞癌组织内微血管数(MVC) ?x4:肾癌细胞核组织学分级,由低到高共4级 ?x5:肾细胞癌分期,由低到高共4期 ?y:肾细胞癌转移情况(有转移y=1; 无转移y=0)。 i x1 x2 x3 x4 x5 y 1 59 2 43.4 2 1 0 2 36 1 57.2 1 1 0 3 61 2 190 2 1 0 4 58 3 128 4 3 1 5 55 3 80 3 4 1 6 61 1 94.4 2 1 0 7 38 1 76 1 1 0 8 42 1 240 3 2 0 9 50 1 74 1 1 0 10 58 3 68.6 2 2 0 11 68 3 132.8 4 2 0 12 25 2 94.6 4 3 1 13 52 1 56 1 1 0 14 31 1 47.8 2 1 0 15 36 3 31.6 3 1 1

数据分析-分布类别

各种分布 泊松分布 Poisson分布,是一种统计与概率学里常见到的离散概率分布。 泊松分布的概率函数为: 泊松分布的参数λ是单位时间(或单位面积、单位体积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。 泊松分布的期望和方差均为 特征函数为: 泊松分布与二项分布 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。 事实上,泊松分布正是由二项分布推导而来的。 泊松分布可作为二项分布的极限而得到。一般的说,若 ,其中n很大, p很小,因而不太大时,X的分布接近于泊松分布。这个事实有时可将较难计算的二项分布转化为泊松分布去计算。 应用示例 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,某放射性物质发射出的粒子,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。 卡方分布 卡方分布( 分布)是概率论与统计学中常用的一种概率分布。n 个独立的标准

正态分布变量的平方和服从自由度为n 的卡方分布。卡方分布常用于假设检验和置信区间的计算。 若n个相互独立的随机变量ξ?、ξ?、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成 一新的随机变量,其分布规律称为卡方分布(chi-square distribution),即分布(chi-square distribution),其中参数n称为自由度。正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个分布。记为或者。 卡方分布与正态分布 卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,分布 近似为正态分布。对于任意正整数x,自由度为 k的卡方分布是一个随机变量X 的机率分布。 期望和方差 分布的均值为自由度n,记为E( ) = n。分布的方差为2倍的自由度(2n),记为D( ) = 2n。 均匀分布 均匀分布(Uniform Distribution)是概率统计中的重要分布之一。 顾名思义,均匀,表示可能性相等的含义。 (1) 如果,则称X服从离散的均匀分布。 (2) 设连续型随机变量X的概率密度函数为,则称随机变

分类资料的统计分析(doc 24页)

第十章分类资料的统计分析 A型选择题 1、下列指标不属于相对数的是() A、率 B、构成比 C、相对比 D、百分位数 E、比 2、表示某现象发生的频率或强度用 A 构成比 B 观察单位 C 相对比 D 率 E 百分比 3、下列哪种说法是错误的() A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数 B、分析大样本数据时可以构在比代替率 C、应分别将分子和分母合计求合计率或平均率 D、相对数的比较应注意其可比性 E、样本率或构成比的比较应作假设检验 4、以下哪项指标不属于相对数指标( ) A.出生率 B.某病发病率 C.某病潜伏期的百分位数 D.死因构成比 E.女婴与男婴的性别比 5、计算麻疹疫苗接种后血清检查的阳转率,分母为( ). A.麻疹易感人群 B.麻疹患者数 C.麻疹疫苗接种人数 D.麻疹疫苗接种后的阳转人数 E.年均人口数 6、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为( ).

A.该病男性易得 B.该病女性易得 C.该病男性、女性易患率相等 D.尚不能得出结论 E.以上均不对 7、某地区某重疾病在某年的发病人数为0α,以后历年为1α,2α,…,n α,则该疾病发病人数的年平均增长速度为( )。 A.1...10+++n n ααα B. 110+??n n ααα C.n n 0 α α D.n n 0 α α -1 E. 10 -a a n 8、按目前实际应用的计算公式,婴儿死亡率属于( )。 A. 相对比(比,ratio ) B. 构成比(比例,proportion ) C. 标准化率(standardized rate ) D. 率(rate ) E 、以上都不对 9、某年某地乙肝发病人数占同年传染病人数的9.8%,这种指标是 A .集中趋势 B .时点患病率 C .发病率 D .构成比 E .相对比 10、构成比: A.反映事物发生的强度 B 、反映了某一事物内部各部分与全部构成的比重 C 、既反映A 也反映B D 、表示两个同类指标的比 E 、表示某一事物在时间顺序上的排列

第七讲 无序分类资料的统计分析

无序分类资料的统计分析 分类资料又称为定性资料,其取值是定性的,表现为互不相容的类别或属性。按类别间的关系,又分为有序分类资料(即等级资料)和无序分类资料。 Stata用于处理分类资料的命令为: tabulate var1 var2 [fw=频数变量] [,选择项] 其中,var1,var2分别表示行变量和列变量 [fw=频数变量]只在变量以频数形式存放时选用 选择项常用的有: chi2 /*(Pearson) x2检验 lrchi2 /*似然比x2检验 exact /*Fisher的确切概率 cell /*打印每个格子的频数占总频数的百分比 column /*打印每个格子的频数占相应列合计的百分比 row /*打印每个格子的频数占相应行合计的百分比 nofreq /*不打印频数 以上命令可以同时选用。 分类资料的一个特点是重复数较多,一般将数据整理成频数表,但收集数据时都是未整理的原始形式,stata对这两种形式的资料都可以进行分析,所得结果相同,只是命令稍有区别。 一、两独立样本四格表资料 (一)X2检验(n>=40且各个格子的理论数T>=5) 例11-2 某研究小组为研究慢支口服液II号对慢性支气管炎治疗 效果,以口服消咳喘为对照进行了临床试验,试验组120人、对照组 117人(两组受试者病程、病情等均衡),疗程2周,疗效见表11-3。问慢支口服液II号与消咳喘治疗慢性支气管炎的疗效是否相同? 表11-3 试验组与对照组疗效 组别有效无效合计有效率(%)试验组116 4 120 96.67 对照组82 35 117 70.09 合计198 39 237 83.54

第八章 分类数据分析

第九章 列联分析 一、填空题 1、设R 为列联表的行数,C 为列联表的列数,则进行拟合优度检验时所用统计量2χ的自由度为 。 2、设0f 为列联表中观察值频数,e f 为期望值频数,则进行拟合优度检验时所用统计量2χ= 。 3、在列联分析中,观察值总数为n ,RT 为列联表中给定单元的行合计,CT 为给定单元列合计,则该给定单元频数期望值为 。 4、在列联分析中,观察值总数为500,列联表中给定单元的行合计数为140,列合计数为162,则该给定单元频数期望值为 。 5、在3×4列联分析中,统计量2 2 0()e e f f f χ-=∑(其中0f 为观测值频数,e f 为期望值频数)的自由度为____________。 6、对来自三个地区的原料质量进行检验时,先把它们分成三个等级,在随机抽取400间进行检验,经分析得知原料质量与地区之间的关系实现著的,现计算得2300χ=,则?相关系数等于 。 7、?相关系数是描述两个分类变量之间相关程度的统计量,它主要用于描述 的列联表数据。 8、若两个分类变量之间完全相关。则?相关系数的取值为 。 9、当列联表中两个变量相互独立时,计算的列联相关系数C= 。 10、利用2 χ分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数e f 不能过小,如果只有两个单元,则每个单元的期望频数必须 。 二、单项选择题 1、列联分析是利用列联表来研究( ) A 、两个分类变量的关系 B 、两个数值型变量的关系 C 、一个分类变量和一个数值型变量的关系 D 、连个数值型变量的分布 2、设R 为列联表的行数,C 为列联表的列数,则进行拟合优度检验时所用统计量2χ的自由度为( ) A 、R B 、 C C 、R ×C D 、(R-1)×(C-1) 3、若两个分类变量之间完全相关。则?相关系数的取值为( ) A 、0 B 、小于1 C 、大于1 D 、1=? 4、当列联表中两个变量相互独立时,计算的列联相关系数C ( ) A 、等于1 B 、大于1 C 、等于0 D 、小于0 5、利用2χ分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数e f 不能过小,如果只有两个单元,则每个单元的期望频数必须( ) A 、等于或大于1 B 、 C 值等于?值 C 、等于或大于5 D 、等于或大于10 6、一所大学准备采取一项学生上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男生和120名女生进行调查,得到结果如下: A 、48和39 B 、102和81 C 、15和14 D 、25和19 7、一所大学准备采取一项学生上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名

(整理)多项分类Logistic回归分析的功能与意义1.

多项分类Logistic回归分析的功能与意义 我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。 例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。

“年龄”使之进入“协变量”列表框。

还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示: 上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic 回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下: 1:设置随机抽样的随机种子,如下图所示:

选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、 2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面: 在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值 如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0" 为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件” 点击“如果”按钮,进入如下界面:

Stata基本操作和数据分析入门第11章无序分类资料的统计分析Stata实现

第十一章 无序分类资料的统计分析 本章使用的STATA 的命令: 例11-1 根据某地区的血型普查结果可知,该地区人群中血型为O 的占30%,血型为A 的占25%,血型为B 的占35%,血型为AB 的占10%。研究者在邻近该地区的一个山区人群中进行一个血型的流行病调查,在该山区人群中随机抽样调查了200人,检测这些对象的血型,表11-1给出了血型检测的结果。问该山区人群与这个地区人群的血型分布是否一致? 表11-1 山区人群血型抽样调查结果 血型 O A B AB 合计 人数 50 70 50 30 200 例11-2 某研究小组为研究慢支口服液II 号对慢性支气管炎治疗效果,以口服消咳喘为对照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程2周,疗效见表11-3。问慢支口服液II 号与消咳喘治疗慢性支气管炎的疗效是否相同? 表11-3 试验组与对照组疗效 组别 有效 无效 合计 有效率(%) 试验组 116 4 120 96.67 对照组 82 35 117 70.09 合计 198 39 237 83.54 1.建立检验假设,确定检验水准 0H :21ππ=,即两种药物治疗慢性支气管炎的疗效相同

1H :21ππ≠,即两种药物治疗慢性支气管炎的疗效不同 05.0=α 解:STATA 数据如下: STA TA 命令: 结果: Pearson chi2(1) = 30.4463 Pr = 0.000,05.0

第八讲 有序分类资料的统计分析Stata实现

第十二章有序分类资料的统计分析的 Stata 实现
本章使用的 STATA 命令: 列变量有序时的分类资料 CMH 卡方分析 双向有序时的 Spearman 相关 opartchi 行变量 [weight], by(列变量) (见 Stata7 附加程序) spearman 变量 1 变量 2
例 12-2
某研究欲观察人参的镇静作用,选取 32 只同批次的小白鼠,将其
中 20 只随机分配到人参组:以 5%人参浸液对其做腹腔注射,12 只分配到对照 组:以等量蒸馏水对其做同样注射。实验结果如表 12-2 所示。能否说明人参有 镇静作用? 表 12-2
镇静等级 ± + ++ +++
人参镇静作用的实验结果
对照组 11 0 1 0 0
人参组 4 1 2 1 12
1.建立检验假设,确定检验水准。
H 0 :人参没有镇静作用(样本来自两个相同总体)
H 1 :人参有镇静作用(样本来自两个不同总体)
? ? 0.05
Stata 数据为:
a 1 1 1 1 1 2 2 2 2 2
Stata 命令为:
b 1 2 3 4 5 1 2 3 4 5
x
4 1 2 1 12 11 0 1 0 0

opartchi b [weight=x],by(a) 结果为: Chi-square tests df Chi-square P-value Independence 4 16.64 0.0023 ------------------------------------------------------Components of independence test Location 1 15.29 0.0001 Dispersion 1 .3496 0.5543
在 ? ? 0.05 的水平上,拒绝 H 0 ,接受 H1,认为两总体之间的差别有统计学 意义, 可以认为人参组和对照组镇静等级的差别有统计学意义, 人参有镇静作用。
例 12-3
试根据表 12-4 的资料,检验针刺不同穴位的镇痛效果有无差别? 表 12-4 穴位 合谷 足三里 扶突 + 38 53 47 针刺不同穴位的镇痛效果 镇痛效果 ++ +++ 44 12 29 28 23 19 ++++ 24 16 33
1.建立检验假设,确定检验水准。
H 0 :三个穴位的镇痛效果相同
H 1 :三个穴位的镇痛效果不全相同
? ? 0.05
Stata 数据为:
group 1 1 1 1 2 2 2 2 3 3 3
effect 1 2 3 4 1 2 3 4 1 2 3
w
38 44 12 24 53 29 28 16 47 23 19

8.无序分类资料的统计推断—X2检验

8 无序分类资料的统计推断—— χ2检验 χ2检验(chi-square test )是一种用途较广的假设检验方法,这里仅介绍它在分类变量资料中的应用,检验两个或两个以上的样本率或构成比之间的差异是否有统计意义。 8.1 四格表资料的χ2检验 四格表即2 ? 2列联表,其自由度df =1,又分为一般与配对两种情形,本节介绍一般四格表的χ2检验,主要是用来推断两个总体率或构成比之间有无差别。一般四格表,①在总频数n ≥40且所有理论频数≥5时,用Pearson χ2统计量;②在总频数n ≥40且有理论频数<5但≥1时,用校正χ2统计量;③在总频数n <40或有理论频数<1时,用Fisher 精确概率法检验。计数资料的数据格式有两种,一种是频数表格式,如表8-1;一种是原始记录格式,如前面第4章统计描述中的表4-3,这两种格式在SPSS 操作时有所不同。 例8-1 欲研究内科治疗对某病急性期和慢性期的治疗效果有无不同,某医生收集了182例采用内科疗法的该病患者的资料,数据见表8-1。请分析不同病期的总体有效率有无差别? 表8-1 两种类型疾病的治疗效果 组别 有效 无效 合计 有效率(%) 急性期 69 37 106 65.1 慢性期 30 46 76 39.5 合计 99 83 182 54.4 解 这是一般四格表,012:H ππ=,即急性期和慢性期的总体有效率相同。建立3列4行的数据文件,如图8-1,其中行变量r 表示组别(值标签:1=“急性期”、2=“慢性期”),列变量c 表示疗效(值标签:1=“有效”、2=“无效”),freq 表示频数。 1.指定频数变量 选择菜单Data →Weight cases ,弹出Weight cases 对话框,见图8-2;选中Weight cases by ;在左边框中选中频数freq ,并将其送入Frequency 框中;单击OK 。 图8-1 例8.1数据文件 图8-2 Weight cases 对话框 2.进行χ2检验 选择菜单Analyze → Descriptive Statistics → Crosstabs (交叉表),弹出Crosstabs 主对话框;将组别r 送入行变量Row(s)框,将疗效c 送入列变量Column(s)框,如图8-3。

8.无序分类资料的统计推断—X2检验

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 8.无序分类资料的统计推断—X2检验 8 无序分类资料的统计推断 2 检验 2 检验(chi-square test)是一种用途较广的假设检验方法,这里仅介绍它在分类变量资料中的应用,检验两个或两个以上的样本率或构成比之间的差异是否有统计意义。 8.1 四格表资料的 2 检验四格表即列联表,其自由度 df=1,又分为一般与配对两种情形,本节介绍一般四格表的2 检验,主要是用来推断两个总体率或构成比之间有无差别。 一般四格表,①在总频数 n40 且所有理论频数5 时,用 Pearson 2 统计量;②在总频数 n40 且有理论频数<5 但1 时,用校正 2 统计量;③在总频数 n<40 或有理论频数<1 时,用 Fisher 精确概率法检验。 计数资料的数据格式有两种,一种是频数表格式,如表 8-1;一种是原始记录格式,如前面第 4 章统计描述中的表 4-3,这两种格式在 SPSS 操作时有所不同。 例例 8-1 欲研究内科治疗对某病急性期和慢性期的治疗效果有无不同,某医生收集了182 例采用内科疗法的该病患者的资料,数据见表 8-1。 请分析不同病期的总体有效率有无差别?表 8-1 两种类型疾病的治疗效果组别有效无效合计有效率(%)急性期 69 37 106 65.1 慢性期 30 46 76 39.5 合计 99 83 182 54.4 解这是一般 1 / 16

数据仓库与数据挖掘技术 第九章 聚类分析

第9章聚类分析9.1聚类概述 1. 可伸缩性 2. 处理不同类型属性的能力 3. 发现任意形状的聚类 4. 使输入参数的领域知识最小化 5. 处理噪声数据的能力 6. 对于输入记录的顺序不敏感 9.2聚类分析中的相异度计算 1. 数据矩阵(或对象与变量结构) 2. 相异度矩阵(或对象-对象结构) 1. 区间标度变量 2. 相异度计算 1. 二元变量 2. 相异度计算 1. 标称型变量 2. 相异度计算 1. 序数型变量 2. 相异度计算 1. 比例标度型变量 2. 相异度计算 9.3基于划分的聚类方法 9.4基于层次的聚类方法 1. 凝聚的方法 2. 分裂的方法

图9-1在数据集{a,b,c,d,e}上的凝聚和分裂层次聚类 9.5谱聚类方法 9.6利用SQL Server 2005进行聚类分析 图9-2选择数据挖掘技术 图9-3选择数据源视图 图9-4指定表类型 图9-5指定定型数据 图9-6指定列的内容和数据类型 图9-7完成数据挖掘结构的创建 图9-8分类剖面图 图9-9分类关系图 图9-10分类特征 图9-11分类对比 图9-12提升图 图9-13分类矩阵图 习题9 1. 简单地描述如何计算由如下类型的变量描述的对象间的相异度: (a) 数值(区间标度)变量 (b) 非对称的二元变量 (c) 分类变量 (d) 比例标度变量 (e) 非数值向量对象 2. 假设数据挖掘的任务是将如下8个点聚类为3个簇: A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C3(4,9),距离函数是欧几里得距离。假设初始选择A1,B1,C1分别为每个聚类的中心,用k-平均算法来给出: (1) 在第一次循环执行后的三个聚类中心。

图表数据信息型试题归类分析

图表数据信息型试题归类分析 湖北省公安县教研室 朱敬华 来源:2009 年上半年《试题与研究》 一、图表数据信息型试题分类 目前主要从两个方面:一是根据题解的目的要求可分为(1)探究物质的结构类;(2)测定某组分的含量类;(3)优选混和物分离方法类;(4)寻求某种性质变化规律类;(5)综合计算类等。二是依据数据的性质或数据的产生,分为(1)实测数据类。该类数据一般通过化学实验或科研方法实际测定,主要是求解物质的组成或含量,或寻求物质性质变化规律; (2)物质的溶解度或溶度积常数(Ksp )类。利用物质的溶解度不同制取新物质或分离混和物;(3)物质的熔点、沸点、密度类。探求制取物质的方案或探寻用物理方法分离物质的方法;(4)物质固有的性质数据(如键长、键能、键角、电负性、电离能等)类。这类数据题一般设计为探讨物质的性质,诸如物质的稳定性、氧化性、还原性等;(5)化学平衡与化学反应速率类。主要设计的题有比较化学反应速率快慢和化学平衡移动有关的计算和判断题; (6)数学建模类。将某组数据设计成数学计算题模式,用数学方法求解。本文摘要选析几种图表数据类信息题,供大家揣摩此题信息题的处理方法。 二、图表数据信息型试题分析法 1.流程图信息分析法 流程图题已经成为近年高考题中的主流题型,让学生了解流程图的分析方法是提高非选择题得分的必要措施。 研究近三年各种版本的的工业流程题大家可以发现,试题往往通过对某种重要化工产品的工业生产流程简图分析, 考察考生对元素周期表结构,元素化合物等的重要性质,化学反应原理、热化学方程式的含义与计算、产率计算,物质制备、提纯等常见实验操作的作用的理解与应用能力,并通过对副产物利用和废液处理的设问考察学生对环境保护意识、绿色化学知识的理解和应用,试题常以化学原理和化学实验基本操作进行综合设计和设问。 例3.聚合氯化铝是一种新型、高效絮凝剂和净水剂,其单体是液态的碱式氯化铝 [Al 2(OH)n Cl 6-n ]。 本实验采用铝盐溶液水解絮凝法制备碱式氯化铝。其制备原料为分布广、价格廉的高岭土,化学组成为:Al 2O 3(25%~34%)、SiO 2(40%~50%)、Fe 2O 3(0.5%~3.0%)以及少量杂质和水分。已知氧化铝有多种不同的结构,化学性质也有差异,且一定条件下可相互转化;高岭土中的氧化铝难溶于酸。制备碱式氯化铝的实验流程如下: 根据流程图回答下列问题: (1)“煅烧”的目的是________________。 (2)配制质量分数15%的盐酸需要200mL30%的浓盐酸(密度约为 1.15g/cm 3)和 _______g 蒸馏水,配制用到的仪器有烧杯、玻璃棒、______________。 (3)“溶解”过程中发生反应的离子方程式为__________。 (4)加少量铝粉的主要作用是_____________________ 。 Al 2(OH)n Cl 6-n

相关主题
文本预览
相关文档 最新文档