3资料的性质统计表与统计图
- 格式:docx
- 大小:1.99 MB
- 文档页数:9
资料性质、统计表与统计图医学统计教研室柳伟伟讲师一、概述总体根据研究目的确定的同质观察单位的全体同质的所有观察单位某种观察值的集合研究目的了解某地2002年全体正常18岁男子身高情况总体该地2002年全体正常18岁男子身高值观测单位每个正常18岁男子观测值正常18岁男子身高值样本:从总体中随机抽取部分观察单位,其实测值的集合抽样研究:从总体中抽取样本,根据样本信息推断总体特征抽样:从总体中随机抽取部分观察单位的过程,应遵循随机化的原则变量:总体确定后,对每个观察单位的某项特征进行测量和观察,这种特征,能表现观察单位的变异性资料:对变量的测得值称为变量值,或观测值,由变量值构成资料二、资料性质:传统划分法现代划分法统计资料传统划分方法:计量资料计数资料等级资料计量资料:又称定量资料或数值变量资料测定每个观察单位某项指标量的大小而获得的资料。
例如测得正常成年男子身高(cm)、体重(kg)、血红蛋白(g/L)其变量值是定量的,表现为数值大小,一般有度量衡单位计数资料:又称定性资料或无序分类变量资料将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料其变量值是定性的,表现为互不相容的属性或类别分为二分类和多分类两种情形等级资料又称半定量资料或有序分类变量资料将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料其变量值具有半定量性质,表现为等级大小或属性程度统计资料现代划分方法计数资料定量资料计量资料二值资料定性资料多值名义资料多值有序资料定量资料:测定每个观察单位某项指标量的大小计量资料:指标的取值可以带度量衡单位,甚至可以带小数的定量资料。
例如测得正常成年男子身高(cm)、体重(kg) 、血红蛋白(g/L)计数资料:指标的取值可以带度量衡单位,只能取整数,通常为正整数。
例如测得正常成年男子脉搏数(次/min)、引体向上的次数(次/min)定性资料:观测每个观察单位某项指标质的状况二值资料:观测值只有对立的两种结果多值名义资料:指标质的不同状况之间在本质上无数量大小或先后顺序之分。
例如血型(A型、B型、AB型、O型)、职业(工人、农民、知识分子)多值有序资料:指标质的不同状况(状态个数3)之间在本质上有数量大小或有先后顺序之分。
例如疗效(治愈、显效、好转、无效)识别资料类型的要领看从每一个体上测得的结果看变量、取值及其专业含义资料类型识别中常见错误:将一切“百分比”或“百分率”资料视为定性资料将形式上的数字当作准确测量所得的数值,如用1和0分别表示阳性和阴性结果,然后对含有多个1和0的一串数进行各种运算,如求平均值和标准差收集到某医院1994-1997年送检的血管瘤手术标本存档蜡块107例。
其中毛细血管瘤45例……正常小儿皮肤对照6例。
高倍镜下每例肿瘤区内计数500个细胞,计数雌激素受体和孕激素受体阳性细胞的百分率。
数据如表2所错误辨析:高倍镜下每例肿瘤区内计数500个细胞,计数ER和PR阳性细胞的百分率,从每一个个体的标本上都可以测得1个ER阳性细胞百分率和1个PR阳性细胞百分率,这两个百分率都是表现为量的大小,故ER百分率和PR百分率两个结果变量都是定量的各类资料间的转化在资料分析过程中根据需要在有关专业理论指导下,各类资料间可以相互转化将定量资料转化为定性资料较为容易,在研究设计时,对于能测量的指标应尽可能设计为定量指标三、统计表定义:表达统计分析结果的表格称为统计表。
凡是由“文字、数字、线条”等组合而成的信息集合,都可统称为统计表作用:展示统计数据的结构、分布和主要特征。
它可以避免冗长的文字叙述,使要表达的内容中心突出、简单明了,便于直观分析和比较标题:相当于文章的题目,位于统计表的上方中央。
应当提纲挈领、中心突出。
必要时需注明资料的地点和时间标目:可分为横标目、纵标目,必要时需给出总的纵标目。
横标目与纵标目分别说明每行与每列数字的含义。
总的纵标目则常常是关于表体中数据的专业含义的解释性术语线条:最基本的线有三条,即顶线、底线以及纵标目与表体之间的分割线。
顶线和底线一般采用较粗的横线(如磅),其它线则采用常规线条(磅)当同时存在纵标目与总纵标目时,二者之间可用一条辅线隔开。
各组数字与“合计”数字之间也要有辅线隔开统计表内不能有竖线数字:用阿拉伯数字表示。
表内一般不留空格。
若数字为零用“0”表示,无数字用“-”表示,缺失值用“…”表示备注:不是统计表的必要构成成分,表中数字区不要插入文字,也不列备注项。
必须说明者标“﹡”号,在表下方说明统计表的编制原则简单明了。
一张统计表最好只表达一个中心内容,不要很多内容堆在一起分组标志清晰。
一般情况下,把统计表的“原因变量”放在表的左侧,作为横标目;把统计表的“结果变量”放在表的右上侧,作为纵标目统计表的分类根据统计表中所包含分组变量的个数分为:简单表、复合表根据表中所表达的资料的性质分为:频数分布表、简化形式的定量资料统计表、列联表频数分布表将变量值划分为若干个组段,清点并记录各组段变量值的个数,绘制成统计表,称为频数表编制频数表的步骤1.求极差:也称全距(Range)R=最大值-最小值=确定组段数(取10-15组)和组距:组距(i)=全距∕组段数=∕10=≈3.写出组段:起始组段取小于或等于最小值的数,最后组段包含最大值4.分组划计并统计频数频数表的用途1.描述频数分布的类型对称分布正(右)偏态分布、负(左)偏态分布2.描述频数分布特征变异范围、统计分布规律(对称性、集中位置、在各组段出现的频率等)3.便于发现资料中的可疑值4.便于进一步做统计分析和处理简化形式的定量资料统计表实验研究中,往往需要按照原因(称为因素)的多种状态(称为水平)进行分组实验,而每组中又往往包含多个受试对象,从每个受试对象个体上均可获得某定量观测指标的具体数值在进行统计分析时,需要用到所有的数据,而在资料表达时,为节省版面,则只能给出各组的均值和标准差,即只能给出简化形式的定量资料统计表统计表常见错误辨析线条过多纵横标目颠倒同一张表中的内容过多数据含义不清四、统计图统计图是表达统计资料很重要的方式之一。
它用“点、线、面、体”等几何元素组合成图形,形象生动地表达事物或现象的数量大小或变化趋势(图略)统计图的种类表达离散资料的统计图有单式条图、复式条图、百分条图、构成图、圆图等表达连续资料的统计图有盒须图、直方图、多边图、散点图、线图等表达事物或现象在区域或空间上分布情况的统计图有统计地图、曲面图等统计图的绘制要领要根据资料的性质选用相应的统计图要确保坐标轴上所标的刻度符合数学原则,如果采用的是普通算术尺度,同一个坐标轴上等长的线段所代表的数量应该相等如果实际资料不是从“0”开始,通常最小的数值比“0”大很多,此时,在坐标轴上标刻度可采取两种补救的办法:其一,在坐标原点“0”与最小值之间画“/ /”将其断开,表明其间省略了一块区域;其二,用一个矩形将图形部分圈起来,表明它是一个“图域”,而不是一个严格的直角坐标系条图定义:用若干个细长的矩形条的高度来表达各组数量大小的图形应用场合:适合用来表达定性变量各水平组中的数量大小。
这种定性变量通常是名义变量,即对各组在横轴上被放置的前后顺序没有严格要求条图分类单式条图:横轴上只有一个定性变量,图中有多少个长条,就表明该定性变量有多少个水平复式条图:横轴上有两个或多个定性变量,图中有多少个长条,就表明这些定性变量有多少种水平组合百分条图(以下图略)定义:将一个长条的总长度视为100%,根据整体中各部分所占的百分比,将它们依次在长条上表示出来,称为百分条图应用场合:百分条图通常反映局部与整体之间的关系,要求各项之间彼此是有联系的,且各项百分数之和为100%圆图定义:是百分条图的另一种表现形式,是用圆的各扇面的面积(严格地说,是依据圆心角的大小)来表示各组数量的大小应用场合:通常用于反映局部与整体之间的数量关系,因此,通常用相对数作为统计指标来绘制圆图,而且,要求各组之合计必须为100%。
绘图时,所用的观测指标必须是相对数箱式图或盒须图适于粗略表达一组定量资料的分布情况,特别是多组数据分布的比较它将全部数据中居中的50%的数据所在的范围用一个长方形表示出来,较小和较大的数据所在的范围将各用一根线表示出来直方图适用于表达一组定量资料的频数分布情况把用频数分布表表达的资料用图形方式显示出来,使各组段上的频数分布情况一目了然它是用各组段上小长方形的面积来表示频数。
因此,绘图时,纵轴上数据的单位应理解为(1/组距)。
这样一来,各组段上以“1/组距”为单位的频数乘以组距,在数值上正好等于该组段上的频数。
既保证了绘图上的方便,又保证了直方图用“面积”表示频数的要求散点图也叫散布图。
适用于表达两个在专业上有联系的定量指标同时变化的趋势如测定了一组正常成年男子的身高和体重数据,就可以通过绘制散布图来了解这两个定量指标之间是否存在某种关系(直线趋势、曲线趋势或无关)线图定义:设(ti,yi)代表某种事物或现象在时刻ti的取值为yi,则将各点按时间先后顺序依次用线段连接起来,所形成的折线就称为线图应用场合:适于表达某种事物或现象随时间推移的变化幅度和速度线图分类普通线图:纵、横轴上都使用算术尺度的线图,称为普通线图,简称线图。
它实际上反映的是事物或现象随时间推移的变化幅度,即一组数据中最大值与最小值之差量半对数线图:纵、横轴上有一个使用算术尺度、另一个使用对数尺度的线图,称为半对数线图。
它实际上反映的是事物或现象随时间推移的变化速度,即一组数据中最大值与最小值之商应用线图的注意事项当图中有两条或多条折线时,通常人们关心的是哪一条折线随着时间的推移,变化得快一些。
因此,为了使图形反映的情况与人们期望得到的结果相吻合,当图中有两条或多条折线时,绘制半对数线图为宜P-P图和Q-Q图P-P图(Probability-probability plot):将定量指标的观测值按由小到大的顺序排列,然后计算其实际累积频率,以实际累积频率对被检验分布(例如正态分布)的理论累积频率作图,称为P-P图。
若原资料确实服从假定的概率分布,那么,图形大体上将呈直线Q-Q图(Quantile-Quantile plot):将定量指标的观测值按由小到大的顺序排列,以实际观测值对被检验分布(例如正态分布)的理论分位数作图,称为Q-Q图。
若原资料确实服从假定的概率分布,那么,图形大体上将呈直线统计图常见错误用最简单的条图表达各种各样的资料,尤其是运用条图表达连续性资料,这就割裂了数据之间的内在联系在坐标轴上随意标刻度,严重违背数学原则误用复式条图表达适合用线图表达的资料论文《硝苯地平对牙龈成纤维细胞增值和DNA合成的影响》中有下页所示统计图。