分类变量的统计描述
- 格式:ppt
- 大小:455.00 KB
- 文档页数:17
第三单元3分类变量的统计分析一、分类变量的描述统计分析分类变量的描述统计分析主要包括频数分布、频率分布和柱状图等。
1.频数分布频数(frequency)是每个类别在样本或总体中的出现次数。
频数分布(frequency distribution)是指将各个类别的频数按照从小到大的顺序列出,以显示它们的分布情况。
频数分布可以通过计算或绘制柱状图来展示。
2.百分比分布百分比(percentage)是每个类别频数与总频数的比例。
百分比分布(percentage distribution)是指将各个类别的百分比按照从小到大的顺序列出,以显示它们的分布情况。
百分比分布可以通过计算或绘制饼状图来展示。
3.柱状图柱状图(bar chart)是一种常用的展示分类变量分布情况的图形。
在柱状图中,每个类别在x轴上对应一个竖直的条形,条形的高度表示该类别的频数或百分比。
柱状图不仅可以展示各个类别的分布情况,还可以进行不同类别之间的比较。
二、分类变量的关联性分析分类变量的关联性分析可以帮助我们了解两个或多个分类变量之间的相关性。
其中常用的关联性分析方法包括卡方检验和列联表分析。
1.卡方检验卡方检验(chi-square test)是一种非参数统计方法,用于检验两个分类变量之间是否存在相关性。
卡方检验的原假设是两个变量独立无关,备择假设是两个变量相关。
通过计算卡方统计量和对应的P值,可以判断两个变量之间的关联性。
2.列联表分析列联表(contingency table)是用来描述两个或多个分类变量之间关系的表格。
通过计算每个类别的频数或百分比,并绘制列联表的热图或堆积图,可以直观地展示两个变量的关联性。
此外,通过计算列联表的卡方值和判断显著性水平,还可以进行进一步的关联性分析。
三、分类变量的预测分析分类变量的预测分析可以帮助我们根据已有数据对未知数据进行分类。
其中常用的预测分析方法包括逻辑回归和决策树。
1.逻辑回归逻辑回归(logistic regression)是一种用于建立分类模型的统计学方法。
描述分类变量资料的主要统计指标在描述统计中,经常要描述两个变量之间的关系,这就是指标。
描述分类变量资料的主要统计指标有:平均数(AV)、中位数(median)、众数(major)、方差(F)、标准差(SD)、相关系数(r)、误差(SEM)、信赖区间(CI)、 F统计值等。
一、全距n。
平均数在统计学上指全部观察单位的算术平均数,即众数、中位数和方差的算术平均数。
它反映了各个变量在总体中所占的比例。
用公式表示为n=AV。
例如:成人牙齿脱落率调查,共调查成人2046人,其中有根以上完全不能保留者占4.5%,按标准脱落百分数计算,每根牙齿应脱落2%。
则该项调查结果的全距是2.5%。
全距愈小说明变量在总体中所占的比例愈大,代表性愈强。
二、方差 1。
方差又称离散系数或变异系数。
由于各个观察单位所得的资料是来自不同的变量,因而这些资料都是不可比的。
但在抽样调查时,要使各个单位取得同样的结论,在对总体进行分析时,就必须把各单位的观察结果加以平均化,从而消除了由于来源不同引起的资料不可比问题,并使各单位的离散状况趋于一致。
这就需要用变异系数将各单位的资料加以平均,使其成为总体的平均资料。
因此,方差就是各个单位的变异程度的一种度量。
方差的符号是σ,单位是标准差(SD)。
2。
标准差的计算公式为:SD=∑[(X-Y)÷2]×100%。
式中SD表示标准差。
标准差的大小是随研究的目的而异的,通常用于某些问题的检验或推断。
如:某县的全年工业总产值的多少与全年粮食总产量的多少成正比;销售额的增长速度快慢与企业利润成正比。
对于全距,方差,标准差,原因,方差是概率统计的专有名词。
在实际工作中,我们通常简单地用:均数×方差=总体标准差(均值×方差=总体方差),来概括变量之间的关系。
当然,我们在阅读统计资料时,有时也会碰到一些专门用语,如果只看题目或只看这些专门用语,也很难理解题意,但只要知道它们的含义就行了。
实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。
变量值是定量的,有单位的,表示为数值的大小。
¾无序分类资料:又称为计数资料。
变量值是定性的,没有单位,表示为相互独立的类别。
¾有序分类资料:又称为等级资料。
变量值是定性的,没有单位,各类别具有程度上的差异。
注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。
一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。
离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。
反映了数据的离散程度或者变异程度。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。
常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。
负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。
一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。