统计学中各统计方法及资料介绍与比较

  • 格式:wps
  • 大小:402.08 KB
  • 文档页数:33

下载文档原格式

  / 33
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、统计学资料的类型?

计量资料(measurement data):对每个观察单位某个变量用测量或其他定量方法获得的定量观察结果,一般有计量单位。

计数资料(count data):将观察单位按某种属性分组计数的定性观察结果。(计数资料的变量值是定性的,表现为互不相容的属性或类别,可分为二分类和多分类两种情形。)

等级资料(ordinal data):将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果。(等级资料具有半定量性质,表现为等级大小或者某种属性的程度。)

二、计量资料的统计学描述指标有哪些?

1、集中趋势的描述:

算术均数(arithmetic mean,简称均数,mean):各观察值之和除

以观察值的个数。总体均数用希腊字母μ表示,样本均数表示(适

X

于对称分布资料)。

几何均数(geometric mean):n个观察值乘积的n次方根。几何均数用G表示(适于取对数后近似呈对称分布的资料)。

中位数(median ):按大小顺序排列的一个变量的所有观察值中,位于正中间的那个数值或位于正中间的两个数值的平均数叫中位数。中位数用M表示(适于各种分布类型的资料,尤其是数据中有极端值,含有不确定的数值,偏态分布资料或分布类型未知时采用中位数)。众数(mode):指一组观察值中出现次数最多的那个数值(可能有多个也可能没有)。

2、离散趋势的描述:全距、四分位数间距、方差、标准差、变异系数

全距(range,R):全距也称极差,是一组数据的最大值与最小值的差值,是最简单的描述离散趋势的指标,而且可用于各种分布类型的资料(稳定性较差,不太直接使用全距描述资料的离散趋势)。

四分位数间距(Quartile Range):

1、分位数(quantile):是介于最大值和最小值之间的一个数值,它使得变量的一部分观察值小于或等于它,另一部分观察值大于或等于它。两个分位数之间的距离可以用来描述数据的离散程度。

2、百分位数(percentile):百分位数是一个位置指标,用Xp%表示。对于样本来说,它表示在按照升序排列的数列中,其左侧(小于或等于Xp%侧)的观察值个数在不包括Xp%的全部观察值中所占百分比为p%,其右侧(大于或等于Xp%侧)的观察值个数在不包括Xp%的全部观察值中所占比例为1-p%。

3、四分位数(quartile,Q):是把全部变量值分为4部分的分位数。

4、四分位数间距(Quartile Range,Q):指第1,3四分位数之差,即:Q=Q3-Q1=X75%-X25% 。常和中位数结合描述偏态分布资料资料的分布特征。

方差(variance) :离均差平方和的平均值,又称均方(MS)。(离均差指每一个观察值与均数的差,反映所有观察值的变异程度。)总体方差用σ2表示,样本方差用S2表示。

标准差(standard deviation,SD):标准差是方差的算术平方根。

总体标准差用σ表示,样本标准差用S 表示 。

变异系数(coefficient of variation ,CV) :

计算公式:

用途:

比较单位不同的两组或多组资料的离散程度。

比较均数差别较大的两组或多组资料间的离散程度。 三、正态性检验的方法有几种?

分两大类:一是图示法,二是计算法。

图示法:

频率-频率图(proportion-proportion plot,p-p plot )是以实际观测值的累积频率(X )对被检验分布的理论或期望累积频率(Y )作图。

分位数-分位数图(quantile-quantile plot ,Q-Q plot):是以实际观测值的分位数(X )对被检验分布的理论或期望分数(Y )作图。

计算法:

实际获得的数据,其分布往往未知。在数据分析中,经常要判断一组数据的分布是否来自某一特定的分布,比如对于连续性分布,常判断数据是否来自正态分布,而对于离散分布来说,常判断是否来自二项分布.泊松分布,或判断实际观测与期望数是否一致,然后才运用相应的统计方法进行分析。以下是几种正态性检验方法与比较。 100%

S C V X =⨯

一、2χ拟合优度检验:

(1)当总体分布未知,由样本检验总体分布是否与某一理论分布一致。

H0: 总体X 的分布列为p{X=xi}=pi,i=1,2,……

H1:总体 X 的分布不为pi

构造统计量

2χ=21k

i n fi pi pi n =⎛⎫- ⎪⎝⎭∑

=()21k i fi npi npi =-∑

其中fi 为样本中Ai 发生的实际频数,npi 为H0为真时Ai 发生的理论频数。

(2)检验原理

若2χ=0,则fi=npi,意味着对于Ai ,观测频数与期望频数完全一致,即完全拟合。

观察频数与期望频数越接近,则2χ

值越小。

当原假设为真时,有大数定理,fi n

与pi 不应有较大差异,即2χ值应较小。

若2χ值过大,则怀疑原假设。

拒绝域为R={2χ>=d} ,判断统计量是否落入拒绝域,得出结论。

二、Kolmogorov-Smirnov 正态性检验:

Kolmogorov-Smirnov 检验法是检验单一样本是否来自某一特定分布。比如检验一组数据是否为正态分布。它的检验方法是以样本数据的累积频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自某特定分布族。即对于假设检验问题:

H0:样本所来自的总体分布服从某特定分布

H1:样本所来自的总体分布不服从某特定分布

统计原理:Fo (x )表示分布的分布函数,Fn (x )表示一组随机样本的累计概率函数。

设D 为Fo(x)与Fn (x )差距的最大值,定义如下式:

D=max/Fn(x)-Fo(x)/

对于给定的a ,P{Dn>d}=a,其中P{Dn>d}=a

结论:当实际观测D>Dn,则接受H1,反之则不拒绝H0假设。 *2χ

拟合优度检验与K-S 正态检验的比较: 2χ拟合优度检验与K-S 正态检验都采用实际频数与期望频数进行检验。他们之间最大的不同在于前者主要用于类别数据,而后者主要用于有计量单位的连续和定量数据,拟合优度检验虽然也可以用于定量数据,但必须先将数据分组才能获得实际的观测数据,而K-S 正态检验法可以把原始数据的n 个观测值进行检验,所以它对数据的利用较完整。

#

{,1,2,,}()i n x x i n F x n

≤==