当前位置：文档之家› 统计学方法分析

统计学方法分析

一、两组或多组计量资料的比较

1.两组资料：

1)大样本资料或服从正态分布的小样本资料

(1)若方差齐性，则作成组t检验

(2)若方差不齐，则作t’检验或用成组的Wilcoxon秩和检验

2)小样本偏态分布资料，则用成组的Wilcoxon秩和检验

2.多组资料：

1)若大样本资料或服从正态分布，并且方差齐性，则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：LSD检验，Bonferroni检验等）进行两两比较。

2)如果小样本的偏态分布资料或方差不齐，则作Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：用成组的Wilcoxon秩和检验，但用Bonferroni方法校正P值等）进行两两比较。

二、分类资料的统计分析

1.单样本资料与总体比较

1)二分类资料：

(1)小样本时：用二项分布进行确切概率法检验；

(2)大样本时：用U检验。

2)多分类资料：用Pearson c2检验（又称拟合优度检验）。

2. 四格表资料

1)n>40并且所以理论数大于5，则用Pearson c2

2)n>40并且所以理论数大于1并且至少存在一个理论数<5，则用校正c2或用Fisher’s 确切概率法检验

3)n￡40或存在理论数<1，则用Fisher’s 检验

3. 2×C表资料的统计分析

1)列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则行评分的CMH c2或成组的Wilcoxon秩和检验

2)列变量为效应指标并且为二分类，列变量为有序多分类变量，则用趋势c2检验

3)行变量和列变量均为无序分类变量

(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%，则用Pearson c2

(2)n￡40或理论数小于5的格子数>行列表中格子总数的25%，则用Fisher’s 确切概率法检验

4. R×C表资料的统计分析

1)列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则CMH c2或Kruskal Wallis的秩和检验

2)列变量为效应指标，并且为无序多分类变量，行变量为有序多分类变量，作none zero correlation analysis的CMH c2

3)列变量和行变量均为有序多分类变量，可以作Spearman相关分析

4)列变量和行变量均为无序多分类变量，

(1)n>40并且理论数小于5的格子数<行列表中格子总数的25%，则用Pearson c2

(2)n￡40或理论数小于5的格子数>行列表中格子总数的25%，则用Fisher’s 确切概率法检验

三、Poisson分布资料

1.单样本资料与总体比较：

1)观察值较小时：用确切概率法进行检验。

2)观察值较大时：用正态近似的U检验。

2.两个样本比较：用正态近似的U检验。

配对设计或随机区组设计四、两组或多组计量资料的比较

1.两组资料：

1)大样本资料或配对差值服从正态分布的小样本资料，作配对t检验

2)小样本并且差值呈偏态分布资料，则用Wilcoxon的符号配对秩检验

2.多组资料：

1)若大样本资料或残差服从正态分布，并且方差齐性，则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：LSD检验，Bonferroni检验等）进行两两比较。

2)如果小样本时，差值呈偏态分布资料或方差不齐，则作Fredman的统计检验。如果Fredman 的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：用Wilcoxon的符号配对秩检验，但用Bonferroni方法校正P值等）进行两两比较。

五、分类资料的统计分析

1.四格表资料

1)b+c>40，则用McNemar配对c2检验或配对边际c2检验

2)b+c￡40，则用二项分布确切概率法检验

×C表资料：

1)配对比较：用McNemar配对c2检验或配对边际c2检验

2)一致性问题（Agreement）：用Kap检验

变量之间的关联性分析六、两个变量之间的关联性分析

1.两个变量均为连续型变量

1)小样本并且两个变量服从双正态分布，则用Pearson相关系数做统计分析

2)大样本或两个变量不服从双正态分布，则用Spearman相关系数进行统计分析

2.两个变量均为有序分类变量，可以用Spearman相关系数进行统计分析

3.一个变量为有序分类变量，另一个变量为连续型变量，可以用Spearman相关系数进行统计分析

七、回归分析

1.直线回归：如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，则直线回归（单个自变量的线性回归，称为简单回归），否则应作适当的变换，使其满足上述条件。

2.多重线性回归：应变量（Y）为连续型变量（即计量资料），自变量（X1，X2，…，Xp）可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，可以作多重线性回归。

1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素

2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用

3.二分类的Logistic回归：应变量为二分类变量，自变量（X1，X2，…，Xp）可以为连续型变量、有序分类变量或二分类变量。

1)非配对的情况：用非条件Logistic回归

(1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素

(2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用

2)配对的情况：用条件Logistic回归

(1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素

(2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用

4.有序多分类有序的Logistic回归：应变量为有序多分类变量，自变量（X1，X2，…，Xp）可以为连续型变量、有序分类变量或二分类变量。

1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素

2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用

5.无序多分类有序的Logistic回归：应变量为无序多分类变量，自变量（X1，X2，…，Xp）可以为连续型变量、有序分类变量或二分类变量。

1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素

2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用

应用统计学试题和答案分析

六、计算题：（要求写出计算公式、过程，结果保留两位小数，共4题，每题10分） 1、某快餐店对顾客的平均花费进行抽样调查，随机抽取了49名顾客构成一个简单随机样本，调查结果为：样本平均花费为元，标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间；（φ（2）=）49=n 是大样本，由中心极限定理知，样本均值的极限分布为正态分布，故可用正态分布对总体均值进行区间估计。已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据，得该快餐店顾客的总体平均花费数额%的置信区间为（，） 3 要求：①、利用最小二乘法求出估计的回归方程；②、计算判定系数R 。附：10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题解 ① 计算估计的回归方程： ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为：y ) =+x ② 计算判定系数： 4 计算下列指数：①拉氏加权产量指数；②帕氏单位成本总指数。 4题解： ① 拉氏加权产量指数

= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题（每小题1分，共10题） 1、我国人口普查的调查对象是，调查单位是。 2、___ 频数密度 =频数÷组距，它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用饼图条图图来显示。 4、某百货公司连续几天的销售额如下：257、276、297、252、238、310、240、236、265，则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元，2005年3季度完成的GDP=36亿元，则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%，职工人数增加了2%，则该企业工资总额增长了 % 。 7、对回归系数的显着性检验，通常采用的是 t 检验。 8、设置信水平=1-α，检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲＞σ乙，x 甲＞x 乙，由此可推断 ( )