SAS基本统计量及ttest检验
- 格式:docx
- 大小:79.67 KB
- 文档页数:8
[SAS] PROC TTEST 基本款使用(revised990614)好一陣子還沒補實習課的教材,在介紹下周內容前先補已經上過的PROC TTEST因為帶的課是初等統計學,因此讀者若想學到比較艱難的部分,可能要等之後~就大學部初等統計學而言,會學到的主要有以下三種t testt test (PROC TTEST):∙One sample t test∙Two sample t test →Paired t test、Indepedent two sample t testt test常用在檢定一組或兩組平均值是否相同,並以一個範例作說明。
一組獨立樣本t檢定(one sample t test):問題:衛生人員在速食店隨機抽查食物內的防腐劑,總共抽五個產品(防腐劑含量單位ppm),想要了解這些產品的防腐劑含量是否高於3ppm。
先複習有關假設檢定,看到研究題目先以該問題思考假設如何設定、單尾或雙尾、接著計算統計量、下結論。
以此範例而言,問題為「含量是否高於3ppm」,有念書的學生應該會馬上頓悟:單尾!通常one sample t test會有一個比較的數值,如同此範例的「含量是否高於3ppm」或是「全校女生體重為50公斤、抽到某班女生的體重是否有代表性」等SAS的程式指令如下:PROC TTEST DATA=ppm3 H0=3; /*除了PROC TTEST之外,由於是檢定是否高於3,因此要設立H0(零,不是英文字母o)*/VAR ppm; /*告訴SAS現在欲檢定的變項為ppm*/RUN;輕鬆完成SAS程式編輯,接著看output主授老師很強調SAS報表解讀,因此我將對此output作詳細說明,後面兩款t test的output解讀可以依樣畫葫蘆!∙N: 樣本數,從這裡可以確認是否有讀錯dataset∙Mean: 平均數,即變項food的五個數值平均數(單位ppm)∙Std Dev: 變項food的標準差∙Std Err: 樣本平均數估計的標準差,即標準誤,也就是如果我們可以重複抽樣本上百次,可以期待平均數的標準差接近標準誤∙95% CL Mean: 平均數的信賴上下界∙95% CL Std Dev: 標準差的信賴上下界∙DF: 自由度,即樣本數減1∙T value: Student t-statistic的統計量∙Pr > |t|: 利用t分布所抓出來的雙尾機率,(附註:For a one-tailed test, halve this probability)兩組獨立樣本t檢定(two indepedent sample t test):透過兩組獨立樣本t檢定,可以比較兩組的平均值是否有差異如男女生身高是否不同?台大生X組與流X組英文成績是否不同?以下介紹範例問題:痛風病人與正常人血中尿酸量(變項value)是否不同?PROC TTEST DATA=gout;CLASS group; /*告知SAS分組變項為何*/VAR value; /*欲檢定的變項,如尿酸量的變項為何*/RUN;不同於one sample t test,檢定獨立樣本兩組是否有差多了CLASS指令需要設定報表如下:報表顯然比上者大上許多,但是無須害怕。
《统计计算》第一次上机练习学号:6 姓名:何斌年级专业: 10级统计1班指导老师:肖莉1、以下数据是变量X和Y的34次观测值:X Y X Y X Y X Y180 200 116 100 145 165 115 120104 100 123 110 141 135 191 205134 135 151 180 144 160 190 220141 125 110 130 190 190 153 145204 235 108 110 190 210 155 160150 170 158 130 161 145 177 185121 125 107 115 165 195 177 205151 135 180 240 154 150 143 160147 155 127 135(1)分别画变量X和Y的等距频率直方图;(2)分别检验变量X和Y的观测数据是否可以认为来自正态总体;(3)计算变量X和Y的描述统计量(样本均值、样本方差、中位数、众数、标准偏度系数和标准峰度系数)。
1.解答如下:(1)SAS程序如下所示:data xy;input x y@@;cards;180 200 116 100 145 165 115 120104 100 123 110 141 135 191 205134 135 151 180 144 160 190 220141 125 110 130 190 190 153 145204 235 108 110 190 210 155 160150 170 158 130 161 145 177 185121 125 107 115 165 195 177 205151 135 180 240 154 150 143 160147 155 127 135;run;proc print;run;proc gchart data=xy;vbar x y/type=percent;run;得到结果如下所示:图1变量X的等距频率直方图图2 变量Y的等距频率直方图(2)SAS程序如下所示:proc univariate data=xy normal;var x y;run;得到结果如下所示:图3 对变量X的正态性检验结果由图3的检验结果可知,P值>0.05,故接受原假设,即认为变量X服从正态分布.图4 对变量Y的正态性检验结果由图4的检验结果可知,P值>0.05,故接受原假设,即认为变量Y服从正态分布.(3)SAS程序如下所示:proc univariate data=xy ;var x y;output out=XY_Tongjiliangmean=mean_X mean_Y var=Var_X Var_Y median=median_X median_Ymode=mode_X mode_Y skewness=S_X S_Y kurtosis=K_X K_Y ;run;proc print data=XY_Tongjiliang;run;得到结果如下所示:图5 变量X、Y的各统计量指标值2、已知一数据集SCORE中的数据如下:no sex math phy eng9901 F 98 93 919902 M 86 82 859903 M 87 94 659904 F 89 90 789905 F 96 98 829906 M 92 87 89(1)产生一新数据集NEWSCORE,将该数据集存入d:\example下,且转换为文本文件。
4.2 统计检验的基本原理与方法4.2.1 假设检验的基本概念1.问题的提出2.假设检验的步骤一个完整的假设检验过程,通常包括以下四个步骤:1)提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis);2)确定适当的检验统计量并计算检验统计量的值;3)规定显著性水平α;4)做出统计决策。
3.统计学上的四类错误4.p值的进一步说明5.实际显著性性和常识进行综合考虑,作出最后的判断。
6.关于实际显著性和统计显著性的重要一点7. 参数方法与非参数方法4.2.2 样本平均数的检验——u检验与t检验SAS程序Ttest4_1.sas查看t检验输出结果和方法:t检验时SAS系统输出是按照①②③顺序,进行结论分析应按照③②①倒序查看。
先看③,判断数据是否来自同一方差总体,如果Pr>F的值大于0.05,说明来自同一方差总体,可以使用t检验方法进行分析,否则应采用非参数检验。
然后看②中的Equal一行,判断两组均值是否相等,如果不等且Pr>F值小于0.05,说明两组均值有显著差异,否则无差异。
然后查看①中Mean列,根据专业知识及两组均值的大小,判断是大的好还是小的好。
例4.2 将20个样本随机分为两组,分别用两种培养基进行培养试验,测得有效成份如下,问两组的平均值有无差别。
treat1:a培养基(11)10,20,40,40,40,80,80,160,160,160,320treat2:b培养基(9人)10,10,10,20,20,20,20,40,40Ho:两组均值相等μ1=μ2 ,Ha:两组均值不等μ1≠μ2 ,显著水平α=0.05 。
由于数据面倍数关系,所以先将两组数据分别取对数,以对数作为新变量进行比较。
用变换后的数据再代入以上公式计算t值。
SAS程序Ttest4_2.sas4.2.3 双尾检验与单尾检验 4.2.4 非参数检验2.符号检验3.秩和检验法4.3 TTEST过程—比较t检验4.3.1 TEST过程简介1.TEST过程简介TTEST过程在一些假设条件下计算t统计量,用以检验“两组观测值均值相等”这个原假设。
《统计计算》第一次上机练习
学号:200930980106 姓名:何斌年级专业: 10级统计1班指导老师:肖莉
1、以下数据是变量X和Y的34次观测值:
X Y X Y X Y X Y
180 200 116 100 145 165 115 120
104 100 123 110 141 135 191 205
134 135 151 180 144 160 190 220
141 125 110 130 190 190 153 145
204 235 108 110 190 210 155 160
150 170 158 130 161 145 177 185
121 125 107 115 165 195 177 205
151 135 180 240 154 150 143 160
147 155 127 135
(1)分别画变量X和Y的等距频率直方图;
(2)分别检验变量X和Y的观测数据是否可以认为来自正态总体;
(3)计算变量X和Y的描述统计量(样本均值、样本方差、中位数、众数、标准偏度系数和标准峰度系数)。
1.解答如下:
(1)
SAS程序如下所示:
data xy;
input x y@@;
cards;
180 200 116 100 145 165 115 120
104 100 123 110 141 135 191 205
134 135 151 180 144 160 190 220
141 125 110 130 190 190 153 145
204 235 108 110 190 210 155 160
150 170 158 130 161 145 177 185
121 125 107 115 165 195 177 205
151 135 180 240 154 150 143 160
147 155 127 135
;
run;
proc print;run;
proc gchart data=xy;
vbar x y/type=percent;
run;
得到结果如下所示:
图1变量X的等距频率直方图
图2 变量Y的等距频率直方图
(2)
SAS程序如下所示:
proc univariate data=xy normal;
var x y;
run;
得到结果如下所示:
图3 对变量X的正态性检验结果
由图3的检验结果可知,P值>0.05,故接受原假设,即认为变量X服从正态分布.
图4 对变量Y的正态性检验结果
由图4的检验结果可知,P值>0.05,故接受原假设,即认为变量Y服从正态分布.
(3)
SAS程序如下所示:
proc univariate data=xy ;
var x y;
output out=XY_Tongjiliang
mean=mean_X mean_Y var=Var_X Var_Y median=median_X median_Y
mode=mode_X mode_Y skewness=S_X S_Y kurtosis=K_X K_Y ;
run;
proc print data=XY_Tongjiliang;run;
得到结果如下所示:
图5 变量X、Y的各统计量指标值
2、已知一数据集SCORE中的数据如下:
no sex math phy eng
9901 F 98 93 91
9902 M 86 82 85
9903 M 87 94 65
9904 F 89 90 78
9905 F 96 98 82
9906 M 92 87 89
(1)产生一新数据集NEWSCORE,将该数据集存入d:\example下,且转换为文本文件。
(2)计算MATH和ENG的均值,方差,偏度,峰度,并将这些结果存入数据集RESULT。
(3)产生一新变量,其值为MATH、PHY、ENG的平均值。
2.解答如下:
(1)
SAS程序如下所示:
data score;
input no sex$ math phy eng;
cards;
9901 F 98 93 91
9902 M 86 82 85
9903 M 87 94 65
9904 F 89 90 78
9905 F 96 98 82
9906 M 92 87 89
;
run;
proc print;run;
data newscore;
set score;
file'd:\example\newscore.txt';
put no sex$ math phy eng;
run;
得到结果如下所示:
图6 将数据存入记事本
(2)
SAS程序如下所示:
proc means data=score;
var math eng;
output out=result mean=math_mean eng_mean var=math_var eng_var skew=math_skew eng_skew kurt=math_kurt eng_kurt;
run;
proc print data=result;run;
得到结果如下所示:
图7 math、eng的各统计量的值
(3)
SAS程序如下所示:
data aa(drop=no sex);
set score;
average=(math+eng+phy)/3;
run;
proc print;
run;
得到结果如下所示:
图8 各科成绩及其平均值
3、某克山病区测得11名克山病病人与13名健康人的血磷值(mmol/L)如下表,问该地
区急性克山病病人与健康人的血磷值平均水平是否不同?
血磷值(mmol/L)
病人0.84 1.05 1.2 1.2 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人0.54 0.64 0.64 0.75 0.75 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
3.解答如下:
(1)
对数据进行正态性检验的SAS程序如下所示:
data a;
do type='healthy';
do n=1to11;
input xlzhi@@;
output;
end;
end;
cards;
0.84 1.05 1.2 1.2 1.39 1.53
1.67 1.80 1.87
2.07 2.11
;
run;
data b;
do type='sick';
do n=1to13;
input xlzhi@@;
output;
end;
end;
cards;
0.54 0.64 0.64 0.75 0.75 0.81
1.16 1.20 1.34 1.35 1.48 1.56 1.87
;
run;
data c;
set a b;
run;
proc print;run;
proc univariate data=c normal;
class type;
var xlzhi;
run;
对两种不同状况的人的数据进行正态性检验,得到结果如下所示:
图9 健康人数据的正态性检验结果
图10 病人数据的正态性检验结果
由图9、图10的检验结果可知,P值均大于0.05,故接受原假设,即认为两种情况下的数据均服从正态分布.
(2)
两独立样本的均值的T检验,SAS程序如下所示:
proc ttest data=c;
class type;
var xlzhi;
run;
得到结果如下所示:
图11两独立样本的均值的T检验结果
图11结果显示,两种状况下的人的数据的方差相等,故在Pooled方法下检验得到的P值为0.0192小于0.05,故拒绝原假设,即认为该地区急性克山病病人与健康人的血磷值平均水平有显著差异。