(完整版)STATA第二章描述性统计命令与输出结果说明.docx
- 格式:docx
- 大小:42.36 KB
- 文档页数:4
Stata—基本统计量输出、模型估计和结果输出1. 基本统计量的输出tabstat var, stats(mean sd min max p50 max) c(s) f(%6.2f)输⼊上述命令之后,会在stata的结果窗⼝呈现所需的描述性统计,那么如何直接将结果转到word中?⽅法如下:logout, save(mytable) word replace: tabstat var, stats(mean sd min max p50 max) c(s) f(%6.2f)上述命令中,mytable为⽂件名称;replace代表每次⽣成的word结果都会覆盖原有的mytable中的结果;var为变量名称;word可以替换为excel,从⽽将结果输出⾄excel中。
2. 相关系数矩阵logout, save(mytable) word replace: pwcorr var1 var2输⼊上述命令可见var1和var2的相关系数矩阵会储存到名为mytable的word⽂件中。
logout, save(mytable) word replace: pwcorr_a var1 var2此命令中的pwcorr_a是连⽟君博⼠编写的代码,相⽐于pwcorr,此命令则可以显⽰相关系数的显著性(带星号)。
3. 估计结果输出①est—估计模型reg sas gender:以sas作为因变量,gender作为⾃变量⾏回归分析。
est store a1:将估计结果储存在a1。
reg sas gender dp:以sas作为因变量,gender,dp作为⾃变量⾏回归分析。
est store a2:将估计结果储存在a2。
esttab a1 a2:在结果显⽰框中显⽰a1和a2结果,但是⽐较简单,未有呈现出回归中的重要信息。
esttab a1 a2, beta:呈现标准化回归系数。
esttab a1 a2, ar2 compress nogap star(*0.1 **0.05 ***0.01):ar2命令⽤来显⽰R⽅;compress使得结果呈现更加紧凑;nogap命令使得两个⾃变量之间的空⾏删除;star是将默认的显著性⽔平进⾏更改,也就是说将默认的“*0.05 **0.01 ***0.001”改为“*0.1 **0.05 ***0.01”。
STATA命令应用及详细解释1. summarize:该命令用于计算数值变量的描述性统计信息,包括均值、标准差、最小值、最大值等。
2. tabulate:该命令用于生成一个分类变量的频数和百分比表。
它可以计算单个变量的分布情况,也可以计算多个变量之间的交叉分布情况。
3. tabstat:该命令用于生成一个或多个数值变量的汇总统计信息,包括均值、标准差、中位数等。
与summarize命令相比,tabstat命令可以同时计算多个变量的统计量。
4. regress:该命令用于进行线性回归分析。
可以使用regress命令估计一个自变量和一个或多个因变量之间的线性关系,并生成回归系数、拟合优度等回归结果。
5. logistic:该命令用于进行逻辑回归分析。
逻辑回归分析常用于二分类问题,可以估计自变量对因变量的影响,并生成回归系数、odds比等结果。
6. ttest:该命令用于进行两样本独立样本的t检验。
可以比较两个独立样本的均值差异,并计算t值、p值等检验结果。
7. oneway:该命令用于进行单因素方差分析。
可以比较不同组别之间的均值差异,并进行方差齐性检验和多重比较。
8. twoway:该命令用于进行双因素方差分析。
可以同时比较两个因素及其交互作用对均值差异的影响,并进行方差齐性检验和多重比较。
9. nonparametric:该命令用于进行非参数统计分析。
包括Wilcoxon秩和检验、Kruskal-Wallis H检验、Mann-Whitney U检验等非参数假设检验方法。
10. generate:该命令用于创建一个新的变量,并根据已有变量和运算符生成新的值。
生成的变量可以用于后续的计算和分析。
11. replace:该命令用于替换数据集中指定变量的值。
可以根据条件语句来替换指定变量中的值。
12. bysort:该命令用于按照一个或多个变量的值对数据集进行排序,并按照排序后的次序执行其他STATA命令。
stata输出命令全记录:描述性统计、相关性分析、回归结果一、描述性统计ssc install outreg2【安装outreg2】sum var1 var2……【描述性统计命令sum 变量var1 var2……】outreg2 using test1.doc, replace sum(log)【将结果输出到test1.doc文件中】二、相关系数表方法1:ssc install logout【安装logout】logout, save(test2) word replace: pwcorr var1 var2……, sig star(0.1)【将结果输出到test2.rtf文件中,p值小于0.1的标*】方法2:ssc install logout【安装logout】网上下载pwcorr_a.ado文件,放入stata12\ado\base\p 文件夹中logout, save(test3) word replace: pwcorr_a var1 var2……, star1(0.01)star5(0.05)star10(0.1)【将结果输出到test3.rtf文件中,p值小于0.1的标*,小于0.05标**,小于0.01标***】需要注意的是,logout 命令得到的表格一般会存在错位和空行的现象,这就需要手动做一些调整,如将第一行的表头往右移一列,p 值向右移,并将多余的行删掉,同时还要对p 值加上括号,并在表的底端注明星号的含义。
三、回归结果qui reg y x(qui表示执行命令但不汇报回归结果)est sto ols(est sto表示储存回归结果,文件名为ols)est table ols,b se(选择项“b”表示显示回归系数,“se”表示显示标准误)用一颗星表示10%的显著性,两颗星表示5%的显著性,三颗星表示 1%的显著性,可使用如下命令:est table ols,star(0.1 0.05 0.01)Stata 官方命令“estimates table”无法同时显示回归系数、标准误与表示显著性的星号。
*********面板数据计量分析与软件实现*********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计)* 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/ gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
Stata结果输出常用命令整理*1.描述性统计输出结果asdoc sum `varlist', save(Myfile.doc) replace stat(N mean sd min p50 max) dec(3) title(asdoc_Table: Descriptive statistics)sum2docx `varlist' using Myfile.docx,replace stats(N mean(%9.2f) sd(%9.3f)min(%9.2f) median(%9.2f) max(%9.2f)) title(sum2docx_Table: Descriptive statistics) outreg2 using Myfile, sum(detail) replace word eqkeep(N mean sd min p50 max)fmt(f) keep(`varlist') sortvar(wage age grade) title(outreg2_Table: Descriptive statistics)estpost summarize `varlist', detailesttab using Myfile.rtf, cells("count mean(fmt(2)) sd(fmt(2)) min(fmt(2))p50(fmt(2)) max(fmt(2))") noobs compress replace title(esttab_Table: Descriptive statistics)*2分组T 均值检验输出local common_exp "save(Myfile.doc) by(south) stat(obs mean p)"asdoc ttest wage, `common_exp' replace title(asdoc_Table: T_test by group)asdoc ttest age, `common_exp' rowappendasdoc ttest race, `common_exp' rowappendasdoc ttest married, `common_exp' rowappendasdoc ttest grade, `common_exp' rowappendasdoc ttest collgrad, `common_exp' rowappendasdoc ttest union, `common_exp' rowappendt2docx `varlist' using Myfile.docx,replace not by(south) title(t2docx_Table: T_test by group)logout, save(Myfile) word replace: ttable2 `varlist', by(south)estpost ttest `varlist', by(south)esttab using Myfile.rtf, cells("N_1 mu_1(fmt(3)) N_2 mu_2(fmt(3)) b(star fmt(3))") starlevels(* 0.10 ** 0.05 *** 0.01) noobs compress replace title(esttab_Table: T_test by group)*3.相关系数矩阵输出asdoc cor `varlist', save(Myfile.doc) replace nonum dec(3) title(asdoc_Table: correlation coefficient matrix)corr2docx `varlist' using Myfile.docx, replace spearman(ignore) pearson(pw) star title(corr2docx_Table: correlation coefficient matrix)logout, save(Myfile) word replace : pwcorr_a `varlist', star1(0.01) star5(0.05)star10(0.1)estpost correlate `varlist', matrixesttab using Myfile.rtf, unstack not noobs compress nogaps replace star(* 0.1 ** 0.05 *** 0.01) b(%8.3f) p(%8.3f) title(esttab_Table: correlation coefficient matrix)*4.回归结果输出asdoc reg wage age married occupation, save(Myfile.doc) nest replace cnames(OLS-1) rep(se) add(race, no)asdoc reg wage age married collgrad occupation, save(Myfile.doc) nest append cnames(OLS-2) add(race, no)asdoc reg wage age married collgrad occupation race_num*, save(Myfile.doc) nest append add(race, yes) cnames(OLS-3) dec(3) drop(occupation race_num*) stat(r2_a, F, rmse, rss) title(asdoc_Table: regression result)reg wage age married occupationest store m1reg wage age married collgrad occupationest store m2reg wage age married collgrad occupation race_num*est store m3reg2docx m1 m2 m3 using Myfile.docx, replace indicate("race=race_num*")b(%9.2f) se(%7.2f) scalars(r2(%9.3f) r2_a(%9.2f) N) drop(occupation)order(married) title(reg2docx_Table: regression result) mtitles("OLS-1" "OLS-2" "OLS-3")reg wage age married occupationoutreg2 using Myfile, word replace title(outreg2_Table: regression result)ctitle(OLS-1) `subexp' addtext(race, no)reg wage age married collgrad occupationoutreg2 using Myfile, word append ctitle(OLS-2) `subexp' addtext(race, no)reg wage age married collgrad occupation race_num*outreg2 using Myfile, word append ctitle(OLS-3) `subexp' addtext(race, yes)reg wage age married occupationest store m1reg wage age married collgrad occupationest store m2reg wage age married collgrad occupation race_num*est store m3*可利用addest自行增加统计量addest, name("chi2") value(`chi2')addest, textn("Industry") texts("Yes")estadd scalar Hausman= r(chi2),replaceestadd scalar Hausman_Test = r(p),replaceesttab m1 m2 m3 using Myfile.rtf, replace star( * 0.10 ** 0.05 *** 0.01 ) nogaps compress order(married) drop(occupation) b(%20.3f) se(%7.2f) r2(%9.3f) ar2 aic bic obslast scalars(F) indicate("race=race_num*") mtitles("OLS-1" "OLS-2" "OLS-3") title(esttab_Table: regression result)。
【原创汇总】stata中描述性统计表格的输出导读:描述性统计通常对收集来的数据进行直接的频率、频数等描述,描述性统计分析一般对样本的最小值、最大值、平均值、标准偏差等进行分析,这些数据有助于了解样本数据特征,能够清晰的看到各个统计量的分布情况。
本文在stata培训会议的基础上,为大家再次呈现一些新的内容,作为补充。
-outreg-该命令描述为:outreg - reformat and write regression tables to a document file命令格式为outreg [using filename] [, options]将所有变量进行描述分析输出sysuse auto, clear(1978 Automobile Data).outreg2 using daqinxueshu.doc, replace sum(log)更多技能,指定变量,或者筛选,命令如下:以下数据来源于计量经济学服务中心stata论文写作专题中盈余管理数据outreg2 using daqinxueshu.doc, replace sum(log) ///keep(dacc rid tm size size debt14 eps)outreg2 using daqinxueshu3.doc, replace sum(log) ///keep(dacc rid tm size size )outreg2 using daqinxueshu3.doc, replace sum(log) /// keep(dacc rid tm size size ) eqkeep(N mean)outreg2 using daqinxueshu3.doc, replace sum(detail) /// keep(dacc rid tm size size debt14 eps)-描述性分析常用的统计量-mean,均值max,最大值min,最小值sd,标准差variance,方差semean,即sd/√n skewness,偏度kurtosis,峰度p1,第一分位数p5,第五分位数p10,第十分位数p50,中位数median,中位数range,max-min-技能-这个小技能你get到了吗global xx 'y x1 x2 x3 x4 x5 x6' des $xxtabstat $xx, stat(mean sd min max) columns(s) format(%4.2f) (XX已经代表了y x1 x2 x3 x4 x5 x6)tabstat y x1 x2 x3 x4 x5 x6tabstat y x1 x2 x3 x4 x5 x6,stats(mean p50 min max)tabstat y x1 x2 x3 x4 x5 x6, stats(mean med min max) col(s) format(%6.2f)tabstat y x1 x2 x3 x4 x5 x6, s(mean p25 med p75 min max) c(s) f(%6.2f)tabstat y x1 x2 x3 x4 x5 x6 , s(mean p25 med p75 min max) c(s) f(%6.2f) by(。
Stata入门——如何导出描述性统计1.打开stata,进入do file 界面。
2.导入需要分析的数据// use “文件路径”,clear (文件路径可以通过shift+鼠标右键获得)3.输入描述性统计命令// tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)进行完上述操作之后,基本完成了变量的描述性统计,接下来需要做的是将上述得到的结果导出到excel导出命令有的软件需要事先安装,安装编码为ssc install logout,运行后可继续操作4.输入导出命令//logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)//导出结果可以导出到excel再复制到word再右键自动调整格式,这样得出的表格格式会相对美观。
综上,导出描述性统计的完整命令可以键入为:logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)。
Stata—描述性统计1.资料的基本信息①summarizesummarize:汇总所有变量的名称,个案数⽬,均值,标准差等,缩写为sumformat age %6.2f:指定age变量的统计量输出时的保留2位⼩数sum age, format:结合上个命令,对年龄变量进⾏描述的汇总保留2位⼩数sum age,detail:汇总更加详细的信息②codebookcodebook没有sum详细codebook:汇总所有变量codebook var:汇总var变量③inspectinspect age:可以画出简单的直⽅图2.基本信息的统计①tabulate和table命令tabulate places:对places变量进⾏列表统计,此命令可缩写为tabtable places:只有频数统计,不可缩写为tabtab places price:统计不同地⽅的价格的列表tab places price:统计不同places的price的列表②tabstat命令tabstat price places:显⽰2个变量的平均值tabstat price places, stats(mean med min max):显⽰2个变量的平均值,中位数等统计量tabstat price places, stat(mean med min max p25) col(s) format(%6.2f):均值等统计量在表格的⾏中,并且将结果⼩数点保持在2位。
此命令也可以写为tabstat price places, s(mean med min max) c(s) f(%6.2f)。
tabstat price places, s(mean med min max) c(s) f(%6.2f) by (gender):根据性别分类来陈述上述的统计量。
③结果呈现(1)将Stata中的结果选中,右击⿏标选择Copy table,直接贴⼊Excel或者Word。
Stata统计分析常用命令汇总一、winsorize极端值处理范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。
1、Stata中的单变量极端值处理:stata 11.0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor 模块安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入:ssc install winsor安装winsor命令。
winsor命令不能进行批量处理。
2、批量进行winsorize极端值处理:打开链接:/judson.caskey/data.html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。
命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。
如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。
3、Excel中的极端值处理:(略)winsor2 命令使用说明简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones.相比于winsor命令的改进:(1) 可以批量处理多个变量;(2) 不仅可以 winsor,也可以 trimming;(3) 附加了 by() 选项,可以分组 winsor 或 trimming;(4) 增加了 replace 选项,可以不必生成新变量,直接替换原变量。
Stata结果输出:outreg2命令详解1.引⾔⼀篇实证论⽂中,最基本也是最重要的部分就是展⽰ Stata 中得出的统计分析、回归结果等表格。
但⾃⼰动⼿做表格往往⾮常繁琐,Word 排版也常常令⼈抓狂。
⽽outreg2命令可以让 Stata ⾃动输出我们想要的表格,为你解决所有结果输出的烦恼。
因此,熟练掌握outreg2命令对我们快速导出 Stata 结果,⼀步到位的完成实证结果展⽰有莫⼤帮助。
2. outreg2 命令代码及实例2.1 描述性分析⾸先我们介绍描述性统计分析表格的输出,⼀般实证论⽂都选择展⽰全部变量的⼀般统计指标,这⾥我们将各种情况都罗列出来,并利⽤ Stata ⾃带的 1978 年美国汽车交易数据 auto.dta 为⼤家进⾏实例演⽰,⽅便⼤家全⾯了解outreg2命令。
2.1.1全部变量⼀般统计指标outreg2 using xxx.doc,replace sum(log) title(Decriptive statistics)1. xxx.doc 为输出⽂件名为 xxx 的 word ⽂档命令。
类似得,如果需要输出为 excel 表格则更改代码为 xxx.xsl 即可。
2. sum(log)即输出⼀般统计指标命令,⼀般统计指标包括样本数、中值、标准误、最⼤值和最⼩值。
3. title(Decriptive statistics)为⾃定义输出表格的名称命令,可在括号内⾃⾏编辑表格名称。
2.1.2 部分变量⼀般统计指标输出代码outreg2 using xxx.doc, replace sum(log) keep(var1 var2 var3) title(Decriptive statistics)1. keep(var1 var2 var3)为保留部分变量输出命令,其中 var1var2var3 是我们所需要保留的变量名称。
2. xxx.doc 为输出⽂件名为 xxx 的 word ⽂档命令。
第二章描述性统计命令与输出结果说明
本STATA命令摘要
by分量:]summarize量名1量名2⋯量名m[,detail]
ci 量名 1量名2⋯量名m[,level(#) binomial
poisson exposure(varname) by(分量)]
cii本量均数准差[,level(#) ]
tab1量名[,generate(量名)]
料特征描述 ( 均数,中位数,离散程度)
例:某地定克山病患者与克山病健康人的血磷定如下表
患者 2.6 3.24 3.73 3.73 4.32 4.73 5.18 5.58 5.78 6.40 6.53
健康 1.67 1.98 1.98 2.33 2.34 2.50 3.60 3.73 4.14 4.17 4.57 4.82 5.78
人
其中量 x1 患者的血磷定数据,量 x2 健康人的血磷定数据。
上述数据也可以用量 x 表示血磷定,分量 group=0 表示患者和
group=1 表示健康 ( 如:患者中第一个数据 2.6 , x=2.6 ,group=0;又
如:健康中第三个数据 1.98 , x 1.98 以及 group1) ,并假定些数
据已以 STATA格式存入 ex2a.dta 文件中。
算料均数,准差命令summarize,以述料例:
. summarize
Variable Obs Mean Std. Dev.Min Max
x111 4.710909 1.302977 2.6 6.53
x213 3.354615 1.304368 1.67 5.78
Mean 均; Std.Dev. 准差
即:本例中急性克山病患者的本数 11,血磷定均数 4.711(mg%),相的准差1.303 ,最小 2.6 以及最大 6.53 ;健康的本量
13,血磷定均数 3.3546 ,相的准差 1.3044 ,最小 1.67 以及最大 5.78 。
算料均数,准差,中位数,低四分位数和高四分位数的命令summarize 以及子命令 detail,仍以述料例:
. summarize x1 x2,detail
x1
Percentiles Smallest
1% 2.6 2.6
5% 2.6 3.24
10% 3.24 3.73Obs11
25% 3.73 3.73Sum of Wgt.11
50% 4.73Mean 4.710909
Largest Std. Dev. 1.302977
75% 5.78 5.58
90% 6.4 5.78Variance 1.697749
95% 6.53 6.4Skewness-.0813446
99% 6.53 6.53Kurtosis 1.809951
x2
Percentiles Smallest
1% 1.67 1.67
5% 1.67 1.98
10% 1.98 1.98Obs13
25% 2.33 2.33Sum of Wgt.13
50% 3.6Mean 3.354615
Largest Std. Dev. 1.304368
75% 4.17 4.17
90% 4.82 4.57Variance 1.701377
95% 5.78 4.82Skewness.2963943
99% 5.78 5.78Kurtosis 1.875392
.
结果:
Percentiles显示了从 1%到 99%的分位数的取值。
第二列是最小和最大的 5
个数。
第三列从上到下: obs 观测值数目、mean平均数、std.dev标准差、variance
方差。
skewness 偏度 : 偏度的绝对值越小,表明该数据的正态对称性越好。
kurtosis峰度 : 峰度值越大表明该数据的正态峰越明显。
95%可信限计算:
正态数据: ci变量名
0-1 数据: ci变量名 ,binomial
poisson分布数据: ci 变量名, poisson
90%可信限计算 ( 其它可信限类推 )
正态数据: ci变量名 ,level(90)
0-1 数据: ci变量名 ,level(90) binomial
poisson分布数据: ci变量名, level(90) poisson
ci x1 x2
. ci x1 x2
VariableObs Mean Std. Err.[95% Conf. Interval]
x111 4.710909.3928624 3.835557 5.586261
x213 3.354615.3617667 2.566393 4.142837
[95%Conf.Interval]为95%的可信限,因此x1的95 %可信限为[3.8356,5.5863 ] , x2 的 95%可信限为 [2.5664,4.1428]。
根据样本数,样本均数和标准差计算可信限。
若数据服从正态分布,并已知样本均数和标准差以及样本数,则 95%可信限计算为:
cii 样本数样本均数标准差[,level(#)]
例:已知样本数为90 样本均数为 40 以及样本标准差为12,则:计算该样本均数的 95%可信限为
cii 90 40 12
. cii 90 40 12
Variable Obs Mean Std. Err.[95% Conf. Interval]
9040 1.26491137.4866542.51335
该样本均数 95%可信限为 [37.48665,42.51335]
cii 90 40 12,level(90)
. cii 90 40 12,level(90)
Variable Obs Mean Std. Err.[90% Conf. Interval]
9040 1.26491137.8975242.10248
该样本均数 90%可信限为 [37.89752,42.10248]
计数资料中频数和比例
STATA命令:
tab1 变量名 [,g(新变量名)
因为该命令主要适用描述计数资料( 即:属性资料 ) ,当使用子命令g( 新变量) ,则产生属性指示变量。
在回归分析中经常需要这些指示变量作为亚元变量
进行分析。
例:50 只小鼠随机分配到 5 个不同饲料组,每组 10 只小鼠。
在喂养一定时间后,测定鼠肝中的铁的含量 (mg/g) 如表所示:试比较各组鼠肝中铁的含量是否有显著性差别。
用 x 表示鼠肝中铁的含量以及用 group=1,2,3,4,5 分别表示对应的5 个组。
x: 2.23 1.14 2.631 1.35 2.01 1.64 1.13 1.01 1.70 group:1111111111 x: 5.590.96 6.96 1.23 1.61 2.94 1.96 3.68 1.54 2.59 group:2222222222 x: 4.5 3.9210.338.23 2.07 4.9 6.84 6.42 3.726 group:3333333333 x: 1.35 1.060.740.96 1.16 2.080.690.680.84 1.34 group:4444444444 x: 1.4 1.51 2.49 1.74 1.59 1.363 4.81 5.21 5.12 group:5555555555
tab1 group,g(a)
. tab1 group,g(a)
-> tabulation of group
group Freq.Percent Cum.
11020.0020.00
21020.0040.00
31020.0060.00
41020.0080.00
51020.00100.00
Total50100.00
Freq. 为各属性资料的频数;②Percent为该属性占整个资料样本数的百分比;
③Cum为.累计百分比。
本例中,总样本数为 50,共有 5 组,每组有 10 个样本点,各占总样本数的10%。
因为使用了子命令 g(a) ,从而产生 5 个指示变量 ( 又可称亚元变量 ):a1 ,a2,a3, a4 和 a5。
变量 a1 用于指示第 1 组的资料:即:当资料属于第 1 组的
(group=1) ,则 a1=1;其它组的资料 (group 11) ,则 a1=0。
变量 a2 用于指示第 2
组的资料,变量 a3,a4 和 a5 相应分别指示第 3, 4, 5 组的资料 ( 详细见下表 ) 。