第二讲:一般数据分析资料
- 格式:doc
- 大小:667.00 KB
- 文档页数:29
Stata软件基本操作和数据分析入门(完整版讲义)Stata软件基本操作和数据分析入门第一讲Stata操作入门张文彤赵耐青第一节概况Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。
它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。
Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS 系统也毫不逊色。
另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。
由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。
但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。
更为令人叹服的是,Stata 语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。
除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。
Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。
用户可随时到Stata网站寻找并下载最新的升级文件。
事实上,Stata 的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata 程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。
一、单项选择题1.美国10家公司在电视广告上的花费如下(百万美元):72,63.1,54.7,54.3,29,26.9,25,23.9,23,20。
下列图示法不宜用于描述这些数据的是( )。
A.茎叶图B.散点图C.直方图D.饼图2.1990年发表的一篇文章讨论了男性和女性MBA毕业生起薪的差别。
文章称,从前20名商学院毕业的女性MBA的平均起薪是54 749美元,中位数是47 543美元,标准差是10 250美元。
对样本均值可作如下解释( )。
A.大多数女性MBA的起薪是54 749美元B.最常见到的起薪是54 749美元C.样本起薪的平均值为54 749美元D.有一半的起薪低于54 749美元3.1990年发表的一篇文章讨论了男性和女性MBA毕业生起薪的差别。
文章称,从前20名商学院毕业的女性MBA的平均起薪是54 749美元,中位数是47 543美元,标准差是10 250美元。
对样本中位数可作如下解释( )。
A.大多数女性MBA的起薪是47 543美元B.最常见到的起薪是47 543美元C.样本起薪的平均值为47 543美元D.有一半女性的起薪高于47 543美元4.1990年发表的一篇文章讨论了男性和女性MBA毕业生起薪的差别。
文章称,从前20名商学院毕业的女性MBA的平均起薪是54 749美元,中位数是47 543美元,标准差是10 250美元。
对样本标准差可作如下解释( )。
A.最高起薪与最低起薪之差是10 250美元B.大多数的起薪在44 499美元和64 999美元之间C.大多数的起薪在37 293美元和57 793美元之间D.大多数的起薪在23 999美元和85 499美元之间5.对于右偏分布,均值、中位数和众数之间的关系是( )。
A.均值>中位数>众数B.中位数>均值>众数C.众数>中位数>均值D.众数>均值>中位数6.某班学生的统计学平均成绩是70分,最高分是96分,最低分是62分,根据这些信息,可以计算的离散程度的测度指标是( )。
第二讲:一般数据分析教学目的:能应用SPSS软件进行:描述分析、频数分析、数据探索、交叉表分析、图形分析等教学内容:1)描述分析2)频数分析3)数据探索4)交叉表分析教学重点:描述分析、频数分析、交叉表教学难点:数据探索、交叉表分析教学时间:1学时描述性统计分析Descriptive Statistics描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。
SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:●Frequencies过程的特色是产生频数表;●Descriptives过程则进行一般性的统计描述;●Explore过程用于对数据概况不清时的探索性分析;●Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,常用的X2 检验也在其中完成。
1.1 Frequencies过程频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。
它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图、饼图等统计图。
和国内常用的频数表不同,几乎所有统计软件给出的都是详细频数表,即并不按某种要求确定组段数和组距,而是按照数值精确列表。
如果想用Frequencies 过程得到熟悉的频数表,请先用第3章学过的Recode过程产生一个新变量来代表所需的各组段。
1.1.1 界面说明Frequencies对话框的界面如图1.1a所示。
选取Analyze→Descriptive Statistics →Frequencies,系统就会弹出该对话框,其各部分的功能如下:1.Variable(s)框:左侧的变量可全部选入右侧的Variable(s)框内,一次性完成所有变量的频数分析;也可逐一选入右侧,进行分析n次分析(这样就太累了)。
2.Display frequency tables复选框:确定是否在结果中输出频数表。
图1.1a Frequencies对话框3.Statistics:单击后弹出Statistics对话框如图1.1b,用于定义需要计算的其他描述统计量。
其中:●Percentile Values复选框组:定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5(即累计百分数为2.5%处的变量值)和P97.5(即累计达到97.5%处的变量值)。
●Central tendency复选框组:用于定义描述集中趋势的一组指标:均值(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。
●Dispersion复选框组:用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。
●Distribution复选框组:用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数(Kurtosis)。
●Values are group midpoints复选框:当输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框,以通知SPSS,免得它犯错误。
图1.1b Frequencies的Statistics对话框4.Charts:弹出Charts对话框,用于设定所做的统计图。
●Chart type单选钮组定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(With normal curve)。
●Chart Values单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。
5.Format:弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。
●Order by单选钮组定义频数表的排列次序,有四个选项:Ascending values为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。
●Multiple Variables单选钮组如果选择了两个以上变量做频数表,则Compare variables可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,Organize output by variables则将结果在不同的频数表过程输出结果中显示。
●Suppress Tables more than...复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出,这样可以避免产生巨型表格。
1.1.2 实例分析例1.1 利用111.sav文件中q9(即被访问者最近一次参加促销活动的消费)的调查数据,绘制频数表、直方图,计算平均值、标准差、变异系数CV、中位数Mode、p2.5和p97.5。
●求解上述要求中,除CV需用手工计算外,其他问题都可通过Frequencie解决。
其主要操作如下:1.从程序中打开SPSS,选择File→open→data,打开111.sav;2.Analyze→Descriptive Statistics→Frequencies,弹出Frequencies对话框;3.Variables框:选入q94.单击Statistics5.选中Mean、Std.deviation、Median复选框6.单击Percentiles:输入2.5:单击Add:输入97.5:单击Add:7.单击Continue8.单击Charts:9.选中Bar charts10.单击Continue11.单击OK,系统即在SPSS Viewer中显示所有结果,详见结果解释。
而CV可用得到的Std. deviation 与Mean相除求得。
●问题与处理图1.2是q9的次数分布直方图,它表明:由于q9的取值点较多,使得按变量取值分组进行的Frequencies分析表很长,绘出的直方图也因分组太多而显得不清爽,需要进一步处理。
可先对q9分组,可通过重新赋值于新变量来实现,再作直方图。
F r e q u e n c y图1.2 q9的次数分布直方图1.1.3 结果解释●Statistics TableStatistics被访问者最近一次参加促销活动的消费表的最上方是表名,接下来是变量q9的标签——被访问者最近一次参加促销活动的消费;表的左侧是统计变量名称,右侧是统计结果。
表中数据显示:样本量N 为312个,缺失值0个,平均值Mean=114.03,中位数Median=113,标准差STD=18.158,P2.5=58,P97.5=293.7。
●Frequencies Table上表是系统对变量q9作的频数分布表(此处只列出了开头部分),Vaild右侧为原始值,Frequency为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Valid percent为各组频数占总例数的有效百分比,Cum Percent为各组频数占总例数的累积百分比。
1.2 Descriptives过程Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。
这和其他过程相比并无不同。
但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。
1.2.1 界面说明Descriptives对话框的界面如图1.3a所示。
选取Analyze→Descriptive Statistics →Descriptives,系统就会弹出该对话框,其各部分的功能如下:●Save standardized values as variables复选框:确定是否将原始数据的标准正态评分存为新变量。
●Options:Options对话框(见图1.3b)中的大部分内容均在前面Frequences过程的Statistics对话框中见过,只有最下方的Display Order单选钮组是新的,可以选择为变量列表顺序、字母顺序、均值升序或均值降序。
1.2.2 结果解释利用111.sav文件中的q9数据,选择Analyze→Descriptive Statistics→Descriptives,在弹出的Descriptives对话框中选q9到Variable(s)框中,点击ok,即可得到如下一个典型的Descriptives过程结果统计表:Descriptive StatisticsN Minimum Maximum MeanStd. Deviation被访问者最近一次参加促销活动的消费312 52 300 114.03 18.158 Valid N (listwise) 312表中各统计项在前面都有解释,这里就不再啰嗦了。
图1.3a Descriptives对话框图1.3b Descriptives中的Options对话框1.3 Explore过程Explore过程可对变量进行更为深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。
它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱图等,显得更加详细、全面,有助于用户制定继续分析的方案。
1.3.1 界面说明Explore对话框的界面如图 1.4a所示。
选取Analyze→Descriptive Statistics→Explore,系统就会弹出该对话框,其各部分的功能如下:图1.4a Explore对话框●Display单选钮组:用于选择输出结果中是否包含统计描述、统计图或两者均包括。
●Dependent List框:用于选入需要分析的变量。
●Factor List框:如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。
●Label cases by框:选择一个变量,他的取值将作为每条记录的标签。
最典型的情况是使用记录ID号的变量。
●Statistics:弹出Statistics对话框(见图1.4b),用于选择所需要的描述统计量。
有如下选项:Descriptives复选框:输出平均值、中位数、众数、5%修正平均值、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均值可信区间。