单变量描述统计分析报告
- 格式:pptx
- 大小:296.08 KB
- 文档页数:5
第二章单变量统计描述分析第一节单变量统计描述基本技术一、变量的计量尺度/层次1、定类变量——最低层次的变量类型。
只有类别属性之分,无大小程度之分。
根据变量值,只能知道研究对象的异同。
从数学运算特性来看,定类变量只有等于或不等于的性质。
2、定序变量——层次高于定类变量。
取值除类别属性外,还有等级、次序之分。
数学运算特性除等于或不等于外,还有大于或小于。
3、定距变量——层次高于定序变量。
取值除类别属性、次序之外,取值之间的距离可以用标准化的举例度量。
数学运算特性除等于不等于,大于小于之外,还可以加减。
如收入,以1元为标准化距离,则2000元比1500元多了500元。
4、定比变量——最高层次变量。
除了上述三种属性外,可以进行乘除运算。
1、社会学研究中,能够满足定距而不能同时满足定比要求的变量不多。
如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。
当前社会统计方法很少要求达到定比层测,所以只介绍前三种层次变量。
2、在社会学研究当中,有些变量的层次是不统一可变的,可用定序层次也可用定距层次,根据研究需要。
高层次变量可以降低层次来使用。
一般来说,测量层次越高越好,数学特性就越多,统计分析就越方便,能了解资料的程度就越深入。
二、基本技术1、次数分布(定类)——针对定类变量最基本的统计分析方法。
面对大量的数据资料,首先要组织整理,第一步就是要采用次数分布来简化资料,看某变量的每一个值出现的次数是多少。
定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,一个观察值只能归入一类,对于分组数据遵循上限不包括在内原则。
次数分布可简化资料,但不能比较样本,因为样本量不同。
2、比、比例和比率(通常保留一位或两位小数)比:某两类的次数相除,如性别比=男性/女性比例:某类次数除以总数,老年人口比例=老年人口数/总人口数×100%比率:某一确定变量相对应的某些事件发生的频率。
单变量资料分析范文单变量资料分析是统计学中的一种基本数据分析方法,用于描述和探究单个变量的性质和分布情况。
在单变量资料分析中,我们只关注一个变量的取值,而不考虑与其他变量的关联。
本文将介绍单变量资料分析的基本概念和方法,并结合实例进行说明。
首先,单变量资料是一组由同一属性的观测值组成的数据。
例如,我们可以收集一些城市1000个居民的年龄数据,这就是一个单变量资料。
在单变量资料中,我们关注的是每个个体的特征,而不考虑个体间的关系。
集中趋势是用于表示数据集中程度的度量,主要有均值、中位数和众数。
均值是将所有观测值相加然后除以观测值的总数,它可以反映出数据的整体水平。
中位数是将所有观测值按大小顺序排列,位于中间的那个值,它可以反映出数据的中间位置。
众数是出现次数最多的观测值,它可以反映出数据的主要取值。
离散程度是用于表示数据分散程度的度量,主要有极差、方差和标准差。
极差是最大观测值与最小观测值的差,它可以反映出数据的变动范围。
方差是观测值与均值的离差平方和的平均数,它可以反映出数据的整体离散情况。
标准差是方差的正平方根,它可以反映出数据离均值的平均距离。
接下来,我们以一些城市的居民年龄数据为例,进行单变量资料分析。
假设我们抽取了1000个居民的年龄数据,现在我们需要对这些数据进行分析。
首先,我们可以计算出年龄的均值、中位数和众数。
假设计算结果为均值45岁,中位数43岁,众数为40岁。
这些统计量给出了居民年龄的整体水平、中间位置和主要取值。
然后,我们可以计算出年龄的极差、方差和标准差。
假设计算结果为极差60岁,方差200,标准差14.14、这些统计量给出了居民年龄的变动范围、整体离散情况和离均值的平均距离。
此外,我们还可以使用图表进行单变量资料的可视化分析。
常用的图表有条形图、饼图和箱线图。
条形图可以直观地显示不同年龄段的人数分布情况。
饼图可以直观地显示不同年龄段的占比情况。
箱线图可以显示年龄的五数概括(最小值、下四分位数、中位数、上四分位数和最大值),以及异常值的情况。
第五章单变量的描述统计分析5.1 频数分析(Frequencies)5.1.1 频数分析的过程5.1.2 频数分析的实验5.2 描述(Descri ptives)统计5.2.1 描述统计的过程5.2.2 描述统计的实验5.3 对输出的表格进行直接编辑5.3.1 修改表格的尺寸5.3.2 修改表格的标题和单元格的内容5.3.3 删除表格的行、列和单元格5.3.4 表格的拷贝5.4 利用菜单命令和选项对输出的表格进行编辑5.4.1 表格的行列互换5.4.2 对表格中的单元格的内容进行编辑在计算机领域中有著名的80/20 规则,即80%的任务是由20%最常用的指令完成的,而另外80%的复杂指令只完成20%的不常用任务。
本章所介绍的这些指令均是最常用的20%的指令,它们能够完成最常用、最基本的统计分析功能。
5.1 频数分析(Frequencies)频数分析是统计分析中最常用的功能之一,它适用于离散型资料,也就是定类变量(Nominal)和定序变量(Ordinal)。
其功能是描述离散型变量的分布特征。
频数分析通常是通过频数分布表来完成的。
5.1.1 频数分析的过程频数分析的功能可通过下述过程来实现:1.打开频数分析对话框执行下述操作:Analyze→Descriptive Statistics→frequencies 打开对话框如图5-1 所示。
左侧源变量窗口列出的是该文件的全部变量。
图5-1 频数分析对话框Display frequency tables 是确定是否在结果中输出频数表的选项。
系统默认状态是输出频数表。
2.确定进行频数分析的变量从左侧的源变量窗口中选择将要进行频数分析的变量,使之进入到Variables 窗口内。
3.选择统计分析结果单击Statistics(统计量)按钮,打开对话框如图5-2 所示。
图5-2 统计分析对话框在该对话框中包括四个选项栏。
每个选项栏中都包括若干个可选项。
可选项被选中后,将在输出文件中输出对应的统计结果。
社专本111 2011761114 梁雪彩P59第二章单变量统计描述分析六、根据以下统计资料:(汉族,50,000)(苗族,22,000)(布依,20,000)(藏族,1,000)问:(1)能做成那些统计图?(2)如果做成条形图,对变量值的排列是否有要求?答:(1)能做成条形图和圆饼图(2)如果做成条形图,对变量的排列没有要求,因为题目中的统计资料是定类变量,长条排列次序可以任意,定类变量无大小、高低次序之分。
七、根据以下资统计料:(老年,1,000)(中年,2,000)(青年,5,000)问:(1)能否做成直方图?为什么?(2)如果做成条形图,对变量值的排列是否有要求?答:(1)不能,因为上述为定序变量,定距变量才能做成直方图。
(2)如果做成条形图,对变量的排列有要求,因为题目中的统计资料是定序变量,长条按序排列,定序变量有大小、高低次序之分。
十三、以下是某班参加业余活动的情况的调查:C=“书社”P=“摄影组”J=“舞蹈团”O=“体育组”C C C P O P C C C P O O P C O C P C C PO C P C C O C J C O O C P C C O O O O PO C O O O O P O P P(1)试作统计图和统计表某班参加业余活动情况的条形图某班参加业余活动情况的圆饼图:表1.1某班参加业余活动情况的调查表(2)选择适当的集中值和离散值,并讨论之。
集中值众值M0=书社则可知参加书社业余活动的人数最多中位值Md=N+1/2=25.5 中位值Md=摄影组均值=19+12+1+18/4=12.5离散值异众比率r=(N-fm0)/N=50-19/50=0.62 异众率比较高,则认为总数的代表性较差,所提供的信息量较少。
极差:R=观察的最大值-观察的最小值=18 极差大表示资料分散,人们选择的业余活动的人数有比较大的差异。
四分互差Q=Q75-Q25 Q50 的位置=50+1/2=25.5Q25的位置=50+1/4=12.75Q75的位置=3(50+1)/4=38.25Q25=书社Q75=体育组四分互差Q=Q75-Q25=体育组-书社可知有50%的人选择体育组和书社这两项活动方差=[(19-12.5)^2+(12-12.5)^2+(1-12.5)^2+(18-12.5) ^2]/4=51.31标准差=7.16。
【实验名称】实验一、变量的描述性统计分析【实验目的】1、掌握在Eviews中建立工作文件的方法;2、掌握单变量序列的描述统计分析;3、利用有关命令,进行多变量的相关分布,会绘制多变量的散点图。
【实验内容】P42-练习题2:查找近二十年来我国财政收入和国内生产总值的数据,利用EViews软件分别以菜单方式和命令方式建立EViews文件,并进行初步的描述性分析。
【实验步骤及结果】一、查找原始数据:在网上查找到1978年-2008年我国财政收入和国内生产总值的数据,将其复制粘贴制作成EXCEL。
EXCEL如下所示:二、导入数据:打开Eviews,点击菜单中的下拉依次选择,,如下图所示。
输出如下图对话框,选择相应的文件,点击打开,再点击finish按钮即可。
得到如下的财政收入y和国内生产总值gdp的数据表:三、单个序列的分析:(1)、折线图:在对话框内输入line语句:依次得到如下财政收入y和国内生产总值gdp单个和合起来的折线图如下所示:从上图中我们可以看出财政收入y和国内生产总值gdp都随着时间不断增长,且存在一定的趋势性。
(2)、直方图:在对话框内输入bar语句:得到如下财政收入y和国内生产总值gdp的直方图如下所示:从上图中我们同样可以看出财政收入y和国内生产总值gdp都随着时间不断增长,且存在一定的趋势性。
(3)、P值:在对话框内输入hist语句:得到如下财政收入y和国内生产总值gdp的描述性统计图:从上图中可知财政收入y的均值是11703.27,中位数是4348.95,最大值是61330.35,最小值是1132.26,标准差是15425.52,偏度是1.86,峰度是5.74,P值接近于0。
从P值可知,序列在99%的置信水平下拒绝原假设,即财政收入y不服从正态分布。
从上图中可知国内生产总值gdp的均值是72289.11,中位数是35333.9,最大值是314045.4,最小值是3645.2,标准差是82654.74,偏度是1.40,峰度是4.22,P值接近于0。