第十一章 描述性统计量
- 格式:ppt
- 大小:497.00 KB
- 文档页数:51
统计学中的描述性统计分析方法统计学是一门研究数据收集、整理、分析和解读的学科,它可以帮助我们更好地理解和解释数据。
描述性统计是统计学中的一个重要分支,旨在总结和揭示数据的基本特征。
在本文中,我们将介绍统计学中常用的描述性统计分析方法。
一、数据收集与整理描述性统计分析的第一步是数据收集,通过合适的调查问卷、实验或观察,我们可以获取所需的数据。
在数据收集完成后,我们需要对数据进行整理和准备,以便后续的分析。
二、测量指标在描述性统计中,我们常用各种测量指标来描绘数据的中心趋势、离散程度以及数据之间的关联性。
1. 中心趋势测量中心趋势测量用来反映数据集中的一个“典型值”。
(1)平均数(Mean):平均数是数据集中所有观测值的总和除以观测值的数量。
它可以用来衡量数据的总体情况。
(2)中位数(Median):中位数是将数据集按大小顺序排列后的中间值。
它可以忽略异常值的影响,更好地反映数据的中心位置。
(3)众数(Mode):众数是数据集中出现频率最高的值。
它在描述分类数据时特别有用。
2. 离散程度测量离散程度测量用来反映数据集的分散程度。
(1)标准差(Standard Deviation):标准差是数据集各个观测值与平均数之间的偏离度的平均值。
它反映了数据的总体分散程度。
(2)方差(Variance):方差是各个观测值与平均数之间偏离度的平方的平均值。
它是标准差的平方。
(3)极差(Range):极差是数据集中最大值与最小值之间的差值。
它可以用来衡量数据的全局范围。
三、数据可视化数据可视化是描述性统计分析中非常重要的一部分。
通过图表和图形的方式展示数据,可以使数据的特征更加直观地呈现出来。
1. 条形图(Bar Chart):条形图用于对比不同类别或组之间的数据差异。
2. 折线图(Line Chart):折线图可以展示变量随时间的变化趋势。
3. 饼图(Pie Chart):饼图适用于展示分类数据的比例关系。
4. 散点图(Scatterplot):散点图可以直观地显示两个变量之间的关系。
描述性统计分析方法描述性统计分析是指对收集到的样本数据进行整理、分析和总结的过程。
它旨在通过使用统计指标和图表来描述数据的特征和分布,以便更好地理解数据,发现其中的规律和趋势。
在进行描述性统计分析时,常用的方法包括中心趋势测度、离散程度测度、分布形态描述和相关性分析等。
一、中心趋势测度中心趋势测度是用来表示数据集中趋向于某个中心的位置。
常用的中心趋势测度包括均值、中位数和众数等。
1. 均值:均值是以所有数据的数值和除以数据个数的统计量,用来表示平均水平。
均值对异常值敏感,容易受到极端值的影响。
2. 中位数:中位数是将数据按照顺序排列后,位于中间位置的数值。
中位数不会受到极端值的影响,更能反映数据的普遍情况。
3. 众数:众数是一组数据中出现频率最高的数值,可用于描述具有离散分布的数据。
二、离散程度测度离散程度测度是用来表示数据集合中数据分散程度的方法。
常用的离散程度测度有范围、方差和标准差等。
1. 范围:范围是最大值和最小值的差值,可用来衡量数据的整体变化幅度。
范围对异常值敏感,易受到极端值的影响。
2. 方差:方差是各数据与均值差的平方和的平均数,用来描述数据的平均离散程度。
方差较大时,表示数据的离散程度较高。
3. 标准差:标准差是方差的平方根,用于度量数据相对于均值的离散程度。
标准差较大时,表明数据分散程度大。
三、分布形态描述分布形态描述是对数据分布形态特征进行描述的方法。
常用的分布形态描述包括偏度和峰度等。
1. 偏度:偏度描述了数据分布曲线相对于均值偏离的大小和方向。
偏度为正表示数据分布朝右偏,为负表示数据分布朝左偏,为0表示数据均匀分布。
2. 峰度:峰度描述了数据分布曲线的陡峭程度,反映了数据分布的尖峰与平顶程度。
峰度大于0表示数据分布曲线相对于正态分布更陡峭,小于0表示数据分布曲线相对于正态分布更平顶。
四、相关性分析相关性分析用来研究两个变量之间的相关关系。
常用的相关性分析方法有协方差和相关系数。
第二章习题(P46)14.某天40只普通股票的收盘价(单位:元/股)如下:29.625 18.000 8.625 18.5009.250 79.375 1.250 14.00010.000 8.750 24.250 35.25032.250 53.375 11.500 9.37534.000 8.000 7.625 33.62516.500 11.375 48.375 9.00037.000 37.875 21.625 19.37529.625 16.625 52.000 9.25043.250 28.500 30.375 31.12538.000 38.875 18.000 33.500(1)构建频数分布*。
(2)分组,并绘制直方图,说明股价的规律。
(3)绘制茎叶图*、箱线图,说明其分布特征。
(4)计算描述统计量,利用你的计算结果,对普通股价进行解释。
解:(1)将数据按照从小到大的顺序排列1.25, 7.625, 8, 8.625, 8.75, 9, 9.25, 9.25, 9.375, 10, 11.375, 11.5, 14, 16.5, 16.625, 18, 18, 18.5, 19.375, 21.625, 24.25, 28.5, 29.625, 29.625, 30.375, 31.125, 32.25, 33.5, 33.625, 34, 35.25, 37, 37.875, 38, 38.875, 43.25, 48.375, 52, 53.375, 79.375,结合(2)建立频数分布。
(2)将数据分为6组,组距为10。
分组结果以及频数分布表。
为了方便分组数据样本均值与样本方差的计算,将基础计算结果也列入下表。
根据频数分布与累积频数分布,画出频率分布直方图与累积频率分布的直方图。
频率分布直方图从频率直方图和累计频率直方图可以看出股价的规律。
股价分布10元以下、10—20元、30—40元占到60%,股价在40元以下占87.5%,分布不服从正态分布等等。
第十一章量化资料的整理与分析本章主要内容第一节量化资料的归类整理第二节量化资料的特征描述第三节量化资料相关与因果分析第一节量化资料的归类整理一、统计表统计表是表示数字资料的一种重要方式,在对数据进行统计分类以后,一一般都用统计表的方式加以表达。
对数据进行分类以后,所得到的各种数量结果称为统计指标。
把统计指标和被说明的事物用表格的形式加以表示就构成统计表。
统计表的构造一般包括以下几个项目:序号:要写在表的左上方,序号一般以在文章中出现的先后顺序排列。
名称:又称标题,是一个表的名称,应写在表的上方。
标目:即分类的项目。
数字:数字是统计表的语言,又称统计指标。
表注:表注写于表的下面,它不是统计表的必要组成部分。
常用的统计表的类型:简单表:只列出调查名称、地点时序或统计指标名称的统计表。
分组表:只有一个标目的统计表。
复合表:有两个或两个以上标目的统计表。
二、统计图统计图就是依据数字资料,应用点、线、面、体、色彩等的描绘制成整齐而又规律,简明而又知其数量的图形。
统计图在数据的整理中占有很重要的地位。
(一)统计图的构成统计图一般采用直接坐标系,横坐标用来表示事物的组别或自变量X,纵坐标常用来表示事物出现的次数或因变量Y,除直角坐标外还有角度坐标、地理坐标等。
图号及图题:统计图的名称为图题或标题。
图目:是写在图形基线上的各种不同类别、名称、或时间空间的统计数量,即横坐标上所用的各种单位名称。
图形:是图的主要部分。
图注:凡图形或其局部或某一点,需要借助文字或数字加以补充说明的,均称为图注。
此外,一个图形要使用各种线条,这些线条因在图中的位置不同而有不同的名称。
(二)统计图的种类条形图:主要用于表示离散型的数字资料,即计数资料。
圆形图:用于表示间断性的数字资料。
线形图:用于表示连续性的数字资料。
直方图:用于表示连续性资料的频数分配。
散点图:又称点图,它是以圆点的大小和相同大小圆点的多少或疏密表示统计资料数量的大小以及变化趋势的统计图。
第十一章统计表与统计图(一)名词解释1.统计表 2. 统计图(二)简答题1.统计表和统计图在表达资料中各有何特殊意义?2.统计表有哪些要素构成?制表的注意事项有哪些?3.统计图有哪些要素构成?绘制统计图的注意事项有哪些?4.为什么半对数线图可以描述发展速度的变化?(三)列表、制图与分析题1.某医院对麦芽根糖浆治疗急慢性肝炎161例的疗效列表,试作改进。
2.某地1952年和1972年三种死因别死亡率下表,试将该资料绘制成统计图并作分析。
表12-9 某地1952年和1972年三种死因别死亡率(1/10万)死因1952年1972年肺结核165.2 27.4心脏病72.5 83.6恶性肿瘤57.2 178.21.据下例统计资料试作统计图。
表12-10 某地居民两次粪便蠕虫卵检查结果第一次阳性率(%)第二次阳性率(%)蛔虫钩虫91.4361.2286.3931.36鞭虫17.14 16.51表12-11 某部队1997年各月传染病发病人数月份 1 2 3 4 5 6 7 8 9 10 11 12 合计传染病人数 3 4 7 14 9 14 17 104 58 12 5 2 249表12-12 224例胸膜炎病人的年龄分布年龄(岁)各组人数占全部病人的百分比11~ 4.116~ 13.521~ 44.631~ 27.141~ 8.951~合计 1.8 100.04. 某县防疫站1972年开始在城关镇建立“预防接种卡”,使计划免疫得到加强。
为说明效果,1975年5月观察了482人的锡克试验反应,其中:幼儿园儿童101人,阳性21人;小学生145人,阳性22人;中学生236人,阳性15人。
相比起来,1947年为:幼儿园儿童144人,阳性37人;小学生1417人,阳性323人;中学生359人,阳性41人。
试用适当的统计表和统计图描述上述结果,并作简要分析。
(四)是非题1.一个绘制合理的统计图可直观的反映事物间的正确数量关系。
第十一章双变量统计分析第十一章双变量统计分析在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。
在这一讲中我们介绍几种双变量的统计分析方法。
一、交互分类表交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。
交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
1、条件次数表:表10-1是交互分类表的一个例子:表10-1 500名工人的文化水平与工资收入交互分类表(人)(1)表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。
从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。
在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。
(2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。
如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目(rows简写r)乘上纵行数目(columns简写c),即表的大小=r×c。
这个先后次序的用意是表示前者(因变量)是受后者(自变量)影响的。
要注意的是,3×2表不同于2×3表,因为前后两个数值代表不同的变量,包含不同类别数。
2、条件百分表:条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。
为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。
如上表可改成百分表为:表10-2 500名工人文化水平与工资收入的交互百分表(%)在计算条件百分表时,最好能依据下列准则:(1)每个表的顶端要有表号和标题。
加上表号,可以方便讨论和减少混乱。
简明标题,能使读者容易领会表内统计数值的意义。