第三章 数据分布特征的描述
- 格式:ppt
- 大小:8.85 MB
- 文档页数:125
概率与数理统计第3章数据分布特征的描述概率与数理统计是一门关于随机现象的描述和分析的学科。
在实际问题中,我们经常需要对数据进行分析和描述,以便更好地理解数据的特征和规律。
第三章主要介绍了数据分布的特征描述,包括中心位置度量、离散程度度量和分布形状度量。
首先是中心位置度量,它用来描述数据集的平均水平。
一般来说,我们关心的是数据集的平均值和中位数。
平均值是数据的加权平均,它能够反映数据集的集中趋势。
平均值的计算公式是:```平均值=总和/观测数```中位数是按照数据的大小顺序排列后,处于中间位置的观测值。
中位数的计算方法是:```如果数据集的观测数为奇数,中位数为第(n+1)/2个观测值如果数据集的观测数为偶数,中位数为第n/2和(n/2+1)个观测值的平均值```其次是离散程度度量,它用来描述数据集的变异程度。
我们常用的度量指标有极差、方差和标准差。
极差是数据集中最大观测值与最小观测值之间的差距,它反映了数据的全局离散程度。
方差是每个观测值与数据集平均值的差的平方的平均值,它度量了数据的局部离散程度。
标准差是方差的平方根,它与方差具有相同的单位,能够更好地反映数据的离散程度。
最后是分布形状度量,它用来描述数据分布的偏度和峰度。
偏度是描述数据分布对称性的度量,正偏表示数据集的右尾较重,负偏表示数据集的左尾较重。
峰度是描述数据分布峰态的度量,正峰表示数据集的峰部较陡,负峰表示数据集的峰部较平。
偏度和峰度能够帮助我们了解数据分布的形态特征,从而判断数据集是否服从其中一种特定的分布。
在实际应用中,我们可以通过对数据集进行描述统计分析来了解数据的特征。
通过计算平均值、中位数、方差、标准差、偏度和峰度等指标,我们能够更好地理解数据的分布情况。
此外,我们还可以通过绘制直方图、箱线图、概率密度函数等图形来展示数据的分布特征,进一步加深对数据的认识。
总之,数据分布特征的描述是概率与数理统计中重要的内容之一、通过中心位置度量、离散程度度量和分布形状度量,我们能够充分了解数据的平均水平、变异程度和形态特征,为进一步的数据分析和决策提供有力的支持。
第3章统计学数据分布特征的描述统计学是一门研究收集、分析和解释数据的学科。
在统计学中,数据分布特征的描述是指通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
数据的集中趋势描述了数据的平均水平或中心。
常用的统计量有平均值、中位数和众数。
平均值是将所有观测值相加然后除以观测值的总数,它能够反映数据的总体平均水平。
然而,当数据包含异常值时,平均值的计算结果可能会受到影响。
因此,中位数和众数在这种情况下被认为是更稳健的集中趋势度量。
中位数是将数据按大小排序,然后找出中间位置的观测值。
众数是数据中出现次数最多的观测值。
数据的离散程度描述了数据的变异程度或分散程度。
常用的统计量有方差、标准差和四分位差。
方差是观测值与均值之间差异的平方的平均值,它反映了数据的总体离散程度。
标准差是方差的平方根,用于衡量数据的波动性。
四分位差是数据的上四分位数和下四分位数之差,它描述了数据的中间50%的变异程度。
数据的分布形态描述了数据的形状和对称性。
常用的分布形态有正态分布、偏态分布和峰态分布。
正态分布是最常见的分布形态,其特点是对称、钟形曲线。
偏态分布是指数据分布不对称的情况,主要分为正偏态和负偏态。
正偏态分布意味着数据的尾部偏向右侧,负偏态分布则意味着数据的尾部偏向左侧。
峰态分布用于描述数据的峰值的尖锐程度,主要分为正态分布、高峰态和低峰态。
除了统计量,还可以使用图表来对数据分布特征进行描述。
常用的图表包括直方图、箱线图和散点图。
直方图是通过将数据分组并在坐标轴上绘制各组的频率或相对频率来展示数据的分布形态。
箱线图通过绘制数据的分位数和异常值来展示数据的中位数、四分位数和离群观测值。
散点图用于展示两个变量之间的关系,特别适用于发现变量之间的相关性和异常值。
综上所述,统计学中的数据分布特征描述是通过一系列统计量和图表来描述数据的集中趋势、离散程度和分布形态等特征。
这些描述能够帮助我们更好地理解数据,并对数据进行分析和解释。
第三章数据分布特征的描述(一)教学目的通过本章学习,掌握数据分布集中趋势和分布离散程度的测度,重点掌握分组数据的均值和标准差及变异系数的计算与众数、中位数和均值的比较,并能灵活加以运用,了解数据分布形状(即偏态与峰度)及其测度。
(二)基本要求使学生熟练掌握数据分布特征的描述方法。
(三)教学要点1、集中趋势的测度指标及其计算方法;2、离散趋势的测度指标及其计算方法;3、数据分布偏态与峰度的测度。
(四)教学时数9课时(五)学习内容统计数据的分布特征可以从两个方面进行描述:一是数据分布的集中趋势,二是数据分布的离散程度。
集中趋势和离散程度是数据分布特征对立统一的两个方面。
本章通过介绍平均指标和变异指标这两种统计指标的概念及计算来讨论反映数据集中趋势和分散程度的两个方面的特征。
第一节数据分布集中趋势的测定集中趋势是指一组数据向某中心值靠拢的倾向,集中趋势的测度实际上就是对数据一般水平代表值或中心值的测度。
不同类型的数据用不同的集中趋势测度值,低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。
一般我们用平均指标作为集中趋势测度指标,本节重点介绍众数、中位数两个位置平均数和算术平均数、调和平均数及几何平均数三个数值型平均数。
一、众数(Mode)(一) 概念众数是指一组数据中出现次数最多的变量值,用M0表示。
从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的变量值即为众数。
当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。
1.集中趋势的测度值之一;2.出现次数最多的变量值;3.不受极端值的影响;4.可能没有众数或有几个众数;5.适用于定类数据、定序数据、定距数据和定比数据。
众数的不唯一性:无众数原始数据: 10 5 9 12 6 8一个众数原始数据: 6 5 9 8 5 5多于一个众数原始数据: 25 28 28 36 42 42(二)众数确定1.定类数据和定序数据众数的测定定类数据与定序数据计算众数时,只需找出出现次数最多的组所对应的变量值即为众数。
第 3 章数据分布特点的描绘[引例 ]依据国家统计局对全国31 个省(自治区、直辖市)7.4 万户乡村居民家庭和 6.6 万户城镇居民家庭的抽样检查,2011 年城乡居民收入增添状况以下1:2011 年全国乡村居民人均纯收入6977 元,比上年增添1058 元,增添 17.9%。
剔除价钱因素影响,实质增添11.4%,增速同比提升0.5 个百分点。
此中,人均薪资性收入2963 元,同比增添532 元,增添 21.9%。
薪资性收入对整年乡村居民增收的贡献率达50.3%。
薪资性收入占乡村居民纯收入的比重达42.5%,同比提升 1.4 个百分点。
2011 年乡村居民人均纯收入中位数为 6194 元,比上年增添 995 元,增添 19.1%。
乡村居民人均纯收入中位数比人均纯收入低 783 元,但增速高 1.2 个百分点。
2011 年城镇居民人均总收入23979 元,此中,人均可支配收入21810 元,比上年增添2701 元,增添14.1%。
剔除价钱因素影响,城镇居民人均可支配收入实质增添8.4%,增速同比提升0.6 个百分点。
2011 年城镇居民人均可支配收入中位数为19118 元,比上年增添2279 元,增添13.5%。
城镇居民人均可支配收入中位数比人均可支配收入低2692 元,增速低 0.6 个百分点。
主假如受最低薪资标准、城镇居民基本养老金和离退休金以及最低生活保障标准提升影响,城镇低收入户收入增速较高;同时高收入户也保持了较快的增添速度,因此中等收入户增速相对较慢。
2011 年城镇居民人均可支配收入与乡村居民人均纯收入之比为:1,2010 年该收入比为 3.23:1。
本章小结1.总量指标是说明现象总规模和总水平的数值,又称为绝对数。
绝对数的计量单位有实物单位和价值量单位。
按反应整体内容不一样,总量指标可分为整体单位总量和整体标记总量;按反应的时间状况不一样,总量指标可分为期间指标和时点指标。
2.将两个有联系的数值对照获得的比率称为相对数。