第4章 统计数据的分布特征(集中趋势度量法) 应用统计学
- 格式:ppt
- 大小:183.00 KB
- 文档页数:20
统计学(第六版)期末考试考点梳理统计学(第六版)期末考试考点梳理第⼀章导论1.1.1 什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
数据分析所⽤的⽅法分为描述统计⽅法和推断统计⽅法。
1.2 统计数据的类型1.2.1 分类数据、顺序数据、数值型数据按照所采⽤的计算尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。
分类数据:只能归于某⼀类别的⾮数字型数据,它是对事物进⾏分类的结果,数据表现为类别,是⽤⽂字来表⽰。
例如:⽀付⽅式、性别、企业类型等。
顺序数据:只能归于某⼀有序类别的⾮数字型数据。
例如:员⼯对改⾰措施的态度、产品等级、受教育程度等。
数值型数据:按数字尺度测量的观测值,其结果表现为具体的数值。
例如:年龄、⼯资、产量等。
统计数据⼤体上可分为品质数据(定性数据)和数量数据(定量数据、数值型数据)。
1.2.2 观测数据和实验数据按照统计数据的收集⽅法,可以分为观测数据和实验数据。
观测数据:通过调查或观测⽽收集的数据。
例如:降⾬量、GDP、家庭收⼊等。
实验数据:在实验中控制实验对象⽽收集到的数据。
例如:医药实验数据、化学实验数据等。
1.2.3 截⾯数据和时间序列数据按照被描述的现象与时间的关系,可分类截⾯数据和时间序列数据。
截⾯数据:在相同或近似相同的时间点上收集的数据。
例如:2012年我国各省市的GDP。
时间序列数据:同⼀现象在不同的时间收集的数据。
例如:2000-2012年湖北省的GDP。
1.3.1 总体和样本总体:包含所研究的全部个体(数据)的集合。
样本:从总体中抽取的⼀部分元素的集合。
1.3.2 参数和统计量参数:⽤来描述总体特征的概括性数字度量。
统计量:⽤类描述样本特征的概括性数字度量。
例如:某研究机构准备从某乡镇5万个家庭中抽取1000个家庭⽤于推断该乡镇所有农村居民家庭的年⼈均纯收⼊。
这项研究的总体是5万个家庭;样本是1000个家庭;参数是5万个家庭的⼈均纯收⼊;统计量是1000个家庭的⼈均纯收⼊。
第4章(数据的概括性度量)学习指导数据分布的特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。
掌握计算、特点及其应用场合。
主要内容学习要点2.1 集中趋势的度量众数▶概念:众数。
▶众数的特点。
中位数和分位数▶概念:中位数,四分位数。
▶中位数和四分位数的特点。
▶中位数和四分位数的计算。
平均数▶概念:平均数,简单平均数,加权平均数,调和平均数,几何平均数。
▶简单平均数和加权平均数的计算。
▶用Excel中的统计函数计算平均数。
▶几何平均数的计算和应用场合。
众数、中位数和平均数的比较▶众数、中位数和平均数在分布上的关系。
▶众数、中位数和平均数的特点及应用场合。
异众比率▶概念:异众比率异众比率的计算和应用场合。
2.2离散程度的度量四分位差(内距)概念:四分位差。
四分位差的计算。
用Excel中的统计函数计算四分位差。
方差和标准差概念:极差,平均差,方差,标准差。
样本方差和标准差的计算。
用Excel计算标准差。
离散系数概念:离散系数。
离散系数的计算。
离散系数的用途。
2.3偏态与峰态的度量偏态及其测度概念:偏态,偏态系数。
用Excel计算偏态系数。
偏态系数数值的意义。
峰态及其测度概念:峰态,峰态系数。
用Excel计算峰态系数。
峰态系数数值的意义。
Excel统计函数的应用。
一)判断题1,各变量值与其平均数的离差之和为最小值。
( )2.当各组的变量值所出现的频率相等时,加权算术平均数中的权数就失去作用,因而,加权算术平均数也就等于简单算术平均数( )3.比较两总体的平均数的代表性,离散系数较小的总体,平均数代表性亦小。
( )4,平均数与次数和的乘积等于各变量值与次数乘积的和。
( )5.若两总体的平均数不同,而标准差相同,则离散系数也相同。
( )6.并非任意一个变量数列都可以计算其算术平均数、中位数和众数。
第四章思考与习题一、思考题1.什么是集中趋势?测度集中趋势常用指标有哪些?2.算术均值.众数和中位数有何关系?3.什么是几何平均数?其适用场合是什么?4.什么叫离散趋势?测度离散趋势常用指标有哪些?5.为什么要计算离散系数?二、练习题(一)填空题1.统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的__________,反映所有数据向其中心值靠拢或聚集的程度;二是分布的__________,反映各数据远离其中心值的趋势;三是分布的__________,反映数据分布的形状。
2.在某城市随机抽取13个家庭,调查得到每个家庭的人均月收入数据如下:1080.750.1080.850.960.2000.1050.1080.760.1080.950.1080.660,则其众数为,中位数为。
3.算术均值有两个重要数学性质:各变量值与其算术均值的__________等于零;各变量值与其算术均值的__________等于最小值。
4.简单算术均值是__________的特例。
4.几何均值主要用于计算__________的平均。
5.在一组数据分布中,当算术均值大于中位数大于众数时属于________分布;当算术均值小于中位数小于众数时属于________分布。
6.__________是各变量值与其均值离差平方的平均数,是测度数值型数据__________最主要的方法。
7.为了比较人数不等的两个班级学生的学习成绩的优劣,需要计算__________;而为了说明哪个班级学生的学习成绩比较整齐,则需要计算________。
8.偏态是对数据分布__________或__________的测度;而峰度是对数据分布_________的测度。
(二)判断题1.众数的大小只取决于众数组与相邻组次数的多少。
()2.当总体单位数n为奇数时,中位数=(n+1)/2。
()3.根据组距分组数据计算的均值是一个近似值。
()4.若已知甲企业工资的标准差小于乙企业,则可断言:甲企业平均工资的代表性好于乙企业。
第三章数据资料的统计描述:统计表和统计图第一节定性资料的统计描述知识点:1、统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干组成部分的一种统计方法。
2、定性数据的频数、频率、百分数、累计频数、累积频率的概念及计算。
3、定性数据频数分布表示方法主要有条形图、扇形图。
第二节定量数据的统计描述知识点:1、定量数据频数分布表的编制:(1)整理原始资料;(2)确定变量数列的形式;(3)编制组距式变量数列。
应注意的问题:确定组距,确定组限。
考查的区间式分组数据按“上组限不在组内”的原则确定。
2、定量数据的频数、频率、百分数、累积频数、累计频率的概念及计算。
3、定量数据频数分布表示方法主要有直方图、折线图和曲线图三种。
第三节探索性数据分析——茎叶图知识点:1、基本茎叶图的理解及编制第四节相关表与相关图知识点:1、相关表,反映定性变量与定量变量之间的相关关系。
2、散点图,反映两个定量变量之间的相关关系。
根据散点图判断两个变量的相关关系。
第四章数据资料的统计描述:数值计算第一节集中趋势知识点:关于单值式分组和区间式分组数据的1、平均数的计算,包括算术平均数,几何平均数,调和平均数2、众数的计算3、中位数、四分位数的计算4、(补充知识点)平均数、众数、中位数三者之间的关系5、百分位数的计算6、截尾均值的计算第二节离散测度知识点:1、极差的计算2、关于单值式分组和区间式分组数据的四分位数差的计算3、关于单值式分组和区间式分组数据的方差、标准差的计算4、变异系数的计算5、(补充知识点)偏度、峰度的含义及计算第三节协方差与相关系数知识点:1、样本协方差的含义及计算2、相关系数的含义及计算第四节相对位置测度与奇异点知识点:1、数据的标准化处理2、奇异点的诊断:利用契比雪夫定理和经验规则第五节探索性分析——5点描述与箱线图知识点:1、5点描述法的理解2、箱线图的理解与运用第三章习题:一、填空题1、在对数据资料进行统计描述时,______反映了各个组中每一项目出现的次数,______反映了各个组中项目发生的比例。