统计学章节整理good
- 格式:doc
- 大小:320.00 KB
- 文档页数:14
统计学原理与实务各章节复习知识点归纳(考试复习资料精华版-根据历年考试重点以及老师画的重点原创整理)第一章总论重点在“第三节:统计学中的基本概念”考点一:掌握以下四组概念(含义及举例)——肯定考一个名词解释!①总体、总体单位(统计)总体:是由客观存在的,具有某种共同性质的许多个别事物构成的整体。
总体单位:构成总体的个别事物。
②标志、标志值及分类标志:说明总体单位特征的名称。
分类:Ⅰ按性质不同a.品质标志:说明总体单位的品质特征,一般用文字表现。
(有些品质标志虽然以数量表现,但实质表现产品质量差异。
例如产品质量的具体表现未“一等、二等、三等”。
)b.数量标志:说明总体单位的数量特征。
只能用数值来表现。
Ⅱ按变异情况可变标志:当一个标志在各个总体单位表现不尽相同时称为可变标志不变标志:……都相同……不变标志。
标志值:标志的具体表现。
③变量、变量值变量:指数量标志。
变量值:指数量标志值,具有客观存在性。
④指标的含义及分类(统计)指标:是综合反映统计总体某一数量特征的概念和数值,简称指标。
a.按其反映总体现象内容不同:数量指标(绝对数,绝对指标,总量指标),质量指标(相对数或平均数,相对指标和平均指标)。
b.按其作用不同:总量指标,相对指标和平均指标。
c.按反映的时间特点不同:试点指标和时期指标d.计量单位的特点:实物指标、价值指标和劳动指标。
★指标和标志的区别与联系:区别:①标志是说明总体单位特征的名称;指标是说明总体的数量特征;②标志既有反映总体单位数量特征的,也有反映总体单位品质特征;而指标只反映总体的数量特征;③凡是统计指标都具有综合的性质,而标志一般不具有。
联系:①许多指标由数量标志值汇总而得;②指标与数量标志可随统计研究目的而改变;课后习题:社会经济统计学研究对象的特点是:数量性、总体性、变异性。
统计研究运用的方法主要包括:大量观察法、统计分组法、综合指标法、统计模型法标志值就是标志表现。
第二章统计调查考点一:统计报表的分类①填报内容和实施范围:国家、部门和地方统计报表②调查范围:全面、非全面③报送周期长短:日报、旬报、月报、季报、半年报和年报④填报单位:基层、综合报表考点二:“普查”的含义普查:是普遍调查的简称。
统计学重点部分归纳 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】第三章全距也称极差,是一组数据的最大值与最小值之差。
R=最大值-最小值组距分组数据可根据最高组上限 -最低组下限计算。
四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值。
SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。
Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4。
如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。
四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。
不受极端值的影响。
可以用于衡量中位数的代表性。
方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。
是反映定量数据离散程度的最常用的指标。
离散系数:标准差与其相应的均值之比,表示为百分数。
特点:(1)反映了相对于均值的相对离散程度;(2)可用于比较计量单位不同的数据的离散程度;(3)计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义数据分布的不对称性称作偏态。
偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。
峰度:数据分布的扁平或尖峰程度。
峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。
箱线图用于描述数据分布特征的一种图形。
最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。
在SPSS中标准的箱线图一般是这样绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子;由Q3至Q3+*IQR区间内的最大值向盒子的顶端连线,由Q1至*IQR区间内的最小值向盒子的底部连线;处于Q3+*IQR至Q3+3*IQR或者 *IQR至Q1-3*IQR范围内的数据用圆圈标出;大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。
统计学各章节期末复习知识点统计学是一门研究数据收集、分析和解释的学科。
作为一门广泛应用于各个领域的学科,统计学的知识点非常丰富。
以下是统计学各章节的期末复习知识点汇总:1.数据收集与描述-数据类型:定量数据和定性数据-数据收集方式:问卷调查、观察、实验-描述统计:中心趋势(均值、中位数、众数)、离散程度(范围、方差、标准差)、数据分布(直方图、条形图、饼图)2.概率论基础-随机试验与样本空间-事件与事件概率-古典概型、几何概型和统计概型-条件概率与独立性-伯努利试验与二项分布3.随机变量及其分布-随机变量与分布函数-离散型随机变量与其分布律-连续型随机变量与其概率密度函数-均匀分布、正态分布、指数分布等常见分布4.多个随机变量的分布-边缘分布与条件分布-两个离散型随机变量的联合分布律-两个连续型随机变量的联合概率密度函数-相互独立的随机变量的分布5.随机变量的数字特征-数学期望与其性质-方差与标准差-协方差与相关系数-矩、协方差矩阵与相关系数矩阵6.大数定律与中心极限定理-辛钦大数定律-中心极限定理-切比雪夫不等式与伯努利不等式7.统计推断基础-参数估计:点估计、区间估计-置信区间与置信水平-假设检验:原假设与备择假设、显著性水平、拒绝域-类型Ⅰ错误和类型Ⅱ错误-样本容量与统计检验的效应大小8.单样本与双样本推断-单个总体均值的推断:正态总体与非正态总体-单个总体比例的推断-两个总体均值的推断:独立样本与配对样本-两个总体比例的推断9.方差分析与回归分析-单因素方差分析-两因素方差分析-简单线性回归分析:最小二乘法-多元线性回归分析:拟合优度、剩余平方和、变量选择10.非参数统计方法-指标:秩和检验、秩和相关检验、符号检验- 分布:符号检验、秩和检验、秩和相关检验、Kolmogorov-Smirnov检验这些是统计学各个章节的期末复习知识点的一个概述。
每个章节都拥有更加详细和复杂的内容,需要学生在复习中深入理解并进行练习。
《统计学基础》第一——四章知识点整理第一章1.统计总体是根据一定的目的和要求所确定的研究事物的全体;总体单位——构成总体的个体单位;标志是反映总体各单位属性和特征的名称。
品质标志和数量标志区别:品质标志表明单位属性方面的特征,数量标志表明单位数量方面的特征。
品质标志只能用文字、语言来描述,数量标志的表现可以用数值来表示。
2.标志值——数量标志的取值统计指标和标志的区别:前者说明总体特征,后者说明单位特征;前者只有数值表现,后者分为品质和数量标志。
统计指标和标志的联系:指标数值大多由数量标志值或治疗标志单位数汇总而得,二者存在相互转换的关系。
3.数量指标和质量指标反映现象的总规模、总水平和工作总量的统计指标称为数量指标,用绝对数表示。
反映现象相对水平和工作质量的统计指标称为质量指标,用相对数或平均数表示。
第二章1. 统计调查的种类——普查、全面统计报表、抽样调查、重点调查、典型调查统计调查的方式全面调查和非全面调查(按调查范围划分)全面调查——对调查对象的所以单位一一进行调查。
非全面调查——对调查对象其中一部分单位进行调查,以取得调查对象的一部分资料,用来推断总体或反映总体的基本情况。
经常性调查和一次调查(按时间标志)经常性调查(连续性调查)——随着研究现象的变化,连续不断地进行调查登记。
一次性调查(不连续性调查)——间隔较长一段时间对失误的变化进行一次性调查。
统计报表和专门调查(按组织形式)报表制度——按国家统一规定的表式和内容,向各级领导机构报送统计资料。
专门调查——为某一专题研究而组织的专项调查。
2. 调查对象——需要调查的现象总体,该总体是由许多性质相同的调查单位组成的。
调查单位——所要调查的具体单位,是进行调查登记的标志的承担者。
报告单位(填报单位)——负责向上报告调查内容、提交统计资料的单位。
调查项目就是调查中所要登记的调查单位的特征,即调查单位所承担的基本标志,由一系列质量标志和数量标志构成。
基本统计方法第一章概论1. 总体(Population):根据研究目的确定的同质对象的全体(集合);样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。
2. 参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。
第二章计量资料统计描述1. 集中趋势:均数(算术、几何)、中位数、众数2. 离散趋势:极差、四分位间距(QR=P75-P25)、标准差(或方差)、变异系数(CV)3. 正态分布特征:①X轴上方关于X=μ对称的钟形曲线;②X=μ时,f(X)取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。
4. 医学参考值范围的制定方法:正态近似法:;百分位数法:P2.5-P97.5。
第三章总体均数估计和假设检验1. 抽样误差(Sampling Error):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可避免,产生的根本原因是生物个体的变异性。
2. 均数的标准误(Standard error of Mean, SEM):样本均数的标准差,计算公式:。
反映样本均数间的离散程度,说明抽样误差的大小。
3. 降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。
4. t分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度ν,ν越小,t值越分散,t分布的峰部越矮而尾部翘得越高;③当ν逼近∞,逼近, t分布逼近u分布,故标准正态分布是t分布的特例。
5. 置信区间(Confidence Interval, CI):按预先给定的概率(1-α)确定的包含总体参数的一个范围,计算公式:或。
第三章全距也称极差,是一组数据的最大值与最小值之差。
R=最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。
四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值。
SPSS中四分位数的位置为(n+1)/4,2(n+1)/4,3 (n+1)/4。
Excel中四分位数的位置分别为(n+3)/4,2(n+1)/4,(3 n+1)/4。
如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。
四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。
不受极端值的影响。
可以用于衡量中位数的代表性。
方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。
是反映定量数据离散程度的最常用的指标。
离散系数:标准差与其相应的均值之比,表示为百分数。
特点:(1)反映了相对于均值的相对离散程度;(2)可用于比较计量单位不同的数据的离散程度;(3)计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义数据分布的不对称性称作偏态。
偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。
峰度:数据分布的扁平或尖峰程度。
峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。
箱线图用于描述数据分布特征的一种图形。
最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。
在SPSS中标准的箱线图一般是这样绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子;由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线,由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线;处于Q3+1.5*IQR至Q3+3*IQR或者Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标出;大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。
统计学重点知识点基本统计⽅法第⼀章概论1. 总体(Population ):根据研究⽬的确定的同质对象的全体(集合);样本(Sample ):从总体中随机抽取的部分具有代表性的研究对象。
2. 参数(Parameter ):反映总体特征的统计指标,如总体均数、标准差等,⽤希腊字母表⽰,是固定的常数;统计量(Statistic ):反映样本特征的统计指标,如样本均数、标准差等,采⽤拉丁字字母表⽰,是在参数附近波动的随机变量。
3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。
第⼆章计量资料统计描述1. 集中趋势:均数(算术、⼏何)、中位数、众数2. 离散趋势:极差、四分位间距(QR =P 75-P 25)、标准差(或⽅差)、变异系数(CV )3. 正态分布特征:①X 轴上⽅关于X =µ对称的钟形曲线;②X =µ时,f(X)取得最⼤值;③有两个参数,位置参数µ和形态参数σ;④曲线下⾯积为1,区间µ±σ的⾯积为68.27%,区间µ±1.96σ的⾯积为95.00%,区间µ±2.58σ的⾯积为99.00%。
4. 医学参考值范围的制定⽅法:正态近似法:/2X u S α±;百分位数法:P 2.5-P 97.5。
第三章总体均数估计和假设检验1. 抽样误差(Sampling Error ):由个体变异产⽣、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可避免,产⽣的根本原因是⽣物个体的变异性。
2. 均数的标准误(Standard error of Mean, SEM ):样本均数的标准差,计算公式:X σσ=误差的⼤⼩。
3. 降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。
4. t 分布特征:①单峰分布,以0为中⼼,左右对称;②形态取决于⾃由度ν,ν越⼩,t 值越分散,t 分布的峰部越矮⽽尾部翘得越⾼;③当ν逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t分布的特例。
第一章导论概念:统计学:收集、处理、分析、解释数据井从数据中得出结论的科学。
统计的分类:描述统计:研究的是数据收集,处理,汇总,图表描述,文字概括与分析等统计方法。
推断统计:是研究如何利用样木数据进行推断总体特征。
数据:1.分类数据:对事物进行分类的结果数据,表现为类别,用文字来表述。
例如,人口按性别分为男、女两类2.顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3.数值型数据对事物的精确测度,结果表现为具体的数值。
例如:身高为175cm,190cm,200cm 参数:描述总体特征。
有总体均值(μ)、标准差()总体比例(T)统计量:描述样本特征,样本标准差(s),样木比例(p)第二章 数据的搜集1. 数据来源包括直接来源(一手数据)和间接来源(二手数据)2. 抽样方式包括概率抽样与非概率抽样3. 概率抽样:也称随机抽样。
按一定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中。
4.5.抽样误差:是由抽样的随机性引起的样本结果与总体真值之间的误差。
抽样误差并不是针对某个样本的检测结果与总体真是结果的差异而言,抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。
统计数据的分类按计量层次分类的数据顺序的数据数值型数据 按时间状况截 面 的 数 据时序的数据按收集方法 观察的数据 实验的数据6.抽样误差的大小与样本量的大小和总体的变异程度有关。
第三章数据的图表展示计算机实训内容,要求:1.数据筛选,自动筛选2.高级筛选,3.数据排序4.分类汇总-利用数据透视表5.对比条形图6.环形图7.累计频数图8.散点图9.雷达图等等频数分布图两种方法:工具-数据分析-直方图数值型和顺序数据数据-数据透视表数据透视表第四章数据的概括性度量集中趋势:算数平均数:几何平均数:指n个观察值连乘积的n次方根,计算平均发展速度时复利下的平均年利率,最常用的一种计算公式为,几何平均数≤算术平均数。
统计学第一章导论1.1.1什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
数据分析所用的方法分为描述统计方法和推断统计方法。
1.2统计数据的类型1.2.1分类数据、顺序数据、数值型数据按照所采用的计算尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。
分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表示。
例如:支付方式、性别、企业类型等。
顺序数据:只能归于某一有序类别的非数字型数据。
例如:员工对改革措施的态度、产品等级、受教育程度等。
数值型数据:按数字尺度测量的观测值,其结果表现为具体的数值。
例如:年龄、工资、产量等。
统计数据大体上可分为品质数据(定性数据)和数量数据(定量数据、数值型数据)。
1.2.2观测数据和实验数据按照统计数据的收集方法,可以分为观测数据和实验数据。
观测数据:通过调查或观测而收集的数据。
例如:降雨量、GDP、家庭收入等。
实验数据:在实验中控制实验对象而收集到的数据。
例如:医药实验数据、化学实验数据等。
1.2.3截面数据和时间序列数据按照被描述的现象与时间的关系,可分类截面数据和时间序列数据。
截面数据:在相同或近似相同的时间点上收集的数据。
例如:2012年我国各省市的GDP。
时间序列数据:同一现象在不同的时间收集的数据。
例如:2000-2012年湖北省的GDP。
1.3.1总体和样本总体:包含所研究的全部个体(数据)的集合。
样本:从总体中抽取的一部分元素的集合。
1.3.2参数和统计量参数:用来描述总体特征的概括性数字度量。
统计量:用类描述样本特征的概括性数字度量。
例如:某研究机构准备从某乡镇5万个家庭中抽取1000个家庭用于推断该乡镇所有农村居民家庭的年人均纯收入。
这项研究的总体是5万个家庭;样本是1000个家庭;参数是5万个家庭的人均纯收入;统计量是1000个家庭的人均纯收入。
第二章数据的搜集2.1数据的来源2.1.1数据的间接来源间接来源的数据:如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。
《统计学原理》知识点概括总结第一篇:《统计学原理》知识点概括总结统计的研究对象、方法统计统计研究的特点统计的职能统计工作统计学统计资料统计调查总体、总体单位(变换关系)统计整理指标标志(关系、可转换)统计分析数量指标/质量指标品质/数量标志不变标志/可变标志统计调查要求:准确、及时、完整分类:全面调查/非全面、经常性/一次性调查、统计报表/专门调查(普查、重点、典型、抽样)、方法方案:6w组织形式:报表/普查/重点/典型/抽样调查统计调查体系:统计整理内容:分组、汇总、编表分组:作用(类型、比例关系、依存关系)关键(选择分组标志)分布数列:构成要素、组中值、频率、频数、累计次数分布类型:钟形、U、J(反J)统计表:从形式上:从内容:综合指标总量指标(总体单位总量指标/总体标志总量指标、时期指标/时点指标)相对指标:计划完成、结构、比例、比较、强度、动态相对数平均指标:算术平均数简单算术平均数加权算术平均数说明:1、x,f;2、f,f/sigemaf;3、f相等,4、性质:调和平均数简单调和平均数加权调和平均数:说明:1、m=xf,2、m相同,3、使用条件:几何平均数:简单/加权众数:上限/下限公式中位数:上限/下限公式关系:标志变异指标:极差R平均差标准差(方差)离散系数:标准差系数用途:当平均数相等且单位相同的情况下,直接用R、AD、sigema来比较;如果平均数不等或计量单位不同时,用离散系数来比较。
是非标志的平均数和标准差:时间数列构成要素:t,a 总量指标时间数列(时期/时点数列)相对指标数列平均指标数列水平分析:发展水平平均发展水平总量指标时间数列—时期数列:a平均=sigema a/n--时点数列:四种相对数列/平均数列:增长量:累计、逐期平均增长量速度分析:发展速度(定基/环比、数量关系)增长速度(=发展速度-1、定基增长速度/环比增长速度)平均发展速度(几何法、方程法)平均增长速度=平均发展速度-1增长1%的绝对值=前期水平/100 统计指数分类:总指数/个体指数、综合指数/平均指标指数、数量指标指数/质量指标指数综合指数编制:数量指标指数质量指标指数(同度量因素、指数化因素、编制原则)平均指标指数:加权算术平均数指数加权调和平均数指数(变形)指数体系:相对数体系绝对数体系应用:指数推算因素分析:总量两因素分析平均指标对比指数因素分析可变构成指数=固定构成指数 * 结构影响指数抽样调查特点:三个区间估计:抽样平均误差(Ux,Up,影响因素)抽样极限误差(t,f(t)四个)估计N的确定(准确度、可靠度,影响因素)组织形式相关与回归相关:r回归:一元线性回归A,b B,含义,与相关系数估计标准误差可决系数=相关系数的平方第二篇:统计学原理总结统计的基本任务所谓推断,就是以样本所包含的信息为基础对总体的某些特征作出判断、预测和估计统计研究的基本方法有哪些1.大量观察法2.统计分组法3.综合分析法4.统计模型法5.归纳推断法如何理解统计总体的基本特征同质性,大量性,差异性试述统计总体和总体单位的关系凡是客观存在,并与某一项同性质基础结合起来的由许多事物组成的整体,称为总体;构成总体的每个独立的个别事物称为总给单位;随着研究和目的和任务的变动,总体和总体单位可以变换。
统计学重点部分归纳统计学重点部分归纳 Revised as of 23 November 2020第三章全距也称极差,是一组数据的最大值与最小值之差。
R=最大值-最小值组距分组数据可根据最高组上限 -最低组下限计算。
四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值。
SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。
Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4。
如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。
四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。
不受极端值的影响。
可以用于衡量中位数的代表性。
方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。
是反映定量数据离散程度的最常用的指标。
离散系数:标准差与其相应的均值之比,表示为百分数。
特点:(1)反映了相对于均值的相对离散程度;(2)可用于比较计量单位不同的数据的离散程度;(3)计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义数据分布的不对称性称作偏态。
偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。
峰度:数据分布的扁平或尖峰程度。
峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。
箱线图用于描述数据分布特征的一种图形。
最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。
在SPSS中标准的箱线图一般是这样绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子;由Q3至Q3+*IQR区间内的最大值向盒子的顶端连线,由Q1至*IQR区间内的最小值向盒子的底部连线;处于Q3+*IQR至Q3+3*IQR或者*IQR至Q1-3*IQR范围内的数据用圆圈标出;大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。
第一章导论●统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。
1.2 数据统计的类型1.按计量尺度划分:定类尺度(分类数据)、定序尺度(顺序数据)、定居尺度&定比尺度(数值型数据)【品质数据(定性数据):分类数据、顺序数据;数量数据(定量数据):数值型数据】2. 按搜集方法划分:观测数据、实验数据3. 按时间状况划分:截面数据、时序数据变量:说明现象某种特征的概念,从一次观察到下一次观察,结果会呈现出变化。
变量值:变量的具体取值分类变量顺序变量数值型变量(离散型变量&连续型变量)例:一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。
要求:(1)这一研究的总体是什么?(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?(3)研究者所关心的参数是什么?(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?(5)研究者所使用的主要是描述统计方法还是推断统计方法?第二章数据的搜集——一手资料调查——>调查数据实验——>实验数据调查的方式:普查、抽样调查、统计报表……——二手资料(统计公报、统计年鉴、网上资料、期刊、杂志、报纸……)2.2 抽样调查——概率抽样、非概率抽样概率抽样:也称随机抽样,指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样。
特点:★以随机原则抽取样本★每个单位被抽中的概率是已知的★用样本估计总体时,要考虑入样概率(概率抽样≠等概率抽样)1)简单随机抽样:从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的。
2)分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。
3)整群抽样:将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
4)系统抽样:将总体中的所有单位按一定顺序排列,按照拟抽样数,将其划分成相同的段,然后在每一段中的固定位置抽取一个调查单位。
5)多阶段抽样:先按整群抽样的方法,抽取群,再从选中的群中随机抽取若干单位进行调查,这是二阶段抽样。
多阶段抽样以此类推。
数据的误差:(1)抽样误差:由于抽样的随机性引起的样本结果与总体真值之间的误差只在概率抽样中(2)非抽样误差:除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。
存在于任何抽样或调查中第三章数据的图标展示3.1 数据的预处理:是在队数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。
1. 数据审核(发现数据中的错误)2. 数据筛选(找出符合条件的数据)3. 数据排序(发现数据基本特征、升序和降序)分类数据的排序:字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序:(1)递增排序:设一组数据为X1,X2,…,X N,递增排序后可表示为:X(1)<X(2)<…<X(N)(2)递减排序可表示为:X(1)>X(2)>…>X(N)数据透视表功能:简化数据分析人员的工作量,使其能快速准确地从各个角度查看数据。
※在利用数据透视表时,数据表的首行必须有列标题。
3.2 品质数据的整理与展示3.2.1 分类数据的整理与图示1. 列出各类别2. 计算各类别的频数3. 制作频数分布表4. 用图形展示分类数据中需要计算的指标1频数:落在各类别中的数据个数频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。
2.比例:某一类别数据占全部数据的比值3.百分比:将对比的基数作为100而计算的比值4.比率:不同类别数值的比值如何利用Excel计算频数(插入——函数—— countif)分类数据的图示条形图:条形图是用宽度相同的条形的高度或长短来表示数据多少的图形★各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图★对比条形图——显示分类变量在不同时间或不同空间上的差异或变化饼图:用圆形及圆内扇形的面积来表示数值大小的图形。
主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用,在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的3.2.2 顺序数据的整理与图示1. 累积频数:将各有序类别的频数逐级累加起来得到的频数。
向上累积:从类别顺序的开始一方,向类别顺序的最后一方累加频数;向下累积:从类别顺序的最后一方,向类别顺序的开始一方累加频数。
2. 累积频率:将各类别的百分比逐级累加3.3 数值型数据的整理与显示3.3.1 数据的分组:单变量值分组&组距分组(等距分组&异距分组)单变量值分组(要点)★适合于离散变量★适合于变量值较少的情况组距分组(要点):1.适合于连续变量,适合于变量值较多的情况;2.将变量值的一个区间作为一组;3.必须遵循“不重不漏”的原则;4.可采用等距分组,也可采用不等距分组1. 下 限:一个组的最小值2. 上 限:一个组的最大值3. 组 距:上限与下限之差4. 组中值:下限与上限之间的中点值组距分组(步骤)第1步:排序,确定组数(K )5≤K ≤15能够显示数据的分布特征和规律第2步:确定组距 组距=(最大值-最小值)÷组数 ★ 组距宜取5或10的倍数 第3步:根据分组整理成频数分布表 等距分组与不等距分组1. 等距分组 各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律2. 不等距分组 各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况分组数据—直方图1. 用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布2. 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图与条形图的区别1. 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。
2. 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。
3. 直方图的各矩形通常是连续排列,条形图则是分开排列。
第4章 数据的概括性度量数据分布特征的测度◆集中趋势的度量—— 反映数据向其中心值靠拢或聚集的程度 ◆离散程度的度量—— 反映数据远离其中心值的趋势 ◆分布的形状—— 反映数据分布的偏态和峰态4.1 集中趋势: 是指一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所在。
*测度集中趋势就是寻找数据一般水平的代表值或中心值; *不同类型的数据用不同的集中趋势测度值 分类数据—— 众数 顺序数据—— 中位数和分位数 数值型数据 —— 平均数 4.1.1 分类数据:众数 众数(MODE ):一组数据中出现次数最多的变量值,用Mo 表示;(1)主要用于测度分类数据的集中趋势,也可用于顺序数据和数值型数据; (2)众数是位置代表值,不受极端值影响;(3)可能没有众数、有一个众数或几个众数 ●数值型分组数据的众数1. 众数的值与相邻两组频数的分布有关2. 相邻两组的频数相等时,众数组的组中值即为众数3. 相邻两组的频数不相等时,众数采用下列近似公式计算i f f f f f f L M ⨯-+--+=+--)()(1110 (L 为众数组的下限值,i 为众数组的组距,f 为众数组的频数,f-1为众数组前一组的频数,f+1为众数组 2 组中值=下限值+上限值4.1.2 顺序数据:中位数和分位数中位数:是一组数据排序后处于中间位置上的变量值,用Me 表示★排序后处于中间位置上的变量值★不受极端值的影响★主要用于顺序数据,也可用数值型数据,但不能用于分类数据计算中位数的步骤 1. 排序 2. 确定中位数的位置: (N 为数据的个数)●数值型分组数据的中位数1. 计算累积频数2. 确定中位数所在组3. 采用下列近似公式计算: i f S NL M mm e⨯-+=-12 (L 为中位数所在组的下限值,N 为数据的个数;Sm-1为中位数所在组以前各组的累积频数,fm 为中位数所在组的频数,i 为中位数所在组的组距)四分位数:也称四分位点,他是一组数据排序后处于25%和75%位置上的值。
(1)排序后处于25%和75%位置上的值 (2)不受极端值的影响(3)主要用于顺序数据,也可用于数值型数据,但不能用于分类数据 四分位数的计算 1. 排序2. 确定四分位数的位置下四分位数为QL ,上四分位数为QU ,公式为:QL 位置 =n/4 QU 位置 =3n/4 *如果位置是整数,四分位数就是该位置对应的值; *如果是在0.5位置上,则取该位置两侧值的平均数;*如果是在0.25或0.75的位置上,则取该位置的下侧值加上按比例分摊位置两侧数值的差值 4.1.3 数值型数据:平均数 平均数(均值):它是一组数据相加后除以数据的个数得到的结果。
1. 平均数是一组数据相加后除以数据个数得到的结果。
2. 集中趋势的最主要测度值 3. 易受极端值的影响4. 用于数值型数据,不能用于分类数据和顺序数据。
简单平均数(对未分组数据计算的平均数)公式为:NXNX X X X Ni iN∑==+++=121加权平均数:对分组数据计算的平均数,设原始数据被分成k 组,各组的组中值为M1,M2,…,Mk ,各组频数为f1,f2, …,fk ,则加权平均数为,★ 简单平均数,其数值的大小只与变量值的大小有关;★ 加权平均数,其数值的大小不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数(fi )大小的影响。
如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越21+=N 中位数位置21+=N 中位数位置⎺X几何平均数: N 个变量值乘积的 N 次方根,用GM 表示其计算公式为:N Ni i N N M X X X X G ∏==⨯⨯⨯=1212. 主要用于计算平均比率和平均发展速度●众数、中位数和平均数的比较p94 1.众数、中位数和平均数的关系1. 如果数据分布是对称的,则Mo = Me = x2. 如果数据是左偏分布,则x < Me < Mo3. 如果数据是右偏分布,则Mo < Me < x4.2 离散程度的测度离散程度:它反映的是各变量值远离其中心值的程度。