统计学知识点梳理

  • 格式:docx
  • 大小:25.42 KB
  • 文档页数:14

下载文档原格式

  / 14
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学

第一章导论

1.1.1 什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

数据分析所用的方法分为描述统计方法和推断统计方法。

1.2 统计数据的类型

1.2.1 分类数据、顺序数据、数值型数据按照所采用的计算尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。

分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表示。

例如:支付方式、性别、企业类型等。

顺序数据:只能归于某一有序类别的非数字型数据。例如:员工对改革措施的态度、产品等级、受教育程度等。

数值型数据:按数字尺度测量的观测值,其结果表现为具体的数值。例如:年龄、工资、产量等。

统计数据大体上可分为品质数据(定性数据)和数量数据(定量数据、数值型数据)。

1.2.2 观测数据和实验数据按照统计数据的收集方法,可以分为观测数据和实验数据。

观测数据:通过调查或观测而收集的数据。例如:降雨量、GDP、家庭收入等。

实验数据:在实验中控制实验对象而收集到的数据。例如:医药实验数据、化学实验数据等。

1.2.3 截面数据和时间序列数据按照被描述的现象与时间的关系,可分类截面数据和时间序列数

据。截面数据:在相同或近似相同的时间点上收集的数据。例如:2012 年我国

各省市的GDP。

时间序列数据:同一现象在不同的时间收集的数据。例如:2000-2012年湖

北省的GDP。

1.3.1 总体和样本

总体:包含所研究的全部个体(数据)的集合。样本:从总体中抽取的一部分元素的集

合。

1.3.2 参数和统计量参数:用来描述总体特征的概括性数字度量。统计量:用类描述样本特

征的概括性数字度量。

例如:某研究机构准备从某乡镇5 万个家庭中抽取1000 个家庭用于推断该乡镇所有农村居民家庭的年人均纯收入。这项研究的总体是5 万个家庭;样本是1000 个家庭;参数是5 万个家庭的人均纯收入;统计量是1000 个家庭的人均纯收入。

第二章数据的搜集

2.1 数据的来源

2.1.1 数据的间接来源间接来源的数据:如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。

例如:统计公报、统计年鉴、某机构或某团体提供的数据、期刊、报纸和图书提供的数据、会议交流的数据、互联网查阅的数据等。

二手数据的优缺点:优点:搜集方便,采集成本低,数据采集快,作用广泛等。

缺点:针对性不够。

2.1.2 数据的直接来源

普查:调查针对总体中的所有个体单位进行。

普查数据的优缺点:

优点:调查范围广,被调查单位多,信息全面,完整。

缺点:调查费时,费力,费钱。

2.2 调查数据

2.2.1 概率抽样和非概率抽样

重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n 个元素为止的抽样方法。

简单随机抽样:从含有N 个元素的总体中,抽取n 个元素作为样本,使得总体中的每一个元素都有相同的概率被抽中的抽样方式。

分层抽样:在抽样时,将总体分成互不交叉的若干个层级,然后按一定的比例,从各层次独立地随机抽取一定数量的个体,将各层次取出的个体合在一起作为样本。

整群抽样:先将总体划分为若干群体,然后以群作为抽样单位从中抽取部分群,再对抽

中的各个群中所包含的所有元素进行观察的抽样方式。

方便抽样:调查过程中由调查员依据方便原则,自行确定入样单位。

滚雪球抽样:调查时首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查的调查方式。

2.4.1 抽样误差样本量与抽样误差成反比。随着样本量的逐渐增大,抽样误差就越小。

2.4.3 误差的控制

通过样本量的大小控制可以改变误差大小,要求的抽样误差越小,所需要的样本量就越大。

第三章数据的图表展示

3.2.1 分类数据的整理与图示

(3)饼图主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。适合于描述结构性问题。

(4)环形图

显示多个样本各部分所占的相应比例。适合于比较研究两个或多个样本或总体的结构性问题。

3.3.1 数据分组为解决数据分组不重的问题,统计分组时习惯上规定“上组限不在内” 即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下

一组。(a< x v b)

3.3.2 数值型数据的图示

1. 分组数据:直方图用于展示分组数据分布的一种图形。

直方图与条形图区别:条形图:条形长度表示频数;宽度固定不变;矩形分开排列;展示分类数据直方图:面积表示频数;宽度表示组距;矩形连续排列;展示数值型数据

3.时间序列数据:线图

主要用于反映现象随时间变化的特征,描述其变化趋势

4.多变量数据的图示

(1)散点图

适合用于描述两变量之间是否存在某种关系数据图示的原则:适合于低层次数据的整理和显示方法也适合于高层次的数据;

但适合于高层次数据的整理和显示方法并不适合于低层次的数据第四章数据的概率性度量

4.1 集中趋势的度量

集中趋势:一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所

在。

原则:低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据

4.1.1 分类数据:众数一组数据中出现次数最多的变量值。适合于数据量较多时使用。主要用于分类数据,也可用于顺序数据和数值型数据。

4.1.2 顺序数据:中位数和分位数

1. 中位数

一组数据排序后处于中间位置上的变量值,用M e表示。中位数将全部数据

平分为两部分,各占50%数据。

适用范围:顺序数据、数值型数据的集中趋势测度,不适用于分类数据测量。中位数计算步骤:

1.数据排序;

2.确定中位数位置;

3.确定具体值

中位数位置计算:(n+1)/2 中位数值的计算:奇数时,X (n+1)/2;偶数时,1/2{X

(n/2)+X(n/2+1)}

2. 四分位数

将一组数据数据排序后四等份(各占25%数据),处于25%位置点(下四分位)和75%位置点(上四分位)上的值。

四分位数计算步骤:

1. 数据排序;

2.确定四分位数位置;

3.确定具体值四分位数位置确定方法:(不同确定方法,不同四分位数值)

Q L=n/4; Q u=3 n/4

厂整数位置:整数对应值

0.5的位置:两侧值得平均值

0.25或0.75的位置:下侧值+ (上侧值一下侧值)*0.25或者0.75

4.1.3数值型数据:平均数

一组数据相加之后除以数据个数得到的数值,是集中趋势的最主要测度值适用范围:数值型数据,不适用于顺序数据和分类数据。