统计学期末复习重点概要
- 格式:doc
- 大小:417.50 KB
- 文档页数:13
统计学原理与实务各章节复习知识点归纳(考试复习资料精华版-根据历年考试重点以及老师画的重点原创整理)第一章总论重点在“第三节:统计学中的基本概念”考点一:掌握以下四组概念(含义及举例)——肯定考一个名词解释!①总体、总体单位(统计)总体:是由客观存在的,具有某种共同性质的许多个别事物构成的整体。
总体单位:构成总体的个别事物。
②标志、标志值及分类标志:说明总体单位特征的名称。
分类:Ⅰ按性质不同a.品质标志:说明总体单位的品质特征,一般用文字表现。
(有些品质标志虽然以数量表现,但实质表现产品质量差异。
例如产品质量的具体表现未“一等、二等、三等”。
)b.数量标志:说明总体单位的数量特征。
只能用数值来表现。
Ⅱ按变异情况可变标志:当一个标志在各个总体单位表现不尽相同时称为可变标志不变标志:……都相同……不变标志。
标志值:标志的具体表现。
③变量、变量值变量:指数量标志。
变量值:指数量标志值,具有客观存在性。
④指标的含义及分类(统计)指标:是综合反映统计总体某一数量特征的概念和数值,简称指标。
a.按其反映总体现象内容不同:数量指标(绝对数,绝对指标,总量指标),质量指标(相对数或平均数,相对指标和平均指标)。
b.按其作用不同:总量指标,相对指标和平均指标。
c.按反映的时间特点不同:试点指标和时期指标d.计量单位的特点:实物指标、价值指标和劳动指标。
★指标和标志的区别与联系:区别:①标志是说明总体单位特征的名称;指标是说明总体的数量特征;②标志既有反映总体单位数量特征的,也有反映总体单位品质特征;而指标只反映总体的数量特征;③凡是统计指标都具有综合的性质,而标志一般不具有。
联系:①许多指标由数量标志值汇总而得;②指标与数量标志可随统计研究目的而改变;课后习题:社会经济统计学研究对象的特点是:数量性、总体性、变异性。
统计研究运用的方法主要包括:大量观察法、统计分组法、综合指标法、统计模型法标志值就是标志表现。
第二章统计调查考点一:统计报表的分类①填报内容和实施范围:国家、部门和地方统计报表②调查范围:全面、非全面③报送周期长短:日报、旬报、月报、季报、半年报和年报④填报单位:基层、综合报表考点二:“普查”的含义普查:是普遍调查的简称。
统计学基础知识期末复习资料统计学是一门研究收集、整理、分析和解释数据的学科。
它是一个广泛的学科领域,应用于各个行业和领域。
在期末考试前夕,复习统计学的基础知识是非常重要的。
本文将为你提供统计学基础知识的复习资料,帮助你更好地准备期末考试。
1. 描述性统计描述性统计是统计学的基础,它涉及到对数据进行整理、总结和分析。
描述性统计包括以下几个方面:- 中心趋势的测量:包括平均数、中位数和众数。
平均数是一组数据的算术平均值,中位数是一组数据的中间值,众数是一组数据中出现次数最多的值。
- 变异性的测量:包括范围、方差和标准差。
范围是一组数据的最大值和最小值之间的差距,方差是数据偏离平均值的平方和的平均值,标准差是方差的平方根。
- 分布形状的测量:包括偏度和峰度。
偏度描述了数据的分布形状的对称性,偏度为0表示数据分布是对称的,偏度大于0表示数据分布是正偏的,偏度小于0表示数据分布是负偏的。
峰度描述了数据分布的尖峰程度,峰度大于0表示数据分布是尖峰的,峰度小于0表示数据分布是平坦的。
2. 概率基础概率是描述事件发生可能性的数值。
在统计学中,概率是非常重要的,因为它用于计算和预测事件的发生概率。
以下是概率的基本概念:- 随机试验和样本空间:随机试验是指在相同条件下可以重复进行的实验,样本空间是随机试验所有可能结果的集合。
- 事件和事件的概率:事件是样本空间的子集,事件的概率是事件发生的可能性。
- 条件概率和独立事件:条件概率是指在已知某一事件发生的前提下,另一事件发生的概率。
两个事件是独立的,当且仅当一个事件的发生不受另一事件发生与否的影响。
- 概率分布:概率分布是指随机变量所有可能取值与其对应的概率之间的关系。
常见的概率分布包括离散概率分布和连续概率分布。
3. 参数估计和假设检验参数估计和假设检验是统计学中常用的方法,用于从样本中推断总体的特征或进行统计推断。
以下是参数估计和假设检验的基本概念:- 参数估计:参数估计是根据样本数据推断总体参数的数值。
统计学复习知识点一、统计学的基本概念统计学是一门研究数据收集、整理、分析和解释的学科。
它帮助我们从数据中获取有用的信息,做出合理的决策,并对现象进行描述和预测。
首先要了解总体和样本的概念。
总体是我们所研究的全部对象的集合,而样本则是从总体中抽取的一部分用于观察和分析的对象。
例如,要研究全国所有大学生的身高情况,全国大学生就是总体,而从其中抽取的部分大学生则构成了样本。
变量是统计学中的重要概念,它可以分为定性变量和定量变量。
定性变量是指不能用数值表示的变量,如性别(男、女)、职业(教师、医生等);定量变量则是可以用数值表示的变量,又分为离散型变量(如班级人数)和连续型变量(如身高、体重)。
数据可以分为观测数据和实验数据。
观测数据是通过观察、测量等方式收集到的数据,而实验数据则是通过控制实验条件得到的数据。
二、数据收集数据收集是统计学的第一步。
常见的数据收集方法有普查和抽样调查。
普查是对总体中的每一个个体进行调查,能得到全面准确的信息,但成本高、耗时费力。
抽样调查则是从总体中抽取一部分样本进行调查,具有省时省力、成本低的优点,但需要注意抽样的科学性和代表性。
抽样方法包括简单随机抽样、分层抽样、系统抽样和整群抽样等。
简单随机抽样是完全随机地抽取样本;分层抽样是将总体按照某些特征分成若干层,然后从每层中分别抽样;系统抽样是按照一定的规则抽取样本;整群抽样是将总体分成若干群,然后抽取若干群作为样本。
在收集数据时,要确保数据的准确性和完整性,避免误差和缺失值。
三、数据整理收集到的数据往往是杂乱无章的,需要进行整理。
整理数据的第一步是对数据进行审核,检查数据的准确性和完整性。
然后对数据进行分类和编码,以便于后续的分析。
数据的分组是整理数据的重要环节。
可以按照变量的类型和取值进行分组。
对于定量变量,可以采用等距分组或不等距分组的方法。
等距分组是将数据按照相等的区间进行分组,不等距分组则是根据数据的特点和研究目的,采用不同的区间长度进行分组。
统计学知识点提要第一章绪论1.统计学的产生与发展部分,要求了解不同时期各大学派的贡献、代表人物及学术观点2.结合实际问题做出对统计总体和总体单位的判断3.总体与总体单位之间的联系4.会区分样本、参数、统计量5.统计标志及其分类6.数量指标与质量指标,要求会对不同指标所属类型进行判断7.统计数据的分类,按计量尺度、按时间与现象之间的联系以及按搜集方法划分第二章统计数据的描述1.统计调查的分类,会对不同的调查做出类型判断2.抽样误差与非抽样误差如何划分3.抽样误差与非抽样误差的基本概念、所包含的具体类型以及对上述各种误差如何实施控制4.众数的概念、特点及适用范围5.中位数概念、特点及适用范围(四位数不要求掌握)6.均值概念、特点及不同类型均值的求解7.众数、中位数与均值的比较,结合不同的分布进行判断8.方差、标准差概念及其特点9.离散系数的应用10.偏态与峰度(考试不作要求)第四章抽样与抽样分布1.抽样方式的划分,不同抽样方式的特点及其在实际问题中的应用(重点)2.样本均值的抽样分布3.样本比率的抽样分布4.样本方差的抽样分布5.抽样分布于总体分布之间的关系第五章参数估计1.估计量与估计值的区别2.点估计与区间估计的区别3.区间估计原理分析及图示4.置信区间宽度的影响因素5.置信水平与置信区间的关系6.评价估计量的标准有哪些7.总体均值的区间估计方法及应用8.总体比率的区间估计方法及应用9.总体方差的区间估计方法及应用10.样本容量如何确定,公式及与影响因素之间的关系第六章假设检验1.假设的陈述,会对不同类型的问题提出原假设与备择假设2.双侧检验与单侧检验的判断及应用3.假设检验中两类错误4.假设检验的过程与逻辑,能够结合实际问题分析5.P值决策含义及其在实际问题中的应用6.总体均值的检验及应用7.总体比例的检验及应用8.总体方差的检验及应用9.两个总体参数的检验(不作为考试要求)第七章方差分析与实验设计1.方差分析的含义2.方差分析中的相关术语3.方差分析的基本思想和原理4.总误差平方和、组内方差、组间方差如何求解5.方差分析中的假定及假设形式6.如何读懂单因素方差分析表,并根据表的内容做出判断7.不同差异源对应的自由度如何求解8.如何构造检验统计F,并做出统计决策9.方差分析中的多重比较(不作要求)10.双因素方差分析的基本类型11.试验设计的类型划分12.不同试验设计类型所适用的方差分析方法第八章相关与回归分析1.函数关系与统计关系的区别2.相关关系的分类3.相关分析,回归分析基本概念4.相关分析与回归分析、因果关系分析之间的区别与联系5.总体回归函数与样本回归函数基本概念6.回归系数的估计方法7.简单线性回归的基本假定8.线性回归的检验9.回归方程的评价10.简单线性回归模型的点预测11.多元线性回归的应用(不作要求)12.多元线性回归的基本假定与简单线性回归基本假定的差别13.非线性相关回归(不作要求)第九章时间序列分析1.时间序列概念及其分类2.时间序列的发展水平与平均发展水平的计算3.增长量与平均增长量的计算4.环比发展速度与定基发展速度的计算5.环比增长速度与定基增长速度的计算6.平均发展速度与平均增长速度的计算7.时间序列及其构成因素的简单划分8.趋势模型方法(不作要求)第十章统计指数1.统计指数及其分类2.拉氏指数与帕式指数的编制方法与差异3.拉氏指数与帕式指数的计算。
统计总体:统计总体是根据一定目的确定的所要研究事物的全体,它是客观存在,并在某一相同性质基础上结合起来的由许多个别事物组成的整体,简称总体。
样本:是指在全及总体中按随机原则抽取的那部分单位所构成的集合体。
算术平均数:算术平均数是统计中最基本、最常用的一种平均数,它的基本计算形式是用总体的单位总数去除总体的标志总量。
调和平均数:是根据变量值的倒数计算的,是变量值倒数的算术平均数的倒数,也叫倒数平均数。
简单分组:是指对所研究的总体按一个标志进行分组。
复合分组:复合分组是指对所研究的总体按两个或两个以上的标志进行的多层次分组。
结构相对指标:结构相对指标是表明总体内部的各个组成部分在总体中所占比重的相对指标,也叫比重指标。
强度相对指标:是指两个性质不同,但有一定联系的总量指标数值之比。
类型抽样:又称分类抽样或分层抽样,它是先将总体按某个主要标志进行分组(或分类),再按随机原则从各组(类)中抽取样本单位的一种抽样方式。
机械抽样:它是将总体各单位按某一标志顺序排列,然后按固定顺序和相等距离或间隔抽取样本单位的抽样组织方式。
综合指数:凡是一个总量指标可以分解为两个或两个以上的因素指标时,为观察某个因素指标的变动情况,将其他因素指标固定下来计算出的指数称为综合指数。
平均指数:平均指数法是以个体指数为基础来计算总指数,根据选用的权数不同,平均指数法可以进一步分为加权算术平均法,加权调和平均法,固定权数加权平均法。
相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。
回归分析:现象之间的相关关系,虽然不是严格的函数关系,但现象之间的一般关系值,可以通过函数关系的近似表达式来反映,这种表达式根据相关现象的实际对应资料,运用数学的方法来建立,这类数学方法称为回归分析。
统计调查:就是根据统计研究的目的、要求和任务,运用各种科学的调查方法,有计划、有组织的搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的调查资料的活动过程。
统计学类专业复习重点梳理与分析统计学是一门具有广泛应用领域的学科,涵盖了许多重要的知识点和技能。
为了帮助同学们更好地进行复习,本文将系统地梳理和分析统计学类专业的复习重点。
通过对不同主题和内容的梳理和分析,希望能帮助同学们更好地理解和掌握统计学的核心知识。
一、描述统计学描述统计学是统计学的基础,包括对数据的收集、整理、汇总和可视化等技巧。
其中,收集数据的方法包括随机抽样、问卷调查等;整理数据的方法包括数据清洗、处理异常值等;汇总数据的方法包括计算平均数、中位数、众数等;可视化数据的方法包括绘制直方图、散点图、箱线图等。
同学们在复习时,应注意理解和掌握这些技巧的具体操作方法,并能够根据实际情况进行数据的处理和分析。
二、概率论与数理统计概率论与数理统计是统计学的核心内容,包括了概率的基本概念、随机变量及其分布、多个随机变量之间的关系等。
在复习时,同学们应重点关注以下几个方面的内容:1. 概率计算:理解和掌握概率的基本计算方法,包括加法原理、乘法原理、条件概率等。
2. 随机变量:了解随机变量的概念和性质,掌握常见离散型和连续型随机变量的分布特征,如二项分布、正态分布等。
3. 多个随机变量:理解和掌握多个随机变量之间的关系,包括相互独立、相关性等概念,以及相关系数、协方差等的计算方法。
4. 统计推断:了解统计推断的基本思想和方法,包括参数估计、假设检验等。
掌握常见的估计方法,如最大似然估计、置信区间等。
三、统计计算与建模统计计算和建模是统计学的实践部分,包括了使用计算机软件进行数据分析和建立统计模型等。
在复习时,同学们应注重以下几个方面的内容:1. 统计软件:熟悉并掌握常用的统计软件,如R、SPSS等。
了解软件的基本操作方法,包括数据导入、变量命名、运算和图形绘制等。
2. 数据分析:了解常用的数据分析方法,如方差分析、回归分析等。
理解和掌握不同方法的应用场景和具体计算步骤。
3. 统计建模:理解统计建模的基本原理和步骤,包括变量选择、模型拟合和模型评估等。
统计学期末复习重点一.单项选择(20 X 2=40)单选题所涉及的知识点,不用死记概念,要理解其内涵,灵活应用!第一章.绪论统计的定义:统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。
统计学的定义:统计学是关于数据的科学,研究如何收集(如调查与试验)、分析(回归分析)、表述数据(图与表),并通过数据得出基本结论。
统计的研究对象的特点:①数量性。
统计数据是客观事物量的反映。
②总体性。
统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。
③变异性。
总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。
统计的分类:统计可分为描述统计,推断统计、核算统计、理论统计、应用统计描述统计:汇总的表、图和数值。
包括搜集数据、整理数据、展示数据推断统计:用样本数据对总体性质进行估计,检验核算统计:对国家或地区经济运行过程及各类总量进行描述和分析总体:根据一定目的确定的所要研究的事物的全体。
它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。
总体单位(简称单位):是组成总体的各个个体。
根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。
样本:由总体的部分单位组成的集合。
样本容量:样本所包含的总体单位数标志(变量):总体各单位普遍具有的属性或特征。
标志的分类:①品质标志:单位属性方面的特征。
品质标志的表现只能用文字、语言来描述。
②数量标志:单位数量方面的特征。
数量标志可以用数值来表现几种常用的统计软件:SAS SPSS MINITAB STATISTICA Excel思考题:1、在调查某高校学生的学习状况时,总体是(C )A该校全部学生B该校每个学生C该校全部学生的学习情况D被随机抽取进行数据采集的全部学生2. 要了解全国的人口情况,总体单位是(A )。
A.每一个人B.每一户C.每个省的人口D.全国总人口第二章.数据数据:所收集、分析、汇总表述和解释的事实及数字,数据是进行统计分析研究的基础;是统计学研究对象的特征,是客观事实;不仅仅局限于数字范畴,包括非数字形式的其他信息。
统计期末重点知识(doc 11页)部门: xxx时间: xxx整理范文,仅供参考,可下载自行编辑第一章绪论1. 数理统计学派(19c)----比利时的凯特勒2. 统计学特点:数量性、总体性、具体性、社会性3. 一个完整的统计工作过程:统计调查、统计整理、统计分析4. 统计总体(简称总体)——客观存在的、在同质基础上结合起来的许多个别单位的整体。
例如,要调查我国工业企业的生产情况,全国的工业企业便构成一个总体。
5.总体单位——构成总体的各个单位。
例如,要研究某市工业企业生产设备的使用情况,那么该市所有工业企业的全部生产设备为总体,每一台设备为总体单位。
注意:①构成总体的单位必须是同质的,不能把不同质的单位混在总体之中。
②总体与总体单位具有相对性,随着研究任务的改变而改变。
6. 统计标志——用来说明总体单位所具有的属性(简称标志)或特征的名称。
例如,调查某企业职工的情况,该企业的每一个职工是总体单位,性别、工种、籍贯、年龄、身高、体重等便是统计标志。
①数量标志:说明总体单位量的特征,是可用数字来表示的,如年龄、身高、收入等。
②品质标志:说明总体单位质的特征,不能用数字来表示的,如性别、籍贯、工种等。
7. 统计指标——综合反映统计总体数量特征的名称。
一个完整的统计指标包括指标名称(质)和指标数值(量)两部分。
8. 指标与标志的联系和区别:区别:①. 标志是说明总体单位特征的,而指标是说明总体特征的;②. 指标都能用数字表示,而标志中的品质标志是用文字来描述的,不能用数值表示。
联系:①. 大多数指标的数值是从总体单位的数量标志值综合而来;例如,某企业的工资总额是由该企业全部职工的工资汇总而来;②. 两者之间存在着一定的变换关系。
9.统计指标按照内容不同,分为:①数量指标:说明总体规模大小、数量多少的总量指标,一般用绝对数表示;如国内生产总值、产品产量、职工人数、工资总额等。
②质量指标:表明总体质量的指标,反映现象的相对水平或工作质量,一般用相对数或平均数表示;如企业职工的平均工资、劳动生产率、人口密度等。
统计学期末复习重点知识统计学期末复习➢ 统计的研究对象的特点:数量性;总体性;变异性。
➢ 日常生活中,“统计”的3种含义:统计工作;统计数据;统计学。
➢ 按分组的作用和任务不同,分为类型分组、结构分组和分析分组。
➢➢ 相关系数的计算:∑∑--∑--=22)()())((y y x x y y x x r ∑∑∑∑-=--yx n xy y y x x 1))((∑∑∑-=-222)(1)(x n x x x ∑∑∑-=-222)(1)(y ny y y ny y x x n y y x x /])()([/)])(([22∑∑--∑--=∑∑--∑--=22)()())((y y x x y y x x r计算相关系数的“积差法”简单线性回归中估计的回归方程为:)()(y x xy n xy L∑⋅∑-∑=2)(2x x n xxL ∑-∑=2)(2y y n yy L ∑-∑=yyL xx L xy L r =ny y n x x n y y x x ∑∑∑-⋅---=2)(2)())((yxn yn x n xy σσ∑⋅∑-∑=yx y x xy σσ⋅-=⎪⎪⎪⎩⎪⎪⎪⎨⎧-=∑⋅-∑=∑⎪⎭⎫ ⎝⎛∑-⎪⎭⎫ ⎝⎛∑⎪⎭⎫ ⎝⎛∑∑-=========xy nx n y x x n y x y x n L L n i i n i i n i ni i i ni i n i i n i i i xx xy 111101121111ˆˆˆˆββββ1x y 10ˆˆˆββ+=估计标准误差 Sy :由样本资料计算:由总体资料计算或在大样本情况下:总量指标时期数列的序时平均数:算术平均法连续时点数列的序时平均数:算术平均连续每天资料不同:()2ˆ12-∑-==n y y S ni i i y ()ny y S ni i iy ∑-==12ˆ∑=+++=in y nn y y y y 121持续天内资料不变:间断时点数列的序时平均数:※间隔相等时,采用首末折半法计算;间隔不相等时,采用时间间隔长度加权平均:相对数数列(平均数数列)序时平均数:∑∑++++++=ff y f f f f y f y f y y n n n =212211持续天数—i f 122122212113221-++++=-++++++=--n y y y y n y y y y y y y n n n n 12111232121222---+++⨯+++⨯++⨯+=N N NN f f f f y y f y y f y y y⑴ a 、b 均为时期数列时:⑵ a 、b 均为时点数列时:⑶ a 为时期数列、b⎪⎩⎪⎨⎧定基发展速度环比发展速度发展速度 y y t t1-=y y t 0=)定基发展速度1()∏环比发展速度 = y y y y y y y y 1n n12010t -⨯⨯⨯= 0101y y y y y y t t t t --=)相邻定基发展速度的比环比发展速度=2()()⎪⎩⎪⎨⎧=定基环比增长速度y y y t t t 11--- y y y t 00-直线趋势的测定:最小二乘法: 直线趋势方程:用最小平方法求解参数 a 、b ,有()nnx定基发展速度环比发展速度==∏1-平均发展速度=平均增长速度()()0n1i in2y y∑=+++=x x x∑∑∑∑∑+=+=2tb t a ty tb na y tb y a t t n y t ty n b -=--=∑∑∑∑∑22)(求解a 、b 的简捷方法:取时间数列中间项为原点N 为奇数时,令t = …,-3,-2,-1,0,1,2,3, … N 为偶数时,令t = …,-5,-3,-1,1,3,5, …年 份1季2季3季4季1994199519961997199825.224.423.82625.117.118.419.419.118.612.614.113.815.715.119.318.92121.620.81)直接平均法:=∑t yny a tty b ===∑∑∑2。
1.多重共线性:当回归模型中存在两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。
2.相关关系:变量之间存在的不确定的数量关系,称为相关关系。
3.五个相关关系:正线性相关,负线性相关,完全正线性相关,完全负线性相关,非线性相关,不相关。
若 0<r≤1,表明 x 与 y 之间存在正线性相关关系;若-1≤r <0,表明 x 与 y 之间存在负线性相关关系;若 r=+1,表明 x 与 y 之间为完全正线性相关关系;若 r=-1,表明 x 与 y 之间为完全负线性相关关系。
|r|→1 说明两个变量之间的线性关系越强;|r|→0 说明两个变量之间的线性关系越弱。
4.回归直线的拟合优度:回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。
判定系数 R2测度了回归直线对观测数据的拟合程度。
5.最小二乘估计法:通过使因变量的观测值 yi 与估计值yi ∧之间的离差平方和,即残差平方和,达到最小来估计β0和β1的方法。
6. F 检验和 t 检验各有什么作用:F 检验是检验自变量 x 和因变量 y 之间的线性关系是否显著;t 检验是检验自变量对因变量的影响是否显著,也就是回归系数的检验。
7.8.正态分布—Z分布:大样本或小样本总体标准差σ已知。
9.N-1的T分布:小样本σ未知。
10.参数估计:点估计与区间估计11.置信区间:由样本统计量所构造的总体参数的估计区间。
12.置信水平:置信区间中包含总体参数真值的次数所占的比例。
置信水平越大,所需的样本量也就越大,置信区间越宽。
13.评价估计量的标准:无偏性:是指估计量抽样分布的数学期望等于被估计的总体参数有效性:是指对同一参数的两个无偏估计量,有更小方差的估计量越有效。
一致性:是指随着样本量n的增大,估计量的值越来越接近总体参数的真值。
14.样本量越大,样本均值的抽样标准差就越小。
15.总体数据的方差越大,估计时所需的样本量越大。
16.数据概括性度量:(数据分布特征的测量)集中趋势,离散程度,分布形态(偏态与峰态)17.三个分布:对称分布—众数=中位数=平均数左偏分布—平均数<中位数<众数右偏分布—众数<中位数<平均数18.标准分数的用途:①变量值与其平均数的离差除以标准差后的值称为标准分数,用Z表示。
统计学期末复习重点一.单项选择(20 X 2=40)单选题所涉及的知识点,不用死记概念,要理解其内涵,灵活应用!第一章.绪论统计的定义:统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。
统计学的定义:统计学是关于数据的科学,研究如何收集(如调查与试验)、分析(回归分析)、表述数据(图与表),并通过数据得出基本结论。
统计的研究对象的特点:①数量性。
统计数据是客观事物量的反映。
②总体性。
统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。
③变异性。
总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。
统计的分类:统计可分为描述统计,推断统计、核算统计、理论统计、应用统计描述统计:汇总的表、图和数值。
包括搜集数据、整理数据、展示数据推断统计:用样本数据对总体性质进行估计,检验核算统计:对国家或地区经济运行过程及各类总量进行描述和分析总体:根据一定目的确定的所要研究的事物的全体。
它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。
总体单位(简称单位):是组成总体的各个个体。
根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。
样本:由总体的部分单位组成的集合。
样本容量:样本所包含的总体单位数标志(变量):总体各单位普遍具有的属性或特征。
标志的分类:①品质标志:单位属性方面的特征。
品质标志的表现只能用文字、语言来描述。
②数量标志:单位数量方面的特征。
数量标志可以用数值来表现几种常用的统计软件:SAS SPSS MINITAB STATISTICA Excel思考题:1、在调查某高校学生的学习状况时,总体是(C )A该校全部学生B该校每个学生C该校全部学生的学习情况D被随机抽取进行数据采集的全部学生2. 要了解全国的人口情况,总体单位是(A )。
A.每一个人B.每一户C.每个省的人口D.全国总人口第二章.数据数据:所收集、分析、汇总表述和解释的事实及数字,数据是进行统计分析研究的基础;是统计学研究对象的特征,是客观事实;不仅仅局限于数字范畴,包括非数字形式的其他信息。
个体——总体单位:收集数据的实体,也就是数据的承载者变量(标志):个体的特征或者属性变量值:个体在变量上的具体表现(例如,固定资产是一个变量,各企业固定资产的具体数值是变量值)指标(统计指标):是说明总体的综合数量特征的。
标志:总体各单位普遍具有的属性或特征指标与标志的区别:①标志是说明总体单位特征的,而指标是说明总体特征的。
②指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的。
连续型变量:变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。
(例如,气象上的温度、湿度,零件的尺寸等)离散型变量:变量的取值是整数值,可以一一列举。
(例如,企业数,职工人数)数据的分类:品质数据:不能用数字来表述的特征。
如人的性别,民族,宗教信仰等数量数据:用数字能够表述的特征,数值型特征,如人的身高,体重等二者的区别:数量数据总是以数字形式表现,品质数据可以是数值型,也可以是非数值型。
只有数量数据可以进行数学运算数据的计量尺度:可分为定类尺度、定序尺度、定距尺度、定比尺度定类变量:“名义型变量”,值只能用文字表述,说明事物是属于这一类还是属于那一类,不同类别间地位相等,没有高低优劣之分,如性别,民族,党派。
定序变量:“顺序型”变量,变量值只能用文字表述。
与定类变量不同的是,定序变量的值有高低、大小、多少、优劣、强弱等方面的区分,即变量的值有顺序性。
如考试成绩用优秀,良好,及格,不及格来显示,用文盲、半文盲、小学、初中、高中、大学、研究生来标记每个人的文化程度。
定距变量:变量值为数值型,对事物的准确测度,比定序尺度精确,没有绝对零点,变量值只能进行加减计算而不能进行乘除计算,如温度,公元纪年等极少数现象属于定距变量定比变量:数据表现为“数值”对事物的准确测度,与定距尺度处于同一层次,有绝对零点,具有⨯或÷的数学特性,可以进行任何形式的计算截面数据:相同或近似相同的时间点上收集的数据,某个时间点或某瞬间事物或现象的特征情况,静态数据时间序列数据:在几个时期或时点收集到,反映同一主体同一特征情况的数据, 动态数据统计调查方式:统计调查方式有普查、抽样调查、典型调查、重点调查普查:为特定目的专门组织的非经常性全面调查,通常是一次性或周期性的;一般需要规定统一的标准调查时间,应用范围比较狭窄,如人口普查,工业普查抽样调查:从总体中随机抽取一部分单位(样本)进行调查,分重复抽样和不重复抽样,目的是推断总体的未知数字特征,遵循随机性原则,存在调查误差,并且可以加以控制,具有经济性、时效性强、适应面广、准确性高等特点典型调查:从调查对象的全部单位中选择少数典型单位进行调查,目的是描述和揭示事物的本质特征和规律,调查结果不能用于推断总体重点调查:从调查对象的全部单位中选择少数重点单位进行调查,调查结果不能用于推断总体,优点在于调查单位少,可以调查较多的项目和指标,了解较详细的情况。
即用较少的人力和时间,取得较好的效果。
组织重点调查的关键问题是确定重点单位。
调查误差:收集的数据资料与真实情况之间的差距,可分为登记性误差和代表性误差,登记性误差:由于调查者或被调查者的人为因素所造成的误差,理论上讲可以消除。
代表性误差:用样本数据进行推断时所产生的误差,通常无法消除,但事先可以进行控制和计算。
组距分组步骤:①确定组数:组数的确定没有专门的规定,应以能够显示数据的分布特征和规律为目的。
建议组数:5-20组②组限:变量值区间两端的值,上限和下限,其中上限为一个组的最大值,下限是一个组的最小值 ③确定各组组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定注意:开口组只有一个组限,无法计算组距,开口组以相邻一组的组距作为其组距④根据分组整理成频数分布表组距:上限与下限之差 组距=( 最大值 - 最小值)÷ 组数 组中值:下限与上限之间的中点值 组中值=(下限值+上限值)/2第三章. 单变量描述统计 频数——次数:对总体经过分组后形成各组单位数在各组间的分布。
也就是各类别中的数据个数。
频数分布——次数分布,分布数列:总体中的各个类别及其相应的频数全部展示出来的数据集汇总表累计频数 (P62 表3-3)向上累计:将各组次数和比率,由变量值低的组向变量值高的组逐组累计。
向下累计:将各组次数和比率,由变量值高的组向变量值低的组逐组累计。
众数:出现次数最多的变量值。
对单项式分组数列确定众数:出现次数最多的标准值就是众数(书P63例3.2) 对组距数列确定众数:出现次数最多的组作为众数所在组 中位数:排序后处于中间位置上的值。
中位数位置的确定: (看书P65 例3.4)未分组数据:组距分组数据: (根据向上/下累计法确定中位数)未分组数据的中位数的计算公式:四分位数:把数据分为4部分,处在分位点的数值 四分位数位置的确定:未分组数据:下四分位数位置=(N+1)/4 上四分位数位置=3*(N+1)/4组距分组数据:下四分位数位置=N/421+=N 中位数位置21+=N 中位数位置21+=f 中位数位置21∑+=f 中位数位置+⎪⎭⎫ ⎝⎛+N N N e 12221⎪⎪⎩⎪⎪⎨⎧⎪⎪⎭⎫ ⎝⎛+=+⎪⎭⎫ ⎝⎛+为偶数时当为奇数时当N X X N X M N N Ne 1222121上四分位数位置=3N/4均值 (P69 例3.10)简单均值的计算公式为 权均值的计算公式为第四章. 两变量描述统计相对指标:两个有联系的指标数值对比得到的综合指标 相对指标的表现形式:无名数和有名数 无名数:抽象掉分子和分母的计量单位。
表现为百分数,千分数,倍数,系数 有名数:保留分子和分母的计量单位。
表现:密度相对指标的具体形式(6种):(具体参考第四章的ppt 弄懂)结构相对数=(各部分比重和为1)比例相对数= (三个或三个以上的连比)比较相对数= (横向比较,静态)动态相对数= (随时间发展的变化,动态)强度相对数= (两个性质不同但有一定联系的总量指标之比,有名数)计划完成程度相对数=(计划完成的程度)协方差:度量两个具有联合概率分布P (X,Y )的随机变量之间线性关系的指标 样本:含有n 个个体,每个个体含有两个数据值(x1,y1),(x2,y2) 样本协方差公式:总体协方差:变量离差乘积的数学期望Ni N =21N X N X X X X N i i N ∑==+++=121 ==Ki i Ki i i N N N 11212211∑∑===++++++=K i i K i i i N N N F F X F F F F X F X F X X 11212211 %100*总体全部数值总体部分数值总体中另一部分数值总体中某部分数值另一范围的该指标数值某一范围指标数值%100*基期指标数值报告期指标数值总体的指标数值另一有联系而性质不同某一总体的指标数值%100*计划数实际完成数1))((---=∑n y y x x s i i xy总体协方差公式:总体相关系数: (总体相关系数记为ρ)样本相关系数: (样本相关系数记为r )r 的取值范围是 [-1,1]|r |=1,为完全相关 r =1,为完全正相关r =-1,为完全负正相关 r = 0,不存在线性相关关系-1≤r<0,为负相关 0<r ≤1,为正相关 |r|的数值愈接近于1,x 与y 直线相关程度愈高 |r|的数值愈接近于0,x 与y 直线相关程度愈低相关程度评价标准:|r|<0.3称为微弱相关0.3≤ |r|<0.5称为低度相关 0.5≤ |r|<0.8称为显著相关0.8≤ |r|<1称为高度相关或强相关。
第五章.概率与概率分布 正态分布的概率密度函数:f (x ) = 随机变量 X 的频数 σ2 = 总体方差 π =3.14159; e = 2.71828 x = 随机变量的取值 (-∝ < x < ∝) μ = 总体均值 正态分布函数的性质:①概率密度函数在x 轴的上方,即f (x )>0②正态曲线的最高点在均值μ,它也是分布的中位数和众数 ③正态分布是一个分布族,每一特定正态分布通过均值μ的标准差σ来区分。
σ决定曲线的高度,同时决定曲线的平缓程度,即宽度④曲线f (x )相对于均值μ对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交⑤正态曲线下的总面积等于1 正态分布的概率:P (a ≤x ≤b )=∫a bf(x)dx标准正态分布函数:22∑∑∑-⋅---=22)()())((y y x x y y x x r NY Y X X i i xy ∑--=))((σyx xyσσσρ=N Y Y X X i i xy ∑--=))((σ--x 2221μσ()∞<<∞-=--x x f x ,e 21)(2221μσπσ任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布的概率密度函数: 标准正态分布的分布函数:标准正态分布表的使用:将一个一般的转换为标准正态分布,计算概率时,查标准正态概率分布表 对于负的 x ,可由Φ (-x )-1=Φ (x )得到 对于标准正态分布,即X ~ N (0,1),有 P (a ≤ X ≤b )= Φ (b ) -Φ (a )P (|X| ≤a )= 2Φ (a ) -1对于一般正态分布,即X ~ N (μ , σ),有例1 : 设X ~ N (0,1),求以下概率: (1) P (X <1.5) ;(2) P (X >2);(3) P (-1<X ≤3) ; (4) P (| X | ≤ 2)解:(1) P (X <1.5) = Φ (1.5)=1-0.0668=0.9332 (2) P (X >2)=1- P (X ≤2)=1-0.9973=0.0228 (3) P (-1<X ≤3)= P (X ≤3)- P (X <-1)= Φ(3)- Φ(-1)= Φ(3)–[1-Φ(1)] = 0.9987-(1-0.8413)=0.8354(4) P (| X | ≤ 2) = P (-2≤ X |≤ 2)= Φ(2)- Φ(-2)= Φ(2)- [1-Φ(2)]=2 Φ(2)- 1=0.9544例2: 设X ~N (5,32)),求以下概率(1) P (X ≤10) ; (2) P (2<X <10) 解:(1))1,0(~N X Z σμ-=∞-∞-x t x 2-2⎰⎰∞-∞-==Φx t x t t x f x d e 21d )()(2-2π∞<<∞--x x 22∞<<∞-=-x x f x 22e π21)(⎪⎭⎫⎝⎛--⎪⎭⎫ ⎝⎛-=≤≤σμΦσμΦa b b X a P )(9525.0)67.1(=9525.0)67.1(67.135351035)10(==⎪⎭⎫ ⎝⎛≤-=⎪⎭⎫⎝⎛-≤-=≤ΦX P X P X P另外,第五章第二节:大数定律与中心极限定理大家了解即可,不是重点内容,不放心的可自行参考第五章的ppt 内容第九章.抽样调查抽样调查的意义:一般所讲的抽样调查,即指狭义的抽样调查(随机抽样), 按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。