大学统计学复习
- 格式:docx
- 大小:56.97 KB
- 文档页数:7
统计学复习知识点一、统计学的基本概念统计学是一门研究数据收集、整理、分析和解释的学科。
它帮助我们从数据中获取有用的信息,做出合理的决策,并对现象进行描述和预测。
首先要了解总体和样本的概念。
总体是我们所研究的全部对象的集合,而样本则是从总体中抽取的一部分用于观察和分析的对象。
例如,要研究全国所有大学生的身高情况,全国大学生就是总体,而从其中抽取的部分大学生则构成了样本。
变量是统计学中的重要概念,它可以分为定性变量和定量变量。
定性变量是指不能用数值表示的变量,如性别(男、女)、职业(教师、医生等);定量变量则是可以用数值表示的变量,又分为离散型变量(如班级人数)和连续型变量(如身高、体重)。
数据可以分为观测数据和实验数据。
观测数据是通过观察、测量等方式收集到的数据,而实验数据则是通过控制实验条件得到的数据。
二、数据收集数据收集是统计学的第一步。
常见的数据收集方法有普查和抽样调查。
普查是对总体中的每一个个体进行调查,能得到全面准确的信息,但成本高、耗时费力。
抽样调查则是从总体中抽取一部分样本进行调查,具有省时省力、成本低的优点,但需要注意抽样的科学性和代表性。
抽样方法包括简单随机抽样、分层抽样、系统抽样和整群抽样等。
简单随机抽样是完全随机地抽取样本;分层抽样是将总体按照某些特征分成若干层,然后从每层中分别抽样;系统抽样是按照一定的规则抽取样本;整群抽样是将总体分成若干群,然后抽取若干群作为样本。
在收集数据时,要确保数据的准确性和完整性,避免误差和缺失值。
三、数据整理收集到的数据往往是杂乱无章的,需要进行整理。
整理数据的第一步是对数据进行审核,检查数据的准确性和完整性。
然后对数据进行分类和编码,以便于后续的分析。
数据的分组是整理数据的重要环节。
可以按照变量的类型和取值进行分组。
对于定量变量,可以采用等距分组或不等距分组的方法。
等距分组是将数据按照相等的区间进行分组,不等距分组则是根据数据的特点和研究目的,采用不同的区间长度进行分组。
1、统计学:是收集、汇总和分析统计数据的科学和艺术。
2、统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律的过程。
3、普查:是为某一特定目的而专门组织的一次性全面调查,如人口普查、工业普查、农业普查等。
4、抽样调查的特点:经济性;时效性高;适应面广;准确性高。
5、调查方案:是指导整个过程的纲领性文件,其内容包括调查目的、调查对象和调查单位、调查项目和调查表等内容。
6、组距分组的几个步骤:一、确定组数二、确定组距三、确定组限和进行次数分配四、绘制统计图五、分析。
)7、为消除组距不同对频数分布的影响,需要计算频数密度,即频数密度=频数/组距,用频数密度才能准确反映频数分布的实际情况.8、以组中值作为代表值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。
9、描述统计的内容也包括频数分布、但主要是关于集中趋势和离中趋势的描述问题。
10、众数:是一组数据中出现次数最多的变量值。
从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数,记为M.11、众数是一组数据中心位置的一个代表值。
当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,实际上也可以认为有多个众数.12、协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间的相关程度缺乏可比性。
13、时间系列:是反映现象随时间的变化而变化的数据系列,也称为时间数列或动态数列。
14、用报告期水平减去基期水平,就等于增长量。
其中,当基期水平为上期水平时,就称为逐期增长量,当基期水平为某个时期的固定发展水平时,就称为累计增长量。
15、报告水平与基期水平之比,称为发展速度。
其中,当基期水平为上期水平时,就称为环比发展速度;当基期水平为某个时期的固定发展水平时,就称为定基发展速度。
16、序时平均数也称为动态平均数,它反映现象在一定时期内发展水平达到的一般水平.由于指标形式分绝对数、相对数和平均数等,所以对其平均的方法存在差异性。
统计学知识点提要第一章绪论1.统计学的产生与发展部分,要求了解不同时期各大学派的贡献、代表人物及学术观点2.结合实际问题做出对统计总体和总体单位的判断3.总体与总体单位之间的联系4.会区分样本、参数、统计量5.统计标志及其分类6.数量指标与质量指标,要求会对不同指标所属类型进行判断7.统计数据的分类,按计量尺度、按时间与现象之间的联系以及按搜集方法划分第二章统计数据的描述1.统计调查的分类,会对不同的调查做出类型判断2.抽样误差与非抽样误差如何划分3.抽样误差与非抽样误差的基本概念、所包含的具体类型以及对上述各种误差如何实施控制4.众数的概念、特点及适用范围5.中位数概念、特点及适用范围(四位数不要求掌握)6.均值概念、特点及不同类型均值的求解7.众数、中位数与均值的比较,结合不同的分布进行判断8.方差、标准差概念及其特点9.离散系数的应用10.偏态与峰度(考试不作要求)第四章抽样与抽样分布1.抽样方式的划分,不同抽样方式的特点及其在实际问题中的应用(重点)2.样本均值的抽样分布3.样本比率的抽样分布4.样本方差的抽样分布5.抽样分布于总体分布之间的关系第五章参数估计1.估计量与估计值的区别2.点估计与区间估计的区别3.区间估计原理分析及图示4.置信区间宽度的影响因素5.置信水平与置信区间的关系6.评价估计量的标准有哪些7.总体均值的区间估计方法及应用8.总体比率的区间估计方法及应用9.总体方差的区间估计方法及应用10.样本容量如何确定,公式及与影响因素之间的关系第六章假设检验1.假设的陈述,会对不同类型的问题提出原假设与备择假设2.双侧检验与单侧检验的判断及应用3.假设检验中两类错误4.假设检验的过程与逻辑,能够结合实际问题分析5.P值决策含义及其在实际问题中的应用6.总体均值的检验及应用7.总体比例的检验及应用8.总体方差的检验及应用9.两个总体参数的检验(不作为考试要求)第七章方差分析与实验设计1.方差分析的含义2.方差分析中的相关术语3.方差分析的基本思想和原理4.总误差平方和、组内方差、组间方差如何求解5.方差分析中的假定及假设形式6.如何读懂单因素方差分析表,并根据表的内容做出判断7.不同差异源对应的自由度如何求解8.如何构造检验统计F,并做出统计决策9.方差分析中的多重比较(不作要求)10.双因素方差分析的基本类型11.试验设计的类型划分12.不同试验设计类型所适用的方差分析方法第八章相关与回归分析1.函数关系与统计关系的区别2.相关关系的分类3.相关分析,回归分析基本概念4.相关分析与回归分析、因果关系分析之间的区别与联系5.总体回归函数与样本回归函数基本概念6.回归系数的估计方法7.简单线性回归的基本假定8.线性回归的检验9.回归方程的评价10.简单线性回归模型的点预测11.多元线性回归的应用(不作要求)12.多元线性回归的基本假定与简单线性回归基本假定的差别13.非线性相关回归(不作要求)第九章时间序列分析1.时间序列概念及其分类2.时间序列的发展水平与平均发展水平的计算3.增长量与平均增长量的计算4.环比发展速度与定基发展速度的计算5.环比增长速度与定基增长速度的计算6.平均发展速度与平均增长速度的计算7.时间序列及其构成因素的简单划分8.趋势模型方法(不作要求)第十章统计指数1.统计指数及其分类2.拉氏指数与帕式指数的编制方法与差异3.拉氏指数与帕式指数的计算。
统计学原理期末复习一、统计学的概念和基本原理统计学是研究数据的收集、整理、分析、解释和应用的一门学科。
它有两个基本的原理:总体与样本的关系原理和随机现象的规律性原理。
二、数据的搜集和整理数据的搜集方法分为两类:实验法和调查法。
实验法通过控制变量的方法进行科学实验;调查法通过问卷调查、访谈、观察等方式进行。
数据的整理包括数据的清洗、变换和归类。
三、统计指标的计算和分析常见的统计指标包括均值、中位数、众数、标准差和相关系数等。
通过这些指标,可以对数据进行描述和分析,得出结论。
四、概率论的基本概念和计算概率论是研究随机现象的规律性的一门学科。
它研究的对象包括样本空间、事件、概率和随机变量等。
在计算概率时,可以利用排列组合、条件概率和贝叶斯定理等方法。
五、概率分布和抽样分布概率分布包括离散型和连续型两类。
离散型分布包括二项分布、泊松分布和几何分布等;连续型分布包括正态分布和指数分布等。
抽样分布包括正态分布、t分布和F分布。
六、参数估计和假设检验参数估计是利用样本信息来估计总体参数值的方法。
常见的点估计方法有最大似然估计和矩估计。
假设检验是根据样本信息来判断总体一些未知参数是否满足给定假设的方法。
常见的假设检验方法有单样本t检验、配对样本t检验和两样本t检验等。
七、相关分析和回归分析相关分析研究变量之间的线性关系。
回归分析则通过建立回归方程来研究因变量与自变量之间的关系。
常见的回归分析方法有简单线性回归和多元线性回归。
八、统计决策理论和抽样调查统计决策理论研究如何制定最优的决策方案。
抽样调查是利用小样本来推断总体特征的方法。
常见的抽样方法有简单随机抽样、分层抽样和整群抽样等。
九、统计分析软件的应用常见的统计分析软件有SPSS、R和Python等。
通过这些软件,可以进行数据的处理、分析和可视化等,提高工作效率。
总之,统计学原理是统计学的基础课程,主要涵盖数据搜集和整理、统计指标的计算和分析、概率论的基本概念和计算、概率分布和抽样分布、参数估计和假设检验、相关分析和回归分析、统计决策理论和抽样调查以及统计分析软件的应用等内容。
统计学总复习统计学是一门研究收集、分析、解释和呈现数据的学科。
对于统计学的理解和掌握对于各个领域的研究和实践都至关重要。
本文将对统计学的基本概念、方法和常见应用进行总复习,以帮助读者全面回顾和巩固自己的统计学知识。
1. 统计学的基本概念1.1 数据的概念和分类数据是用来描述和量化研究对象特征的信息,可以分为定量数据和定性数据两类。
定量数据是用数字表示的,如年龄、温度等;定性数据则是以非数字的方式表达的,如性别、颜色等。
1.2 统计学的基本术语统计学中常用的基本术语包括总体、样本、变量、参数和统计量等。
总体是研究对象的全体集合,样本是从总体中抽取的部分个体。
变量是研究中所关注的特征或属性,可以是定性变量或定量变量。
参数是总体的特征的度量,而统计量则是样本的特征的度量。
1.3 统计学的基本原理统计学的基本原理包括描述统计和推断统计两个方面。
描述统计是通过统计方法对数据进行整理、总结和呈现,推断统计则是根据样本数据对总体进行推断和估计。
2. 统计学的基本方法2.1 数据收集数据收集是统计学研究的基础,常用的数据收集方法包括实验和调查。
实验是通过控制条件来观察和测量变量之间的关系,调查则是通过问卷或访谈等方式获取被调查对象的信息。
2.2 数据整理和探索数据整理和探索是对数据进行初步分析的过程。
常用的方法包括数据清洗、缺失值处理、数据转换和描述性统计等。
通过这些方法,可以对数据的整体特征和分布进行初步了解。
2.3 统计推断和假设检验统计推断是通过样本数据对总体进行推断和估计,常用的方法包括参数估计和假设检验。
参数估计是利用样本数据估计总体参数的值,而假设检验则是根据样本数据对总体参数的某种假设进行检验。
2.4 回归分析和方差分析回归分析和方差分析是用于研究变量之间关系的统计方法。
回归分析用于研究自变量对因变量的影响程度和方向,而方差分析则用于比较不同组之间的差异。
3. 统计学的常见应用3.1 生物统计学生物统计学应用于生物学领域,常用于分析和解释生物实验的结果,研究生物系统的特征和相互关系。
统计学各章节期末复习知识点统计学是一门研究数据收集、分析和解释的学科。
作为一门广泛应用于各个领域的学科,统计学的知识点非常丰富。
以下是统计学各章节的期末复习知识点汇总:1.数据收集与描述-数据类型:定量数据和定性数据-数据收集方式:问卷调查、观察、实验-描述统计:中心趋势(均值、中位数、众数)、离散程度(范围、方差、标准差)、数据分布(直方图、条形图、饼图)2.概率论基础-随机试验与样本空间-事件与事件概率-古典概型、几何概型和统计概型-条件概率与独立性-伯努利试验与二项分布3.随机变量及其分布-随机变量与分布函数-离散型随机变量与其分布律-连续型随机变量与其概率密度函数-均匀分布、正态分布、指数分布等常见分布4.多个随机变量的分布-边缘分布与条件分布-两个离散型随机变量的联合分布律-两个连续型随机变量的联合概率密度函数-相互独立的随机变量的分布5.随机变量的数字特征-数学期望与其性质-方差与标准差-协方差与相关系数-矩、协方差矩阵与相关系数矩阵6.大数定律与中心极限定理-辛钦大数定律-中心极限定理-切比雪夫不等式与伯努利不等式7.统计推断基础-参数估计:点估计、区间估计-置信区间与置信水平-假设检验:原假设与备择假设、显著性水平、拒绝域-类型Ⅰ错误和类型Ⅱ错误-样本容量与统计检验的效应大小8.单样本与双样本推断-单个总体均值的推断:正态总体与非正态总体-单个总体比例的推断-两个总体均值的推断:独立样本与配对样本-两个总体比例的推断9.方差分析与回归分析-单因素方差分析-两因素方差分析-简单线性回归分析:最小二乘法-多元线性回归分析:拟合优度、剩余平方和、变量选择10.非参数统计方法-指标:秩和检验、秩和相关检验、符号检验- 分布:符号检验、秩和检验、秩和相关检验、Kolmogorov-Smirnov检验这些是统计学各个章节的期末复习知识点的一个概述。
每个章节都拥有更加详细和复杂的内容,需要学生在复习中深入理解并进行练习。
统计学期末复习要点一、复习重点1、理解描述统计学与推断统计学2、熟识定量数据与定性数据的图表叙述,常用图表3、熟练掌握加权算术平均数、标准差、标准差系数的计算方法理解样本均值、样本比例的样本原产及中心音速定理4、理解点估计的三个评价标准,区间估计的置信水平的概念5、熟练掌握总体均值与总体比例的区间估计方法6、认知影响样本容量大小因素(置信水平、总体方差、容许误差),就是怎样影响的?7、认知假设检验的原理、步骤及两类错误8、熟练掌握总体均值、总体比例的假设检验9、认知方差分析的概念、原理及基本步骤10、熟练掌握单因素方差分析方法,理解单因素方差分析表的内在联系11、掌控相关系数的性质及检验方法,一元线性与多元线性回归方程的插值,评价及检验,掌控相关系数、决定系数及回归估计标准误差的概念、排序及三者间的关系。
12、熟练掌握多元线性重回分析方法,重点熟识excel重回分析输出表的内在联系13、认知时间序列的共同组成因素及两类模型14、熟悉选择拟合时间序列趋势模型的分析方法、理解一元线性、抛物线、指数曲线趋势模型15、认知平均值综合指数与加权平均指数的概念及排序16、认知拉氏指数和帕氏指数概念及排序17、理解指数体系的概念及作用,熟练掌握总量指标的两因素分析方法18、理解cpi 指数及其经济意义,cpi指数与购买力指数的关系二、思考题1、解释洛伦茨曲线及其用途。
2、怎么理解均值在统计学中的地位?3、详述众数、中位数和均值的特点和应用领域场合。
4、详述综合指数的基本基本建设原理。
5、写出大样本条件下总体均值左侧检验的基本步骤。
6、写下大样本条件下总体方差未明时正态总体均值左侧检验的基本步骤。
7、简述样本容量与置信水平、总体方差、允许误差的关系。
8、在假设检验中第ⅰ类错误和第ⅱ类错误分别指什么,并表明它们出现的概率大小之间的关系。
9、分别列出小样本情形下一个总体(总体方差未知)均值的左侧、右侧及双侧检验的假设形式和拒绝域?10、详述方差分析的基本假设11、解释方差分析中总误差平方和、水平项误差平方和、误差项平方和三者含义及其关系?12、在对实际的时间序列拟合其长期趋势方程,通常可采用哪些分析方法?13、为什么平均发展速度用几何平均法计算?计算平均发展速度应注意哪些问题?14、简述移动平均法的基本原理和特点。
各科期末考试复习资料第一章绪论统计学:是指人们对客观事物的数量表现、数量关系和数量变化进行描绘和分析的计量活动;简言之,是 指对客观事物的数量方面进行核算和分析。
总体:指在某种共性基础上由许多个别事件所组成的整体。
总体单位:构成总体的个別事物。
总体和总体单位都是客观存在的食物,是统计学研究的客体。
无限总体:总体单位无限多的总体。
有限总体:总体单位数有限而可数的的总体。
标志:说明总体单位特征的名称。
可分为数量标志和品质标志。
变异:总体单位z 间品质和数最的差异,即可变标志在在总体各单位z 间所表现出来的差异。
数量标志: 品质标志: 不变标志: 可变标志: 变量:可变的数量标志。
指标:说明总体数量特征的概念。
第二章统计调查统计调査误差:指调杳所得的统计数字与调查对象的实际数呈Z 间的差异,即调杳所得的数最大于或小于 调查对象的实际数量之差。
普查:为搜集某种社会经济现象在某时菜地的情况而专门组织的一次性全團调查。
其特点是涉及血广、工 作量大、时间性强、耗费较多、组织工作复杂。
重点抽样:只对总体中为数不多但影响颇大的東点单位进行研究的一种非全而调查。
典型抽样:根据对调查对象的初步了解,有意识地从中挑选有代表性的单位进行研究的i 种非全面调査。
第三章统计整理统计整理:是根据统计研究的U 的的要求对统计调查所取得的各项资料进行科学的分组和汇总的工作过程。
统计分组:根拥社会现象的特点和统计研究的H 的的要求,按照某种重要标志把总体分成若T •部分的科学 分类。
全距:总体中的最大标志值与最小标志值Z 差。
重合式:相邻两组中,前一组的上限与后一组的下限数值相重。
不重合式:前-•组的上限与后-•组的下限,两值紧密相连而乂不相巫复。
统计资料汇总:在统计分组的圧础萨哈那个,将统计资料归并到各组中去,并计算各组和总体的合计数的 工作过程。
把统计调查资料集中在组织调查的最高机关或由它指定的机构进行汇总。
按照一定的统计管理系统,由各级机构口下而匕地逐级将调查资料汇总上报。
第1章统计和统计数据1统计学的定义:是收集、处理、分析、解释数据并从数据中得出结论的科学描述统计与推断统计的含义、内容、目的.描述统计: 是研究数据收集,处理和描述的统计学方法。
其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征。
推断统计:是研究如何利用样本数据来推断总体特征的统计学方法,内容包括两大类:参数估计: 是利用样本信息推断所关心的总体特征.假设体验:是利用样本信息判断对总体的某个假设是否成立.2、变量与数据:不同数据类型的含义,会判断已有数据的类型.变量:它们的特点是从一次观察到下一次观察会出现不同结果。
Ex:企业销售额,上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数数据:把观察到的结果记录下来。
总体:包含所研究的全部个体(数据)的集合样本: 从总体中抽取的一部分元素的集合样本量: 构成样本的元素的数目定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据。
可以用阿拉伯数据来记录其观察结果 .如“企业销售额"、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”定性变量:分类变量和顺序变量统称为定性变量分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.分类变量的观察结果就是分类数据顺序变量或有序分类变量:具有一定顺序的类别变量。
如考试成绩按等级,一个人对事物的态度。
顺序变量的观察结果就是顺序数据或有序分类数据离散型变量:只能取有限个值得随机变量连续型变量:可以取一个或多个区间中任何值得随机变量3、获得数据的概率抽样方法有哪些?根据一个已知的概率来抽取样本单位,也称随机抽样-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中。
抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后,再把这个个体放回到原来的总体中参加下一次抽选。
大学统计学复习文档编制序号:[KKIDT-LLE0828-LLETD298-POI08]
统计学
1.什么是定性数据:分类数据和顺序数据说明的是事物的品质特征,通常用文字来表述,其结果均表现为类别,因而也可统称为定性数据或品质数据。
【1.分类数据:是只能归于某一类别的非数值型数据,它是对事物进行分类的结果,数据表现为类别,只是用文字来表述。
顺序数据:是只能归于某一有序类别的非数字型数据。
顺序数据虽然也是类别,但这些类别是有序的。
】
什么是定量数据:数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此;也可称为定量数据或数量数据。
【数值型数据:是按数字尺度测量的观测值,其结果表现为具体的数值。
】P5
2.抽样误差的大小与哪些因素有关:P30
样本量的大小,样本量越大,抽样误差越小。
总体的变异性,总体的变异性越大,抽样误差越大。
3.品质数据有哪些图形表示方式():P43
条形图、帕累托图、饼图、环形图、累积频数分布图。
4.什么是中位数:是一组数据排序后处于中间位置上的变量值,用Me 表示。
中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。
中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势。
中位数位置的确定公式:n+1/2(n为数据个数).P75
什么是四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值。
四分位数是通过3个点将全部数据等分为4部分,其中每部
分包含25%的数据。
中间的四分位数就是中位数,处在25%位置上的数值称为下四分位数,处在75%位置上的数值称为上四分位数。
P77
平均数的各种计算方式:P78
5.众数、中位数和平均数的特点与应用场合P82:
(1)众数是一组数据分布的峰值,不受极端值的影响。
其缺点是具有不唯一性,一组数据可能是一个众数,也可能有两个或多个众数,也可能是没有众数。
众数只有在数据量较多时才有有意义,当数据量较少时,不宜使用众数。
众数主要适合作为分类数据的集中趋势测度值。
(2)中位数是一组数据中间位置上的代表值,不受数据极端值的影响。
当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。
中位数主要适合作为集中趋势测度值。
(3)平均数是针对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中测度值。
当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。
缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。
6.什么是离群点P88:在平均数+-3个标准差的范围内几乎包含了全部数据,而在+-3个标准差之外的数据,在统计上称为离群点
什么是离散系数P89:也称为变异系数,它是一组数据的标准差与其相应的平均数之比。
计算公式:,,,离散系数是测度数据离散程度的相对统计量,主要用于比较不同样本数据的离散程度。
离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
7.什么是样本平均数P147:在统计中经常用到平均数,如果是由样本求出的,就叫做样本平均数
样本平均数的抽样分布:样本均值的抽样分布是所有的样本均值形成的分布,即μ的。
样本均值的抽样分布在形状上却是对称的。
随着样本量n 的增大,不论原来的总体是否服从,样本均值的抽样分布都将趋于正态分布,其分布的为总体均值μ,为总体方差的1/n。
8.样本比例的抽样分布 P150
(二)样本比例的抽样分布
比例是指具有某种属性的单位占全部单位数的比重。
总体比例(通常用表示)是总体中具有某种属性的单位数占全部总体单位数的比例,是一个参数,通常是未知的,也是我们想通过抽样得到的说明总体特征的数据。
样本比例(通常用p表示)是随机抽取的样本中具有某种属性的单位数占样本全部单位数的比例,是一个样本统计量,是随机变量,对于一个已经抽取出来的样本来讲,是可以观察到的。
描述所有可能样本比例的概率分布就是样本比例的抽样分布。
当样本容量比较大时,样本比例p近似服从正态分布,且有p的数学期望就是总体比率,即
s而P的方差与抽样方法有关,在重置抽样下为在不重置抽样下为
即在重置抽样时, p的分布为p~N(,)
在不重置抽样时, p的分布为p~N(,)
一般讲,当np≥5,并n(1-p) ≥5时,就可以认为样本容量足够大。
对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,当N比较大,而n/N 5%时,修正系数可以近似为1,这
时也可以按重置抽样计算。
从上述分析可以看出,随着样本容量的增大,样本比例的方差愈来愈小,说明样本比例随样本容量增大,围绕总体比例分布的峰度愈来愈高。
9.样本方差的抽样分布 P153
样本方差的抽样分布
样本方差的抽样分布是指在重复选取容量为n的样本时,样本方差的所有可能取值形成的概率分布。
χ2分布具有如下性质和特点:
(1)χ2分布的变量值始终为正。
(2)χ2(n)分布的形状取决与其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称,如图7-2所示。
(3)χ2分布的期望为E(χ2)=n,方差为D(χ2)=2n(n为自由度)。
(4)χ2分布具有可加性。
若U和V为两个独立的χ2分布随机变量,U~χ2(n1),V~χ2(n2),则随机变量U+V服从自由度为n1+n2的χ2分布。
10.什么是置信度P159:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平(置信度)。
11.置信区间的意义(解释95%置信区间的意义):由样本统计量所构造的总体参数的估计区间--------95%的置信区间指用某种方法构造的所有区间中有95%的区间包含总体参数的真值。
对置信区间的理解需要注意的问题P159:
(1)如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。
同样,其他置信水平也可以用类似的方式进行表述。
(2)总体参数的真值是固定的、未知的,而用样本构造的区间则是不固定的。
若抽取不同的样本,用该方法可以得到不同的区间,从这个意义上说,置信区间是一个随机区间,它会因样本的不同而不同,而且不是所有的区间都包含总体参数的真值。
(3)在实际问题中进行估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平下的置信区间。
由于用该样本所构造的区间是一个特定的区间,而不再是随机区间,所以无法知道这个样本索产生
的区间是否包含总体参数的真值。
12.评价估计量的标准P160:
无偏性:估计量抽样分布的数学期望等于被估计的总体参数
有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
13.方差分析中的三个基本假定P239:
(1)每个总体都应服从正态分布。
对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。
(2)各个总体的方差必须相同。
各组观测数据是从具有相同方差的正态总体中抽取的。
(3)观测值是独立的。
14.什么是回归模型 P274:对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系,描述因变量Y如何依赖于自变量X和误差项的方程称为....
什么是最小二乘法:p276
15.什么是拟合度P280:回归直线与各观测点的接近程度。
16.回归分析表P297 P254
17.什么是质量指数:P364
数量指数
拉式指数
帕氏指数
18.P值的意义 P191:P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
(它的大小取决于三个因素,一个是样本数据与原假设之间的差异,一个是样本量,再一个是被假设参数的总体分布。
19.什么是显着水平:显着性水平是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率和风险。
20.两类错误p188: 一类错误是原假设H0为真却被我们拒绝了,犯这种错误的概率用α表示,所以也称α错误或弃真错误;
另一类错误是原假设为伪我们却没有拒绝,犯这种错误的概论用β表示,所以也称β错误或取伪错误。
计算题:
1.平均数
2.区间估计【练习题,,以及节所有例题】
3.假设检验【什么是两类错误P188,假设检验中P值的意义,什么是显着性水平】节所有例题
4.方差分析(第十章例题-5个)--设计一个适合方差分析的实验
5.第十一章一元线性回归例题在节。