统计学知识点汇总
- 格式:doc
- 大小:26.50 KB
- 文档页数:3
统计知识点总结高中1. 统计学基本概念统计学是一门研究数据的收集、整理、分析和解释的学科。
统计学的基本概念包括总体、样本、变量、数据类型、数据分布等。
总体是研究对象的全部个体,样本是从总体中选取的一部分个体,变量是研究对象的特征或属性,数据类型包括定量数据和定性数据,数据分布是指数据在不同取值上的分布情况。
2. 统计数据的收集统计数据的收集是统计学的第一步,常见的数据收集方法包括实地调查、问卷调查、抽样调查、实验观察等。
在数据收集过程中,需要注意样本的选择、数据的记录和整理、数据的真实性和合法性等问题。
3. 描述统计描述统计是通过图表、统计量等方法对数据进行总结和描述,常见的描述统计方法包括频数分布、频率分布、累积频率、平均数、中位数、众数、方差、标准差、分位数等。
这些方法可以帮助我们更好地理解数据的特征和分布情况。
4. 概率分布概率分布是描述随机变量取值的规律性的数学模型,常见的概率分布包括正态分布、均匀分布、泊松分布等。
了解不同概率分布的特点和应用场景对于理解和解决实际问题非常重要。
5. 统计推断统计推断是利用样本信息对总体特征进行推断的一种统计方法,包括点估计和区间估计两种方法。
在学习统计推断时,需要了解参数估计、置信区间、假设检验等概念和方法,以及它们在社会科学、自然科学、工程技术等领域的应用。
6. 相关性分析相关性分析是研究变量之间的关系和相互影响的统计方法,包括皮尔逊相关系数、斯皮尔曼相关系数、判定系数等。
掌握相关性分析的方法可以帮助我们发现变量之间存在的关联性,并进行进一步的预测和决策。
7. 多元统计分析多元统计分析是研究多个变量之间关系的统计方法,包括多元回归分析、主成分分析、因子分析等。
这些方法可以帮助我们更全面地理解数据的特征和规律,进行更深入的数据挖掘和分析。
总之,统计知识是培养学生数据分析能力和统计思维的重要工具,通过学习统计知识,学生可以更好地理解和应用数据,从而更好地应对未来的学业和职业挑战。
统计基础必学知识点1. 数据的分类:数据可以分为定性数据和定量数据。
定性数据是描述性的,如性别、颜色等;定量数据是可量化的,如年龄、身高等。
2. 数据的度量尺度:数据的度量尺度分为四种类型,分别是名义尺度、顺序尺度、间隔尺度和比例尺度。
名义尺度是无序的分类数据,顺序尺度是具有次序关系的数据,间隔尺度是具有固定间隔的数据,比例尺度是具有固定比例关系的数据。
3. 频数与频率:频数是指某个数值出现的次数,频率是指某个数值出现的次数与总数的比值。
4. 数据的中心趋势度量:数据的中心趋势度量包括平均数、中位数和众数。
平均数是一组数据的总和除以数据个数,中位数是将数据按照大小排列后的中间值,众数是一组数据中出现次数最多的数值。
5. 数据的离散程度度量:数据的离散程度度量包括范围、方差和标准差。
范围是一组数据的最大值与最小值之差,方差是数据与其均值之差的平方和的平均值,标准差是方差的平方根。
6. 直方图和箱线图:直方图是将数据按照一定的区间划分,并统计每个区间内数据的频数或频率,在坐标系上绘制柱状图。
箱线图是通过四分位数和异常值来描绘一组数据的分布情况。
7. 相关系数:相关系数是用来描述两组数据之间的相关性强度和方向的指标。
常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
8. 概率与统计分布:概率是事件发生的可能性,统计分布是对数据的概率分布进行描述的函数。
常见的统计分布包括正态分布、泊松分布、二项分布等。
9. 抽样与统计推断:抽样是从总体中选取一部分样本进行研究,统计推断是通过样本数据对总体进行推断。
常用的统计推断方法包括点估计和区间估计。
10. 假设检验:假设检验是对统计推断的一种方法,通过构建假设、选择显著性水平和计算检验统计量,判断样本数据是否能够拒绝原假设。
常见的假设检验方法有单样本t检验、双样本t检验、方差分析等。
统计学知识点全归纳__全面准确统计学是一门研究和应用统计原理和方法的学科。
统计学的目的是通过收集、整理、分析和解释数据来描述和推断人类活动中的规律性和不确定性。
下面将全面准确地归纳统计学的基本知识点。
1.数据收集和整理-数据的收集方法:可以通过抽样或完全普查进行数据收集。
抽样是从总体中选择一部分样本进行调查或实验,以此来推断总体的特征。
2.描述统计-数据的概括性度量:包括测量中心趋势的平均数(如算术平均值、中位数和众数)、测量离散程度的方差和标准差、测量数据分散程度的四分位数等。
-数据的可视化表示:可以使用直方图、箱线图、散点图、饼图等图表来展示数据的分布和关系。
3.概率与随机变量-概率的概念:概率是描述事件发生可能性的数值,范围从0到1、事件的概率可以通过频率或基于概率模型推断得到。
-随机变量:随机变量是随机试验结果的数值表示。
可以分为离散随机变量和连续随机变量。
4.概率分布-离散分布:包括二项分布、泊松分布等。
二项分布描述了一次试验中两个可能结果的概率分布,泊松分布描述了随机事件在固定时间或空间区域内发生的次数的概率分布。
-连续分布:包括正态分布、指数分布等。
正态分布是最常见的连续概率分布,它以钟形曲线显示数据的分布情况。
-概率密度函数和累积分布函数:概率密度函数描述了随机变量落在一些区间内的概率密度,累积分布函数描述了随机变量小于或等于一些值的概率。
5.抽样分布和统计推断-抽样分布:根据中心极限定理,当样本容量足够大时,样本均值的抽样分布会近似服从正态分布。
-参数估计:通过样本统计量(如样本均值、样本方差)来推断总体参数的数值。
-假设检验:用来检验一个关于总体参数的假设是否成立。
根据样本数据和给定的显著性水平,对假设进行接受或拒绝的判断。
6.相关分析和回归分析-相关分析:用来研究两个变量之间的关系。
可以通过计算相关系数(如皮尔逊相关系数)来衡量两个变量之间的线性相关程度。
-回归分析:用来研究一个或多个自变量与因变量之间的关系。
统计学知识点汇总一、统计学统计学是一门关于数据资料的收集、整理、分析和推断的科学。
二、统计学的产生与发展(1)政治算术学派最早的统计学源于17世纪英国。
其代表人物是威廉·配第,代表作《政治算术》。
政治算术学派主张用大量观察和数量分析等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。
其被称为“无统计学之名,有统计学之实”。
(2)记述学派亦称国势学派,创始人和代表人物是德国康令和阿亨瓦尔,主要使用文字记述方法对国情国力进行研究,其学科内容与现代统计学有较大差别。
因此被称为“有统计学之名,无统计学之实”。
(3)社会统计学派创始人和代表人物,德国恩格尔和梅尔。
该学派主张统计是实质性的研究社会现象的社会科学,认为统计学的研究对象是社会现象,目的在于明确社会现象内部的联系联系和相互关系。
(4)数理统计学派创始人是比利时统计学家凯特勒,他所著的代表作《社会物理学》等将概率论和统计方法引入社会经济方面的研究,其认为统计学是一门通用的方法论科学。
从19世纪中叶到20世纪中叶,数理统计学得到迅速发展。
到20世纪中期,数理统计学的基本框架已经形成,数理统计学派成为英美等国统计学界的主流。
三、统计的特点(1)数量性:社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。
(2)总体性:社会经济统计的认识对象是社会经济现象的总体的数量方面。
例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。
(3)具体性:社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。
这是统计与数学的区别。
(4)社会性:社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。
四、统计工作过程(1)统计设计根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。
统计学理论基础知识(史上最全最完整)统计学是一门关于收集、分析、解释和展示数据的学科。
它在许多领域中都发挥着重要作用,包括自然科学、社会科学、商业和医学等。
基本概念- 数据:统计学的研究对象,可以是数值、文字或图像等。
- 总体与样本:总体是我们想要研究的所有个体或事物,而样本是从总体中选择的一部分。
- 参数与统计量:参数是总体的数值特征,统计量是样本的数值特征。
- 频数与频率:频数是某个数值出现的次数,频率是频数与样本大小之比。
描述统计学- 中心趋势:用于衡量数据集中的位置,常用的统计量有平均数、中位数和众数。
- 变异程度:用于衡量数据集中的离散程度,常用的统计量有标准差、方差和四分位数。
- 数据分布:用于描述数据集中每个值的频率分布情况,常用的图表有直方图和箱线图。
推断统计学- 参数估计:通过样本统计量对总体参数进行估计,包括点估计和区间估计。
- 假设检验:根据样本数据对总体参数的假设进行推断性统计分析,包括设置原假设和备择假设,并进行显著性检验。
相关分析- 相关系数:用于衡量两个变量之间的关联程度,常用的相关系数有Pearson相关系数和Spearman等级相关系数。
- 回归分析:用于建立变量之间的数学关系,常用的回归分析有线性回归和多元回归。
统计学软件- 常用统计软件:如SPSS、R、Excel等。
- 数据可视化工具:如Tableau、Power BI等。
这份文档提供了统计学的基础知识概述,包括基本概念、描述统计学、推断统计学、相关分析和统计学软件。
它将帮助读者理解统计学的核心概念和方法,为进一步探索统计学打下坚实的基础。
统计学基础知识点总结统计学是研究数据收集、分析和解释的科学。
它提供了一种用来了解和解释各种数据的方法和工具。
统计学的基础知识点是学习统计学的基础,下面是一些重要的基础知识点总结:1. 数据类型:统计学中的数据可以分为两类:定量数据和定性数据。
定量数据是可以量化的,例如身高、温度等,而定性数据是描述性质和特征的,例如性别、颜色等。
2. 数据收集:数据收集是统计学的基础,它包括设计问卷、调查、实验等方法来收集数据。
收集数据时需要注意样本的代表性,并尽量避免抽样偏差。
3. 描述性统计:描述性统计是用来总结和描述数据的方法。
常用的描述性统计包括计算平均数、中位数、范围和标准差等指标来衡量数据的集中趋势和离散程度。
4. 概率:概率是研究随机事件发生可能性的数学工具。
它可以用来计算事件发生的概率,从而预测未来事件的可能性。
概率可以分为古典概率和条件概率等不同类型。
5. 概率分布:概率分布是描述随机变量的分布规律的数学模型。
常见的概率分布包括均匀分布、正态分布和泊松分布等。
概率分布可以用来计算随机变量的期望、方差等统计指标。
6. 假设检验:假设检验是统计学中用来验证关于总体参数的假设的方法。
通过对样本数据进行统计分析,可以得出关于总体参数是否符合假设的结论。
假设检验包括设定假设、选择检验统计量、计算显著性水平和做出决策等步骤。
7. 相关分析:相关分析是用来研究两个变量之间关系的方法。
它可以通过计算相关系数来衡量两个变量之间的相关性,并判断相关性是否显著。
常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
8. 回归分析:回归分析是研究因果关系的统计方法。
它通过建立数学模型来描述自变量和因变量之间的关系,并可以用来预测因变量的取值。
常见的回归分析包括线性回归和多元回归等。
9. 抽样分布:抽样分布是指统计量在不同样本中的分布情况。
它可以用来计算统计量的置信区间和显著性水平等,从而对总体参数进行推断。
10. 统计软件:统计软件是进行统计分析的工具。
统计的知识点总结1. 描述统计描述统计是通过数据的收集、整理和呈现,来对数据的特征进行描述和解释的方法。
描述统计包括了测度中心趋势的方法(如均值、中位数、众数)、测度离散程度的方法(如标准差、方差、极差)以及数据的呈现方法(如表格、图表、频率分布)。
2. 推论统计推论统计是通过对样本数据的分析和推断,来对总体特征进行推测和预测的方法。
推论统计包括了参数估计和假设检验两个主要方法。
在参数估计中,我们通过样本数据来估计总体的参数值;在假设检验中,我们通过样本数据来对总体的某个假设进行检验。
推论统计方法在科学研究和决策制定中具有重要的应用价值。
3. 概率统计概率统计是研究随机现象规律性的科学,它包括了概率的概念、概率分布、随机变量的概念和性质、大数定律和中心极限定理等。
概率统计的基本概念对于理解统计学的理论和方法具有重要的意义。
4. 回归分析回归分析是一种对两个或多个变量之间关系进行建模和分析的方法。
它包括了简单线性回归、多元线性回归、非线性回归等。
回归分析的方法对于预测和决策具有重要的应用价值。
5. 方差分析方差分析是一种用于比较两个或两个以上样本均值之间差异的方法。
它包括了单因素方差分析、双因素方差分析、多因素方差分析等。
方差分析的方法在生物、医学、社会科学等领域都具有重要的应用价值。
6. 生存分析生存分析是一种对时间至事件发生之间关系进行建模和分析的方法。
它包括了生存函数、风险集与危险比、生存曲线、生存比较等。
生存分析的方法在医学、流行病学、生物统计学等领域都具有重要的应用价值。
以上是统计学的一些基本知识点总结。
统计学作为一门科学,它的研究对象是数据,通过数据的收集、整理、分析和解释,来探索数据之间的关系和规律,从而推断和验证问题的解答。
统计学的方法和技术在各个领域都有着广泛的应用价值,它不仅可以帮助我们理解世界,还可以指导我们进行决策和预测。
统计学的知识点非常丰富,每一个知识点都有着自己的理论和方法,对于我们学习和应用统计学都具有着重要的意义。
统计学第一章导论1.1.1 什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
数据分析所用的方法分为描述统计方法和推断统计方法。
1.2 统计数据的类型1.2.1 分类数据、顺序数据、数值型数据按照所采用的计算尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。
分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表示。
例如:支付方式、性别、企业类型等。
顺序数据:只能归于某一有序类别的非数字型数据。
例如:员工对改革措施的态度、产品等级、受教育程度等。
数值型数据:按数字尺度测量的观测值,其结果表现为具体的数值。
例如:年龄、工资、产量等。
统计数据大体上可分为品质数据(定性数据)和数量数据(定量数据、数值型数据)。
1.2.2 观测数据和实验数据按照统计数据的收集方法,可以分为观测数据和实验数据。
观测数据:通过调查或观测而收集的数据。
例如:降雨量、GDP、家庭收入等。
实验数据:在实验中控制实验对象而收集到的数据。
例如:医药实验数据、化学实验数据等。
1.2.3 截面数据和时间序列数据按照被描述的现象与时间的关系,可分类截面数据和时间序列数据。
截面数据:在相同或近似相同的时间点上收集的数据。
例如:2012年我国各省市的GDP。
时间序列数据:同一现象在不同的时间收集的数据。
例如:2000-2012年湖北省的GDP。
1.3.1 总体和样本总体:包含所研究的全部个体(数据)的集合。
样本:从总体中抽取的一部分元素的集合。
1.3.2 参数和统计量参数:用来描述总体特征的概括性数字度量。
统计量:用类描述样本特征的概括性数字度量。
例如:某研究机构准备从某乡镇5万个家庭中抽取1000个家庭用于推断该乡镇所有农村居民家庭的年人均纯收入。
这项研究的总体是5万个家庭;样本是1000个家庭;参数是5万个家庭的人均纯收入;统计量是1000个家庭的人均纯收入。
第二章数据的搜集2.1 数据的来源2.1.1 数据的间接来源间接来源的数据:如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。
统计学知识点关键信息项:1、统计学的定义与范围统计学的基本概念涵盖的主要领域2、数据收集方法普查与抽样调查观察法与实验法问卷设计要点3、数据整理与描述数据分类与分组集中趋势的度量(均值、中位数、众数)离散程度的度量(方差、标准差、极差)4、概率与概率分布随机事件与概率的定义常见概率分布(正态分布、二项分布等)概率计算方法5、抽样分布样本均值与样本比例的分布中心极限定理6、参数估计点估计与区间估计置信区间的构建与解释7、假设检验原假设与备择假设的设定检验统计量的选择与计算显著水平与决策规则8、方差分析单因素方差分析原理多重比较方法9、相关与回归分析相关系数的计算与解读简单线性回归模型回归系数的估计与检验11 统计学的定义与范围111 统计学是一门研究数据收集、整理、分析和解释的学科,它通过运用数学、概率论和数理统计等方法,从数据中提取有价值的信息,以帮助人们做出决策、解决问题和发现规律。
112 统计学涵盖了多个领域,包括社会科学、自然科学、工程技术、医学、商业等。
在社会科学中,统计学可用于研究人口趋势、经济发展、社会现象等;在自然科学中,可用于实验数据分析、模型验证等;在工程技术中,可用于质量控制、可靠性分析等;在医学中,可用于临床试验、疾病监测等;在商业中,可用于市场调研、销售预测等。
12 数据收集方法121 普查是对研究对象的全体进行调查,其优点是能够获得全面、准确的信息,但成本高、耗时长,且在实际操作中往往难以实现。
抽样调查则是从研究对象的总体中抽取一部分样本进行调查,通过对样本的分析来推断总体的特征。
抽样调查可以分为概率抽样和非概率抽样,概率抽样包括简单随机抽样、分层抽样、系统抽样和整群抽样等,非概率抽样包括方便抽样、判断抽样、配额抽样等。
122 观察法是通过观察研究对象的行为、现象等来收集数据,适用于无法直接询问或干预的情况。
实验法是通过控制实验条件来研究因果关系,其优点是能够更有效地确定变量之间的因果关系,但实验设计和实施较为复杂。
统计学总结知识点1. 总体和样本在统计学中,总体是指研究对象的全部个体,而样本是从总体中选取的一部分个体。
总体和样本是统计学研究的基本单位,研究者通常会通过对样本进行研究来推断总体的特征。
2. 描述统计描述统计是对数据进行整理、汇总和展示的过程,常用的描述统计方法包括平均数、中位数、众数、标准差等。
通过描述统计,研究者可以更好地理解数据的特征和分布情况。
3. 推断统计推断统计是根据样本数据对总体参数进行推断的过程,常用的推断统计方法包括假设检验、置信区间估计和方差分析等。
推断统计能够帮助研究者对总体特征进行推断,并做出相应的决策。
4. 概率分布概率分布是描述随机变量取值规律的数学函数,常见的概率分布包括正态分布、泊松分布、指数分布等。
概率分布在统计学中有着重要的应用,能够帮助研究者对随机现象进行建模和分析。
5. 方差分析方差分析是一种用于比较多个总体均值是否相等的统计方法,通过方差分析可以判断不同处理组之间的平均差异是否显著。
方差分析在实验设计和市场调研中有着重要的应用,能够帮助研究者理解不同因素对结果的影响。
6. 回归分析回归分析是一种用于研究变量之间关系的统计方法,常见的回归分析包括简单线性回归和多元线性回归。
通过回归分析可以揭示变量之间的相关性和因果关系,对预测和决策提供重要参考。
7. 抽样方法抽样是从总体中选取样本的过程,常见的抽样方法包括随机抽样、系统抽样、分层抽样和群集抽样等。
合适的抽样方法能够保证样本的代表性和可靠性,对统计推断和结论的准确性具有重要影响。
8. 数据可视化数据可视化是利用图表、图像和地图等形式将数据进行直观展示的过程,常见的数据可视化方法包括柱状图、折线图、散点图和地理信息系统等。
数据可视化能够帮助研究者更直观地理解数据特征和规律。
9. 统计软件统计软件是进行数据分析和统计推断的重要工具,常见的统计软件包括SPSS、SAS、R和Python等。
统计软件能够帮助研究者进行复杂的数据处理和分析,提高工作效率和结果质量。
统计学知识点汇总
第一章:
统计学是收集、处理、分析、解析数据并从数据中得出结论的科学.
分类:描述统计、推断统计.
描述统计是研究数据收集、处理和描述的统计学方法. 推断统计是研究如何利用样本数据来推断总体特征的统计学方法(内容包括参数估计和假设检验)。
变量:每次观察都会得到不同结果的某种特征。
分类变量:又称无序分类变量,观测结果表现为某种类别的变量。
顺序变量:又称有序分类变量,观测结果表现为某种有序类别的变量.
数值变量:又称定量变量,观测结果表现为数字的变量。
数据:1、分类数据2、顺序数据3、数值型数据
总体:包含所研究的全部个体(数据)的集合.
样本:从总体中抽取的一部分元素的集合.
样本量:构成样本元素的数目。
抽样方法:1、简单随机抽样2、分层抽样3、系统抽样4、整群抽样
简单随机抽样:从含有N个元素的总体中,抽取n个元素组成一个样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。
分层抽样:也称分类抽样,在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本.
软件应用:用Excel抽取简单随机样本。
第二章:
一、定性数据的图示:1、条形图2、帕累托图3、饼图4、环形图
条形图:是用宽度相同的条形来表示数据多少的图形,用于观察不同类别的多少或分布状况。
帕累托图:是按各类别出现的频数多少排序后绘制的条形图.通过对条形的排序,容易看出哪类频数出现的多,哪类出现的少.
饼图:主要用于表示一个样本(或总体)中各类别的频数占全部频数的比例.
用图表展示定量数据:
生成定量数据的频数分布表时,需要先将原始数据按照某种标准分成不同的组别,然后统计出各组别的数据频数即可。
一组数据所分的组数K应不少于5组且不多于15组.
组距=(最大值-最小值)/组数组数=全距 /组距
每组组距均相等称为等距数列,反之则为异距数列在比较等距数列与异距数列的次数分布时常用:次数密度=本组次数/本组组距
2。
组中值 class midpoint
组中值=(本组上限+本组下限)/2或组中值=(本组假定上限+本组假定下限)/2
二、定量数据的图示:1、分组数据看分布:直方图2、未分组数据看分布:茎叶图和箱线图、垂线图和误
差图
最小值 25%四分位数中位数 75%四分位数最大值箱线图的示意图:Array
3、两个变量间的关系:散点图是用二维坐标展示两个变量之间关系的一种图形。
4、比较多个样本的相似性:雷达图和轮廓图
雷达图是从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接起来成线,即围成一个区域,多个样本围成多个区域,就是雷达图,利用它也可以研究多个样本之间的相似程度.
5、掌握各种图标的绘制,直方图与条形图的区别、茎叶图与直方图的区别。
三、合理使用图表
Excel应用:生成定性/定量数据的频数分布表(操作步骤).
第三章:用统计量描述数据
一、水平的度量:平均数:计算形式: =总体标志总量/总体单位总量
(一)简单均数 (二)加权均数
中位数:是一组数据排序后处于中间位置的数值,用Me表示。
众数:是一组数据中频数最大的变量值,直观地反映了数据的集中趋势。
是度量定类数据集中趋势的测度。
一般用Mo表示.
四分位数:是一组数据排序后处于25%和75%位置上的值。
它是通过3个点将全部数据等分为四部分,其中每部分包含25%的数据。
显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上和处在75%位置上的数值。
二、差异的度量:1、极差是一组数据的最大值与最小值之差,也称全距,用R表示。
由于极差只是利用了一组数据两端的信息,因而容易受极值端的影响,不能全面反映差异状况。
2、四分位差是一组数据75%位置上的四分位数与25%位置上的四分位数之差,也称为内距或四分间距,用Qd表示,反映了中间50%数据的离散程度,其数值越小说明中间的数值越集中,数值越大说明中间的数值越分散,四分位差不受极值的影响。
3、样本方差和标准差:
方差是度量数值变量离散程度的基本测度。
n个同性质独立变量和的方差等于各个变量方差之和。
n个同性质独立变量平均数的方差等于各变量方差平均数的1/n。
4、标准分数:测度每个数值在该组数据中的相对位置,并可以用它来判断一组数据中是否有离群点,它是某个数据与其平均数的离差除以标准差后的值.
三、比较几组数据的离散程度:离散系数是一组数据的标准差与其相应的平均数之比,它消除了数据水平高低和计量单位对标准差大小的影响。
主要用于比较不同样本数据的离散程度,离散系数越大说明数据的离散程度也越大,离散系数越小说明数据的离散程度也越小.
计算公式是: Vs=S/x
四、分布形状的度量
偏态系数
偏态系数为0时,数据是对称分布;偏态系数为负数时,数据是左偏分布,也称为负偏态;偏态系数为正数时,数据是右偏分布,也称为正偏态。
偏态系数越大表明偏离程度越大.
峰态系数
峰度系数为3时,数据是对称分布;峰度系数大于3时,数据是尖峰分布;峰度系数小于3时,数据是平峰分布.
软件应用:用Excel计算描述统计量。
第一步:选择【工具】-【数据分析】.在分析工具中选择【描述统计】。
单击【确定】。
第二部:将原始数据所在的区域输入【输入区域】;在【输出选项】中选择结果的输出位置;选择【汇总统计】。
单击【确定】
第四章:概率分布
事件发生可能性大小的度量就是概率.
随机变量的概率分布1、有些随机变量只能取有限个值,称为离散型随机变量。
2、有些则可以取一个或多个区间中的任何值,称为连续性随机变量。
描述随机变量集中程度的统计量称为期望值.
一、离散型随机变量的概率分布(二项分布、超几何分布、泊松分布)
1、二项分布(binomial distribution):互斥现象;独立事件;每次成功概率为p(不成功概率为q)。
n次试验,成功x次,每次成功的概率p,则成功x次的概率P为
2、超几何分布
(hyper geometric distribution)样本抽取后不放回时的离散型概率分布.N个总体有T次成功次数,则抽取n次中有x次成功的概率。
例:6名业务骨干中的3人在职时间超过了5年。
随机抽取这6人中的4人,恰好有2人在职时间超过了5年的概率。
3、泊松分布(Poisson distribution)
事件在一段时(空)间内连续发生时指定次数事件的概率。
例:某网店平均每小时接单5个.现在随机抽取1小时观察,恰好接3个定单的概率是
二、连续性随机变量的概率分布(正态分布、指数分布、均匀分布)
正态曲线的性质:1、正态曲线的图形是关于x=μ对称的钟形曲线,且峰值在x=μ处。
2、正态分布的两个参数μ和σ一旦确定,正态分布的具体形式也就唯一确定,均值μ决定正态曲线的具体位置,标准差σ相同而均值不同的正态曲线在坐标轴上体现为水平位移.σ越大,正态曲线越扁平;σ越小,正态曲线越陡峭。
3、当X的取值向横轴左右两个方向无限延伸时,正态曲线的两个尾端也无限渐进横轴,但理论上永远不会与之相交。
4、正态随机变量在特定区间上取值的概率由正态曲线下的面积给出,而且其曲线下的总面积等于1。
三、其他几个重要的统计分布(t分布、χ2分布、F分布)
熟记各种分布的性质与特点。
四、样本统计量的概率分布
1、总体分布为正态分布时大、小样本的样本均值均服从正态分布
2、总体分布为非正态分布,大样本时的样本均值服从正态分布,小样本的样本均值服从非正态分布.
五、统计量的标准误差
统计量的标准误差也称为标准误,它是指样本统计量分布的标准差,用于衡量样本统计量的离散程度,在参数估计和假设检验中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。
SE=σ/n^1/2
当总体标准差σ未知时,可用样本标准差s代替计算,这时计算的标准误差称为估计标准误差。
(统计软件中给出的都是估计标准误差)
样本比例的标准误差可表示为:σp=[π(1—π)/n]^1/2
当总体比例的方差π(1-π)未知时,可用样本比例的方差p(1—p)代替。
注意:区别标准误差与标准差的概念以及反映的内容。
第五章:参数估计
一、参数估计的基本原理
1、点估计
2、区间估计:是在点估计的基础上给出总体参数估计的一个估计区间,该区间通常是由样本统计量加减估计误差。
在区间估计中,由样本估计量构造出的总体参数在一定置信水平下的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限.
一般的,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数。
置信水平=1—α
3、评价估计量的标准
无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。
有效性:是指估计量的方差尽可能小.
一致性:是指随着样本量的增大,点估计量的值越来越接近被估计总体的参数。
二、一个总体参数的区间估计
类比总体比例/方差的区间估计
三、两个总体参数的区间估计
类比两个总体比例之差/方差比的区间估计
四、样本量的确定
1、估计总体均值时样本量的确定。
2、估计总体比例时样本的确定。
(熟练掌握其公式)。