统计学基本概念与EXCEL函数word精品

  • 格式:docx
  • 大小:18.39 KB
  • 文档页数:4

下载文档原格式

  / 4
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学基本概念与EXCEL函数

编辑自CSDNzxca368

对于一维数据的分析,最常见的就是计算平均值(Mean)、方差(Varianee)和标准差(Standard Deviation)。在做【特征工程】的时候,会出现缺失值,那么经常会用到使用平均值或者中位数

等进行填充。

1,平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小;

. + 32 ------------ %

X =---------------------------------

n

2,平均值的EXCEL函数:AVERAGE

二,方差(Varianee),这一概念的目的是为了表示数据集中数据点的离散程度;

1,总体方差,

N(口?为总体方差,X为变量,卩为总体均值,N为总体例数。) 2,样本中各数据与样本平均数的差的平方和的平均数叫做样本方差S2

宀角示=占琴坎一卯=-収

3,样本方差的算术平方根叫做样本标准差。标准差(Standard Deviation,缩写SD),中文环境中又常称均方差,是离均差平方的算术平均数的平.方根。标.准差是方差的算术平方根。.....................

标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

标准差的EXCEL函数:

STDEV :用途:估算样本的标准偏差。它不计算文本值和逻辑值(如TRUE和FALSE )。它反映了数据相对于平均值(mean)的离散程度。

2.STDEVA :基于样本估算标准偏差。标准偏差反映数值相对于平均值(mean)的离散程度。

文本值和逻辑值(如TRUE和FALSE )也将计算在内。

3.STDEVP :用途:返回整个样本总体的标准偏差。它反映了样本总体相对于平均值(mean)的离散程度。

简单说函数stdev的根号里面的分母是n-1,而stdevp是n,如果是抽样当然用stdev.在十个数据的标准偏差

如果是总体时就用STDEVP ,如果是样本是就用STDEV。

至于STDEVA与STDEV差不多,只不过它可以把逻辑值当数值处理。

4,协方差Covarianee

每对数据点的偏差乘积的平均数,利用协方差可以决定两个数据集之间的关系。

协方差的EXCEL函数:eovar (第一个所含数据为整数的单元格区域,第二个所含数据为整数

的单元格区域)

三,标准误差(Standard error,缩写SE),也称均方根误差(Root mean squared error ),标准误差是指在抽样试验(或重复的等精度测量)中,常用到样本平均数的标准差。标准差与标准误差,计算公式类似,但是是两个不同的概念。对一个总体多次抽样,每次样本大小都为n,那么每

个样本都有自己的平均值,这些平均值的标准差叫做标准误差。

设n个测量值的误差为■' ' _ ,则这组测量值的标准误差 .等于:

Y " 讨"(E为误差=测定值一真实值。)stand error=stand

deviation/sqrt(样本数),

标准误差EXCEL函数:excel函数里没有标准误差可直接应用的函数,不过你可以用标准差

除以该组数据的个数n的平方根来求。即0-/根号n,(T = stdev(array). 故,若数据组为a1:a10,在

要显示结果的某个单元格里输入公式:=stdev(a1:a10)/sqrt(cou nta(a1:a10))

如图数据要计算数据与20的标准误差,则可用数组公式:

{=SQRT(AVERAGE((C2:C11-20)A2))}(输入公式后同时按下Ctrl+Shift+Enter 完成输入,{}是自

动生成的,不是人工输入的)

标准差与标准误差区别意义、作用和使用范围均不同。标准差(亦称单数标准差)一般

用SD (Standard Deviation )表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,

是数据精密度的衡量指标;而标准误差一般用SE (Standard error )表示,反映样本

平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。

随着样本数(或测量次数)n的增大,标准差趋向某个稳定值,即样本标准差s越接近总体

标准差o,而标准误差则随着样本数(或测量次数)n的增大逐渐减小,即样本平均数越接近总体

平均数卩;故在实验中也经常采用适当增加样本数(或测量次数)n减小的方法来减小实验误差,

但样本数太大意义也不大。标准差是最常用的统计量,一般用于表示一组样本变量的分散程度;标准误差一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等。

标准差是针对特定的一组数据而言,看数据序列偏离均值的程度;而标准误差则是针对n组数据而言,看每次抽样的效果如何,可以理解为n组数据标准差的标准差。

为什么使用标准差?

与方差相比,使用标准差来表示数据点的离散程度有3个好处:

1. 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。

依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4 ;两者相比较,标准差更适合人理解。

2. 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。

3. 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据

点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

在上面的方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏

差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的

方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究

对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1 :

公式的选择

是否使用贝塞尔修正,是由数据集的性质来决定的:如果只想计算数据集本身的离散程度(population),那么就使用未经修正的公式;如果数据集是一个样本(sample),而想要计算的则是样

本所表达对象的离散程度,那么就使用贝塞尔修正后的公式。在特殊情况下,如果该数据集相较总体而言是一个极大的样本(比如一分钟内采集了十万次的10数据)一在这种情况下,该样本数据

集不可能错过任何的异常值(outlier),此时可以使用未经修正的公式来计算总体数据的离散程度。

变异系数(Coefficient of Varianee ),标准差与平均数的比值称为变异系数,记为 C.V。当进行两

个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果

单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值

(相对值)来比较。简单来说就是:在表示离散程度上,标准差并不是全能的,当度量单位或平

相关主题