统计学基本概念与EXCEL函数word精品

格式：docx
大小：18.39 KB
文档页数：4

下载文档原格式

/ 4

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

统计学基本概念与EXCEL函数

编辑自CSDNzxca368

对于一维数据的分析，最常见的就是计算平均值(Mean)、方差(Varianee)和标准差(Standard Deviation)。在做【特征工程】的时候，会出现缺失值，那么经常会用到使用平均值或者中位数

等进行填充。

1，平均值的概念很简单：所有数据之和除以数据点的个数，以此表示数据集的平均大小；

. + 32 ------------ %

X =---------------------------------

2，平均值的EXCEL函数：AVERAGE

二，方差(Varianee)，这一概念的目的是为了表示数据集中数据点的离散程度；

1，总体方差，

N(口？为总体方差，X为变量，卩为总体均值，N为总体例数。) 2，样本中各数据与样本平均数的差的平方和的平均数叫做样本方差S2

宀角示=占琴坎一卯=-収

3，样本方差的算术平方根叫做样本标准差。标准差(Standard Deviation,缩写SD)，中文环境中又常称均方差，是离均差平方的算术平均数的平.方根。标.准差是方差的算术平方根。.....................

标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。

标准差的EXCEL函数：

STDEV :用途：估算样本的标准偏差。它不计算文本值和逻辑值(如TRUE和FALSE )。它反映了数据相对于平均值(mean)的离散程度。

2.STDEVA :基于样本估算标准偏差。标准偏差反映数值相对于平均值(mean)的离散程度。

文本值和逻辑值(如TRUE和FALSE )也将计算在内。

3.STDEVP :用途：返回整个样本总体的标准偏差。它反映了样本总体相对于平均值(mean)的离散程度。

简单说函数stdev的根号里面的分母是n-1,而stdevp是n,如果是抽样当然用stdev.在十个数据的标准偏差

如果是总体时就用STDEVP ,如果是样本是就用STDEV。

至于STDEVA与STDEV差不多，只不过它可以把逻辑值当数值处理。

4,协方差Covarianee

每对数据点的偏差乘积的平均数，利用协方差可以决定两个数据集之间的关系。

协方差的EXCEL函数：eovar （第一个所含数据为整数的单元格区域，第二个所含数据为整数

的单元格区域）

三，标准误差（Standard error，缩写SE）,也称均方根误差（Root mean squared error ），标准误差是指在抽样试验（或重复的等精度测量）中，常用到样本平均数的标准差。标准差与标准误差，计算公式类似，但是是两个不同的概念。对一个总体多次抽样，每次样本大小都为n，那么每

个样本都有自己的平均值，这些平均值的标准差叫做标准误差。

设n个测量值的误差为■' ' _ ,则这组测量值的标准误差 .等于:

Y " 讨"（E为误差=测定值一真实值。）stand error=stand

deviation/sqrt（样本数）,

标准误差EXCEL函数：excel函数里没有标准误差可直接应用的函数，不过你可以用标准差

除以该组数据的个数n的平方根来求。即0-/根号n，（T = stdev（array）. 故,若数据组为a1:a10,在

要显示结果的某个单元格里输入公式：=stdev（a1:a10）/sqrt（cou nta（a1:a10））

如图数据要计算数据与20的标准误差，则可用数组公式：

｛=SQRT（AVERAGE（（C2:C11-20）A2））｝（输入公式后同时按下Ctrl+Shift+Enter 完成输入，｛｝是自

动生成的，不是人工输入的）

标准差与标准误差区别意义、作用和使用范围均不同。标准差（亦称单数标准差）一般

用SD （Standard Deviation ）表示，是表示个体间变异大小的指标，反映了整个样本对样本平均数的离散程度，

是数据精密度的衡量指标；而标准误差一般用SE （Standard error ）表示，反映样本

平均数对总体平均数的变异程度，从而反映抽样误差的大小，是量度结果精密度的指标。

随着样本数（或测量次数）n的增大，标准差趋向某个稳定值，即样本标准差s越接近总体

标准差o,而标准误差则随着样本数（或测量次数）n的增大逐渐减小，即样本平均数越接近总体

平均数卩；故在实验中也经常采用适当增加样本数（或测量次数）n减小的方法来减小实验误差，

但样本数太大意义也不大。标准差是最常用的统计量，一般用于表示一组样本变量的分散程度；标准误差一般用于统计推断中，主要包括假设检验和参数估计，如样本平均数的假设检验、参数的区间估计与点估计等。

标准差是针对特定的一组数据而言，看数据序列偏离均值的程度；而标准误差则是针对n组数据而言，看每次抽样的效果如何，可以理解为n组数据标准差的标准差。

为什么使用标准差？

与方差相比，使用标准差来表示数据点的离散程度有3个好处：

1. 表示离散程度的数字与样本数据点的数量级一致，更适合对数据样本形成感性认知。

依然以上述10个点的CPU使用率数据为例，其方差约为41，而标准差则为6.4 ;两者相比较，标准差更适合人理解。

2. 表示离散程度的数字单位与样本数据的单位一致，更方便做后续的分析运算。

3. 在样本数据大致符合正态分布的情况下，标准差具有方便估算的特性：66.7%的数据

点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内，而99%的数据点将会落在平均值前后3个标准差的范围内。

在上面的方差公式和标准差公式中，存在一个值为N的分母，其作用为将计算得到的累积偏

差进行平均，从而消除数据集大小对计算数据离散程度所产生的影响。不过，使用N所计算得到的

方差及标准差只能用来表示该数据集本身(population)的离散程度；如果数据集是某个更大的研究

对象的样本(sample)，那么在计算该研究对象的离散程度时，就需要对上述方差公式和标准差公式进行贝塞尔修正，将N替换为N-1 :

公式的选择

是否使用贝塞尔修正，是由数据集的性质来决定的：如果只想计算数据集本身的离散程度(population)，那么就使用未经修正的公式；如果数据集是一个样本(sample)，而想要计算的则是样

本所表达对象的离散程度，那么就使用贝塞尔修正后的公式。在特殊情况下，如果该数据集相较总体而言是一个极大的样本(比如一分钟内采集了十万次的10数据)一在这种情况下，该样本数据

集不可能错过任何的异常值(outlier)，此时可以使用未经修正的公式来计算总体数据的离散程度。

变异系数(Coefficient of Varianee )，标准差与平均数的比值称为变异系数，记为 C.V。当进行两

个或多个资料变异程度的比较时，如果度量单位与平均数相同，可以直接利用标准差来比较。如果

单位和(或)平均数不同时，比较其变异程度就不能采用标准差，而需采用标准差与平均数的比值

(相对值)来比较。简单来说就是：在表示离散程度上，标准差并不是全能的，当度量单位或平

统计学基本概念与EXCEL函数word精品

相关主题

文档推荐

最新文档