统计学第五章集中趋势和离中趋势的度量
- 格式:pdf
- 大小:17.53 MB
- 文档页数:43
定量资料集中趋势的指标在统计学中,我们经常需要对一组数据进行总结和描述。
其中,数据的集中趋势是其中一个重要的方面。
集中趋势指标可以帮助我们了解数据的平均水平或者典型值,从而更好地理解数据的分布情况。
本文将介绍几个常用的定量资料集中趋势的指标,包括均值、中位数、众数和四分位数。
1. 均值均值是最常用和最简单的集中趋势指标之一。
它是将所有观察值相加后再除以观察值的总数得到的结果。
均值能够反映数据整体的平均水平。
计算公式如下:x‾=∑x i ni=1n其中,x‾表示样本均值,x i表示第i个观察值,n表示观察值的总数。
均值有以下几个特点:•对异常值敏感:当数据中存在极端异常值时,均值会受到其影响而偏离真实情况。
•可加性:如果将两组具有相同单位的数据合并在一起计算均值,则合并后的总体均值等于各部分均值的加权平均。
•适用范围广:对于大部分数据类型,均值都是一个有效的集中趋势指标。
2. 中位数中位数是将一组数据按照大小顺序排列后,处于中间位置的观察值。
如果观察值的总数是奇数,则中位数为排序后的中间值;如果观察值的总数是偶数,则中位数为排序后中间两个观察值的平均值。
中位数能够反映数据集合的典型水平。
计算公式如下:•当n为奇数时,中位数为第n+12个观察值;•当n为偶数时,中位数为第n2和第n2+1个观察值的平均值。
与均值相比,中位数具有以下优点:•对异常值不敏感:中位数只与排序后位置上的观察值相关,不受极端异常值影响。
•可以直接计算:无需事先对数据进行求和操作。
3. 众数众数是一组数据中出现次数最多的观察值。
众数能够反映数据集合中出现频率最高的取值。
在某些情况下,数据集合可能存在多个众数,这种情况被称为多模态分布。
而对于没有出现次数最多的观察值的数据集合,我们称之为无模态分布。
众数的计算并没有固定的公式,一般通过观察数据集合来判断出现频率最高的取值。
与均值和中位数相比,众数具有以下特点:•对离散型数据更加有效:众数适用于离散型数据,特别是分类变量。
统计学中的中心值和离散程度统计学是一门研究数据收集、分析和解释的学科。
在进行统计分析时,我们常常关注数据的中心值和离散程度。
中心值是指一组数据的平均值、中位数和众数,用于表示数据集的集中趋势。
离散程度则是用来描述数据集中数值之间的差异程度。
本文将详细介绍在统计学中对中心值和离散程度的概念和计算方法。
一、中心值在统计学中,中心值是对数据集中数值的集中程度进行度量的一种方法。
以下是常用的中心值指标:1. 平均值:平均值是一组数据的总和除以观测数量,用于表示数据集的平均水平。
计算平均值的公式为:平均值 = 总和 / 观测数量例如,某班级学生的期末考试成绩为90、85、95、80和100,则平均值为(90+85+95+80+100) / 5 = 90分。
2. 中位数:中位数是将一组数据按照大小顺序排列后,位于中间位置的数值。
对于偶数个观测值的数据集,中位数是中间两个数值的平均值。
求中位数的步骤如下:1) 对数据进行排序;2) 若数据数量为奇数,中位数为排序后位于中间位置的数值;3) 若数据数量为偶数,则中位数为排序后中间两个数值的平均值。
以数据集{3, 5, 7, 9, 11}为例,中位数为7。
3. 众数:众数是一组数据中出现次数最多的数值。
一个数据集可以有一个或多个众数,也可以没有众数。
二、离散程度离散程度是衡量数据集中数值分布差异程度的一种方法。
以下是常用的离散程度指标:1. 范围:范围是一组数据中最大值和最小值之间的差异。
计算范围的公式为:范围 = 最大值 - 最小值例如,某公司某月销售额最高为100万元,最低为10万元,则该月销售额的范围为100 - 10 = 90万元。
2. 方差:方差是一组数据与其平均值之差的平方和的平均值。
方差用于衡量数据分布对均值的偏离程度。
计算方差的步骤如下:1) 计算每个观测值与平均值之差;2) 将每个差值平方;3) 计算平方和;4) 将平方和除以观测数量。
方差的计算可以使用公式表示,也可以使用计算器或专业统计软件进行。
根本统计方法第一章 概论1. 总体〔Population 〕:根据研究目确实定的同质对象的全体〔集合〕;样本〔Sample 〕:从总体中随机抽取的局部具有代表性的研究对象。
2. 参数〔Parameter 〕:反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量〔Statistic 〕:反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3. 统计资料分类:定量〔计量〕资料、定性〔计数〕资料、等级资料。
第二章 计量资料统计描述1. 集中趋势:均数〔算术、几何〕、中位数、众数2. 离散趋势:极差、四分位间距〔QR =P 75-P 25〕、标准差〔或方差〕、变异系数〔CV 〕3. 正态分布特征:①X 轴上方关于X =μ对称的钟形曲线;②X =μ时,f(X)取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。
4. 医学参考值范围的制定方法:正态近似法:/2X u S α±;百分位数法:P 2.5-P 97.5。
第三章 总体均数估计和假设检验1. 抽样误差〔Sampling Error 〕:由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可防止,产生的根本原因是生物个体的变异性。
2. 均数的标准误〔Standard error of Mean, SEM 〕:样本均数的标准差,计算公式:/X σσ=3. 降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。
4. t 分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度ν,ν越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高;③当ν逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t 分布的特例。
正态分布的集中趋势和离散统计指标在统计学中,正态分布是一种非常重要且常见的概率分布,也被称为高斯分布。
它具有许多重要特性,其中包括集中趋势和离散统计指标。
在本文中,我们将探讨正态分布的集中趋势和离散统计指标,以及它们在实际应用中的意义和重要性。
1. 集中趋势指标正态分布的集中趋势指标是描述数据集中取值位置的统计量。
常见的集中趋势指标包括均值、中位数和众数。
其中,均值是所有数据值的平均数,是最常用的集中趋势指标之一。
在正态分布中,均值通常位于分布的中心位置,并且具有对称性。
除了均值,中位数和众数也是描述集中趋势的重要指标。
中位数是将数据集等分为两部分的数值,而众数则是数据集中出现最频繁的数值。
在实际应用中,集中趋势指标可以帮助我们理解数据分布的中心位置,判断数据的平均水平,并做出相应的决策。
在财务报表分析中,我们可以利用均值来评估企业的盈利水平,进而制定财务策略和规划预算。
在医学研究中,研究人员也常用中位数来描述疾病的发病率,以便做出治疗方案和预防措施。
2. 离散统计指标除了集中趋势指标外,正态分布还具有离散统计指标,用于描述数据的分散程度和波动性。
常用的离散统计指标包括标准差、方差和极差。
标准差是数据偏离均值的平均距离,是描述数据离散程度的重要统计量。
方差则是标准差的平方,用于衡量数据的波动性和离散程度。
另外,极差是描述数据取值范围的统计量,可以帮助我们了解数据的最大和最小取值之间的差异程度。
在实际应用中,离散统计指标可以帮助我们评估数据的波动性和风险程度,从而制定相应的风险管理和控制策略。
在金融投资中,我们可以利用标准差来衡量资产价格的波动性,进而评估投资风险并调整投资组合。
在生产制造中,研究人员也常用方差来评估生产过程的稳定性和一致性,以便提高生产效率和质量。
个人观点和理解对于正态分布的集中趋势和离散统计指标,我认为它们在数据分析和决策制定中起着至关重要的作用。
集中趋势指标可以帮助我们理解数据的中心位置,从而判断平均水平和典型取值。
第一章※1.心理与教育统计的定义与性质;名词解释心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据所传递的信息,进行科学推论找出心理与教育活动规律的一门学科;2.心理与教育统计学的内容描述统计、推论统计的界定;名词解释描述统计:主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质;推论统计:主要研究如何通过局部数据所提供的信息,推论总体的情形;※3.心理与教育科学研究数据的特点;填空、选择、简答多用数字形式呈现数据具有随机性和变异性随机因素,随机误差,随机现象数据具有规律性研究目标是通过部分数据推论总体※4.心理与教育统计的数据类型;填空、选择1.按照数据观测方法或来源划分2.按照测量水平3.数据是否连续A.计数数据 A.称名数据 A.离散数据B.测量数据 B.顺序数据 B.连续数据C.等距数据D.比率数据※5.变量、观测值与随机变量;名词解释变量:是指一个可以取不同数值的物体的属性或事件;由于其数值具有不确定性,所以被称之为变量;变量的具体取值即观测值;随机变量:指在取值之前不能预料取到什么值的变量,一般用X,Y表示;※6.总体、个体与样本;名词解释总体:又称母体、全域,是指具有某种特征的一类事物的全体;个体:组成总体的每个基本单元;样本:从总体中抽取的一部分个体,构成总体的一个样本;※7.参数与统计量;名词解释参数又称为总体参数,是对总体情况进行描述的统计指标;统计量又称特征值,是根据样本的观测值计算出来的一些量数,它是对样本的数据情况进行描述;第二章1.对数据资料进行初步整理的基本方式;填空、选择排序和统计分组2.统计分组应该注意的问题;简答要以被研究对象的本质特性为分组基础;分类标志被研究对象的本质特性要明确,能包括所有的数据;“不能既是这个又是那个”3.分组的标志形式;填空、选择性质类别称名数据与顺序数据与数量类别;4.组距与分组区间;填空、选择组距:任意一组的起点与终点的距离; i= R / K, 常取2、3、5、10、20;分组区间组限即一个组的起点值和终点值;起点值为组下限,终点值为组上限;组限有表述组限和精确组限两种;5. 不同图表形式所各自适用表示的资料类型;选择、填空表/图适用的数据类型简单次数分布表计数/测量,离散数据/连续数据分组次数分布表连续性测量数据相对次数分布表累加次数分布表直方图 连续性随机变量 累加次数分布图连续性随机变量条形图 计数资料/离散型数据资料,称名型数据圆形图 间断性资料 线形图 连续性资料 散点图连续性资料第三章1.集中趋势与离中趋势;名词解释 集中趋势:数据分布中大量数据向某方向集中的程度,即在某点附近取值的频率较其它点大的趋势;离中趋势:数据分布中数据彼此分散的程度;2.对一组数据集中趋势的进行度量的统计量有哪些 填空、选择 算术平均数、中数、众数、加权平均数、几何平均数和调和平均数等;3.算数平均数的计算方法未分组与分组数据两种情况;填空、选择、计算 一未分组数据计算平均数的方法 公式 :表示原始分数的总和,N 表示分数的个数; 二 用估计平均数计算平均数数据值过大时,利用估计平均数an estimated mean 可以简化计算;具体方法,先设定一个估计平均数,用符号AM 表示,从每一个数据中减去AM,使数据值变小,最后将其加入总的计算结果之中; 公式:X ˊ=Xi-AM三分组数据计算平均数的方法组中值假设散布在各区间内的数据围绕着该区间的组中值Xc 均匀分布; 计算公式Xc 为各区间的组中值,f 为各区间的次数,N 为数据的总次数, 四分组数据平均数的估计平均数方法AM 为估计平均数,i 为次数分布表的组距, d 可称为组差数4.平均数的特点;填空、选择 在一组数据中,每个变量与平均数之差称为离均差的总和等于0 ;在一组数据中,每一个数据都加减上一个常数C,则所得的平均数为原来的平均数加常数C;在一组数据中,每一个数据都乘除以一个常数C,则所得的平均数为原来的平均数乘除以常数C;5.平均数的优缺点;简答1优点 :反应灵敏;计算严密;计算简单;简明易解;适合于进一步用代数方法演算;较少受抽样变动的影响; 2缺点:易受极端数据的影响 ;若出现模糊不清的数据时,无法计算平均数;6.计算与应用平均数的原则;简答 同质性原则平均数与个体数据相结合的原则平均数与标准差、方差相结合的原则7.中数的应用;简答当一组观测结果中出现两个极端数目; 次数分布的两端数据或个别数据不清楚需要快速估计一组数据的代表值;8.众数的计算方法、众数的优缺点及应用;简答、计算一计算众数的方法 1、直接观察法a. 原始数据:例:22,26,7,89, 26 ,4,9b. 在次数分布表中,次数最多的那个分组区间的组中值为众数; 2、公式法 用公式计算的众数称为数理众数; 1 皮尔逊经验法 2金氏插补法 公式:iXX N=∑'X XAM N=+∑NfXcX ∑=iNfd AM X ∑+=13d o M M M M -=-a b a bf Mo L if f +=+⨯9.平均数、中数与众数的关系;选择、填空、简答 正态分布: Mo=Md=M在偏态分布中,M 永远位于尾端,Md 位于中间,两者距离较近 Mo=3Md-2M在正偏态分布中,M> Md> Mo 在负偏态分布中,M< Md< Mo第四章1.对一组数据离中趋势进行度量的差异量数有哪些 各自的意义是怎样的 填空、选择 全距、四分位差、百分位差、平均差、标准差和方差等;2. 平均差、方差及标准差的计算公式每一个数据都参与运算;填空、选择、计算 平均差计算公式: 样本方差的计算公式: 样本标准差的计算公式:3. 方差与标准差的性质与意义;选择、填空、简答方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点; 标准差是一组数据方差的平方根, 标准差的性质:每一个观测数据加上一个相同常数C 之后,计算到的标准差等于原标准差;若Yi=Xi+C 则有 每一个观测数据乘以一个相同常数C 之后,则所得标准差等于原标准差乘以这个常数;若Yi=Xi ×C 则有每一个观测值都乘以同一个常数CC ≠0,再加上一个常数d,所得的标准差等于原标准差乘以这个常数C;若Yi=Xi ×C+d C ≠0 则有方差与标准差的意义1方差与标准差是表示一组数据离散程度的最好指标;其值越大,说明次数分布的离散程度越大,该组数据较分散; 其值越小,说明次数分布的数据比较集中,离散程度越小; 2优点:反应灵敏;计算公式严密;容易计算;适合代数运算;受抽样变动小;简单明了;3在正态分布中,可确定平均数上下几个标准差内的数据个数;1-1/h24. 标准差的应用差异系数,标准分数与异常值的取舍;选择、填空、简答、计算 一、差异系数标准差:绝对差异量数对同一特质使用同一观测工具进行测量,所测样本水平比较接近时,可直接比较标准差大小差异系数coefficient of variation,又称变异系数、相对标准差等,它是一种相对差异量,用CV 来表示;差异系数应用于①同一团体不同观测值之间离散程度的比较;②对于水平差异较大,但进行的是同一种观测的各种团体 二、标准分数标准分数standard score,又称基分数或Z 分数Z- score,是以均值为参照点,以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数; 即原始数据在平均数以上或以下几个标准差的位置; 公式:三、异常值的取舍三个标准差法则当数据较多时,如果数据值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常值舍弃;当数据较少时,需考虑全距与标准差之比,再加以其他处理;5. 标准分数的意义及计算公式;选择、填空、简答、计算 见第4题第二点 标准分数的优点可比性可加性明确性稳定性6. 标准分数的性质;选择、填空、简答Z 分数的性质Z 分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量;一组原始分数转换得到的Z 分数可以为正值,也可以是负值; 凡小于平均数的原始分数的Z 值为负数,大于平均数的原始分数的Z 值为正数,等于平均数的原始分数的Z 值为零; 所有原始分数的Z 分数之和为零,Z 分数的平均数也为零;即∑Z=0,=01Ni i X N=-1N i i X X AD N =-=∑21nii =21()1n i i XX S n =-=-∑s x s X X Z =-=ss XY=XYssC ⨯=s sXYC ⨯=一组原始数据转换后Z 分数的标准差是1,即Sz=1.若原始分数成正态分布,则转换得到的所有Z 分数的均值为0,标准差为1的标准正态分布standard normal distribution7. 标准分数的应用;选择、填空、简答用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低;某学生的身高、体重哪个在班级中位置在前面计算不同质的观测值的总和或平均值,表示在团体中的相对位置;计算各科的总成绩表示标准测验分数Z’=aZ+b IQ=15Z+100 T=500+100Z第五章1.事物之间的关系类型;填空、选择 因果关系、共变关系和相关关系;2.相关的类型;填空、选择 正相关、负相关和零相关;3.散点图的不同形式与不同的相关关系的对应;填空、选择4.积差相关的计算的前提条件;选择、填空、简答 积差相关的适用条件: 成对数据,样本容量要大>30; 两变量来自的总体均为正态分布; 两个变量都是连续数据/测量数据;两变量之间为线性关系:可根据相关散布图判断;5.积差相关的计算公式;填空、选择、计算6. 斯皮尔曼二列与肯德尔多列等级相关的适用数据类型;选择、填空斯皮尔曼二列等级相关适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于30;肯德尔和谐系数常以 W 表示,适用于多列等级变量相关程度的分析; 肯德尔和谐系数可以反映多个等级变量变化的一致性;肯德尔U 系数又称一致性系数,适用于对K 个评价者的一致性进行统计分析;7. 质与量相关的数据类型及具体的相关类别;选择、填空 一列为等比或等距的测量数据,另一列按性质划分的类别质量相关包括点二列相关、二列相关和多系列相关;8. 点二列、二列与多列相关的适用数据资料;选择、填空 一、点二列相关适用资料:一列变量为等距或等比数据,且其总体分布为正态,另一列变量为二分称名变量;二、二列相关适用资料:一列变量为等距或等比数据,另一列变量为人为划分二分变量,且两列变量数据的总体分布均为正态; 三、多列相关适用资料:适合处理两列正态分布变量,一列为等比或等距的测量数据;另一列变量被人为地划分为多种类别; 9. 相关系数值的解释;选择、填空、简答相关系数表示两个变量之间的关系程度,不是等距的测量值,只能说绝对值大者比小的相关更密切一些; .相关系数的大小表示关系密切程度,正负号表示方向; 两变量之间的关系可能受到第三方影响相关关系不等于因果关系出现相关原因:X 引起 Y ;Y 引起X ;X 、Y 同时受另一变量影响第六章 概率分布1.概率、后验概率与先验概率的界定;名词解释 概率probability 是表示随机事件出现可能性大小的客观指标; 后验概率或统计概率:通过对随机事件的观测和试验得到的概率先验概率古典概率:在特殊情况下直接计算的比值,是真实的概率而不是估计值;2.概率的基本性质;选择、填空、计算 一概率的公理系统 任何随机事件A的概率都是在0与1之间的正数,即 0 ≤ PA ≤1 必然事件的概率等于1,即 PA= 1不可能事件的概率等于零,即 PA= 0二概率的加法定理 在一次实验或调查中,若事件A发生,则事件B就一定不发生,这样的两个事件为互不相容事件;两个互不相容事件之和的概率,等于这两个事件概率之和()()()A B A B P P P +=+三概率的乘法定理适用于几种情况组合的概率,即几种事件同时发生的情况 若事件A发生不影响事件B是否发生,这样的两个事件为互相独立事件;两个互相独立事件同时出现的概率,等于这两个事件概率的乘积,即3.概率分布的界定及类型;名词解释 概率分布probability distribution 是指对随机变量取不同值时的概率分布情况的描述,一般用概率分布函数进行描述;类型 依随机变量是否取连续数据分类,可将概率分布分为离散型概率分布与连续型概率分布; 依分布函数的来源,可将概率分布分为经验分布与理论分布;依所描述的数据特征,将概率分布分为基本随机变量分布与抽样分布;4.正态分布的特征;简答 正态分布的形式是对称的,对称轴是经过平均数的垂线;正态分布中平均数所对应点最高,然后逐渐向两侧下降;拐点位于+1s 处;正态曲线下的面积为1,过平均数的垂线左右两部分面积均为;面积即概率,即值为每一横坐标值的随机变量出现的概率;正态分布是一族分布;因平均数与标准差不同有不同的分布形态;所有正态分布都可以通过Z 分数公式非常容易地转换成标准正态分布; 正态分布中各差异系数间有固定比率标准正态曲线下标准差与概率面积有一定的数量关系;+1s 包括%的个体 + 包括95% + 包括99%+3s 包括%可疑值取舍的依据 +4s 包括%5.二项分布的应用——解决含有机遇性质的问题;计算二项分布函数除了用来求成功事件恰好出现X 次的概率之外,在教育中二项分布主要用于解决含有机遇性质的问题即主要用来判断试验结果是由猜测造成还是真实结果之间的界限; 分布的情况及分布特点;简答 t 分布是常用的一种随机变量分布,也称为学生氏分布;t 分布受自由度df=n-1,即一个统计量中可以自由变化的数目影响,与总体标准差无关;t 分布的特点平均数为0,以平均数为中心左右对称分布,左侧t 值为负,右侧t 值为正; 形状与正态分布曲线相似,峰态比较高狭,t 分布曲线随自由度的变化而变化变量取值没有固定范围,-∞— +∞之间;样本容量越大n-1>30,t 分布越接近正态分布,方差大于1,方差为1;当n-1<30,t 分布与正态分布相差较大,离散程度更大,分布图中间变低尾部变高;第七章 参数估计1.总体参数估计的界定及类型;名词解释 根据样本统计量对相应总体参数所作的估计叫作总体参数估计;总体参数估计分为点估计和区间估计;2.点估计与区间估计的界定;名词解释 由样本的平均数和标准差估计总体的平均数和标准差即为点估计;由样本的平均数和标准差估计总体平均数和标准差的取值范围则为区间估计;3. 良好点估计量的标准;简答无偏性如果一切可能个样本统计量的值与总体参数值偏差的平均值为0,这种统计量就是总体参数的无偏估计量;有效性当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低;一致性当样本容量无限增大大样本时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体参数一致性估计量;充分性一个容量为n 的样本统计量,应能充分地反映全部n 个数据所反映的总体的信息;1X X X t s s n μμ--==-()()B A B A P P P ⋅=⋅)(4. 置信区间、置信水平与显着性水平;名词解释 置信区间,也称置信间距confidence interval,CI 是指在某一置信度时,总体参数所在的区域距离或区域长度; 置信度,即置信水平,是作出某种推断时正确的可能性概率;如.95和.99的置信区间;1-α显着性水平是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示;5. 区间估计的原理;简答根据抽样分布理论,用抽样分布的标准误SE 计算区间长度,解释总体参数落入某置信区间可能的概率;置信度为.95和.99,以及相对应的.05与.01的显着性水平是习惯上常用的两个数值,其依据是.05与.01的概率属于小概率事件,小概率事件在一次抽样中是不可能出现的;区间估计依据的是该样本统计量的分布规律及样本分布的标准误SE; 6. 总体平均数估计正态分布或t 分布;简答、计算 平均数区间估计的基本原理通过样本的平均数估计总体的平均数,首先假定该样本是随机取自一个正态分布的母总体或非正态总体中的n >30的样本,而计算出来的实际平均数是无数容量为n 的样本平均数中的一个;根据样本平均数的分布理论,可以对总体平均数进行估计,并以概率说明其正确的可能性;因为样本平均数的平均数与母总体的平均数相同,因此,对平均数总体的平均数进行估计就是对母总体平均数的估计;估计总体平均数的步骤1.根据样本的数据,计算样本的平均数和标准差; 2.计算平均数抽样分布的标准误 ; 1当总体方差 已知时, 2当总体方差 未知时,3.确定置信水平或显着性水平;4.根据样本平均数的抽样分布确定查何种统计表; 总体方差已知时,查正态表,总体方差未知时,查t 值表 5.计算置信区间;6.解释总体平均数的置信区间;总体平均数μ的估计1.当总体 已知时,查正态分布表 ①总体正态,不管样本容量大小, ②总体非正态,大样本n>30,平均数的抽样分布呈正态,总体平均数的置信区间为:例题:某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该校10岁全体女童平均身高的95%和99%置信区间;解:10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为σ=;无论样本容量大小,一切样本平均数的抽样分布呈正态分布;于是可用正态分布来估计该校10岁女童身高总体平均数95%和99%的置信区间;2. 总体方差 未知,查t分布表 ①总体正态,不管样本容量大小, ②总体非正态,大样本n>30,平均数的抽样分布为t 分布,平均数的置信区间为:例题:从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26;试估计该校三年级学生阅读能力总体平均数95%和99%的置信区间;解:12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差σ未知,样本的容量较小n=12<30,在此条件下,样本平均数与总体平均数离差统计量服从呈t 分布;于是需用t 分布来估计该校三年级学生阅读能力总体平均数95%和99%的置信区间;3.总体非正态,大样本平均数的抽样分布接近于正态分布,用正态分布代替t 分布近似处理:例题:从某年高考中随机抽取102份作文试卷,算得平均分数为26,标准差为,试估计全部考生作文成绩95%和99%的置信区间;解:学生高考分数假定是从正态总体中抽出的随机样本,而总体的标准差σ未知,样本平均数与总体平均数离差统计量呈t 分布;但是由于样本容量较大n=120>30,t 分布接近于正态分布,因此可用正态分布近似处理;第八章 假设检验1.假设检验的概念与原理小概率事件;名词解释、简答2σ2σxσnx σ=σ2σ2σ11-=-n s n s n x σ()()n S t X n S t X n df n df 12/12/--⋅+<<⋅-ααμnSZX nSZ X n n 12/12/--⋅+<<⋅-ααμ利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验;设立标准的依据:小概率事件样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认为小概率事件发生了;把出现概率很小的随机事件称为小概率事件;当概率足够小时,可以作为从实际可能性上,把零假设加以否定的理由;因为根据这个原理认为:在随机抽样的条件下,一次实验竟然抽到与总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的;2.假设检验中的两类错误及其之间的关系;名词解释、简答对于总体参数的假设检验,有可能犯两种类型的错误,即α错误和β错误;Ⅰ型错误α错误意味着当实验处理效应不存在时,研究者却得出结论,处理效应存在;Ⅱ型错误 β错误意味着当实验处理效应确实存在时,但是假设检验却没有识别出来;两类错误之间的关系 α与β是两个前提下的概率;+不等于1 对于固定的n , 与一般情况下不能同时减小; 要想减少与,一个方法就是要增大样本容量n;统计检验力:1-3.虚无假设与备择假设;名词解释H0:零假设,或称原假设、虚无假设null hypothesis 、解消假设;是要检验的对象之间没有差异的假设;H1:备择假设alternative hypothesis,或称研究假设、对立假设;是与零假设相对立的假设,即存在差异的假设;4.单侧与双侧检验的确定;简答 略5.假设检验的步骤;简答 ⑴ 提出假设虚无假设和备择假设 ⑵ 确定做出结论的标准确定显着性水平 ⑶ 选择检验统计量并计算统计量的值 ⑷.做出统计结论6.平均数的显着性检验单总体检验的几种不同情况;简答、计算 ⑴.总体为正态,总体标准差σ已知平均数的抽样分布服从正态分布,以Z为检验统计量,其计算公式为: ⑵.总体为正态,总体标准差σ未知,样本容量小于30平均数的抽样分布服从t 分布,以t 为检验统计量,计算公式为: ⑶.总体标准差σ未知,样本容量大于30平均数的抽样分布服从t 分布,但由于样本容量较大,平均数的抽样分布接近于正态分布,因此可以用Z 代替t 近似处理,计算公式为: ⑷.总体非正态,小样本不能对总体平均数进行显着性检验;7.平均数差异的显着性检验双总体检验的几种不同情况;简答、计算平均数差异的显着性检验时,统计量的基本计算公式为:1.两总体正态,总体标准差已知总体标准差已知条件下,平均数之差的抽样分布服从正态分布,以Z作为检验统计量,计算公式为: 2.两总体正态,标准差未知,方差齐性,n1或n2小于30总体标准差未知条件下,平均数之差的抽样分布服从t 分布,以t 作为检验统计量,计算公式为: 3.两总体非正态,n1和n2大于30或50总体标准差未知条件下,平均数之差的抽样分布服从t 分布,但样本容量较大,t 分布接近于正态分布,可以以Z近似处理,因此以Z ′作为检验统计量,计算公式为: 4.总体非正态,小样本不能对平均数差异进行显着性检验;第九章 方差分析1.方差分析的主要功能;填空、选择、简答方差分析又称为变异分析analysis of variance,ANOVA,是由斯内德克提出的一种变量关系的检验方法;其主要功能在于分析实验数据中不同来源的变异对总变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响; 2.方差分析的基本原理综合的F 检验与方差的可加性;简答 一、方差分析的基本原理:综合的F 检验 一综合虚无假设与部分虚无假设方差分析通过对多组平均数的差异进行显着性检验,分析实验数据中不同来源的变异对总变异影响的大小; 二方差的可分解性方差分析作为一种统计方法,是把实验数据的总变异分解为若干个不同来源的分量;因而它所依据的基本原理是变异的可加性;3.方差分析将总平方和分解为几个不同来源的平方和:组内平方和实验误差,包括个体差异与组间平方和实验处理效应;简答方差分析是将总平方和分解为几个不同来源的平方和实验数据与平均数离差的平方和;然后分别计算不同来源的方差,并计算方差的比值即F值;根据F值是否显着,对几组数据的差异是否显着作出判断; 4.方差分析的基本假定;选择、简答 ⑴ 总体正态分布⑵ 变异的相互独立性,即各实验处理是随机且相互独立的一般情况下都能满足XDSE X X t 21-=XDSE X XZ 21-='。
第五章离中趋势测量法平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。
但是总体作为统计对象,还有其变异性的一面。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
变异指标的种类较多,如按计算的基准来分有以下两类:(1)以两数之差来表达的有全距和四分位差等。
(2)以对平均数偏差来表达的有平均差、标准差等。
变异指标如按数量关系来分有以下两类;(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。
(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差1.全距全矩是最大变量值与最小变量值之差,用R来表示。
对未分组资料,计算全距用原始式。
由于全距是一组数据中两个极端值之差,所以它又称极差。
全距的最大优点是:计算简单,便于直观。
缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。
一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差四分位是用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,它可以避免全距测量离中趋势受极端值影响大这个缺点。
但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节平均差要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。
第五章数据分布特征的描述第一节集中趋势指标概述一、集中趋势指标及其特点集中趋势(Central tendency),是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水平的代表值或是心值。
在现象的同质总体中,各个单位的标志值是不尽相同的。
如果我们的目的是要对总体的数量水平有一个概括地、一般地认识,显然不能用某一单位的标志值表示。
统计平均数就是用来反映总体的一般水平和集中趋势的指标。
通俗的理解就是,在不变更总体总量的情况下,对总体内的全部标志值进行“截长补短”,使得总体各单位拥有同一水平的数量表现,这个同一水平的数量表现就是平均数,即集中趋势指标。
统计平均数有两个重要的特点:第一,平均数是一个代表值,表示被研究总体的一般水平。
例如,某企业职工的工资水平有高有低,有的职工月工资1680元,有的职工月工资1900元,有的职工月工资1870元,有的职工月工资2200元,等等。
若根据该企业各个职工月工资额综合计算出职工月平均工资为1860元,那么,1860元就是一个代表值。
它反映了该企业职工月工资的—般水平。
第二,平均数把被研究总体各单位的标志值的数量差异抽象化了。
例如,某企业职工的月平均工资为1860元,但是各个职工的工资水平有高有低,高于1860元的工资和低于1860元的工资互相抵消了,从而得出平均工资1860元。
由此可见,平均工资(1860元)已把各职工月工资水平的差别抽象化了。
二、集中趋势指标的作用集中趋势指标——统计平均数,在统计研究中被广泛应用,平均数的作用可以归纳为以下几点:1.利用平均数对比不同总体的一般水平。
平均数可以用来对同类现象在各单位、各部门、各地区之间进行比较,以说明生产水平的高低或经济效果的好坏。
例如,要比较不同的生产企业生产水平的好坏,仅对比企业的产品总产量是不足以说明问题的,因为产品总产量受到企业规模大小的影响。
要比较,需要计算各企业生产人员的平均产品产量,即劳动生产率,并分析不同的生产条件,才能做出正确的判断。