统计学整理
- 格式:doc
- 大小:179.12 KB
- 文档页数:5
第三章统计整理【教学目的】1. 深刻理解统计分组的作用,并且能够对不同的社会经济现象进行统计分组2. 运用分配数列对原始数据进行系统整理3. 制作统计表,运用计算机绘制统计图【教学重点】1. 能够对不同的社会经济现象进行统计分组2. 运用分配数列对原始数据进行系统整理3. 制作统计表,运用计算机绘制统计图【教学难点】1. 运用分配数列对原始数据进行系统整理2. 制作统计表,运用计算机绘制统计图【教学时数】教学学时为8 课时【教学内容参考】第一节统计整理的意义一、统计整理的意义统计整理,就是根据统计研究的目的和任务的要求,对统计调查所搜集到的原始资料进行分组、汇总,使其条理化、系统化,从而得到表现总体特征的综合统计资料的工作过程。
对于已整理过的初级资料进行再整理,也属于统计整理。
统计调查取得的各种原始资料是分散的、不系统的,只能表明各个被调查单位的具体情况,反映事物的表面现象或一个侧面,不能说明事物的总体情况与全貌。
因此,只有对这些资料进行加工、整理,才能认识事物的总体及其内部联系。
例如,工业企业普查中,所调查的每个工业企业资料,只能说明每个工业企业的经济类型、注册资本、职工人数、工业总产值、工业增加值、实现利税等具体情况。
必须通过对所有资料进行分组、汇总等加工处理后,才能得到全国工业企业的综合情况,从而分析工业企业的构成、经营状况等,达到对全国工业企业的全面的、系统的认识。
统计整理是统计调查的继续,也是统计分析的前提,它在统计研究中起着承前启后的作用。
因此,资料整理得是否正确,直接决定着整个统计研究任务的完成,不恰当的加工整理,不完善的整理方法,往往使调查得来的丰富、完备的资料失去价值。
因此,必须十分重视统计整理工作。
二、统计整理的步骤统计整理的基本步骤是:(一)对原始资料进行审查。
1. 审查被调查单位的资料是否齐全;2. 应审查数据是否准确。
审查的办法主要有:①逻辑审查:主要是从定性角度审查数据是否符合逻辑,内容是否合理,各项目或数量之间有无相互矛盾的现象。
参数(parameter):描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。
所关心的参数主要有总体均值、标准差、总体比例等。
总体参数通常用希腊字母表示统计量(statistic):用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数。
所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等。
样本统计量通常用小写英文字母表示1、概率抽样:简单随机抽样(SRS)、系统抽样(SYS)、分层抽样(STS)、整群抽样(STS)、多阶段抽(MSS)简单随机抽样(SRS)特点:总体中每一个样本点均有相同机率被抽中、抽出某个样本后不影响另一个样本抽出的机率(独立性)、经常先列样本名册后用计算机产生随机数或随机表抽选放回和不放回:放回(重复)抽样;无放回(不重复)抽样系统抽样(SYS)等距抽样:将所有样本列册以序号排列,先随机抽取第一个样本,接着每隔K个样本抽取下一个样本;间隔K 的求法:Population size/ Sample size;常用于电话抽样(类似于简单随机抽样)分层抽样(STS)将总体区分为数个层(strata):层之间互斥且周延、层内性质相近、层与层之间差异明显从每一层中简单随机抽取若干样本作为该层的代表,再将所有层总结集合整群抽样(STS)将总体区分为多个群集clusters:群集间互斥且周延、群集与群集间差异小、群集内类似总体随机抽取数个clusters将抽中的群集内每个样本均调查多阶段抽样(MSS)第一阶段:分群——整群抽样第二阶段:分层——分层抽样第三阶段……整群抽样的优点是实施方便、节省经费;整群抽样的缺点是往往由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样。
抽样方法优点缺点简单随机抽样操作简便易行,总体个数多时,工作量太大系统抽样操作便简易行,可以提高效率如不了解样本总体,抽出的样本有偏差分层抽样充分保证样本结构与总体的一致整体差异不明显时不适用,在使用时提高样本的代表性需要与其他抽样方法综合使用。
选择和判断:统计学含义:统计学是一门认识方法论科学,它是研究如何收集数据、整理数据、分析数据,以便从中作出正确推断的认识方法论科学。
描述统计学和推断统计学的区别:描述统计学是研究如何反映客观现象的数据资料,对所收集的数据进行加工整理,通过图、表等读者易于理解的形式汇总显示。
推断统计学是研究如何根据样本数据推断总体数量特征的理论和方法,具体包括:抽样调查、假设检验、相关回归分析等。
描述统计是整个统计学的基础,推断统计则是现代统计学的核心和主要内容。
选择:统计学的基本概念:总体:指客观存在的、在同一性质的基础上结合起来的许多个别单位的整体。
总体单位:构成总体的每个个别单位称为总体单位。
标志:说明总体单位的属性和特征的名称。
标志分为:品质标志 (只能用文字来说明总体属性,eg:文化程度)数量标志(说明总体单位数量的特征,eg:职工人数,销售额,工资额等)不变标志(某个标志上的答案都相同)可变标志(一定有一个标志是可变的)数量标志的答案叫数量标志表现,也叫标志值指标:说明总体数量特征(分为指标名称和指标数量两部分)eg:男性比重,英语平均成绩,学生人数。
按计算方法不同分:数量指标:说明总体规模大小和数量多少的指标。
(总量指标)质量指标:说明总体内部数量对比关系和一般水平的指标。
(相对指标,平均指标)按其数值的表现形式分:总量指标:也就是数量指标,数值是绝对数形式相对指标:数值是相对形式。
平均指标:数值是平均数形式。
名称说明对象表示方式标志总体单位的属性特征或数量特征文字或数值指标总体的数量特征数值四个数据的区别:定性数据:品质变量的答案就是定性数据,定性数据本身是文字。
eg:性别为品质变量,它的答案“男”“女”就是定性数据。
名义级数据:品质变量的一种答案,仅是一种代码来表示品质变量的不同类型。
不能比较大小四则运算eg:“性别”是品质变量,用变量值“1”表示男性,“2”表示女性,这是“1”“2”或“男”“女”就是名义级数据。
大一统计学笔记整理1. 统计学导论- 统计学的定义:统计学是一门研究如何收集、整理、分析和解释数据的科学- 统计学的应用领域:从商业到医学、社会科学到自然科学等各个领域都需要统计学的应用- 统计学的基本概念:总体、样本、参数和统计量- 统计学的研究方法:描述统计和推断统计- 数据的收集方式:观察法和试验法- 数据的分类:定量数据和定性数据- 描述统计的主要指标:频数、频率、平均数、中位数、众数、标准差和方差2. 数据的整理与呈现- 数据的整理:数据表、频数分布表和频数分布图- 数据的呈现:直方图、饼图、折线图、散点图和箱线图- 数据的处理:缺失数据的处理、异常值的处理和数据的变换3. 正态分布与抽样分布- 正态分布的性质:钟形曲线、对称性、均值和标准差的关系- 标准正态分布:Z分数和Z表的使用- 中心极限定理:大样本时抽样分布近似服从正态分布- 抽样分布的概念:样本均值的抽样分布、样本比例的抽样分布等- 样本均值的抽样分布:抽样误差、标准误和置信区间4. 统计推断与假设检验- 统计推断的基本思想:从样本推断总体- 参数估计:点估计和区间估计- 假设检验:零假设和备择假设、显著性水平、P值和拒绝域- 单样本检验:均值的假设检验和比例的假设检验- 双样本检验:两个独立样本均值的假设检验和配对样本均值的假设检验5. 回归与相关分析- 简单线性回归:回归方程、回归系数的估计和拟合优度- 多重线性回归:多元回归方程、多重共线性和变量选择- 相关分析:皮尔逊相关系数、斯皮尔曼等级相关系数和点双相关系数注意:以上内容仅为大一统计学的基础知识,详细内容和推导公式可参考相关教材和课堂讲义。
统计学知识点整理贺佳1、同质:医学研究对象具有的某种共性称为同质。
2、变异:对于同质的研究对象,其变量之间的差异称为变异。
3、个体:⽆论⽤何种⽅式收集资料,都要根据研究的⽬的确定观察单位,⼜成个体,4、总体:根据研究⽬的,所有同质的观察单位某项观察值得全体成为总体。
5、样本:来⾃于总体的部分观察单位的观测值称为样本。
6、样本含量:抽取的观察值的个数称为样本含量。
7、参数:总体中全部观测值所得的特征值称为参数。
8、统计量:由样本获得的统计指标称为统计量。
9、抽样误差:统计学中,这种由抽样与变异引起的样本统计量与总体参数的差异,或者不同的样本的样本统计量之间的差别,称为抽样误差。
10、观察单位的研究特征称为变量,变量的观察结果称为变量值,多个变量值汇成资料。
11、随机变量:随机试验结果的所有取值称为随机变量或变量。
12、频率:在相同的条件下,独⽴的重复n次试验,随机试验的某⼀结果A出现f次,则称f/n为结果A 出现的频率。
13、概率:当n逐渐增⼤时,频率f/n始终在⼀个常数左右微⼩摆动,称该常数为A出现的概率。
14、频数:当汇总⼤量的原始数据时,把数据按类型分组(组段),其中每个组的数据个数,称为该组的频数。
15、正偏态:集中位置偏向⼩的⼀侧叫正偏态,⼜叫右偏态16、负偏态:集中位置偏⼤的⼀侧叫负偏态,⼜叫左偏态17、医学参考值:医学参考值⼜称临床参考值,指绝⼤多数“正常⼈”的各种⽣理、⽣化指标、组织代谢产物及⼈体对各种实验的反应值等测量值的分布范围。
18、结构相对数,⼜称构成⽐:表⽰事物内部某⼀部分的观察单位数与该事物各组成部分的观察单位总数之⽐,⽤以说明各构成部分在总体中所占的⽐重或分布。
19、相对⽐简称⽐(ratio),是两个有关指标之⽐,说明两指标间的⽐例关系。
20、强度相对数,⼜称为率:说明单位时间内某现象发⽣的频率或强度。
21、定基⽐:报告期指标与基线期指标之⽐。
22、环⽐:报告期指标与前⼀期指标之⽐。
统计学所有统计方法应用整理一、描述性统计描述性统计是统计学的基础,主要用于收集、整理、展示数据的统计方法。
主要方法包括:均值、中位数、众数、标准差等,以及直方图、箱线图等图形化表示方法。
该方法的主要目的是概括数据的分布特征,为后续的统计分析和决策提供基础。
二、推论性统计推论性统计是从已知的数据分布推断出未知的总体分布的统计方法。
主要方法包括:大样本理论、中心极限定理、置信区间估计等。
该方法的主要目的是从样本数据推断总体特征,进行预测和决策。
三、参数估计参数估计是推论性统计的一个重要组成部分,主要方法是通过样本数据来估计总体的参数值。
主要方法包括:点估计、区间估计等。
该方法的主要目的是利用样本数据来估计总体的参数值,进一步推断总体的特征。
四、假设检验假设检验是推论性统计的另一个重要组成部分,主要用于检验关于总体的某个假设是否成立。
主要方法包括:单侧检验、双侧检验等。
该方法的主要目的是通过样本数据来判断总体特征是否存在差异或某个假设是否成立。
五、方差分析方差分析是一种比较多个总体均值差异的统计方法。
主要方法包括:单因素方差分析、多因素方差分析等。
该方法的主要目的是通过比较不同组别的数据来分析它们之间的差异是否显著。
六、相关与回归分析相关与回归分析是研究变量之间关系的统计方法。
主要方法包括:简单相关分析、多重回归分析等。
该方法的主要目的是通过变量之间的关系来进行预测和解释。
七、时间序列分析时间序列分析是研究时间序列数据的统计方法。
主要方法包括:时间序列预测、时间序列分解等。
该方法的主要目的是通过分析时间序列数据来预测未来的趋势和模式。
八、统计决策理论统计决策理论是将统计学的知识和方法应用于决策过程中的理论体系。
主要方法包括:贝叶斯决策理论、期望效用理论等。
该方法的主要目的是通过统计学的知识和方法来帮助决策者做出更优的决策。
九、非参数统计非参数统计是一种不依赖于总体分布假设的统计方法。
主要方法包括:核密度估计、非参数核回归等。
极差:一组数据的最大值与最小值之差称为极差,也称全距,用R表示。
其计算公式为:R=max (xi)-min(xi)离散系数:也称为变异系数,它是一组数据的标准差与其相应的平均数之比。
其计算公式为:V=S/X。
离散系数是测量数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。
离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
三大统计分布:卡方分布、T分布、F分布卡方分布(χ2)定理:设n个相互独立并且都服从正态N(0,1)分布的随机变量X1、X2,……Xn,记则随机变量χ2服从自由度为n的χ2分布。
统计变量服从卡方分布,其含义是:在给定概率α的条件下,满足或者说表达式的概率为α。
T分布定理:设随机变量x,y相互独立,X~N(0,1),Y~χ2(n)记。
则随机变量T服从自由度为n的t分布。
设T~t(n),0<α<1,对于满足下列等式的数t a(n),称为t(n)分布的上侧分位数。
对于较大的n(>45)可以同标准正态分布的上侧分位数u a作为t(n)分布的上侧分位数F分布定理:设随机变量x,y相互独立,X~χ2(n1),Y~χ2(n2)记,则随机变量F服从第一自由度为n1,第二自由度为n2的F分布,记作:F~F(n1,n2)若F~F(n1,n2),易知:,若则统计量:描述样本特征的概括性数字度量。
完全由样本决定的量,叫做统计量;或者说不含有其他未知量的样本的函数称为统计量。
统计量可以看做是对样本的一种加工,它吧样本中所包含的关于总体的其一方面的信息集中起来.最常用的统计量是样本均值和样本方差S2。
自由度:随机变量所包含的独立变量的个数。
参数估计:就是用样本统计量去估计总体的参数。
在参数估计中,用来估计总体参数的统计量的名称称为估计量,用符号θ表示。
样本均值、样本比例、样本方差等都可以是一个估计量。
而根据一个具体的样本计算出来的估计量的数值称为估计值。
参数估计的方法有点估计和区间估计两种.点估计:就是用样本统计量θ的某个取值直接作为总体参数θ的估计值.区间估计:是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
第一章、总论一、什么是统计学统计的含义与本质:用数字说明现象的本质1•统计活动2•统计数据3•统计学厂政府统计统计的含义及关系单位统计经营性统计匕其他原始数据:未加工价值更大-次级数据统计学的产生和发展1•古典统计学时期(萌芽——17世纪末到18世纪末)描述为主国势学派:德国的康令和阿亨瓦尔偏重事物性质的解释而不注重数量分析有名无实政治算数学派:英国的威廉配第和约翰格朗特主张以数字、重量和尺度来研究社会经济现象及其相互关系有实无名2•近代统计学时期(18世纪末到19世纪末)统计推断方法体系基本确立数理统计学派:比利时的凯特莱主张用研究自然科学的方法来研究社会现象,正式把概率论引入统计学,并最先用大数定律论证了社会生活中随机现象的规律性,还提出了“误差理论”和“平均人”思想奠定统计学理论基础社会统计学派:德国的克尼斯认为统计学是一门社会学科,是研究社会现象变动原因和规律性的实质性科学,其显著特点是强调对总体进行大量观察和分析,通过研究其内在联系来揭示社会现象的规律德国恩格尔提出的恩格尔系数美国经济学家库兹涅茨和英国经济学家斯通等人研究的国民收入和国内生产总值的核算方法3•现代统计学时期(19世纪末到现在)统计方法与应用全面发展显著特点:数理统计学由于同自然科学、工程技术科学紧密结合及被广泛应用于各个领域而获得迅速发展,各种新的统计理论与方法、尤其是推断统计理论与方法得以大量涌现。
统计学的学科性质1•研究对象:数量性(用数字说明现象本质,包括数量特征、数量关系、数量规律)、总体性(统计只研究总体不研究个体)、差异性(构成总体的个体必须存在差异) 2•学科范畴: 方法性、层次性、通用性 3•研究方式: 描述性、推断性统计学的作用――统计学的职能:信息职能(提供各种信息资料) 、咨询职能(提供信息整理)、监督职能(监督经济运行状况)、服务职能(服务社会) 1•统计学为我们认识自然和社会提供了必须的方法和途径 2•统计学在指导生产活动过程中发挥着重要作用 3•统计学在社会经济管理活动中的作用更为显著 4•统计学为科学研究提供了有力的手段1•计量尺度不同:定性数据和定量数据――定型数据:只能用文字或数字代码来表现事物的品质特征或属性特征的数据 —定类数据:对事物属性进行平行分类或分组 特点:只测度量事物类别差异,各类别地位相等。
单选,判断为1-7章课后习题问答题1.什么是统计指标?统计指标可以从哪些角度分类?分别可以分成哪几种?统计指标是反映统计总体数量特征的科学概念和具体数值。
统计指标按其所反映的总体内容的不同,可以分为数量指标和质量指标。
统计指标按其作用和表现形式的不同,有总量指标(绝对数),相对指标(相对数),平均指标(平均数)三种。
数量指标用绝对数表示,质量指标用相对数或者平均数表示。
2.统计调查方案包括那些基本内容?为什么要事先制定统计调查方案?有六个基本的内容:1.确定调查目的2.确定调查对象和调查单位3.确定调查项目4.确定调查时间和调查期限5.制定调查的组织实施计划6.选择调查方法。
事先制定调查方案可以使调查按目的顺序进行。
3.什么是统计分组,其作用是什么?试举例说明。
统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干个组成部分的一种统计方法。
有三个方面的作用:1.划分现象的类型。
例如我国经济成分分为公有经济和非公有经济两大类,公有经济包括国有及国有控股经济和集体经济,非公有经济包括私营经济,股份制经济,外商及港澳台商投资经济等;工业分为重工业和轻工业两大类;社会产品划为生产资料和消费资料两大类;农业分为农,林,牧,渔四大类型;轻工业又可以分为以农产品为原料的轻工业和以非农生产品为原料的轻工业等等。
2.揭示现象内部结构。
例如一个国家或者地区的工农业总产值中,农业总产值占到百分之八九十,则说明这个国家或者地区的经济性质是农业经济。
3.分析现在之间的依存关系。
社会经济现象中,比如收入和消费之间有一定的联系,一般来讲,收入越高,消费也越多,又比如,商店规模与其经营效果也有一定的联系,商店规模的扩大一般可增加商店的营业额,这些现象之间的依存关系均表现为正依存关系,此外,例如商品流转额,商品流转速度和流通费水平也存在着一种依存关系,一般来说,商品流转额越大的商店,其流通费水平也就越低,这种称谓负依存关系。
总体:根据研究目的所确定的同质的观察单位的全体。
具体到特征指标。
样本:从总体中随机抽取有代表性的一部分。
抽样:从总体中抽取样本的过程(动 样本容量:指一个样本的必要抽样单位数目同质:同一总体内,性质相同或相似。
变异:同质观察单位之间的差异。
异质:不同总体间的差异。
定性变量:按某种属性,清点每一类的个数。
分类变量:变量的取值无具体意义。
有序变量或等级变量:变量的取值表示各类别之间的等级(大小)关系;定量变量:说明数量大小,记录指标值本身,一般有度量衡单位。
离散型变量:变量的取值只能为整数;连续型:变量取值可为实数轴上任何数值参数:描述总体特征的统计指标; 统计量:描述样本特征的统计指标。
统计工作的步骤:①设计②收集③整理④统计分析统计描述:统计表;统计图;统计指标。
统计推断:参数估计(点估计,区间估计)、假设检验。
1、描述定量资料的统计表与统计图(统计表同下)直方图:①在频率表的基础上,绘制频率直方图。
②图的标题位于图的下端居中;文字等要求同频率分布表。
③纵轴为频率(%),横轴为组段值。
要在横纵轴的端点处或轴的中 部写标目和单位。
④矩形直条的起点无须从原点开始。
⑤横纵轴长度适中,横七直五。
2、描述定量资料集中趋势的统计指标有哪些?各自的定义、计算及适用条件;a) 算术均数。
样本均数记为 ,总体均数记为 。
直接法: 间接法(加权法)——针对频率表: 适用于正态资料。
b) 几何均数 直接法: 间接法(加权法)——针对频率表:适用于呈倍数关系的资料。
即成指数关系的数据资料。
c) 中位数。
将原始观察值排序后(从小到大或从大到小均可),位次居中的那个数。
直接法 间接法(百分位数percentile 法):普适。
偏峰分布资料有极值,或分布末端缺失。
X μn X n X X X X n i i n ∑==+++=121Λ∑∑∑=====K i i K i i i K i i i f f X n f X X 11010n n X X X G Λ21=]log [log 1n X G ∑-=]*log [log ]*log [log 11n f X f f X G ∑∑∑--==⎪⎩⎪⎨⎧+=++.),(21.,*12*2*21为偶数为奇数n X X n X M n n n )%(L x f x n f i L P -⨯+=3、描述定量资料离散趋势的统计指标有哪些?各自的定义、计算及适用条件;(1)极差:R=max-min. 。
(2)四分位数间距 Q=P 75 - P 25.(3)方差n X ∑-=22)(μσ,1)(22--=∑n X X S (4)标准差1)(2--=∑n X X S ( 5)变异系数 %100⨯=X S CV常用相对数有哪些?它们的意义和计算上有何不同?1)率(强度 ):说明某现象发生的频率或强度。
K K ⨯⨯=⨯=∑)时间察单位数(可能发生某现象的观数发生某现象的观察单位单位总数可能发生某现象的观察数发生某现象的观察单位率 2)构成比:用来说明事物内部各组成部分所占的比重。
%100⨯=之和各组成部分观察单位数某部分的观察单位数构成比 3)相对比:两个有关指标之比。
说明甲现象是乙现象的几倍或几分之几。
%100(⨯=乙指标甲指标相对比) 为什么要对粗率进行标准化?如何进行粗率的标准化?目的:消除重要因素的构成不同对粗率比较的影响,选择同一的“标准”, 对资料进行校正。
率的标准化直接标准化法: 1)标准组;甲乙合并;甲;乙,etc.2)预期~~数;甲预期治愈数=标准组人数×甲治愈率. 3)预期~~数的合计;4)标准化率。
化率={预期~~数合计} / {标准组人数} ×K(只反映相对水平,不反映实际水平!统计图都有哪些?1)条图:多用于描述定性资料(发病率等)2)百分条图:多用于构成比资料。
3)圆图:多用于构成比资料。
4)线图:和条图类似,定性资料;不同点:随时间的变化某指标的变化情况!5)半对数线图:表示事物的发展速度。
6)散点图:两个定量变量的数量关系7)直方图应用:定量资料整理成频数表之后!8)统计地图:不同地区某指标的 分布情况,和条图相似 9)除外,统计图还有箱式图等 二项分布定义:n 重伯努利试验中,事件A 发生的次数 X 的分布,记为B (n, π). 特征: ①总体均数μ和标准差σ分别为: ②图形特征:二项分布图的高峰在均数μ处或附近;π=0.5时,图形对称,π≠0.5不对称;n →∞,且n π与n(1-π)均大于5时,二项分布趋于对称。
Poisson 分布定义: 单位时间、空间、面积内某罕见事件发生的次数 X 的分布, 特征:①Poisson 分布是非对称的,而且总体参数λ值越小,分布越偏; 随着λ增大,分布趋向对称;②总体均数与总体方差相等,均为λ ③分布的观察结果具有可加性正态分布的特征:N(0,1)称为标准正态分布 1 曲线下面积:曲线下面积为1;2正态概率密度曲线关于 x =μ对称,且在该处取得最大值;3、μ为位置参数:当σ固定不变时,μ越大,曲线沿横轴向右移动;反之,μ越小,则曲线沿横轴越向左移动。
4、σ为形状参数:当μ固定不变时, σ越大,曲线越平阔;σ越小,曲线越尖峭。
正态分布的应用:①确定医学参考值范围 ②质量控制图③二项分布、poisson 分布的正态分布近似。
二项分布、Poisson 分布、正态分布的区别与联系;(1)区别:1)二项分布、Poisson 分布是离散型分布,正态分布是连续型分布2)均数和方差:二项分布 Poisson 分布均为λ, 正态分布 μ,3)图形:峰:二项的高峰在均数μ处或附近;正态峰在x =μ处;对称性:二项分布当π=0.5时,图形对称,π≠0.5不对称;正态概率密度曲线关于 x =μ对称;Poisson 分布是非对称的,而且总体参数λ值越小,分布越偏;随着λ增大,分布趋向对称;(2)联系:n 很大、π很小时,二项分布渐进Poisson 分布;n π与n(1-π)均大 于5时,二项趋于正态分布;λ大于等于20,Poisson 分布渐进正态分布参考值范围定义:正常人群某项生理、生化指标的波动范围(取95%)。
计算:㈠正态分布法①单侧(高异常或低异常)过高异常: 过低异常: ②双侧(高低均异常) ㈡百分位数法①单侧 过高异常 过低异常: ②双侧(高低均异常)样本均数的抽样分布是怎样的?:(1)若Xi 服从正态分布,则亦服从正态分布。
(2)若Xi 不服从正态分布,则①n 小,Xi 为非正态分布;②n 大,Xi 为 正态分布(3)一般,只要n ≥50,可认为Xi 的分布近似于正态分布。
.)1(,ππσπμ-==n n )65.1,(S X +-∞),65.1(+∞-S X),(5.975.2P P )96.1,96.1(S X S X +-),(95P -∞),(5+∞P.)1(,ππσπμ-==n n 2σ抽样误差?用什么指标来描述?样本均数与样本率的抽样误差怎样计算? 抽样误差:样本统计量与总体参数之间存在的差异。
(1)若随机变量 X ~B(n,π),则样本率p=n X的总体率为π,其标准误为:(2)实际工作中,总体率π常常未知,常用样本率p 代替,公式就变为: t 分布的特征?与标准正态分布的区别与联系?①单峰分布,以0为中心,左右对称,类似于标准正态分布;②自由度ν 越小,t 值越分散,曲线的峰部越矮,尾部越高;③随着自由度ν 逐渐增大,t 分布逐渐逼近标准正态分布;当ν 趋于∞ 时(n>50),t 分布就完全成为标准正态分布,故标准正态分布是t 分布特例。
参数估计的方法有哪些?优缺点? (1)点估计:用样本统计量直接作为总体参数的点估计值,即直接用随机样本的均数X 作为总体均数 μ 的点估计值, 用样本频率 p 作为总体概率 π的点估计值。
缺点:没考虑抽样误差,无法评价估计值与真值之间差距。
(2)区间估计:区间估计是按预先给定的概率(1-α),确定一个包含总体参数的范围。
该范围称为参数的置信区间或可信区间(CI),(1-α)或100(1-α)%称为置信度。
(置信区间是一个开区间,不包括两个置信限)总体均数的置信区间(1)t 分布法:均数的单侧置信区间为:μ>X -t α, ν 或μ<X -t α, ν(2)正态法:1)当总体标准差σ 已知时双侧 单侧2)总体σ 未知,但(n >50)时,双侧单侧 总体率的置信区间:查表法:当样本含量n 较小,比如n ≤ 50,可以通过查表 正态近似法:np 与n(1-p) 均大于5时, 即(p -z α/2Sp ,p + z α/2Sp ) 参考值范围 置信区间目的 估计个体值的分布范围,个体值有很多估计总体参数,总体参数只有一个意义 绝大多数人某项指标的数值范围(供参考) 按一定的置信度估计总体均数所在的范围应用 判断某项指标正常与否 估计总体均数所在的范围np )1(ππσ-=np p S p )1(-=XZ X σα2/±X X Z X Z X σμσμαα+<->,或XS Z X 2/α±XX Z X Z X σμσμαα+<->,或95%95%是一个比例,即所求参考值范围包含了95%的正常人95%是置信度,即所求置信区间包含总体参数的置信度为95%。