生物统计理论分布和抽样分布
- 格式:doc
- 大小:520.00 KB
- 文档页数:15
生物统计知识点总结生物统计学基本概念1. 总体和样本生物统计学中,研究对象的全体称为总体,而从总体中选取的部分个体称为样本。
样本是总体的代表,通过对样本进行研究和分析,可以对总体进行推断。
2. 参数和统计量总体的特征称为参数,它是总体的固有属性。
而样本的特征称为统计量,它是样本的统计学特征,用来推断总体的参数。
3. 随机变量在生物统计学中,用来研究某种现象的变量称为随机变量。
随机变量有两种类型,离散型和连续型。
离散型随机变量的取值是有限个或者可数个,而连续型随机变量的取值是连续的。
4. 抽样分布抽样分布是指在总体中随机抽取样本后得到的分布。
当样本容量足够大时,抽样分布具有一些特定的性质,如正态分布、t分布、F分布等,这些分布在生物统计学中是非常重要的。
生物统计学常用方法1. 描述统计描述统计是对数据进行整理、归纳和描述的过程,主要包括测量中心趋势的指标(如均值、中位数、众数)、测量离散程度的指标(如标准差、方差)以及数据的图表展示。
2. 推断统计推断统计是通过样本对总体参数进行推断的过程。
推断统计主要包括参数估计和假设检验两个部分。
参数估计是通过样本来估计总体参数的值,而假设检验是对总体参数的某种假设进行检验的过程。
3. 方差分析方差分析是一种用来比较两个或多个总体均值是否相等的统计方法。
它包括单因素方差分析和多因素方差分析,用于研究不同因素对总体均值的影响。
4. 回归分析回归分析是用来研究一个或多个自变量对因变量的影响程度和方向的统计方法。
回归分析分为简单线性回归和多元线性回归,以及非线性回归等方法。
5. 生存分析生存分析是研究生存时间或事件发生时间的统计方法,它包括生存曲线、生存率和生存分布等内容,主要用于临床医学和流行病学领域。
生物统计学在生物学领域的应用生物统计学在生物学领域有着广泛的应用。
它可以用来设计实验、收集和整理数据、进行数据分析和结果解释。
以下是一些生物统计学在生物学领域的应用示例。
抽样分布与理论分布一、抽样分布总体分布:总体中所有个体关于某个变量的取值所形成的分布。
样本分布:样本中所有个体关于某个变量大的取值所形成的分布。
抽样分布:样品统计量的概率分布,由样本统计量的所有可能取值和相应的概率组成。
即从容量为N 的总体中抽取容量为n 的样本最多可抽取m 个样本,m 个样本统计值形成的频率分布,即为抽样分布。
样本平均数的抽样分布:设变量X 是一个研究总体,具有平均数μ和方差σ2。
那么可以从中抽取样本而得到样本平均数x ,样本平均数是一个随机变量,其概率分布叫做样本平均数的抽样分布。
由样本平均数x 所构成的总体称为样本平均数的抽样总体。
它具有参数μx 和σ2x ,其中μx 为样本平均数抽样总体的平均数,σ2x 为样本平均数抽样总体的方差,σx 为样本平均数的标准差,简称标准误。
统计学上可以证明x 总体的两个参数 μx 和σ2x 与X 总体的两个参数μ和σ2有如下关系:μx = μ σ2x = σ2 /n由中心极限定理可以证明,无论总体是什么分布,如果总体的平均值μ和σ2都存在,当样本足够大时(n>30),样本平均值x 分布总是趋近于N (μ,n2)分布。
但在实际工作中,总体标准差σ往往是未知的,此时可用样本标准差S 估计σ。
于是,以nS估计σx ,记为X S ,称为样本标准误或均数标准误。
样本平均数差数的抽样分布:二、正态分布2.1 正态分布的定义:若连续型随机变量X 的概率密度函数是⎪⎭⎫ ⎝⎛--=σμπσx ex f 22121)( (-∞<x <+∞)则称随机变量X 服从平均数为μ、方差为σ2的正态分布,记作X~N (μ,σ2)。
相应的随机变量X 概率分布函数为 F (x )=⎰∞-x dx x f )(它反映了随机变量X 取值落在区间(-∞,x )的概率。
2.2 标准正态分布当正态分布的参数μ=0,σ2=1时,称随机变量X 服从标准正态分布,记作X~N (0,1)。
1.总体:我们研究的全部对象2.样本:从总体中抽出的一个部分3.方差:4.对立事件:如果事件A1和A2必发生其一,但不能同时发生,我们称事件A1和A2为对立事件。
5.小概率事件:若随机事件的概率很小,例如小于、、,称之小概率事件。
6.小概率事件:原理小概率事件在一次试验中几乎是不会发生的。
若根据一定的假设条件计算出来该事件发生的概率很小,而在一次试验中竟然发生了,则可以认为假设的条件不正确,从而否定假设。
7.抽样分布:从一个已知的总体中,独立随机地抽取含量为 n 的样本,研究所得样本的各种统计量的概率分布。
8.标准正态分布:期望值μ=0,即曲线图象对称轴为Y 轴,标准差σ=1条件下的正态分布,记为N(0,1)。
9.统计推断:根据抽样分布律和概率理论,由样本结果(统计数)来推论总体特征(参数)。
10.单尾测验:否定区位于分布的一尾的测验。
11.备择假设:与零假设相对立的假设称为备择假设。
12.接受区:接受无效假设的区间。
13.数学期望:随机变量Y 或者Y 的函数的理论平均数。
14.点估计:用样本数据所计算出来的单个数值,对总体参数所做的估计称为点估计1.算术平均数的重要特征之一是离均差之和 ( C )A 最小B 最大C 等于零D 接近零2.统计推断过程中,若我们拒绝H0,则 ( C )A 犯错误B 犯错误C 犯错误或不犯错误D 犯错误或不犯错误变数变异程度的度量,对于总体()22i Y N μσ-=∑, 对于样本22()1Y y s n -=-∑。
3.两个平均数的假设测验用测验。
( C )A uB tC u或tD F4.总体参数在区间[L1,L2]内的概率为1-,其中L1和L2在统计上称为( D )A 置信区间 B 区间估计 C 置信距 D 置信限5.下列不是方差分析基本假定的是假定。
( C )A 可加性B 正态性C 无偏性D 同质性6.人口调查中,以人口性别所组成的总体是( C )总体A 正态分布B 对数正态C 二项分布D 指数分布7.下列有关标准正态分布概率公式的计算中错误的是( D )A P(0<U<u)=f (u) -1/2 B P(U>u)=f (-u)C P(| U| > u)= 2 f (-u)D P (u1<U<u2) = f (u1) - f (u2)8.在抽样分布的研究中,当总体标准差σ未知时样本平均数分布服从( B )分布。
生物统计学复习资料一、名词解释准确性(accuracy):在试验中某一指标的观测值与真实值的接近程度,也称准确度。
(反映观测值偏离目标值的程度)精确性(precision):在相同试验条件下,对同一指标重复测量时所得观测值之间的接近程度,也称精确度。
(反映观测值之间的变异程度)准确性和精确性合称正确性。
随机误差(random error):由无法控制的偶然因素导致的误差。
(随机误差影响精确性,扩大样本容量或增加试验重复次数有助于减少但无法消除随机误差)系统误差(systematic error):由测量工具不精准、试验方法不完善、操作人员水平差异等因素导致的误差。
(既影响准确性又影响精确性,可消除)总体(population):研究对象的全体成员(有限总体、无限总体)个体(individual):构成总体的各个成员样本(sample):从总体中抽取的部分个体所组成的集合。
样本容量(sample size):样本包含的个体数量。
随机抽样(random sampling):采用随机方式从总体中获取样本的过程。
放回式抽样(sampling with replacement):从总体抽取一个个体,记录特征后放回总体,再抽取下一个个体。
非放回式抽样(sampling without replacement):从总体抽取一个个体,不放回总体就继续抽取下一个个体。
连续型数据(continuous data):与某种标准相比较获得的非整数数据。
(可以提高精确度,采用变量方法分析)离散型数据(discrete data):由记录不同类别个体数目而得到的整数数据。
(不能提高精确度,采用属性方法分析)极差(range,R):数据资料中最大值与最小值的差值。
组距(class interval, i):对频数资料分组时,每个组区间的高限和低限之差,即组区间极差。
样本特征数(sample characteristics):描述频率分布特征的数值总体特征数(population characteristics):描述概率分布特征的数值样本统计数(statistic):由样本数据计算而来的描述样本特征的数值。
第四章理论分布和抽样分布一、基本概念1.必然事件:在同一组条件的实现下必然要发生的一类事件。
如人总是要死的,水在标准大气压下加热到100℃必然化为蒸汽。
P(A)=1。
2.不可能事件:在同一组条件的实现下必然不发生的一类事件。
如水在标准大气压下温度低于0℃不可能呈气态。
P(A)=0。
3.随机事件(偶然事件):在同一组条件的实现下可能发生,也可能不发生的一类事件。
如种子可能发芽,也可能不发芽;硬币抛上落下可能正面朝上,也可能反面朝上。
P(A)∈[0,1]。
4.频率a:假定在相似条件下重复进行同一类试验调查,事件A发生的次数a与总试验次数n的比称之。
如抛硬币,10次有7次朝上,a=7/10。
5.概率P:当试验总次数n逐渐增大时,事件A的频率愈来愈稳定地接近定值P,则事件A地概率为P。
6.小概率的实际不可能性原理:凡概率很小的事件(农业上一般指P<0.05的事件),在二、计算事件概率的法则1.和事件:C=A+B A:身高在1.65以下;B:身高在1.65~1.75之间;C:身高在1.75以下。
2.积事件:C=A×B A:身高在1.65以下;B:男同学;C:身高在1.65以下的男同学。
3. 互斥事件:A·B=V (V表示空集) A:小麦种子发芽;B:小麦种子不发芽。
4.对立事件:如果A+B是必然事件,即A+B=U(U为全集);而A·B=V,即A与B 是互斥事件,则称B为A的对立事件,B=A(补集),如上例发芽与不发芽。
5.完全事件:如A·B=V且A+B=U,则称A与B为完全事件系,如小麦发芽与不发芽就构成完全事件系。
6.对立事件的概率:A()1(A)=-P P7.互斥事件的概率加法:()(A)()P=+=+如身高小于1.60m的概率为(A)P A B P P B0.15;身高小于1.70m且大于等于1.60m的概率为()P B=0.62;则身高小于1.70m的概率()(A)()+=+=0.77P A B P P B8.独立事件的概率乘法:()(A)()P A B P P B=。
如0~9共10个数。
A:抽出一个奇数,P B=0.4。
A与B是独立的。
现问抽出能被3 P=0.5;B:抽出能被3整除的数,()(A)整除的奇数的概率为多少?()(A)()0.50.40.2==⨯=P A B P P B9.完全事件系的概率:如只有两个事件,()(A)()1+=+=。
对N个事件,如P A B P P B++=,则该N个事件称完全事件系,有:A B N U=且............A B N VP A B N P P B P N++=+++=(......)(A)()......()1三、随机变数的概率分布随机变数可能取得的每一实数值或某一范围的实数值是有一个相应的概率的,这一规律称为随机变数的概率分布。
X:随机变数x:随机变数的一个实数值或某一范围的实数值=时的概率。
()f x:概率函数,X x=)f x=P(X x()∑==≤F x f x P X x()()()例:大豆黄子叶品种与青子叶品种杂交,F1代表现黄子叶,F2代按一对等位基因分离,黄子叶为显性,黄:青=3:1。
令黄子叶=1,青子叶=0。
则(1)(1)3/4f P X===,===。
考察F2代的豆荚中的种子颜色。
f P X(0)(0)1/41、豆荚中只有一粒种子,相当于进行一次随机试验。
(1)3/4f=f=,(0)1/42、豆荚中有两粒种子,相当于进行两次的重复试验。
令黄为Y,青为G。
YY, YG, GY, GG3/4×3/4 + 3/4×1/4 + 1/4×3/4 + 1/4×1/4 =1独立事件乘法,完全事件两粒都是黄色种子的概率:(2)9/16f = 一粒种子是黄色的概率:12136(1)4416f C =⨯⨯= 没有一粒种子是黄色的概率:02111(0)4416f C =⨯⨯= 3、豆荚内有3粒种子GGG , GGY , GYG , YGG , YYG , YGY , GYY , YYY没有黄子叶种子,0,(0)1/41/41/41/64X f ==⨯⨯=仅有一粒黄,1,(1)3/6439/64X f ==⨯=仅有两粒黄,2,(2)9/64327/64X f ==⨯=三粒均黄,3,(3)27/64X f ==因此:每一复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率。
组合数目:!!()!x n n C x n x =- n 为豆荚内种子数x 为黄子叶种子数 即:()31()()()44x x n x n f x C -=复习:()31()()()44x x n x n f x C -= !!()!x n n C x n x =- 四、 二项总体和二项分布1. 二项总体:整个总体的各组或各单位可根据某种形状的出现与否分为两组。
如小麦种子发芽试验分发芽和不发芽,F2代种子子叶分为黄色或绿色。
2. 二项总体分布:在二项总体中给事件A 出现的个体以1代表,事件A 不出现的概率以0代表,则他们相应的发生概率为p 和1-p =q ,这一规律称之。
其平均数μ=p ,σ2=pq 。
如调查N 次,则:0fx Np p N Nμ+===∑ 222()()(1)x f x Np p pq N N Nμμσ---====∑∑ 3.二项分布:在二项总体中抽样,如每个抽样单位包括n 个个体,则事件A 在n 次试验中出现x 次必具有以下概率:()()x x n x n f x C p q -= x =0,1,2,……,n 。
这一规律称为二项分布,其平均数μ=np,方差σ2=npq (双参数n 和p)。
二项分布为间断性变数的理论分布。
显然,当n=1时二项分布就是二项总体分布。
4.二项分布的特点1) 是间断性随机变数的理论分布。
2) 有2个重要参数μ=np,σ2=npq 。
3) 当p=q 时呈对称状;如p ≠q,则偏斜;但当n 很大时,即使p ≠q,也接近对称。
4) 当n 充分大时(如n>30),而p 又不过分小(如p>0.1),且np ≥5, nq ≥5时,则该二项分布趋向正态分布。
当n →∞时(如n>50),而p →0(如p<0.1),且np<5时,则该二项分布趋向于潘松分布。
5) n=1时,二项分布即二项总体分布。
注意: ()(1)()(1)n x p f x f x x q-+=+五、 潘松分布是二项分布的一种极限事例,描述小概率事件。
即在观察次数n 中,某一事件出现的平均次数μ=np=m 为一定值且很小,即视之为潘松分布。
前已述: n →∞时(n>50),p →0(p<0.1),np<5,np=m ,()!x mm e f x x -= 所以: μ=np=m,σ2=npq=np=m (因为p →0,所以q →1)特点:1) 是二项分布的一种极限实例,描述小概率事件。
2) 是间断性随机变数的理论分布。
3) 是单参数分布:m 。
4) m 小时偏斜,m 大时(如m>10)趋向于对称趋近于正态分布。
例:矿泉水微生物(主要是大肠杆菌)浓度标准是不得超过0.3只/ml 。
现有一批同时出厂的某品牌矿泉水,要检查其是否合格。
从中随机抽一瓶(500ml 装),摇匀,从中随机取1ml,问如果该批产品合格,则这1ml 中有2只以上微生物的概率是多少?解:500ml 中共有500×0.3=150只。
一只微生物落入500ml 中任意1ml 的概率为p=1/500。
有150只,相当于150次试验.。
可采用二项分布: ()()x x n x n f x C p q -==(150)1501499()()500500x x x C -, x=0,1,2,…,150。
有两只以上微生物的概率=f(x>2)= 1-f(0)-f(1)-f(2)。
也可采用潘松分布:因为n=150>50较大,p=1/500<0.1较小,np=0.3<5,所以可用潘松分布。
m=np=0.3, ()!x mm e f x x -= , 可查表或计算, f(0)=0.74082, f(1)=0.22224, f(2)=0.0334。
有两只以上微生物的概率=f(x>2)= 1-f(0)-f(1)-f(2)=0.004。
结论:如果该批产品合乎标准,则在1ml 水中有2只以上微生物的概率是很小的。
如果某次检验发现在1ml 水中微生物超过2只,比如说3只,根据小概率的实际不可能性原理,有充分理由怀疑该批产品超标。
六、 正态分布1. 概念:用正态分布方程表述的概率分布称之,它是连续性变数的理论分布,是二项分布的极限曲线。
正态分布方程: 21()2()x N f x μσ--=x:所研究的变数。
()N f x :某一定值x 出现的函数值,称为概率密度函数,在图形上相当于x 值对应的纵坐标。
N: normal 正态分布的意思。
μ:总体平均数。
σ:总体标准差。
2. 正态分布的意义1) 客观世界确有许多现象的数据是服从正态分布的。
2) 可用作二项分布及其他间断性变数或连续性变数分布的近似分布(特别当n 较大时)。
3) 有些总体不呈正态分布,但从中随机抽出的样本平均数及其他一些统计数的分布,在样本容量适当大时仍然趋近于正态分布。
3. 正态分布曲线的特性1) 以μ为原点,左右对称。
2) 在x=μ处,曲线有最大纵高,其算术平均数x ,中数(左右对称),众数(最大纵高)均等于μ。
3) 双参数分布: μ确定其在x 轴上的位置,σ确定其变异度(纵高)。
因为曲线下面积是固定的, σ大,变异度大,大的数值愈大,小的数值愈小,两极分化,曲线趴下,纵高下降。
4) 多数次数集中在μ附近,离μ愈远,相应次数愈少,且在x u -相等处有相等次数(因为是对称分布),在x u -≥3σ以外次数极少。
5) 在x u -=1σ处有拐点,x 在μ-1σ处急转直上,在μ+1σ处下降减缓,并以x 轴为渐近线。
昆虫发育进度接近于正态分布,因为在生态分布的拐点处发育进度有较大转折,故:总体盛发期为μ-σ—μ+σ,即16%-84%;始盛期μ-σ,即16%;高峰期μ,即50%;盛末期μ+σ,即84%。
6) 正态分布曲线与x 轴之间的总面积=1(完全事件系概率之和为1)。
7) 正态曲线任何两个x 定值之间面积或概率完全由μ和σ确定,详见附表2。
2211()()()x x x N N N x f x dx f x dx f x dx -∞-∞=-⎰⎰⎰一些常用面积应记住:4. 标准正态分布由于不同总体具有不同的μ和σ,为便于表示和比较(否则要很多不同的正态分布表备查,实际上是不可能的,只能每次都计算),可用u 变数代替x 变数计算概率,令()x u μσ-=,则其相应标准正态分布方程为: 212()u u ϕ-=,其参数μ=0,σ2=1,即标准正态分布是μ=0,σ2=1的正态分布,相当于先作平移x →μ,然后统一纵高为单位高度,即除以σ。