生物统计公式
- 格式:pdf
- 大小:580.51 KB
- 文档页数:5
第一章绪论1.生物统计学的内容:统计原理、统计方法和试验设计。
2.生物统计的作用:a.科学地整理分析数据;b.判断试验结果的可能性;c.确定事物之间的相互关系;d.提供试验设计的原理。
3.样本容量常记为n,通常把n≤30的样本称为小样本,n.>30的样本称为大样本。
4.名解:(重)①生物统计:生物统计是应用概率论和数据统计的原理和方法来研究生物界数量变化的学科;②总体:是被研究对象的全体,据所含的个体的多少,总体分为有限总体和无限总体。
③样本:是指总体内随机抽取出来若干个体所组成的单位。
④随机误差:由于许多无法控制的内在和外在的偶然因素所造成的误差,内在如个体差异,外在如环境,它影响试验的精确性。
(了)①参数:从总体计算出来的数量特征值,它是一个真值,没有抽样变动的影响,一般用平均数u,标准差s。
②统计量:是从样本计算出来的数量特征值,它是参数的估计值,受样本变动的影响,一般用拉丁字母表示,如平均数。
③系统误差:主要是试验动物的初始条件不同,试验条件相差较大,仪器不准,标准试剂未经校正,药品批次不同,药品用量与种类不符合试验计划要求,以及观察,记录抄案,计算中的错误所引起的误差,它影响试验的准确性。
④准确性:指在试验或调查中某试验指标或形状的观测值与其真值接近的程度。
⑤精确性:指试验或调查中一试验指标或形状的重复观测值彼此接近的程度。
第二章资料的整理1.统计资按性质分为:计量资料、次数资料和半定量资料。
2.计量资料是指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测量获得的数量性状资料。
计量资料整理的五步骤如下:(1)求全距,即资料中最大值和最小值之差R=Max(x)—Min(x);(2)确定组数即按样本大小而定;样本含量与组数样本含量组数30~60 6~860~100 8~10100~200 10~12200~500 12~17500以上17~30(3)确定组距,每组最大值与最小值之差记为i ,公式:组距(i)=全距(R)/组数k ;(4)确定组中值及组限,各组的最大值和最小值称为组限,最小值为下限,最大值为上限,每组的中点值称为组中值,组中值=(下限+上限)/2=下限+组距/2=上限-组距/2;(5)归组划线计数,作次数分布表。
《⽣物统计学》复习《⽣物统计附试验设计》总复习⼀、主要内容1、基础知识①掌握⽣物统计的特点、基本概念,理解⽣物统计的作⽤;②了解资料的分类⽅法,掌握各类资料的初步整理⽅法;③掌握反映资料集中性和离中性的三个基本的统计量(平均数、标准差和变异系数)的概念、性质及计算;④掌握各种事件的概念和运算(和事件、积事件、互斥事件、对⽴事件、独⽴事件、完全事件);⑤掌握概率的定义、概率的计算、⼩概率事件实际不可能性原理(统计学上进⾏显著性检验的基本依据);⑥掌握⽣物科学研究中常⽤的概率分布:正态分布、⼆项分布、泊松分布、χ2分布、t 分布、F分布⑦理解样本平均数的抽样分布和样本平均数差数的分布。
⑧理解试验的⽬的是:由样本推断总体⑨掌握统计的原理和⽅法⼤数定理中⼼极限定理理论分布抽样分布2、假设检验⽅法①掌握u检验和t 检验——主要⽤于检验样本平均数(百分数)与总体平均数(百分数)或者两个处理平均数(百分数)差异是否显著;②掌握χ2检验——主要⽤于由质量性状得来的次数资料的显著性检验;③掌握⽅差分析——主要⽤于检验多个处理平均数间差异是否显著;3、统计分析⽅法①掌握简单相关与回归相分析②了解多元回归与相关分析③了解协⽅差分析4、试验设计⽅法①了解试验设计的基本概念、任务、特点与要求,掌握试验设计的基本原则(三原则);③掌握完全随机试验设计、配对设计、随机区组设计、拉丁⽅试验设计、交叉设计、正交设计的概念、原理、⽅法,结果的统计分析,各种⽅法的优错点;④掌握样本含量的确定;⑤了解调查设计的⽅法;⼆、基本概念1、总体——具有相同性质的个体所组成的集合2、样本——从总体中抽出的若⼲个个体所构成的集合3、样本容量——⼜称“样本数”,⼜称“样本⼤⼩”。
n4、样本单位——构成样本的每⼀个个体。
5、变量——相同性质的事物间表现差异性或差异特征的数据6、常数——代表事物特征和性质的数值7、参数——总体特征的度量8、统计数——从样本中计算所得的数值 9、效应——引起试验差异的作⽤称为效应10、试验误差——受⾮处理因素的影响使观测值与试验处理真值之间产⽣的差异称为试验误差。
试验方案:试验方案是根据试验目的和要求而拟定的进行比较的一组试验处理的总称,是整个试验工作的核心部分。
主效:一个因数内简单效应的平均数为平均效应,又称主效样本:依据一定的方法由总体抽取得部分个体组成的集合称为样本。
统计数:描述样本的特征数叫统计数回归系数:b表示当x每增加一个单位数时,yˆ平均地将要增加(b>0)或减少(b<0)的单位数。
试验方案:根据试验目的与要求,所拟进行比较的全部处理的总称,是整个试验的核心部分。
I 型错误:在显著性检验中,无效假设H0本来成立而被否定,这类错误成为I型错误,亦称“弃真”错误.总体根据研究目的确定的研究对象的全体称为总体显著水平:在显著性检验(假设检验)中用来确定否定或接受无效假设的概率标准称为显著水平,常用α表示.单因数试验:在一个试验中,只研究某一因素不同水平的效果.参数:由总体的全部观察值而算得的总体特征数,称为参数。
观察值:每一个体的某一性状、特性的测定数值叫做观察值。
变数:观察值集合起来称为变数。
变量:变数的每一成员中称为变量。
互作效应:两个因数简单效应的平均差异称为交互作用效应,简称互作生物统计包括统计分析和试验设计之间的关系:统计分析与试验设计是不可分割的两部分,试验设计须以统计分析的原理和方法为基础。
而正确设计的试验又为统计分析提供了丰富可靠的信息。
两者紧密结合推断出合理的结论,不断的推动应用生物科学研究的发展。
试验误差:是指试验中的观察值和真值之差,是衡量试验精确性的依据。
试验误差分为:系统误差和随机误差。
系统误差表示实测值与真值恒定方向的偏离状况,它反映了测量结果的准确度。
系统误差来源:(1)测量工具不准确(2)试验材料(3)环境因子(4)试验材料有规律的变异(5)试验操作上的习惯偏向随机误差表示在相同的条件下重复测量结果之间彼此接近的程度,它反映了测量结果的精确度。
随机误差来源是:(1)试验材料个体间或局部环境间的差异(2)试验操作与管理技术上的不一致性(3)试验条件(如气象因子,栽培因子等)试验误差控制的途径:(1)选择纯和一致的试验材料(2)用严格的科学态度,正确执行各项试验操作,使管理技术标准化(3)控制产生误差的主要外界因素随机的作用:克服系统误差的影响。
鱼类种群生物统计量的计算和解析一、鱼类种群生物统计量的计算公式鱼类种群生物统计量是在一定条件下测得的某一时间单位面积上的个体数(或密度),可用下列公式计算: x=∑[全长为L( m)的个体数( n)/面积( s)],其中: x—鱼类种群生物统计量;∑—测定单位面积上鱼类种群数; n —测定单位面积上鱼类个体总数; s—测定单位面积上鱼类个体所占的面积。
1。
生物统计量和种群密度之间的关系测定单位面积上鱼类的密度,通常采用以下两种方法:一是测定其全长,即将个体切成片段,按切片的数量求出平均长度,再根据这个平均长度来计算种群密度。
二是测定其全体,即对个体切成两片后放到培养皿内观察,并计数每片的数目,再计算出个体数。
生物统计量和种群密度的关系如下:定义单位面积上鱼类的密度=L/ s=L/ n=L/ x种群密度=全长L/面积Sx 种群数量=Ls= Ls/s种群数量/种群密度=(L/Sx)/ (Ls/Sx)一般情况下,在实际工作中,人们往往采用第二种方法来估算种群密度,因为此方法较为简便,且准确度较高。
但在有些情况下,采用第一种方法更加合适。
例如,当池塘里有大量无节幼体聚集在一起时,就不宜采用此法,而应当采用第二种方法。
2。
鱼类种群数量随环境因素变化而变化的特点5。
渔场捕捞产量和生物统计量的计算当捕捞渔获量较大时,往往只知道单位面积上捕捞的鱼的总重量和鱼的总长度,却不知道它们之间的比例。
如果把单位面积上捕捞的鱼总重量看作鱼总量,将鱼总长度看作鱼总长度,那么,就可以把捕捞产量看作渔业捕捞鱼的数量,即:渔业捕捞产量=鱼总重量/鱼总长度当渔业捕捞产量很小时,如果不知道鱼总重量,则可以根据单位面积上的鱼总长度来估算渔业捕捞产量。
这样估算的产量称为生物学产量,也称生物统计产量。
如果测定了单位面积上的鱼总长度,可以把渔业捕捞产量等于生物学产量加上种群数量。
这样估算的产量称为生产力产量,也称经济产量。
从图5-6可以看出,生产力产量是随着鱼类种群密度的增加而增加的,随着鱼类种群密度的减少而减少。
生物统计所有公式统计检验方法的选择单样本。
小样本(n<30)——t检验大样本(n≥30)——u(z)检验双样本。
随机分组双样本。
来自正态总体或大样本。
具有方差齐性——独立样本t检验不具有方差齐性——秩和检验或Welch's t检验不来自正态总体或大样本——尝试变量代换使之具备正态性配对双样本。
差值服从正态分布——配对样本t检验差值不服从正态分布——秩和检验回归分析。
多样本——方差分析u检验和学生t检验大样本近似服从正态分布,可用u检验:\[u=x¯−μσn\]双尾检验α=0.05时u=1.96小样本服从于df=n-1的学生t分布,则可用t检验:\[t=x¯1−x¯0sdf\]对于双尾检验α时,比较t与\[tα2,df\] ;单尾检验时,比较t与\[t α,df\]独立样本u和t检验、Welch's t test检验两独立样本,当可视为服从正态分布时可用u检验:\[u=x¯1−x¯2σ¯12n1+σ¯22n2\]不可视为正态分布时用t检验:\[t=x¯1−x¯2sc(1n1+1n2)\]其中\[sc=df1s12+df2s22dftotal\]\[df1=n1−1\]\[df2=n2−1\]\[dftotal=df1+df2\]t检验的前提是方差齐性,即总体方差相等且未知,样本方差满足,或\[12<s12s22<2 ,或12<s22s12<2\]否则需用Welch's t test,利用Satterthwaite近似法:\[χMcNemar2=(b−c)2b+c\]当\[df=1\]对于n<40,或至少有一个值=1或0时应使用Fisher确切概率法:将列联表中两对角线元素乘积之差的绝对值大于当前表格者称为更极端者;对所有更极端者计算以下p值并求和,即可直接得到最终p值\[p=x!y!z!w!a!b!c!d!n!\]卡方拟合度检验:计算如下值\[χ2=∑(O−E)2E\]\[df=n−1\]n为类别数。
生物统计学复习资料(整理)生物统计学复习资料第一章1.生物统计学的基本作用:1)提供整理和描述数据资料的科学方法,确定某些性状和特征的数量特征。
2)判断试验结果的可靠性3)提供由样本推断总体的方法4)提供试验设计的一些重要原则2.统计学发展过程:古典记录统计学近代描述统计学现代推断统计学3.总体:具有相同性质的个体所组成的集合4.个体:组成整体的基本单元5.样本:从总体中抽出的若干个体所构成的集合6.变量:相同性质的事物间表现差异性的某项特征。
按其性质分为连续变量和非连续变量。
变量可以是定量的,也可以是定性的。
7.连续变量:表示在变量范围内可抽出某一范围的所有值8.非连续变量:也称离散型变量,表示在变量数列中,仅能取得固定数值,并且通常是整数。
9.常数:是不能给予不同数值的变量,它代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。
10.参数:对总体特征的度量11.统计数:由测定样本的全部重复观测值算得的描述样本的特征的数。
12.效应:试验因素相对独立的作用13.误差:是试验中不可控因素所引起的观测值偏离真值的差异14.随机误差:由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间的差异,不可避免。
15.系统误差:由于试验处理以外的其他条件明显不一致所产生的带有倾向性或定向性的偏差,可避免。
16.错误:是指在试验过程中,人为因素所引起的差错。
17.准确性:在调查或试验中某一试验指标或性状的观测值与真实值接近程度18.精确性:指调查或试验中同一试验指标或性状的重复观测值彼此接近程度的大小。
第二章1.次数分布:在不同区间内变量出现的次数所构成的分布。
2.资料根据生物的形状特性,可分为数量性状和质量性状3.间断性变数:指用计数方法获得的数据,其各个观测值必须以整数表示,在两个相邻整数间不允许带有小数的值存在。
4.连续性变数:指称量、度量或测量方法所得到得数据,其各个观测值并不限制于整数,在两个数值之间可以有微量数值差异的第三个数值存在5.质量性状资料的方法:统计次数法,评分法统计次数法:于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别及其次数或相对次数给分法:给予每类性状以相对数量的方法。
1.箱形图:d = 1.5 X (Q1-Q3),小于Q1 + d 的最大值作为上边缘,大于Q3 - d 的最小值作为下边缘,以外的异常点用圆圈表示
2.
3.二项分布:,均值为,标准差为
4.泊松分布:,平均数μ和方差σ2均为
5.正态分布:,如果~,则~。
6. Shapiro Wilk 检验 (Shapiro Wilk Test):H0总体服从正态分布
方差分析(各样本独立,来自正态总体,方差齐性)的步骤
首先,提出一个原假设,如在单因素方差分析中,H0:μ1=μ2=...=μn, 对应的备选假设
HA:μ1,μ2,...,μn 不全相等;
第二,计算:离差平方和及相应的自由度均方 F 值(F 统计量);
第三,确定显著性水平(一般来说α=0.05 或0.01);
第四,查F 值表,确定p 值。
如果F 值大于某个临界值,表示处理组间的效应不同;
如果F 值等于甚至小于某个临界值,表示处理组间效应相同。
第五,如果F 检验表明各处理组间的效应不全同,可继续进行均数间的两两比较。
相关系数r,又称积差相关系数,它是变量相关的密切程度和方向的指标。
, = n-2
相关系数的假设检验:
如果进行F检验,(3)r与b可相互推导获得,
l XX:x的离均差平方和; l YY:y的离均差平方和。
(4)用回归解释相关
决定系数
含p个自变量的二分变量Logistic回归模型:
Bofferoni 校正法:
2*2列联表简化公式(1st row: a b,2nd: c d):
生存分析的方法:
生存率估计:Kaplan-Meier法,寿命表(life-table)法;
比较方法:log-rank检验;
H0: 两样本生存率曲线相同;
H a: 两条生存率曲线差异有统计学意义。
式中A为实际死亡数,T为理论死亡数。
影响因素分析:Cox比例风险回归模型(Cox回归模型)用于
预测生存率。