当前位置：文档之家› 生物统计学考试总结 2

生物统计学考试总结 2

生物统计学考试总结

第一章
生物统计学：是数理统计在生物学研究中的应用，它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科，属于应用统计学的一个分支。
内容：试验设计：试验设计的基本原则、试验设计方案的制定和常用试验设计的方法
统计分析：数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等
生物统计学的作用：
1. 提供整理、描述数据资料的科学方法并确定其特征
2. 判断试验结果的可靠性
3. 提供由样本推断总体的方法
4. 试验设计的原则
相关概念：1.总体：研究对象的全体，是具有相同性质的个体所组成的集合
2.个体：组成总体的基本单元
3.样本：由总体中抽出的若干个体所构成的集合 n>30 大样本； n<30 小样本
4.参数：描述总体特征的数量
5.统计数：描述样本特征的数量
由于总体一般很大，有时候甚至不可能取得，所以总体参数一般不可能计算出来，而采用样本统计数来估计总体的参数
6..效应：由因素而引起试验差异的作用
7. 互作：两个或两个以上处理因素间的相互作用产生的效应
生物统计学的研究包括了两个过程：
1. 从总体抽取样本的过程——抽样过程
2. 从样本的统计数到总体参数的过程——统计推断过程

第二章

1．算术平均数：是所有观察值的和除以观察的个数平均数（AVERAGE）
特性：（1）样本中各观测值与平均数之差－离均差－的总和等于零
（2）样本中各观测值与其平均数之差平方的总和，比各观测值与任一数值离均差的平方和小，即离均差平方和最小
2．中位数：将试验或调查资料中所有观测依从大小顺序排列，居于中间位置的观测值称为中位数，以Md表示
3．众数：在一个样本的所有观察值中，发生频率最大的一个值称为样本的众数，以Mo表示
4．几何平均数：资料中有n个观测值，其乘积开n次方所得的数值，以G表示。
5.极差（全距）：样本数据资料中最大观测值与最小观测值的差值
R＝max{x1,x2,…,xn} — mix{x1,x2,…,xn}
6．样本方差：总体方差：
用n－1代替n作，可以避免偏小估计，从而实现样本方差对总体方差的无偏估计
在统计上，自由度（df ＝n－1 ）是指样本内独立而能自由变动的观测值的个数
在计算其他统计数时，如果受到k个条件的限制，则其自由度为n－k
7．样本标准差：总体标准差：
（1）标准差的大小，受多个观测值的影响，如果观测值与观测值间差异大

，标准差就大
（2）在计算标准差的时候，如果对各个观测值加上或者减去一个常数a，其标准差不变；如果乘以或除以一个常数a，则标准差扩大或者缩小a倍
STDEV: 基于给定样本的标准偏差
STDEVP：基于给定样本总体的标准偏差
8变异系数（CV）：样本标准差除以样本的平均数，得到百分比
（1）变异系数是样本变量的相对变量，是不带单位的纯数
（2）用变异系数可以比较不同样本相对变异程度的大小

第三章
概率的计算法则：
（1）乘法定理：如果A和B为独立事件，则事件A和B同时发生的概率等于各自事件的概率的乘积
（2）加法定理：互斥事件A和B的和的概率等于事件A和事件B的概率之和

加法定理推理1：
如果A1、A2、…An为n个互斥事件，则其和事件的概率为：
P(A1＋A2…An）=P(A1)+P(A2)＋…＋P（An）
加法定理：如果A和B是任何两件事件，则
概率分布：
（1）离散型随机变量的概率分布
变量（x） x1 x2 x3 … xn
概率（P） p1 p2 p3 … pn
P(x=xi)=pi (i=1,2,…, n)
离散随机变量的方差

（2）连续型随机变量的概率分布
连续型随机变量的概率分布
连续型随机变量可以取某一区间或整个实数轴上的任意一个值
它取任何一个特定的值的概率都等于0
不能列出每一个值及其相应的概率
通常研究它取某一区间值的概率
用数学函数的形式和分布函数的形式来描述
概率密度函数：（1）设X为一连续型随机变量，x 为任意实数，X的概率密度函数记为f(x)，它满足条件

(2) ,f(x)不是概率

几种常见的概率分布：（适用范围，尾函数，自由度）
1. 二项分布的概率函数记作B(n，p)或者B(n,π)
（1）每次试验只有两个对立结果，分布记为A与，它们出现的概率分布为p与q（q＝1-p）
（2）试验具有重复性和独立性
二项式分布的概率累积函数：

若随机变量x服从二项式分布，则有二项分布的总体平均数为
二项分布的总体标准差为：

二项成数（百分数）分布的平均数：

二项成数（百分数）分布的标准差：

B(n, p) BINOMDIST ?
x number_s 实验成功次数
n trials 独立实验次数
p probability_s 一次实验中成功的概率
? cumulative True:
False:

例：假设年龄60～64岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人，这正常嘛？（注：1986年，60～64岁的男性老人第二年的死亡率约为0.02）
解：要知道100个男性的样本死亡5人是不是“异常”事件，这种估计

的一个准则是寻找至少5人死亡的概率。
注：通常是把概率值为0.05或者更小的概率事件识别为异常（稀有事件）。
由于至少5人死亡的概率是0.05，可见100人中至少死亡5人是稍微有点异常，但不是很异常。
如果至少死亡10人，那么概率是3.44*10-5，这就很不正常，因而，在没有其他证据显示此疫苗有效前，应考虑停止使用。

2. 泊松分布
二项式分布中，如果p值很小而n值很大（ p<0.1 和np<5 )，则泊松分布

式中：为参数，

泊松分布的平均数、方差、标准差

? POISSON ?
x X 事件出现的次数
? mean 期望值
? cumulative True:
False:
例：假如我们研究乳腺癌的遗传敏感性。我们发现，母亲
曾患有乳腺癌的1000名40～49岁的妇女，在研究开始后的1年中，有4人患有乳腺癌，而我们从大总体中知道在这相同的时间内，1000人中有1个人发生乳腺癌。试问乳腺癌有没有敏感性？
解：如果用二项分布，则n＝1000，p＝1/1000,
BINOMDIST number_s Trials probability_s cumulative ? ?
? 3 1000 0.001 Ture 0.981 0.019
解：如果用泊松分布，则n＝1000，p＝1/1000, 则平均值＝1
POISSION x mean cumulative
? 3 1 Ture 0.981 0.019
则：这个事件是异常事件，则认为有乳腺癌的妇女，她们的子代具有遗传敏感性

3. 正态分布（高斯分布）
为总体平均数，为总体标准差
正态分布的特征
1. 当时，f(x)有最大值
2. 当的绝对值相等的时候，f(x)值也相等

3. 当的绝对值越大，f(x)值就越小，但永远不等于0
4. 正态分布曲线完全由函数和来决定
5. 正态分布曲线在处各有一个拐点
6. 正态分布求和为0
? NORMDIST ?
xi X 函数值的区间点
? Mean 算术平均值
? Standard_dev 标准差
? cumulative True: 累积
False:概率密度函数值
标准正态分布：

? NORMSDIST ?
xi Z 标准正态分布的区间点

? NORMSINV ?
u probability 正态分布概率，介于0～1之间，含0，1

4． t分布:是小样本分布，小样本分布一般是指n<30。t分布适用于当总体标准差未知时用样本标准差代替总体标准差，由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等 P45

TDIST：返回自由度为n的t分布在x点处的单尾或者双尾概率。
TINV：返回自由度为n的t分布的双尾概率分布函数的反函数.
TINV
Probability 双尾学生 t 分布的概率
Degrees_freedom 自由度

注意：1）TINV 返回 t 值，P(|X| > t) = probability，即P(|X| > t) = P(X < -t or X > t)
2）单尾 t 值可通过用两倍概率替换概率而求得
eg：如果概率为 0.05 而自由度为 10 ，
双尾值由 TINV(0.05,10)

计算得到2.28139；
而同样概率和自由度的单尾值由 TINV(2*0.05,10) 计算得到 1.812462。

5.卡方分布 P45

6.F分布

1、概率抽样：根据已知的概率选取样本
简单随机抽样：完全随机地抽选样本
分层抽样：总体分成不同的“层”，然后在每一层内进行抽样
整群抽样：将一组被调查者（群）作为一个抽样单位
等距抽样：在样本框中每隔一定距离抽选一个被调查者
2、非概率抽样：不是完全按随机原则选取样本
非随机抽样：由调查人员自由选取被调查者
判断抽样：通过某些条件过滤来选择被调查者
3、配额抽样：选择一群特定数目、满足特定条件的被调查者
抽样分布：从一个给定的总体中抽取（不论是否有放回）容量（或大小）为n的所有可能的样本，对于每一个样本，计算出某个统计量（如样本均值或标准差）的值，不同的样本得到的该统计量的值是不一样的，由此得到这个统计量的分布，称之为抽样分布
所有样本指标（如均值、比例、方差等）所形成的分布称为抽样分布
是一种理论概率分布
随机变量是样本统计量——样本均值, 样本比例等
4 结果来自容量相同的所有可能样本

（符号）

样本平均数的基本性质：
（1）样本均值的均值（数学期望）等于总体均值
定义：一个参数的估计量是，如果,则称是的无偏估计

（2）样本均值的方差等于总体方差的1/n
（3）样本平均数的标准误差的定义

（4）当总体服从正态分布N~(μ, σ2 )时，来自该总体的所有容量为n的样本的均值也服从正态分布，的数学期望为μ，方差为σ2/n。即～N(μ, σ2/n)
中心极限定理：设从均值为，方差为 2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
两个独立样本平均数差数的分布 P44

第四章
假设检验：又称显著性检验：根据总体的理论分布和小概率原理，对未知或不完全知道的总体提出两种彼此对立的假设，然后由样本的实际结果，经过一定的计算，做出在一定概率意义上应该接受的那种假设的推断。
如果抽样结果使小概率事件发生，则拒绝假设。
如果抽样结果没有使小概率事件发生，则接受假设
特点：（1）采用逻辑上的反证法（2）依据统计学上的小概率原理
生物统计学上，一般认为：等于或小于0.05或0.01的概率为小概率
在一次试验中，一个几乎不可能发生的事件发生的概率。
假设检验的步骤： 1、提出假设 2、确定适当的检验统计量
3、确定显著性水平a 4、计算概率 5、推断是否接受假设

两类:1）弃真错

误；2）取伪错误
一．大样本平均数的假设检验——u检验
应用范围：1）总体方差已知
2）总体方差未知，但样本为大样本( ), 用s2来代替

两个样本平均数比较的u检验

二、小样本平均数的假设检验——t检验
应用范围：
总体方差未知，且样本为小样本( ), 采用t检验
当总体方差为未知时，当样本容量小于30，检验一个样本平均数是否属于平均数为的指定总体，其遵循自由度为df＝n－1的t分布
T分布的计算：

2、成组数据平均数比较的t 检验
成组数据资料是两个样本的各个变量从各自总体中抽取的，即两个抽样样本彼此独立。这样，不论两样本容量是否相同，所得数据皆为成组数据。

两个样本的总体方差相等，自由度df＝n1＋n2－2
两个样本的总体方差不相等，但抽样样本数相等，自由度df＝n－1

3、成对数据平均数比较的t 检验

第五章

统计假设：H0：观测值与理论值的差异是由随机误差引起
HA：观测值与理论值之间有真实差异
所以卡方值是度量实际观测值与理论值偏南程度的一个统计量
卡方值越小，表明观测值与理论值越接近
卡方值越大，表明观测值与理论值相差越大
卡方值为0，表明H0严格成立，且它不会有下侧否定区，只能进行右尾检验
连续性：由于离散型资料的卡方检验只是近似地服从连续型变量的卡方分布，所以在对离散型资料进行卡方检验计算的时，结果常常偏低，特别是当自由度df=1时，有较大偏差，为此需要进行矫正，当自由度df>1时，与连续型随机变量卡方分相近似，这时可以不做连续性矫正
注意：要求各个组内的理论次数不小于5，如某组理论次数小于5，则应把它与其相邻的一组或几组合并，直到理论次数大于5为止
适合性检验（吻合性检验或拟合优度检验）步骤：
1. 提出无效假设，即认为观测值和理论值之间没有差异
2. 规定显著性水平
3. 计算样本卡方值
4. 根据规定的显著水平和自由度计算出卡方值，再和实际计算的卡方值进行比较
独立性检验步骤：
1. 提出无效假设，即认为所观测的各属性之间没有关联
2. 规定显著性水平
3. 根据无效假设计算出理论数
4. 根据规定的显著水平和自由度计算出卡方值，再和计算的卡方值进行比较。
如果接受假设，则说明因子之间无相关联，是相互独立的
如果拒绝假设，则说明因子之间的关联是显著的，不独立

第六章

方差分析又称 F 检验（F -test）;方差分析是关于k(k≥3)个样本平均数的假

设测验方法，是将总变异按照来源分为处理效应和试验误差，并做出其数量估计。
发现各变异原因在总变异中相对重要程度的一种统计分析方法。
总变异分解为组间变异和组内变异。
组内变异是个体差异所致，是抽样误差。
组间变异可能由两种原因所致，一是抽样误差；二是处理不同。
在抽样研究中抽样误差是不可避免的，故导致组间变异的第一种原因肯定存在；第二种原因是否存在，需通过假设检验作出推断

方差分析基本思想：
1、把k个总体当作一个整体看待
2、把观察值的总变异的平方和及自由度分解为不同来源的平方和及自由度
3、计算不同方差估计值的比值
4、检验各样本所属的平均数是否相等
实际上是观察值变异原因的数量分析
方差分析应用条件：
1、各样本须是相互独立的随机样本
2、各样本来自正态分布总体
3、各总体方差相等，即方差齐
方差分析基本用途：
1、多个样本平均数的比较
2、多个因素间的交互作用
3、回归方程的假设检验
4、方差的同质性检验
总平方和=处理间平方和＋处理内平方和
总自由度=处理间自由度＋处理内自由度

统计假设的显著性检验——F检验：F检验的目的：推断处理间的差异是否存在
方差分析中的F检验总是单尾检验,而且为右尾检验
F越大，越说明组间方差是主要方差来源，因子影响越显著；
F越小，越说明随机方差是主要的方差来源，因子的影响越不显著
F检验如果否定了H0，接受了HA，表明试验的总变异主要来源于处理间的变异

多重比较：多个平均数的相互比较
常用的：1、最小显著差数法（LSD法）
2、最小显著极差法（LSR法）—新复极差检验（SSR法）—q检验

总结：差异不显著标同一字母，差异显著标不同字母

最小显著极差法（LSR法）
把平均数的差异看成是平均数的极差(range)
根据极差范围内所包括的处理数（称为秩次距）k的不同，而采用不同的检验尺度叫做最小显著极差LSR
秩次距是指当平均数由大到小排序后，相比较的两个平均数之间（含这两个平均数）包含的平均数个数
I类错误下降、工作量加大
新复极差法

q检验法

两因素方差分析：
互作：某一因素在另一因素的不同水平上所产生的效应不同，则二因素间存在交互作用，简称互作。互作效应实际是由于两个或多个试验因素的相互作用而产生的效应

采用EXCEL计算重复观测值的二因素方差分析：
1、数据输入区域必须有标题
2、直接分析结果仅适用用固定模型

第七章

相关系数的显著性检验

上述根据实际观测值计算得来的相关系数r是样本相关系数，它是双变量正态总体中的总体相关系数ρ的估计值。样本相关系数r是否来自ρ≠0的总体，还须对样本相关系数r 进行显著性检验。此时无效假设、备择假设为HO:ρ=0，HA:ρ≠0。与直线回归关系显著性检验一样，可采用t检验法与F检验法对相关系数r的显著性进行检验。

第八章

对于同一组实测数据，根据散点图的形状，可用若干相近的曲线拟合，同时建立若干曲线回归方程，然后根据R2的大小和生物学等相关专业知识，选择即符合生物学规律，拟合度又较高的曲线回归方程来描述两个变量间的曲线回归关系

第九章
样本容量的确定

第十章
实验设计的基本原则和作用

常用的试验设计的方法：1、对比设计2、随机区组设计3、裂区组设计4、正交设计
对比设计及其统计分析：对比设计试验结果的统计分析：

分析步骤：
3、试验结论分析：对邻近CK的百分数越高（大于100％），就越可能优于对照，但绝不能认为超过100％的所有处理都显著地优于对照，因为将处理与相邻CK相比只是减少了误差，实际误差仍然存在，要判断某个处理确实优于对照，一般至少要超过对照10％；凡仅超过对照5％的，均宜继续试验再做结论。
该判断方法由于不同试验的误差大小不同，仅是一种参考

随机区组设计及其统计分析：
设计方法：
1、将试验单位按性质不同分成与重复数一样多的区组；
2、每个区组内非试验相对一致，并随机排列一套试验处理；
3、不同区组间非试验因素允许有所不同，将不同重复也随机排列于各个区组
4、最终使区组内非试验因素差异最小，而区组间非试验因素差异最大，每个区组均包括全部处理
5、统计分析采用方差分析，将区组间误差分解出来，从而降低试验误差，提高试验精度

单因素随机区组：把区组看作一个因素，和试验因素一起当作二因素试验，按照二因素无重复观察值的方差分析进行，主要做区组间、处理间和试验误差3个方面的方差分析

二因素随机区组：

裂区设计及其统计分析：

统计分析采用方差分析：
区组间、A因素、B因素、AB互作、主区误差和副区误差的方差分析

正交设计及其统计分析：

正交表：正交设计法中合理安排实验，并对数据进行统计分析的一种特殊表格。

正交设计的基本步骤：
（1）明确试验目的，确定试验指标
（2）挑选因素，选取水平，列出因素水平表
（3）选用正交表，进行表头设计
根据试验因素、水平数和是否需要估计因素间的相互作用来选择合

适正交表。原则：能安排下全部试验因素，又要使部分试验的水平组合尽可能小。
各因素的水平数减1之和加1，即为所需的最少试验次数或处理组合数，若因素间有交互作用，需要再加上交互的作用的自由度。
表头设计就是将试验因素安排到所选正交表相应的列中。
表头设计原则：1、不要让主效应间，主效应与交互作用间有混杂现象；2、存在交互作用，查交互作用表
（4）明确试验方案，进行试验，得到以试验指标形式表示的试验结果。
（5）对试验结果进行统计分析
通常采用两种方法：直观分析法、方差分析法。通过试验结果分析，可以得到因素主次顺序、最佳水平组等有用信息。
（6）进行验证试验，做进一步分析。