生物统计学3
- 格式:doc
- 大小:1.20 MB
- 文档页数:26
第二章概率和概率分布2.1做这样一个试验,取一枚五分硬币,将图案面称为A,文字面称为B。
上抛硬币,观察落下后是A向上还是B向上。
重复10次为一组,记下A向上的次数,共做10组。
再以100次为一组,1 000次为一组,各做10组,分别统计出A的频率,验证2.1.3的内容。
答:在这里用二项分布随机数模拟一个抽样试验,与同学们所做的抽样试验并不冲突。
以变量Y表示图向上的次数,n表示重复的次数,m表示组数,每次落下后图向上的概率φ=1/2。
SAS程序如下,该程序应运行3次,第一次n=10,第二次n=100,第三次n=1000。
options nodate;data value;n=10;m=10;phi=1/2;do i=1 to m;retain seed 3053177;do j=1 to n;y=ranbin(seed,n,phi);output;end;end;data disv;set value;by i;if first.i then sumy=0;sumy+y;meany=sumy/n;py=meany/n;if last.i then output;keep n m phi meany py;run;proc print;title 'binomial distribution: n=10 m=10';run;proc means mean;var meany py;title 'binomial distribution: n=10 m=10';run;以下的三个表是程序运行的结果。
表的第一部分为每一个组之Y的平均结果,包括平均的频数和平均的频率,共10组。
表的第二部分为10组数据的平均数。
从结果中可以看出,随着样本含量的加大,样本的频率围绕0.5做平均幅度越来越小的波动,最后稳定于0.5。
binomial distribution: n=10 m=10OBS N M PHI MEANY PY1 10 10 0.5 5.7 0.572 10 10 0.5 4.5 0.453 10 10 0.5 5.1 0.514 10 10 0.5 6.1 0.615 10 10 0.5 6.1 0.616 10 10 0.5 4.3 0.437 10 10 0.5 5.6 0.568 10 10 0.5 4.7 0.479 10 10 0.5 5.2 0.5210 10 10 0.5 5.6 0.56binomial distribution: n=10 m=10Variable Mean ---------------------- MEANY 5.2900000 PY 0.5290000 ----------------------binomial distribution: n=100 m=10 OBS N M PHI MEANY PY1 100 10 0.5 49.71 0.49712 100 10 0.5 49.58 0.49583 100 10 0.5 50.37 0.50374 100 10 0.5 50.11 0.5011 5 100 10 0.5 49.70 0.49706 100 10 0.5 50.04 0.50047 100 10 0.5 49.20 0.49208 100 10 0.5 49.74 0.49749 100 10 0.5 49.37 0.4937 10 100 10 0.5 49.86 0.4986binomial distribution: n=100 m=10Variable Mean ---------------------- MEANY 49.7680000 PY 0.4976800 ----------------------binomial distribution: n=1000 m=10 OBS N M PHI MEANY PY1 1000 10 0.5 499.278 0.499282 1000 10 0.5 499.679 0.499683 1000 10 0.5 499.108 0.499114 1000 10 0.5 500.046 0.50005 5 1000 10 0.5 499.817 0.49982 6 1000 10 0.5 499.236 0.49924 7 1000 10 0.5 499.531 0.499538 1000 10 0.5 499.936 0.499949 1000 10 0.5 500.011 0.50001 10 1000 10 0.5 500.304 0.50030binomial distribution: n=1000 m=10Variable Mean ---------------------- MEANY 499.6946000 PY 0.4996946 ----------------------2.2 每个人的一对第1号染色体分别来自祖母和外祖母的概率是多少?一位男性的X 染色体来自外祖父的概率是多少?来自祖父的概率呢?答: (1)设A 为一对第1号染色体分别来自祖母和外祖母的事件,则()41211211=⨯⨯⨯=A P(2)设B 为男性的X 染色体来自外祖父的事件,则()21211=⨯=B P(3)设C 为男性的X 染色体来自祖父的事件,则 ()0=C P2.3 假如父母的基因型分别为I A i 和I B i 。
第十二章实验设计12.1一项关于在干旱地区生长的一种杨树(Populus euphratica),在土壤中的水分逐渐丧失后,其基因表达、蛋白谱、生态生理学及生长性能等方面产生可逆性改变的研究。
作者在本实验的5个时间点上(H5为对照),用qPCR方法度量了该杨树叶子中的三个基因的转录丰度比[83],表中给出的为阵列数据:GenBank ID 基因H1H2H3H4H5AJ 780 423 半胱氨酸蛋白酶0.7 1.0 2.3 13.1 1.9AJ 780 698 环核苷酸和钙调节的离子通道 1.5 1.2 3.0 4.3 1.5AJ 777 362 核糖体蛋白 1.1 1.1 1.0 0.9 1.2借用上述数据,以三个基因作为三个区组,计算在5个时间点上转录丰度比差异是否显著?答:随机化完全区组实验设计方差分析的程序,类似于两因素交叉分组实验设计。
以下是本题的程序和结果:options linesize=76 nodate;data poplar;do block=1 to 3;do time=1 to 5;input trans @@;output;end;end;cards;0.7 1.0 2.3 13.1 1.91.5 1.2 3.0 4.3 1.51.1 1.1 1.0 0.9 1.2;proc anova;class block time;model trans=block time;run;The SAS SystemThe ANOVA ProcedureClass Level InformationClass Levels Valuesblock 3 1 2 3time 5 1 2 3 4 5Number of observations 15The SAS SystemThe ANOVA ProcedureDependent Variable: transSum ofSource DF Squares Mean Square F Value Pr > F Model 6 72.5560000 12.0926667 1.53 0.2809Error 8 63.1013333 7.8876667Corrected Total 14 135.6573333R-Square Coeff Var Root MSE trans Mean0.534848 117.6745 2.808499 2.386667Source DF Anova SS Mean Square F Value Pr > F block 2 18.82533333 9.41266667 1.19 0.3519 time 4 53.73066667 13.43266667 1.70 0.2416从上表中的结果可以看出,如果按随机化完全区组设计进行分析,不同时间点之间的差异不显著。
生物统计学第三版课程设计简介生物统计学是对生物学领域中大量数据的收集、整理、分析和解释的科学。
本课程设计旨在帮助学生了解生物统计学的基本概念、技术和应用,并掌握在生物学研究中常用的生物统计学方法和工具。
教学目标通过本课程的学习,学生应该能够:•理解基本的生物统计学概念,例如总体、样本、变量、测量和假设检验等。
•掌握基本的生物统计学方法,例如描述性统计分析、推断统计分析、方差分析和回归分析等。
•学习使用生物统计学软件和工具来分析和解释生物学数据。
•学会编写生物统计学实验报告和写作论文。
教学大纲1.生物统计学基础知识–生物统计学的定义和历史–生物统计学的应用领域和目标–生物统计学中的基本概念:总体、样本、变量、测量、假设检验等。
2.描述性统计分析–生物学数据的测量尺度–中心趋势和离散程度的度量–正态分布的性质和应用–相关系数和回归分析3.推断统计分析–变异性和抽样误差的概念和度量–假设检验的基本原理和应用–方差分析和多重比较方法4.生物统计学软件和工具–常用的生物统计学软件和工具–如何使用生物统计学软件和工具进行数据分析和解释教学方法本课程采用讲授、讨论和实践相结合的教学方法。
具体来说,该课程将包括以下内容:1.初步讲解生物统计学的基本概念及其应用;2.通过案例和实验操作的方式锻炼学生分析实验数据的能力;3.学生的练习内容包括:计算统计学基本统计量、绘制数据直方图或箱线图、执行t检验或方差分析、执行简单线性回归或多重回归分析。
学生还将撰写和提交一篇生物统计学报告样本,以展现其独立思考能力和实验数据分析与解读能力;4.提供在线工具和例程,以帮助学生更快速地完成实验和数据分析。
考核方法本课程采用综合考核的方式,包括课堂参与度、作业完成度和历次考试成绩等。
其中:•课堂参与度占总分的10%。
即学生在课堂上的贡献、互动和表现度等;•作业完成度占总分的30%。
即满勤并保证作业质量;•历次考试成绩占总分的60%。
第三章 几种常见的概率分布律3.1 有4对相互独立的等位基因自由组合,问有3个显性基因和5个隐性基因的组合有多少种?每种的概率是多少?这一类型总的概率是多少?答:代入二项分布概率函数,这里φ=1/2。
()75218.02565621562121!5!3!83835==⎪⎭⎫⎝⎛=⎪⎭⎫ ⎝⎛⎪⎭⎫⎝⎛=p结论:共有56种,每种的概率为0.003 906 25(1/256 ),这一类型总的概率为 0.21875。
3.2 5对相互独立的等位基因间自由组合,表型共有多少种?它们的比如何? 答:(1)543223455414143541431041431041435434143⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛=⎪⎭⎫⎝⎛+表型共有1+5+10+10+5+1 = 32种。
(2)()()()()()()6976000.0024114165014.00241354143589087.002419104143107263.0024127104143105395.00241815414353237.0024124343554322345541322314==⎪⎭⎫⎝⎛==⨯=⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛==⨯=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛==⨯=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛==⨯=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛===⎪⎭⎫⎝⎛=隐隐显隐显隐显隐显显P P P P P P 它们的比为:243∶81(×5)∶27(×10)∶9(×10)∶3(×5)∶1 。
3.3 在辐射育种实验中,已知经过处理的单株至少发生一个有利突变的概率是φ,群体中至少出现一株有利突变单株的概率为P a ,问为了至少得到一株有利突变的单株,群体n 应多大?答: 已知φ为单株至少发生一个有利突变的概率,则1―φ为单株不发生一个有利突变的概率为:()()()()()φφφ--=-=--=-1lg 1lg 1lg 1lg 11a a an P n P n P3.4 根据以往的经验,用一般的方法治疗某疾病,其死亡率为40%,治愈率为60%。
《生物统计学》第三版课后作业答案(李春喜、姜丽娜、邵云、王文林编著)第一章概论(P7)习题1、1 什么就是生物统计学?生物统计学得主要内容与作用就是什么?答:(1)生物统计学(biostatistics)就是用数理统计得原理与方法来分析与解释生物界各种现象与实验调查资料,就是研究生命过程中以样本来推断总体得一门学科。
(2)生物统计学主要包括实验设计与统计推断两大部分得内容。
其基本作用表现在以下四个方面:①提供整理与描述数据资料得科学方法;②确定某些性状与特性得数量特征;③判断实验结果得可靠性;④提供由样本推断总体得方法;⑤提供实验设计得一些重要原则。
习题1、2 解释以下概念:总体、个体、样本、样本容量、变量、参数、统计数、效应、互作、随机误差、系统误差、准确性、精确性。
答:(1)总体(populatian)就是具有相同性质得个体所组成得集合,就是研究对象得全体。
(2)个体(individual)就是组成总体得基本单元。
(3)样本(sample)就是从总体中抽出得若干个个体所构成得集合。
(4)样本容量(sample size)就是指样本个体得数目。
(5)变量(variable)就是相同性质得事物间表现差异性得某种特征。
(6)参数(parameter)就是描述总体特征得数量。
(7)统计数(statistic)就是由样本计算所得得数值,就是描述样本特征得数量。
(8)效应(effection)试验因素相对独立得作用称为该因素得主效应,简称效应。
(9)互作(interaction)就是指两个或两个以上处理因素间得相互作用产生得效应。
(10)实验误差(experimental error)就是指实验中不可控因素所引起得观测值偏离真值得差异,可以分为随机误差与系统误差。
(11)随机误差(random)也称抽样误差或偶然误差,它就是有实验中许多无法控制得偶然因素所造成得实验结果与真实结果之间产生得差异,就是不可避免得。
概论名词:生物统计:将概率论和数理统计的原理应用到生物学中以分析和解释其数量资料的科学试验设计:试验工作未进行之前应用生物统计原理,来制定合理的试验方案,包括选择动物,分组和对比以及相应的资料搜集整理和统计分析的方法。
总体与样本⏹数据具有不齐性。
⏹根据研究目的确定的研究对象的全体称为总体(population);⏹含有有限个个体的总体称为有限总体;⏹包含有无限多个个体的总体叫无限总体;⏹总体中的一个研究单位称为个体(individual);⏹从总体中随机抽出一部分具有代表性的个体称为样本(sample);⏹样本中所包含的个体数目叫样本容量或大小,常记为n。
⏹通常把n≤30的样本叫小样本,n >30的样本叫大样本。
随机抽取(random sampling) 的样本是指总体中的每一个个体都有同等的机会被抽取组成样本。
变数与变异数列、变量:⏹变数:研究中对样本个体的观察值。
⏹变量:相同性质的事物间表现差异性的某种特征。
如:身高、体重。
⏹变异数列:将变数按从小到大的顺序排列的一组数列。
参数与统计量⏹由总体计算的特征数叫参数(parameter);⏹由样本计算的特征数叫统计量(staistic)。
准确性与精确性⏹准确性(accuracy)也叫准确度,指观测值与其真值接近的程度。
若x与μ相差的绝对值|x-μ|小,则观测值x的准确性高;反之则低。
⏹精确性(precision)也叫精确度,指重复观测值彼此接近的程度。
若观测值彼此接近,即任意二个观测值xi、xj相差的绝对值|xi -xj |小,则观测值精确性高;反之则低。
⏹调查或试验的准确性、精确性合称为正确性。
由于真值μ常常不知道,所以准确性不易度量,但利用统计方法可度量精确性。
随机误差与系统误差随机误差也叫抽样误差(sampling error) ,是由于许多无法控制的内在和外在的偶然因素所造成。
带有偶然性质,在试验中,即使十分小心也难以消除。
随机误差影响试验的精确性。
第六章 方差分析引言在第四、五章中,学习了单样本与总体或两样本间平均数的显著性检验。
然而,在生物学研究中,常收集到多样本的数据,对这些多样本间平均数差异的统计分析方法即为方差分析(多样本分析)。
方差分析不仅能够分析单因素多水平(处理)效应值间平均数的差异,还能同时分析两个因素、多个因素多水平间平均数的差异,以及各因素间的交互作用。
方差分析是对多因素总体作用的检验,各因素内水平间一对一的比较方法是多重比较。
在方差分析检验差异显著的前提下,进行多重比较的分析。
本章仅对单因素和两因素方差分析,以及多重比较进行介绍。
学习目标1.辨析概念:固定因素和随机因素;固定模型、随机模型和混合模型。
2.掌握适于进行方差分析的不同类型生命科学数据。
3.理解不同方差分析模型计算过程的异同。
4.在方差分析中,固定因素和随机因素在对统计结果进行解释时的不同。
5.掌握方差分析的基本步骤。
6.了解多重比较的前提条件,掌握常用比较方法。
第六章 方差分析方差分析又叫变量分析,它是对多个样本平均数差异显著性检验的一种引伸。
在对多个样本进行比较时,如果用t 检验就会产生较大的误差,提高了犯α错误的概率。
例如我们用t 检验一对一比较的方法检验4个样本平均数之间的差异显著性,就需要做624=C 次检验,每次无效假设的概率都是l 一α=0.95,而且这些检验都是独立的,那么6次都接受的概率是(0.95)6=0.735,犯α错误的概率为1—0.735=0.265,即6次犯错误可能性的累积,因此所犯错误的概率大大增加,使用方差分析就可以避免这一问题。
方差分析是对各因素总体处理效应的显著性检验。
第一节 方差分析的基本原理方差亦称均方,是标准差的平方,是表示变异的量。
在一个多处理试验中,可以得到多组不同的观测值。
各组观测值不同的原因可以分为两大类,一类是因素处理的不同引起的,叫处理效应或条件变异,另一类是试验过程中偶然性因素的干扰和测量误差所致,称为误差或试验误差。
方差分析的基本思想是将测量数据的总变异按照变异原因不同分解为处理效应和试验误差,并作出其数量估计。
通过方差比较以确定两种原因在总变异中所占的重要程度,如果处理效应和试验误差相差不大,说明试验处理对指标影响不大,如二者相差较大,处理效应比试验误差大得多,说明试验处理影响是很大的,不可忽视。
方差分析的用途非常广泛,可用于多个样本平均数的比较、分析多个因素间的交互作用、回归方程的假设检验、方差的同质性检验等。
本章主要介绍多个样本平均数的比较,并对两个因素间的交互作用进行分析。
一、数学模型假定有k 组观测数据,每组有n 个观测值,则用线性可加模型来描述各观测值,有:ij i ij x ετμ++=式中,ij x 是在第i 次处理下的第j 次观测值,μ为总体平均数,i τ为处理效应,ij ε是试验误差,要求ij ε是相互独立的,且服从正态分布),0(2σN 。
对于由样本估计的线性模型为:ij i ij e t x x ++= 式中,x 为样本平均数,i t 为样本的处理效应,ij e 为试验误差。
依据对i τ的不同假定,即试验因素的性质和作用不同,将方差分析数学模型分为固定模型和随机模型。
(一)固定模型所谓固定模型是指各个处理的效应值i τ是固定的,各个处理的平均效应μμτ-=i i 是一个常量,且∑=0iτ。
在试验中,我们只能讨论参加试验的个体而不是随机选择的样本,就是说除去随机误差之后每个处理所产生的效应是固定的。
实际上试验因素的各水平常常是根据试验目的,事先主观选定的而不是随机选定的。
例如几种不同温度下小麦的发芽情况,不同月龄小白鼠抗药性的测定等。
在这些试验中处理的水平是特意选择的,得到的结论只适合于方差分析中所考虑的那几个水平,上述的温度、月龄等因素称为固定因素,固定因素是指因素的水平可以严格地人为控制,水平固定后它的效应值也是固定的,试验重复时可以得到相同的结果。
对单个或多个固定因素作用的方差分析应采用固定模型,在生产实践和科学实验中有很多这样的情况。
(二)随机模型随机模型是指各处理的效应值i τ不是固定的数值,而是由随机因素所引起的效应。
这里i τ是一个随机变量,是从期望均值为0,方差为2σ的正态总体中得到的随机变量。
得出的结论可以推广到多个随机因素的所有水平上。
试验中随机因素的各水平是从总体全部水平中随机抽取的样本,水平不能严格人为控制,在水平确定之后其效应值并不固定,重复试验时也很难得出相同的结果。
这类试验通过样本对所属总体作出推断时应采用随机模型,例如在研究动物体重对生长率,或土壤对植物生长的影响时,体重、土壤条件是无法人为控制的,均要用随机模型来处理。
(三)混合模型在多因素试验中,若既有固定因素,又有随机因素存在时,方差分析则采用混合模型进行统计计算。
由于固定模型、随机模型和混合模型在设计思想和统计推断上有明显不同,因此进行方差分析时的公式推导也有所不同。
所推导的平方和及自由度的分解公式没有区别,但在进行统计推断时假设检验构成的统计数是不同的。
另外,模型分析的侧重点也不完全相同,方差期望值也不一样。
固定模型主要侧重于效应值的估计和比较,而随机模型则侧重效应方差的估计和检验。
因此在进行分析及试验设计之前就要明确关于模型的基本假设。
对于单因素方差分析来说,固定模型和随机模型统计方法完全相同,只是在根据统计数作推论时有所不同。
二、统计假设的显著性检验——F 检验设试验A 具有k 个处理样本,每个样本有n 个观测值,则试验A 共有nk 个观测值,其样本资料可用表7-1来表示。
从第二章可知,方差是离均差平方和除以自由度的商,对于总体:Nx ∑-=22)(μσ,对于样本:1)(22--=∑n x x s ;因此,要把一个试验的总变异依据变异来源分为相应的变异,首先要将总平方和和总自由度分解为各个变异来源的相应部分。
方差分析的步骤:同t 检验相同,方差分析首先也要作假设,无效假设把各个处理的变量假设来自同一总体,即处理间方差不存在处理效应,只有误差的影响,因而处理间的样本方差2A σ与误差的样本方差2e σ相等,即220:e A H σσ=,22:e AA H σσ≠。
还要确定显著水平α。
(一)平方和的计算从方差分析的基本指导思想出发,引起观测值出现变异的原因有处理效应和试验误差。
处理间平均数的差异由处理的效应所致;同一处理内的变异则由随机误差引起,根据线性可加数学模型,则有:总平方和 ∑∑∑-=-=knT kn T x x x SS 11222)(令矫正数knT C 2=, 则C x SS T -=∑2处理间平方和 ∑∑-=-=kk i i A C T n x x n SS 11221)(处理内平方和 A T i k ni e SS SS T nx x x SS -=-=-=∑∑∑∑221121)((二)自由度的计算总自由度:1-=nk df T 处理间自由度:1-=k df A处理内自由度:)1()1()1(-=---=-=n k k nk df df df A T e (三)方差(均方)处理间:AAA df SS MS = 处理内:eee df SS MS =(四)显著性检验——F 检验上面的处理(水平)内方差可以作为误差方差的估计量,而水平间方差则作为水平差异的估计量,为比较不同水平间效应值有无差别,要应用F 分布进行F 检验。
从第四章已知,从一个总体随机抽取两个样本,其样本方差1MS 和2MS 的比值为F ,即:21MS MS F =其F 分布曲线随1df 和2df 的变化而变化。
由于F 值表是一尾表,一般将大方差作分子,小方差作分母,使F 值大于1,因此,表上的1df 代表大方差自由度,2df 代表小方差自由度。
进行不同处理差异显著性的F 检验时,一般是把处理间方差作为分子,称为大方差,误差方差作分母,称为小方差。
无效假设是否成立,决定于计算的F 值在F 分布中出现的概率。
F 值为:eAMS MS F =然后根据确定的显著水平α从F 值表中查出在A df 和e df 下的αF 值。
如果所计算的αF F <,α>P ,则接受0H ,说明处理间差异不显著,若αF F ≥,α≤P ,则接受A H ;应否定0H 。
说明处理间差异是显著的(05.0≤P )或差异达到极显著水平(01.0≤P ),并分别在计算的F 值的右上角标上一个或两个“*”号;如果处理间方差小于误差方差,则可不必进行检验,即可作出接受0H 结论。
第二节 单因素方差分析在试验中所考虑的因素只有一个时,称为单因素实验。
单因素方差分析是方差分析中最简单的一种。
单因素方差分析依组内观测数目不同而分为两种情况。
一、组内观测次数相等的方差分析这是在k 组处理中,每一处理皆含有n 个观测值,其方差分析的基本方法前面已做介绍,这里以一实例,说明单因素方差分析的计算过程。
例6.1 在实验室内有多种方法可以测定生物样品中的磷含量,为研究各种测定方法之间是否存在差异,随机选择四种方法,测定同一干草样品的磷含量,结果如表7.2。
试分析不同方法之间差异是否显著。
(一)假设:0H :各种测定方法之间没有显著差异;A H :各种测定方法之间有显著差异。
(二)显著水平:05.0=α (三)统计量计算:矫正数 252055471022=⨯==kn T C 总平方和 2925205)353634(2222=-+++=-=∑ C xSS T处理间平方和 925205)176137(511222=-++⨯=-=∑ C T n SS iA 处理内平方和 20929=-=-=A T e SS SS SS 总自由度:191451=-⨯=-=nk df T 处理间自由度:3141=-=-=k df A处理内自由度:161541(=-⨯=-=-=)()n k df df df A T e 处理间均方:339===A A A df SS MS 处理内均方:25.11620===e e e df SS MS F 值为:40.225.13===e A MS MS F 查附表? 24.305.0163=;,F ;05.0;05.0><P F F (四)推断:接受0H ,拒绝A H 。
(五)结论:所有测定方法间没有显著差异。
采用统计软件来进行方差分析:1. 打开程序:开始—程序—STATISTICA—STATISTICA,出现模块转换对话框,选其中的ANAVA/MANOVA,击Switch To按钮。
2. 建如下图的数据库,在Analysis中选Resume analysis,在对话框中点Variables,选取自变量(处理因素)和因变量(效应值),由于方法是随机选取的,所以,点Random factors,将方法项定为随机因子,点OK。