《生物统计》复习提纲(3)
- 格式:doc
- 大小:217.50 KB
- 文档页数:3
1、生物统计学主要包括试验设计和统计分析2、统计学的发展经历了3个阶段:古典记录统计学,近代描述统计学和现代推断统计学3、生物统计学是数理统计在生物学研究中的应用,它是用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。
4、英国统计学家R.A.Fisher于1923年发展了显著性检验及估计理论,提出来F分布和F 检验,创立了方差和方差分析,在从事农业试验及数据分析研究时,他提出了随机区组法、拉丁方法和正交试验的方法5、常用的统计学术语有:总体与样本,参数与统计数,变量与资料,因素与水平,处理与重复,效应与互作,准确性与精确性,误差与错误6、总体按所含个体的数目可分为有限总体和无限总体,n小于30的样本称为小样本,n大于等于30的为大样本7、参数也称参量,是对一个总体特征的度量。
统计数也称统计量,是由样本计算所得的数值。
8、准确性反映测定值与真值符合程度的大小,而精确性则是反映多次测定值的变异程度9、生物统计学的基本作用:1)提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征2)判断试验结果的可靠性3)提供由样本推断总体的方法4) 提供试验设计的一些重要原则10、试验资料具有集中性和离散性两种基本特征。
平均数是反映集中性的特征数,主要包括算术平均数,中位数,众数,几何平均数等;反映离散性的特征数是变异数,主要包括极差,方差,标准差和变异系数11、资料可分为数量性状资料和质量性状资料12、数量性状资料分为计数资料(非连续变量资料)和计量资料(连续变量资料)13、资料的来源(资料的搜集方法)一般有两个,调查和试验14、常用的抽样方法有随机抽样,顺序抽样,典型抽样15、随机抽样的方法:简单随机抽样,分层随机抽样,整体抽样,双重抽样16、计量资料的整理步骤:1,计算全距2.确定组数和组距(样本容量30--60,分组数为5--8)3,确定组限和组中值4,分组,编制次数分布表17、常用的统计图有条形图,饼图,直方图,多边形图,散点图(会辨认)18、算术平均数的算法:直接计算法,减去(或加上)常数法,加权平均法19、算术平均数的重要特性:1)样本中各观测值与其平均数之差称为离均差,其总和等于零2)样本中各观测值与其平均数之差平方的总和,较各观测值与任一数值(不包括平均数)之差的平方和最小,即离均差平方和为最小20、标准差的特性:1,标准差的大小受多个观测值的影响,如果观测值与观测值之间差异较大,其离均差也大,因而标准差也大,反之则小2,计算标准差时,如将各观测值加上或减去一个常数a,其标准差不变,将各观测值乘以或除以一个常数a,则标准差扩大或缩小了a倍3,在正态分布情况下,一个样本变量的分布情况可作如下估计:在平均数两侧的1s范围内,观测值个数约为观测值总个数的68.26%,在平均数两侧的2s范围内,观测值个数约为观测值总个数的95。
第一章1.生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科。
属于应用统计学的一个分支。
是一门应用数学。
2.统计学(Statistics)是把数学的语言引入具体的科学领域,将所研究的问题抽象为数学问题的过程, 是收集、分析、列示和解释数据的一门科学.3.生物统计学是研究生命过程中以样本推断总体的一门学科。
4.生物统计学的基本类容:①试验设计:如何合理地进行调查或试验设计②统计分析:如何科学地整理、分析所收集来的具有变异的资料,揭示出隐藏其内部的规律性。
5.生物统计学的基本作用:①提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征.②运用显著检验,判断试验结果的可靠性或可行性。
③提供由样本推断总体的方法。
④提供试验设计的的一些重要原则。
6.常用的统计学术语:一.总体与样本具有相同性质的个体所组成的集合称为总体;总体有分为有限总体和无限总体。
组成总体的基本单元称为个体从总体中抽出若干个体所构成的集合称为样本(sample);(总体中的一部分)构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小,样本容量常记为n。
一般在物学研究中,通常n<30的样本叫小样本,n ≥30的样本叫大样本。
二、参数与统计数描述总体特征的数量称为参数,也称参量。
常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;描述样本特征的数量称为统计数,也称统计量。
常用英文字母表示统计数,例如用X-表示样本平均数,用S表示样本标准差.三、变量与常数变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。
常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的.变量包括定量变量和定性变量,定性变量又可分为连续变量(可以有任何小数出现)和非连续变量(只有整数出现)。
总体:根据研究目的而确定的、具有共同性质的个体所组成的集合,称为总体.变异系数:变异系数为该样本标准差对平均数的百分比标准误:平均数的标准差也称为标准误,它表示了平均数的抽样误差的大小。
参数:由总体的全部观察值算得的特征数,称为参数极差:极差又称全距,记为R,是资料中最大观察值与最小观察值的差数。
离均差:在一个样本中,观察值与该样本平均数的差称为离均差。
统计量:测定样本中的各个体所得的特征数称为统计量,是总体的相应参数的估计值。
算数平均数:一个数量资料中各个观察值的总和除以观察值个数所得的商,称为算术平均数。
几何平均数:一组观察值的连乘积再开这群数值的个数次方所得的值,称为几何平均数,记为G。
中位数:中数又称为中位数,即在同一性质资料内,将所有观察值按大小顺序排列,居中间位置的观察值称为中数,记作Md。
众数:在同一性质的资料中,如某一观察值出现的次数最多,即称该观察值为众数,记作M0抽样:从总体中获得样本的过程。
显著性水平:保证参数在该区间的概率以P =(1-a)表示,称为置信系数或置信度,a称为显著水准或显著水平。
零假设:假设总体平均数u等于某个给定值u0(u=u0),或u-u0=0,这样的假设称为的零假设H0。
离散型数据:指用计数方法得到的数据,其各个观察值必以整数表示。
连续性数据:指由称量、度量或测量等方法得到的数据。
各个观察值并不限于整数。
频率分布:把频率值按要求进行分组归类,则制成频率分布表频数分布:把观察值按数值大小进行分组归类,则制成频数分布表随机抽样:从总体中随机抽取的样本称为随机样本。
无限总体:根据研究目的而确定的、具有共同性质的个体所组成的集合,称为总体.相关系数:描述两个变量间直线趋势好坏程度的量,值越接近1,X、Y直线相关的程度就越真切回归系数:b是直线的斜率,即b是X每增加一个单位时,平均地将要增加(b>0)或减少(b<0)的单位数,样本:由总体的若干个体所组成的集合,称为样本样本标准差:是离均差平方和平均后的方根,用σ表示。
1. 和事件事件A和事件B至少有一个发生,这一事件称为和事件,记为“A+B”,读作“或A 发生,或B发生”。
2.积事件事件A和事件B同时发生,这一事件称为积事件,记为“AB”。
3.互斥事件(不相容事件)事件A和事件B不能同时发生,这一事件称为互斥事件,记为“A.B=V”4.对立事件若事件A与B是互不相容,且A+B为必然事件,则称A为B的对立事件。
5.完全事件系若事件A1、A2、A3、…、An两两互斥,且每次试验结果必发生其一,则称这n个事件为完全事件系。
6. 事件的独立性若事件A发生与否不影响事件B发生的可能性,则称事件A和事件B相互独立。
例如花色与产量无关的例。
(一)概率的统计定义假定在相似条件下重复进行同一类试验,调查事件A发生的次数a与试验总次数n 的比数称为频率(a/n),则在试验总次数n逐渐增大时,事件A的频率愈来愈稳定的接近一个定值P,则定义为事件A发生的概率.记为P(A)=p=a/n概率的基本性质:1、任何事件的概率都在0与1之间,即:0≤P(A) ≤ 12、必然事件的概率等于1,即:P(U)=13、不可能事件的概率等于0,即:P(V)=0(二)概率的运算方法1.加法定理两个互斥事件A和B的和事件的概率等于事件A和事件B各自的概率之和,既:P(A+B)=P(A)+P(B)2.乘法定理两个独立事件A和B的积事件的概率等于事件A和事件B各自概率的乘积,即: P(A×B)=P(A) ×P(B)3.对立事件的概率若事件A的概率为P(A),那么对立事件的概率为: P( )=1-P(A)4.完全事件系的概率若有几个事件A1,A2,…..,An是试验的完全事件系,则这些事件的概率之和为1。
即:P(A1+A2+… + An)=P(A1)+P(A2) + … +(An)=11.离散型随机变量的概率分布若随机变量X只取数轴上有限个或无限个子孤立x1,x2,x3…xn ,并且这些值对应的概P1,P2,P3…Pn:即其概率函数为:P{X=xi}=pi ,i=1,2,…..则称X是离散分布的。
生物统计学总复习生物统计学总复习————————————————————————————————作者:————————————————————————————————日期:生物统计学总复习(2011)生物统计学是指导我们如何利用生命活动中表现出的数量现象,由样本信息推断总体特征的方法论和技法,贯彻通篇的主线是“如何由样本推断总体”,一切概念的引出、一切方法的建立都是为了实现“由样本推断总体”,都是为了保证“由样本推断总体”的过程经济有效,都是为了保证“由样本推断总体”的结果真实可靠。
全面理解“样本”、“总体”、“推断”三者的概念、应用、联系是掌握生物统计学的基础,是理解统计原理、统计方法的基础,是联系统计原理与统计方法的纽带。
“实验单位”、“抽样”、“总体参数”、“大数定律”、“中心极限定理”、“总体分布”、“抽样分布”、“无效假设推断”、“点估计”、“区间估计”、“置信区间”、“局部控制”、“正交设计”等等,有些是为了描述、定义“由样本推断总体”的过程,有些是为了实现“由样本推断总体”而建立的方法,因此,在理解和掌握的过程中,只有与“由样本推断总体”紧密联系,才能真正理解和掌握。
第一章、绪论一、基本概念:1、生物统计学:是应用数理统计的原理和方法来分析和解释生物界数量现象的科学。
2、描述性统计:对原始资料进行整理并作基本分析。
3、总体与样本:根据研究目的确定的、符合指定条件的全部观察对象称为总体。
构成总体的每一个基本单元,称为该总体的个体。
4、总体和个体(举例):把所研究的对象的全体称为总体,把总体中的每一个基本单位称为个体。
(参考举例:如考察某一地区冬小麦越冬前的苗高,则该地区所有小麦即为总体,每一株小麦苗即为个体。
)5、随机抽样与随机样本:所谓随机抽样是指抽样时,不搀杂人们的主观愿望,总体中每一个个体被抽取的机会均等。
由随机抽样而得的样本,称随机样本。
6、样本和随机样本:从总体中抽取一部分个体称为样本。
生物统计学复习资料生物统计学:是数理统计在生物学研究中的应用,它是用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。
精确性:指调查和试验中同一实验指标或性状的重复观测值彼此接近程度的大小,即试验误差的大小是可以计算的。
准确性:是指统计数接近真知的程度。
总体:具有相同性质的个体所组成的集合,它是指研究对象的全体。
个体:组成总体的基本单元,具有相同性质。
样本:从总体中抽取部分个体所组成的集合,即总体的一部分称为样本。
样本容量:样本中个体的数目称为样本容量记为n.。
众数:资料中出现次数最多的那个观测值或次数最多一组的中点值(组中值),称为众数。
中位数:将试验或调查资料中所有观测值依大小顺序排列,居于中间位置的观测值。
方差:用样本容量n来除离均差平方和,得到的平方和,简称方差。
它反映一组数据的平均离散水平。
变异系数:样本标准差除以样本平均数,得到的百分比为变异系数。
用变异系数可以比较不同样本相对变异程度的大小。
概率:事件A在n次重复试验中发生了m次,当试验次数n不断增大时,事件A发生的频率W(A)就越来越接近某一确定值p,于是定义p为事件A发生的概率。
统计推断:是根据总体理论分布,从样本的统计数对总体参数做出的推断,统计推断包括假设检验和参数估计。
参数估计:是统计推断的另一个方面,它是指由样本结果对总数参数在一定概率水平下所做出的估计。
参数估计包括区间估计和点估计。
因素水平:每个试验因素的不同状态(处理的某种特定状态或数量上的差异)称为因素水平。
试验单位:是指在试验中能接受不同试验处理的独立试验载体,实际上就是根据研究目的而确定的观测总体。
抽样误差:我们可以从总体中不断抽取若干个样本,每一样本有若干不同的观测值,所求得的样本平均数不可能恰好等于总体平均数,他们之间是有一定差异的,这个差异是由于抽样所引起的。
称为抽样误差。
典型抽样:根据初步资料或经验判断。
生物统计学复习资料生物统计学复习资料(宁肯“错杀”“一切”!)一、选择与填空1、总体(研究的全部对象)分为无限总体和有限总体;构成总体的每个成员称为个体。
2、从总体中获得样品的过程称为抽样,抽样可以分为放回式抽样和非放回式抽样。
3、常见的连续性数据(与某种标准作比较所得到的数据)有:长度、时间、质量、OD 值、血压值等。
这类数据通常是非整数。
4、常见的离散型数据(由记录不同类别个体的数目所得到的的数据)如:动物的头数、种子的粒数、血液中不同类型的细胞的数目。
这类数据全部是整数。
5、样本的几个特征数:平均数、标准差、偏斜度和峭度。
6、度量数据的变异程度的常用方法:范围(极差)、平均离差、标准离差(标准差)。
7、总体的特征数有:数学期望(对随机变量进行长期观测所得数据的平均数)、方差、各阶矩。
8、t 分布中样本标准误差的公式为ns。
t 分布类似于正态分布,也是一种对称分布,它只有一个参数,即自由度,t 分布同样要求总体是正态的。
9、点估计(用由样本数据所计算出来的单个数值对总体参数所做的估计),一个好的估计量应该满足三个条件:无偏性、有效性、相容性。
10、无重复实验时的两因素方差分析的条件:两因素间是否有交互作用。
11、在一元线性回归检验中,∑=ni i e 12称为误差平方和或剩余平方和,用E SS 表示。
12、实验设计的两个基本原则:重复和随机化(重复的两个意义:①只有设置重复才能得到实验误差的估计;②只有设置重复才能推断出处理效应) 13、上尾检验的条件:拒绝0H 之后,接受μ:A H >0μ14、下尾检验的条件:拒绝0H 之后,接受μ:A H <0μ15、双侧检验的条件:无充分的依据断言μ不可能大于0μ或μ不可能小于0μ 16、实际上,一般情况是随机变量Y 服从),(2σμN 。
为了能够使用附表2求其分布函数值,必须经过标准化,即:σμ-=Y U经此变换后,Y 的分布函数Y P (<)y =U P (<)σμ-y =)(σμφ-y17.LSD 法检验的公式:|21y y -|>nMS t E205.0二、名词解释1.标准差:样本中各数值与其平均数离差平方和的算术平均数的平方根,它反映了各数据的离散程度。
总体与样本:具有相同性质的个体所组成的集合称为总体。从总体中抽出的若干个体所构成的集合
称为样本。
频率与概率 设事件A在n次重复试验中发生了m次,其比值m/n称为事件A发生的频率。某事
件A在n次重复试验中,发生了m次,当试验次数n不断增大时,事件A发生的频率W(A)越来越接
近某一确定值P,P为事件A发生的概率。当n充分大时,事件A发生的频率W(A)就可代替概率P(A)。
显著性水平与臵信水平 在提出无效假设或备择假设后,要确定一个否定H0的概率标准,这个概
率标准称为显著水平或概率水平,记为α。臵信水平:是指总体参数值落在样本统计值某一区内的概
率。
单侧检验与双侧检验
假设检验的两类错误
标准差与变异系数 方差的平方根为标准差,是衡量变量资料变异程度的最好指标,表示变量分
布的离散程度。当比较两个样本时,由于平均数相差悬殊或单位不同,用标准差来说明他们的变异程
度就不合适。为了克服这一缺点,将样本标准差除以样本平均数,得出的百分比就是变异系数。变异
系数是样本变量的相对变量,是不带单位的纯数,用变异系数可以比较不同样本的相对变异程度的大
小。变异系数可以说是用平均数标准化了的标准差,在比较两个平均数不同的样本时所得结果更可靠。
互不相容事件和概率的加法原则 互不相容事件即互斥事件,事件a和事件b不能同时发生,即
A*B=V,那么称事件a和事件b互斥。互斥事件a和b的和事件的概率等于事件a和事件b的概率之和
称为加法定理。
假设检验 假设检验又称为显著性检验,是根据总体的理论分布和小概率原理原理,对未知或不
完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概
率意义上应该接受的那种假设的推断。
非放回式抽样与放回式抽样 非放回是抽样:由总体随机抽样时,每次抽出的个体不放回原总体。
放回式抽样:由总体随机抽样时,每次抽出一个个体后,这个个体还放回原总体,则称为放回式抽样。
参数与统计量 参数是描述总体特征的数量。统计量是描述样本特征的数量。
准确性与精确性 准确性指在调查和实验中某一实验指标或性状的观测值和真实值接近程度。精确
性指调查和实验中同一实验指标或性状的重复观察值彼此接近的程度。准确性是说明测定值和真实值
之间符合程度子的大小,精确性是反映多次测定值的变异程度。
独立事件和概率的乘法原则 事件a的发生与事件b的发生毫无关系,反之事件b的发生也与事件
a的发生毫无关系,则称事件a和事件b为独立事件。如果事件a和事件b为独立事件,则事件a与事
件b同时发生的概率等于事件a和事件b各自概率的乘积称为乘法定律。
正态分布的特征
成组数据与成对数据 成组数据是两个样本的各个变量从各自总体中抽取,两个样本之间的变量没
有任何关联,即两个抽样样本彼此独立。 成对数据的比较要求两个样本间配偶成对,每一对样本除随
机的给予不同处理完,其他试验条件应尽量一致。
小概率原则 如果假设一些条件,并在假设的条件下能够准确的算出事件A出现的概率α为很小,
则在假设条件下的n次独立重复实验中,事件A将按预定的概率发生,而在一次试验中则几乎不可能
发生。简而言之,小概率事件在一次抽样试验中几乎是不可能发生的。
统计推断 统计推断是根据总体理论发布,从样本的统计数对总体参数作出的推断。统计推断包
括假设检验和参数估计。
方差与极差 用样本容量n来除离均差平方和,得到平均的平方和,简称为方差或均方。极差又称为全
距,是样本资料中最大值和最小值之差一般用R表示。
总体的标准差与样本的标准差
F 检验与t检验的区别 t检验和f检验均是平均数的差异显著性检验的两种方法,但前种方法仅
是两个平均数的差异显著性检验,而后者是多个平均数差异显著性检验。
比较四个或五个样本的平均数差异显著性检验时用什么方法?F检验
比较四个样本的整齐程度差异是否显著时用什么方法?方差的同质性检验
常见计算题型
1、某批小白鼠雄性占60%,今任取3只,问至少得到1只雄鼠的概率。
解:3003334.06.01)0(1)1(CkPkP
2、某县小麦株高的统计资料为x=83.1,s=2.2cm,若数据呈正态分布。问:
①小麦株高95%的正常值范围;②株高大于85cm的概率。
解:①:上限=83.1+1.96×2.2=87.4 下限=83.1-1.96×2.2=78.8
②:2.21.8385usxx =0.864 P(x>85)=1-P(x≤85)=1-P(U≤0.860)=1-0.8051=0.1949
3、已知250株小麦株高服从正态N(63.33,2.882),问:①株高<60cm的概率。②株高>69cm的概
率。①株高<60cm的概率:P(x<60cm)=P(u<-1.156)=0.123
②株高>69cm的概率:P(x>69cm)=P(u>1.969)=1-P(u<1.969)=1-0.9756=0.0244
4、某仓库小麦种子发芽率应为90%,因担心最近的暴雨对仓库小麦发芽率有影响,现任取500粒
作发芽试验,结果430粒发芽。问通过实验此品种小麦的发芽率发生变化否?
H0 :85.00pp,因np和nq均大于30,不需连续性矫正
用双侧U检验 α=0.01时 01.0u=2.58
86.0
500
430
ˆ
p
0134.0
500
)90.01(90.0ˆ
n
pq
p
01.0p u985.20134.090.086.0ˆu01.0ˆ
p
pp
差异高度显著,即该发芽率变化非常明显。
4、已知某批棉花种子发芽率P≥0.80为合格。今抽取100粒进行发芽试验,结果有77粒发芽。问
该批种子是否合格?(8分)
因np和nq均小于30,需进行连续性矫正,采用单尾(侧)U检验。
77.0
100
77
ˆ
p
04.0100)8.01(8.0npqp
05.0p 1.645u625.05.0ˆu)1(05.0ˆc则
p
n
pp
5、某教师对某班49人尝试教法改革。一年后在地区考试中该班成绩x为80分,s为10分,地区
平均成绩为76分。由此推断,该教师的改革是否有效?
6、已知健康成年男子脉搏的均数为72次/分,张医师在某山区随机调查了64名健康成年男子,测
得其脉搏均数为74.2次/分,标准差为6.4次/分,能否据此认为该山区成年男子的脉搏与一般不同?
750.2644.6722.74nsxu
7、实验进行前解实验对象数据n1=44,x1=94,s1=6;对照实验数据n2=36,x2=91.5,s2=7。问该
组对照实验对象的选择适宜否?
694.1 367446)5.9194( )( 2222212121nsnsxxU
8、以每天每千克体重52μmol5-羟色胺处理家兔14天后,对血液中血清素含量的影响如下表,试
检验5-羟色胺对动物血液中血清素含量的影响是否显著?
x
/μg.L-1 s/μg.L-1 n
对照组 4.2 1.21 12
5-羟色胺处理组 8.49 1.11 9
方差齐性)( 0.05P 32.319.105.08,1122218,11FSSF
37.119857.9105.16)1()1()1()1(212221212nnnsnss
e
516.0 n221221nssseexx
31.8516.049.82.4 n221221nssxxt
ee
9、根据以往经验,一般胃溃疡患者有20%发生胃出血症状。现某医院观察65岁以上胃溃疡患者150
例,有32.0%发生胃出血症状,问老年胃溃疡患者是否较容易出血?
320.0ˆp
033.0150)20.01(20.0
n
pq
p
67.3033.02.032.0ˆuˆ
p
pp
10、对某地进行猪的遗传试验时,发现黑毛猪与白毛猪的子二代中,黑猪15头、白猪65头。问
此结果是否符合3:1比率的遗传基因分离规律。
651O 6043801E 152O
2041802E
222122
)1(05.0
35.120)5.05(60)5.05( )5.0( xEEOxkiiiic
P>0.05 差异不显著。
11、调查某仓库在存储不同品种水果时的耐储情况时,抽取“国光苹果”200个腐烂结果14个,“红
星苹果”148个腐烂16个。由此判断,苹果品种与耐储率是否存在关联?
苹果品种 好(个) 腐烂(个) Σ
红富士 186(182.76) 14(17.24) 200
红星 132(135.24) 16(12.75) 148
Σ 318 30 348
841.3 125.1...76.182)5.076.182186()5.0( 22122)1(05.0xEEOx
k
i
i
ii
c