生物统计学与试验设计(电子教材)
- 格式:doc
- 大小:4.84 MB
- 文档页数:105
GDOU-B-11-213《生物统计附试验设计》课程教学大纲课程简介课程简介:课程讲授的主要内容是:生物统计学的基本概念与基本方法,其中包括试验资料的整理、特征数的计算、平均数的统计推断、卡平方检验、方差分析、直线回归与相关分析、多元回归与相关分析、曲线回归分析和多项式回归分析、试验设计的基本原理与方法,函数型电子计算器的使用方法和常用生物统计软件( SAS, Excel )的应用等。
课程大纲一、课程的性质与任务:《生物统计附试验设计》是数理统计的原理和方法在生物科学研究中的应用,是一门应用数学。
它不仅提供如何正确地设计科学试验和收集数据的方法,而且也提供如何正确地整理、分析数据,得出客观、科学的结论的方法。
学生在已学《高等数学》和《线性代数》等课程的基础上,通过本课程的学习,不仅可以掌握基本的试验(调查)设计和统计分析方法,也是学生将来从事生产、科研和管理工作所必需的知识,而且能为今后进一步学习群体遗传学、数量遗传学、家畜育种学和动物饲养学等后续课程提供必要的统计学基础。
《生物统计附试验设计》是动物科学专业重要的专业基础课之一。
二、课程的目的与基本要求:学完本课程后在教学内容上达到“基本概念清晰,基本方法熟练,基本原理了解,基本运算正确”,熟练掌握所介绍的几种基本的试验设计方法,能独立、正确进行试验设计;熟练掌握所介绍的几种基本的生物统计方法;熟练掌握函数型电子计算器的使用方法,能独立进行畜牧试验结果的统计分析;在学生能力的培养上达到:1、培养学生科学的统计思维方法“有很大的可靠性但有一定的错误率”这是统计分析的基本特点,因此在生物统计课程的学习中要培养一种新的思考方法——从不肯定性或概率的角度来思考问题和分析科学试验的结果。
2、培养学生科学的计算能力和表达能力本门课程的概念多、公式多、表格多,许多判断和推理过程都是在经过仔细的计算、分析后得出的,结果的表达也是非常简洁和严密的。
因此学习过程中要注意培养学生正确的计算能力和表达能力。
第一章生物统计学基本知识什么是统计学PPT 5t 方差分析卡方适用于什么检验PPT7统计学分类PPT8生物统计学的概念及主要内容PPT10变量常量参数统计量PPT11算术平均数某公牛站测得10头...PPT13将100头长白母猪的仔猪一月窝重...PPT13\某种群有黑白花奶牛1500头...PPT14中位数观察得9只西农莎奶牛...PPT15某犬场发生瘟热...PPT15某奶牛场68头健康母牛PPT16几何平均数某波尔山羊群1997-2000年PPT16调和平均数某保种牛群不同世代牛群保种的规模PPT17标准差计算10只辽宁绒山羊产绒量PPT19利用某纯系蛋鸡200枚蛋重资料PPT19变异系数已知某良种猪场长白成年猪PPT20定性变量定量变量PPT30第二章常用概率分布正态分布126基础母羊体重在。
区间内PPT44已知猪血红蛋白含量x服从正态分布N(12.86.1.33)PPT45二项分布纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论PPT47设在家畜中感染某种疾病的概率为20%PPT47仔猪黄痢病在常规治疗下死亡了为20%PPT47泊松分布调查某猪场闭锁育种群仔猪畸形数PPT49为监测饮用水污染情况,现检验某社区每毫升饮用水中是细菌数PPT50 卡方分布t分布F分布第三章统计推断区间估计测定54头6月龄东北猪血清总蛋白含量PPT59某品种10头仔猪的出生重为1.5,1.2PPT60正态总体均值与方差的区间估计包糖机某日开工包了12包糖PPT66耗氧率是跑步运动员生理活力的一个重要测度PPT68测得两个民族中各5位成年人的身高PPT69为比较I II两种型号步枪子弹的枪口速度PPT69分别由工人和机器人操作钻孔机在钢部件上钻孔PPT70研究由机器A和机器B生产的钢管内径PPT70单侧置信限设从一批灯泡中,随机的取5只做寿命试验PPT71下面列出了自密歇根湖中捕获的10条鱼的聚氯联苯PPT71下面分别列出了某地25-30岁吸烟和不吸烟的男子的血压PPT71假设检验大样本平均数u检验总体方差已知总体方差未知两个样本平均数比较的u检验为了比较46-27RRUM603两种橡胶PPT75总体方差未知小样本t检验晚稻良种汕优63的千粒重量PPT76测得马铃薯两个品种块茎干物质含量PPT78总体方差未知且经F检验不相等n1=n2 两小麦品种千粒重调查结果PPT79选取生长期、发育进度、植株大小和其他方面一致的两块地两种栽培方法的地瓜产量PPT80 用糯玉米和非糯玉米杂交,预期F1植株上的糯性花粉粒的百分率为0.05 PPT82调查春大豆品种A的120个豆荚,其中瘪荚38 PPT83调查大豆A品种20荚,其中三粒荚14荚,两粒一下荚6荚PPT86第四章方差分析选用4种不同剂型的配合饲料作太湖猪的配合饲料剂型实验,每一剂型饲喂5头太湖猪PPT94 为了研究长白猪、杜洛克、太湖猪、新淮猪等四个不同猪种的生长速度,PPT95研究不同水平赖氨酸对肉仔鸡生长的影响PPT100为了研究4种不同中草药添加剂饲料A对太湖猪的饲喂效果PPT101为了研究雌激素对子宫发育的影响,现有四窝不同品系未成年的大白鼠PPT102用2种不同的饲料喂养3个不同品种的鲤鱼,得增重效果如下PPT105为了研究在猪饲料中添加胱氨酸、蛋氨酸、和蛋白质对猪日增重的影响PPT106缺失一个数据PPT108缺失两个数据PPT109第五章简单相关与线性回归根据x.y的实际观测值计算表示两个相关变量x,y间线性相关程度和性质的统计量rPPT116计算10只绵羊的胸围和体重的相关系数PPT117在太湖白鹅的生产性能研究中太湖白鹅雏鹅与70日龄重测定结果PPT121第六章第七章常用试验设计试验设计中常用的基本概念试验实验指标实验因素水平处理PPT130 131 试验设计的三个基本要素处理因素试验单位实验效应PPT131试验设计的基本原则重复的原则随机化原则局部控制原则PPT132三原则的作用关系PPT135对照的设置PPT135完全随机试验设计配对实验设计随机区组实验设计PPT137交叉设计析因设计拉丁方设计PPT139正交设计PPT140调查设计PPT142样本含量的确定PPT144进行南阳黄母牛体高调查问需要抽取多少头黄牛组成样本PPT145欲了解某地区鸡新城疫感染率1-a=0.95 至少需要调查多少只鸡PPT145某地需要抽样调查牛结膜炎发病率PPT145配对设计中重复数的估计PPT145比较两个饲料配方对猪增重的影响,西药多少对试验家畜PPT146非配对设计对试验重复数的估计PPT146多个处理比较试验中重复数的估计PPT147两种里脊菌苗对鸡白痢疾的免疫效果PPT147第四章常用试验设计生物学试验的基本要求P168试验设计的基本要素P169随机区组设计单因素随机区组试验结果的统计分析一小麦品比试验共8个品种随机区组三次重复P177两因素随机区组试验结果的统计分析探讨橡胶树品系与载频密度对年产胶量的影响P180正交设计解决花菜留种正交试验因素与水平表P191第二章常用概率分布二项分布豌豆的红花春和基因型和白花纯合基因型杂交后P31某批鸡种蛋的孵化概率的0.9 P31某小麦品种在田间出现自然变异植株的概率是0.0045 P32泊松分布细菌计数的泊松分布P35正态分布调查某玉米品种50穗穗长计算玉米穗长的95%正常值范围P40样品平均数的分布P42样品平均数差数的分布P43T分布P44卡方分布P45F分布P46第三章统计推断假设检验矽肺病患者的血红蛋白含量U0=126mg/l 问是否能提高血红蛋白含量P50大样本平均数的检验u检验总体方差已知某鱼场按常规方法所育鲢鱼苗一月龄平均体长7.25 问新育苗方法与常规方法有无显著差异P54 总体方差未知用样本方差代替生产某种纺织品,要求棉花纤维的平均长度为30mm以上n=400抽查P54两个样本平均数比较的u 检验两个样本方差已知两样本方差未知大样本用平均数差数的标准误代替某杂交黑麦从播种到开花的天数的标准差为6.9d P56比较42-67RRIM603 4267PB86两种橡胶品种的割胶产量P56小样本平均数的假设检验t检验一个样本平均数的t检验某鱼塘中的含氧量多年平均4.5mg/l P57成组数据平均数比较的t检验两总体方差未知,但方差相等(F检验)用高蛋白和低蛋白两种饲料饲养一月龄大柏树大鼠的增重量P58两总体方差未知且不等,但n1=n2 df=n-1 不是2(n-1)两小麦品种千粒重P59量总体方差未知且不等n1 n2不等近似t检验测定冬小麦“东方红3号”的蛋白质含量10次,“农大193”5次P60 成对数据平均数比较的t检验(检验d)研究饮食中缺乏维生素E与肝中维生素A的关系P61样本频率的假设检验一个样本频率的假设检验一批蔬菜种子的平均发芽率p=0.85 P62规定种蛋的孵化率大于0.80合格P63两个样本频率的假设检验研究地势对小麦锈病发病的影响378株P64某养鱼场发生药物中毒甲池29 死了20 P64区间估计一个总体平均数u的区间估计测得某批25个小麦养病呢的平均蛋白质含量14.5% P67某鱼场收虾的总体中随机取20尾平均体长120mm P67两个总体平均数差数的区间估计当两个总体方差已知或未知但为大样本当两个样本为小样本但方差已知但是不相等,但N1=N1当两个样本为小样本,方差未知但相等当两个样本为小样本,方差未知但是不相等,N1N2不相等第五章方差分析方差分析某水产研究所比较四种不同配合饲料对鱼的饲喂效果不同饲料喂鱼增重的资料P91统计假设的显著性检验F检验P92多重比较最小显著差数法LSD P93最小显著极差法LSR新复极差检验SSR P95Q检验P96单因素方差分析组内观测次数相等测定东北内蒙古河北安徽贵州黄鼬冬季针毛长度P97组内观测次数不等用某小麦种子进行切胚乳实验小麦切胚乳试验单株粒重P100两因素方差分析无重复观测值的二因素方差分析将一种生长激素配成M1M2M3M4M5 5种浓度激素及浸渍时间对大豆干物重的影响P102 具有重复观测值的二因素方差分析为研究某种昆虫滞育期长短与环境的关系不同温度及光照条件下某种昆虫的滞育天数P106 啤酒生产中需要亚久烘烤方式与大麦水分不同烘烤方式及水分对糖化时间的影响P108多因素方差分析为了研究在猪饲料中添加胱氨酸蛋氨酸和蛋白质对猪日增重的影响P112缺失一个数据P115缺失两个数据P115数据转换P117第六章简单相关与线性回归直线回归分析直线回归的区间估计P130直线回归方程的建立直线相关黏虫孵化历期平均温度与历期天数资料P125 相关系数和决定系数P135直线回归的假设检验相关系数的假设检验P136 F检验P129 相关系数的区间估计P137 T检验P129。
《生物统计学与试验设计》教案第一章绪论:一、教学学时:4二、教学要点:1. 生物统计学与试验设计在生物科学研究中的意义、地位和作用,生物学试验设计、调查设计的原则,试验误差及其控制;2.生物统计学与试验设计的一些常用基本概念;3.试验资料的分类,各类资料的次数分布表和次数分布图的制作方法;平均数、极差、方差、标准差、变异系数的具体计算方法。
三、教学难点:各类资料的次数分布表和次数分布图的制作,平均数、极差、方差、标准差、变异系数的计算。
第一节生物统计学概念生物统计学与试验设计,英文名称是Biostatistics and Experimental Design,是研究生物的遗传与变异、试验处理间及试验处理与环境间数量关系的一门科学,是数理统计原理在生物科学中的应用,是一门收集、整理和分析统计数据的方法科学,其目的是探索数据的内在数量规律性,在生物科学的发展中起着很重要的作用,已成为生命科学中非常重要的组成部分。
一、提供试验或调查设计的方法试验设计这一概念有广义与狭义之分,广义的试验设计是指试验研究课题设计,也就是指整个试验计划的拟定,包含课题名称、试验目的,研究依据、内容及预期达到的效果,试验方案,供试单位的选取、重复数的确定、试验单位的分组,试验的记录项目和要求,试验结果的分析方法,经济效益或社会效益的估计,已具备的条件,需要购置的仪器设备,参加研究人员的分工,试验时间、地点、进度安排和经费预算,成果鉴定,学术论文撰写等内容。
狭义的试验设计主要是指试验单位(如动、植物)的选取、重复数目的确定及试验单位的分组。
生物统计中的试验设计主要指狭义的试验设计。
合理的试验设计能控制和降低试验误差,提高试验的精确性,为统计分析获得试验处理效应和试验误差的无偏估计提供必要的数据。
调查设计这一概念也有广义与狭义之分,广义的调查设计是指整个调查计划的制定,包括调查研究的目的、对象与范围,调查项目及调查表,抽样方法的选取,抽样单位、抽样数量的确定,数据处理方法,调查组织工作,调查报告撰写与要求,经费预算等内容。
狭义的调查设计主要包含抽样方法的选取,抽样单位、抽样数目的确定等内容。
生物统计中的调查设计主要指狭义的调查设计。
合理的调查设计能控制与降低抽样误差,提高调查的精确性,为获得总体参数的可靠估计提供必要的数据。
简而言之,试验或调查设计主要解决合理地收集必要而有代表性资料的问题。
二、提供整理、分析资料的方法整理资料的基本方法是根据资料的特性将其整理成统计表、绘制成统计图。
通过统计表、图可以大致看到所得资料集中、离散的情况。
并利用所收集得来的数据计算出几个统计量,以表示该资料的数量特征、估计相应的总体参数。
统计分析最重要的内容是差异显著性检验。
通过抽样调查或控制试验,获得的是具有变异的资料。
产生变异的原因是什么?是由于进行比较的处理间,例如不同品种、不同饲料配方间有实质性的差异或是由于无法控制的偶然因素所引起?显著性检验的目的就在于承认并尽量排除这些无法控制的偶然因素的干扰,将处理间是否存在本质差异揭示出来。
显著性检验的方法很多,常用的有t检验——主要用于检验两个处理平均数差异是否显著;方差分检验——主要用于由质量性状得析——主要用于检验多个处理平均数间差异是否显著;2来的次数资料的显著性检验等。
第二节生物统计的常用术语一、总体与样本根据研究目的确定的研究对象的全体称为总体(population),其中的一个研究单位称为个体(individual);总体的一部分称为样本(sample)。
含有有限个个体的总体称为有限总体。
包含有无限多个个体的总体叫无限总体。
例如在生物统计理论研究上的服从正态分布的总体、服从t分布的总体,包含一切实数,属于无限总体。
在实际研究中还有一类假想总体。
例如进行几种饲料的饲养试验,实际上并不存在用这几种饲料进行饲养的总体,只是假设有这样的总体存在,把所进行的试验看成是假想总体的一个样本。
样本中所包含的个体数目叫样本容量或大小(sample size)。
样本容量常记为n。
通常把n≤30的样本叫小样本,n>30的样本叫大样本。
生物统计一般是通过样本来了解总体。
这是因为或者总体是无限的、假想的;即便是有限的但包含的个体数目相当多,要获得全部观测值须花费大量人力、物力和时间;或者观测值的获得带有破坏性。
研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。
为了能可靠地从样本来推总体,要求样本具有一定的含量和代表性。
只有从总体随机抽取的样本才具有代表性。
所谓随机抽取(random sampling)是指总体中的每一个个体都有同等的机会被抽取组成样本。
二、参数与统计量为了表示总体和样本的数量特征,需要计算出几个特征数。
由总体计算的特征数叫参数(parameter);由样本计算的特征数叫统计量(statistic)。
常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;常用拉丁字母表示统计量,例如用x表示样本平均数,用S表示样本标准差。
总体参数由相应的统计量来估计,例如用x估计μ,用S估计σ等。
三、准确性与精确性准确性(accuracy)也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。
设某一试验指标或性状的真值为μ,观测值为x,若x与μ相差的绝对值|x -μ|小,则观测值x的准确性高;反之则低。
精确性(precision)也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。
若观测值彼此接近,即任意二个观测值x i 、x j相差的绝对值|x i -x j|小,则观测值精确性高;反之则低。
准确性、精确性的意四、随机误差与系统误差试验中出现的误差分为两类:随机误差(random error)与系统误差(systematic error)。
随机误差也叫抽样误差(sampling error),这是由于许多无法控制的内在和外在的偶然因素如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致但不可能绝对一致所造成。
随机误差带有偶然性质,在试验中,即使十分小心也难以消除。
随机误差影响试验的精确性。
统计上的试验误差指随机误差。
这种误差愈小,试验的精确性愈高。
系统误差也叫片面误差(lopsided error),这是由于试验动物的初始条件如年龄、初始重、性别、健康状况等相差较大,饲料种类、品质、数量、饲养条件未控制相同,测量的仪器不准、标准试剂未经校正,以及观测、记载、抄录、计算中的错误所引起。
系统误差影响试验的准确性。
图1-1(c)、(d)所表示的情况,则是由于出现了系统误差的缘故。
第三节平均数、标准差与变异系数介绍平均数(mean)、标准差(standard deviation)与变异系数(variation coefficient)三个常用统计量,前者用于反映资料的集中性,即观测值以某一数值为中心而分布的性质;后两者用于反映资料的离散性,即观测值离中分散变异的性质。
一、平均数平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。
平均数主要包括有算术平均数(arithmetic mean)、中位数(median)、众数(mode)、几何平均数(geometric mean)及调和平均数(harmonic mean),现分别介绍如下。
(一)算术平均数算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为x 。
算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。
(一)直接法 主要用于样本含量n ≤30以下、未经分组资料平均数的计算。
设某一资料包含n 个观测值:x 1、x 2、…、x n ,则样本平均数x 可通过下式计算:nx nx x x x n i i n ∑==+++=121 其中,Σ为总和符号;∑=n i i x 1表示从第一个观测值x 1累加到第n 个观测值x n 。
当∑=n i ix 1在意义上已明确时,可简写为Σx ,(3-1)式即可改写为:nx x ∑= (二)加权法 对于样本含量n ≥30以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:∑∑∑∑==++++++===f fx f x f f f f x f x f x f x k i i ki i i kk k 11212211 式中:i x —第i 组的组中值;i f —第i 组的次数;k —分组数 第i 组的次数f i 是权衡第i 组组中值x i 在资料中所占比重大小的数量,因此f i 称为是x i 的“权”,加权法也由此而得名。
(三)平均数的基本性质1、样本各观测值与平均数之差的和为零,即离均差之和等于零。
0)(1=-∑=x x n i i 或简写成∑=-0)(x x2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。
∑=n i 1(x i -x )2<∑=n i 1(x i - a )2 (常数a ≠x ) 或简写为:∑-2)(x x <∑-2)(αx对于总体而言,通常用μ表示总体平均数,有限总体的平均数为: N x n i i ∑==1μ (3-3)式中,N 表示总体所包含的个体数。
当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。
统计学中常用样本平均数(x )作为总体平均数(μ)的估计量,并已证明样本平均数x 是总体平均数μ的无偏估计量。
(二)中位数将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为M d 。
当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。
中位数简称中数。
当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。
中位数的计算方法因资料是否分组而有所不同。
(一)未分组资料中位数的计算方法 对于未分组资料,先将各观测值由小到大依次排列。
1、当观测值个数n 为奇数时,(n+1)/2位置的观测值,即x (n+1)/2为中位数;M d =2/)1(+n x2、当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即:2)12/(2/++=n n d x x M(二)已分组资料中位数的计算方法 若资料已分组,编制成次数分布表,则可利用次数分布表来计算中位数,其计算公式为:)2(c n f i L M d -+= 式中:L —中位数所在组的下限;i —组距;f —中位数所在组的次数;n —总次数;c —小于中数所在组的累加次数。
(三)几何平均数n 个观测值相乘之积开n 次方所得的方根,称为几何平均数,记为G 。
它主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析。