生物统计学 第九章 多元统计分析简介

  • 格式:doc
  • 大小:133.00 KB
  • 文档页数:10

下载文档原格式

  / 10
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第九章多元统计分析简介

多元统计分析主要研究多个变量之间的关系以及具有这些变量的个体之间的关系。无论是自然科学还是社会科学,无论是理论研究还是应用决策,多元统计分析都有较广泛的应用。近年来,随着计算机的普及和广泛应用,多元统计分析的应用越来越广泛,越来越深入。生物学研究中,有许多问题要考虑样本与样本之间的关系、性状与性状之间的关系,也要考虑样本与性状之间的关系,为了能够正确处理这些错综复杂的关系,就需要借助于多元统计分析方法来解决这些问题。

从应用的观点看,多元统计分析就是要研究多个变量之间的关系,但哪些问题才是多元统计的内容,并无严格的界限。一般认为,典型的多元统计分析主要可以归结为两类问题:第一类是决定某一样本的归属问题:根据某样品的多个性状(特征)判定其所属的总体。如判别分析、聚类分析即属于此类内容。第二类问题是设法降低变量维数,同时将变量变为独立变量,以便更好地说明多变量之间的关系。主成分分析、因子分析和典型相关分析均属于此类问题。此外,多因素方差分析、多元回归与多元相关分析和时间序列分析,均是研究一个变量和多个变量之间的关系的,也是多元统计分析的内容。

第一节聚类分析(Cluster Analysis)

聚类分析是研究分类问题的一种多元统计方法,聚类分析方法比较粗糙,但由于这种方法能解决许多实际问题,应用比较方便,因此越来越受到人们的重视。近年来聚类分析发展较快,内容也越来越多。常见的有系统聚类、模糊聚类、灰色聚类、信息聚类、图论聚类、动态聚类、最优分割、概率聚类等方法,本节重点介绍系统聚类法。

系统聚类法是目前应用较多的聚类分析方法,这种聚类方法从一批样本的多个观测指标(变量)中,找出能度量样本之间相似程度的统计数,构成一个相似矩阵,在此基础上计算出样本(或变量)之间或样本组合之间的相似程度或距离,按相似程度或距离大小将样本(或变量)逐一归类,关系密切的归类聚集到一个小分类单位,关系疏远的聚集到一个大的分类单位,直到把所有样本(或变量)都聚集完毕,形成一个亲疏关系谱系图,直观地显示分类对象的差异和联系。

第二节判别分析(Discriminant Analysis)

判别分析是多元统计分析中较为成熟的一类分类方法,它是根据两个或多个总体的观测结果,按照一定的判别准则和相应的判别函数,来判断某一样本属于哪一类总体。判别分析的内容很多,常见的有距离判别、贝叶斯判别、费歇判别、逐步判别、序贯判别等方法。

第三节主成分分析(Principal components analysis)

主成分分析也称主分量分析,它是研究如何将多指标问题化为较少的新的指标问题的一种方法。综合后的新指标称为原来指标的主成分或主分量,这些主成分新的指标既彼此不相关,又能综合反映原来多个指标的信息,是原来多个指标的线性组合。

第四节因子分析(Factor Analysis)

因子分析也是一种把多个指标化为少数几个综合指标的多元统计方法。因子分析所涉及到的计算与主成分分析相类似,但它是从假定的因子模型出发,把数据看作是由公共因子、特殊因子和误差所构成。主成分分析把方差划分为不同的正交成分,因子分析则把方差划归为不同的起因因子。因子分析中特征值的计算是从相关矩阵出发,由于每个变量它是用较少个数的公共因子的线性函数和特定因子之和来表达原来观测的每个变量,以便合理地解释存在于原始变量间的相关性和简化变量的维数。

第五节典型相关分析(Canonical Correlation Analysis)典型相关分析是研究两组变量之间相关关系的一种统计方法。要研究两组变量之间的相关关系,找出第一组变量的某个线性组合,同时找出第二组变量的某个线性组合,使其具有最大的相关,然后又在每一变量中找到第二对线性组合,使它们具有次大的相关,将此过程继续下去,直到每组变量间相关被提取完毕为止。这样得到的线性组合对称为典型变量,二者之间的相关系数称为典型相关系数,这种用典型相关系数来代表两组变量之间相关系数的方法称为典型相关分析。

第六节时间序列分析

在生物学研究中,我们经常收集到一些不同时刻(年、月、日、时、分、秒)某一生物现象的数量特征,这些数据是有序的,研究这些数据随时间变化的相互关联规律,用于预测未来。

第十章试验设计

生物学试验研究的试验方案应设计合理,精心组织操作,采用相应的统计方法对试验结果进行分析。

第一节试验设计的基本原理

一、试验设计的意义

广义的试验设计是指整个研究课题的设计,包括试验方案的拟订,试验单位的选择、分组的排列,试验过程中生物性状和试验指标的观察记载,试验资料的整理、分析等内容;而狭义的试验设计则仅是指试验单位的选择、分组与排列方法。

合理的试验设计对科学试验是非常重要的,它不仅能够节省人力、物力、财力和时间,更重要的是它能够减少试验误差,提高试验的精确度,取得真实可靠的试验资料,为统计分析得出正确的判断和结论打下基础。

二、生物学试验的基本要求

(一)试验的代表性:

首先应抓住当前生产和科研中急需解决的问题作为试验项目。同时要有预见性,从发展的观点出发,适当照顾到长远和在不久的将来可能出现的问题。试验条件要能够代表将来准备推广该项试验结果的地区生产、经济和自然条件。还应放眼未来生产、经济和科学技术水平的发展,使试验结果既能符合当前需要,又能适应未来发展,使结果具有较长的应用寿命。

(二)试验的可靠性

这包括试验的准确度和精确度两个方面。准确度是指试验中某—性状、特征的观测值与其相应真值的接近程度;越接近准确度越高。精确度是指试验中同一性状的重复观测值彼此接近的程度,即试验误差的大小,它是可以计算的。试验误差越小,则处理间的比较越精确。当试验没有系统误差时,精确度和准确度一致。因此,在试验的全过程中,要严格按试验要求和操作规程执行各项技术环节,力求避免发生人为的错误和系统误差,尤其要注意试验条件的—致性,减少误差,提高试验结果的可靠性。高度的责任心和科学的态度是保证试验结果可靠性的必要条件。

(三)试验的重演性

试验结果的重演性是指在相同的条件下,再进行试验或实践,应能重复获得与原试验结果相类似的结果。为了保证试验结果能够重演,首先必须严格要求试验的正确执行和试验条件的代表性。其次,必须注意试验的各个环节,全面掌握试验所处的条件,有详细、完整、及时和准确的试验过程记载,以便分析产生各种试验结果的原因。此外,对生物学试验还必须考虑季节变异的特点,将试验进行2~3年,甚至做多年多点试验,以克服年份、地点环境