多元分析
- 格式:doc
- 大小:46.50 KB
- 文档页数:6
多元回归分析的步骤1.确定研究问题和目标:在开始多元回归分析之前,需要明确研究问题和目标。
这有助于确定所需的数据、研究变量,以及模型的选择。
2.收集数据:收集包含自变量和因变量的数据样本。
通常需要收集一定量的数据,以确保模型具有足够的准确性和可靠性。
3.数据清理和准备:对数据进行清理和准备是确保多元回归分析准确性的重要步骤。
这包括检查数据是否完整、是否存在异常值、缺失值如何处理等。
4.确定模型:在多元回归分析中,需要选择适当的模型来描述自变量与因变量之间的关系。
根据问题的需求和理论背景,可以选择线性回归模型、非线性回归模型、对数线性模型等。
5.模型适合度检验:在建立模型后,需要对模型的适合度进行评估。
常见的方法包括残差分析、F检验和决定系数(R2)的计算。
6.变量选择:根据研究目标和模型的适合度,可以选择保留所有自变量或根据统计和经验的指导进行变量选择。
常见的方法包括逐步回归、前向选择和后向消元。
7.假设检验:在多元回归分析中,可以进行假设检验以确定自变量的显著性。
常见的假设包括检验系数是否为零,同时也可以检验模型整体的显著性。
8.解释结果:根据分析结果和统计显著性,解释模型中自变量对因变量的影响程度和方向。
注意要提供有关变量关系的详细解释和背景信息。
9.预测:基于建立的多元回归模型,可以使用新的自变量数据来预测因变量的值。
这可以帮助我们了解自变量的实际影响,并进行未来趋势的预测。
10.总结和报告:最后,将所有的分析结果进行总结和报告。
包括数据的清晰展示、统计显著性的解释、模型的解释力和预测能力的评估等。
总之,多元回归分析是一个复杂的过程,需要仔细的计划和执行。
它可以帮助我们了解变量之间的关系,对因变量的影响进行量化,并预测未来的趋势。
在进行多元回归分析时,需根据具体问题、数据质量和研究目标来选择合适的方法和步骤。
多元回归分析方法
多元回归分析是一种经济学和统计学中常用的方法,用于研究多个自变量对因变量的影响。
以下是多元回归分析的基础步骤:
1. 建立模型:确定一个适当的数学模型来解释因变量和自变量之间的关系。
2. 收集数据:收集与研究问题相关的数据,包括因变量和自变量的测量值。
3. 数据预处理:对收集到的数据进行处理,包括缺失值填补、异常值处理、数据标准化等。
4. 模型估计:根据收集到的数据,利用回归分析方法对模型进行估计,得出自变量和因变量之间的关系。
5. 模型验证:对估计的模型进行验证,包括检验模型的拟合度、残差统计分析、回归系数和相关系数的显著性测试等。
6. 模型应用:根据建立好的模型,预测因变量的值或者分析不同自变量对因变量的影响,制定相应的策略和决策。
未来预测:
7. 利用已有模型和数据对未观测的变量值进行预测和推断。
对新数据进行验证。
第1篇一、引言随着大数据时代的到来,数据量急剧增加,传统的统计分析方法已无法满足复杂数据关系的挖掘需求。
多元统计分析作为一种处理多个变量之间关系的方法,在社会科学、自然科学、工程技术等领域得到了广泛应用。
本报告旨在通过对某研究项目的多元统计分析,揭示变量之间的关系,为决策提供科学依据。
二、研究背景与目的本研究以某企业员工绩效评估数据为研究对象,旨在通过多元统计分析方法,探究员工绩效与个人特质、工作环境等因素之间的关系,为企业人力资源管理部门提供决策支持。
三、数据与方法1. 数据来源本研究数据来源于某企业员工绩效评估系统,包括员工的基本信息、个人特质、工作环境、绩效评分等。
2. 研究方法本研究采用以下多元统计分析方法:(1)描述性统计分析:对员工绩效、个人特质、工作环境等变量进行描述性统计分析,了解数据的分布情况。
(2)相关分析:分析变量之间的线性关系,找出相关系数较大的变量对。
(3)因子分析:将多个变量归纳为少数几个因子,揭示变量之间的内在关系。
(4)聚类分析:将员工根据绩效、个人特质、工作环境等因素进行分类,分析不同类别员工的特点。
(5)回归分析:建立员工绩效与个人特质、工作环境等因素之间的回归模型,分析各因素对绩效的影响程度。
四、数据分析结果1. 描述性统计分析通过对员工绩效、个人特质、工作环境等变量的描述性统计分析,得出以下结论:(1)员工绩效评分呈正态分布,平均绩效评分为75分。
(2)个人特质得分集中在中等水平,其中创新能力得分最高,稳定性得分最低。
(3)工作环境得分普遍较高,其中工作压力得分最低。
2. 相关分析通过对员工绩效、个人特质、工作环境等变量进行相关分析,得出以下结论:(1)绩效与创新能力、稳定性、工作环境等因素呈正相关。
(2)创新能力与稳定性呈负相关。
3. 因子分析通过对员工绩效、个人特质、工作环境等变量进行因子分析,得出以下结论:(1)提取了3个因子,分别对应创新能力、稳定性、工作环境。
多元统计分析实验报告1. 引言多元统计分析是一种用于研究多个变量之间关系的统计方法。
在实验中,我们使用了多元统计分析方法来探索一组数据中的变量之间的关系。
本报告将介绍我们的实验设计、数据收集和分析方法以及结果和讨论。
2. 实验设计为了进行多元统计分析,我们设计了一个实验,收集了一组相关变量的数据。
我们选择了X、Y和Z这三个变量作为我们的研究对象。
为了获得准确的结果,我们采用了以下实验设计:1.确定研究目的:我们的目标是探索X、Y和Z之间的关系,并确定它们之间是否存在任何相关性。
2.数据收集:我们通过调查问卷的方式收集了一组数据。
我们请参与者回答与X、Y和Z相关的问题,以获得关于这些变量的定量数据。
3.数据整理:在收集完数据后,我们将数据进行整理,将其转化为适合多元统计分析的格式。
我们使用Excel等工具进行数据整理和清洗。
4.数据验证:为了确保数据的准确性,我们对数据进行验证。
我们检查数据的有效性,比较数据之间的一致性,并排除任何异常值。
3. 数据分析在数据收集和整理完毕后,我们使用了一些常见的多元统计分析方法来分析我们的数据。
以下是我们使用的方法和步骤:1.描述统计分析:我们首先对数据进行了描述性统计分析。
我们计算了X、Y和Z的均值、标准差、最大值和最小值等。
这些统计量帮助我们了解数据的基本特征。
2.相关性分析:接下来,我们进行了相关性分析,以确定X、Y和Z之间是否存在相关关系。
我们计算了变量之间的相关系数,并绘制了相关系数矩阵。
这帮助我们确定变量之间的线性关系。
3.回归分析:为了更进一步地研究X、Y和Z之间的关系,我们进行了回归分析。
我们建立了一个多元回归模型,通过回归方程来预测因变量。
同时,我们还计算了回归系数和R方值,以评估模型的拟合度和预测能力。
4. 结果和讨论根据我们的实验设计和数据分析,我们得出了以下结果和讨论:1.描述统计分析结果显示,X的平均值为x,标准差为s;Y的平均值为y,标准差为s;Z的平均值为z,标准差为s。
数据分析技术中常用的多元回归分析方法简介多元回归分析是一种常用的数据分析技术,用于建立解释一个或多个自变量与一个或多个因变量之间关系的数学模型。
在实际应用中,多元回归分析可以帮助我们理解和预测因变量的变化情况,同时揭示自变量对因变量的影响程度和方向。
在多元回归分析中,我们通常会考虑多个自变量对一个因变量的影响。
这些自变量可以是连续变量,也可以是分类变量。
为了进行多元回归分析,我们需要收集包含自变量和因变量数据的样本,并建立一个数学模型来描述它们之间的关系。
常用的多元回归分析方法有以下几种:1. 线性回归分析:线性回归是最基本的多元回归分析方法之一。
它假设自变量和因变量之间的关系是线性的,即可以通过一条直线来描述。
线性回归可以用于预测新的因变量值或者探究自变量对因变量的影响程度和方向。
2. 多项式回归分析:多项式回归是线性回归的扩展形式,它允许通过非线性方程来描述自变量和因变量之间的关系。
多项式回归可以用于处理具有非线性关系的数据,通过增加自变量的幂次项,可以更好地拟合数据。
3. 逐步回归分析:逐步回归是一种渐进式的回归分析方法,它通过不断添加或删除自变量来选择最优的模型。
逐步回归可以帮助我们识别对因变量影响最显著的自变量,并且去除对模型没有贡献的自变量,以减少复杂度和提高预测准确性。
4. 岭回归分析:岭回归是一种用于处理共线性问题的回归方法。
共线性指的是自变量之间存在高度相关性,这会导致模型参数估计不稳定。
岭回归通过添加一个正则化项来缩小模型参数的值,从而减少共线性的影响。
5. 主成分回归分析:主成分回归结合了主成分分析和回归分析的方法,用于处理多重共线性问题。
主成分分析通过将自变量转换为一组无关的主成分来降维,然后进行回归分析。
这样可以减少自变量之间的相关性,并提高模型的解释力。
6. 逻辑回归分析:逻辑回归是一种广义线性回归,常用于处理二分类问题。
它通过对因变量进行逻辑变换,将线性回归的结果映射到一个[0, 1]的区间,表示某事件发生的概率。
多元分析原理及应用多元分析是一种统计方法,用于研究变量之间的关系和对样本数据进行综合分析。
它可以帮助我们了解多个变量之间的相互影响,揭示出复杂数据背后的潜在结构和模式。
多元分析广泛应用于社会科学、经济学、心理学、市场研究等领域。
多元分析的核心思想是通过降维,将原始数据转换到一个低维度的空间中,以便更好地展现变量之间的关系。
常见的多元分析方法包括主成分分析、因子分析、聚类分析、判别分析、回归分析等。
主成分分析是一种较为常用的多元分析方法。
它通过线性变换,将原始变量转换为若干个无关主成分,以解释原始变量的大部分变异。
主成分分析可以帮助我们发现主要影响数据变异的特征,并进行数据简化和模式识别。
因子分析是一种探究变量背后潜在结构的方法。
它将多个相关变量整合为少数几个无关因子,以更好地理解这些变量之间的关系。
因子分析可以用来提取共性因素,简化数据并发现变量之间潜在的关联。
聚类分析是一种将样本按照相似性或距离进行分类和分组的方法。
它可以帮助我们发现数据的内在结构,将样本划分为不同的簇,并提供针对不同群体的个性化分析和解释。
判别分析是一种寻找不同类别之间最大差异的方法。
它可以帮助我们建立分类模型,并预测样本的类别。
判别分析常用于市场研究和社会科学中的消费者行为分析、用户分类等领域。
回归分析是一种研究变量之间因果关系的方法。
它通过建立数学模型,分析自变量对因变量的影响程度,并进行预测和解释。
回归分析可以用于预测销售量、收入等连续型变量,也可以用于二元或多元分类。
综上所述,多元分析是一种研究多个变量关系的统计方法,它能够揭示数据的内在结构和模式,为我们提供更全面的分析和解释。
在实际应用中,多元分析可以用于数据降维、数据简化、模式识别、分类预测等领域。
统计学中的多元数据分析方法在统计学中,数据分析一直是一个非常重要的研究领域。
随着数据获取和处理技术的不断提高,人们需要更加精确和有效地分析和利用数据。
多元数据分析方法是其中一种重要的分析方法,今天我们就来介绍一下。
1. 多元数据分析方法的概念多元数据分析方法是指利用多元数据(即多个变量)来进行数据分析的一种方法。
与单变量数据分析方法相比,多元数据分析方法可以更加全面和细致地分析数据,可以更好地发现不同变量之间的关系,并从中获取更多、更准确的信息。
多元数据分析方法可以应用于各种领域的数据分析,如医学、经济学、心理学等等。
它包括众多的具体方法,如主成分分析、聚类分析、因子分析、回归分析等等。
2. 多元数据分析方法的应用主成分分析主成分分析是一种非常基本的多元数据分析方法,它可以将多个变量转换为少数几个无关的主成分,从而减少数据的维度。
主成分分析可以帮助我们更好地理解数据,找出潜在的结构和模式,并从中获取有用的信息。
聚类分析聚类分析是一种将数据分为不同群体的方法,它可以帮助我们找出不同群体之间的差异和相似性,从而发现数据中的潜在特征。
聚类分析常常用于市场调研、消费者分类等领域。
因子分析因子分析与主成分分析类似,也是一种减少数据维度的方法。
不同的是,因子分析是基于潜在因子(latent factors)之间的相互作用来实现的。
因子分析可以帮助我们探索变量之间的关系,并从中发现潜在的因子。
回归分析回归分析是一种可以揭示变量之间关系的方法,它可以建立变量间的预测模型,从而预测未来的结果。
回归分析可以用于许多领域,如金融、医学、信息技术等,是一种非常常用的多元数据分析方法。
3. 多元数据分析方法的思考不同的多元数据分析方法针对不同的问题和数据,有着各自的优势和局限。
选择何种方法需要综合考虑不同的因素,如数据结构、研究目的、研究问题的复杂度等等。
此外,多元数据分析方法也需要注意一些常见的误区,如过拟合、欠拟合、共线性等等,这些问题都会影响到分析的结果和可靠性。
统计学中的多元分析和主成分分析统计学是一门研究数据收集、分析和解释的学科。
在统计学中,多元分析和主成分分析是两种常用的数据分析方法。
它们可以帮助我们理解和解释数据中的多个变量之间的关系,并从中提取出最重要的信息。
本文将对多元分析和主成分分析进行介绍和比较,以便更好地理解它们的应用和作用。
一、多元分析多元分析是一种用于研究多个变量之间关系的统计方法。
它可以帮助我们确定和解释数据中的多个变量之间的关联性、相关性和相互作用。
多元分析的目标是找到一个或多个线性方程,用于描述和预测多个自变量和因变量之间的关系。
在多元分析中,常见的方法包括相关分析、回归分析、方差分析等。
相关分析用于度量两个或多个变量之间的关系程度,回归分析用于建立自变量和因变量之间的线性关系模型,方差分析则用于比较多个样本之间的均值差异。
这些方法可以帮助我们深入了解数据背后的规律和关联性。
二、主成分分析主成分分析是一种用于降维和提取数据主要信息的统计方法。
它可以帮助我们从一个包含大量变量的数据集中提取出最为重要的主成分,以实现数据的降维和解释。
主成分分析通过线性变换将原始变量转化为一组新的无关变量,这些新的变量被称为主成分。
主成分分析的过程包括计算协方差矩阵、计算特征值和特征向量,以及选择最重要的主成分。
通过选择最重要的主成分,我们可以将原始数据的维度降低,从而更好地理解和解释数据。
主成分分析在数据探索、模式识别和数据可视化等方面具有广泛的应用。
三、多元分析与主成分分析的比较多元分析和主成分分析虽然在统计学中都是用于分析多个变量之间的关系,但它们在目的和方法上有所不同。
1. 目的不同:多元分析旨在研究多个变量之间的关系和相互作用,以找到描述和预测这些关系的线性方程;而主成分分析旨在通过降维和提取主要信息,将原始数据转化为一组更为简洁和解释性强的主成分。
2. 方法不同:多元分析通常采用相关分析、回归分析和方差分析等方法,通过计算统计指标和建立模型来分析多个变量之间的关系;主成分分析则通过线性变换和特征值分解等方法,将原始变量转化为一组新的无关变量。
多元分析研究多个自变量与因变量相互关系的一组统计理论和方法。
又称多变量分析。
多元分析是单变量统计方法的发展和推广。
人的心理和行为具有复杂的内在结构,受到多种因素的制约。
仅采用单变量分析难以揭示其内在结构以及各种影响因素的主次作用和交互影响。
首先涉足多元分析方法是F.高尔顿,他于1889年把双变量的正态分布方法运用于传统的统计学,创立了相关系数和线性回归。
其后的几十年中,C.E.斯皮尔曼提出因素分析法(见因素分析),R.A.费希尔提出方差分析和判别分析,S.S.威尔克斯发展了多元方差分析,H.霍特林确定了主成分分析和典型相关。
到20世纪前半叶,多元分析理论大多已经确立。
60年代以后,随着计算机科学的发展,多元分析方法在心理学以及其他许多学科的研究中得到了越来越广泛的应用。
常用的多元分析方法包括3类:①多元方差分析、多元回归分析和协方差分析,称为线性模型方法,用以研究确定的自变量与因变量之间的关系;②判别函数分析和聚类分析,用以研究对事物的分类;③主成分分析、典型相关和因素分析,研究如何用较少的综合因素代替为数较多的原始变量。
多元方差分析是把总变异按照其来源(或实验设计)分为多个部分,从而检验各个因素对因变量的影响以及各因素间交互作用的统计方法。
例如,在分析2×2析因设计资料时,总变异可分为分属两个因素的两个组间变异、两因素间的交互作用及误差(即组内变异)等四部分,然后对组间变异和交互作用的显著性进行F检验。
多元方差分析的优点是可以在一次研究中同时检验具有多个水平的多个因素各自对因变量的影响以及各因素间的交互作用。
其应用的限制条件是,各个因素每一水平的样本必须是独立的随机样本,其重复观测的数据服从正态分布,且各总体方差相等。
多元回归分析用以评估和分析一个因变量与多个自变量之间线性函数关系的统计方法。
一个因变量y与自变量x1、x2、…xm有线性回归关系是指:其中α、β1…βm是待估参数,ε是表示误差的随机变量。
通过实验可获得x1、x 2…xm的若干组数据以及对应的y值,利用这些数据和最小二乘法就能对方程中的参数作出估计,记为╋、勮…叧,它们称为偏回归系数。
多元回归分析的优点是可以定量地描述某一现象和某些因素间的线性函数关系。
将各变量的已知值代入回归方程便可求得因变量的估计值(预测值),从而可以有效地预测某种现象的发生和发展。
它既可以用于连续变量,也可用于二分变量(0,1回归)。
多元回归的应用有严格的限制。
首先要用方差分析法检验自变量y与m个自变量之间的线性回归关系有无显著性,其次,如果y与m个自变量总的来说有线性关系,也并不意味着所有自变量都与因变量有线性关系,还需对每个自变量的偏回归系数进行t检验,以剔除在方程中不起作用的自变量。
也可以用逐步回归的方法建立回归方程,逐步选取自变量,从而保证引入方程的自变量都是重要的。
协方差分析把线性回归与方差分析结合起来检验多个修正均数间有无差别的统计方法。
例如,一个实验包含两个多元自变量,一个是离散变量(具有多个水平),一个是连续变量,实验目的是分析离散变量的各个水平的优劣,此变量是方差变量;而连续变量是由于无法加以控制而进入实验的,称为协变量。
在运用协方差分析时,可先求出该连续变量与因变量的线性回归函数,然后根据这个函数扣除该变量的影响,即求出该连续变量取等值情况时因变量的修正均数,最后用方差分析检验各修正均数间的差异显著性,即检验离散变量对因变量的影响。
协方差分析兼具方差分析和回归分析的优点,可以在考虑连续变量影响的条件下检验离散变量对因变量的影响,有助于排除非实验因素的干扰作用。
其限制条件是,理论上要求各组资料(样本)都来自方差相同的正态总体,各组的总体直线回归系数相等且都不为0。
因此应用协方差分析前应先进行方差齐性检验和回归系数的假设检验,若符合或经变换后符合上述条件,方可作协方差分析。
判别函数分析判定个体所属类别的统计方法。
其基本原理是:根据两个或多个已知类别的样本观测资料确定一个或几个线性判别函数和判别指标,然后用该判别函数依据判别指标来判定另一个个体属于哪一类。
判别分析不仅用于连续变量,而且借助于数量化理论亦可用于定性资料。
它有助于客观地确定归类标准。
然而,判别分析仅可用于类别已确定的情况。
当类别本身未定时,预用聚类分析先分出类别,然后再进行判别分析。
聚类分析解决分类问题的一种统计方法。
若给定n个观测对象,每个观察对象有p个特征(变量),如何将它们聚成若干可定义的类?若对观测对象进行聚类,称为Q型分析;若对变量进行聚类,称为R型分析。
聚类的基本原则是,使同类的内部差别较小,而类别间的差别较大。
最常用的聚类方案有两种。
一种是系统聚类方法。
例如,要将n个对象分为k类,先将n个对象各自分成一类,共n类。
然后计算两两之间的某种“距离”,找出距离最近的两个类、合并为一个新类。
然后逐步重复这一过程,直到并为k类为止。
另一种为逐步聚类或称动态聚类方法。
当样本数很大时,先将n个样本大致分为k类,然后按照某种最优原则逐步修改,直到分类比较合理为止。
聚类分析是依据个体或变量的数量关系来分类,客观性较强,但各种聚类方法都只能在某种条件下达到局部最优,聚类的最终结果是否成立,尚需专家的鉴定。
必要时可以比较几种不同的方法,选择一种比较符合专业要求的分类结果。
主成分分析把原来多个指标化为少数几个互不相关的综合指标的一种统计方法。
例如,用p个指标观测样本,如何从这p个指标的数据出发分析样本或总体的主要性质呢?如果p个指标互不相关,则可把问题化为p个单指标来处理。
但大多时候p 个指标之间存在着相关。
此时可运用主成分分析寻求这些指标的互不相关的线性函数,使原有的多个指标的变化能由这些线性函数的变化来解释。
这些线性函数称为原有指标的主成分,或称主分量。
主成分分析有助于分辨出影响因变量的主要因素,也可应用于其他多元分析方法,例如在分辨出主成分之后再对这些主成分进行回归分析、判别分析和典型相关分析。
主成分分析还可以作为因素分析的第一步,向前推进就是因素分析。
其缺点是只涉及一组变量之间的相互依赖关系,若要讨论两组变量之间的相互关系则须运用典型相关。
典型相关分析先将较多变量转化为少数几个典型变量,再通过其间的典型相关系数来综合描述两组多元随机变量之间关系的统计方法。
设x是p元随机变量,y是q 元随机变量,如何描述它们之间的相关程度?当然可逐一计算x的p个分量和y的q 个分量之间的相关系数(p×q个),但这样既繁琐又不能反映事物的本质。
如果运用典型相关分析,其基本程序是,从两组变量各自的线性函数中各抽取一个组成一对,它们应是相关系数达到最大值的一对,称为第1对典型变量,类似地还可以求出第2对、第3对、……,这些成对变量之间互不相关,各对典型变量的相关系数称为典型相关系数。
所得到的典型相关系数的数目不超过原两组变量中任何一组变量的数目。
典型相关分析有助于综合地描述两组变量之间的典型的相关关系。
其条件是,两组变量都是连续变量,其资料都必须服从多元正态分布。
以上几种多元分析方法各有优点和局限性。
每一种方法都有它特定的假设、条件和数据要求,例如正态性、线性和同方差等。
因此在应用多元分析方法时,应在研究计划阶段确定理论框架,以决定收集何种数据、怎样收集和如何分析数据资料。
多变量分析多变量分析为统计方法的一种,包含了许多的方法,最基本的为单变量,再延伸出来的多变量分析。
多变量统计分析(multivariate statistical analysis)统计资料中有多个变量(或称因素、指标)同时存在时的统计分析,是统计学的重要分支,是单变量统计的发展。
例如对630名炊事员高血压病进行调查,检查项目中除血压外,尚有年龄、性别、体重、体胖等15个项目(变量)。
如果用单变量统计分析法考察超重与血压的关系,一般是把数据做成表1的形式。
从表1可见,超重组与不超重组相比,高血压患病率高出一倍以上。
但如果把资料按体胖者与不体胖者划分成两组,再考察每组内的超重与高血压患病率的关系,就未能发现超重与高血压患病率有任何明显的联系。
也就是说,单变量统计分析忽视了另外因素(如此例中的体胖及年龄等)的影响。
对于有多个变量客观存在而又相互影响的资料,采用简单的单变量统计分析是不合理的。
多变量统计分析就能把变量间的内在联系和相互影响考虑在内。
统计学中的多变量统计分析起源于医学和心理学。
1930年代它在理论上发展很快,但由于计算复杂,实际应用很少。
1970年代以来由于计算机的蓬勃发展和普及,多变量统计分析已渗入到几乎所有的学科。
到80年代后期,计算机软件包已很普遍,使用也方便,因此多变量分析方法也更为普及。
多变量统计的理论基础和工具是数学中的概率论和矩阵。
但对于实际应用者而言,只要有合适的计算机和软件包以及掌握一些初步的多变量统计知识就可以使用它来解决实际问题。
多变量统计的内容很多,但从实际应用角度看,主要包括回归分析、判别分析、因子分析、主成分分析、聚类分析、生存分析等六个大的分支。
回归分析当多个变量x1,x2,…,xm(称为回归变量或自变量、独立变量)同时影响某个指标y(称为因变量或依赖变量)时,可进行回归分析,回归分析的第一个任务就是求回归变量对指标y的影响的统计规律性(也称回归关系);第二个任务是寻找众多的回归变量中哪一些能对指标y产生影响(常称为因素分析或变量的筛选);第三个任务(也称相关分析)是在固定(或称消除)其他变量的影响后,考察每一个回归变量对指标y的相关程度(称为偏相关系数)。
上述三个任务常是相互联系,可以同时完成。
回归变量x1,x2,…,xm与因变量y之间最常见的统计关系有两大类型:线性模型和非线性模型。
线性模型中假定y 的主要部分(记为),可由x1,x2,xm线性表示为其中b0,b1,b2,…,bm是未知常数,需用样本去估计,ε 是用取代y后的误差。
这是最常用的模型,称为多重线性回归或多元线性回归。
用样本估计线性回归模型中未知常数的方法也很多,经典的方法为最小二乘法,它的理论较为完善,此法较适用于回归变量之间的相关性不很大时。
其他求未知常数b0,b1,b2,…,bm的方法还有岭回归、特征根回归、主成分回归等,它们常用于回归变量之间相关性很大时。
非线性回归模型中y的主要部分与x1,x2,…,xm的关系为非线性函数:其中┃的形式已知,未知常数α1,α2;…用样本去估计。
医学中最常见的非线性回归是logistic回归,它常用于疾病对照研究以及生长发育问题中。
在前述的炊事员高血压病调查中,使用线性模型和最小二乘法求出未知常数,再用逐步回归选取变量,可求得15个变量中有7个变量对炊事员舒张压有显著的影响,它们按偏相关系数大小排列为:年龄(0.297),体胖程度(0.253),肾炎史(0.162),性别(0.117),工作类别(0.081),高血压家族史(0.061),嗜咸程度(0.052)。