回归分析与非参数检验---侯-(1)
- 格式:doc
- 大小:204.50 KB
- 文档页数:16
⾮参数检验⽅法⾮参数检验的推断⽅法不涉及样本所属总体的分布形式,也不会使⽤均值、⽅差等统计量,⾮参数检验是通过研究样本数据的顺序和分布的性质来构成理论基础,下⾯介绍⼀些⾮参数检验经常使⽤的样本数据信息:1.顺序:将样本数据按照升序排列,可以得到X1≤X2≤X3≤Xi....≤Xn,其中Xi为第i个顺序量。
2.秩将样本数据按照升序排列,可以得到X1≤X2≤X3≤Xi....≤Xn,Ri为Xi在这⼀列数据中的位置,称为秩,R1,R2,R3...Rn为样本数据的秩统计量3.结如果样本数据中存在相同的值,那么在排序时就会出现秩相同的情况,这样的情况称为结,结的取值是对应的秩的均值。
注意是秩的均值⽽不是数据本⾝的均值。
⾮参数检验的统计理论都是根据上述概念计算⽽来,此外,和参数检验⼀样,当我们得到分析数据的时候,最先做的⼯作还是先通过图表和⼀些描述性统计量对数据整体进⾏探索性分析,掌握数据⼤致分布情况、有⽆极端值等,为后续正确选择分析⽅法打下基础。
================================================ ====⾮参数检验主要应⽤在以下场合:1.不满⾜参数检验的条件,且⽆适当的变换⽅法进⾏变换2.分布类型⽆法获知的⼩样本数据3.⼀端或两端存在不确定值,如>10004.有序分类变量求各等级之间的强度差别更进⼀步来讲,⾮参数检验可以做以下分析:⼀、单样本总体分布检验⼆、两独⽴样本差异性检验三、两配对样本差异性检验四、多个独⽴样本差异性检验五、多个相关样本差异性检验可以看出,以上应⽤除了第⼀点之外,其他都有对应的参数检验⽅法,这就要根据样本数据的实际情况来进⾏选择了:适合使⽤参数检验的优先使⽤参数检验,否则使⽤⾮参数检验。
================================================ =下⾯我们分别介绍⼀下上述应⽤对应的⾮参数检验⽅法⼀、单样本总体分布检验单样本总体分布检验主要⽤来检验某样本所在总体分布和某⼀理论分布是否存在显著差异,主要涉及的⾮参数检验⽅法有:1.卡⽅检验卡⽅检验可以检验样本数据是否符合某⼀期望分布或理论分布,这在卡⽅检验中有所介绍,在此不再多说2.⼆项分布检验⼆项分布检验主要⽤来检验样本数据是否符合某个指定的⼆项分布,该检验只适合⼆分类变量样本。
非参数回归分析非参数回归分析是一种无需对数据分布做出假设的统计方法,它通过学习数据的内在结构来建立模型。
与传统的参数回归分析相比,非参数回归分析更加灵活,适用于各种复杂的数据分布。
本文将介绍非参数回归分析的基本原理和应用场景,并通过实例来说明其实际应用。
一、非参数回归分析的原理非参数回归分析是通过将目标变量与自变量之间的关系建模为一个未知的、非线性的函数形式,并通过样本数据来估计这个函数。
与参数回归分析不同的是,非参数回归模型不需要表示目标变量与自变量之间的具体函数形式,而是通过样本数据来学习函数的结构和特征。
在非参数回归分析中,最常用的方法是核密度估计和局部加权回归。
核密度估计使用核函数对数据进行平滑处理,从而得到目标变量在不同自变量取值处的概率密度估计。
局部加权回归则是通过在拟合过程中给予靠近目标变量较近的样本点更大的权重,从而对目标变量与自变量之间的关系进行拟合。
二、非参数回归分析的应用场景1. 数据分布未知或复杂的情况下,非参数回归分析可以灵活地适应不同的数据分布,从而得到较为准确的模型。
2. 非线性关系的建模,非参数回归分析可以对目标变量与自变量之间的非线性关系进行拟合,从而获得更准确的预测结果。
3. 数据量较小或样本信息有限的情况下,非参数回归分析不需要对数据分布做出假设,并且可以通过样本数据来学习模型的结构,因此对数据量较小的情况下也具有一定的优势。
三、非参数回归分析的实际应用为了更好地理解非参数回归分析的实际应用,以下通过一个实例来说明。
假设我们有一组汽车销售数据,包括了汽车的价格和其对应的里程数。
我们希望通过这些数据预测汽车的价格与里程数之间的关系。
首先,我们可以使用核密度估计方法来估计汽车价格与里程数之间的概率密度关系。
通过对价格和里程数进行核密度估计,我们可以得到一个二维概率密度图,显示了不同价格和里程数组合的概率密度。
接下来,我们可以使用局部加权回归方法来拟合汽车价格与里程数之间的关系。
非参数回归方法非参数回归是一种灵活的建模技术,它不依赖于对数据分布的假设,因此适用于各种类型的数据分析问题。
本文将介绍非参数回归的基本原理和常用方法,包括局部线性回归、核回归和样条回归等。
1. 非参数回归的基本原理非参数回归可以看作是对自变量与因变量之间的关系进行拟合的过程,而不需要对关系的具体形式进行假设。
与参数回归不同,非参数回归方法不直接对某个函数形式进行建模,而是通过对数据进行适当的拟合,从中获取自变量与因变量之间的关系。
2. 局部线性回归局部线性回归是一种常用的非参数回归方法,它假设在自变量附近的小区域内,自变量与因变量之间的关系可以近似为线性关系。
具体而言,局部线性回归通过在每个数据点附近拟合一个线性模型来进行预测。
这种方法可以有效地捕捉到数据的非线性关系。
3. 核回归核回归是另一种常见的非参数回归方法,它利用核函数对自变量进行加权来进行拟合。
核函数通常具有类似正态分布的形状,在自变量附近的数据点被赋予更大的权重,而离自变量远的数据点则被赋予较小的权重。
核回归可以灵活地适应不同的数据分布和关系形式。
4. 样条回归样条回归是一种基于样条函数的非参数回归方法,它将自变量的取值范围划分为若干个区间,并在每个区间内拟合一个多项式函数。
样条函数的拟合可以采用不同的方法,例如样条插值和样条平滑等。
样条回归能够更精确地捕捉到数据中的非线性关系。
5. 非参数回归的优势和应用领域与参数回归相比,非参数回归具有更高的灵活性和鲁棒性。
非参数回归方法不依赖于对数据分布和关系形式的假设,适用于各种类型的数据分析问题。
非参数回归广泛应用于经济学、统计学、金融学等领域,用于探索变量之间的关系、预测未知观测值等。
结论非参数回归方法是一种适用于各种类型数据分析问题的灵活建模技术。
本文介绍了非参数回归的基本原理和常用方法,包括局部线性回归、核回归和样条回归等。
非参数回归方法能够更准确地捕捉数据中的非线性关系,具有更高的适应性和鲁棒性。
一.单因素方差分析(one-way ANOVA),用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。
完全随机设计(completely random design)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。
在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。
二.T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
它与Z检验、卡方检验并列。
t检验t检验分为单总体检验和双总体检验。
单总体t检验时检验一个样本平均数与一个已知的总体平均数的差异是否显著。
当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。
单总体t检验统计量为:双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。
双总体t 检验又分为两种情况,一是独立样本t检验,一是配对样本t检验。
独立样本t检验统计量为:S1 和S2 为两样本方差;n1 和n2 为两样本容量。
(上面的公式是1/n1 + 1/n2 不是减!)配对样本t检验统计量为:t检验的适用条件(1) 已知一个总体均数;(2) 可得到一个样本均数及该样本标准差;(3) 样本来自正态或近似正态总体。
t检验步骤以单总体t检验为例说明:问题:难产儿出生体重n=35,X拔=3.42,S =0.40,一般婴儿出生体重μ0=3.30(大规模调查获得),问相同否?解:1.建立假设、确定检验水准αH0:μ = μ0 (无效假设,null hypothesis)H1:μ≠μ0(备择假设,alternative hypothesis,)双侧检验,检验水准:α=0.052.计算检验统计量3.查相应界值表,确定P值,下结论查附表1,t0.05 / 2.34 = 2.032,t < t0.05 / 2.34,P >0.05,按α=0.05水准,不拒绝H0,两者的差别无统计学意义例:某校二年级学生期中英语考试成绩,其平均分数为73分,标准差为17分,期末考试后,随机抽取20人的英语成绩,其平均分数为79.2分。
非参数检验参数检验方法,尤其是对计量资料,需要对研究的总体作一些比较严格的假定。
例如t检验法要求总体分布是正态分布等。
在实际工作中的许多资料不符合这种要求,因此以上的参数检验方法的使用受到了限制。
近代统计学家发明了对总体分布不必作限制性假定的检验技术,这种技术称为非参数检验(Nonparametric tests)。
非参数检验法是指在总体不服从正态分布或分布情况不明时,用来检验数据资料是否来自相同总体假设的一类检验方法。
由于它的假定前堤比参数检验方法少的多,而且在收集资料方面也十分简单,例如可以用“等级”或“符号”来评定观察的结果等,故这类方法在实际中有着广泛的应用。
第一节两相关样本的显著性检验1.1 符号检验法在配对实验中,将每对(或同一)实验单位(或先后)给予两种不同的处理,比较两种处理的效果有无差异或比较一组实验单位处理先后有无不同。
凡配对计量资料不服从正态分布要求时,可选用符号检验法(Sign test)。
例题1 有x,y 12对数据,它们的数值及相差符号由表1给出。
表1 本例的数据资料序号 1 2 3 4 5 6 7 8 9 10 11 12X 3 1 6 3 2 1 4 7 3 8 4 5Y 2 4 4 7 2 2 2 5 3 6 2 2 问这两个序列数值的差异是否具有显著性(α=0.05)?1.2 符号秩和检验法符号检验中只考虑配对数据x i-y i的符号,计算十分简便,但因没有考虑到x i-y i 差值的大小,因此对资料的利用不够充分,检验的灵敏度也不够好。
符号秩和检验法是上述方法的改进,由于关注到了差值的大小,故效果较好。
凡配对计量或计数的资料,可选用符号秩和检验法(Wilcoxon法)。
例题2 为研究长跑运动对增强普通高校学生的心功能效果,对某学院15名男生进行实验,经过5个月的长跑锻炼后观察其晨脉变化情况。
锻炼前后的晨脉数据如下。
问锻炼前后晨脉间的差异有无显著性(α=0.05)?表2 长跑锻炼前后的晨脉数、差值及其秩次序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 前70 76 56 63 63 56 58 60 65 65 75 66 56 59 70 后46 54 60 64 48 55 54 45 51 48 56 48 64 50 54 差值22 22 -4 -1 15 1 4 15 14 17 19 18 -8 9 16 秩次14.5 14.5 –3.5 –1.5 8.5 1.5 3.5 8.5 7 11 13 12 -5 6 101.3 用spss对两相关样本进行非参数检验spss软件包的Nonparametric Tests过程为两相关样本通常提供了3种非参数检验方法,它们是:Sign 检验,用于对两相关样本的总体做符号检验。
非参数检验综述作者:悦菁审稿:石鹏封面:吉江基本概念非参数检验(Nonparametric tests)是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。
由于参数检验必须是在总体分布形式已知的前提下,对总体分布的参数如均值、方差等进行推断的方法。
而非参数检验却可在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。
由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。
单样本非参数检验SPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法,其中包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。
一、总体分布的卡方检验卡方检验方法可以根据样本数据,推断总体分布与期望分布或某一理论分布是否存在显著差异,是一种吻合性检验,通常适于对有多项分类值的总体分布的分析。
它的原假设是:样本来自的总体分布与期望分布或某一理论分布无差异。
二、二项分布检验在生活中有很多数据的取值是两类,例如,人群可以分成男性和女性,投掷硬币实验的结果可以分成出现正面和出现反面等。
通常将这样的二值分别用1或0表示。
如果进行n次相同的实验,则出现两类(1或0)的次数可以用离散型随机变量X来描述。
如果随机变量X为1的概率设为P,则随机变量X值为0的概率Q便等于1-P,形成二项分布。
SPSS的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布,其原假设是:样本来自的总体与指定的二项分布无显著差异。
三、单样本K-S检验K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优度的检验方法,适用于探索连续型随机变量的分布。
单样本K-S检验的原假设是:样本来自的总体与指定的理论分布无显著差异,SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。
四、变量值随机性检验变量值随机性检验通过对样本变量值的分析,实现对总体的变量值出现是否随机进行检验。
参数、非参数检验操作步骤参数检验非参数检验对象针对参数做的假设针对总体分布情况做的假设使用范围等距数据和比例数据(度量)定类数据和定序数据(名义和有序)分布正态分布正态、非正态分布内容Means检验单样本T检验独立样本T检验配对样本T检验卡方检验(均匀分布)二项分布检验(两个变量)游程检验(随机分布)K-S检验(正态分布检验)参数检验一Means过程Means过程用于统计分组变量的的基本统计量,这些基本统计量包括:均值(Mean)、标准差(Standard Deviation)、观察量数目(Number of Cases)、方差(Variance)。
1数据编辑窗口输入分析的数据2 分析→比较均值→均值因变量、自变量的选择可根据实际情况。
“选项”3 结果分析P<0.05,拒绝原假设,显著性强。
结果报告,分别给出暴雨前和暴雨后卵量的统计量:暴雨前有13个样本,平均数122.3846,标准差15.95065,方差254.423; 暴雨后有13个样本,平均数104.4615,标准差15.10858,方差228.269;总体26个样本,平均数113.4231,标准差17.75426,方差315.214。
方差分析表,共有六列,第一列说明方差的来源,Between Groups是组间的,Within Groups 组内的,Total 总的。
第二列为平方和,其大小说明了各方差来源作用的大小。
第三列为自由度。
第四列为均方,即平方和除以自由度。
第五列F值是F统计量的值,其计算公式为模型均方除以误差均方,用来检验模型的显著性。
第六列是F统计量的显著值,由于这里的显著值0.007小于0.05,所以模型是显著的,降雨对卵量有显著影响。
二单一样本的T检验T检验是检验单个变量的均值与指定的检验值之间是否存在显著差异。
如:研究人员可能想知道一组学生的IQ平均分与100分的差异。
1 分析→比较均值→单一样本的T检验检验值中输入用于比较的均值(一般题目中会提供)。
非参数统计秩相关分析和秩回归非参数统计方法是一类不依赖于总体分布形式的统计方法,它们通常基于样本数据的秩次(rank)或者置换(permutation)来进行统计推断。
秩相关分析和秩回归是非参数统计中常见的两种方法,本文将对它们进行详细介绍。
一、秩相关分析秩相关分析是用于测量两个变量间相关性的方法,它适用于总体分布不满足正态分布假设或无法假设总体分布形式的情况。
秩相关系数可以反映两个变量之间的关系的强度和方向。
常见的秩相关系数包括Spearman相关系数、Kendall相关系数等。
Spearman相关系数是一种非参数的秩相关系数,它将原始数据转换为秩次,然后计算秩次之间的皮尔逊相关系数。
Spearman相关系数的取值范围在-1到1之间,当Spearman相关系数为0时,表示两个变量之间不存在线性关系;当Spearman相关系数为正值时,表示两个变量呈正相关关系;当Spearman相关系数为负值时,表示两个变量呈负相关关系。
Kendall相关系数也是一种非参数的秩相关系数,它与Spearman相关系数类似,但是不考虑秩次之间的距离。
Kendall相关系数的取值范围在-1到1之间,具有与Spearman相关系数类似的解释。
秩相关分析的步骤如下:1.对原始数据进行秩次转换,将每个变量的观测值按照从小到大的顺序进行排列,并用相应的秩次替代原始观测值。
2.计算秩次之间的秩相关系数。
3.使用适当的统计检验方法对秩相关系数进行显著性检验。
秩相关分析的优点是不依赖于总体分布形式,对异常值不敏感,而且可以比较有序变量和无序变量的相关性。
但是它也有一些限制,比如只能检测线性相关性,不能检测非线性相关性。
二、秩回归秩回归是一种非参数的回归分析方法,它用于研究自变量和因变量之间的关系,并不要求总体分布的形式。
秩回归与普通回归的区别在与秩回归是基于秩次转换后的数据进行建模分析的。
秩回归的优点是可以适用于各种类型的数据,不需要对数据进行正态化变换,对异常值不敏感。
大连民族学院
数学实验报告
课程:统计软件—SPSS
实验题目:线性回归分析与非参检验
系别:理学院
专业:统计学
姓名:侯祥飞
班级:141班
指导教师:滕颖俏
完成时间:2016 年10 月30
日
实验目的:
掌握线性回归分析的主要目标及其具体操作,能够读懂基本分析结果,掌握计算结果之间的数量关系,并能够写出回归方程,对回归方程进行各种统计检验。
了解SPSS非参数检验的具体操作,能够解释分析结果。
实验内容、实验步骤、实验结果及分析
一、线性回归分析
(一)9.5 粮食总产量
1.实验内容
先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用建立多元线性回归方程,分析影响粮食总产量的主要因素。
数据文件名为“粮食总产量.sav”。
2.实验步骤
步骤:分析→回归→线性→粮食总产量导入因变量、其余变量导入自变量→确定;分析→回归→线性→(向后)→确定
3.实验结果及分析
上表进行了拟合优度检验,由于该方程有多个解释变量,因此参考调整判定系数(0.986)较接近1,因此认为拟合有度较高,被解释变量可以被模型解释的部分较多,不能被解释的部分较少。
上表进行了回归方程的显著性检验,由于Sig为0小于0.05,所以拒绝原假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的,可以建立线性模型。
上表进行了回归系数的显著性检验,可以看出除粮食播种面积与农业劳动者人数变量的P-值均大于0.05,所以接受原假设,认为这
些偏回归系数与0无显著性差异,它们与被解释变量的线性关系是不显著的,不应该保留在方程中。
影响程度来由大到小依次是风灾面积、施用化肥量、总播种面积和年份(排除农业劳动者人数和粮食播种面积对粮食产量的影响)。
得回归方程为:7.4567.26817.126215.68037.8934
=-+++-,
Y X X X X
其中X1,X2,X3,X4分别为年份,总播种面积,施用化肥量,风灾面积比例。
(二)9.6 销售量
1.实验内容
一家产品销售公司在30个地区设有销售分公司。
为研究产品销售量(y)与该公司的销售价格(x1)、各地区的年人均收入(x2)、广告
同年龄段人群对该商品满意程度的分布存在显著差异。
但Jonckheere-Terpstra检验的sig值为0.641>0.05,故接受原假设,认为不同年龄段人群对该商品满意程度的分布存在显著差异。
(二)7.2
1.实验内容
利用习题二第6题数据,选择恰当的非参数检验方法,分析本次存款金额的总体分布与正态分布是否存在显著差异。
2.实验步骤
分析→非参数检验→单个独立样本K-S检验→本次存款金额导
入检验变量列表→正太分布检验→确定
3.实验结果及分析
如上表所示,在显著水平为0.05下得到的sig值均为0.00<0.05,故拒绝原假设,认为本次存款金额的分布与正太分布有显著差异。
(三)7.3
1.实验内容
利用习题二第6题数据,选择恰当的非参数检验方法,分析不同常住地人群本次存款金额的总体分布是否存在显著差异。
2.实验步骤
分析→非参数检验→2个独立样本→常住地导入分组变量、本次存款金额导入检验变量列表→确定
3.实验结果及分析
从上表中可以看出,在显著水平为0.05下得到的sig值为0.135>0.05,故接受原假设,认为不同常住地人群本次存款金额的总体分布无显著差异。
(四)7.4
1.实验内容
利用习题二第6题数据,选择恰当的非参数检验方法,分析不同收入人群本次存款金额的总体分布是否存在显著差异。
2.实验步骤
分析→非参数检验→多个独立样本→不同收入人群导入分组变量、本次存款金额导入检验变量列表→确定
3.实验结果及分析
在表中可以看出,在Kruskal-Wallis检验、中值检验、Jonckheere-Terpstra检验在显著水平为0.05下得到的sig值均为0.00<0.05,所以拒绝原假设,即认为不同收入人群本次存款金额的总体分布存在显著差异。
(五)7.5
1.实验内容
选择恰当的非参数检验方法,对“裁判打分.sav”数据随机选取10%的样本,并以恰当形式重新组织数据后,分析不同国家裁判对运动员的打分标准是否一致。
原假设:不同国家裁判对运动员的打分标准无显著差异
2.实验步骤
数据→选择个案→随机个案样本→样本→大约10%所有个案→继续→确定→挑选初选中的数据→国家和评分组建新的SPSS数据→分析→非参数检验→多个独立样本检验→把评分导入检验量→把国家导入分组→确定
3.实验结果及分析
根据上表,在Kruskal-Wallis检验、中值检验、Jonckheere-Terpstra 检验中,在显著水平为0.05下得到的sig值分别为0.00,0.00,0.047均0.05,拒绝原假设,认为不同国家对其评分有显著影响。
(六)7.6
1.实验内容
为分析大众对牛奶品牌是否具有偏好性,随机挑选超市了收集其周一至周六各天三种品牌牛奶的日销售额数据,如下表:请选择恰当的非参数检验方法,以恰当形式组织上述数据进行分析,并说明分析结论。
2.实验步骤
建立spss数据→加权个案→销售额进行加权→分析→非参数检验→两个独立样本检验→确定
3.实验结果及分析
据上表,Kruskal-Wallis检验、中值检验、Jonckheere-Terpstra 检验在显著水平为0.05下得到的sig值分别为0.484,0.733,0.651均0.05,故接受原假设,不同日期对品牌销售量的分布无显著差异。
实验启示:
通过本次实验,我们了解到回归分析是一种应用极为广泛的数量分析方法。
我们还掌握了线性回归分析的具体操作,并会对回归方程进行各种统计检验。
能够运用SPSS进行非参数检验,能够读懂结果并进行分析。