生物医学统计学
- 格式:doc
- 大小:128.50 KB
- 文档页数:6
第1章绪论案例辨析及参考答案案例1-1某研究者的论文题目为“大学生身心健康状况及其影响因素研究”,以某地职业技术学院理、工、文、医学生(三年制)为研究对象,理、工、文、医学生分别挑选了60、38、19和46人,以问卷方式调查每位学生的一般健康状况、焦虑程度、抑郁程度等。
得出的结论是:“大学生身心健康状况不容乐观,学业问题、就业压力、身体状况差、人际交往不良、社会支持不力为主要影响因素”。
请问其结论合理吗?为什么?应该如何?案例辨析①样本不能代表总体。
总体是“大学生”,而样本仅为某地三年制职业技术学院学生;②社会学调查的样本含量显得不足;③“理、工、文、医学生分别挑选……”这种说法中隐含人为“挑选”的意思,不符合统计学要求。
正确做法应在论文的题目中明确调查的时间范围和地点,还应给“大学生”下一个明确的定义,以便确定此次调查的“总体”;对“大学生身心健康状况”可能有影响的因素很多,应结合具体问题拟定出少数最可能有影响的因素(如学科、在学年限等)进行分层随机抽样,以保证样本有较好的代表性;还应根据已知条件找到估计样本含量的计算公式,不可随意确定各学科仅调查几十人;当然,调查表中项目的设置也是十分重要的,此处从略。
案例1-2两种药用于同一种病,A药治疗5例,4例好转;B药治疗50例,36例好转。
结论是:A药优于B药。
请问其结论合理吗?为什么?应该如何?案例辨析①A药样本仅5例,样本含量太少;②得出“A药优于B药”没有交待是否采用了统计学推断方法,若用目测法得出结论,则结论没有说服力;③未明确研究目的和研究结果将被使用的范围。
正确做法①应明确研究目的和研究结果将被使用的范围,若是个别研究者或临床医生想了解这两种药的大致疗效,属于小规模的临床观察,其结论仅供少数人在今后临床实践中参考,其样本含量可能不需要很大,因为观察指标是定性的(有效、无效),一般来说,每个药物组也需要几十例(以不少于20例为宜);若属于新药的Ⅱ期临床试验,那就要严格按有关规定,比较准确地估计出所需要的样本含量,不仅如此,还有很多严格的要求,详见本书中临床试验设计一章;②从明确定义的总体中随机抽样进行实验研究,得到的实验结果不能仅凭数据大小作出判断,应进行假设检验,以提高结论的可信度。
思考与练习参考答案第1章绪论一、选择题1. 研究中的基本单位是指( D)。
A.样本 B. 全部对象C.影响因素D. 个体E. 总体2. 从总体中抽取样本的目的是( B )。
A.研究样本统计量 B. 由样本统计量推断总体参数C.研究典型案例 D. 研究总体统计量E. 计算统计指标3. 参数是指( B )。
A.参与个体数 B. 描述总体特征的统计指标C.描述样本特征的统计指标 D. 样本的总和 E. 参与变量数4. 下列资料属名义变量的是(E)。
A.白细胞计数B.住院天数C.门急诊就诊人数D.患者的病情分级 E. ABO血型5.关于随机误差下列不正确的是(C)。
A.受测量精密度限制B.无方向性 C. 也称为偏倚D.不可避免 E. 增加样本含量可降低其大小二、名称解释(答案略)1. 变量与随机变量2. 同质与变异3. 总体与样本4. 参数与统计量5. 误差6. 随机事件7. 频率与概率三、思考题1. 生物统计学与其他统计学有什么区别和联系?答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。
而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。
2. 某年级甲班、乙班各有男生50人。
从两个班各抽取10人测量身高,并求其平均身高。
如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?答:不能。
因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。
样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。
即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。
因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。
医学统计学知识点梳理医学统计学:是用统计学原理和方法研究生物医学问题的一门学科。
他包括了研究设计、数据收集、整理、分析以及分析结果的正确解释和表达。
统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行客观的描述和表达。
统计推断:在一定的置信度和概率保证下,用样本信息推断总体特征:①参数估计:用样本的指标去推断总体相应的指标②假设检验:由样本的差异推断总体之间是否可能存在的差异同质:一个总体中有许多个体,他们之所以共同成为人们研究的对象,必定存在共性,我们说一些个体处于同一总体,就是指他们大同小异,具有同质性。
总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
(2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。
计数资料亦称定性资料或分类资料。
生物医学论文中统计结果的表达及解释【摘要】统计学是生物医学研究所必需的重要手段, 生物医学研究的实验设计、资料收集、数据处理分析以及结论都离不开统计学应用。
生物医学研究论文主要由摘要、引言、材料与方法、结果和讨论5个部分组成, 各个部分都涉及统计结果的表达和解释, 统计学是专业结论成立与否的重要依据。
统计学应用不当不仅影响论文的科学性, 还有可能得出错误的专业结论。
【关键词】统计学科研论文统计分析统计表达近年来, 统计学在生物医学科研中的应用越来越受到重视, 统计分析结果的表达及解释已成为医学科研论文中不可缺少的重要组成部分。
除论文涉及的专业(如细胞与分子免疫学杂志为免疫学专业)和表述的文字2个方面外, 统计学是评价论文质量优劣的重要依据, 然而国内生物医学论文中统计学应用仍存在着较为严重的问题[1-4], 如2003年某大学学报拟发表论著中统计方法误用率为57%[3]。
细胞与分子免疫学杂志虽然在国内生物医学系列杂志中具有较高的学术地位[5], 但拟发表及刊出论文在科研设计、统计学分析、结果解释等方面也不同程度地存在一些问题, 作者的统计学应用水平有待进一步提高。
许多生物医学杂志, 如国外著名杂志JAMA、新英格兰医学杂志(NEJM)和英国医学杂志(BMJ)等, 以及国内中华医学会系列杂志及细胞与分子免疫学杂志等, 对来稿都有统计学表达的基本要求或统计学指导原则。
国际生物医学杂志编辑协会在其《生物医学期刊投稿的统一要求》中也包含了统计学表达的基本要求。
生物医学研究性论文主要由摘要、引言、材料与方法、结果和讨论5个部分组成, 各个部分或多或少都涉及到统计结果的表达和解释问题。
例如在论文的“引言”部分需要给出文献复习的综合结果, 如文献报告的组间差别及P值等。
其他重要的统计表达和解释主要集中在论文的“摘要”、“材料和方法”、“结果”及“讨论”4个部分[6]。
1 摘要“摘要”中要有表示研究结果的重要统计指标(统计量)的数值、可信区间及假设检验结果(P值)。
生物统计学在生物医学研究中的数据报告撰写关键信息项:1、数据报告的目的和范围2、报告所涵盖的研究设计和方法3、数据收集的流程和时间范围4、数据分析的方法和所使用的统计软件5、报告中应包含的结果呈现形式6、对数据质量和可靠性的评估7、报告的审核和修订流程8、报告的提交期限和接收方1、引言11 本协议旨在规范生物统计学在生物医学研究中的数据报告撰写流程和要求,确保数据报告的准确性、完整性和科学性。
2、数据报告的目的和范围21 明确数据报告的主要目的是向相关利益方(如研究团队、资助机构、学术期刊等)清晰、准确地传达研究中的数据收集、分析和结果。
22 确定报告所涵盖的具体研究内容和范围,包括研究对象、干预措施、观察指标等。
3、报告所涵盖的研究设计和方法31 详细描述研究的设计类型,如随机对照试验、队列研究、病例对照研究等。
32 解释样本量的确定方法及依据。
33 说明分组方法和分配隐藏的策略(如适用)。
4、数据收集的流程和时间范围41 描述数据收集的方法,包括调查问卷、实验室检测、临床观察等。
42 提供数据收集的时间起点和终点。
43 说明数据录入和管理的方式。
5、数据分析的方法和所使用的统计软件51 列出所采用的具体统计分析方法,如 t 检验、方差分析、生存分析等。
52 指明使用的统计软件名称及版本。
53 解释统计模型的选择依据和假设前提。
6、报告中应包含的结果呈现形式61 要求以清晰的图表(如柱状图、折线图、箱线图等)展示主要研究结果。
62 提供详细的数据表格,包括描述性统计量、检验统计量和 P 值等。
63 对重要结果进行文字解释和讨论。
7、对数据质量和可靠性的评估71 描述数据的完整性和准确性检查方法。
72 报告缺失数据的处理方式。
73 评估可能存在的偏倚及其对结果的影响。
8、报告的审核和修订流程81 规定报告需经过内部审核,包括研究团队成员、统计专家等的审查。
82 明确审核的重点内容,如方法的合理性、结果的准确性等。
生物统计学(Biostatistics )是以概率理论为基础,研究生命科学中随机现象规律性的应用数学科学。
涉及到医学科学研究的设计、资料搜集、归纳、分析与解释的一门应用性基础学科、二、科学研究的基本程序1提出一个欲待研究的问题:2、科学研究设计:专业设计、统计学设计:统计学设计(statistical design):是指用统计学原理对研究的全过程所作出的周密合理的统筹安排,如确定研究对象,拟定研究因素及其分配,如何执行随机、对照与重复的统计学原则,如何观察与度量效应,以及数据收集、整理与分析的方法,通过合理的、系统的安排,达到控制系统误差,以尽可能少的资源消耗(最小的人力、物力、财力和时间)获取准确可靠的信息资料及可信的结论,使效益最大化。
3、获取试验与观察的资料,又称为搜集资料4、数据审核与计算机录入5、分析资料描述性统计(descriptive statistics)是指用统计指标、统计图、统计表等方法,对数据的特征及其分布规律进行检测与描述。
统计推断(inferential statistics )是通过随机样本信息推断总体特征的过程。
统计推断又包括置信区间(con fide nee in terval)估计与统计学假设检验( hypothesis test)。
统计学分析过程按变量的多寡可分为单变量分析与多重变量分析。
6、分析结果的合理解释(Explication of results):研究中应注意的问题1统计学结论的正确与否取决于统计学分析数据的真实性、准确性以及研究样本对研究总体的代表性。
2、尽可能地控制系统误差是统计分析数据真实性、准确性的保证。
3、随机化抽样是确保样本数据对研究总体具有代表性的重要过程。
变量variable :在总体中,个体的许多属性(如年龄、性别、血浆胆固醇等)存在变异性,统计学上将反映个体属性变异性特征的指标称为随机变量( Random variable),简称变量;针对不同类型的属性,需采用不同类型的变量,因而产生不同类型的资料。
第1章绪论思考与练习参考答案一、最佳选择题1. 研究中的基本单位是指( D)。
A.样本 B. 全部对象C.影响因素D. 个体E. 总体2. 从总体中抽取样本的目的是( B )。
A.研究样本统计量 B. 由样本统计量推断总体参数C.研究典型案例 D. 研究总体统计量E. 计算统计指标3. 参数是指( B )。
A.参与个体数 B. 描述总体特征的统计指标C.描述样本特征的统计指标 D. 样本的总和 E. 参与变量数4. 下列资料属名义变量的是(E)。
A.白细胞计数B.住院天数C.门急诊就诊人数D.患者的病情分级 E. ABO血型5.关于随机误差下列不正确的是(C)。
A.受测量精密度限制B.无方向性 C. 也称为偏倚D.不可避免 E. 增加样本含量可降低其大小二、名称解释(答案略)1. 变量与随机变量2. 同质与变异3. 总体与样本4. 参数与统计量5. 误差6. 随机事件7. 频率与概率三、思考题1. 生物统计学与其他统计学有什么区别和联系?答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。
而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。
2. 某年级甲班、乙班各有男生50人。
从两个班各抽取10人测量身高,并求其平均身高。
如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?答:不能。
因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。
样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。
即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。
因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。
统计学是应用概率论和数理统计的方法,研究数据的搜集、整理、分析与推断的学科,是认识世界的一种重要手段。
变量(variable):就是反映个体特征或属性的量.变量值(variable value):变量的观察结果或测量值。
定量变量quantitative variable/数值变量numerical variable 定性变量qualitative variable/分类变量categorical variable同质(homogeneity)是指被研究指标的影响因素相同。
但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。
因此,在实际工作中只有相对的同质。
变异(variation):同质基础上的各观察单位间的差异称为变异。
总体:是根据研究目的所确定的同质观察对象的全体,或者说所有同质的某指标实测值的集合。
样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。
参数(parameter):根据总体变量值统计计算出来的、描述总体特征的统计指标。
统计量(statistic):根据样本变量值统计计算出来的、描述样本特征的统计指标。
误差:指测量值和真实值之间的差别准确度(accuracy) :观察值与真值的接近程度,受系统误差的影响。
可靠度(reliability):也称精密度(precision)或重复性(repeatability):是重复观察时观察值与其均值的接近程度,受随机误差的影响。
概率:是描述随机事件发生的可能性大小的一种度量,常用P表示。
0≤P≤1 随机事件P=1 必然事件P=0 不可能事件P≤0.05或P≤0.01为小概率事件统计工作的基本步骤: 统计设计(研究对象,处理因素,统计分析),搜集资料(任务:遵循统计学原理,按照设计要求,采取必要措施得到准确可靠的原始资料。
原则:及时、准确、完整。
),整理资料(编码,将数据输入计算机;纠错改错、补漏等;根据研究目的将原始数据进行归纳、分组或计算),分析资料如何对数值变量进行统计描述。
1频数表与频数分布图2集中趋势的统计描述3离散趋势的统计描述相对数的概念包括率、构成比、相对比和动态数列,由于它是两个有联系的指标之比,因而叫作相对数。
相对数应用中的注意事项1计算相对数的分母不易过小2防治概念混淆, 分析时不能以构成比代替率3对观察单位不等的几个率,不能直接相加求其平均率。
4资料的对比应注意同质5对样本率的比较应遵循随机抽样,要作假设检验。
率:表示在一定条件下,发生某现象的观察单位数与可能发生某现象的观察单位数之比。
构成比表示某一现象内部各组成部分所占的比重或分布。
特征1各组成部分的构成比之和为100% 2某一部分构成比增大或减小,必然使其它部分产生相应的变化。
注意区别率和构成比虽然两者均为两个指标之比,但意义却完全不同。
率反应了某项指标的平均强度或平均水平,它具有数值变量中平均数的含意,构成比表示某一现象内部各组成部分所占的比重或分布,不能反应该现象的平均强度或平均水平。
正态分布的概念若将各直条顶端的中点顺次连接起来,得到一条折线。
当样本量n越来越大时,组段越分越细,此时直方渐进直条,这条折线就越来越接近于一条光滑的曲线(见图3.1),我们把这条呈中间高,两边低,左右基本对称的“钟型”曲线称为正态分布曲线,近似于数学上的正态分布(高斯分布; Gauss)。
正态分布的特征1.集中性:正态曲线在横轴上方均数处最高2.对称性:以均数为中心,左右对称。
3.正态分布的图形由均数和标准差两个参数决定。
位置参数μ;变异度参数σ4. 正态分布曲线下的面积分布有一定规律:正态曲线与横轴所夹的面积为1(1.64,1.96,2.58)应用1. 制定医学参考值范围2. 估计频数分布3. 进行质量控制4.正态分布是许多统计方法的理论基础二项分布在医学研究中,许多观察或试验的可能结果可以归结为二个相互排斥的结果。
性质与特征⑴形态取决于π和n:当π接近0.5时,分布对称,π离0.5越远,分布对称性越差;但当n增大时, 分布趋于对称。
⑵高峰在μ=nπ处⑶二项分布的总体均数μ=nπ,方差为4当nπ>5,且n(1- π)>5时,二项分布趋于正态分布。
Poisson分布Poisson分布是一个重要的离散型概率分布。
一般地,Poisson分布应用于观察例数n很大、而π发生的概率很小的情况。
特性1)Poisson分布属于离散型分布,λ是Poisson分布的总体参数,也是惟一的参数。
(2)方差σ2与均数λ相等,即σ2= λ。
这是Poisson分布的一个非常重要而且非常独特的性质,经常用于判断某随机事件是否服从Poisson分布。
(3)设X1~P(u1)且X2~P(u2),并且X1与X2相互独立,则Y=X1+X2 服从总体均数为u1+u2的Poisson分布抽样误差:由于抽样造成的样本统计量与样本统计量,以及样本统计量与总体参数间的差别样本均数的标准差(简称标准误,standard error)是描述均数的抽样误差大小的指标。
区间估计:根据抽样误差的规律,按一定的概率估计总体均数的所在范围。
统计上习惯用95%或99%可信区间表示总体均数可能所在范围。
总体均数的95%置信区间表示的实际涵义是:如果从同一总体中重复抽取100份样本含量相同的独立样本,每份样本分别计算1个置信区间,在100个置信区间中,将大约有95个置信区间覆盖总体均数,大约有5个置信区间并不覆盖总体均数。
假设检验(hypothesis test)亦称显著性检验(significance test),先对总体的参数或分布作出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等,然后选用适当的方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。
原理:在抽样研究中,由于抽样误差的客观存在,使得从同一总体中随机抽取的样本含量相等的若干个样本均数往往不相等。
根据正态分布原理,在100次(n相等)抽样中,理论上将有95个u值小于1.96,仅有5个u 值大于或等于1.96。
当进行一次抽样研究时,若依据该样本均数算得的u值小于1.96,则表明从该总体中抽得此样本的可能性将大于5%(P大于0.05),因此可认为此样本来自该总体;若算得的u值大于1.96,则表明从该总体中抽得此样本的可能性将小于或等于5%(P≤0.05),这种小概率事件在一次抽样中是不大可能发生的,因此可认为此样本不是来自该总体。
步骤1提出无效假设和备择假设,规定显著性水平2确定并计算检验统计量3确定P值,作出统计推断结论小概率在一次试验中,一个几乎不可能发生的事件发生的概率,由研究者事先确定。
第一类错误(弃真错误)拒绝了实际上存在的H0,第一类错误的概率为α.第二类错误(存伪错误)不拒绝实际上不存在的H0,第二类错误的概率为 β(Beta) 掌握两独立样本定量资料的统计分析思路:两样本均来自正态总体且总体方差齐时用t 检验;两样本来自正态总体但总体方差不齐时用t‘检验或秩和检验。
当数据来自偏态分布总体时,首先考虑采用变量变换,再考虑选用秩和检验。
掌握配对设计的含义及两配对样本定量资料的统计分析思路:对于配对设计定量资料的统计分析,若差值服从正态分布,可采用配对t检验;否则,采用配对资料的符号秩和检验。
秩和检验的优缺点优点:①适用范围广。
②对数据要求不严。
缺点:对于符合参数检验的资料如果用秩和检验,由于没有充分利用资料提供的信息,故检验效能低于参数检验,若要使检验效能相同,往往需要更大的样本含量。
因此,在实际工作中对符合参数检验的资料,或经变量变换后符合参数检验的资料应首选参数检验;若不能满足参数检验条件的资料,应选用秩和检验。
单因素方差分析的基本思想和模型假设模型条件1独立性:各样本是相互独立的随机样本2正态性:各样本来自正态分布3方差齐性:各样本方差相等,即方差齐步骤1.建立假设,确定显著性水平H0 :μ1= μ2 = μ3 =…H1 :总体均数不等或不全相等α=0.05. 2.计算统计量F3.求概率值P,做出推论在多组定量资料比较时,ANOV A 是一种常用的方法。
但ANOV A只能说明多个总体均数总得来说有无差别,若想进一步了解到底哪哪两个组之间有差别,还需做两两比较。
单因素方差分析要求各样本均来自正态总体且总体方差齐,当数据来自偏态分布或总体方差不齐时,采用变量变换或秩和检验(Kruskal-Wallis Test)其基本思想和两独立样本一样(wilcoxon rank sum test),只是在编秩时将所有数据混在一起编秩,然后分别计算各组的秩和。
卡方检验基本思想是检验实际数A与理论数T的差别,是否由抽样误差引起?如果H0假设成立,A与T之差一般不会太大,认为A与T之间的吻合程度高,出现大χ2值的概率是很小的;若P≤α,A与T相差较大;吻合程度差,就怀疑检验假设成立,作出拒绝H0,接受H1的推断。
行×列表没有校正公式,使用条件:不能有理论数T<1,并且1≤T≤5的格子数不超过总格子数的1/5。
条件不足时有三种处理方法。
①增大样本例数使理论数增大;②删除理论数太小的行或列;③将邻近的行或列合并,增大理论数(但注意合理性)。
R×C表的χ2检验注意事项1若表格内有一个方向按多个等级分类,则称为单项有序行列表,当等级数大于3时,一般用秩和检验分析更为合适。
2列联表资料要求理论数小于5不能太多,不能超过总格子数的1/5,根据专业知识是否能合并或增大样本含量。
简单相关分析的方法步骤(一)绘制散点图,看有无线性关系(二)估计简单相关系数r(三)检验简单相关系数ρ是否有统计学线性相关分析注意事项(一)当两变量有线性趋势时,才能进行线性相关分析。
一般应首先利用散点图观察并判断两变量间的关系,根据变量间可能的关系,选择不同的相关分析方法。
(二)相关分析适用于双变量正态分布的资料,否则需进行变量变换或采用其它计算方法,如秩相关。
(三)相关分析适用于两变量均为随机取值的资料,当一个变量的数值人为选定时不能做相关分析四)异常点的存在对相关分析往往有影响,要特别注意。
(五)分层资料盲目合并容易引起假象秩相关分析秩相关又称等级相关,是一种非参数统计方法,适用于资料不是正态双变量或总体分布未知;数据一端或两端有不确定值的资料或等级资料。
Pearson积差相关系数适用条件:双变量正态分布资料。
表示方法:r注意事项:不可用相关系数检验所得P值的大小来判断有否线性关系。
一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数。
Spearman秩相关适用条件:不满足正态分布的两变量随机样本—等级资料表示方法:rs简单线性回归分析回归模型的基本假设1.线性(linear) 指反应变量Y的总体平均值与自变量X呈线性关系。