当前位置：文档之家› 应用统计学的基本概念

应用统计学的基本概念

第八讲

应用统计学的基本概念

Dr. Alan Moses

我是Alan Moses博士, 是马萨诸塞州波士顿的Joslin糖尿病中心的高级副院长和首席医生。在这部分讲座中，我们将学习应用统计学的基本概念。我们首先回顾在临床研究中统计学的作用。然后学习统计学的基本概念及常用统计学检验。最后我们将讨论一些所谓的“数据分析中的捣蛋鬼”。

临床研究中统计学的作用是什么？我们所做的就是区分事实和偶然性。我们需要比较组间差异,并检验干预的效应。

那么，临床研究中生物统计学家的作用是什么？虽然我们希望得到令人满意数据并知道如何设计试验及进行分析数据，但通常我们需要依靠生物统计学家的专业知识来选择适当的试验设计和计算适合的样本量。我们都应认识到样本量是由对结果的测定决定的，涉及其精确度、准确度、可重复性和可行性。此外，在进行数据分析时，生物统计学家帮助我们决定使用何种分析工具。在试验开始之前就应确定所使用的统计方法，非常重要的是, 分析方法决不能在试验完成之后加以改变.

在对试验进行分析时,统计学的作用是什么?我们应当记住，统计方法仅仅是一种帮助我们解释试验中所获得的数据的工具。它们是一种工具而不是试验的最终结果。而且像任何工具一样，使用统计工具必须小心。计算机可以产生一些或有统计学意义的数据，但是只有研究者才知道该使用何种统计学检验来进行统计学分析。已参加培训的研究者可以很容易地选择统计学检验方法，必须记住的很重要的一点是，对于没有足够知识的人而言，有强大功能的统计软件包可能导致致命性的错误。

生物统计学的重要概念之一是其正确性(validity)。对于关键性的数据分析、试验的结果尤其是结果的发表，正确性都是其核心。有两种正确性: 内部的和外部的(可推广性)。

内部的正确性就是在设定的试验范围内结果是准确的，使用的方法和分析经受得住检验，数据和相关的医学文献均支持研究者对试验结果的解释和结论。

外部正确性或可推广性决定了试验设计是否能够允许所做的观察和所得的结论推广到整个人群。试验人群的选择决定了最大可推广范围，这个概念我们在这个讲座的其它部分已经谈到过。如果研究对象包括男性、女性、不同的种族、不同的年龄分层，那么就有更多的机会将临床试验的结果应用于普通人群。另一方面，受试者的选择也将决定研究和结论可应用的人群范围。例如，如果在临床试验中选择年龄介于5-10岁的儿童，那么该试验的结果就仅能应用于该人群。如果选择45岁以上的亚洲男性作为受试者，那么试验结果就只能应用于这个人群。

在正确性的概念中，应该认识到须有足够的样本量以支持所得出的结论，同时要选择适当的对照人群，特别是强调随机双盲对照这一临床研究的根本的科学方法。著名科学家Isaac

Asimov引用过这样一句话“科学工作的可敬之处就在于，任何科学信仰，虽然已具有坚实的基础，仍要不断地被检验看它是否真实，是否普遍地正确”。这是他对正确性之重要性的看法，泛指任何科学范畴也包括临床试验。

现在我们将要讨论如何看待一些类型的数据。首先是相对危险度和比值比。这是评价后果的指标，当比较暴露因素对结果的影响时是非常有价值的。比值比主要用于病例对照研究。相对危险度主要用于队列研究。这两类研究设计在前面的讲座中已讲过。

让我们首先看一下相对危险度。这张表显示是如何得到一个相对危险因素的。表格被分为两行两列，第一列是发病，第二列是未发病。我们看一下发病是否是暴露于危险因素的结果或者未暴露于该危险因素。暴露组发病数被标为A，暴露组未发病数被标为B，非暴露组的发病数被标为C，非暴露组未发病数被标为D。从这张表格中我们可以得到相对危险度，相对危险度是暴露组的发病率除以非暴露组的发病率，即(A/(A+B))/ (C/(C+D))。这就是相对危险度。

用来计算比值比的表格结构与上表相似，但是计算方法不同。仍具有这样的自变量，暴露于危险因素或未暴露于危险因素与发病或未发病比较。即A和B，与C和D。但是比值比与相对危险度不同，它是由(A×D)，即病例组有暴露史×对照组无暴露史除以(B×C)，即病例组无暴露史×对照组有暴露史。比值比即(A×D)/(B×C)。

在解释关联性检验时,我们如何使用比值比和相对危险度?实际上非常简单。当比值比或相对危险度小于1时，这种危险因素与疾病呈负相关或该因素是保护因素。比值比和相对危险度等1时二者无关联性，如果大于1时，二者均证明为正相关。

以上介绍了临床试验中生物统计学应用中的一些概念。下面我们将举一些例子，看看在分析临床研究数据时如何使用以上及其它的检验方法。

8-2

应用统计学的基本概念（2）

在生物统计学的第一部分,我们讨论了临床试验中统计学的作用,生物统计学家的作用,

以及在不同类型的临床试验中比较结果的一些方法。在这部分我们将学习无效假设一些基本原则，统计学显著性和P值的概念，并简要谈一下样本量。

让我们从无效假设开始谈起。无效假设就是认为被比较的项目之间无差别。在临床试验中就是两组:一组是应用一种药物的治疗组，另一组是使用对照药物治疗组。的确，统计的常规就是用来判断差异是由偶然性或样本偏差造成的，还是存在真实的差异。统计学显著性水平在某种程度上是任意规定的，但是常规上我们定义统计学显著性水平是0.05。这就是P 值，即指由于机会（偶然性）导致差异的概率小于5%。这意味着事实上具有统计学显著性时，无效假设的发生率小于1/20。再一次强调，这个定义是一种惯例。

对于P值有许多神秘感。但是应该记住，应在特定临床试验范畴内解释P值。最近我们将P值用具体数值表述，例如0.023而不是小于0.5。事实上这就给出了两样本人群之间差异更多的信息。0.023和0.049都小于0.05，但是0.023统计学显著性更强。通过可信区间可进一步说明P值。可信区间为统计量提供了测量的表示方式，在某些情况下,它还可以

提供部分临床重要性信息。可信区间的范围大致是具体统计数值标准误的4倍。

在这部分内容中，也是本次生物统计学课程中最重要的一点是，P值大小并不提示结果的重要性。结果可能具有统计学显著性。但是并无临床重要性。例如，一项包含3000-4000个体的试验，在两种不同的治疗方法之间略有差异，由于样本例数大，差异具有统计学显著性。但是在对被治疗人群的影响方面，从临床角度而言差异并不具有意义。

另一同等重要的方面是，不具有统计学显著性的差异并非不重要。例如，英国糖尿病前瞻性研究（UKPDS）发现强化治疗与非强化治疗的糖尿病患者中大血管疾病(心梗)的发生率有差异，P值等于0.052，不具有统计学显著性，但是临床医师却强烈地认为如果增大样本量或延长随访期，这种差异就会达到统计学显著性，该结果看起来很有临床意义。

在进行统计学显著性分析时,可能出现两类错误。第一类错误是α错误，或Ⅰ型错误：它拒绝了实际上是正确的无效假设。也就是两种治疗措施在疗效方面被认为不同，但事实上二者疗效相同。另一类错误是β错误或Ⅱ型错误，它未拒绝实际上是不正确的无效假设，也就是说真实的差异被忽视。在假设检验中，当我们谈到未能发现治疗效应的可能性时，我们界定的差异的大小是很重要的因素。事实上β错误是受三个主要因素相互作用的影响：差异的程度，受试者的数量和α水平，α水平即研究者确定的在此水平他们将拒绝无效假设。

这就提出了统计检验效能的概念。统计检验效能就是基于事先确定的显著性水平的大小，无效假设被拒绝的概率。检验效能实际上就是β错误的余数：检验效能=1-β错误。β错误越低检验效能越大。对一具体的临床试验设计，检验效能越大，得到具有统计学显著性P值的可能性越大，也就越有希望发现治疗的效益（如果其确实存在）。

你会注意到我们谈论了许多统计学中的常规（惯例），常规是在设计任何试验时，检验效能均应达到80%，在许多试验中检验效能设为90%。从我们已经讨论过的内容中可以看到，增加检验效能的最明显的方法是增加样本量。另一方面，在临床试验中增加样本量会增加费用，并且可能会使受试者暴露于研究用药或方法所带来的不适当的危险之下。所以我们在样本量和检验方法精度之间应取得平衡，使检验效能足够高得以证实特定治疗的益处。

那么什么决定样本量呢？当然是与分析的终点指标有关：我们所需要的结果适合用这些终点指标吗？它们准确吗？是可重复的吗？例如，如果需要进行一个统计检验，无论是关于患者对一种临床状态的反应或是某种变异范围很大的生化检查，即使具有临床意义也很难证实组间存在相对小的差异。如果某一检查的变异10-20%，将更难证实组间存在5%的差异。当然，还有很大一个内容是讲述精度以及拥有精确评价工具的重要性。使用的统计方法有助于决定样本量，并受样本量的制约。此外，样本量有助于决定干预所预测的差异的幅度。

到目前为止，我们已经学习了P值，概率，假设检验和样本量等内容。在下一部分，我们将举一些数据分析的具体例子，并讲述如何使用具体的统计学检验来分析特定类型的数据。

应用统计学的基本概念(3)

Dr. Alan Moses

我们已经学习了一些统计学应用于临床试验的一般概念，生物统计学家的作用，并简要涉及了数据，检验分析和样本量。在这部分，我们继续学习针对性地处理具体数据。

有三种数据类型:

第一类是分类数据。分类数据就是一些彼此之间没有数学关系的数据。既无分级也无顺序关系。例如：性别(男性或女性)，种族，血型。一个人血型可以是A型或B型或O型或AB型，但不可能既是A又是B型。

等级数据就是有序或分级数据。尽管是有序资料但是组距无明确规定，并且不一定相等。例如，社会经济等级，从最易到最难分组。生活质量的评估依据或将人群任意分组，如三分组，五分组，十分组，其中的关系或顺序已知，但是这些组的组距无明确规定。例如分五组时，第一组的组距可以是从1到3,而最后一组的组距可能是从75到100。组距大小可以不同但顺序是固定的。

最后还有区间和比率数据。这些是连续性数据。这些数据的共性是有等级或有顺序，并且各个数值之间具有已知的相等的间距。这类资料可以进行算术运算如加法减法。我们已经对正态分布的概念非常熟悉。这张幻灯片是正态分布人群的图形显示。在这里，我们看到一条线，代表人群的正态分布，X轴代表人群百分比，Y轴代表感兴趣的指标数值。人群50%点值是人群均数。1个标准差内包含67%的人群，2个标准差内包含95%的人群。这就意味着，根据定义，即使是正态分布人群，也有2.5%的人在2个标准差之下，2.5%的人在2个标准差之上。这就是说，在正态分布人群中，占很小百分比的个体，即5%的人，其指标是在所谓的正常范围之外。

不同的检验方法用来分析不同类型的资料。分类变量通常可以使用x2检验。列2×2表进行x2检验。x2检验代表(实际值-预期值)2/预期值。其它类型的分析也可以用于分类变量。包括Fisher 精确检验和logistic回归。当整体样本量均较小或任意一格预期值较小时，Fisher 精确检验尤为有用。logistic回归是一种模型，评价二分变量结果(是或否)发生的概率。

这张幻灯片显示的是数据分布数值。在这种情况下，可以确定这张幻灯片左上角的具体数据是代表实际实验的真实值还是误差值。这些数据来自于我本人的临床试验。这张幻灯片显示血清胰岛素水平(Y轴)和体重指数(X轴)之间的关系。体重指数介于15-60：从体瘦到非常肥胖，可以看到体重指数的增加和空腹血清胰岛素水平增加之间的关系。

现在让我们看一下左上角的数据。这是体重指数为22的受试者，其预期的空腹血清胰岛素水平较低，但是实际空腹血清胰岛素水平接近200。这是误差(实际上值是17，小数点位置标错)还是此值真是介于170-180之间？这个特殊的例子确实是一个真实的实验值。这个个体代表的是胰岛素受体出现基因突变由此引起严重的胰岛素抵抗的人。这个数据针对相对体重指数与胰岛素水平的关系，将个体与正常人群之间的差异以图形形式表示。

下一张幻灯片显示图表数据的其它方式。这些是箱式图，可以提供大量信息。它们提供了中位数，数值范围，数值的变异范围，可以用于特定临床试验的不同结果的表示。在这里，

具体数据是不重要的，图上的数据所代表的含义是重要的。

对连续性数据可以使用不同的统计学分析方法。我们最常使用的方法之一是所谓的Student t 检验。比较两样本结果的均数，以确定它们相同或是不同。要使用和解释t检验需要知道样本量，两样本均数间差异的大小，每一样本中数据的变异性。应注意这些条件与计算临床试验样本量所需要的条件相似。

应当记住当进行多重t检验评价同一干预的多个结果时，必须应用校正因子。也就是说，如果同一干预有40个不同的结果时，使用Student t 检验进行时，应该给出校正因子。否则，就有可能这些结果中的1或2个单独是由于机会的原因(偶然性)具有统计学显著性，有1/20的机会，P值等于0.05，其结论将是不正确的。

也可以使用方差分析对连续资料进行分析。方差分析适用于连续变量的多组比较，它不能区分不同的活性治疗组间效果的差异，仅能评价这些组与对照组之间的差异。另一方面，就连续性变量而言，给定X值线性回归就可以算出Y估计值。它的优点在于可以直观地观察数据，帮助识别异常数值。

这张幻灯片显示连续性数据的评价。在这里，我们看到用简易智力状态检查(MMSE)所测定的智力状态的变化，有记忆力障碍的个体被划分入安慰剂组或两种不同剂量的雌激素组观察：正方形表示低剂量组，三角形表示较高剂量组。注意，从这个相对较容易进行的临床试验中可以看到，与安慰剂组相比，雌激素干预可以有效地降低记忆力的恶化率。现在常对不同类型的资料进行生存分析。我们已经逐渐认识到生存数据不仅仅是指观察的结果是死亡，最初我们是从癌症试验开始生存分析，但有时结果可以是特定的终点事件，例如，疾病复发、青春期出现、需行冠状动脉旁路移植术、或者心肌梗死。做生存分析有两种不同的方法。

一种是Kaplan Myer 分析，它是围绕单变量对两组进行比较。另一种是Cox比例风险模型，它是比较几种自变量对生存时间的共同影响。这张幻灯片使用Kaplan Myer 生存曲线显示了, 外科手术干预(上图)或药物干预(下面这条线)对患有颈动脉狭窄的个体继续发展为同侧卒中的影响。从此图中你可以了解到，外科手术与药物相比(下面这条曲线)在一段时间内(X轴代表年)可以降低发展为卒中的危险。

该图还提供了另外一些信息(图的下部)，接受外科手术或药物干预后每年分析的研究对象的数量。在一个图表中以提供大量关于临床试验的信息，包含的研究对象的数量，不同干预的结果。

我们已经学习了数据，如何把数据制成图表，如何分析数据，在临床试验设计的范围内如何解释数据。在最后一部分我们将谈谈在临床试验设计过程中，未对受试者的选择和分组进行严格控制而造成数据的混杂。

应用统计学试题及答案解析

6．对不同年份的产品成本配合的直线方程为x y 75.1280? -=, 回归系数b= －1.75表示 A. 时间每增加一个单位,产品成本平均增加1.75个单位 B. 时间每增加一个单位,产品成本平均下降1.75个单位 C. 产品成本每变动一个单位,平均需要1.75年时间 D. 时间每减少一个单位,产品成本平均下降1.75个单位 7．某乡播种早稻5000亩，其中20％使用改良品种，亩产为600 公斤，其余亩产为500 公斤，则该乡全部早稻亩产为 A. 520公斤 B. 530公斤 C. 540公斤 D. 550公斤 8.甲乙两个车间工人日加工零件数的均值和标准差如下: 甲车间:x =70件,σ=5.6件乙车间: x =90件, σ=6.3件哪个车间日加工零件的离散程度较大: A 甲车间 B. 乙车间 C.两个车间相同 D. 无法作比较 9. 根据各年的环比增长速度计算年平均增长速度的方法是 A 用各年的环比增长速度连乘然后开方 B 用各年的环比增长速度连加然后除以年数 C 先计算年平均发展速度然后减“1” D 以上三种方法都是错误的 10. 如果相关系数r=0,则表明两个变量之间

应用统计学试题及答案

应用统计学试题及答案 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

二、单项选择题（每题1分，共10分） 1．重点调查中的重点单位是指( ) A.处于较好状态的单位 B.体现当前工作重点的单位 C.规模较大的单位 D.在所要调查的数量特征上占有较大比重的单位 2．根据分组数据计算均值时，利用各组数据的组中值做为代表值，使用这一代表值的假定条件是（）。 A．各组的权数必须相等 B．各组的组中值必须相等 C．各组数据在各组中均匀分布 D．各组的组中值都能取整数值 3．已知甲、乙两班学生统计学考试成绩：甲班平均分为70分，标准差为分；乙班平均分为75分，标准差为分。由此可知两个班考试成绩的离散程度（） A.甲班较大 B.乙班较大 C.两班相同 D.无法作比较 4．某乡播种早稻5000亩，其中20%使用改良品种，亩产为600公斤，其余亩产为500公斤，则该乡全部早稻平均亩产为（）公斤公斤公斤公斤 5．时间序列若无季节变动，则其各月（季）季节指数应为（） A.100% % % % 6．用最小平方法给时间数列配合直线趋势方程y=a+bt，当b＜0时，说明现象的发展趋势是（） A.上升趋势 B.下降趋势 C.水平态势 D.不能确定 7．某地区今年和去年相比商品零售价格提高12%，则用同样多的货币今年比去年少购买（）的商品。 8．置信概率表达了区间估计的（） A.精确性 B.可靠性 C.显着性 D.规范性 9．H 0:μ=μ ，选用Z统计量进行检验，接受原假设H 的标准是（） A.|Z|≥Z α B.|Z|-Z α 10.对居民收入与消费支出的几组不同样本数据拟合的直线回归方程如下，你认为哪个回归方程可能是正确的（） A.y=125-10x =-50+8x =150-20x =-15-6x 三、多项选择题（每题2分，共10分） 1．抽样调查的特点有（）。 A．抽选调查单位时必须遵循随机原则 B．抽选出的单位有典型意义 C．抽选出的是重点单位 D．使用部分单位的指标数值去推断和估计总体的指标数值 E．通常会产生偶然的代表性误差，但这类误差事先可以控制或计算 2.某种产品单位成本计划比上年降低5%，实际降低了4%，则下列说法正确的是（） A.单位成本计划完成程度为80% B. 单位成本计划完成程度为% C.没完成单位成本计划 D.完成了单位成本计划 E.单位成本实际比计划少降低了1个百分点 3．数据离散程度的测度值中，不受极端数值影响的是（） A.极差 B.异众比率 C.四分位差 D.标准差 E.离散系数

应用统计学试题和答案分析

六、计算题：（要求写出计算公式、过程，结果保留两位小数，共4题，每题10分） 1、某快餐店对顾客的平均花费进行抽样调查，随机抽取了49名顾客构成一个简单随机样本，调查结果为：样本平均花费为元，标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间；（φ（2）=）49=n 是大样本，由中心极限定理知，样本均值的极限分布为正态分布，故可用正态分布对总体均值进行区间估计。已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据，得该快餐店顾客的总体平均花费数额%的置信区间为（，） 3 要求：①、利用最小二乘法求出估计的回归方程；②、计算判定系数R 。附：10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题解 ① 计算估计的回归方程： ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为：y ) =+x ② 计算判定系数： 4 计算下列指数：①拉氏加权产量指数；②帕氏单位成本总指数。 4题解： ① 拉氏加权产量指数

= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题（每小题1分，共10题） 1、我国人口普查的调查对象是，调查单位是。 2、___ 频数密度 =频数÷组距，它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用饼图条图图来显示。 4、某百货公司连续几天的销售额如下：257、276、297、252、238、310、240、236、265，则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元，2005年3季度完成的GDP=36亿元，则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%，职工人数增加了2%，则该企业工资总额增长了 % 。 7、对回归系数的显着性检验，通常采用的是 t 检验。 8、设置信水平=1-α，检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲＞σ乙，x 甲＞x 乙，由此可推断 ( )