Logistic回归分析简介
- 格式:doc
- 大小:29.50 KB
- 文档页数:7
LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。
它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。
本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。
一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。
其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。
该非线性函数被称为logit函数,可以将概率转化为对数几率。
Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。
而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。
二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。
例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。
通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。
2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。
例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。
通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。
3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。
通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。
logistic回归方差
Logistic回归分析是一种统计分析方法,它可以用来预测可能性或概率。
它是一种基于回归分析的机器学习技术,可以用于预测事件发生的概率,比如是否获得某种学位的概率。
与传统的线性回归不同,Logistic回归分析的目的是预测因变量(事件是否发生)的影响变量(系列自变量)。
Logistic回归应用于研究事件,其中变量值要么为0(当事件未发生),要么为1(当事件发生)。
这种技术被用于预测拥有特定客户属性的客户是否会购买特定产品。
这是一项根据某一自变量或一组自变量(如年龄或性别)预测因变量(如购买或不购买)的分类分析。
Logistic回归非常有用,它有助于确定预测和影响事件的变量,它可以用于检验两个变量之间的联系是否统计显著。
此外,Logistic回归可以测算客户的获取成本和占用率,以及客户到客户之间的平均消费水平。
Logistic回归可以帮助组织了解客户购物行为,并利用结果来进行定价、推广和市场营销等活动的计划。
它也可以帮助理解有害行为的可能性和风险,用于风险评估和管理,并预测可能降低风险的措施,以降低不良结果的可能性。
然而,Logistic回归的变量很容易受到异常数据的影响,而且Logistic回归预测的准确性取决于给定数据的分布。
另外,由于它
涉及预测概率,因此模型可能会欠拟合,也就是说可能存在模型方差,它可能不能很好地预测新数据。
同样重要的是,我们也不能确定未知数据的真实变量,因此可能存在混乱,这会影响Logistic回归模型的效果。
logit regression 系数解释
一、logit回归简介
logit回归是一种用于分类问题的线性模型。
在这种模型中,输出变量是一个离散概率分布,通常表示为0-1之间的值。
logit(逻辑斯蒂)函数用于将线性模型的输出转换为概率。
logit回归的系数解释是理解模型的重要步骤。
二、logit回归系数含义
在logit回归中,系数表示自变量对因变量概率的影响程度。
具体来说:
1.系数为正:自变量增加一个单位,对应的概率增加。
2.系数为负:自变量增加一个单位,对应的概率减少。
三、logit回归系数解释方法
1.绝对值大小:系数绝对值越大,自变量对因变量的影响越大。
2.符号:系数符号表示自变量与因变量之间的关系。
正值表示正相关,负值表示负相关。
3.模型稳定性:系数稳定性的判断可以依据系数大小和显著性检验。
显著的系数表示该自变量对因变量有实质性影响。
四、实例分析
假设一个logit回归模型预测某产品的购买概率,其中有一个自变量为“收入”。
系数为正,说明收入与购买概率正相关;系数为负,则表示收入越高,购买概率越低。
通过分析系数大小,可以为企业制定针对不同收入群体的营销策略。
五、总结
logit回归系数解释是理解模型的重要环节。
掌握系数含义、判断关系和实际应用,有助于更好地利用模型进行预测和决策。
在实际分析中,还需结合显著性检验和实际意义,综合判断自变量对因变量的影响。
Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。
适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。
一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。
二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。
变量筛选的原理与普通的回归分析方法是一样的,不再重复。
三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。
(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。
当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。
四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。
例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。
Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。
比较常用的情形是分析危险因素与是否发生某疾病相关联。
例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。
自变量既可以是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌的危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。
多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1.Logistic回归的用法一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。
2.用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。
Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。
如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就表示,男性发生胃癌的风险是女性的1.7倍。
这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7。
如果以男性作为参照,算出的OR将会是0.588(1/1.7),表示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%。
撇开了参照组,相对危险度就没有意义了。
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。
比较常用得情形就是分析危险因素与就是否发生某疾病相关联。
例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。
自变量既可以就是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌得危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。
多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。
2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。
Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。
如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。
这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。
如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。
Logistic回归分析陈说结果解读分析之迟辟智美创作Logistic回归经常使用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系.比力经常使用的情形是分析危险因素与是否发生某疾病相关联.例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有分歧的临床暗示和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等.自变量既可以是连续变量,也可以为分类变量.通过Logistic回归分析,就可以年夜致了解胃癌的危险因素. Logistic回归与多元线性回归有很多相同之处,但最年夜的区别就在于他们的因变量分歧.多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更经常使用,也更加容易解释.一般而言,Logistic回归有两年夜用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在分歧的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立).所谓相对危险度(risk ratio,RR)是用来描述某一因素分歧状态发生疾病(或其它结局)危险水平的比值.Logistic回归给出的OR(odds ratio)值与相对危险度类似,经常使用来暗示相对某一人群,另一人群发生终点事件的风险超越或减少的水平.如分歧性另外胃癌发生危险分歧,通过Logistic回归可以求出危险度的具体数值,例如1.7,这样就暗示,男性发生胃癌的风险是女性的1.7倍.这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是1.7.如果以男性作为参照,算出的OR将会是0.588(1/1.7),暗示女性发生胃癌的风险是男性的0.588倍,或者说,是男性的58.8%.撇开了参照组,相对危险度就没有意义了. Logistic回归在医学研究中广泛使用的原因之一,就是模型直接给出具有临床实际意义的OR值,很年夜水平上方便了结果的解读与推广.图1 相对危险度(risk ratio,RR)与OR(odds ratio)的表达3. Logistic陈说OR值或β值在Logistic回归结果汇报时,往往会遇到这样一个问题:是应该陈说OR值,还是β值,还是两个都要陈说?这个决定权最终固然还是作者自己,但有一点需要进一步了解:OR值和β值其实是等价的.图2 OR值与β值的公式推导4 Logistic回归结果判读“EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变1个单元,事件的发生比“Odds”的变动率.伪决定系数cox & Snell R2和Nagelkerke R2,这两个指标从分歧角度反映了以后模型中自变量解释了因变量的变异占因变量总变异的比例.但对Logistic回归而言,通常看到的伪决定系数的年夜小不像线性回归模型中的决定系数那么年夜.预测结果列联表解释,看”分类表“中的数据,提供了2类样本的预测正确率和总的正确率.建立Logistic回归方程logit(P)=β0+β1*X1+β2*X2+……+βm*Xm图2 Logistic回归结果陈说样例。
Logistic回归分析简介
Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。
1.应用范围:
①适用于流行病学资料的危险因素分析
②实验室中药物的剂量-反应关系
③临床试验评价
④疾病的预后因素分析
2.Logistic回归的分类:
①按因变量的资料类型分:
二分类
多分类
其中二分较为常用
②按研究方法分:
条件Logistic回归
非条件Logistic回归
两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍
研究。
3.Logistic回归的应用条件是:
①独立性。
各观测对象间是相互独立的;
②LogitP与自变量是线性关系;
③样本量。
经验值是病例对照各50例以上或为自变量的5-10倍(以10倍
为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然
估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;
④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观
察时间的影响(建议用Poisson回归)。
4.拟和logistic回归方程的步骤:
①对每一个变量进行量化,并进行单因素分析;
②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等
级资料。
可采用的方法有依据经验进行离散,或是按照四分、五分位数
法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离
散变量。
③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级
变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量
变换;
④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或
0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型
程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变
量。
可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计
量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选
择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald
统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔
除。
这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般
地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,
则降低选入界值、提高删除标准。
但筛选标准的不同会影响分析结果,
这在与他人结果比较时应当注意。
⑤在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两
变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但
在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交
互作用,最多是研究少量的一级交互作用。
⑥对专业上认为重要但未选入回归方程的要查明原因。
5.回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)
①决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。
R2
随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。
但亦有研究指出R2是多元线性回归中经常用到的一个指标,
表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预
测值与观测值之间差别的问题,因此在logistic回归中不适合。
②C p选择法:选择C p最接近p或p+1的方程(不同学者解释不同)。
C p
无法用SPSS直接计算,可能需要手工。
1964年CL Mallows提出:
Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自
变量总个数。
③AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的
方程越好。
在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。
Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。
Pearson χ2、偏差
(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。
AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。
6.拟合方程的注意事项:
①进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法
(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于
或等于剔除变量的检验水准;
②小样本检验水准α定为0.10或0.15,大样本把α定为0.05。
值越小说明
自变量选取的标准越严;
③在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感
兴趣的研究变量选入方程;
④强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应
该是同等的,实际并非如此。
有些样本点(记录)对回归模型影响很大。
对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。
⑤多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越
强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;
⑥异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)
以及强影响点(influential points)。
特异点是指残差较其他各点大得多的点;
高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。
单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。
对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。
这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。
杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。
Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。
Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。
DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值
越大),表明该观测值的影响越大。
如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原
因后酌情处理。
如来自测量或记录错误,应剔除或校正,否则处置就必
须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完
事。
因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的
或许更为重要因素的线索。
7.回归系数符号反常与主要变量选不进方程的原因:
①存在多元共线性;
②有重要影响的因素未包括在内;
③某些变量个体间的差异很大;
④样本内突出点上数据误差大;
⑤变量的变化范围较小;
⑥样本数太少。
8.参数意义
①Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素
条件下,效应指标发生与不发生事件的概率之比的对数值。
②Logistic回归中的回归系数(b i)表示,其它所有自变量固定不变,某一
因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变
化值,即OR或RR的对数值。
需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联
系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。
③存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别
小心。
④模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料
不适合使用该模型。
另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随
访期的延长,回归系数变得不稳定,标准误增加。
9.统计软件
能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。