统计理论5_分类变量的假设检验
- 格式:pdf
- 大小:910.35 KB
- 文档页数:56
统计学中的假设检验方法统计学中的假设检验方法是一种常见的数据分析技术,用于验证关于总体特征的假设。
通过统计抽样和概率分布的理论基础,可以通过假设检验方法来评估样本数据对于某种假设的支持程度。
本文将介绍假设检验的基本原理、步骤以及一些常见的假设检验方法。
一、假设检验的原理假设检验是基于一个或多个关于总体特征的假设提出的。
一般来说,我们称原假设为零假设(H0),表示研究者对于总体特征没有明确的预期;对立假设(H1或Ha)则用来说明研究者认为存在显著的差异或关联关系。
假设检验的基本原理是通过对抽样分布的计算和统计量进行假设检验,从而得出是否拒绝零假设的结论。
根据样本数据的统计量计算出的P值,可以作为评估假设支持程度的标准。
一般来说,当P值小于显著性水平(一般为0.05)时,我们会拒绝零假设。
二、假设检验的步骤假设检验的步骤一般包括以下几个方面:1. 明确研究问题和假设:首先要明确研究者所关注的问题和假设,以及零假设和对立假设的表述。
2. 选择适当的检验方法:根据样本数据的类型和问题的特征,选择适当的假设检验方法。
常见的假设检验方法包括t检验、卡方检验、方差分析等。
3. 设置显著性水平:根据研究者对错误接受零假设和拒绝真实假设的容忍度,设置显著性水平。
一般来说,0.05是常用的显著性水平。
4. 计算统计量和P值:根据样本数据计算统计量,并通过统计分布计算对应的P值。
P值表示了在零假设成立的情况下,获得观察到的统计量或更极端结果的概率。
5. 做出结论:根据P值和显著性水平的比较,得出是否拒绝零假设的结论。
如果P值小于显著性水平,我们会拒绝零假设,认为样本数据支持对立假设;反之,我们无法拒绝零假设。
三、常见的假设检验方法1. 单样本t检验:单样本t检验用于比较一个样本的平均值是否显著不同于一个已知的总体平均值。
适用于连续型数据,例如身高、体重等。
2. 独立样本t检验:独立样本t检验用于比较两个独立样本的平均值是否显著不同。
统计学中的假设检验方法统计学是一门应用广泛的学科,它通过收集、整理和分析数据来揭示事物之间的关系和规律。
在统计学中,假设检验方法是一种重要的工具,用于验证研究者对总体特征或参数的假设。
本文将介绍假设检验方法的基本原理、应用场景以及一些常见的假设检验方法。
假设检验方法的基本原理是基于概率论和数理统计的理论,通过对样本数据进行统计推断,从而对总体特征或参数进行推断。
在进行假设检验时,我们首先需要提出一个原假设(null hypothesis)和一个备择假设(alternative hypothesis)。
原假设通常是我们希望证伪的假设,而备择假设则是我们希望得到支持的假设。
在假设检验中,我们通过计算样本数据的统计量来判断原假设是否成立。
常用的统计量包括均值、方差、比例等。
根据样本数据的统计量,我们可以计算出一个p值(p-value),它表示在原假设成立的情况下,观察到的样本数据或更极端情况出现的概率。
如果p值小于预先设定的显著性水平(通常为0.05),则我们拒绝原假设,接受备择假设。
假设检验方法在各个领域中都有广泛的应用。
例如,在医学研究中,我们可以使用假设检验方法来判断某种治疗方法是否有效。
在市场营销中,我们可以使用假设检验方法来评估广告效果是否显著。
在环境科学中,我们可以使用假设检验方法来研究污染物对生态系统的影响。
假设检验方法不仅可以帮助我们验证研究假设,还可以提供科学依据,指导决策和政策制定。
在统计学中,有许多常见的假设检验方法。
其中,t检验是一种常用的方法,用于比较两个样本均值是否存在显著差异。
t检验可以分为独立样本t检验和配对样本t检验,分别适用于不同的研究设计。
另外,方差分析(ANOVA)是一种用于比较多个样本均值是否存在显著差异的方法。
方差分析可以分为单因素方差分析和多因素方差分析,它们可以帮助我们分析不同因素对总体均值的影响。
此外,卡方检验是一种用于比较观察频数与期望频数是否存在显著差异的方法。
统计推断或假设检验的常见问题统计推断或假设检验的常见问题连续变量和分类变量1.所有测量值可以分为四⽔平:定类(NOMINAL),定序(ORDINAL),定距(INTERVAL),和定⽐(RATIO).前⾯两类是分类变量,后⾯两类是连续变量. 2.定类变量是只能决定类别,例如⽩⼈和⿊⼈,民主党和共和党,男⼈和⼥⼈等.定序变量⽐定类变量进了⼀步,因为不但可以决定类别,还可以决定各⽔平的次序.例如⾼收⼊,中等收⼊,和低收⼊;⾮常满意,⽐较满意,⽐较不满意,和⾮常不满意等等.但是各个⽔平间的距离并⽆意义.例如痛苦程度⽤1到10表⽰.⽤7表⽰的痛苦⼤于5,后者⼜⼤于3.但你不能说7和5表⽰的痛苦和5和3表⽰的痛苦是等距离的.定距变量⼜进了⼀步,不但可以知道次序⽽且可以知道各个⽔平间距离,⽽且各个⽔平间距离有意义.如100度的开⽔和90度的温⽔之间等于90度和80度之间的差别.但是注意0度的⽔不等于⽆温度.⽽定⽐变量则是最⾼级⽔平,具有所有定距变量的特性还加上⼀个0是本⾝有意义的.例如重量0克等于0重量.凡是定⽐变量都可以⽐较两个量的⽐值.例如重量:4克的物质是2克物质的2倍.但100度的⽔不是50度⽔的两倍热,因为它不是定⽐变量.社会科学中最好的定⽐变量例⼦是收⼊.年薪⼗万就是五万的两倍.0收⼊就是没有收⼊.:5.有⼈做了⼀个实验以决定抗⽣素是否会增加⼩⽜体重. 下列变量是每头⽜的测量值:性别, 初始体重, 体重增加数, ⾁质品位等级, 其中⾁质品位等级以A, B, 或C表⽰. 这些变量的测量类型是:a)定类, 定⽐, 定距, 定类b)定类, 定⽐, 定⽐, 定类c)定类, 定⽐, 定⽐, 定序d)定序, 定⽐, 定⽐, 定序e)定序, 定⽐, 定⽐, 定类6.有⼀项研究调查的是⽕⼒发电⼚对⽔质的影响. 研究⼈员先抓鱼并加以标记再把它们放了. 对每条鱼都作了下列记录:性别(0=雌鱼, 1=雄鱼), 鱼⾝长度(cm), 成熟度(0=幼⼩, 1=成熟), 体重(g).这些测量值属于:a.定类, 定⽐, 定类, 定⽐b.定类, 定距, 定序, 定⽐c.定类, 定⽐, 定序, 定⽐d.定序, 定⽐, 定类, 定⽐e.定序, 定距, 定序, 定⽐⽆效和备择(或对⽴)假设7.⽆效假设和备择(或对⽴)假设的内容应该由管理决策问题决定.⼀般来说是由⽆效假设当稻草⼈,⽽真正⽬的是看备择(或对⽴)假设能否成⽴.8.既然⽆效假设是稻草⼈,在设⽴时要使它可能被推翻.办法是令⽆效假设等于, ⼤于或⼩于⼀个具体的数值(如销售额增加<15, ⼴告效应=0, 今天的市场分额=昨天的分额,或婴⼉出⽣体重=8⽄,)⽽不是模棱两可的(如销售额增加不等于0, ⼴告效应不等于0, 今天的市场分额不等于昨天的分额,或婴⼉出⽣体重不等于8⽄).9.备择(或对⽴)假设⼀定要和⽆效假设对应,使得⼀旦⽆效假设推翻以后就只能接受备择(或对⽴)假设.10.参看Excel”统计复习2”⼯作簿Solution⼀表中关于假设的例题.11.为了保证对应性,⼀般说来备择(或对⽴)假设和⽆效假设符号要相反,内容要⼀致,即他们是关于同⼀事件的不同可能性.12.何时作出假设?研究者应该事先决定假设再作检验.这相当于先设⽴靶⼦再射击.不能先测验假设中途⼜改变它!13.* 当假设表⽰为⼀个等号后⾯跟具体数值的时候就称为简单假设.反之不是等号⽽是⼤于,⼩于,或不等号时就称为合成假设.所有两尾备择(或对⽴)假设都是合成假设.⼀尾备择(或对⽴)假设也是合成假设.多数⽆效假设都是简单假设*14.参看Excel”统计复习2”⼯作簿Solution⼀表关于假设的题⽬⼀尾测验还是两尾测验?15.当你对某事件了解不多,或⽆清楚的理论指导,或⽆过去经验可供参照,或常识/逻辑不能帮忙时,⼀般都应该⽤两尾测验.反之可以⽤⼀尾.16.例如加了⼯资以后消费⽀出⼀般不⼤可能降低,公路加宽后不⼤可能增加交通事故,打了⼴告后不⼤可能减低销售额等等都可以⽤⼀尾测验.17.能从假设中看出⽤⼀尾还是两尾吗?答案是肯定的.要看备择(或对⽴)假设.如果备择(或对⽴)假设是带⽅向性的(如销售额<300,000, 进⼝车耗油量<国产车,⼴告后市场份额>⼴告前等等=就⽤⼀尾.反之不带⽅向性⽤两尾.18.什么是临界值? 临界值就是门槛值. 就是在概率分布的横轴上的⼀个或⼏个关键值. 没有越过那个值就属于⼤概率事件, ⽽⼀旦越过那个值就变成⼩概率事件, 就认为那⾥的事件是由机会引起的⽽不是真实(即⼤概率)事件.19.为什么要重视临界值? 因为在概率分布给定时, 每个概率值都对应于⼀个确定的临界值. 概率值⽤概率曲线下的⾯积表⽰, ⽽临界值⽤直线即横轴上的值表⽰. 后者⽐前者更⽅便求取. 故在假设检验时都把概率值化为临界值.20.与两尾测验相⽐,⼀尾测验需要⽐较⼩的临界值即可以达到显著. 统计上把这个现象称为⾼检验⼒度(Power). 直观的说, ⼀尾测验相当于把两个尾部的概率集中到⼀个尾部. ⽐如两尾测验时你需要z=1.96才能达到5%的显著⽔平, ⽽⼀尾时只要z=1.645即可. 后者⽐1.96更加接近概率分布的中部⽽不是尾部.也就是说我们把门槛值向左移动了.21.参看Excel”统计复习2”⼯作簿Solution⼀表中”下列情况的t或z的临界值是什么”那⼀节中的例题22.在⽤Excel函数求临界值时,都是假定你已经决定了显著⽔平⽽要求相应临界值.这时需要⽤Normsinv, Tinv, or Chiinv. 注意前两个函数要考虑⼀尾还是两尾测验. ⽽卡⽅测验只有⼀尾. 因为卡⽅分布没有负数.23.⼀定记得把显著⽔平即概率值除以2以便得到两尾检验的临界值. ⽽如果是⼀尾检验直接代⼊显著⽔平即可. 例如求5%显著⽔平的正态分布⼀尾临界值其公式是Normsinv(0.05), ⽽求两尾临界值则⽤Normsinv(0.05/2). 注意不是Normsinv(0.05)/2, 因为不是临界值的1/2, ⽽是概率即显著⽔平的1/2. 再说⼀次: 两尾检验其概率要除以2, ⼀尾就不需要!24.参看Excel”统计复习2”⼯作簿Solution⼀表中”下列情况应该⽤何检验”那⼀节中的例题.25.决定⽤t测验还是正态z检验取决于两个条件, ⼀是群体⽅差是否已知, ⼆是样本⼤⼩. ⼀般⼤样本即⼤于50⼈以上都可以⽤正态检验. 否则⽤t检验.26.参看Excel”统计复习2”⼯作簿Solution⼀表关于何种检验的总结表I类错误和II类错误27.I类错误称为拒真错误, II类错误则是纳伪错误. 其中的拒真和纳伪都是指⽆效假设⽽⾔. 即当⽆效假设是真实时你推翻它(I 类错误), 或当⽆效假设是错误时你未能推翻它(II类错误).28.II类错误概率⽤β表⽰, ⽽I类错误的概率就是显著⽔平, ⽤α表⽰. I类错误的概率可以⼈为控制; ⽽II类错误则受三个因素影响: [1]显著⽔平(即I类错误概率), ⼀般α越⼤β越⼩; [2]样本⼤⼩, ⼀般样本越⼤β越⼩即犯II类错误的概率越⼩; 和[3]效应⼤⼩. 后者是指群体真值和⽆效假设值的差数, 或两个样本间平均数或其它统计值的差异; ⼀般效应越⼤则β越⼩.29.I类错误和II类错误的⽅向相反. 例如显著⽔平=0.05时犯II类错误的概率要⽐显著⽔平=0.10时要⼤. 所以⼀般⽽⾔你不能同时减少两类错误的概率.但是如果你有⼤样本就可以达到这⼀⽬标.30.检验⼒度(Power)等于1-beta, 其中beta是II类错误的概率. 虽然求II类错误也有公式, 但求起来⽐较难, 因为我们必须知道对⽴假设下的分布. 所以我们⼀般不去求它. 只需要知道I类和II类错误的关系,知道II类错误和检验⼒度的关系即可.31.I类错误概率, II类错误概率, 检验⼒度, 以及效应⼤⼩的关系看Churchill的PPT最好理解.关于概率分布32.连续变量常常服从正态分布或其它连续分布,例如对数正态(LOGNORMAL), T分布,F分布等.分类变量服从⼆项分布,多项分布等.33.样本统计值常常⽤⽐例表⽰,⽐例常常服从⼆项分布.例如抽烟和不抽烟,听过(或见过)⼴告和没有见过⼴告,喜欢和不喜欢某产品,以及是⼤学⽣和不是⼤学⽣等等.⼆项分布有两个特点.第⼀它可以⽤正态分布逼近.其原因⽤抛硬币实验很容易理解.如果我们抛⼀枚硬币6次,纪录正⾯出现次数,则N=6,P=0.5因为硬币每次出现正⾯和负⾯的概率应该相等.则在6次中有3次是正⾯的概率是33!6!()(1)(3)0.5*0.5!()!3!(3!)6*5*4*3*2*(.125)*(.125).3125(3*2)*(3*2)r n rnP r Pr n rππ-=-==-==类似地其它概率,⽐如出现1次,0次,2次等等都可以按此公式计算出来.请看E XCEL⼯作簿”E XCEL统计推断”中”如何计算事件概率”那个表格.这些概率就形成概率分布,后者虽然服从⼆项分布但可以⽤正态分布逼近. 34.样本⽐例的⽅差特别容易计算,直接等于P*Q(其中Q=1-P).有了⽅差则标准差和标准误就都好计算了.我们在假设检验中常常要⽤到这个特性来求⽅差,标准差和标准误,⾮常⽅便!其标准误捷径公式是pσ=标准差捷径公式是σ=⽅差捷径公式是(1)Vππ=-.其中的π和1-π是指群体的”成功”⽐例,即某事件出现次数占总次数的⽐例.对样本来说就是P和Q.请见E XCEL”统计推断2”⼯作簿中”S OLUTION”⼀表,其中关于可锐职业顾问公司的例⼦35.如果变量服从正态分布则⼤约68%的值位于正负⼀个标准差之间,⼤约95%的值位于正负两个标准差之间,⼤约99%的值位于正负三个标准差之间.其全距(即极⼤值和极⼩值之间差数)是⼤约六个标准差(最后这⼀点对于计算样本容量很有⽤)36.对于服从⼆项分布的变量,不必⽤”全距等于6个标准差”这⼀点来求标准差.应该直接代⼊样本⽐例求标准差.⾃由度问题37.⾃由度是指样本个体中可以⾃由变化的程度. 每当你的样本增加⼀个个体你就多了⼀个⾃由度, 反之每当你模型中增加⼀个变量就⽤去了⼀个⾃由度.在求标准差时要计算平均数, 所以N-1就是标准差的⾃由度.38.计算⾃由度的⽅法要看你的检验⽅法⽽定. 下列是常见公式.a.如果你有表格数据, ⼜只有⼀个变量, 则应该⽤分类变量⽔平数⽬减去⼀即是⾃由度. 例如你⽤表格列出收⼊变量. 该变量有六类, 则你的⾃由度等于6-1=5b.如果你有表格数据, ⼜有两个变量交叉列表, 则应该⽤⾏数减⼀乘以列数减⼀得到表格⾃由度. 例如你⽤表格列出收⼊和教育⽔平. 收⼊有六⽔平, 教育5⽔平, 那么你的表格⾃由度就是(6-1)(5-1)=20.c.求样本⽅差和标准差时, 其分母都是N-1, 这是因为标准差和⽅差都是以平均数为基础, ⽽求平均数要⽤去⼀个⾃由度. 当然求群体⽅差和标准差时则不需要⾃由度, 因为群体⼤, ⽤不⽤⾃由度关系不⼤.更主要的是群体参数是需要从样本估计的. 虽然样本统计数要⽤去⾃由度, 群体参数却不要. 例如群体平均数等于所有样本平均数的平均数. 对于⼀个样本来说⽆需减去⾃由度以求群体平均数.d.T测验⼀般是⽤来检验样本平均数是否等于某⼀群体平均数, 或者检验两个样本平均数是否相等. 这些情况下常常只需要⼀个⾃由度来计算平均数. 所以其⾃由度⼀般等于1.e.对于回归模型, 要看模型含有多少变量, 总的原则是⽤了多少变量就失去多少⾃由度. 不过要记住加上截距所⽤的⼀个⾃由度. 所以其公式是N-k-1, 其中k等于⾃变量个数. 例如你的回归模型含有两个⾃变量, 则k=2, 则模型⼀共⽤去三个⾃由度.标准差和标准误39.群体的标准差(或称标准误差)⽤σ表⽰,样本的则⽤S表⽰.它们是⽤来测量⼀个群体或样本中的变异程度的.顾名思义,标准差就是标准化了的差数.那么什么是差数呢?差数是对平均数⽽⾔的.换句话说,标准差就是⼀个群体或样本中的标准化了的偏离平均数的程度.40.标准误和标准差有两件事不⼀样.第⼀,标准差是测量每个个体偏离平均数的程度,⽽标准误是测量每个样本平均数偏离群体平均数的程度.不过这两者的差别其实⽐听起来⼩,因为⼀个样本只能有⼀个标准差(不论样本有多⼤),也只能有⼀个标准误.第⼆,因为标准差是测量样本内的变异程度,我们⽆需重复抽样,仅仅⽤标准差描述⼿⾥这个样本.⽽标准误则是测量样本之间的变异程度,所以⼀定要引⼊重复抽样的概念.即假定我们可以或已经抽取了许多独⽴样本,每次得到⼀个平均数,然后看这些平均数偏离群体平均数的程度.41.要求标准差,先求⽅差.其群体⽅差公式是:22()xNµσ-=∑,其对应样本⽅差公式是:22()1x xSn-=-∑.有了⽅差,只要对它开⽅就有了标准差.⽽再把标准差除以根号的样本容量就有了标准误:xS=.42.可以求两个样本的⽅差是否相等,⽤F检验.如果⽅差相等在⽐较样本平均数时就可以⽤两样本⽅差的平均数做分母.正态分布43. 正态分布特点是: [1]分布对称, [2]平均数等于中数(M EDIAN )或中位数,众数(M ODE ), [3]⼤约68%的值位于正负⼀个标准差之间, ⼤约95%的值位于正负两个标准差之间,⼤约99%的值位于正负三个标准差之间, [4]其全距是⼤约六个标准差(最后这⼀点对于计算样本容量很有⽤)44. 正态分布⽤的最⼴,乃因为许多其它分布在⼤样本下都接近正态分布.⽐如T 分布, 卡⽅分布,⼆项分布等.更重要的是不论原群体分布是何性状,如从该群体反复抽样,把各个样本的平均数(或中位数,或众数)记下来得到平均数的抽样分布,其性状都趋近正态.这个现象是归因于中央极限定理.45. 正态分布另⼀个特点是参数⽐较少,只需两个即可以描述分布: 平均数和标准差.46. 正态分布可以是基于原始数据也可以是标准化的数据. 后者平均数是0, ⽅差为1.只有标准化的正态分布临界值才能直接⽤于查表求概率. 标准化的公式是: ()x x z s-=. 47. 在E XCEL 中⽤函数S TDEV ()估计样本标准差, ⽤S TDEVP ()估计群体标准差, 或S TDEVA ()估计样本标准差, 且要包括逻辑变量或⽂字内容. 同理, ⽤V AR ()求样本⽅差, ⽤V ARP ()求群体⽅差, 或V ARA ()如果包括逻辑变量或⽂字内容.检验假设显著性的三种⽅法48. 有三种⽅法检验假设: 临界值法, 概率法, 置信限法 49. 临界值法就是你求出统计值(如t 值, 卡⽅值, z 值等), 然后求出5%或1%显著⽔平下的临界值, 再⽤统计值去⽐较临界值. ⽐较的结果是”不怕临界值⼩, 就怕临界值⼤”因为临界值越⼤概率越⼩. 如果统计值⼤于临界值,说明结果显著, 应该推翻⽆效假设. 反之统计值⼩于临界值, 说明结果不显著, 不能推翻⽆效假设.50. 临界值法缺点是你只知道结果是否显著,并不知道精确概率.51. 概率法也是先求统计值, 再根据统计值及其相应的⾃由度求出概率值. 这个⽅法随着计算机的普及现在最普遍. 以前要查表才能知道概率, 现在只要输⼊统计值,⽤Excel 函数即可以求概率. 它的好处是可以知道精确概率值.52. 如何理解概率值? 最容易的⽅法是把所得概率值看成是机会引起的事件概率. 例如概率=0.33, 说明有33%的机会所观察到的平均数或其它统计值是有机会引起的. 这个概率相当⼤, 所以我们不能推翻⽆效假设. ⽽如果概率=0.01, 说明只有1%的可能是由机会引起. 这说明机会引起的可能性很⼩. 所以可以推翻⽆效假设. 总的说来是”不怕概率⼤, 只怕概率⼩”, ⼩了就可以推翻⽆效假设.53. 置信限法是先求样本统计值如平均数等, 再求样本标准差和标准误. 根据这些样本统计值就可以求群体参数的置信限为样本平均数加上正负两倍的标准误. 如果在置信限中包括0, 说明⽆效假设不能被推翻. 反之如果置信限不包括0, 说明群体参数不等于0. 该法多⽤于回归模型参数检验是否为0, 即某⼀⾃变量对因变量效应是否为0.54.所有测验(如t测验, 卡⽅测验, F测验, 正态测验等)统计值都是可以直接和临界值⽐较的值! 它们只是告诉你在横坐标上的数值⽽不是概率.55.临界值不是概率, 但每个临界值都对应相应的概率! 所以知道了临界值再求概率是不难的(求法见后).56.注意不要⼀看到1.96, 2.58等就认为它们代表0.05或0.01的概率. 1.64,1.96还有2.58都是在标准正态分布下才代表0.1, 0.05和0.01等概率. 在其它分布下它们对应的概率要看⾃由度⽽定.57.标准正态分布下的临界值我们⽤字母z表⽰. 其它分布时⼀般不⽤z表⽰.例如t分布下的临界值就⽤字母t表⽰, F分布下的临界值⽤字母F表⽰, 卡⽅分布下的临界值就是卡⽅值.58.显著⽔平和置信⽔平有何关系? 两者都是概率值. 不过显著⽔平是指尾部的概率⽽置信⽔平是指从左到右的累积概率. 换句话说, 当显著⽔平等于0.05时, 置信⽔平就等于1-0.05=.95.59.如何计算不同置信⽔平下的z值?办法有两个. ⼀是常⽤的可以直接记忆.如在标准正态分布下的三个z值是很容易记忆的: 1.64, 1.96, 2.58, 分别表⽰当置信⽔平是90%, 95%和99%时的临界值. 对于⼤多数问题来说记忆法就⾜够了. 第⼆种⽅法是⽤Excel函数计算. 不论函数⽤的是那种分布, 在Excel的函数名称⾥都有⼀个INV,表⽰是把计算过程倒过来, 从概率值求临界值(⼀般是有了临界值即统计值要求概率值. 所以从概率值求临界值就是反过来了).60.套⽤Excel函数公式时, 其括号内的值就是你的概率值或置信⽔平. 有两点要注意, 所有求临界值的Excel函数都是基于累积概率, 即从⽆穷⼩到所求的那⼀点. 也就是从左到右. 但另⼀⽅⾯, 这些函数⼜都假定两尾概率. 所以其通⽤公式是(1-alpha/2)=(1-显著⽔平/2).61.例如要求显著⽔平=0.1时的临界值, 则在标准正态分布下输⼊的概率值或置信⽔平就是Normsinv(1-0.1/2)=Normsinv(0.95)=1.6448. 同理当你的置信⽔平=0.95时则Normsinv(1-0.05/2)=Normsinv(0.975). 最后如置信⽔平=0.99时有Normsinv(1-0.01/2)=Normsinv(0.995)=2.5758. 62.如果你不想要两尾置信⽔平, 只要⼀尾概率, 那么其公式就是(1-alpha). 例如求置信⽔平=0.95时的⼀尾临界值z值, 直接把0.95代⼊Excel函数有Normsinv(0.95)=1.6448. ⼜如求置信⽔平=0.99的⼀尾临界值z值, 直接代⼊0.99有Normsinv(0.99)=2.326. 上述例⼦可见⼀尾测验时的临界值永远⼩于两尾时的临界值. 换句话说所以统计学家们说⼀尾检验⼒度更⼤.63.在⽤Excel函数求临界值时,都是假定你已经决定了显著⽔平⽽要求相应临界值.这时需要⽤Normsinv, Tinv, or Chiinv. 第⼀个函数只要输⼊概率即可. 第⼆个和第三个都需要概率加上⾃由度.64.⽤Excel函数求概率时, ⽤NORMSDIST, TDIST和CHIDIST. 和临界值相似, 第⼀个函数只要输⼊z值即可. 第⼆个不但要t值, 还要⾃由度和⼀尾还是两尾, 共需三个参数. 最后的卡⽅分布概率因为是⾮对称分布, 且卡⽅不能为负数, 所以不可能⽤两尾. 只要卡⽅值加上⾃由度即可.65.⽤Excel求置信限没有简单函数,需要求出平均数和标准差,标准误等以后在⼿⼯计算置信限.66.最后Excel还有⼀套直接求概率的函数, 称为TTEST(), FTEST(),CHITEST() 和ZTEST(). 这些函数要求你给出数据所在位置再直接得出其显著性概率. 例如TTEST()第⼀个参数是数据范围, 第⼆个是1或2表⽰是⼀尾还是两尾检验, 第三个是测验类型, 共有三类: 第⼀类是成对⽐较, 第⼆是不成对但⽅差相等, 第三是既不成对⽅差也不等. 所以TTEST(a1:e22,1,1)表⽰数据范围是从A1到E22,⽤⼀尾检验,成对⽐较, ⽽TTEST(a1:b22,2,2)表⽰数据范围是A1到B22, ⽤两尾检验, 不成对但⽅差相等.。
分类变量的卡方检验方法及其适用条件分类变量的卡方检验是一种常用的统计方法,主要用于比较两个或多个分类变量之间是否存在关联或独立性。
其基本原理是通过比较观察到的频数与期望频数之间的差异,来判断变量之间的关联性。
适用条件:1. 样本量要求较大,一般每个类别的期望频数都应大于5。
2. 适用于离散型变量,且变量分类数不宜过多。
3. 适用于没有先验概率的假设情况。
4. 分类变量之间应相互独立,即没有混杂因素存在。
5. 适用于二分类或多分类的情况,但多分类时需要考虑分类之间的平衡性。
具体操作步骤如下:1. 提出原假设:H₀:总体X的分布函数为F(x)。
如果总体分布为离散型,则假设具体为 H₀:总体X的分布律为P{X=x}=p。
2. 将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。
3. 把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。
4. 当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。
5. 计算卡方统计量:卡方统计量是根据观察频数与期望频数的差异来计算的,具体计算方法是将每个小区间的观察频数与期望频数的差值的平方除以期望频数,然后求和。
6. 判断显著性:根据卡方统计量的大小和自由度,可以判断变量之间的关联性是否显著。
通常情况下,如果卡方统计量大于临界值(如、等),则可以认为变量之间的关联性是显著的。
以上内容仅供参考,建议查阅统计学相关书籍或咨询统计学专业人士获取更多专业解答。
医学统计学专题测验一1.名词解释总体:是指根据研究目的确定的研究对象的全体。
误差:测量值与事实真相之间的差值。
抽样研究:是指以样本特征推论总体特征的研究。
极差:又称全距,是所有观察值中最大值和最小值之差。
变异系数:是标准差与均数的比值。
2.下面有关抽样误差的叙述,正确的是( D )。
A.严格设计和严格实施的研究可以避免抽样误差B.样本量越大,抽样误差越大C.抽样误差是由于测量人员测量技术不合格导致的误差D.抽样误差与研究特征的个体差异有关3.“是否吸烟”的变量类型是( D )。
A.数值型变量资料B.多分类变量资料C.等级资料D.二分类变量资料4.下面关于样本量的陈述,正确的是( D )。
A.样本量与总体规模有关B.抽样误差与样本量无关C.样本量与应答率水平无关D.样本量需要专门的公式估计5.下面关于研究对象的陈述,错误的是( C )。
A.研究对象与研究目的有关B.研究对象可以是人,也可以是动物C.研究对象不需要来自研究总体D.研究对象是研究设计的内容6.下面有关总体的叙述,正确的是( A )。
A.总体是由根据研究目的所确定的全部研究对象B.总体与研究目的无关C.总体由样本量决定D.总体由统计分析方法决定7.下列选项中,属于数值变量的是( B )。
A.民族B.体重C.血型D.性别8.数据录入时,部分数据录入有误,误差的类型属于( B )。
A.样本与总体之差B.系统误差C.随机测量误差D.抽样误差9.统计量是( C )。
A.统计总体数据得到的量B.反映总体特征的的量C.使用样本数据计算出来的统计指标D.使用参数估计出来的10.某病房记录了50名病人的护理等级,其中特级护理1名,一级护理3名,二级护理12名,三级护理34名,此资料属于( C )。
A.分类变量资料B.二分类资料C.有序分类变量资料D.数值变量资料11.下面有关误差的叙述,错误的是(D )。
A.随机误差不可以避免B.系统误差一定要避免发生C.抽样误差包含个体差异D.因为样本含量越大,抽样误差越小,所样本含量越大越好12.某药物临床试验数据的两端均没有确定数值,描述其中心位置适用的最佳指标是( A )。