反证法假设检验P值与统计思维
- 格式:doc
- 大小:72.00 KB
- 文档页数:9
假设检验中的P值研究假设检验是统计学中一种常用的方法,用于判断一个统计推断在给定的显著性水平下是否显著。
在假设检验中,P值是一个重要的统计指标,用于衡量假设检验的结果是否支持原假设。
P值是指当原假设为真时,观察到的样本统计量(或更极端情况)相对于所有可能的取值的概率。
P值表示的是在原假设为真的情况下,观察到的样本统计量或更极端情况的出现概率。
P值越小,表明观察到的样本统计量在原假设为真的情况下发生的概率越小,从而提供了拒绝原假设的证据。
P值的计算是基于一个特定的假设检验方法,例如Z检验、T检验或卡方检验等。
在这些方法中,根据样本数据计算相关的统计量(例如标准差、均值等),然后计算出一个分布概率,即P值。
根据显著性水平的选择,比如通常使用0.05作为显著性水平,如果计算得到的P值小于0.05,那么我们可以拒绝原假设,反之则接受原假设。
P值的解释必须与显著性水平结合使用。
如果计算得到的P值小于显著性水平,说明观察到的样本统计量在给定显著性水平下是高度显著的,拒绝原假设。
如果P值大于显著性水平,则不能拒绝原假设,说明观察到的样本统计量在给定显著性水平下不显著。
需要注意的是,P值并不能提供关于真实效果的大小或者实际重要性的信息。
另外,P值也不能证明两个变量之间存在因果关系,只能提示是否存在相关性。
另一方面,P值的解释和使用也存在一些争议。
部分研究人员认为使用固定显著性水平(例如0.05)和二分法(拒绝或接受原假设)存在问题,因为这可能导致错误结论。
他们主张应该将P值作为一个连续量来解释,然后考虑其他因素(例如样本大小、效果大小、实际重要性等)来做出决策。
此外,研究人员也应该注意P值的正确使用。
P值不能被用来证明事实的真伪,它只能提供关于数据的统计显著性的程度。
科学研究应该综合考虑其他证据、理论背景、实际效果大小等综合因素,而不仅仅依赖于P值的结果。
总结而言,P值在假设检验中是一个重要的统计指标,用于衡量观察到的样本统计量在原假设为真的情况下发生的概率。
假设检验两类假设H0,H1两个思想
反证法
小概率事件原理
两类错误
Ⅰ型错误 弃真错误(α型错误)
Ⅱ型错误 取伪错误 (β型错误)
平均数的显著性检验(样本vs总体)
平均数差异的显著性检验(样本vs样本)通过对样本平均数差异来检验两总体之间的差异
总正态方差已知
独立样本
相关样本
总体正态,方差未知 t检验
独立样本
方差齐性 df=n1+n2-2
方差不齐 柯克兰-柯克斯t‘检验 同Z
相关样本
r已知 df=n-1同Z
r未知 df=n-1
总体非正态,但n1n2均大于30 使用Z检验,公式同第一种
方差的差异检验
样本方差与总体方差样本方差与总体方差比值服从卡方分布 df=n-1
样本方差之间,也叫方差齐性检验
独立样本 F检验
相关样本 t检验df=n-2
相关系数的显著性差异积差相关系数显著性检验
ρ=0时t检验
ρ≠0 Z检验
统计功效与效果量统计功效1-β影响因素
处理效应 正相关
离散程度 负相关
样本容量 正相关
显著性水平 正相关
方向性 单侧检验大于双侧检验。
【1082.】不懂统计思维的统计是没有灵魂的!松哥一直纳闷一个问题,为啥咱本科生、硕士生以及博士生时,都学过统计,可是为啥一到自己独立处理科研数据就茫然不知所措,甚至连选择什么统计方法均不知道?究其原因,统计学确实难懂其奥,另外一点,就是大家在学习统计学的时候,忽视了统计学的思维,“没有统计思维的统计学的学习,是没有灵魂的”,因此才会“空有一身武艺,不知耍出那般武艺方可破敌千里”。
那统计的灵魂、或者说统计的思维是什么呢?大道至简,松哥给大家整理如下:1.抽样思想除非研究目的特殊,否则不可能获取到总体,几乎都是总体中的样本,而样本都是从总体中按照随机化的原则抽取获得的。
抽样思想的精髓为化繁为简,化无限为有限,化不可能为可能。
通过抽样我们可以获取研究样本,对有限的研究样本进行研究,从而得到样本统计量,并进而对总体进行推断。
2.推断思想样本统计量是实际可以检测获得的,而我们研究的目的总体。
因为抽样误差的必然存在,因此,样本统计量不等于总体参数,但会与总体参数比较的接近。
我们在一定误差的控制下,可以通过样本统计量去预测总体参数。
包括点估计和区间范围估计。
3.小概率思想小概率事件的应用意义是:小概率事件在一次抽样过程中发生的概率为0。
因此,一旦我们判断出某事件的发生概率P≤0.05,我们判断该事件在个体水平不会发生。
小概率思想是统计推断的核心,是统计学应用的基础。
假设检验就是反证法与小概率事件思想相结合的具体体现。
大意:别太低调,否则大家就忽略你哦!(P≤0.05or P≤0.01)4.反证法思想反证法的思想,松哥一直思之神奇,有一种隔山打鸟,指桑骂槐之感。
如下图,一个警察追一个小偷至一个Y型路口,但不知道小偷跑那边去了。
但通过统计分析,小偷往右边跑的概率,P<0.05,那么结合小概率的思想,小偷只能往左边跑了。
反证法+小概率,这两个简直就是绝配!科研中,验证某药是否有疗效,可以假设H0:药物无效,H1:药物有效。
专题1 医学统计的基础知识(假设检验,P值的含义)与独立样本T检验假设检验假设检验的基本思想是小概率反证法思想。
小概率思想是指小概率事件(P 0.01或P 0.05)在一次试验中基本上不会发生。
反证法思想是先提出假设检验假设H0 ,再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立基本步骤1、提出检验假设(又称无效假设,符号是H0))和备择假设(符号是H1)。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的;H1:样本与总体或样本与样本间存在本质差异;预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α 0.05或α0.01。
2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。
根据资料的类型和特点,可分别选用Z检验,T检验,秩和检验和卡方检验等。
3、根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。
若P α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。
P值的含义P值即概率,反映某一事件发生的可能性大小。
统计学根据显著性检验方法所得到的P 值,一般以P 0.05 为显著,P 0.01 为非常显著其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01P值碰巧的概率对无效假设统计意义P>0.05 碰巧出现的可能性大于5% 不能否定无效假设两组差别无显著意义P<0.05 碰巧出现的可能性小于5% 可以否定无效假设两组差别有显著意义P <0.01 碰巧出现的可能性小于1% 可以否定无效假设两者差别有非常显著意义P值仅反映两组差别有无统计学意义,并不表示差别大小 mean 差别的显著性进行检验适用条件 a总体符合正态分布(具体操作参看附录)b总体方差齐性(具体操作参看附录)1.首先建立检验假设H0:患有脂肪肝人群与健康人呼出的异戊二烯浓度的差异是由抽样误差引起的存在本质差异其中为两样本均数的差值,为差值的标准误.其中其中统计量T服从t-分布。
定义假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
基本原理(1)先假设总体某项假设成立,计算其会导致什么结果产生。
若导致不合理现象产生,则拒绝原先的假设。
若并不导致不合理的现象产生,则不能拒绝原先假设,从而接受原先假设。
(2)它又不同于一般的反证法。
所谓不合理现象产生,并非指形式逻辑上的绝对矛盾,而是基于小概率原理:概率很小的事件在一次试验中几乎是不可能发生的,若发生了,就是不合理的。
至于怎样才算是“小概率”呢?通常可将概率不超过0.05的事件称为“小概率事件”,也可视具体情形而取0.1或0.01等。
在假设检验中常记这个概率为α,称为显著性水平。
而把原先设定的假设成为原假设,记作H0。
把与H0相反的假设称为备择假设,它是原假设被拒绝时而应接受的假设,记作H1。
假设的形式H0——原假设,H1——备择假设双侧检验:H0:μ = μ0,单侧检验:,H1:μ < μ0 或,H1:μ > μ0假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。
假设检验的种类下面介绍几种常见的假设检验1.T检验亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
目的:比较样本均数所代表的未知总体均数μ和已知总体均数μ0。
计算公式:统计量:自由度:v=n - 1适用条件:(1) 已知一个总体均数;(2) 可得到一个样本均数及该样本标准误;(3) 样本来自正态或近似正态总体。
T检验的步骤1、建立虚无假设H0:μ1= μ2,即先假定两个总体平均数之间没有显著差异;2、计算统计量T值,对于不同类型的问题选用不同的统计量计算方法;1)如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量T值的计算公式为:2)如果要评断两组样本平均数之间的差异程度,其统计量T值的计算公式为:3、根据自由度df=n-1,查T值表,找出规定的T理论值并进行比较。
反证法、假设检验、P值与统计思维一、反证法的实质目的:证明A为真;办法:证明A逆否为假。
二、假设检验的实质目的:证明A(原假设)为真;办法:正面A逆否(备择假设)为小概率事件。
三、关于P值的讨论(一)不拒绝零假设意味着什么(By 郑冰)由一道试题引发的一点思考:2008年统计学考研真题第四题“食品厂家说:净含量是每袋不低于250g。
但有消费者向消协反映不是250g,消协据此要求厂家自检,同时消协也从中随机抽取20袋检验”(1)如果厂家自己检验,你认为提出什么样的原假设和备则假设?并说明理由。
(2)如果从消费者利益出发,你认为应该提出什么样的原假设和备则假设?并说明理由。
……作为统计专业的学生来说,熟悉得不能再熟悉了。
但是,通过做上面的题目,我发现自己在理解假设检验的问题上犯了一个十分严重的错误。
这个问题主要是由于我们学的教材上面写着:“假设检验要么P-value小于a拒绝原假设,P-value大于a接受原假设……”。
后来再看看其他教材,发现绝大多数都是这样写的。
其实“P-value大于a接受原假设”这种说法是错误的。
P-value大于a的时候,结论到底是什么呢?最早提出这个问题的是E·皮尔逊。
E·皮尔逊问耶日·奈曼,在检验一组数据是否为正态分布时,如果没能得到一个显著性的 P值,那么能否认为这组数据服从正态分布呢?费歇尔其实已经间接地回答了这个问题。
费歇尔把比较大的 P 值(代表没有找到显著性证据)解释为:根据该组数据不能做出充分的判断。
依据费歇尔的解释,我们绝对不会得出这样的推理,即没有找到显著性的证据,就意味着待检验的假设为真。
这里引用费歇尔的原话:“相信一个假设已经被证明是真的,仅仅是由于该假设与已知的事实没有发生相互矛盾,这种逻辑上的误解,在统计推断上是缺乏坚实根基的,在其它类型的科学推理中也是如此。
当显著性检验被准确使用时,只要显著性检验与数据相矛盾,这个显著性检验就能够拒绝或否定这些原假设;但是,该显著性检验永远不能确认这些原假设一定是真的,……”所以,假设检验的目的在于试图找到证据拒绝原假设,而不在于证明原假设是正确的。
当没有足够证据拒绝原假设时,不采用“接受原假设”的表述,而采用“不拒绝原假设”的表述。
“不拒绝”的表述实际上意味着并未给出明确的结论,我们没有说原假设正确,也没有说它不正确。
举个例子来说:比如原假设为H0:u=10,从该总体中抽出一个随机样本,得到X=9.8,在α=0.05的水平上,样本提供的证据没有推翻这一假设,我们说“接受”原假设,这意味着样本提供的证据已经证明u=10是正确的。
如果我们将原假设改为H0:u=10.5,同样,在α=0.05的水平上,样本提供的证据也没有推翻这一假设,我们又说“接受”原假设。
但这两个原假设究竟哪一个是“真实的”呢?我们不知道。
总之,假设检验的主要目的是为了拒绝而不是接受。
(二)不得不提的P值(By郑冰)P值是最常用的一个统计学指标,几乎统计软件输出结果都有P值。
了解p值的由来、计算和意义很有必要。
1、P值的由来R·A·Fisher作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。
他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。
也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。
(当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。
这两种方法进行长期且痛苦的论战。
虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。
)Fisher的具体做法是:(1)假定某一参数的取值;(2)选择一个检验统计量(例如t统计量、F统计量等),该统计量的分布在假定的参数取值为真时应该是完全已知的;(3)从研究总体中抽取一个随机样本;(4)计算检验统计量的值;(5)计算概率P值或者说观测的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率;•如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值;•如果0.01<P值<0.05,说明较弱的判定结果,拒绝假定的参数取值;•如果P值>0.05,说明结果更倾向于接受假定的参数取值。
可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。
统计检验法是在检验之前确定显著性水平α,也就是说事先确定了拒绝域。
但是,如果选中相同的α,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间之间不一致程度的精确度量。
只要统计量落在拒绝域,假设的结果都是一样,即结果显著。
但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。
因此,随着计算机的发展,P值的计算不再是个难题,使得P值变成最常用的统计指标之一。
2、P值的计算为理解P值的计算过程,用表示检验的统计量,表示根据样本数据计算得到的检验统计量值。
左侧检验:vsP值是当时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 =右侧检验: vsP值是当时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 =双侧检验P值是当时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 =3、P值的意义P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
如果P值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。
总之,P值越小,表明结果越显著。
但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。
(三)决策与风险(By 胡江堂)1、假设与决策:场景原假设:硬币是均匀的。
备择假设:硬币是有偏的。
/*当我们难以拒绝原假设时,只能得到结论:原假设也许是真的,现在不能拒绝它。
而当我们能够拒绝它时,结论是:它肯定不真。
以下的口语表述不如这里明确(和拗口)的,以这里的表述为准。
*/试验:在平坦的地方,独立地投掷硬币100次,每次投掷的结果都做记录。
最后,正反面出现的次数分别是:正面:55;反面:45。
提问:根据你所看到的结果,判断一下,你接受还是拒绝“硬币是均匀的”这一假设?-R博士回答:“拒绝这个假设,因为所得到的正面数超过了反面数的允许界限,这表明硬币是有偏的。
”-A博士回答:“接受硬币是均匀的这一假设。
我们不能非难硬币掷出55个正面,45个反面,一个均匀的硬币也能掷出这个比率。
”-R博士:“那什么样的结果才能使你拒绝那假设呢?我的意思是,正面数和反面数应该有多大的差异,才能使你认为硬币是有偏的?”-A博士:“至少90个正面对10个反面,或者90个反面对10个正面。
如果我们的决策是拒绝一个掷出55对45这个比率,或者更高一些比率的硬币,那么这个决策将使我们把许多由于偶然掷出上述比率的均匀硬币都宣判为有偏的。
你的看法使得非难一个均匀的硬币太容易了。
”-R博士:“太过分了!至少要掷出90对10的比率你才说硬币是有偏的。
你过度的轻信,将几乎不可能拒绝关于硬币是均匀的假设。
诚然,你很少拒绝一个均匀的硬币,但对一个有偏的硬币,你也很难拒绝。
”上面的对话应该让大伙体会到了一些假设检验的意思。
可以总结一下,A博士(Accept,接受)的法则是,除非试验得到的比率超过90比10,否则就接受硬币是均匀的这一假设。
A博士厌恶犯否定均匀硬币的错误(“弃真”,第I类错误),他的法则使得犯这种错误的概率最小。
由于均匀的硬币几乎不会出现超过90比10的比率,他很少冒把一个均匀的硬币说成有偏的风险。
然而,他付出的代价是,大大降低了试验的检测能力(power,见下),他的法则使得拒绝假设是极端困难的。
大量有偏的硬币也不会出现如90对10这样大的差异,因此它们也会被当成均匀的硬币而没有被检测出来。
可以说,A博士对接受假设有偏爱,当假设为真时,他很少犯拒绝它的错误;但当假设不真时,他会常犯接受它的错误。
R博士(Reject,拒绝)的法则是,除非比率低于55对45,否则就不能接受硬币是均匀的这一假设,也即,仅当硬币的正反面数差异在一个狭窄的界限之内,她才接受假设。
她把试验看成类似9.11时美国进行的安全检查(“宁可错杀三千,不可错过一个”),重要的是检测出有偏的硬币。
R博士的法则在接受错误的假设方面所冒的风险极小(“取伪”,第II类错误),代价是增加了把一个均匀硬币判成有偏的风险。
可以说,R博士对拒绝假设有偏爱,当假设碰巧不真时,她很少犯接受它的错误;但当假设碰巧为真时,她常犯拒绝它的错误。
2-1、决策与风险(用均匀的硬币做试验,第I类错误)一次试验,不足以判断两位博士谁的法则是正确的。
现在,用一个均匀的硬币(我们知道,两位博士不知道,这里的原假设是硬币是均匀的),把上面提到的投硬币试验重复100次(每个试验由100次投掷构成),那么,记录下的正面数X,将构成一个二项分布X~B(n,p),其中,n=100,p=0.5。
根据中心极限定理,正态分布是二项分布的极限分布,上面的二项分布可以由均值为np=50,方差为np(1-p)=25的正态分布来近似。
又因为二项分布只取整数值,在近似它的正态曲线下会出现很多空隙,为了校正这种情况,可以把整数的两头各扩大0.5个单位,以这个区间表示正态曲线下的那个数。
对R博士来说,仅当掷出的正面数多于45,少于55时,她才接受假设。
在正态曲线下,这两个端点可以写成45.5和54.5。
——|-/////-|———45.5 54.5标准化,(45.5-50)/5=-0.9,(54.5-50)/5=0.9,根据标准正态表,可知45.5-54.5这个接受区域包括了总面积的63%。
也即,投掷均匀硬币所产生的样本中,有63%的样本,其正面数落在接受区域,相应地,其正面数落在R博士提出的否定域的概率为37%。
也就是说,当硬币是均匀的时,R 博士犯第I类错误的概率为37%。
对A博士来说,他的接受区域在10-90之间,他几乎不会犯第I类错误。
2-2、决策与风险(用有偏的硬币做试验,第II类错误,功效)现在取一个有偏的硬币(我们知道,两位博士不知道,这里的原假设还是硬币是均匀的),即投出正面的概率不等于二分之一(注意,说硬币是有偏的,并不必对p的值作出指定,因为硬币有偏可以有无限多种方式)。
为了评价两位博士的法则在拒绝假设方面有多大的成功,我们需要对硬币指定一个偏度,比如是掷出正面的概率是0.6,做上面同样的100次试验(每次试验有100次投掷),近似成一个正态分布,均值np=60,方差是np(1-p)=24。