常见统计学错误
- 格式:docx
- 大小:37.31 KB
- 文档页数:3
统计工作中常见的错误有哪些在当今数据驱动决策的时代,统计工作的重要性日益凸显。
然而,在实际的统计工作中,由于各种原因,常常会出现一些错误。
这些错误可能会导致数据分析结果的偏差,进而影响决策的科学性和准确性。
下面,我们就来探讨一下统计工作中常见的一些错误。
一、数据收集阶段的错误1、样本选择偏差在收集数据时,如果样本不具有代表性,就会导致样本选择偏差。
例如,在调查消费者对某产品的满意度时,如果只选择了经常购买该产品的消费者作为样本,而忽略了偶尔购买或从未购买的消费者,那么得出的结论就可能高估了产品的满意度。
2、数据缺失数据缺失是数据收集过程中常见的问题。
如果缺失的数据量较大或者缺失的数据不是随机分布的,就会对统计分析产生影响。
例如,在调查员工的收入情况时,如果很多高收入员工拒绝提供数据,那么统计结果就会低估员工的平均收入。
3、测量误差在收集数据时,由于测量工具不准确、测量方法不正确或者测量人员的主观因素等,可能会导致测量误差。
例如,在测量物体的长度时,如果尺子的刻度不准确,那么测量结果就会存在误差。
二、数据处理阶段的错误1、数据录入错误在将收集到的数据录入到计算机系统时,可能会出现录入错误。
例如,将数字“12”误录为“21”,或者将“男性”误录为“女性”等。
这些错误如果不及时发现和纠正,就会影响后续的数据分析。
2、数据重复计算在对数据进行汇总和计算时,如果不小心对某些数据进行了重复计算,就会导致结果的偏差。
例如,在计算销售额时,如果将同一笔交易计算了两次,那么销售额就会被高估。
3、数据转换错误在对数据进行转换和标准化处理时,如果方法不正确,就会导致数据的失真。
例如,在将不同单位的数据转换为统一单位时,如果转换系数错误,那么转换后的数据就会不准确。
三、数据分析阶段的错误1、选择错误的统计方法不同的统计问题需要选择不同的统计方法。
如果选择了不恰当的统计方法,就可能得出错误的结论。
例如,在分析两组数据的差异时,如果数据不满足正态分布,却使用了 t 检验,那么得出的结论就可能不可靠。
统计学缪误统计学谬误是指在统计学中常见的一些错误观念或误解,这些错误观念可能导致我们对数据的解读产生偏差或错误的结论。
本文将介绍几种常见的统计学谬误,并对其进行详细解析。
我们来谈谈“相关不意味着因果”。
在统计学中,我们常常使用相关性来描述两个变量之间的关系。
然而,相关性并不意味着因果关系。
例如,我们可以观察到在夏季冰淇淋的销量与麻疹病例数之间存在正相关关系,但这并不能说明冰淇淋的销量导致了麻疹的发病率上升。
实际上,这种相关性可能是由于夏季天气炎热,导致人们既愿意购买冰淇淋,也更容易感染麻疹。
我们来看看“小样本就能代表整体”。
在统计学中,我们常常通过对一个小样本进行观察和分析,来推断整个总体的特征。
然而,小样本并不能完全代表整体。
例如,如果我们只对10个人进行调查,然后得出结论说“80%的人喜欢吃苹果”,这显然是不准确的。
我们需要根据统计学原理,确定样本的大小和抽样方法,以确保样本能够代表整体。
另一个常见的统计学谬误是“回归到平均值”。
这个思维误区源于对回归分析的错误理解。
回归分析可以帮助我们理解变量之间的关系,并对未来的趋势进行预测。
然而,回归分析并不意味着变量会回归到平均值。
例如,如果一个人的身高远高于平均水平,回归到平均值的误解会让我们认为这个人的子女身高会更接近平均水平,但事实上这是不正确的。
回归到平均值的观念忽略了遗传因素的影响,导致了错误的结论。
另外一个常见的谬误是“忽略了随机性”。
在统计学中,我们常常使用随机抽样来获取样本数据,并对总体进行推断。
然而,随机性并不能消除所有的偶然误差。
例如,当我们进行投票调查时,由于抽样误差或调查者的主观因素,我们可能无法完全准确地预测选举结果。
因此,我们在进行统计分析时,需要考虑到随机性的存在,并对其进行合理的解释。
最后一个要介绍的谬误是“平均数代表典型值”。
在统计学中,我们常常使用平均数来描述数据的中心趋势。
然而,平均数并不能代表数据的典型值。
例如,如果一个班级中有一位学生的年龄是30岁,其他学生的年龄都在15岁左右,那么平均年龄将会偏高。
Chapter2What Can Go Wrong?■ Don’t label a variable as categorical or quantitative without thinkingabout the question you want it to answer. The same variable cansometimes take on different roles.■ Just because your variable’s values are numbers, don’t assume that it’s quantitative. Categories are often given numerical labels. Don’t let that fool you into thinking they have quantitative meaning. Look at thecontext.■ Always be skeptical. One reason to analyze data is to discover the truth.Even when you are told a context for the data, it may turn out that thetruth is a bit (or even a lot) different. The context colors our interpretationof the data, so those who want to influence what you think may slant thecontext. A survey that seems to be about all students mayin fact reportjust the opinions of those who visited a fan website. The question that respondentsanswered may have been posed in a way that influenced their responses.Chapter3Displaying and Summarizing Quantitative DataWhat Can Go Wrong?■ Don’t violate the area principle. This is probably the most common mistake in a graphical display. It is often made in the cause of artistic presentation.Here, for example, are two displays of the pie chart of the Titanicpassengers by clas、A’\‘GN;’{s:Crew Third ClassFirst Class Second Class First Class325Second Class285Third ClassCrew 70688550.0%31.5%26.7%UseMarijuanaUseAlcoholHeavyDrinkingThe one on the left looks pretty, doesn’t it? But showing the pie on a slantviolates the area principle and makes it much more difficult to comparefractions of the whole made up of each class—the principal feature that apie chart ought to show.■ Keep it honest. Here’s a pie chart that displays data on the percentage ofhigh school students who engage in specified dangerous behaviors as reportedby the Centers for Disease Control and Prevention. What’s wrongwith this plot?Try adding up the percentages. Or look at the 50% slice. Does it look right?Then think: What are these percentages of? Is there a “whole” that hasbeen sliced up? In a pie chart, the proportions shown by each slice of thepie must add up to 100% and each individual must fall into only one category.Of course, showing the pie on a slant makes it even harder to detectthe error.A data display should tell a story about the data. To do that, it must speak ina clear language, making plain what variable is displayed, what any axisshows, and what the values of the data are. And it must be consistent in thosedecisions.A display of quantitative data can go wrong in many ways. The most commonfailures arise from only a few basic errors:■ Don’t make a histogram of a categorical variable. Just because thevariable contains numbers doesn’t mean that it’s quantitative. Here’sa histogram of the insurance policy numbers of some workers.It’s not very informative because the policy numbers are just labels.A histogram or stem-and-leaf display of a categoricalvariable makesno sense. A bar chart or pie chart would be more appropriate.■ Don’t look for shape, center, and spread of a bar chart.A bar chart showingthe sizes of the piles displays the distribution of a categorical variable,but the bars could be arranged in any order left to right. Concepts likesymmetry, center, and spread make sense only for quantitative variables.■ Don’t use bars in every display—save them for histograms and barcharts. In a bar chart, the bars indicate how many cases of a categoricalvariable are piled in each category. Bars in a histogram indicate thenumber of cases piled in each interval of a quantitative variable. In bothbar charts and histograms, the bars represent counts of data values. Somepeople create other displays that use bars to representindividual data values.Beware: Such graphs are neither bar charts nor histograms. For example,a student was asked to make a histogram from data showing thenumber of juvenile bald eagles seen during each of the 13 weeks in thewinter of 2003–2004 at a site in Rock Island, IL. Instead, he made this plot:1 2 3 4 5 6 7的方差等于21 2 3 4 5 6的方差等于2.92。
综合应用统计学谬误综合应用统计学谬误是指在统计学的应用过程中可能产生的错误或误导。
以下是一些常见的综合应用统计学谬误:1. 相关与因果关系的混淆:从相关性推断出因果关系是一个常见的统计学谬误。
两个变量之间的相关性并不意味着其中一个变量是另一个变量的原因,可能存在其他隐藏的因素导致两个变量同时发生变化。
2. 抽样偏差:抽样偏差是指由于抽样方法的问题导致样本在统计推断中的代表性受到影响。
例如,使用方便抽样或者自愿参与的样本可能不代表整个人群,从而导致结果出现偏差。
3. 自选择偏倚:自选择偏倚是指在参与研究的人自愿选择参与时可能导致的偏倚。
例如,在调查问卷中自愿回答问题的人可能具有与整个人群不同的特征,从而导致采样结果的不准确性。
4. 确认偏差:确认偏差是指研究者在寻求证实自己的假设时可能产生的偏见。
当研究者有预期结果时,他们可能更倾向于寻找并接受支持他们预期的结果的证据,而对反对他们预期结果的证据不予重视。
5. 损失函数偏见:损失函数偏见是指在决策制定中可能出现的偏见。
决策者可能对不同类型的错误有不同的重视程度,从而导致对统计推断结果的解读存在偏见。
6. 奇迹效应:奇迹效应是指偶然发生的结果或事件被错误地解释为因果关系。
当某个事件以非常罕见或难以解释的方式发生时,人们往往倾向于认为有某种特殊的因果关系存在。
7. 数据处理偏差:数据处理偏差是指在数据分析过程中产生的错误或偏见。
例如,选择不当的统计方法、排除异常值、采用错误的数据转换方法等都可能导致结果的不准确性。
这些统计学谬误都可能影响我们对数据的解读和决策制定。
因此,在应用统计学时,我们应该谨慎对待数据和分析结果,避免受到这些谬误的影响。
统计学名词解释
①Ⅰ类错误:当拒绝H0时,可能犯错误;拒绝一个正确的H0所犯的
错误,称为Ⅰ类错误,其概率为α。
(拒真错误)
②Ⅱ类错误:当接受H0时,可能犯错误;接受一个错误的H0所犯的错
误,称为Ⅱ类错误,其概率为β。
(存伪错误)
③独立事件:一个事件是否发生不影响另一事件的发生。
④概率:是描述随机事件出现可能性的大小的统计指标。
⑤小概率事件:概率小于或等于5%的随机事件;通常情况下,在一
次随机抽样中不可能出现。
⑥随机样本:按照概率的规律抽取的样本。
(不由个人意志所决定的,)
⑦抽样误差:样本统计量与总体参数之间总会存在一定差距,而这种
差距是由于抽样的随机性所引起的。
⑧标准误:是样本统计量分布的标准差,用来衡量抽样误差的大小。
⑨参数检验:根据样本统计量去估计对应总体的参数
⑩假设检验:又称显著性检验,是用样本差异大小去估计总体之间是否存在差异。
区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围。
四分位差:
完全随机化设计:被试通过随机抽取并被随机分配到各个实验条件下进行实验的设计形式。
随机区组设计:将特征相似的被试分为一组,称为区组。
随机让每个区组接受一种实验的设计形式。
相关系数:表示两列量数之间的线性相互关系(程度)
决定系数:回归分析中衡量回归方程有效性高低指标,是回归平方和在离差平方和所占的比例。
第十五章医学科研中常见的统计学错误第一节科研设计中的常见错误一、抽样设计二、实验设计中的随机原则三、实验设计中的对照原则四、实验设计中的重复原则五、实验设计中的均衡原则第二节科研数据描述中的常见错误一、统计指标的选取二、统计图表第三节医学科研统计推断中的错误一、t检验二、方差分析三、卡方( 2)检验四、相关与回归分析五、结论表达不当第十五章医学科研中常见的统计学错误医学科研中,研究者关心的研究对象的特征往往具有变异性;如年龄、性别皆相同的人其身高不尽相同、体重、血型等也都存在类似的现象。
同时,由于研究对象往往很多,或者不知到底有多少,或者研究对象不宜全部拿来做研究;所以人们往往借助抽样研究,即从总体中抽取部分个体组成样本,依据对样本的研究结果推断总体的情况。
恰恰是这种变异的存在,以及如何用样本准确推断总体的需求,使得统计学有了用武之地和发展的机遇。
诚然,合理恰当地选用统计学方法,有助于人们发现变异背后隐藏的真面目,即一般规律。
但是,如果采用的统计学方法不当,不但找不到真正的规律,反而可能得出错误的结论,进而影响研究的科学性,甚至会使错误的结论蔓延,造成不良影响。
作为医学工作者,尤其是科研工作者,必须了解当前医学科研中常见的统计学错误,以便更好地开展科研和利用科研成果。
本章借助科研中统计学误用实例,介绍常见的错用情况,以帮助读者避免类似错误的发生。
第一节科研设计中的常见错误统计学是一门重要的方法学,是一门研究数据的收集、整理和分析,从而发现变幻莫测的表面现象之后隐含的一般规律的科学。
医学科研是研究医学现象中隐含规律的科学,包括基础医学研究、临床医学研究和预防医学研究等,不管哪类医学科研都离不开统计学的支持。
要想做好医学科研,必须掌握一定的统计学知识,如总体与样本、小概率原理、资料的类型和分布、科研设计类型、统计分析的主要工作、常用统计方法以及方法的种类和应用条件等,尤其要了解当前医学科研中常见的统计学错误。
常见统计学错误
在人类社会发展的过程中,数据的重要性越来越被人们所重视。
统计学作为一门应用于数据处理、分析和解释的学科,被广泛运
用于各个领域。
然而,由于统计学的复杂性和数据的多样性,常
常会出现一些常见的统计学错误。
本文将会从统计学的角度对一
些常见的错误进行分析。
错误一:关联误解
许多人将相关性错误地解释为因果性,这是一个常见的误解。
例如,某个人认为他成功的原因是他经常使用的运动饮料,因为
他发现当他使用该饮料时,他通常表现出更好的成绩。
然而,这
种关联并不代表因果性。
在这种情况下,运动饮料与优秀的表现
可能只是因为二者之间存在其他因素的原因。
错误二:回归分析
回归分析是一种非常有用的分析方法,可以用来探索变量之间
的关系。
但是,如果分析方法不正确,就可能会导致错误的结论。
例如,如果回归模型中使用了错误的自变量或母体数据,甚至丢
失了一些因素,那么得到的结果就可能是不准确的。
错误三:样本选择偏差
样本选择偏差是指样本失去代表性,不符合总体规律的现象。
这种情况可能会导致结果的不准确,因为样本无法代表总体。
例如,在研究城市居民身体健康的研究中,如果仅仅选择某一小部
分正常体型、有规律的情况,而忽略了任何超出这个范围的人,
那么这个研究的结果将忽略其他身体健康状况的可能性。
错误四:误差概率
统计分析必须包括在结果中发现的误差概率。
虽然有时误差会
被忽略,但没考虑误差的影响会导致结果的不确定性和不准确性
的增加。
例如,考虑一个零件生产厂家使用的质量控制方法。
如
果该厂家仅仅进行一次样本检查,而没有考虑样本选取的偶然性,那么可能无法获得正确的结果。
错误五:推断
推断通常用于从一个样本中推广一个总体结论。
但是,如果样本不够大或者不够代表性,那么结果就不能代表总体。
例如,在某一工厂中,如果只从少数员工中调查了病假的问题,那么结果可能并不具有代表性,不能推广到整个员工群体。
总之,正确的统计分析至关重要,结果的准确性直接影响到实际应用的结果。
因此,在进行统计分析时,务必要注意常见的统计学错误,避免这些错误并提高数据分析和结论推断的准确性。