当前位置:文档之家› 高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版选修2_32

高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版选修2_32

高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版选修2_32
高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版选修2_32

假设检验(hypothesis testing)

方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)

?概述

假设检验是分析数据的一种方法。回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”

最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。最有名的分布就是正态分布,它是:检验的基础。t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。

?适用场合

·想知道一组或更多组数据的平均值、比例、方差或其他特征时;

·当结论是基于更大总体中所取得的样本时。

例如:

·想确定一个过程的均值或方差有否改变;

·想确定很多数据集的均值或方差是否不同:

·想确定两组不同的数据集的比例是否不同;

·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。

?实施步骤

假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。

如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。这些定义解释了假设检验的慨念,然后再回来看这个步骤。

本书不可能详细地涉及假设检验。这个步骤是个综述和快速参考。要得到更多的信息,查阅统计学参考书或请教统计学家。

1确定要从数据中获得的结论。选择适当的检验方法。用哪种检验取决于检验的目的和数据的种

类。可以用表5.7和表5.8概括的常用的假设检验,或者请教统计学家以得到帮助。

2建立零假设和备择假设。确定问题是属于双尾检验、左尾检验还是右尾检验。

3选择显著性水平。。

4计算检验统计量,可借助计算机软件。

5用统计分布的统计表或计算机程序等来确定检验统计量的P值。对于z检验可用表A.1正态曲线以下的曲线。

6把P值与左尾或右尾检验的α或者双尾检验的α/2作比较,如果P值较小,那么拒绝零假设并会得到备择假设可能正确的结论。否则,不能拒绝零假设,并得出没有足够证据支持备择假设的结论。

?备择步骤

步骤1~4同上。然后:

5用统计表或计算机程序确定如下所示的检验统计量的临界值和拒绝域。以z检验作为示例,对t检验、F检验或卡方检验,用统计量f、F或χ2来替换z。

6比较检验统计量和拒绝域。如果检验统计量值落在拒绝域内,拒绝零假设,结论是备择假设可能止确。否则,不拒绝零假设,结论是没有足够的证据支持备择假设。

?示例:t检验

一家食品杂货店从一供应商处购买几箱苹果,每箱质量为50磅(1lb=0.455kg),固定价格。供应商保证每箱的平均质量确实是50磅。产品小组随机抽取10箱称量。质量分别为:

50.1 49.6 50.3 49.9 49.5 49.7 50.0 49.6 49.7 50.2

杂货店受骗没有?

统计上讲,产品小组的问题是:“我们接受的苹果箱的平均质量少于50磅吗?”零假设是“苹果箱的平均质量等于50磅”,备择假设是“苹果箱的平均质量小于50磅”计划用5%的显著

性水平。

在表5.7中找均值与给定的值作比较的检验。σ未知,样本容量小于30个,假设箱子的质量服从正态分布。因此用t检验。因为备择假设是“小于”,所以需要左尾检验。

向在线计算器中输入数据得到以下结果:

样本均值= 49.86 标准方差=0.28 t=-1.583 P=0.07

因为P值大于0.05,所以不能拒绝零假设,没证据表明他们受骗。图表5.99显示了t分布,检验统计量t=-1.583,曲线下这个值以外的区域是P=0.07。

用备择步骤,从t表中确定a=0. 05,自由度为9,临界值为t

a

=-1. 833。因为是左尾检验,拒绝域是任何小于-1. 833的z值。检验统计量为-1.583,没有落在拒绝城,所以不拒绝零假设。

图表5.100显示了t分面、临界值、拒绝域和曲线下相等于a=0. 05的区域。两幅图的比较表明两个实施步骤如何以不同方式得到相同结论的过程。对左尾情况,只要检验统计量t大于临

界值t

a ,曲线下t值左边的区域即P值就比a大,a就是曲线下t

a

左边的区域。

?示例:卡方检验1

一家服装零售商想了解其提议的生产线的变化是否会在不同地区被同样地接受。

他们随机挑选了750名顾客,描述了提议的新产品,然后让顾客估计购买的可能性。他

们按地理位置对数据分组,建立了五行、四列的关联表,见图表5.17的关联表。

从表5.8看出,卡方检验是最合适的,比较了各组的分布。这种检验总是有尾的。零假设可陈述为“五个地区的顾客在购买可能性分布上没有差异”,备择假没是“五组购买的可能性分布有差异”。

选择显著性水平为5%,计算出自由度为df=12。大多卡方表按备择步骤设计,可以查询a或l -a,读取临界值。对a =0. 05和df=12来说,χ2临界值为21.026。如果检验统计量大于它就拒绝零假设。

用电子制表软件计算每一单元的E。E代表着零假设为真时的期望值,也就是每个地区的购买可能性分布和整体分布一样时的期望值。接着计算每单元的(O-E)2÷E,加起来得到检验统计量χ2=22. 53,比临界值21. 026大,所以拒绝零假设。购买可能性分布随区域而不同。

这个检验等同于检验两个变量是否独立。结果表明地理区域和购买可能性两个变量不独立。已知顾客所在的地区就能预测他是否更有可能购买新生产线。

?另一示例:卡方检验2

相同的零售商计划改变产品目录的格式和风格并想了解新的格式是否会有效提高订单。作为测试,他们随机挑选顾客送出去200 000本新春装目录册,另外1 800 000本目录册是传统版本。参考关联表例子,用图表5. 18的2×2的关联表来组织数据。

卡方检验比较两者的比例。零假设是“顾客从测试目录和从标准目录购买的比例相同。”

选用5%的显著性水平。比较比例,自由度就是l。a=0. 05和df=1时,χ2临界值为3. 841,检验统计量χ2=278。因此拒绝零假设,结论是顾客从新格式目录和从旧目录购买的比例显著不同。

?注意事项

·和许多学科一样,统计学有自己专门的语言表达常用的概念。以下是在实施步骤中常用的定义术语:

检验:一种统计检验,如z检验、t检验、F检验或卡方检验。要知道选用哪种检验是实施步骤中最难的一部分,取决于数据的种类以及想从数据中得出结论的种类。

假设:陈述一事实,由检验证明或反驳。

:是想检验的假没,数据是随机的。称为“零”是因为通常(不总是)零假设意味着零假设,H

两组数据中或从数据中计算的参数与给定的值之间没有差异。

备择假设,H。:如果零假设为假,备择假设肯定为真。通常备择假设暗含数据来自真实的影响而非随机的。

统计量:表征样本数据某些方面的变量。平均数、均值、方差和比例都是统计量。

检验统计量:用来检验零假设的统计量。对每种检验都有一个公式表达适当的检验统计量。这样做如果零假设是真(数据随机),统计量就来自一有名分布,如z检验的正态分布。

双尾、右尾、左尾:描述检验是否涉及频率分布的双侧(双尾)或只是单侧。如果备择假设表达式中包合≠(不等于),需要双尾检验。如果包含<(小于)需要左尾检差验,包含>(大于),需要右尾检验。卡方检验通常是双尾检验。

P值:检验统计量在已知分布下随机发生的概率。P值等于曲线下检验统计量以外的那个区域(见图表5.99)。P值越小,越能肯定结果是真的,不只是随机的。由于各种检验分布都很有名,这些概率能在表中或计算机程序中得到。

显著性水平,a:能确定结果是真的以前反映我们能多大程度确信结果不是随机产生的数值。通常取1%、5%、10%( a =0.01、0.05、0.10)。例如:单侧检验a =0.05,只要随机得到的结果小于5%即P<0.05则可断定结果为真。

临界值:概率正好等于a时的检验统计量的值。曲线尾部临界值以外的区域面积等于a。对双尾检验来说有两个临界值(见图表5. 100),每一尾部一个,每个临界值以外的区域都等于a/2。

临界值由表或计算机程序确定,记为±z

a 或±z

a/2

拒绝域:如果检验统计量落在这个区域,零假设就被拒绝的频率分布区域。对左尾检验来说,这些值位于小于临界值的分布曲线尾部。对右尾检验而言,则位于大于临界值的曲线尾部。双尾检验拒绝域包含两头。

置信水平,(1-a)。

置信区间:事件随机发生时以很大概率包含检验统计量的区间范围。拒绝域是置信区间以外的区域。显著水平、置信水平、置信区间之间的关系为:a=0.05,置信水平等于95%,则认为落在95%置信区间的值是最有可能单独地随机发生的,不能拒绝零假设。置信区间的定义讲究技巧。95%置信区间不是分布所有值的95%落在这一区间而是当一个值属于这个分布时,基于样本数据建立的所有区间95%地包含这个值。

·假设检验中,观察检验分布曲线,计算位于图形水平轴某处的检验统计量。如果曲线下检验统计量以外的区域P足够小(小于显著水平a),则此统计检验量可能就不服从这个分布。

·因为曲线是频率分布,曲线任何部分以下的区域就是事件发生可能性的度量,标在水平轴上。这就是在曲线下区域能找到a和P值的原因。

·由于假设检验涉及样本和概率,所以有可能

得到错误的结论。第一类错误就是零假设为真而被

拒绝(见图表5. 101)。第一类错误的概率是:显

著性水平a。在第二个例子中,有5%的可能性就是

区域间分布差异确实是随机的。第二类错误是零假

设为假而没有被拒绝。如果食品杂货店真的在苹果

箱的重量上被欺骗则第二类错误发生。第二类错误

的概率β的计算更复杂,超出本书讨论范围。不幸的是,“a越小,β越大。但是给定a,增加

样本容量,β将变小。

·因为第二类错误概率的存在,当零假设没被拒绝时,不能得出备择假设是错的结论,只能说数据没有提供足够的证据支持备择假设。

·很多网站上有计算器,可以计算检验统计量和检验分布值。输人数据,计算器计算检验统计量、概率和临界值。但是要知道采用哪种检验以及如何解释结果,这点很重要。

·成对样本就是两组样本集包含配对的有关联的观察值。例如:处理前、后相同样本的测量值或者同一样本被不同仪器测量所得的值。检验假设通常是两组样本的均值相等,换句话说,两组间的均值差是零。称这类检验为配对比较,是谢宁( Shainin)试验设计方法论中运用的工具之一(详见“试验设计”),这个检验和第5章所述的成对比较不是一回事。

·卡方检验前参照关联表来组织数据。

·一些特殊情形下可以利用别的假设检验方法。例如当数据不服从正态分布时,有多种非参数检验方法可用。总结所有的假设检验方法超出本书范围。如果表中条件和数据不符合,请教统计学家帮助选择适当的检验方法。

高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版选修2_3202012251102

假设检验(hypothesis testing) 方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA) ?概述 假设检验是分析数据的一种方法。回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?” 最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。最有名的分布就是正态分布,它是:检验的基础。t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。 ?适用场合 ·想知道一组或更多组数据的平均值、比例、方差或其他特征时; ·当结论是基于更大总体中所取得的样本时。 例如: ·想确定一个过程的均值或方差有否改变; ·想确定很多数据集的均值或方差是否不同: ·想确定两组不同的数据集的比例是否不同; ·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。 ?实施步骤 假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。 如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。这些定义解释了假设检验的慨念,然后再回来看这个步骤。 本书不可能详细地涉及假设检验。这个步骤是个综述和快速参考。要得到更多的信息,查阅统计学参考书或请教统计学家。 1确定要从数据中获得的结论。选择适当的检验方法。用哪种检验取决于检验的目的和数据的种类。可以用表5.7和表5.8概括的常用的假设检验,或者请教统计学家以得到帮助。 2建立零假设和备择假设。确定问题是属于双尾检验、左尾检验还是右尾检验。 3选择显著性水平。。 4计算检验统计量,可借助计算机软件。 5用统计分布的统计表或计算机程序等来确定检验统计量的P值。对于z检验可用表A.1正态曲线以下的曲线。 6把P值与左尾或右尾检验的α或者双尾检验的α/2作比较,如果P值较小,那么拒绝零假设并会得到备择假设可能正确的结论。否则,不能拒绝零假设,并得出没有足够证据支持备择假设的结论。 ?备择步骤 步骤1~4同上。然后: 5用统计表或计算机程序确定如下所示的检验统计量的临界值和拒绝域。以z检验作为示例,对t检验、F检验或卡方检验,用统计量f、F或χ2来替换z。 6比较检验统计量和拒绝域。如果检验统计量值落在拒绝域内,拒绝零假设,结论是备择假设可能止确。否则,不拒绝零假设,结论是没有足够的证据支持备择假设。 ?示例:t检验

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

2独立性检验

1.2独立性检验的基本思想及其初步应用 根据表中数据得到 2 50181589 27232426 k () ??-? =≈ ??? 5.059,因为p(K2≥5.024)=0.025, 则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为() (A)97.5% (B) 95% (C)90% (D)无充分根据 2.(2011?湛江一模)利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅表格来确定“X和Y有关 A.5% B.75% C.99.5% D.95% 3.(2012?泰安一模)下列说法: ①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程,变量x增加一个单位时,y平均增加5个单位; ③线性回归方程必过; ④在一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系; 其中错误的个数是() A.0 B.1 C.2 D.3 4.(2010?泰安二模)某医疗研究所为了检验新开发的流感疫苗对甲型H1N1流感的预防作用,把1000名注射了疫苗的人与另外1000名未注射疫苗的人的半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算出P(Χ2≥6.635)≈0.01,则下列说法正确的是() A.这种疫苗能起到预防甲型H1N1流感的有效率为1% B.若某人未使用该疫苗,则他在半年中有99%的可能性得甲型H1N1 C.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用” D.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用” 5.(2012?枣庄一模)通过随机询问100名性别不同的大学生是否爱好踢毪子运动,得到如下的列联表: 随机变量,经计算,统计量K2的观测值k≈4.762,参照附表,得到的正

(新)高中数学第一章统计案例1_1独立性检验假设检验素材新人教B版选修1-21

假设检验 1、某厂生产的化纤纤度服从正态分布 )04.0,(2 μN 。某天测得25根纤维的纤度的均值39.1=x ,问与原设计的标准值1.40有无显著差异?(取05.0=α) 解 设厂生产的化纤纤度为X ,则总体)04.0,(~2μN X ,且总体方差2204.0=σ已 知。顾客提出要检验的假设为 40 .1:0=μH , 40.1:1≠μH 因为已知总体标准差04.0=σ,所以选用U 检验,且在0H 成立的条件下有 )1,0(~25 04.00 N X U μ-= 针对备择假设40.1:1≠μH ,拒绝域的形式可取为 } /{0 c n X U W >-= =σμ 为使犯第一类错误的概率不超过05.0=α,就要在40.10 =μ时,使临界值c 满足 ()05 .0=>c U P 成立。由此,在给定显著性水平05.0=α时,得到临界值为 96 .1975.02/1===-u u c α 故相应的拒绝域为

{} 96.1>=U W 利用来自总体的样本值求得 25 .125 /04.040.139.1-=-= u 即 975 .096.125.1u u =<= 成立。显然,样本未落在拒绝域内,因此在05.0=α水平上认为纤维的纤度与原设计的标准值1.40没有显著差异。 2、设某厂生产的洗衣机的使用寿命(单位:小时)X 服从正态分布),(2σu N 但2 ,σu 未 知。随机抽取20台,算得样本均值1832=X ,样本标准差=S 497,检验该厂生产的洗衣机的平均使用时数“2000=μ”是否成立?(取检验水平05.0=α) 解 待检验假设 2000 0=μ:H 20001≠μ:H H 的拒绝域: 21α - >t T =2.093 T 的观测值 512 .1/2000 -=-=n S X T W ∈ 不能拒绝 H ,可以认为洗衣机的平均使用时数“2000=u ”. 3、在正常情况下,某炼钢厂的铁水含碳量(%)X ~ ),.(2 554σN (σ未知)。一日测得5炉铁水含碳量如下:

高中数学专题――概率统计专题.

专题二概率统计专题 【命题趋向】概率与统计是高中数学的重要学习内容,它是一种处理或然问题的方法,在工农业生产和社会生活中有着广泛的应用,渗透到社会的方方面面,概率与统计的基础知识成为每个公民的必备常识.概率与统计的引入,拓广了应用问题取材的范围,概率的计算、离散型随机变量的分布列和数学期望的计算及应用都是考查应用意识的良好素材.在高考试卷中,概率与统计的内容每年都有所涉及,以解答题形式出现的试题常常设计成包含离散型随机变量的分布列与期望、统计图表的识别等知识为主的综合题,以考生比较熟悉的实际应用问题为载体,以排列组合和概率统计等基础知识为工具,考查对概率事件的识别及概率计算.解答概率统计试题时要注意分类与整合、化归与转化、或然与必然思想的运用.由于中学数学中所学习的概率与统计内容是最基础的,高考对这一部分内容的考查注重考查基础知识和基本方法.该部分在高考试卷中,一般是2—3个小题和一个解答题. 【考点透析】概率统计的考点主要有:概率与统计包括随机事件,等可能性事件的概率,互斥事件有一个发生的概率,古典概型,几何概型,条件概率,独立重复试验与二项分布,超几何分布,离散型随机变量的分布列,离散型随机变量的期望和方差,抽样方法,总体分布的估计,正态分布,线性回归等.【例题解析】 题型1 抽样方法 -)中,在公证部门监督下按照随机抽取的方法确【例1】在1000个有机会中奖的号码(编号为000999 定后两位数为的号码为中奖号码,该抽样运用的抽样方法是() A.简单随机抽样B.系统抽样C.分层抽样D.以上均不对 分析:实际“间隔距离相等”的抽取,属于系统抽样. 解析:题中运用了系统抽样的方法采确定中奖号码,中奖号码依次为:088,188,288,388,488,588,688,788,888,988.答案B. 点评:关于系统抽样要注意如下几个问题:(1)系统抽样是将总体分成均衡几个部分,然按照预先定出的规则从每一部分抽取一个个体,得到所需要的样本的一种抽样方法.(2)系统抽样的步骤:①将总体中的个体随机编号;②将编号分段;③在第一段中用简单随机抽样确定起始的个体编号;④按事先研究的规则抽取样本.(3)适用范围:个体数较多的总体. 例2(2008年高考广东卷理3)某校共有学生2000名,各年级男、女生人数如表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为() A.24B.18C.16D.12 Array 分析:根据给出的概率先求出x的值,这样就可以知道三年级的学生人数,问题就解决了. x=?=,这样一年级和二年级学生的解析:C 二年级女生占全校学生总数的19%,即20000.19380 +++=,三年级学生有500人,用分层抽样抽取的三年级学生应是总数是3733773803701500 64 50016 ?=.答案C. 2000 点评:本题考查概率统计最基础的知识,还涉及到一点分析问题的能力和运算能力,题目以抽样的等可能性为出发点考查随机抽样和分层抽样的知识. 例3.(2009江苏泰州期末第2题)一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系, 2500,3500(元)月收入段应抽要从这10000人中再用分层抽样方法抽出100人作进一步调查,则在[) 出人.

2018版高中数学第一章统计1.3统计图表学案

1.3 统计图表 1.掌握常用四种统计图表(条形统计图、扇形统计图、折线统计图和茎叶图)的功能及其特点.(重点) 2.能针对实际问题和收集到的数据的特点,选择科学的统计图表.(难点) 3.能从统计图表中获取有价值的信息.(难点、易错点) [基础·初探] 教材整理1 统计图表 阅读教材P16~P20“练习1”以上部分,完成下列问题. 1.条形统计图 条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按照一定的顺序排列起来.其优点是便于看出和比较各种数量的多少,即条形统计图能清楚地表示出每个项目的具体数目,易于比较数据间的差别.缺点是不能明确显示部分与整体的对比. 2.折线统计图 建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应点,然后用直线段顺次连接相邻点,得到一条折线,用这条折线表示样本数据情况,这种表述和分析数据的统计图称为折线统计图.折线统计图不但可以表示数量的多少,而且能够用折线的起伏清楚直观地表示数量的增减变化的情况,但不适合总体分布较多的情况. 3.扇形统计图 扇形统计图中,用圆面积代表总体,圆面中的各个扇形分别代表总体中的不同部分,扇形面积的大小反映所表示的那部分占总体的百分比的大小.优点:扇形统计图可以很清楚地表示各部分数量同总数之间的关系,即扇形统计图能清楚地表示出各部分在总体中所占的百分比.缺点:会丢失部分数据信息且不适合总体中部分较多的情况. 判断(正确的打“√”,错误的打“×”) (1)扇形统计图比其他统计图更优越.( )

(2)统计图和统计表相比,用直线、折线来说理比用数据说理来的形象一些,数量关系也更明显.( ) (3)要反映台州市某一周每天的最高气温的变化趋势,宜采用条形统计图.( ) 【解析】(1)×,扇形统计图与其他统计图各有优缺点. (2)√,统计图比统计表表达的更明确. (3)×,适合用折线统计图. 【答案】(1)×(2)√(3)× 教材整理2 茎叶图 阅读教材P21第三自然段到P22“信息技术应用”以上部分,完成下列问题. 1.茎叶图 茎叶图的制作:茎相同的共用一个茎,茎按从小到大的顺序从上到下列出,共茎的叶一般按从大到小或从小到大的顺序同时列出. 2.用茎叶图表示数据有两个突出特点 第一,统计图上没有信息的损失,所有的原始数据都可以从这个茎叶图中得到; 第二,茎叶图可以随时记录,方便表示与比较. 但是,当数据量很大或有多组数据时,茎叶图就不那么直观、清晰了. 判断(正确的打“√”,错误的打“×”) (1)制作茎叶图时,茎叶图的茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出.( ) (2)茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.( ) (3)茎叶图对重复出现的数据不可以重复记录.( ) 【解析】(1)√,结合茎叶图的做法,茎按从小到大的顺序从上向下列出,叶无规定的顺序. (2)√,结合茎叶图的特点可知,用茎叶图表达两组数据很方便,但若是多组数据,却不是那么方便,直观、清晰了. (3)×,茎叶图中的数据应当全部记录,不可以遗漏,包括重复数据. 【答案】(1)√(2)√(3)× [小组合作型]

统计案例一_----独立性检验

统计案例一独立性检验 研修学院数学教研室闻岩 一、课标要求 学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。 内容与要求 1.统计案例(约14课时) 通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。 (1)通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用。 (2)通过对典型案例(如“质量控制”“新药是否有效”等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用(参见例1)。------删掉了 (3)通过对典型案例(如“昆虫分类”等)的探究,了解聚类分析的基本思想、方法及初步应用。------删掉了 (4)通过对典型案例(如“人的体重与身高的关系”等)的探究,进一步了解回归的基本思想、方法及初步应用。 说明与建议 1.统计案例的教学中,应鼓励学生经历数据处理的过程,培养他们对数据的直观感觉,认识统计方法的特点(如统计推断可能犯错误,估计结果的随机性),体会统计方法应用的广泛性。应尽量给学生提供一定的实践活动机会,可结合数学建模的活动,选择1个案例,要求学生亲自实践。对于统计案例内容,只要求学生了解几种统计方法的基本思想及其初步应用,对于其理论基础不作要求,避免学生单纯记忆和机械套用公式进行计算。 2.教学中,应鼓励学生使用计算器、计算机等现代技术手段来处理数据,有条件的学校还可运用一些常见的统计软件解决实际问题。 例1某地区羊患某种病的概率是0.4,且每只羊患病与否是彼此独立的。今研制一种新的预防药,任选5只羊做实验,结果这5只羊服用此药后均未患病。问此药是否有效。 初看起来,会认为这药一定有效,因为服药的羊均未患病。但细想一下,会有问题,因为大部分羊不服药也不会患病,患病的羊只占0.4左右。这5只羊都未患病,未必是药的作用。分析这问题的一个自然想法是:若药无效,随机抽取5只羊都不患病的可能性大不大。若这件事发生的概率很小,几乎不会发生,那么现在我们这几只羊都未患病,应该是药的效果,即药有效。 现假设药无效,5只羊都不生病的概率是 (1-0.4)5≈0.078. 这个概率很小,该事件几乎不会发生,但现在它确实发生了,说明我们的假设不对,药是有效的。 这里的分析思想有些像反证法,但并不相同。给定假设后,我们发现,一个概率很小几乎不会发生的事件却发生了,从而否定我们的“假设”。 应该指出的是,当我们作出判断“药是有效的”时,是可能犯错误的。犯错误的概率是0.078。也就是说,我们有近92%的把握认为药是有效的。 二、全国考纲的要求 17.统计案例 了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. ①独立检验 列联表)的基本思想、方法及简单应用. 了解独立检验(只要求22

高中数学统计与概率知识点(原稿)

高中数学统计与概率知识点(文) 第一部分:统计 一、什么是众数。 一组数据中出现次数最多的那个数据,叫做这组数据的众数。 众数的特点。 ①众数在一组数据中出现的次数最多;②众数反映了一组数据的集中趋势,当众数出现的次数越多,它就越能代表这组数据的整体状况,并且它能比较直观地了解到一组数据的大致情况。但是,当一组数据大小不同,差异又很大时,就很难判断众数的准确值了。此外,当一组数据的那个众数出现的次数不具明显优势时,用它来反映一组数据的典型水平是不大可靠的。 3.众数与平均数的区别。 众数表示一组数据中出现次数最多的那个数据;平均数是一组数据中表示平均每份的数量。 二、.中位数的概念。 一组数据按大小顺序排列,位于最中间的一个数据(当有偶数个数据时,为最中间两个数据的平均数)叫做这组数据的中位数。 三 .众数、中位数及平均数的求法。 ①众数由所给数据可直接求出;②求中位数时,首先要先排序(从小到大或从大到小),然后根据数据的个数,当数据为奇数个时,最中间的一个数就是中位数;当数据为偶数个时,最中间两个数的平均数就是中位数。③求平均数时,就用各数据的总和除以数据的个数,得数就是这组数据的平均数。 四、中位数与众数的特点。 ⑴中位数是一组数据中唯一的,可能是这组数据中的数据,也可能不是这组数据中的数据; ⑵求中位数时,先将数据有小到大顺序排列,若这组数据是奇数个,则中间的数据是中位数;若这组数据是偶数个时,则中间的两个数据的平均数是中位数; ⑶中位数的单位与数据的单位相同; ⑷众数考察的是一组数据中出现的频数; ⑸众数的大小只与这组数的个别数据有关,它一定是一组数据中的某个数据,其单位与数据的单位相同; (6)众数可能是一个或多个甚至没有; (7)平均数、众数和中位数都是描述一组数据集中趋势的量。

高中数学统计案例分析及知识点归纳总结

统计 一、知识点归纳 1、抽样方法: ①简单随机抽样(总体个数较少) ②系统抽样(总体个数较多) ③分层抽样(总体中差异明显) 注意:在N 个个体的总体中抽取出n 个个体组成样本,每个个体被抽到的机会(概率)均为N n 。 2、总体分布的估计: ⑴一表二图: ①频率分布表——数据详实 ②频率分布直方图——分布直观 ③频率分布折线图——便于观察总体分布趋势 注:总体分布的密度曲线与横轴围成的面积为1。 ⑵茎叶图: ①茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数、众位数等。 ②个位数为叶,十位数为茎,右侧数据按照从小到大书写,相同的数据重复写。 3、总体特征数的估计: ⑴平均数:n x x x x x n ++++= 321; 取值为n x x x ,,,21 的频率分别为n p p p ,,,21 ,则其平均数为n n p x p x p x +++ 2211; 注意:频率分布表计算平均数要取组中值。 ⑵方差与标准差:一组样本数据n x x x ,,,21 方差:2 1 2)(1 ∑=-= n i i x x n s ; 标准差:2 1 )(1∑=-= n i i x x n s 注:方差与标准差越小,说明样本数据越稳定。 平均数反映数据总体水平;方差与标准差反映数据的稳定水平。 ⑶线性回归方程 ①变量之间的两类关系:函数关系与相关关系; ②制作散点图,判断线性相关关系 ③线性回归方程:a bx y +=∧ (最小二乘法) 1 221n i i i n i i x y nx y b x nx a y bx ==? -? ?=??-??=-??∑∑ 注意:线性回归直线经过定点),(y x 。

高中数学统计案例--独立性检验 同步练习

统计案例--独立性检验 同步练习 1、下列关于卡方2χ的说法正确的是( ) A.2χ在任何相互独立问题中都可用与检验是否相关 B. 2χ的值越大,两个事件的相关性越大 C.2χ是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这类问题 D. ) )()()(() (2d b c a d c b a bc ad n ++++-= χ. 2、在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是( ) A. 若统计量635.62>χ,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病 B. 若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99人患有肺病 C. 若从统计量中求出有95%把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误 D. 以上说法均错误 3 A. 种子经过处理跟是否生病有关 B. 种子经过处理跟是否生病无关 C. 种子是否经过处理决定是否生病 D. 以上都是错误的 4、若由一个22?列联表中的数据计算得013.42=χ,那么有 的把握认为两个变量有关系. 5、独立性检验所采用的思路是:要研究A 、B 两类型因子彼此相关,首先假设这两类因子彼此 ,在此假设下构造2χ统计量.如果2χ的观测值较大,那么在一定程度上说明假设 . 6、某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该搜集那些数据? . 7、打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打与患心脏病有关吗?有多大把握认为你的结论成立?

8、为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50名患者服用 9、某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了189名员工进行调查,其中支持企业改革的调查者中,工作积极的54人,工作一般的32人,而不太赞成企业改革的调查者中,工作积极的40人,工作一般的63人. (1)根据以上数据建立一个2 2 的列联表; (2)对于人力资源部的研究项目,根据以上数据可以认为企业的全体员工对待企业改革的 态度与其工作积极性是否有关系?

(最全)高中数学概率统计知识点总结

概率与统计 一、普通的众数、平均数、中位数及方差 1、 众数:一组数据中,出现次数最多的数。 2、平均数:①、常规平均数:12n x x x x n ++???+= ②、加权平均数:112212n n n x x x x ωωωωωω++???+=++???+ 3、中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数。 4、方差:2222121 [()()()]n s x x x x x x n = -+-+???+- 二、频率直方分布图下的频率 1、频率 =小长方形面积:f S y d ==?距;频率=频数/总数 2、频率之和:121n f f f ++???+=;同时 121n S S S ++???+=; 三、频率直方分布图下的众数、平均数、中位数及方差 1、众数:最高小矩形底边的中点。 2、平均数: 112233n n x x f x f x f x f =+++???+ 112233n n x x S x S x S x S =+++???+ 3、中位数:从左到右或者从右到左累加,面积等于0.5时x 的值。 4、方差:22221122()()()n n s x x f x x f x x f =-+-+???+- 四、线性回归直线方程:???y bx a =+ 其中:1 1 2 22 1 1 ()() ?() n n i i i i i i n n i i i i x x y y x y nxy b x x x nx ====---∑∑== --∑∑ , ??a y bx =- 1、线性回归直线方程必过样本中心(,)x y ; 2、?0:b >正相关;?0:b <负相关。 3、线性回归直线方程:???y bx a =+的斜率?b 中,两个公式中分子、分母对应也相等;中间可以推导得到。 五、回归分析 1、残差:??i i i e y y =-(残差=真实值—预报值)。分析:?i e 越小越好; 2、残差平方和:21?()n i i i y y =-∑, 分析:①意义:越小越好; ②计算:222211221 ????()()()()n i i n n i y y y y y y y y =-=-+-+???+-∑ 3、拟合度(相关指数):221 2 1 ?()1() n i i i n i i y y R y y ==-∑=- -∑,分析:①.(]20,1R ∈的常数; ②.越大拟合度越高; 4、相关系数 :()() n n i i i i x x y y x y nx y r ---?∑∑= = 分析:①.[r ∈-的常数; ②.0:r >正相关;0:r <负相关 ③.[0,0.25]r ∈;相关性很弱; (0.25,0.75)r ∈;相关性一般; [0.75,1]r ∈;相关性很强; 六、独立性检验 1、2×2列联表: 2、独立性检验公式 ①.2 2() ()()()() n ad bc k a b c d a c b d -= ++++ ②.犯错误上界P 对照表 3、独立性检验步骤

回归分析及独立性检验的基本知识点及习题集锦

回归分析的基本知识点及习题 本周题目:回归分析的基本思想及其初步应用 本周重点: (1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别; (2)尝试做散点图,求回归直线方程; (3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。 本周难点: (1)求回归直线方程,会用所学的知识对实际问题进行回归分析. (2)掌握回归分析的实际价值与基本思想. (3)能运用自己所学的知识对具体案例进行检验与说明. (4)残差变量的解释; (5)偏差平方和分解的思想; 本周内容: 一、基础知识梳理 1.回归直线: 如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。 求回归直线方程的一般步骤: ①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→ ③写出回归直线方程,并利用回归直线方程进行预测说明. 2.回归分析: 对具有相关关系的两个变量进行统计分析的一种常用方法。 建立回归模型的基本步骤是: ①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; ②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系). ③由经验确定回归方程的类型. ④按一定规则估计回归方程中的参数(最小二乘法); ⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等. 3.利用统计方法解决实际问题的基本步骤: (1)提出问题; (2)收集数据; (3)分析整理数据; (4)进行预测或决策。 4.残差变量的主要来源: (1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。 可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。这 种由于模型近似所引起的误差包含在中。 (2)忽略了某些因素的影响。影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重 关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。 (3)观测误差。由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可 能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在中。 上面三项误差越小,说明我们的回归模型的拟合效果越好。

高中数学 1.3 统计图表课后作业 北师大版必修3

§3统计图表 一、非标准 1.某支股票近10个交易日的价格如下: 下列几种统计图中,表示上面的数据较合适的是( ) A.条形统计图 B.扇形统计图 C.折线统计图 D.茎叶图 解析:对于股票,我们最关心它的涨跌情况,即价格的增减变化情况,因此用折线统计图较合适. 答案:C 2.某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用的时间的数据,结果用条形统计图(如下图)表示.根据条形统计图可得这50名学生这一天平均每人的课外阅读时间为( ) A.0.6时 B.0.9时 C.1.0时 D.1.5时 解析:这50名学生这一天平均每人的课外阅读时间为(0×5+0.5×20+1.0×10+1.5×10+2.0×5)÷50=0.9(时). 答案:B 3.如图是甲、乙、丙、丁四组人数的扇形统计图的部分结果,根据扇形统计图的情况可以知道丙、丁两组人数和为( ) A.250 B.150 C.400 D.300 解析:甲组人数是120,占30%,则总人数是=400.则乙组人数是400×7.5%=30,则丙、丁两组人数和为400-120-30=250. 答案:A 4.如图是某赛季甲、乙两名篮球运动员每场比赛得分的茎叶图,则甲、乙两人这几场比赛得

的最高分分别为( ) A.51,83 B.41,47 C.51,47 D.41,83 答案:B 5.甲、乙两班学生的体育成绩的条形统计图如图所示,不用计算,体育成绩好的班级是( ) A.甲班 B.乙班 C.甲、乙一样 D.无法确定 解析:由两个条形统计图中各部分的人数可知乙班学生的体育成绩好一些. 答案:B 6.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委对参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91.复核员在复核时,发现有一个数字(茎叶图中的x)无法看清.若记分员计算无误,则数字x应该是( ) A.1 B.2 C.4 D.6 解析:若x≤4,因为平均分为91,所以总分应为637,即637=89+89+92+93+92+91+90+x,所以x=1.若x>4,637≠89+89+92+93+92+91+94=640,不合题意. 答案:A 7.某班学生在课外活动中参加文娱、美术、体育小组的人数之比为3∶1∶6,则在扇形统计图中表示参加体育小组人数的扇形对应的圆心角的度数是. 解析:所求圆心角的度数是×100%×360°=216°. 答案:216° 8.如图是某市5月1日至5月7日每天最高、最低气温的折线统计图,在这7天中,日温差最大的一天是,最大日温差等于℃. 解析:逐一计算发现,5月5日的日温差最大,最大日温差为24.5-12=12.5(℃). 答案:5月5日12.5

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习 A组 一、选择题 1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为() A.200 B.240 C.400 D.480 解析:选C设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,由此估计学生人数为0.4×1 000=400. 2.AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0~50),二级良(51~100),三级轻度污染(101~150),四级中度污染(151~200),五级重度污染(201~300),六级严重污染(大于300).如图是昆明市2019年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2020年4月份空气质量优的天数为() A.3 B.4 C.12 D.21

解析:选C从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为4 10= 2 5, 所以估计昆明市2020年4月份空气质量为优的天数为30×2 5=12,故选C. 3.(成都模拟)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图. 已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是() A.最低气温与最高气温为正相关 B.10月的最高气温不低于5月的最高气温 C.月温差(最高气温减最低气温)的最大值出现在1月 D.最低气温低于0 ℃的月份有4个 解析:选D在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D. 4.(承德模拟)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是() A.是否倾向选择生育二胎与户籍有关 B.是否倾向选择生育二胎与性别无关

高中数学 第三章 统计案例 3.1 独立性检验 卡方检验素材 苏教版选修2-3

2 χ 检验 (一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2 χ检验。 (1) 四格表2 χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2 χ检验。 3. 行?列表的2 χ检验。 (二) 熟悉内容 频数分布拟合优度的2 χ检验。 (三) 了解内容 1.2 χ分布的图形。 2.四格表的确切概率法。 (一) 2χ检验的用途 2χ检验(Chi-square test )用途较广,主要用途如下: 1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2 χ检验的基本思想 1.2 χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2 χ值不应该很大,若实际计算出的2 χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑ -= T T A 2 2 χ,A 为实际频数(Actual Frequency ),T 为理论频数 (Theoretical Frequency )。四格表2 χ检验的专用公式正是由此公式推导出来的,用专用公 式与用基本公式计算出的2χ值是一致的。 (三)率的抽样误差与可信区间 1.率的抽样误差与标准误 样本率与总体率之间存在抽样误差,其度量方法: n p ) 1(ππσ-= ,π为总体率,或 (8-1) n p p S p ) 1(-= , p 为样本率; (8-2) 2.总体率的可信区间 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。 总体率的可信区间:(p p S u p S u p ?+?-2/2/,αα)。 (8-3) (四)2 χ检验的基本计算

高中数学必修三 概率与统计

高中数学必修三:概率与统计 1.要从已编号(1-50)的50枚最新研制的某型号导弹中随机抽取5枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5枚导弹的编号可能是( ). A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5D.2,4,8,16,32 2.从鱼塘捕得同一时间放养的草鱼240尾,从中任选9尾,称得每尾鱼的质量分别是1.5,1.6,1.4,1.6,1.3,1.4,1.2,1.7,1.8(单位:千克).依此估计这240尾鱼的总质量大约是( ).A.300克B.360千克C.36千克D.30千克 3.以下茎叶图记录了甲.乙两组各五名学生在一次英语听力测试中的成绩(单位:分) 已知甲组数据的中位数为15,乙组数据的平均数为16.8,则,x y的值分别为()A.2,5B.5,5C.5,8D.8,8 4.为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1,l2,已知两人得的试验数据中,变量x和y的数据的平均值都分别相等,且值分别为s与t,那么下列说法正确的是( ). A.直线l1和l2一定有公共点(s,t)B.直线l1和l2相交,但交点不一定是(s,t) C.必有直线l1∥l2 D.直线l1和l2必定重合 5..设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为$y=0.85x-85.71,则下列结论中不正确的是( ).A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重比为58.79kg

高中数学统计、统计案例知识点总结和典例

统计 一.简单随机抽样:抽签法和随机数法 1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。 2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。 抽签法的一般步骤:a、将总体的个体编号。 b、连续抽签获取样本号码。 3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。 随机数表法的步骤:a、将总体的个体编号。b、在随机数表中选择开始数字。c、读数获取样本号码。 4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。 二.系统抽样: 1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。 系统抽样的一般步骤: (1)采用随机抽样的方法将总体中的N个个编号。 (2)将整体按编号进行分段,确定分段间隔k=N/n。(k∈N,L≤k). (3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。 (4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。 在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k。 三.分层抽样: 1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。 分层抽样的步骤: (1)分层:按某种特征将总体分成若干部分。(2)按比例确定每层抽取个体的个数。 (3)各层分别按简单随机抽样的方法抽取。(4)综合每层抽样,组成样本。 2.分层抽样是当总体由差异明显的几部分组成时采用的抽样方法,进行分层抽样时应注意以下几点: (1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面层之间的样本差异要大,且互不重叠。 (2)为了保证每个个体等可能入样,所有层应采用同一抽样比等可能抽样。 (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样。 四.用样本的频率分布估计总体分布: 1.频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布。 其一般步骤为:(1)计算一组数据中最大值与最小值的差,即求极差(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布直方图 2.频率分布折线图、总体密度曲线 频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。

相关主题
文本预览
相关文档 最新文档