第三讲 正态分布、统计与统计案例
- 格式:doc
- 大小:1.80 MB
- 文档页数:22
华北水利水电学院正态分布的性质及实际应用举例课程名称:概率论与数理统计专业班级:电气工程及其自动化091班成员组成:姓名:邓旗学号: 2姓名:王宇翔学号:1姓名:陈涵学号:2联系方式:2012年5月24日1 引言:正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
本文就从正态分布的实际性质应用举例等各个方面进行简单阐述并进行探讨,使同学们能够对所掌握的知识有更清楚地认识。
2 研究问题及成果:正态分布性质;3原则及标准正态分布;实际应用举例说明摘要:正态分布是最重要的一种概率分布。
正态分布概念是由德国数学家与天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学研究,故此正态分布又称高斯分布。
在许多实际问题中遇到的随机变量都服从或近似服从正态分布:在生产中,产品的质量指标,如电子管的使用寿命,电容器的电容量,零件的尺寸。
铁水含磷量,纺织品的纤度和强度等一般都服从正态分布。
在测量中,如大地测量,天平称量物体,化学分析某物之中某元素的含量等,测量结果一般服从正态分布。
在生物学中,同一群体的某种特性指标,如某地同龄儿童的身高,体重,肺活量,在一定条件下生长的农作物的产量等一般服从正态分布。
在气象学中,某地每年7月份的平均气温,平均温度以及降水量等一般也服从正态分布。
总之。
正态分布广泛存在于自然现象,社会现象以及生产,科学技术的各个领域中。
本文就从正态分布的实际性质应用举例等各个方面进行简单阐述并进行探讨,使同学们能够对所掌握的知识有更清楚地认识。
关键词:正态分布The nature of the normal distribution and the example of practical applicationAbstract:the normal distribution is the probability distribution of one of the most important. Normal distribution concepts is Germany first proposed by mathematician and astronomer Moivre in 1733, but since Germany mathematician Gauss first applied in astronomy, so also called the Gaussian distribution of the normal distribution. In many practical problems encountered in the approximate normal distribution random variables are subject to, or: in production, product quality indicators, such as the life of the tube, the capacitance of capacitors, dimensions of the part. Phosphorus content in hot metal, textile fibers and strength are generally subject to the normal distribution. In surveying, geodesy, weighing scales objects, such as chemical analysis of some of the content of an element, General normal distribution measurement results. In biology, a certain characteristic index of the same group, such as a certain age children's height, body weight, vital capacity, under certain conditions the yield of crops on the growth of General normal distribution. In meteorology, a place every July average temperature, average temperature and precipitation generally normal distribution. All in all. Normal distribution is widely present in natural phenomena, social phenomena, as well as the production, in the various fields of science and technology. This article from the actual properties of the normal distribution apply to explore various aspects, such as for example a simple elaboration and, enable students to acquire knowledge have a better understanding.Key words:Normal distribution Practical application正态分布的性质及实际应用举例概率论在一定的社会条件下,通过人类的社会实践和生产活动发展起来,被广泛应用于各个领域,在国民经济的生产和生活中起着重要的作用。
《概率论与数理统计》课程思政典型案例一、课程简介《概率论与数理统计》是高等学校理工科专业的一门重要的基础理论课,它是研究自然界、人类社会及技术过程中大量随机现象统计规律性的一门数学学科。
本课程的任务是使学生掌握概率论与数理统计的基本概念,了解它的基本理论和基本方法,从而使学生初步掌握处理随机现象的基本思想和方法,培养学生运用概率统计方法分析、处理、解决实际问题的基本技能和基本素质。
二、课程思政设计《概率论与数理统计》虽然是一门数学类课程,但是生活中,这门课程的应用实际上早已超越了数学的范畴,在各个行业,领域中均有十分广泛的应用。
在教学实施过程中,结合课程的知识结构特点,挖掘思政元素,使得思想政治教育融入课程,融入课堂,做到入耳、入眼、入心,深入学生血液,成为学生的潜意识、持久稳定的精神需求,进而固化为学生的日常行为习惯,最终变成学生认识武器和行动武器。
(一)思政教育融入物种进化,感受生命之美在上第一次课的时候,会讲到概率的起源、发展及其在哪些领域有应用。
本节课就是从生命起源物种进化讲起,地球从有生命开始出现过亿万种物种,经历了五次大灭绝事件,99.9%的物种都灭绝了,只有人类这一支进化成了人种,进而向学生提问“进化为人类的概率是多少?”,答案是亿万分之一。
亿万分之一的概率发生在我们身上,那么我们每个人生而为人是不是应该感到幸运和自豪呢,是不是应该更加的珍爱生命,努力生活,让每一天都有意义呢。
并进一步用概率知识计算两个人相遇的概率,让学生体会人生中的不确定性以及珍惜老师与学生、学生与学生的相遇。
尤其是在2020年全球疫情背景下,引发学生体会生命的无常和微弱,培养学生热爱生命,敬畏生命的品质。
(二)思政教育融入爱国情怀,树立价值观在讲授统计部分的参数估计和假设检验章节时,要特别介绍我国在这方面研究的先驱者——许宝騄教授。
许教授在加强独立随机变量列强大数定律结论、参数估计理论、假设检验理论、多元分析等方面都取得了卓越成就,并且是世界公认的多元分析的奠基人之一。
概率统计中的正态分布与标准正态分布分析正态分布是概率统计学中最重要的分布之一,因其广泛应用于自然科学、社会科学和工程技术等领域,成为了统计学的基石之一。
本文将对正态分布及标准正态分布进行分析,并探讨其在概率统计中的重要性。
正态分布,又称高斯分布,是指在概率论和统计学中常见的一种连续概率分布。
它的特点是具有对称性,其概率密度曲线呈钟形,两侧的尾部渐进于x轴。
正态分布可以由两个参数来决定:均值μ和方差σ^2。
其中,均值决定了曲线的位置,方差决定了曲线的形状。
正态分布的概率密度函数为:f(x) = (1 / (σ√(2π))) * e^(-(x-μ)^2 / (2σ^2))正态分布在实际应用中非常广泛,尤其在大样本量下,许多变量都呈现出近似正态分布的特征。
根据中心极限定理,当样本量足够大时,无论原始数据服从何种分布,其样本均值的分布都接近于正态分布。
这使得正态分布成为统计推断的基础。
例如,在假设检验中,我们常使用正态分布来计算拒绝域和P值。
此外,正态分布还常用于构建置信区间、回归分析和因子分析等统计方法中。
标准正态分布是正态分布的一种特殊形式,也被称为单位正态分布。
它具有均值μ=0和方差σ^2=1的特点,其概率密度函数为:φ(x) = (1 / √(2π)) * e^(-x^2 / 2)标准正态分布的特殊性在于,其所有的分位数和累积概率都可以通过查表得到,这是因为标准正态分布的累积分布函数不依赖于具体的均值和方差。
相关的Z分数表可以用来计算标准正态分布中的分位数。
我们可以利用标准正态分布的特性,将其他服从正态分布的随机变量转换为标准正态分布,并通过查表计算分位数和计算概率。
标准正态分布在实际应用中也非常重要。
例如,在统计推断中,我们经常使用标准正态分布对样本均值和样本比例进行推断。
具体来说,我们根据样本均值与总体均值之间的差异,以及样本比例与总体比例之间的差异,来做出统计推断。
通常情况下,我们会将样本均值或样本比例标准化为Z分数,然后利用标准正态分布的性质进行概率计算或假设检验。
《正态分布》说课稿正态分布是统计学中非常重要的一个概念,它描述了大量随机变量的分布规律,被广泛应用于各个领域的数据分析和预测中。
本文将介绍正态分布的基本概念、性质、应用以及如何利用正态分布进行统计推断。
一、正态分布的基本概念1.1 正态分布的定义:正态分布又称高斯分布,是一种连续概率分布,其概率密度函数呈钟形曲线,左右对称,中间最高。
1.2 正态分布的特点:正态分布具有唯一的均值和标准差,均值决定了曲线的中心位置,标准差决定了曲线的宽度。
1.3 正态分布的标准化:通过标准化可以将正态分布转化为标准正态分布,即均值为0,标准差为1的正态分布。
二、正态分布的性质2.1 正态分布的均值和中位数相等:正态分布的均值和中位数相等,即曲线对称中心位置处的值。
2.2 正态分布的68-95-99.7法则:约68%的数据落在均值附近的一个标准差范围内,约95%的数据落在两个标准差范围内,约99.7%的数据落在三个标准差范围内。
2.3 正态分布的线性组合仍然是正态分布:对于正态分布的线性组合,如两个正态分布的和或差,仍然是正态分布。
三、正态分布的应用3.1 在自然科学中的应用:正态分布常用于测量误差、实验数据分析等领域,如物理学、化学等。
3.2 在社会科学中的应用:正态分布被广泛应用于人口统计、心理学研究、经济学分析等领域。
3.3 在工程技术中的应用:正态分布在质量控制、可靠性分析、风险评估等方面有重要应用。
四、利用正态分布进行统计推断4.1 正态分布的参数估计:通过样本数据估计总体的均值和标准差,得到对总体的估计。
4.2 正态分布的假设检验:利用正态分布进行假设检验,判断总体参数是否符合某种假设。
4.3 正态分布的置信区间估计:通过正态分布的性质,构建总体参数的置信区间,对总体参数进行估计。
五、结语正态分布作为统计学中重要的概念,具有丰富的性质和广泛的应用。
通过深入理解正态分布的基本概念和性质,我们可以更好地应用正态分布进行数据分析和推断,为各个领域的研究和实践提供有力支持。
人教A 版高中数学目录必修1第一章集合与函数概念1 1..1 1 集合集合 1 1..2 2 函数及其表示函数及其表示 1 1..3 3 函数的基本性质函数的基本性质第二章基本初等函数(Ⅰ)2.1 1 指数函数指数函数 2 2..2 2 对数函数对数函数 2 2..3 3 幂函数幂函数第三章函数的应用3.1 1 函数与方程函数与方程 3 3..2 2 函数模型及其应用函数模型及其应用必修2第一章空间几何体1 1..1 1 空间几何体的结构空间几何体的结构 1 1..2 2 空间几何体的三视图和空间几何体的三视图和直观图1 1..3 3 空间几何体的表面积与空间几何体的表面积与体积第二章点、直线、平面之间的位置关系2 2..1 1 空间点、直线、平面之空间点、直线、平面之间的位置关系2 2..2 2 直线、平面平行的判定直线、平面平行的判定及其性质 2 2..3 3 直线、平面垂直的判定直线、平面垂直的判定及其性质第三章直线与方程3.1 1 直线的倾斜角与斜率直线的倾斜角与斜率 3 3..2 2 直线的方程直线的方程3 3..3 3 直线的交点坐标与距离直线的交点坐标与距离公式必修3第一章算法初步1 1..1 1 算法与程序框图算法与程序框图 1 1..2 2 基本算法语句基本算法语句 1 1..3 3 算法案例算法案例阅读与思考割圆术第二章统计2 2..1 1 随机抽样随机抽样阅读与思考一个著名的案例阅读与思考广告中数据的可靠性阅读与思考如何得到敏感性问题的诚实反应 2 2..2 2 用样本估计总体用样本估计总体阅读与思考生产过程中的质量控制图2 2..3 3 变量间的相关关系变量间的相关关系阅读与思考相关关系的强与弱第三章概率3 3..1 1 随机事件的概率随机事件的概率阅读与思考天气变化的认识过程 3 3..2 2 古典概型古典概型 3 3..3 3 几何概型几何概型必修4第一章三角函数1 1..1 1 任意角和弧度制任意角和弧度制 1 1..2 2 任意角的三角函数任意角的三角函数1 1..3 3 三角函数的诱导公式三角函数的诱导公式 1 1..4 4 三角函数的图象与性质三角函数的图象与性质 1 1..5 5 函数函数y=Asin y=Asin((ωx+ψ) 1 1..6 6 三角函数模型的简单应三角函数模型的简单应用第二章平面向量 2 2..1 1 平面向量的实际背景及平面向量的实际背景及基本概念 2 2..2 2 平面向量的线性运算平面向量的线性运算 2 2..3 3 平面向量的基本定理及平面向量的基本定理及坐标表示 2 2..4 4 平面向量的数量积平面向量的数量积 2 2..5 5 平面向量应用举例平面向量应用举例第三章三角恒等变换3 3..1 1 两角和与差的正弦、余两角和与差的正弦、余弦和正切公式 3 3..2 2 简单的三角恒等变换简单的三角恒等变换必修5第一章解三角形1.1正弦定理和余弦定理1.2应用举例1.3实习作业第二章数列2.1数列的概念与简单表示法2.2等差数列2.3等差数列的前n 项和2.4等比数列2.5等比数列的前n 项和第三章不等式3.1不等关系与不等式3.2一元二次不等式及其解法3.3二元一次不等式(组)与简单的线性规划问题3.3.1二元一次不等式(组)与平面区域3.3.2简单的线性规划问题3.4基本不等式选修1-1第一章常用逻辑用语1.1命题及其关系1.2充分条件与必要条件1.3简单的逻辑联结词1.4全称量词与存在量词第二章圆锥曲线与方程2.1椭圆2.2双曲线2.3抛物线第三章导数及其应用3.1变化率与导数3.2导数的计算3.3导数在研究函数中的应用的应用3.4生活中的优化问题举例举例选修1-2第一章第一章 统计案例统计案例 1.1 回归分析的基本思想及其初步应用思想及其初步应用 1.2 独立性检验的基本思想及其初步应用本思想及其初步应用第二章第二章 推理与证明推理与证明 2.1 合情推理与演绎证明证明2.2 直接证明与间接证明证明第三章第三章 数系的扩充与复数的引入与复数的引入3.1数系的扩充和复数的概念的概念3.2复数代数形式的四则运算则运算第四章第四章 框图框图 4.1流程图流程图 4.2结构图结构图选修2-1第一章第一章 常用逻辑用语1.1 命题及其关系命题及其关系 1.2 充分条件与必要条件条件1.3 简单的逻辑联结词1.4 全称量词与存在量词量词第二章第二章 圆锥曲线与方程方程2.1 曲线与方程曲线与方程2.2 椭圆椭圆 2.3 双曲线双曲线 2.4 抛物线抛物线第三章第三章 空间向量与立体几何立体几何3.1 空间向量及其运算3.2 立体几何中的向量方法量方法选修2-2第一章第一章 导数及其应用1.1 变化率与导数变化率与导数1.2 导数的计算导数的计算1.3 导数在研究函数中的应用中的应用1.4 生活中的优化问题举例题举例1.5 定积分的概念定积分的概念 1.6 微积分基本定理微积分基本定理 1.7 定积分的简单应用第二章第二章 推理与证明推理与证明 2.1 合情推理与演绎推理推理2.2 直接证明与间接证明证明2.3 数学归纳法数学归纳法第三章 数系的扩充与复数的引入与复数的引入3.1 数系的扩充和复数的概念数的概念3.2 复数代数形式的四则运算四则运算选修2-3第一章第一章 计数原理计数原理1.1 分类加法计数原理与分步乘法计数原理理与分步乘法计数原理1.2 排列与组合排列与组合 1.3 二项式定理二项式定理第二章第二章 随机变量及其分布其分布2.1 离散型随机变量及其分布列及其分布列2.2 二项分布及其应用2.3 离散型随机变量的均值与方差的均值与方差2.4 正态分布正态分布 第三章第三章 统计案例统计案例3.1 回归分析的基本思想及其初步应用思想及其初步应用 3.2 独立性检验的基本思想及其初步应用本思想及其初步应用选修3-1第一讲第一讲 早期的算术与几何与几何第二讲第二讲 古希腊数学古希腊数学 第三讲第三讲 中国古代数学瑰宝学瑰宝第四讲第四讲 平面解析几何的产生何的产生第五讲第五讲微积分的诞生 第六讲第六讲 近代数学两巨星巨星第七讲第七讲 千古谜题千古谜题第八讲第八讲 对无穷的深入思考入思考第九讲第九讲 中国现代数学的开拓与发展学的开拓与发展选修3-2选修3-3第一讲第一讲 从欧氏几何看球面看球面第二讲第二讲 球面上的距离和角离和角第三讲第三讲 球面上的基本图形本图形第四讲第四讲 球面三角形球面三角形 第五讲第五讲 球面三角形的全等的全等第六讲第六讲 球面多边形与欧拉公式与欧拉公式第七讲第七讲 球面三角形的边角关系边角关系第八讲第八讲 欧氏几何与非欧几何非欧几何选修3-4第一讲第一讲 平面图形的对称群对称群第二讲第二讲 代数学中的对称与抽象群的概念对称与抽象群的概念 第三讲第三讲 对称与群的故事故事选修4-1第一讲第一讲 相似三角形的判定及有关性质的判定及有关性质第二讲 直线与圆的位置关系位置关系第三讲 圆锥曲线性质的探讨质的探讨选修4-2第一讲 线性变换与二阶矩阵二阶矩阵第二讲 变换的复合与二阶矩阵的乘法与二阶矩阵的乘法 第三讲 逆变换与逆矩阵矩阵第四讲 变换的不变量与矩阵的特征向量量与矩阵的特征向量选修4-3 选修4-4第一讲第一讲 坐标系坐标系 第二讲第二讲 参数方程参数方程选修4-5第一讲 不等式和绝对值不等式对值不等式第二讲 证明不等式的基本方法的基本方法第三讲 柯西不等式与排序不等式与排序不等式第四讲 数学归纳法证明不等式证明不等式选修4-6第一讲第一讲 整数的整除整数的整除 第二讲第二讲 同余与同余方程方程第三讲第三讲 一次不定方程第四讲第四讲 数伦在密码中的应用中的应用选修4-7第一讲第一讲 优选法优选法 第二讲第二讲 试验设计初步选修4-8选修4-9第一讲第一讲 风险与决策的基本概念的基本概念第二讲第二讲 决策树方法决策树方法 第三讲第三讲 风险型决策的敏感性分析的敏感性分析第四讲第四讲 马尔可夫型决策简介决策简介高中人教版(高中人教版(B B )教材目录介绍必修一第一章第一章 集合集合1.1 1 集合与集合的表示方法集合与集合的表示方法集合与集合的表示方法 1 1..2 2 集合之间的关系与运算集合之间的关系与运算集合之间的关系与运算 第二章第二章 函数函数2 2..1 1 函数函数函数 2 2..2 2 一次函数和二次函数一次函数和二次函数一次函数和二次函数 2 2..3 3 函数的应用(Ⅰ)函数的应用(Ⅰ)函数的应用(Ⅰ) 2 2..4 4 函数与方程函数与方程函数与方程第三章第三章 基本初等函数(Ⅰ)3 3..1 1 指数与指数函数指数与指数函数指数与指数函数 3 3..2 2 对数与对数函数对数与对数函数对数与对数函数3 3..3 3 幂函数幂函数幂函数 3 3..4 4 函数的应用(Ⅱ)函数的应用(Ⅱ)函数的应用(Ⅱ)必修二第一章第一章 立体几何初步立体几何初步1.1 1 空间几何体空间几何体空间几何体 1 1..2 2 点、线、面之间的位置点、线、面之间的位置关系关系第二章第二章 平面解析几何初步平面解析几何初步 2 2..1 1 平面真角坐标系中的基平面真角坐标系中的基本公式本公式2 2..2 2 直线方程直线方程直线方程 2 2..3 3 圆的方程圆的方程圆的方程 2 2..4 4 空间直角坐标系空间直角坐标系空间直角坐标系必修三第一章第一章 算法初步算法初步1.1 1 算法与程序框图算法与程序框图算法与程序框图 1 1..2 2 基本算法语句基本算法语句基本算法语句 1 1..3 3 中国古代数学中的算法中国古代数学中的算法案例案例第二章第二章 统计统计2.1 1 随机抽样随机抽样随机抽样 2 2..2 2 用样本估计总体用样本估计总体用样本估计总体 2 2..3 3 变量的相关性变量的相关性变量的相关性第三章第三章 概率概率3.1 1 随机现象随机现象随机现象 3 3..2 2 古典概型古典概型古典概型 3 3..3 3 随机数的含义与应用随机数的含义与应用随机数的含义与应用 3 3..4 4 概率的应用概率的应用概率的应用必修四第一章第一章 基本初等函基本初等函((Ⅱ) 1 1..1 1 任意角的概念与弧度制任意角的概念与弧度制任意角的概念与弧度制 1 1..2 2 任意角的三角函数任意角的三角函数任意角的三角函数 1 1..3 3 三角函数的图象与性质三角函数的图象与性质三角函数的图象与性质第二章第二章 平面向量平面向量 2 2..1 1 向量的线性运算向量的线性运算向量的线性运算 2 2..2 2 向量的分解与向量的坐向量的分解与向量的坐标运算标运算 2 2..3 3 平面向量的数量积平面向量的数量积平面向量的数量积2 2..4 4 向量的应用向量的应用向量的应用第三章第三章 三角恒等变换三角恒等变换3.1 1 和角公式和角公式和角公式 3 3..2 2 倍角公式和半角公式倍角公式和半角公式倍角公式和半角公式 3 3..3 3 三角函数的积化和差与三角函数的积化和差与和差化积和差化积必修五第一章第一章 解直角三角形解直角三角形1.1 1 正弦定理和余弦定理正弦定理和余弦定理正弦定理和余弦定理 1 1..2 2 应用举例应用举例应用举例第二章第二章 数列数列2 2..1 1 数列数列数列 2 2..2 2 等差数列等差数列等差数列 2 2..3 3 等比数列等比数列等比数列第三章第三章 不等式不等式3 3..1 1 不等关系与不等式不等关系与不等式不等关系与不等式 3 3..2 2 均值不等式均值不等式均值不等式3 3..3 3 一元二次不等式及其解一元二次不等式及其解法 3 3..4 4 不等式的实际应用不等式的实际应用不等式的实际应用 3 3..5 5 二元一次不等式(组)二元一次不等式(组)与简单线性规划问题与简单线性规划问题选修1-1第一章第一章 常用逻辑用语常用逻辑用语1.1 1 命题与量词命题与量词命题与量词 1 1..2 2 基本逻辑联结词基本逻辑联结词基本逻辑联结词 1 1..3 3 充分条件、必要条件与充分条件、必要条件与命题的四种形式命题的四种形式第二章第二章 圆锥曲线与方程圆锥曲线与方程2.1 1 椭圆椭圆椭圆 2 2..2 2 双曲线双曲线双曲线 2 2..3 3 抛物线抛物线抛物线第三章第三章 导数及其应用导数及其应用3 3..1 1 导数导数导数 3 3..2 2 导数的运算导数的运算导数的运算 3 3..3 3 导数的应用导数的应用导数的应用选修1-2第一章第一章 统计案例统计案例 第二章第二章 推理与证明推理与证明 第三章第三章 数系的扩充与复数的引入的引入 第四章第四章 框图框图选修4-5第一章第一章 不等式的基本性质和证明的基本方法和证明的基本方法1 1..1 1 不等式的基本性质和一不等式的基本性质和一元二次不等式的解法元二次不等式的解法 1 1..2 2 基本不等式基本不等式基本不等式1 1..3 3 绝对值不等式的解法绝对值不等式的解法绝对值不等式的解法 1 1..4 4 绝对值的三角不等式绝对值的三角不等式绝对值的三角不等式 1 1..5 5 不等式证明的基本方法不等式证明的基本方法不等式证明的基本方法第二章第二章 柯西不等式与排序不等式及其应用不等式及其应用2.1 1 柯西不等式柯西不等式柯西不等式 2 2..2 2 排序不等式排序不等式排序不等式 2 2..3 3 平均值不等式平均值不等式平均值不等式((选学选学) ) 2 2..4 4 最大值与最小值问题,最大值与最小值问题,优化的数学模型优化的数学模型第三章第三章 数学归纳法与贝努利不等式利不等式3.1 1 数学归纳法原理数学归纳法原理数学归纳法原理 3 3..2 2 用数学归纳法证明不等用数学归纳法证明不等式,贝努利不等式式,贝努利不等式。
假设检验(hypothesis testing)方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)➢概述假设检验是分析数据的一种方法。
回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。
这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。
这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。
最有名的分布就是正态分布,它是:检验的基础。
t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。
➢适用场合·想知道一组或更多组数据的平均值、比例、方差或其他特征时;·当结论是基于更大总体中所取得的样本时。
例如:·想确定一个过程的均值或方差有否改变;·想确定很多数据集的均值或方差是否不同:·想确定两组不同的数据集的比例是否不同;·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。
➢实施步骤假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。
虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。
如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。
这些定义解释了假设检验的慨念,然后再回来看这个步骤。
本书不可能详细地涉及假设检验。
这个步骤是个综述和快速参考。
要得到更多的信息,查阅统计学参考书或请教统计学家。
1确定要从数据中获得的结论。
选择适当的检验方法。
用哪种检验取决于检验的目的和数据的种类。
专题八 概率与统计 第三讲 统计与统计案例——2023届高考理科数学大单元二轮复习练重点【新课标全国卷】1.在某次赛车中,50名参赛选手的成绩(单位:min )全部介于13到18之间(包括13和18).现将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示.若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A.11B.15C.35D.392.某学校组织学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[)20,40,[)40,60,[)60,80,[]80,100.若低于60分的人数是15人,则参加英语测试的学生人数是( )A.45B.50C.55D.603.我国是一个农业大国,从事农业工作的人员有5.4亿,如图为某县农村从业人员年龄结构图,为了解该县从业人员在从事农业工作中的实际困难,以推进县乡村振兴工作,某调查机构计划从某县的所有从业人员中随机抽取20人展开某项调研,则所抽取的20人中恰有2人的年龄在20岁以下的概率约为( ) (170.90.167≈,180.90.15≈,190.90.135≈,200.90.122≈)A.0.25B.0.29C.0.32D.0.354.某校高一年级在某次数学测验中成绩不低于80分的所有考生的成绩统计表如下:A.在[90,100]内B.在(100,110]内C.在(110,120]内D.在(120,130]内5.若某同学连续3次考试的名次(3次考试均没有出现并列名次的情况)不低于第3名,则称该同学为班级的尖子生.根据甲、乙、丙、丁四位同学过去连续3次考试名次的数据,推断一定是尖子生的是( )A.甲同学:平均数为2,众数为1B.乙同学:平均数为2,方差小于1C.丙同学:中位数为2,众数为2D.丁同学:众数为2,方差大于16.2021年某省高考体育百米测试中,成绩全部介于12秒与18秒之间,抽取其中100个样本,将测试结果按如下方式分成六组:第一组[12,13),第二组[13,14),…,第六组[17,18],得到如下的频率分布直方图.则该100考生的成绩的平均数和中位数(保留一位小数)分别是( )A.15.2 15.3B.15.1 15.4C.15.1 15.3D.15.2 15.37.设样本数据1x ,2x ,…,10x 的平均数和方差分别为1和4,若i i y x a =+(a 为非零常数,1,2,,10i =),则1y ,2y ,…,10y 的平均数和方差分别为( ) A.1a +,4B.1a +,4a +C.1,4D.1,4a +8.已知变量x ,y 之间的一组数据如下表:若y 关于x 的线性回归方程为0.7y x a =+,则a =( ) A.0.1B.0.2C.0.35D.0.459.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得经验回归直线方程0.6754.9y x =+,表中有一个数据模糊不清,请你推断出该数据的值为( )C.68 10.第24届冬季奥林匹克运动会将于2022年在北京举办.为了解某城市居民对冰雪运动的关注情况,随机抽取了该市100人进行调查统计,得到如下22⨯列联表.参考公式:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.附表:A.该市女性居民中大约有5%的人关注冰雪运动B.该市男性届民中大约有95%的人关注冰雪运动C.有95%的把握认为该市居民是否关注冰雪运动与性别有关D.有99%的把握认为该市居民是否关注冰雪运动与性别有关11.一个项目由15个专家评委投票表决,剔除一个最高分96,一个最低分58后所得到的平均分为92,方差为16,那么原始得分的方差为_______.12.经市场调查,某款热销品的销售量y(万件)与广告费用x(万元)之间满足回归直线方程 3.5=+.若样本点中心为(45,35),则当销售量为52.5万件时,可估计投入y bx的广告费用为_________________万元.13.某学校为了制订治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:14.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)8.602.15.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):1(优) (2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的22⨯列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.附:2()()()()K a b c d a c b d =++++,)2kk答案以及解析1.答案:A解析:由题意可得,成绩在[13,15)内的频率为10.080.320.380.22---=.又本次赛车中,共50名参赛选手,所以这50名选手中获奖的人数为500.2211⨯=.故选A. 2.答案:B解析:根据频率分布直方图的特点可知,低于60分的频率是(0.0050.01)200.3+⨯=,则所求学生人数是15500.3=. 3.答案:B解析:由频率分布直方图可得20岁以下的农村从业人员的概率为0.1,所以从所有从业人员中抽取20人,其中恰有2人的年龄在20岁以下的概率为221820C (0.1)(0.9)0.2850.29≈≈,故选B. 4.答案:B解析:由表可知,及格的考生共有401512105284+++++=人,在[90,100]内有40人,在(100,110]内有15人,故及格的所有考生成绩的中位数在(100,110]内.5.答案:B解析:甲同学:若平均数为2,众数为1,则有一次名次应为4,故排除A ;乙同学:平均数为2,设乙同学3次考试的名次分别为1x ,2x ,3x ,则方差()()()2222123122213s x x x ⎡⎤=-+-+-<⎣⎦,则()()()2221232223x x x -+-+-<,所以1x ,2x ,3x 均不大于3,符合题意;丙同学:中位数为2,众数为2,有可能是2,2,4,不符合题意;丁同学:众数为2,方差大于1,有可能是2,2,6,不符合题意.故选B. 6.答案:C解析:100名考生成绩的平均数12.50.1013.50.1514.50.15x =⨯+⨯+⨯+15.50.3016.50.2517.50.0515.1⨯+⨯+⨯=.因为前三组频率直方图面积和为0.100.150.150.4++=,前四组频率直方图面积和为0.100.150.150.300.7+++=,所以中位数位于第四组内,设中位数为a ,则(15)0.300.1a -⨯=,解得15.3a ≈,故选C.7.答案:A解析:由题意知i i y x a =+,即()1210110110y x x x a x a a =⨯++++=+=+,方差{}222212101()()()10x a x a x s a x a x a x a ⎡⎤⎡⎤⎡⎤=⨯+-+++-++++-+⎣⎦⎣⎦⎣⎦()()()22212101410x x x x x x ⎡⎤=⨯-+-++-=⎢⎥⎣⎦. 故选A. 8.答案:C解析:本题考查线性回归方程截距的求解.因为11(3456) 4.5,(2.534 4.5) 3.544x y =+++==+++=,所以0.7 3.50.7 4.50.35a y x =-=-⨯=,故选C. 9.答案:C解析:设表中模糊看不清的数据为m .由表中数据得30x =, 3075m y +=,将30730,5m x y +==代入经验回归方程0.6754.9y x =+,得68m =.故选C. 10.答案:C解析:由22⨯列联表中的数据可得()22352515251004.167 3.84160405050K ⨯-⨯⨯=≈>⨯⨯⨯,因此,有95%的把握认为该市居民是否关注冰雪运动与性别有关.故选:C.11.答案:88解析:根据题意,设剔除最高分、最低分之后的13个数据为1a ,2a ,3a ,…,13a ,由这13个数据的平均分为92,方差为16, 知()1231319213a a a a ++++=,()()()222121319292921613a a a ⎡⎤-+-++-=⎣⎦, 解得123131196a a a a ++++=,2221213110240a a a +++=,对于原始得分96,58,1a ,2a ,3a ,…,13a , 其平均数()12313196589015a a a a a =++++++=,其方差为()(()22222212131(9690)(5890)9090)908815s a a a ⎤⎡=-+-+-+-++-=⎣⎦. 12.答案:70解析:本题考查线性回归方程.依题意,将(45,35)代入回归直线方程 3.5y bx =+(提示:回归直线必过样本点中心),得3545 3.5b =⨯+,解得0.7b =,所以回归直线方程为0.7 3.5y x =+.令0.7 3.552.5y x =+=,得70x =. 13.答案:99.5%解析:因为2250(2015510)8.33325253020χ⨯⨯-⨯=≈⨯⨯⨯,又()27.8790.0050.5%P χ==≥,所以我们有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.14.答案:(1)产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为20%(2)平均数与标准差的估计值分别为30%,17%解析:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为1470.21100+=.产值负增长的企业频率为20.02100=. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为20%. (2)1(0.1020.10240.30530.50140.707)0.30100y =⨯-⨯+⨯+⨯+⨯+⨯=, ()52222111(0.40)2(0.20)100100i i i s n y y=⎡=-=⨯-⨯+-⨯⎣∑222240530.20140.4070.0296⎤+⨯+⨯+⨯=⎦,0.020.17s .所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.15.答案:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:1(100203003550045)350100⨯+⨯+⨯=. (3)根据所给数据,可得22⨯列联表:根据列联表得25.82055457030K =≈⨯⨯⨯. 由于5.820 3.841>,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。
第3讲变量间的相关关系与统计案例[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2020年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回归方程(1)相关关系的分类02右上角的区域内,如图1;①正相关:从散点图上看,点散布在从□01左下角到□04右下角的区域内,如图2.②负相关:从散点图上看,点散布在从□03左上角到□(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□05一条直线附近,06回归直线.则称这两个变量之间具有线性相关关系,这条直线叫做□(3)回归方程①最小二乘法:使得样本数据的点到回归直线的□07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1nx i -xy i-y∑i =1nx i -x2=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的□08斜率,a ^是在y 轴上的□09截距,x -=1n ∑n i =1x i ,y -=1n ∑n i =1y i ,□10(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =∑i =1nx i -x y i -y∑i =1nx i -x2∑i =1ny i -y2,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量□11正相关; ②当r<0时,表明两个变量□12负相关; ③r 的绝对值越接近1,表明两个变量的线性相关性□13越强;r 的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的□01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□02频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=□03n ad -bc2a +bc +d a +cb +d,其中n =□04a +b +c +d 为样本容量.(3)独立性检验利用随机变量□05K 2来判断“两个分类变量□06有关系”的方法称为独立性检验.1.概念辨析(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (2)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)√ (2)√ (3)√ (4)×2.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位 答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.故选B .(2)在下列各图中,两个变量具有相关关系的图是( )A .①② B.①③ C.②④ D.②③ 答案 D解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性. (3)下面是一个2×2列联表则表中a ,b 处的值分别为________. 答案 52,54解析 因为a +21=73,所以a =52.又因为a +2=b ,所以b =54.(4)已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^=0.95x +a ^,则a ^=________.答案 2.6解析 ∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.题型 一 相关关系的判断1.下列两变量中不存在相关关系的是( )①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A .①②⑤B .①③⑥C .④⑤⑥D .②⑥ 答案 A解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A .判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.见举例说明3.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 所有点均在直线上,则样本相关系数最大即为1,故选D .2.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y 是负相关关系;②在该相关关系中,若用y =c 1e c2x 拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22;③x,y 之间不能建立线性回归方程. 答案 ①②解析 ①显然正确;散点图趋向于曲线而非直线,所以用y =c 1e c2x 拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确.题型 二 回归分析角度1 线性回归方程及应用1.(2018·福州四校联考)某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x/年 1 2 3 4 5维修总费用y/万元0.5 1.2 2.2 3.3 4.5 根据上表可得y关于x的线性回归方程y^=b^x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( ) A.8年 B.9年 C.10年 D.11年答案 D解析由y关于x的线性回归直线y^=b^x-0.69过样本点的中心(3,2.34),得b^=1.01,即线性回归方程为y^=1.01x-0.69,由y^=1.01x-0.69=10得x≈10.6,所以预测该汽车最多可使用11年.故选D.2.某兴趣小组欲研究昼夜温差与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程y^=b^x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式:b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x2,a^=y-b^x.参考数据:11×25+13×29+12×26+8×16=1092,112+132+122+82=498.解(1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)=515=13.(2)由表中2月份至5月份的数据可得x =11,y=24,∑4i=1x i y i=1092,∑i=14x2i=498,所以b^=∑i=14x i y i-4x-y-∑i=1nx2i-4x2=187,则a^=y-b^x=-307,所以y 关于x的线性回归方程为y^=187x-307.(3)当x=10时,y^=1507,⎪⎪⎪⎪⎪⎪1507-22=47<2;当x=6时,y^=787,⎪⎪⎪⎪⎪⎪787-12=67<2.所以,该小组所得线性回归方程是理想的.角度2 非线性回归模型的应用3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x.根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1w i -wy i -y∑8i =1w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x.(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x)-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.2.非线性回归方程的求法(1)根据原始数据(x ,y)作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.1.据某市地产数据研究显示,2018年该市新建住宅销售均价走势如图所示,3月至7月房价上涨过快,为抑制房价过快上涨,政府从8月开始采用宏观调控措施,10月份开始房价得到很好的控制.(1)地产数据研究发现,3月至7月的各月均价y(万元/平方米)与月份x 之间具有较强的线性相关关系,试建立y 关于x 的回归方程;(2)若政府不调控,依此相关关系预测12月份该市新建住宅销售均价.参考数据及公式:∑5i =1x i =25,∑5i =1y i =5.36,∑5i =1(x i -x )(y i -y )=0.64,回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 x i -x y i -y ∑ni =1 x i -x 2,a ^=y -b^x .解 (1)x =255=5,y =5.365=1.072,∑5i =1 (x i -x )2=10,所以b ^=0.6410=0.064,a ^=y -b ^x =1.072-0.064×5=0.752.所以从3月份至7月份y 关于x 的线性回归方程为y ^=0.064x +0.752.(2)将x =12代入回归方程得y ^=0.064×12+0.752=1.52, 所以预测12月份该市新建住宅的销售均价为1.52万元/平方米.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx +a ,②y=c e dx拟合,得到回归方程分别为y ^(1)=0.24x -8.81,y ^(2)=1.70e 0.022x,作残差分析,如下表:(1)求表中空格内的值;(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1x i -xy i -y∑ni =1x i -x2,a ^=y -b ^x .解 (1)根据残差分析,把x =80代入y ^(1)=0.24x -8.81中,得y ^(1)=10.39. ∵10-10.39=-0.39, ∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62, 模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7. ∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg 的样本点被剔除后,剩余的数据如下表:由公式b ^=∑ni =1x i -xy i -y∑n i =1x i -x2,a ^=y -b ^x ,得回归方程为y ^=0.24x -8.76. 题型 三 独立性检验1.假设有两个分类变量X 和Y 的2×2列联表如下:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为( ) A .a =45,c =15 B .a =40,c =20 C .a =35,c =25 D .a =30,c =30 答案 A解析 根据2×2列联表与独立性检验可知,当a a +10与cc +30相差越大时,X 与Y 有关系的可能性越大,即a ,c 相差越大,a a +10与cc +30相差越大.故选A. 2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n ad -bc 2a +bc +d a +cb +d,解 (1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可.) (2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2的观测值k =40×15×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.1.(2018·河南洛阳模拟)学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:根据表中数据,通过计算统计量K 2=n ad -bc 2a +bc +d a +cb +d,并参考以下临界数据:若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过( )A .0.10B .0.05C .0.025D .0.01 答案 A解析 由题意可得K 2=100×30×10-15×45245×55×75×25≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.2.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.(1)求抽取的90名同学中的男生人数;(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解 (1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.(2)2×2列联表如下:由K 2=n ad -bc 2a +bc +d a +cb +d,代入数据得K 2=90×25×10-25×30250×40×55×35=45077≈5.844>5.024. 所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.。
专题六概率与统计、算法、复数、推理与证明第三讲正态分布、统计与统计案例高考导航1.考查正态曲线的性质及正态分布的概率计算.2.考查系统抽样和分层抽样、样本的频率分布与数字特征、线性回归分析、独立性检验.3.与概率知识交汇进行综合考查.1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图:根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳[解析] 折线图呈现出的是一个逐渐上升的趋势,但是并不是每个月都在增加,故A 说法错误;折线图中按照年份进行划分,可以看出每年的游客量都在逐年增加,故B 说法正确;折线图中每年的高峰出现在每年的7,8月,故C 说法正确;每年的1月至6月相对于7月至12月的波动性更小,变化的幅度较小,说明变化比较平稳,故D 说法正确.[答案] A2.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^,已知∑i =110x i =225,∑i =110y i =1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170[解析] 由题意可得x -=22.5,y -=160,∴a ^=160-4×22.5=70,即y ^=4x +70.当x =24时,y ^=4×24+70=166,故选C.[答案] C3.(2017·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量 ,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.[解析]从丙种型号的产品中抽取的件数为60×300200+400+300+100=18.[答案]184.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)的估计值(精确到0.01).附:K2=.(a+b)(c+d)(a+c)(b+d)[解](1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.4092.(2)根据箱产量的频率分布直方图得列联表K2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg).考点一正态分布1.正态曲线的性质(1)曲线位于x轴上方,与x轴不相交;曲线关于直线x=μ对称,且在x=μ处达到峰值.(2)曲线与x轴之间的面积为1.(3)当μ一定时,曲线的形状由σ确定,σ越小,曲线越“瘦高”,表示总体的分布越集中;σ越大,曲线越“矮胖”,表示总体的分布越分散.2.正态分布X~N(μ,σ2)的三个常用数据(1)P(μ-σ<X≤μ+σ)=0.6826;(2)P(μ-2σ<X≤μ+2σ)=0.9544;(2)P(μ-3σ<X≤μ+3σ)=0.9974.[思维流程][解](1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.9974,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.0026,故X~B(16,0.0026).因此P(X≥1)=1-P(X=0)=1-0.997416≈0.0408.X的数学期望为E(X)=16×0.0026=0.0416.(2)(ⅰ)如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.0026,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.0408,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.(ⅱ)由x -=9.97,s ≈0.212,得μ的估计值为μ^=9.97,σ的估计值为σ^=0.212,由样本数据可以看出有一个零件的尺寸在(μ^-3σ^,μ^+3σ^)之外,因此需对当天的生产过程进行检查.剔除(μ^-3σ^,μ^+3σ^)之外的数据9.22,剩下数据的平均数为 115×(16×9.97-9.22)=10.02,因此μ的估计值为10.02.i =116x 2i =16×0.2122+16×9.972≈1591.134,剔除(μ^-3σ^,μ^+3σ^)之外的数据9.22,剩下数据的样本方差为 115×(1591.134-9.222-15×10.022)≈0.008, 因此σ的估计值为0.008≈0.09.正态分布应关注的两点(1)利用P (μ-σ<X ≤μ+σ),P (μ-2σ<X ≤μ+2σ),P (μ-3σ<X ≤μ+3σ)的值直接求解.(2)充分利用正态曲线的对称性和曲线与x 轴之间的面积为1来求解.[对点训练]1.(2017·兰州检测)设X~N(μ1,σ21),Y~N(μ2,σ22),这两个正态分布密度曲线如图所示,下列结论中正确的是()A.P(Y≥μ2)≥P(Y≥μ1)B.P(X≤σ2)≤P(X≤σ1)C.对任意正数t,P(X≥t)≥P(Y≥t)D.对任意正数t,P(X≤t)≥P(Y≤t)[解析]由题图可知μ<0<μ2,σ1<σ2,1∴P(Y≥μ2)<P(Y≥μ1),故A错;P(X≤σ2)>P(X≤σ1),故B错;当t为任意正数时,由题图可知P(X≤t)≥P(Y≤t),而P(X≤t)=1-P(X≥t),P(Y≤t)=1-P(Y≥t),∴P(X≥t)≤P(Y≥t),故C正确,D错.[答案] C2.某校组织了“2017年第15届希望杯数学竞赛(第一试)”,已知此次选拔赛的数学成绩X服从正态分布N(72,121)(单位:分),此次考生共有500人,估计数学成绩在72分到83分之间的人数约为(参数数据:P(μ-σ<X<μ+σ)=0.6826,P(μ-2σ<X<μ+2σ)=0.9544.)()A .238B .170C .340D .477[解析] 因为X ~N (72,121),所以μ=72,σ=11,又P (μ-σ<X <μ+σ)=0.6826,所以P (61<X <83)=0.6826,因为该正态曲线关于直线x =72对称,所以P (72<X <83)=12P (61<X <83)=12×0.6826=0.3413,所以0.3413×500=170.65,从而可得在72分到83分之间的人数约为170,故选B.[答案] B考点二 抽样方法、用样本估计总体1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样.2.频率分布直方图(1)频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距. (2)频率分布直方图中各小长方形的面积之和为1.3.方差公式s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2][对点训练]1.(2017·怀化二模)某校高三(1)班共有48人,学号依次为1,2,3,…,48,现用系统抽样的方法抽取一个容量为6的样本,已知学号为3,11,19,35,43的同学在样本中,则还有一个同学的学号应为()A.27 B.26C.25 D.24[解析]根据系统抽样的规则——“等距离”抽取,则抽取的号码差相等,易知相邻两个学号之间的差为11-3=8,所以在19与35之间还有27,故选A.[答案] A2.(2016·山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56 B.60C.120 D.140[解析]由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D.[答案] D3.(2017·山东临沂一模)传承传统文化再掀热潮,在刚刚过去的新春假期中,央视科教频道以诗词知识竞赛为主的《中国诗词大会》火爆荧屏,如图的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的是( )A .甲的平均数大于乙的平均数B .甲的中位数大于乙的中位数C .甲的方差大于乙的方差D .甲的平均数等于乙的中位数[解析] 由茎叶图,知:x -甲=19(59+45+32+38+24+26+11+12+14)=29,x -乙=19(51+43+30+34+20+25+27+28+12)=30, s 2甲=19[302+162+32+92+(-5)2+(-3)2+(-18)2+(-17)2+(-15)2]≈235.3,s 2乙=19[212+132+02+42+(-10)2+(-5)2+(-3)2+(-2)2+(-18)2]≈120.9,甲的中位数为:26,乙的中位数为:28,∴甲的方差大于乙的方差.故选C.[答案] C4.(2017·正定中学抽测)从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图),则这100名学生成绩的平均数为________,中位数为________.[解析]由图可知,平均数x=105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x,则0.01×10+0.03×10+0.025×(x-120)=0.5,解得x=124.[答案]125124统计问题应关注的3点(1)分层抽样的关键是确定抽样比例,系统抽样主要是确定分段间隔,应用等差数列计算个体号码数.(2)在频率分布直方图中,众数为最高矩形的底边中点的横坐标,中位数为垂直横轴且平分直方图面积的直线与横轴交点的横坐标,平均数为每个小矩形的面积乘以相应小矩形底边中点的横坐标之积的和.(3)计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.考点三 线性回归分析、独立性检验1.线性回归方程方程y ^=b ^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y-b ^x ;(x ,y )称为样本中心点.2.独立性检验K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).角度1:线性回归方程的求解及应用【例2-1】 (2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.[解] (1)由折线图中数据和附注中参考数据得 t =4,∑i =17(t i -t )2=28,∑i =17(y i -y )2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=2.8928≈0.103,a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 角度2:独立性检验的应用[解] (1)优秀 非优秀 合计 甲班 10 50 60 乙班203050(2)K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩是否优秀与班级有关系”.(1)求回归直线方程的关键①正确理解计算b ^,a ^的公式和准确的计算,其中线性回归方程必过样本中心点(x ,y ).②在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(2)独立性检验的关键根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表.K 2的观测值k 越大,对应假设事件H 0成立的概率越小,H 0不成立的概率越大.[对点训练]1.[角度1]某地随着经济的发展,居民收入逐年增长,该地一建设银行连续五年的储蓄存款(年底余额)如下表:t =x -2010,z =y -5得到下表:(1)求z 关于(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x -·y-∑i =1nx 2i -n x-2,a ^=y--b ^x -)[解] (1)令z 关于t 的线性回归方程为z ^=b ^t +a ^, ∵t -=3,z -=2.2,∑i =15t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4,∴z ^=1.2t -1.4.(2)将t =x -2010,z =y -5,代入z ^=1.2t -1.4, 得y ^-5=1.2(x -2010)-1.4,即y ^=1.2x -2408.4. (3)∵y ^=1.2×2020-2408.4=15.6(千亿元),∴预测到2020年年底,该地储蓄存款额可达15.6千亿元. 2.[角度2](2018·惠州市高三第一次调研)近年来,随着我国在教育科研上的投入不断加大,科学技术得到迅猛发展,国内企业的国际竞争力得到大幅提升.伴随着国内市场增速放缓,国内有实力的企业纷纷进行海外布局,第二轮企业出海潮到来.如在智能手机行业,国产品牌已在赶超国外巨头,某品牌手机公司一直默默拓展海外市场,在海外共设30多个分支机构,需要国内公司外派大量70后、80后中青年员工.该企业为了解这两个年龄层员工是否愿意被外派工作的态度,按分层抽样的方法从70后和80后的员工中随机调查了100位,得到数据如表:(1)外派与年龄有关”,并说明理由;(2)该公司举行参观驻海外分支机构的交流体验活动,拟安排6名参与调查的70后、80后员工参加.70后员工中有愿意被外派的3人和不愿意被外派的3人报名参加,从中随机选出3人,记选到愿意被外派的人数为x;80后员工中有愿意被外派的4人和不愿意被外派的2人报名参加,从中随机选出3人,记选到愿意被外派的人数为y.求x<y的概率.参考数据:参考公式:K2=,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)[解](1)有90%以上的把握认为“是否愿意被外派与年龄有关”,理由如下:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(20×20-40×20)260×40×60×40=400×400×1005760000≈2.778>2.706,所以有90%以上的把握认为“是否愿意被外派与年龄有关”. (2)“x <y ”包含“x =0,y =1”、“x =0,y =2”、“x =0,y =3”、“x =1,y =2”、“x =1,y =3”、“x =2,y =3”六个事件,且P (x =0,y =1)=C 03C 33C 36×C 14C 22C 36=4400,P (x =0,y =2)=C 03C 33C 36×C 24C 12C 36=12400,P (x =0,y =3)=C 03C 33C 36×C 34C 02C 36=4400,P (x =1,y =2)=C 13C 23C 36×C 24C 12C 36=108400,P (x =1,y =3)=C 13C 23C 36×C 34C 02C 36=36400,P (x =2,y =3)=C 23C 13C 36×C 34C 02C 36=36400,所以P (x <y )=4+12+4+108+36+36400=200400=12. 即x <y 的概率为12.热点课题23 统计知识的实际应用[感悟体验](2017·山西吕梁二模)某校某次N 名学生的学科能力测评成绩(满分120分)的频率分布直方图如下,已知分数在100~110的学生数有21人.(1)求总人数N 和分数在110~115分的人数n ;(2)现准备从分数在110~115的n 名学生(女生占13)中选3位分配给A老师进行指导,求选出的3位学生中有1位女生的概率;(3)为了分析某个学生的学习状态,对其下一阶段的学习提供指导建议,对他前7次考试的数学成绩x、物理成绩y进行分析,该生7次考试成绩如表y关于x的线性回归方程y^=b^x+a^.若该生的数学成绩达到130分,请你估计他的物理成绩大约是多少?附:对于一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归方程y^=b^x+a^的斜率和截距的最小二乘估计分别为b^=∑i=1n(x i-x-)(y i-y-)∑i=1n(x i-x-)2,a^=y--b^x-.[解](1)分数在100~110内的学生的频率为P1=(0.04+0.03)×5=0.35,所以该班总人数为N=210.35=60,分数在110~115内的学生的频率为P 2=1-(0.01+0.04+0.05+0.04+0.03+0.01)×5=0.1, 分数在110~115内的人数为n =60×0.1=6.(2)由题意分数在110~115内有6名学生,其中女生有2名,从6名学生中选出3人,有1位女生的概率为P =C 12·C 24C 36=35.(3)计算x -=17×(88+83+117+92+108+100+112)=100, y -=17×(94+91+108+96+104+101+106)=100; 由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2=497994=0.5,a ^=y --b ^x -=100-0.5×100=50, ∴线性回归方程为y ^=0.5x +50, ∴当x =130时,y ^=0.5×130+50=115.。