统计.板块四.统计数据的数字特征
- 格式:doc
- 大小:743.73 KB
- 文档页数:8
题型一:函数的图象【例1】 当a ≠0时,y =ax +b 和y =b ax 的图象只可能是()【例2】 (1996上海,文、理8)在下列图象中,二次函数y =ax 2+bx 与指数函数y =(ba)x的图象只可能是( )【例3】 (06重庆 理)如图所示,单位圆中弧AB 的长为x ,f (x )表示弧AB 与弦AB 所围成的弓形面积的2倍,则函数y =f (x )的图象是( )典例分析板块四.函数的图象与数字特征【例4】定义域和值域均为[],a a-(常数0a>)的函数()y f x=和()y g x=的图像如图所示,给出下列四个命题:(1)方程()0f g x=⎡⎤⎣⎦有且仅有三个解;(2)方程()0g f x=⎡⎤⎣⎦有且仅有三个解;(3)方程()0f f x=⎡⎤⎣⎦有且仅有九个解;(4)方程()0g g x=⎡⎤⎣⎦有且仅有一个解。
那么,其中正确命题的个数是。
【例5】某学生离家去学校,由于怕迟到,所以一开始就跑步,等跑累了,再走余下的路,下图中y轴表示离学校的距离,x轴表示出发后的时间,则适合题意的图形是( )A BC D【例6】 (06江西 12)某地一年内的气温()Q t (单位:℃)与时间t (月份)之间的关系如图所示,已知该年的平均气温为10℃,令()C t 表示时间段[]0,t 的平均气温,()C t 与t 之间的函数关系用下图表示,则正确的应该是( )【例7】 (2002上海文,理16)一般地,家庭用电量(千瓦时)与气温(℃)有一定的关系,如图2—1所示,图(1)表示某年12个月中每月的平均气温.图(2)表示某家庭在这年12个月中每个月的用电量.根据这些信息,以下关于该家庭用电量与其气温间关系的叙述中,正确的是( )A .气温最高时,用电量最多B .气温最低时,用电量最少C .当气温大于某一值时,用电量随气温增高而增加D .当气温小于某一值时,用电量随气温渐低而增加【例8】 函数()y f x =与()y g x =的图像如下图:则函数()()y f x g x =⋅的图像可能是( )y=f(x)oyxy=g(x)o yxoyxoyxoyxoyxA B C D【例9】 如图,点A 、B 、C 都在函数y =x 的图象上,它们的横坐标分别是a 、a +1、a +2.又A 、B 、C 在x 轴上的射影分别是A ′、B ′、C ′,记△AB ′C 的面积为f (a ),△A ′BC ′的面积为g (a ).(1)求函数f (a )和g(a )的表达式;(2)比较f (a )与g(a )的大小,并证明你的结论.【例10】 (2000春季北京、安徽,14)已知函数f (x )=ax 3+bx 2+cx +d 的图象如图,求b的范围。
高考数学概率与统计题型解析与答题技巧在高考数学中,概率与统计是一个重要的板块,它不仅考查学生的数学知识和技能,还培养学生的数据分析和推理能力。
对于很多同学来说,这部分内容既有一定的挑战性,又充满了得分的机会。
下面我们就来详细解析高考数学中概率与统计的常见题型以及相应的答题技巧。
一、概率题型1、古典概型古典概型是概率中最基础的题型之一。
它的特点是试验结果有限且等可能。
例如,从装有若干个红球和白球的袋子中摸球,计算摸到某种颜色球的概率。
答题技巧:首先,确定总的基本事件数和所求事件包含的基本事件数。
然后,利用古典概型的概率公式 P(A)=所求事件包含的基本事件数÷总的基本事件数进行计算。
2、几何概型几何概型与古典概型不同,它的试验结果是无限的。
常见的有长度型、面积型、体积型几何概型。
比如,在一个区间内随机取一个数,求满足某个条件的概率。
答题技巧:对于几何概型,关键是要正确确定几何度量。
例如,长度型就计算长度,面积型就计算面积,体积型就计算体积。
然后,按照几何概型的概率公式 P(A)=构成事件 A 的区域长度(面积或体积)÷试验的全部结果所构成的区域长度(面积或体积)进行求解。
3、条件概率条件概率是指在事件 B 发生的条件下,事件 A 发生的概率。
题目中通常会给出一些条件,让我们计算在这些条件下的概率。
答题技巧:利用条件概率公式 P(A|B)= P(AB)÷P(B),先求出 P(AB)和 P(B),再计算条件概率。
4、相互独立事件与互斥事件相互独立事件是指一个事件的发生与否对另一个事件的发生概率没有影响;互斥事件则是指两个事件不能同时发生。
答题技巧:对于相互独立事件,它们同时发生的概率用乘法计算,即 P(AB)= P(A)×P(B);对于互斥事件,它们至少有一个发生的概率用加法计算,即 P(A∪B)= P(A)+ P(B)。
二、统计题型1、抽样方法包括简单随机抽样、分层抽样和系统抽样。
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块六.回归分析然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y yi n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆab ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值. 同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 线性相关及回归【例1】 已知变量y 与x 之间的相关系数是0.872r =-,查表得到相关系数临界值0.050.482r =,要使可靠性不低于95%,则变量y 与x 之间( )A .不具有线性相关关系B .具有线性相关关系C .线性相关关系还待进一步确定D .具有确定性关系【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略 【答案】B ;典例分析【例2】 当相关系数0r =时,表明( )A 现象之间完全无关B 相关程度较小C 现象之间完全相关D 无直线相关关系【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】D ;【例3】 下列结论中,能表示变量,x y 具有线性相关关系的是( )A .0.05r r ≥B .0.05r r ≤C .0.05r r >D .0.05r r <【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】C ;【例4】 下列现象的相关密切程度最高的是( )A .某商店的职工人数与商品销售额之间的相关系数0.87B .流通费用水平与利润率之间的相关关系为0.94-C .商品销售额与利润率之间的相关系数为0.51D .商品销售额与流通费用水平的相关系数为0.81- 【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】B ;【例5】 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若2χ的值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得判断出现错误;④以上三种说法都不正确.【考点】线性相关及回归 【难度】2星 【题型】选择 【关键词】无 【解析】略【答案】③;【例6】 设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( )A .b 与r 的符号相同B .a 与r 的符号相同C .b 与r 的相反D .a 与r 的符号相反【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】A ;【例7】 定义:点()i i x y ,与直线y b x a =+的“纵向距离”为()i i y bx a -+.已知(00)(01)(11)A B C -,,,,,三点,存在直线l ,使A B C ,,三点到直线l 的“纵向距离的平方和”Q 最小.⑴求直线l 的方程和Q 的最小值;⑵判断点1(0)3D ,与直线l 的位置关系.【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】⑴()()()()2222223101133322b Q a a a b a b ⎛⎫⎛⎫=-+--+-+=++-+ ⎪ ⎪⎝⎭⎝⎭当3122b a ==-,时,min 12Q =,即31ˆ:22l yx =-. ⑵点D 在直线l 上【例8】 对变量x ,y 有观测数据()11x y ,()1210i =,,,,得散点图1;对变量u ,v 有观测数据()11u v ,()1210i =,,,,得散点图2. 由这两个散点图可以判断.A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关【考点】线性相关及回归 【难度】1星 【题型】选择【关键词】2009年,宁夏海南高考【解析】由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,选C .【答案】C ;【例9】 为了考查两个变量x 和y 之间的线性关系,甲、乙两位同学各自独立做了10次和15次的试验,并且利用线性回归方法求得回归直线分别为12l l ,,已知两人得到的试验数据中,变量x 和y 的数据的平均值都对应相等,那么下列说法正确的是( )A .直线1l 和2l 一定有交点B .直线1l 一定平行于直线2lC .直线1l 一定与2l 重合D .以上都不对【考点】线性相关及回归 【难度】3星 【题型】选择【关键词】无【解析】回归直线ˆy a bx =+中的回归系数a b ,满足:a y bx =-,其中x y ,是样本平均数,代入后得到:ˆ()()yy bx bx b x x y =-+=-+,故回归直线过点()x y ,.又由题意知,甲、乙两位同学的试验数据的平均值相等,故它们过同一点()x y ,,即直线1l 和2l 一定有交点,选A .【答案】A ;【例10】 某地高校教育经费()x 与高校学生人数()y 连续6年的统计资料如下:【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】ˆ17.920.0955yx =-+,29.83万人【例11】 一家庭问题研究机构想知道是否夫妻所受的教育越高越不愿生孩子,现随机抽样了8对夫妻,计算夫妻所受教育的总年数x 与孩子数y ,得结果如下试求【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】2217 1.75238030223x y x y xy =====∑∑∑,,,,.统计假设:x 与y 不具有线性相关关系,由小概率0.05与26n -=在附表中查得0.050.707r =.相关系数0.776r =-,0.05||r r >,从而有95%的把握认为x 与y 之间有线性相关关系.求回归直线方程有意义.由公式不难算出回归方程为ˆ 5.5070.221yx =-.【例12】 某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:⑴【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略 【答案】⑴⑵12x =,24x =,35x =,46x =,58x =,5x =, 130y =,240y =,360y =,450y =,570y =,50y =,故回归系数601603003005605550416253664525b ++++-⨯⨯=++++-⨯=6.5,50 6.5517.5a =-⨯=,故回归直线方程为ˆ 6.517.5yx =+.【例13】 某五星级大饭店的住屋率(%)()x 与每天每间客房的成本(元)()y 如下:⑴试求⑵若y 的表示不变,x 以小数表示(如75%表为0.75),求新的回归直线.【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】⑴226929002537544330000945500x y x y xy =====∑∑∑,,,,统计假设:x 与y 不具有线性相关关系,由小概率0.05与23n -=在附表中查得0.050.878r =.相关系数0.919r =-,0.05||r r >,从而有95%的把握认为x 与y 之间有线性相关关系.求回归直线方程有意义.回归直线算出为ˆ5317.194235.0318yx =- ⑵ˆ5317.19423503.18yx =-【例14】 某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:线性回归方程,再用被选取的2组数据进行检验.⑴若选取的1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程;⑵若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?【考点】线性相关及回归 【难度】4星 【题型】解答 【关键词】无 【解析】略【答案】⑴画散点图如下:由数据求得1124x y ==,,由公式求得187b =, 再由307a y bx =-=-,所以y 关于x 的线性回归方程为^183077y x =-.⑵当10x =时,^1507y =,150|22|27-<;同样,当6x =时,^787y =,78|14|27-<.所以,该小组所得线性回归方程是理想的.【例15】 某种产品的产量与单位在成本的资料如下:⑴计算相关系数r ; ⑵y 对x 直线回归方程;⑶指出产量每增加1000件时,单位成本平均下降了多少元?【考点】线性相关及回归 【难度】3星 【题型】解答 【关键词】无 【解析】略【答案】⑴22771148179302682x y xy x y =====∑∑∑,,,,, 于是可算出100.9111r =-≈-.⑵统计假设:x 与y 不具有线性相关关系,由小概率0.05与24n -=在附表中查得0.050.811r =,于是0.05||r r >,从而有95%的把握认为x 与y 之间有线性相关关系.求回归直线方程有意义.由公式可算出ˆˆ77.37 1.82ab ==-,,回归方程为ˆ77.37 1.82y x =-. ⑶产量每增加1000件时,单位成本平均下降1.82元.【例16】 求回归直线方程以下是收集到的某城市的新房屋销售价格y 与房屋的大小x 的数据:⑵用最小二乘法求回归直线方程;⑶估计该城市一个90平米的房屋销售价格大约为多少? ⑷写一个程序,计算出()Q a b ,和(20.2)Q ,的值,再比较大小.【考点】线性相关及回归 【难度】4星 【题型】解答 【关键词】无【解析】略 【答案】⑴散点图:2)⑵5n =,51545i i x ==∑,109x =,51116ii y==∑,23.2y =,52160952i i x ==∑,5112952i i i x y ==∑,212952510923.20.1962609525109b -⨯⨯=≈-⨯,23.20.1962109 1.8166a =-⨯≈,所以,线性回归方程为ˆ0.1962 1.8166yx =+; ⑶在线性回归方程中,令90x =得19.474619.5y =≈, 即一个90平米的房屋销售价格大约为19.5万元;⑷程序:x (1)=80;x (2)=105;x (3)=110;x (4)=115;x (5)=135;y (1)=18.4;y (2)=22;y (3)=21.6;y (4)=24.8;y (5)=29.2; (或直接写成:x=[80;105;110;115;135],y=[18.4;22;21.6;24.8;29.2]) a=1.8166;b=0.1962;c=2;d=0.2; Q (1)=0;Q (2)=0; for i=1:5Q (1)=Q (1)+(y (i )-a-b*x (i ))^2; Q (2)=Q (2)+(y (i )-c-d*x (i ))^2;endprint (%io (2),Q (1),Q (2))计算得:(1.81660.1962)(1) 5.177Q Q =≈,,(20.2)(2)7.0Q Q ==,,∴()(20.2)Q a b Q <,,.x (1)=80 x (2)=105 x (3)=110 x (4)=115 x (5)=135 y (1)=18.4 y (2)=22 y (3)=21.6 y (4)=24.8 y (5)=29.2 (或直接写成:x=[80;105;110;115;135]y=[18.4;22;21.6;24.8;29.2]) a=1.8166 b=0.1962 c=2 d=0.2 Q (1)=0 Q (2)=0 i=1WHILE i<=5Q (1)=Q (1)+(y (i )-a-b*x (i ))^2 Q (2)=Q (2)+(y (i )-c-d*x (i ))^2 i=i+1 WENDPRINT Q (1),Q (2)计算得:(1.81660.1962)(1) 5.177Q Q =≈,,(20.2)(2)7.0Q Q ==,,∴()(20.2)Q a b Q <,,.【例17】 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据⑴⑵请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bx a =+;⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)【考点】线性相关及回归 【难度】4星 【题型】解答【关键词】2007年,广东高考 【解析】略 【答案】⑴略.⑵不难算出4421166.5 4.5 3.586i i i i i x y x y x ======∑∑,,,.于是266.54 4.5 3.566.563ˆ0.7864 4.58681b-⨯⨯-===-⨯- ˆˆ 3.50.7 4.50.35ay bx =-=-⨯= 故线性回归方程为0.350.7y x =+⑶由回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.350.710070.35+⨯=(吨)故耗能减少了9070.3519.65-=(吨)【例18】 测定某肉鸡的生长过程,每两周记录一次鸡的重量,数据如下表:由经验知生长曲线为1xy Aeλ-=+,试求y 对x 的回归曲线方程. 【考点】线性相关及回归 【难度】3星 【题型】解答 【关键词】无 【解析】略 【答案】将 2.8271xy Ae λ-=+,转变为 2.8271xAe y λ-=-,两边取自然对数得 2.827ln ln(1)A x yλ-=-.令 2.827ln(1)ln y a A y'=-=,,则有y a x λ'=-. 变化后的表如下:可算出228 1.16656040.323123.531x y x y xy '''==-===-,,,,.相关系数0.991r =-,0.05||0.9910.754r r =>=.计算得0.519967 2.99376219.96063a a A e λ-=-===,,. 于是所求曲线方程为0.5199672.827119.9603xy e -=+.【例19】 为了研究某种细菌随时间x 变化的繁殖个数,收集数据如下:⑴⑵求出y 对x 的回归方程.【考点】线性相关及回归 【难度】3星 【题型】解答 【关键词】无 【解析】略【答案】⑴作出散点图如下图所示.8642⑵由散点图看出样本点分布在一条指数型曲线bx y ce =的周围,则ln ln y bx c =+. 令ln z y =,ln a c =,则z bx a =+.可以算出相关系数0.99987r =,因此可认为求线性回归有意义.由表中数据得到线性回归方程为0.69 1.115z x =+.因此细菌的繁殖个数对温度的非线性回归方程为0.69 1.115x y e +=.。
2024年高一下学期生物教学计划周次教研活动测试命题地点1预备周2制定计划补考卷(罗娟)3集体备课,讨论第二专题教学。
“青春·阅读·成长”读书节宣传板块一卷(陈伯安)教务处24板块二卷(陈智峰)5集体备课,探讨第三专题教学教务处26辩论会“怎样对待外来文化”板块三卷(周娈娟)7集体备课,探讨第四专题教学教务处28板块四卷(蒋恩国)9期中考前复习复习卷(罗娟)10期中考试11集体备课,探讨必修四第一专题教学板块一卷(陈伯安)教务处212小说专题讲座(陈伯安)13集体备课,讨论第二专题教学板块二卷(陈智峰)教务处214观看电影,写好影评15集体备课,讨论第三专题教学板块三卷(周娈娟)教务处216诗歌背诵比赛17读书节成果展示18讨论第四专题教学开展演讲比赛板块四卷(蒋恩国)19考前复习指导复习卷(陈伯安)20期末考试21学期结束工作2024年高一下学期生物教学计划(二)本学年我们承担着高中一年级九个班的生物学教育教学工作,依旧生物教学大纲要求,结合教材内容和学校,学生实际,为顺利完成学校下达的会考目标,把学生培养成为“四有”新人,特制定此计划。
一.主要措施和方法1.教师深入钻研大纲,教材,认真备课,熟悉教材章节重点,难点及考点,化难为易突出重点,突破难点;精讲精练,学生作业在课堂上完成。
2.广泛收集高考,会考等复习资料,考试题,进行筛选,分析,总结。
把握高考,会考动向,把相关信息穿插于新课讲授及练习作业中。
注重复习,特别是课前课后考试前的复习,会考前的复习作出详细的复习,认真落实。
3.利用电影,电视,课件,挂图,板图等多种形式和方法辅助教学;及时认真完成学生分组实验,耐心指导,积极应考,加强学生实验动手能力,引导学生利用生物学知识解决生活中的一些问题。
4.教会学生学习高中生物课的方法。
学习生物学知识重在理解,勤于思考;要重视科学研究的过程和方法;要重视理论联系实际;要重视观察和实验,勤动手,多提问。
数学数据分析统计数据分析是数学中一个重要的分支,它通过对数据的收集、整理、处理和解释,帮助我们揭示现象背后的规律和趋势。
统计学作为数据分析的一种方法论,提供了有效的工具和技术来解决现实世界中的各种问题。
本文将介绍数学数据分析统计的基本概念和应用,以及它们在各个领域中的价值。
一、数据收集数据收集是数据分析的第一步,它包括确定研究目标、制定调查计划、设计问卷和采集数据等环节。
在这个过程中,统计学提供了抽样技术和调查方法,帮助我们从整体中获取样本,以便做出对总体的推断。
例如,我们要评估某一产品的市场份额,可以通过抽取一定数量的消费者进行调查,然后利用统计学方法来估计整个市场的情况。
二、数据整理数据整理是将收集到的原始数据转换为可供分析的格式,包括数据清洗、变量构建、缺失值处理等步骤。
在这个过程中,统计学提供了描述性统计的方法,如计算均值、中位数、标准差等,帮助我们了解数据的基本特征。
此外,统计学还提供了可视化方法,如绘制直方图、散点图和箱线图等,帮助我们展现和交流数据的信息。
三、数据处理数据处理是利用数学模型和统计方法对数据进行分析和推断,从而得出结论或作出预测。
统计学提供了各种方法,如假设检验、回归分析、时间序列分析等,帮助我们研究变量之间的关系和变化趋势。
例如,在医学研究中,统计学可以帮助我们评估某种治疗方法的疗效,并判断其与其他方法的差异是否显著。
四、数据解释数据解释是将分析结果转化为易于理解和接受的形式,并对结论的可靠性进行评估。
在这个过程中,统计学提供了推论统计的方法,如置信区间、样本容量计算等,帮助我们给出结果的不确定性范围和置信水平。
此外,统计学还提供了交叉验证和模型选择的技术,帮助我们验证和改进分析模型,提高结果的准确性和可靠性。
五、数据应用数据分析统计在各个领域中都有广泛的应用。
在经济学领域,统计学可以帮助我们分析经济增长的影响因素、预测市场走势,并做出相应的政策建议。
在社会学领域,统计学可以帮助我们研究人口特征、社会关系和社会变迁等问题。
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块四.统计数据的数字特征然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y yi n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆab ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值. 同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一.数字特征的计算【例1】 某校高中年级开设了丰富多彩的校本课程,甲、乙两班各随机抽取了5名学生的学分,用茎叶图表示(如右图).1s ,2s 分别表示甲、乙两班各自5名学生学分的标准差,则1s 2s .(填“>”、“<”或“=”)乙甲3407602125418【考点】数字特征的计算 【难度】1星 【题型】填空题典例分析【关键字】2010年,海淀2模【解析】易知甲乙的平均数均为14,易知乙比较分散,故12s s <. 【答案】<;【例2】 甲、乙、丙三名射击运动员在某次测试中各射击20次,三人的测试成绩如下表123,,x x x 分别表示甲、乙、丙三名运动员这次测试成绩的平均数,则123,,x x x 的大小关系为 ;123,,s s s 分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则123,,s s s 的大小关系为 .【考点】数字特征的计算 【难度】2星 【题型】填空题【关键字】2010年,北京崇文2模【解析】1238.5x x x ===;由成绩与平均数的偏差可看出,丙的稳定性最好,其次是甲,故213s s s >>.【答案】123x x x ==【例3】 10个正数的平方和是370,方差是33,那么平均数为( )A .1B .2C .3D .4【考点】数字特征的计算 【难度】1星 【题型】选择 【关键字】无 【解析】22133370210s x x ==⨯-⇒=. 【答案】B ;【例4】 若M 个数的平均数是X ,N 个数的平均数是Y ,则这M N +个数的平均数是( )A .2X Y +B .X Y M N++ C .MX NY M N ++ D .MX NY X Y ++【考点】数字特征的计算 【难度】1星 【题型】选择 【关键字】无 【解析】略 【答案】C ;【例5】 已知一组数据1210x x x ,,,的方差是2,且2221210(3)(3)(3)380x x x -+-++-=,则这组数据的平均数x =__________.【考点】数字特征的计算 【难度】1星 【题型】填空 【关键字】无【解析】依题设有2221210()()()210x x x x x x -+-++-=,展开变形得222212101210()102()20x x x x x x x x ++++-+++=.……………①同样的,2221210(3)(3)(3)380x x x -+-++-=,展开变形得22212101210()1096()380x x x x x x ++++⨯-⋅+++=.…………②②-①并化简得26270x x --=.解得3x =-或9x =.【答案】9或3-;【例6】 求下列各组数据的方差与标准差(精确到0.1),并分析由这些结果可得出什么更一般的结论.⑴123456789;⑵111213141516171819; ⑶24681012141618【考点】数字特征的计算 【难度】2星 【题型】解答 【关键字】无 【解析】略【答案】⑴11(129)59x =+++=,222221120(12995) 6.793s =+++-⨯=≈,1 2.6s =≈;⑵21(111219)159x =+++=,22222120[(1115)(1215)(1915)] 6.793s =-+-++-=≈,2 2.6s =≈;⑶31(2418)109x =+++=,22223180[(210)(410)(1810)]26.73s =-+-++-=≈,3 5.2s =≈;一组数都加上相同的数后,方差不变,都乘以相同的倍数n 后,标准差变为原来的n 倍,方差变为原来的2n 倍.即12n x x x ,,,的方差为2s ,则12n x a x a x a +++,,,的方差仍为2s , 12n nx nx nx ,,,的方差为22n s .【例7】 在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )A .甲地:总体均为3,中位数为4B .乙地:总体均值为1,总体方差大于0C .丙地:中位数为2,众数为3D .丁地:总体均值为2,总体方差为3【考点】数字特征的计算 【难度】2星 【题型】选择【关键字】2009年,上海高考【解析】根据信息可知,连续10天内,每天的新增疑似病例不能有超过7的数,选项A 中,中位数为4,可能存在大于7的数; 同理,在选项C 中也有可能;选项B 中,如果某天数据为10,其余9天为0,则不符合标志;选项D 中,根据公式,若有大于7的数存在,则方差至少为21(82) 3.610⎡⎤-+⎣⎦≥.【答案】D ;【例8】 设矩形的长为a ,宽为b ,其比满足0.618b a ≈∶,这种矩形给人以美感,称为黄金矩形.黄金矩形常应用于工艺品设计中.下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本: 甲批次:0.598 0.625 0.628 0.595 0.639 乙批次:0.618 0.613 0.592 0.622 0.620根据上述两个样本来估计两个批次的总体平均数,与标准值0.618比较,正确结论是A .甲批次的总体平均数与标准值更接近B .乙批次的总体平均数与标准值更接近C .两个批次总体平均数与标准值接近程度相同D .两个批次总体平均数与标准值接近程度不能确定【考点】数字特征的计算 【难度】2星 【题型】选择【关键字】2009年,四川高考【解析】甲批次的平均数为0.617,乙批次的平均数为0.613【答案】A ;【例9】 已知总体的各个体的值由小到大依次为23371213.718.320a b ,,,,,,,,,,且总体的中位数为10.5,若要使该总体的方差最小,则a 、b 的取值分别是 .【考点】数字特征的计算 【难度】3星 【题型】填空【关键字】2008年,上海高考【解析】10.52a b+=21a b ⇒+=,要使方差最小,只需22(10.5)(10.5)a b -+-最小,当且仅当22a b +最小,显然当10.5a b ==时取到最小值.【答案】10.5,10.5;【例10】 从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为( )A【考点】数字特征的计算 【难度】2星 【题型】选择【关键字】2008年,山东高考【解析】这100个人的平均数为520410*********3100⨯+⨯+⨯+⨯+⨯=.【答案】B ;【例11】 两台机床同时生产直径为10的零件,为了检验产品质量,质量检验员从两台机床的产品中各抽出4件进行测量,结果如下:机床生产的零件质量更符合要求?【考点】数字特征的计算 【难度】3星 【题型】解答 【关键字】无 【解析】略【答案】⑴先计算平均直径:1(109.91010.2)10.0254x =+++=甲,1(10.1109.910.1)10.0254x =+++=乙,由于x x =乙甲,因此平均直径反映不出两台机床生产零件的质量优劣. ⑵再计算方差:2221[(9.910)(10.210)]0.01254s =-+-=甲;22221[(10.110)(9.910)(10.110)]0.00754s =-+-+-=乙;由于22s s <乙甲,这说明乙机床生产出的零件直径波动小;因此,从产品质量稳定性的角度考虑,乙机床生产的零件质量更符合要求.。
公务员行测资料分析知识点解析在公务员行测考试中,资料分析是一个重要的板块,它主要考查考生对各种数据资料的理解、分析和处理能力。
掌握好资料分析的知识点,对于提高行测成绩至关重要。
下面,我们就来详细解析一下公务员行测资料分析的相关知识点。
一、资料分析的题型特点资料分析的材料通常包括文字材料、表格材料、图形材料(如柱状图、折线图、饼图等)以及综合材料(即以上几种材料的组合)。
题目类型主要有计算类、比较类、综合分析类等。
计算类题目要求考生根据给定的数据进行准确的计算,得出相应的结果。
比较类题目则需要考生对不同的数据进行大小、增减幅度等方面的比较。
综合分析类题目较为复杂,通常会要求考生对多个选项进行判断,综合运用各种分析方法来得出正确答案。
二、重要的统计术语1、增长率增长率是指现期量与基期量之间的差值与基期量的比值,常用百分数表示。
计算公式为:增长率=(现期量基期量)÷基期量 × 100% 。
2、增长量增长量是指现期量与基期量之间的差值。
计算公式为:增长量=现期量基期量。
3、比重比重是指部分在总体中所占的比例。
计算公式为:比重=部分值÷总体值 × 100% 。
4、平均数平均数是指一组数据的总和除以数据的个数。
5、倍数倍数是指两个量之间的比值关系。
三、常用的计算方法1、尾数法当选项的尾数不同时,可以通过计算尾数来快速得出答案。
2、首数法适用于除法运算,通过观察选项的首位数字,结合计算得出首位数字来选择答案。
3、有效数字法根据题目精度要求,对数字进行取舍,保留有效数字进行计算。
4、特征数字法将百分数转化为分数,从而简化计算。
四、数据的阅读与分析技巧1、快速浏览材料首先,要快速浏览材料的标题、图表的表头、坐标轴的含义等,了解材料的大致内容和数据类型。
2、标记关键数据在阅读过程中,对于重要的数据和关键词进行标记,以便在做题时能够快速定位。
3、分析数据关系弄清楚不同数据之间的逻辑关系,比如是同比还是环比、是总体还是部分等。
统计.板块四.统计数据的数字特征一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同.随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N的总体中抽取容量为n的样本,如果总体容量能被样本容量整除,设N=,先对总体进行编号,号码从1到N,再从数字1到k中kn随机抽取一个数s作为起始数,然后顺次抽取第2(1),,,个数,s k s k s n k+++-这样就得到容量为n的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N是有限的.⑵简单随机样本数n小于等于样本总体的个数N.⑶简单随机样本是从总体中逐个抽取的.⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为n.N3.系统抽样时,当总体个数N恰好是样本容量n的整数倍时,取N=;kn若N不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数n能被样本容量n整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差; ②决定组距与组数:取组距,用极差组距决定组数; ③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率. 频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义. 总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根.一般地,设样本的元素为12n x x x ,,,样本的平均数为x ,定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域. 反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域. 散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当23.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:11122122n n n n ,,,4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析 1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型.产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆab ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa,b 分别为a ,b 的估计值,ˆa 称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析. ②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑, 把上式看成a 的二次函数,2a 的系数0n >, 因此当2()2i i ii b x y yb x a nn--=-=∑∑∑∑时取最小值.同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i i ii x y a x b x -=∑∑∑时取最小值. 解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平);③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系.说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%. ⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系. ⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一.数字特征的计算 【例1】 (2010海淀二模)某校高中年级开设了丰富多彩的校本课程,甲、乙两班各随机抽取了5名学生的学分,用茎叶图表示(如右图).1s ,2s 分别表示甲、乙两班各自5名学生学分的标准差,则1s 2s .(填“>”、“<”或“=”)乙甲3407602125418【例2】 (2010崇文二模)甲、乙、丙三名射击运动员在某次测试中各射击20次,三人的测试成绩如下表123,,x x x 123,,x x x 的大小关系为 ;123,,s s s 分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则123,,s s s 的大小关系为 .【例3】 10个正数的平方和是370,方差是33,那么平均数为( )A .1B .2C .3D .4甲的成绩 环数7 8 9 1频数 5 5 5 5 乙的成绩 环数 7 8 91频数 6 4 4 6 丙的成绩 环数 7 8 91频数 4 6 6 4典例分析【例4】 若M 个数的平均数是X ,N 个数的平均数是Y ,则这M N +个数的平均数是( ) A .2X Y + B .X Y M N ++ C .MX NY M N ++ D .MX NYX Y++【例5】 已知一组数据1210x x x ,,,的方差是2,且2221210(3)(3)(3)380x x x -+-++-=,则这组数据的平均数x =__________.【例6】 求下列各组数据的方差与标准差(精确到0.1),并分析由这些结果可得出什么更一般的结论.⑴123456789;⑵111213141516171819; ⑶24681012141618【例7】 (2009上海18)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )A .甲地:总体均为3,中位数为4B .乙地:总体均值为1,总体方差大于0C .丙地:中位数为2,众数为3D .丁地:总体均值为2,总体方差为3【例8】 (2009四川卷文)设矩形的长为a ,宽为b ,其比满足0.618b a ≈∶,这种矩形给人以美感,称为黄金矩形.黄金矩形常应用于工艺品设计中.下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本: 甲批次:0.598 0.625 0.628 0.595 0.639 乙批次:0.618 0.613 0.592 0.622 0.620根据上述两个样本来估计两个批次的总体平均数,与标准值0.618比较,正确结论是A .甲批次的总体平均数与标准值更接近B.乙批次的总体平均数与标准值更接近C.两个批次总体平均数与标准值接近程度相同D.两个批次总体平均数与标准值接近程度不能确定【例9】(2008上海9)已知总体的各个体的值由小到大依次为23371213.718.320a b,,,,,,,,,,且总体的中位数为10.5,若要使该总体的方差最小,则a、b的取值分别是.【例10】(2008山东9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为(A【例11】两台机床同时生产直径为10的零件,为了检验产品质量,质量检验员从两台机床的产品中各抽出4件进行测量,结果如下:判断哪台机床生产的零件质量更符合要求?。