随机变量、统计案例
- 格式:doc
- 大小:694.50 KB
- 文档页数:9
8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
服从泊松分布的随机变量的实例泊松分布及其实例泊松分布是一种描述独立随机事件发生频率的概率分布。
它广泛应用于各种实际场景,其中随机事件以平均恒定的速率发生。
泊松分布的特点独立性:每个事件的发生与其他事件无关。
恒定速率:事件发生的平均速率在整个观察期内保持不变。
事件之间无记忆性:发生或未发生过去事件对未来事件的可能性没有影响。
泊松分布实例1. 电话呼叫的到达电话呼叫中心接到的呼叫数目通常服从泊松分布。
平均呼叫到达率随时间而变化,但通常在任何给定时间点保持相对恒定。
2. 放射性衰变放射性原子的衰变率是恒定的,这会导致服从泊松分布的衰变事件。
3. 交通事故特定道路上发生交通事故的数量可以近似为泊松分布。
虽然事故率可能随时间波动,但总体平均事故率通常保持相对稳定。
4. 客户服务请求企业每天收到的客户服务请求的数量通常符合泊松分布。
请求率可能受一天中时间、一周中日期、季节性和其他因素的影响,但总体平均请求率相对稳定。
5. 生产缺陷生产线上产生的缺陷数量可以近似为泊松分布。
虽然缺陷率可能会因机器、运营商和材料等因素而异,但总体平均缺陷率通常保持恒定。
6. 网站流量网站访问者的到来经常表现出泊松分布。
平均访问率可能会根据一天中时间、一周中日期、促销活动和其他因素而波动,但总体平均访问率保持相对稳定。
7. 生物学中的随机事件泊松分布也可以描述生物学中的随机事件,例如突变的发生、基因表达和细胞分裂。
8. 金融市场金融市场上的某些事件,例如股票价格变化和交易量,可以近似为泊松分布。
9. 队列管理泊松分布在队列管理中也很有用。
例如,银行中等待服务的客户人数通常服从泊松分布。
10. 保险索赔保险公司收到的索赔数量可以近似为泊松分布。
索赔率可能因风险类型、季节性和其他因素而异,但总体平均索赔率通常保持相对稳定。
高三数学统计案例试题1.一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机器零件有一些会有缺点,每小时生产有缺点零件的多少随机器运转的速度而变化,下表是抽样试验结果:若实际生产中,允许每小时的产品中有缺点的零件数最多为10个,那么机器的转速应该控制所在的范围是()A.10转/s以下B.15转/s以下C.20转/s以下D.25转/s以下【答案】B【解析】则a=-b=-0.857 5.∴回归直线方程为=0.728 6x-0.857 5.要使y≤10,则0.728 6x-0.857 5≤10,∴x≤14.901 9.因此,机器的转速应该控制在15转/s以下.故选B.2.登山族为了了解某山高y(km)与气温x(°C)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:气温x(°C)181310-1由表中数据,得到线性回归方程,由此请估计出山高为72(km)处气温的度数为()A.-10B.-8C.-6D.-6【答案】C【解析】由题意可得=10,=40.5,所以=+2=40.5+2×10=60.5,所以,当=72时,,解得x≈-6,故选C.【考点】回归分析3.为了调查某大学学生在周日上网的时间,随机对名男生和名女生进行了不记名的问卷调查,得到了如下的统计结果:表1:男生上网时间与频数分布表上网时间(分5253025151020402010(Ⅰ)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数;(Ⅱ)完成表3的列联表,并回答能否有90%的把握认为“学生周日上网时间与性别有关”?(Ⅲ)从表3的男生中“上网时间少于60分钟”和“上网时间不少于60分钟”的人数中用分层抽样的方法抽取一个容量为5的样本,再从中任取两人,求至少有一人上网时间超过60分钟的概率.表3 :上网时间少于60分钟上网时间不少于60分钟合计附:,其中【答案】(I)225;(II)否;(III).【解析】(I)统计得到女生样本中的上网时间不少于60分钟的频数,根据频数与容量之比等于频率,易得到全校上网时间不少于60分钟的人数;(II)由以上列联表1、2的数据,可统计得到表3的数据,根据独立性检验原理可知:没有90%的把握认为“学生周日上网时间与性别有关”;(III)五名男生中任取两人的基本事件数10个,根据表3可知男生上网超过60分钟与不超过60分钟的人数比为3:2,再写出至少一人超过60分钟的事件数7个,易求得概率为.试题解析:(1)设估计上网时间不少于60分钟的人数,依据题意有,解得:,所以估计其中上网时间不少于60分钟的人数是225人.(2)根据题目所给数据得到如下列联表:上网时间少于60分钟上网时间不少于60分钟合计其中 ,因此,没有90%的把握认为“学生周日上网时间与性别有关”.(3)因为上网时间少于60分钟与上网时间不少于60分钟的人数之比为,所以5人中上网时间少于60分钟的有3人,记为上网时间不少于60分钟的有2人,记为从中任取两人的所有基本事件为:(),(),(),(),(),(),(),(),(),(),共10种,其中“至少有一人上网时间超过60分钟”包含了7种, .【考点】1、用样本估计总体; 2、独立性检验;3、古典概型的概率求法.4.为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批玉米共10000 株的生长情况进行研究,现采用分层抽样方法抽取50株作为样本,统计结果如下:高茎矮茎合计10株玉米,再从这10株玉米中随机选出3株,求选到的3株之中既有圆粒玉米又有皱粒玉米的概率;(2) 根据对玉米生长情况作出的统计,是否能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关?(下面的临界值表和公式可供参考:,其中)【答案】(1);(2) 能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关.【解析】本小题通过统计与概率的相关知识,具体涉及到随机变量的分布列、数学期望的求法和统计案例中独立性检验等知识内容,考查学生对数据处理的能力,对考生的运算求解能力、推理论证能力都有较高要求. 本题属于统计概率部分综合题,对考生的统计学的知识考查比较全面,是一道的统计学知识应用的基础试题. .(1)采用分层抽样的比例关系确定个数,然后利用排列组合的知识,借助随机事件的概率求解;(2)根据已知的公式,经过仔细的计算出的值,然后借助表格进行数据对比,得到相关性的结论.试题解析:(1) 现采用分层抽样的方法,从样本中取出的10株玉米中圆粒的有6株,皱粒的有4株,所以从中再次选出3株时,既有圆粒又有皱粒的概率为. (6分) (2) 根据已知列联表:所以.又,因此能在犯错误的概率不超过0.050的前提下认为玉米的圆粒与玉米的高茎有关. (12分)【考点】(1)随机变量的分布列;(2)统计案例中独立性检验5.(本小题共12分)现对某市工薪阶层关于“楼市限购令”的态度进行调查,随机抽调了50人,他们月收入的频数分布及对“楼市限购令”赞成人数如下表.月收入(单[15,25[25,35[35,45[45,55[55,65[65,75510151055(1)由以上统计数据填下面2乘2列联表并问是否有99%的把握认为“月收入以5500为分界点对“楼市限购令” 的态度有差异;(2)若对在[15,25),[25,35)的被调查中各随机选取两人进行追踪调查,记选中的4人中不赞成“楼市限购令”人数为,求随机变量的分布列。
概率论与数理统计案例概率论与数理统计是数学学科的两个分支,它们研究与概率和随机变量相关的问题,可以应用于统计、经济、金融等领域。
下面将介绍一些概率论与数理统计的案例。
案例一:骰子游戏在玩一个骰子游戏时,每次掷一个骰子,如果骰子点数为1或6,则游戏结束,否则游戏继续。
假设你可以决定掷骰子的次数,掷的次数越多,结束游戏的概率越大,但可能会因为掷的次数过多而浪费时间。
现在假设你只能掷骰子n次,问你应该掷几次骰子可以使结束游戏的概率最大?解题思路:对于这个问题,我们可以使用概率论的方法来求解。
假设掷骰子的次数为k,那么结束游戏的概率为:$P_k$ = $\frac{1}{3} + \frac{4}{9}(\frac{2}{3})^k +\frac{2}{9}(\frac{1}{2})^k(\frac{2}{3})^{n-k}$为了使结束游戏的概率最大,我们需要求出这个概率关于k的一阶导数,并令其等于0。
对上式求导,得到:令$P'_k$ = 0,解得:$k$ = $\frac{n}{2}$因此,在保证掷骰子次数不超过n的情况下,掷骰子次数为$\frac{n}{2}$时可以使结束游戏的概率最大。
案例二:股票涨跌预测对于投资者来说,股票的涨跌是一个重要的决策因素,如果能准确预测股票涨跌,可以获得更高的投资收益。
根据概率论和数理统计的方法,我们可以尝试分析股票涨跌的概率和趋势,并根据分析结果制定投资策略。
对于股票涨跌的预测,我们可以使用概率论中的二项分布来进行分析。
假设一个股票价格在一段时间内有50%的概率上涨,50%的概率下跌,我们可以将上涨定义为成功事件,下跌定义为失败事件,那么在n次交易中,股票涨k次的概率为:$P(k) = \frac{n!}{k!(n-k)!}\times p^k\times (1-p)^{n-k}$其中,p为股票价格上涨的概率,k为股票涨的次数。
对于预测股票涨跌的趋势,我们可以使用时间序列分析的方法来进行分析。
统计案例的应用就在身边统计案例的应用就在身边 224100 江苏省盐城市大丰区南阳中学潘锦明统计是与生活关系最为密切的一门学科, 统计知识的学习更侧重于体会, 理解统计学的基本概念、方法、原理及其相应的实际意义,突出了统计中分析处理问题的基本思想方法.同学们只有亲自实践并与实际问题进行对比,才能有深刻而真实的体会.一.环保问题例1 有人统计了同一个省的6个城市某一年的人均国内生产总值(即人均GDP )和这一年各城市患白血病的儿童数量,如下表:(1)画出散点图;(2)求y 对x 的回归直线方程;(3)如果这个省的某一城市同时期年人均GDP 为12万元,估计这个城市一年患白血病的儿童数目;分析:利用公式分别求出b , a 的值,即可确定回归直线方程,然后再进行预测. 解:(1)作x 与y 对应的散点图,如右图所示;(2)计算得x =5. 33, y =226. 17,∧∧∑i =16(x i -x ) (y i -y ) =1286. 67∑i =16(x i -x ) 2=55. 33,∧1286. 67∴b =≈23. 25,a =226. 17-23. 25⨯5. 33≈102. 25,55. 33∧∴y 对x 的回归直线方程是y =23. 25x +102. 25;∧∧∧人均G(3)将x =12代入y =23. 25x +102. 25得y =23. 25⨯12+102. 25≈381,估计这个城市一年患白血病的儿童数目约为381.评注:本题涉及的是一个和我们生活息息相关,也是一个愈来愈严峻的问题——环保问题. 本题告诉了我们一个沉痛的事实:现如今,一个城市愈发达,这个城市患白血病的儿童愈多. 原因在于,城市的经济发展大都以牺牲环境为代价的,经济发展造成了大面积的环境污染,空气、水源中含有的大量的有害物质是导致白血病患者增多的罪魁祸首,所以,我们一定要增强自我保护意识和环境保护意识. 二.互联网问题例2 寒假中,某同学为组织一次爱心捐款,于2019年2月1日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:(1)作出散点图,并猜测x 与y 之间的关系;(2)建立x 与y 的关系,预报回归模型并计算残差;(3)如果此人打算在2019年2月12日(即帖子传播时间共10天)进行募捐活动,根据上述回归模型,估计可去多少人.分析:先通过散点图,看二者是否具有线性相关关系,若不具有,可通过相关函数变换,转化为线性相关关系.解:(1)散点图略. 从散点图可以看出x 与y 不具有线性相关关系,同时可发现样本点分布在某一个指数函数曲线y =ke mx 的周围,其中k 、m 是参数;(2)对y =ke mx 两边取对数,把指数关系变成线性关系. 令z =ln y ,则变换后的样本点分布在直线z =bx +a (a =ln k , b =m ) 的周围,这样就可以利用线性回归模型来建立x 与y 之间的非线性回归方程了,数据可以转化为:∧求得回归直线方程为z =0. 620x +1. 133,∴y =e 0. 620x +1. 133.(3)截止到2019年2月12日,x =10,此时y =e 0. 620⨯10+1. 133≈1530(人). ∴估计可去1530人.评注:现如今是网络时代,很多同学都会通过互联网发帖子,所以此类问题为同学们司空见惯. 但如何预测发帖后的效果,这却是个新课题,通过本题你是否已明确.例2有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少. 为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.(1)根据以上数据建立一个2×2的列联表;(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?分析:按题中数据建列联表,然后根据列联表数据求出k 值,即可判定.解:(1)2×2的列联表∧∧(.124⨯(43⨯33-27⨯21) 2≈6. 201,由表中数据得k =70⨯54⨯64⨯60因为k >5. 024,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有97. 5的把握认为“国籍和邮箱名称里是否含有数字有关”.评注:独立性检验类似于反证法,其一般步骤为:第一步:首先假设两个分类变量几乎没有关系(几乎独立);第二步:求随机变量k 的值;第三步. 判断两个分类变量有关的把握(即概率)有多大. 三.文化生活问题例4 针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的欢韩剧人数占女生人数的11,男生喜欢韩剧的人数占男生人数的,女生喜262. 3(1)若有950的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人;(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人. 分析:有95的把握认为回答结果对错和性别有关,说明k >3. 841,没有充分的证据显示回答结果对错和性别有关,说明k ≤2. 706. 设出男生人数,并用它分别表示各类别人数,代入K 2的计算公式,建立不等式求解即可.解:(1)若有95的把握认为回答结果的对错和性别有关,则k >3. 841,3x 5x x x x 2(⨯-⨯) 226366=3x >3. 841,解得x >10. 24,由K =x x 8x ⋅⋅⋅x 22∵x x则男生至少有12, 为整数,∴若有95的把握认为回答结果的对错和性别有关,26人;(2)没有充分的证据显示回答结果的对错和性别有关,则k ≤2. 706,3x 5x x x x 2(⨯-⨯) 226366=3x ≤2. 706,解得x ≤7. 216,由K =x x 8x ⋅⋅⋅x 22∵x x, 为整数,∴若没有充分的证据显示回答结果的对错和性别有关,则男生至多有266人.评注:这是一个独立性检验的创新问题,解答时要注意理解“至少”、“至多”的含义. 通过上面几例,大家是否已体会到了回归分析和独立性检验思想方法的应用的广泛性和重要性. 其实,这两种思想方法并不神秘,你身边有很多问题可信手拈来,用它们处理,这一点还请同学们多思考、勤尝试.。
统计与统计案例计数原理、概率、随机变量一、选择题1.为了调查某县2021年高考数学成绩,在高考后对该县6000名考生进行了抽样调查,其中2000名文科学生,3800名理科考生,200名艺术和体育类考生,从中抽到了120名考生的数学成绩作为一个样本,这项调查宜采用的抽样方法是()A.系统抽样法B.分层抽样法C.抽签法D.简单的随机抽样法B [由于6000名学生各个学生层次之间存在明显差别,故要采用分层抽样的方法,故选B.]2.今年入夏以来,某市天气反复,降雨频繁.在下图中统计了某个月前15天的气温,以及相对去年同期的气温差(今年气温-去年气温,单位:℃),以下判断错误的是()A.今年每天气温都比去年气温高B.今年的气温的平均值比去年低C.去年8~11号气温持续上升D.今年8号气温最低A[由题图可知,1号温差为负值,所以今年1号气温低于去年气温,故选项A 不正确;除6,7号今年气温略高于去年气温外,其他日子今年气温都不高于去年气温,所以今年的气温的平均值比去年低,选项B 正确;今年8~11号气温上升,但是气温差逐渐下降,说明去年8~11号气温持续上升,选项C 正确;由题图可知,今年8号气温最低,选项D 正确.故选A.]3.(2021·黑龙江铁人中学高三三模)“幻方”最早记载于我国公元前500年的春秋时期《大戴礼》中,n 阶幻方(n ≥3,n ∈N *)是由前n 2个正整数组成的一个n 阶方阵,其各行各列及两条对角线所含的n 个数之和(简称幻和)相等,例如“3阶幻方”的幻和为15.现从如图所示的3阶幻方中任取3个不同的数,记“取到的3个数和为15”为事件A ,“取到的3个数可以构成一个等差数列”为事件B ,则P (B |A )=()A.34B.23C.13D.12D[根据题意,事件A 包含的基本事件有:(8,1,6),(3,5,7),(4,9,2),(8,3,4),(1,5,9),(6,7,2),(8,5,2),(4,5,6),共8个基本事件;事件AB 同时发生包含的基本事件有:(3,5,7),(1,5,9),(8,5,2),(4,5,6)共4个基本事件,所以P (B |A )=n ABn A =48=12.]4.若一个三位数的各位数字之和为10,则称这个三位数为“十全十美数”,如208,136都是“十全十美数”,则这样的“十全十美数”共有()A.32个B.64个C.54个D.96个C[分情况讨论:(1)这个三位数中不含0,若这个三位数中有两个重复数字,数字组合为(1,1,8),(2,2,6),(3,3,4),(4,4,2),则有“十全十美数”4C 13个,若这个三位数中的三个数字都不重复,数字组合为(1,2,7),(1,3,6),(1,4,5),(2,3,5),则有4A 33个“十全十美数”;(2)这个三位数中含一个0,数字组合为(1,0,9),(2,0,8),(3,0,7),(4,0,6),(5,0,5),则“十全十美数”有4C 12A 22+2=18(个).根据分类加法计数原理得,“十全十美数”共有4C 13+4A 33+18=54(个).故选C.]x +y )7的展开式中含x 4y 4项的系数为()A.-7B.-35C.-49D.-56Ax +y )7=x (x +y )7-2y 2x(x +y )7,因为(x +y )7的展开式的通项公式为T r +1=C r 7x7-r y r,x +y )7的展开式中含x 4y 4的项为x ·C 47x 3y 4-2y 2x ·C 27x 5y 2=-7x 4y 4,x +y )7的展开式中含x 4y 4项的系数为-7.]6.(2021·全国新高考Ⅱ卷)某物理量的测量结果服从正态分布N (10,σ2),则下列结论中不正确的是()A.σ越小,该物理量一次测量结果落在(9.9,10.1)内的概率越大B.σ越小,该物理量一次测量结果大于10的概率为0.5C.σ越小,该物理量一次测量结果大于10.01的概率与小于9.99的概率相等D.σ越小,该物理量一次测量结果落在(9.9,10.2)内的概率与落在(10,10.3)内的概率相等D[对于A,σ越小,正态分布的图象越瘦长,总体分布越集中在对称轴附近,故A 正确.对于B,C,由于正态分布图象的对称轴为μ=10,显然B,C 正确.D 显然错误.选D.]7.为了研究国民收入在国民之间的分配,避免贫富悬殊,美国统计学家劳伦茨提出了著名的劳伦茨曲线,如图所示.劳伦茨曲线为直线OL 时,表示收入完全平等.劳伦茨曲线为折线OKL 时,表示收入完全不平等.记区域A 为不平等区域,a 表示其面积;S 为△OKL的面积.将Gini=aS称为基尼系数.对于下列说法:①Gini 越小,国民分配越公平;②设劳伦茨曲线对应的函数为y =f (x ),则对任意x ∈(0,1),均有fxx>1;③若某国家某年的劳伦茨曲线近似为y =1-1-x 2(x ∈[0,1]),则Gini=π2-1.其中正确的是()A.①②B.①③C.②③D.①②③B[对于①,根据基尼系数公式Gini=aS,可得基尼系数越小,不平等区域的面积a 越小,国民分配越公平,故①正确;对于②,f x x =f x -0x -0表示曲线y =f (x )上的点与原点连线的斜率,由图可知对任意x ∈(0,1),均有0≤f xx≤1,故②错误;对于③,将y =1-1-x 2化简整理,得x 2+(y -1)2=1(x ,y ∈[0,1]),表示圆心为(0,1),半径为1的四分之一圆,所以a =14π×12-12×1×1=π4-12,S =12×1×1=12,所以a S =π4-1212=π2-1,故③正确.故选B.]8.已知函数f (x )=-π2x ,g (x )=x cos x -sin x ,当x ∈[-4π,4π]且x ≠0时,方程f (x )=g (x )根的个数是()A.5B.6C.7D.8D[由题意得,函数f (x )=-π2x在x ∈[-4π,4π]且x ≠0上是奇函数且是反比例函数,g (x )=x cos x -sin x 在x ∈[-4π,4π]上是奇函数,因为g ′(x )=cos x -x sin x -cos x =-x sin x ,当x ∈[0,π]∪[2π,3π]时,g ′(x )≤0,当x ∈(π,2π)∪(3π,4π]时,g ′(x )≥0,所以g (x )在[0,π],[2π,3π]上是减函数,在(π,2π),(3π,4π]上是增函数,且g (0)=0,g (π)=-π,g (2π)=2π,g (3π)=-3π,g (4π)=4π,所以作出函数f (x )与g (x )在[-4π,0)与(0,4π]上的图象,如图所示,结合图象可知,f (x )与g (x )的图象共有8个交点,所以方程f (x )=g (x )有8个根,故选D.]二、填空题9.已知样本x 1,x 2,…,x 2020的平均数与方差分别是1和4,若y i =ax i +b (i =1,2,…,2020),且样本y 1,y 2,…,y 2020的平均数与方差也分别是1和4,则a b =.1+b =1,a 2=4,=1,=0=-1,=2,所以a b=1.]10.《史记》卷六十五:《孙子吴起列传第五》,是中国历史上有名的揭示如何善用自己的长处去对付对手的短处,从而在竞技中获胜的事例.主要讲述了齐国的大将田忌与齐威王进行赛马比赛反败为胜的故事.若田忌的上等马优于齐王的中等马,劣于齐王的上等马,田忌的中等马优于齐王的下等马,劣于齐王的中等马,田忌的下等马劣于齐王的下等马,现双方各出上、中、下等马各一匹分组分别进行一场比赛,胜两场及以上者获胜,若双方均不知道对方马的出场顺序,则田忌获胜的概率为.16[设齐王的下等马,中等马,上等马分别为a 1,a 2,a 3,田忌的下等马,中等马,上等马分别记为b 1,b 2,b 3,齐王与田忌赛马,其情况有:(a 1,b 1),(a 2,b 2),(a 3,b 3),齐王获胜;(a 1,b 1),(a 2,b 3),(a 3,b 2),齐王获胜;(a 2,b 1),(a 1,b 2),(a 3,b 3),齐王获胜;(a 2,b 1),(a 1,b 3),(a 3,b 2),齐王获胜;(a 3,b 1),(a 1,b 2),(a 2,b 3),田忌获胜;(a 3,b 1),(a 1,b 3),(a 2,b 2),齐王获胜.共6种等可能的情况.其中田忌获胜的只有一种(a 3,b 1),(a 1,b 2),(a 2,b 3),则田忌获胜的概率为16.]11.在2021年高考前,某学校进行了模拟测试,理科与文科的前10名数学成绩如茎叶图所示(满分150分).若所选理科与文科成绩的中位数分别为x 1,x 2,平均数分别为x 1,x 2,标准差分别为s 1,s 2,给出下列结论:①x 1>x 2;②|x 1-x 2|>1;③理科这10名学生的成绩更集中;④文科这10名学生的成绩更集中,其中正确结论的个数为.3[条件可得x 1=123+1272=125,x 2=124+1252=124.5,这两组数据的平均数分别为x 1=125.7,x 2=124,故|x 1-x 2|>1,数据的方差分别s 21≈199,s 22≈94,故s 1>s 2,即文科这10名学生的成绩更集中,故正确的有①②④,即正确结论的个数为3.]12.(2021·浙江高考)袋中有4个红球,m 个黄球,n 个绿球.现从中任取两个球,记取出的红球数为ξ,若取出的两个球都是红球的概率为16,一红一黄的概率为13,则m -n=,E (ξ)=.189[由题意得P (ξ=2)=C 24C 2m +n +4=6C 2m +n +4=16⇒C 2m +n +4=36,所以m +n +4=9,P (一红一黄)=C 14·C 1m C 2m +n +4=4m 36=m 9=13⇒m =3,所以n =2,则m -n =1.由于P (ξ=2)=16,P (ξ=1)=C 14·C 15C 29=4×536=59,P (ξ=0)=C 25C 29=1036=518,∴E (ξ)=16×2+59×1+518×0=13+59=89.]三、解答题13.某校从参加高三化学得分训练的学生中随机抽出60名学生,将其化学成绩(均为整数,满分100分)分成六段:[40,50),[50,60),…,[90,100],由此得到部分频率分布直方图(如图).观察图中的信息,回答下列问题:(1)求分数在[70,80)内的频率,并补全频率分布直方图;(2)据此估计本次考试的平均分;(3)若从60名学生中随机抽取2人,抽到的学生成绩在[40,60)内记0分,在[60,80)内记1分,在[80,100]内记2分,用X 表示抽取结束后的总记分,求X 的分布列.[解](1)设分数在[70,80)内的频率为x .根据频率分布直方图,有(0.010+0.015×2+0.025+0.005)×10+x =1,解得x =0.3.补全频率分布直方图略.(2)抽取的60名学生的平均分为x =45×0.10+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71.据此估计本次考试的平均分为71分.(3)成绩在[40,60)内的有0.25×60=15(人),成绩在[60,80)内的有0.45×60=27(人),成绩在[80,100]内的有0.3×60=18(人),易知X 的所有可能取值是0,1,2,3,4,则P (X =0)=C 215C 260=7118,P (X =1)=C 115C 127C 260=27118,P (X =2)=C 115C 118+C 227C 260=207590,P (X =3)=C 127C 118C 260=81295,P (X =4)=C 218C 260=51590.所以X 的分布列为X 01234P711827118207590812955159014.某大学举行了一次与嫦娥系列探测工程有关的知识测试,测试满分为100分,该校某专业的100名大一学生参加了学校举行的测试,记录这100名学生的分数,将数据分成7组:[30,40),[40,50),…,[90,100],并整理得到如下频率分布直方图:(1)估计这100名学生测试分数的中位数;(2)若分数在[30,40),[40,50),[50,60)上的频率分别为p 1,p 2,p 3,且2p 1+p 2=0.05,估计100名学生测试分数的平均数;(3)把分数不低于80分的称为优秀,已知这100名学生中男生有70人,其中测试优秀的男生有45人,填写下面列联表,并根据列联表判断是否有95%的把握认为测试优秀与性别有关.男生女生优秀不优秀附:P (K 2≥k )0.0500.0100.001k3.8416.63510.828K 2=n ad -bc 2a +bc +d a +cb +d.[解](1)设这100名学生测试分数的中位数为a ,由前5组频率之和为0.4,前6组频率之和为0.8,可得80<a <90,所以0.4+(a -80)×0.04=0.5,解得a =82.5.(2)因为2p 1+p 2=0.05,且p 1+p 2+p 3=0.1,所以这100名学生测试分数的平均数为35p 1+45p 2+55(0.1-p 1-p 2)+65×0.1+75×0.2+85×0.4+95×0.2=5.5-10(2p 1+p 2)+6.5+15+34+19=79.5.(3)列联表如下:男生女生优秀4515不优秀2515可得K 2=10045×15-25×15270×30×60×40≈1.786<3.841.所以没有95%的把握认为测试优秀与性别有关.15.某“双一流”大学专业奖学金以所学专业各科考试成绩作为评选依据,分为专业一等奖学金(金额为3000元)、专业二等奖学金(金额为1500元)及专业三等奖学金(金额为600元),且专业奖学金每年评选一次,每个学生一年最多只能获得一次.图①是该校2021年500名学生周课外平均学习时间的频率分布直方图,图②是这500名学生2021年周课外平均学习时间与获得专业奖学金的频率柱状图.图①图②(1)求这500名学生中获得专业三等奖学金的人数.(2)若周课外平均学习时间超过35h的学生称为“努力型”学生,否则称为“非努力型”学生,列出2×2列联表并判断是否有99.9%的把握认为该校学生获得专业一、二等奖学金与“努力型”学生有关.(3)若以频率作为概率,从该校任选一名学生,记该学生2021年获得的专业奖学金金额为随机变量X,求随机变量X的分布列和数学期望.附:P(K2≥k)0.100.050.0100.0050.001k2.7063.841 6.6357.87910.828K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d.[解](1)获得专业三等奖学金的频率为(0.008+0.016+0.04)×5×0.15+(0.04+0.056+0.016)×5×0.4+(0.016+0.008)×5×0.4=0.32,500×0.32=160(人),故这500名学生中获得专业三等奖学金的人数为160.(2)周课外平均学习时间不超过35h的“非努力型”学生有500×(0.008+0.016+0.04+0.04+0.056+0.016)×5=440(人),其中获得专业一、二等奖学金的学生有500×(0.008+0.016+0.04)×5×0.05+500×(0.04+0.056+0.016)×5×(0.25+0.05)=92(人).周课外平均学习时间超过35h的“努力型”学生有500×(0.016+0.008)×5=60(人),其中获得专业一、二等奖学金的学生有60×(0.35+0.25)=36(人).所以2×2列联表为“非努力型”学生“努力型”学生总计获得专业一、二等奖学金9236128未获得专业一、二等奖学金34824372总计44060500K2的观测值k=500×92×24-348×362128×372×440×60≈42.36>10.828,故有99.9%的把握认为该校学生获得专业一、二等奖学金与“努力型”学生有关.(3)X的可能取值为0,600,1500,3000.P (X =600)=0.32,P (X =1500)=0.05×(0.008+0.016+0.04)×5+0.25×(0.04+0.056+0.016)×5+0.35×(0.016+0.008)×5=0.198,P (X =3000)=0.05×(0.04+0.056+0.016)×5+0.25×(0.016+0.008)×5=0.058,P (X =0)=1-0.32-0.198-0.058=0.424.所以X 的分布列为X60015003000P 0.4240.320.1980.058故E (X )=0×0.424+600×0.32+1500×0.198+3000×0.058=663(元).16.核酸检测也就是病毒DNA 和RNA 的检测,是目前病毒检测最先进的检验方法,在临床上主要用于新型冠状乙肝、丙肝和艾滋病的病毒检测.通过核酸检测,可以检测血液中是否存在病毒核酸,以诊断机体有无病原体感染.某研究机构为了提高检测效率降低检测成本,设计了如下试验,预备12份试验用血液标本,其中2份阳性,10份阴性,从标本中随机取出n 份分为一组,将样本分成若干组,从每一组的标本中各取部分,混合后检测,若结果为阴性,则判定该组标本均为阴性,不再逐一检测;若结果为阳性,需对该组标本逐一检测.以此类推,直到确定所有样本的结果.若每次检测费用为a 元,记检测的总费用为X 元.(1)当n =3时,求X 的分布列和数学期望;(2)(ⅰ)比较n =3与n =4两种方案哪一个更好,说明理由;(ⅱ)试猜想100份标本中有2份阳性,98份阴性时,n =5和n =10两种方案哪一个更好(只需给出结论不必证明).[解](1)当n =3时,共分4组,当2份阳性在一组,第一轮检测4次,第二轮检测3次,共检测7次,若2份阳性各在一组,第一轮检测4次,第二轮检测6次,共检测10次,检测的总费用X 的所有可能值为7a,10a ,任意检测有C 312C 39C 36C 33种等可能结果,2份阳性在一组有A 14C 110C 39C 36C 33种等可能结果,P (X =7a )=A 14C 110C 39C 36C 33C 312C 39C 36C 33=211,P (X =10a )=1-P (X =7a )=911,所以检测的总费用X 的分布列为:X 7a 10a P211911X 的数学期望E (X )=7a ·211+10a ·911=104a11.(2)(ⅰ)当n =4时,共分3组,当2份阳性在一组,共检测7次,若2份阳性各在一组,共检测11次,检测的总费用Y 的所有可能值为7a,11a ,任意检测有C 412C 48C 44种等可能结果,2份阳性在一组有A 13C 210C 48C 44种等可能结果,P (Y =7a )=A 13C 210C 48C 44C 412C 48C 44=311,P (Y =11a )=1-P (Y =7a )=811,所以检测的总费用Y 的分布列为:Y 7a 11aP311811Y 的数学期望E (Y )=7a ·311+11a ·811=109a 11>104a11,所以n =3的方案更好一些.(ⅱ)n =10的方案更好一些.。
概率论与数理统计案例案例背景在概率论与数理统计这个领域中,我们可以通过案例分析来更好地理解和应用所学的理论知识。
本文将通过介绍一个实际案例来探讨概率论与数理统计的应用。
案例介绍假设某个电商平台希望在销售季节到来之前预测某款商品的销售量,以便做好库存管理,制定营销策略和预测盈利情况。
该电商平台采集了过去一年的销售数据,并希望通过概率论与数理统计方法来预测未来的销售量。
数据收集该电商平台从过去一年的销售数据中获取到了每天该商品的销售量。
数据包括商品编号、销售日期和销售数量。
为了简化问题,我们仅考虑某一款商品的销售情况。
数据预处理在进行数据分析之前,首先对数据进行预处理。
预处理包括去除异常值、缺失值处理以及数据归一化等。
对于销售数量这个变量,我们可以先检查是否存在异常值,如果存在则进行删除或修正。
然后,我们需要处理可能存在的缺失值,可以使用均值填充或者删除缺失值较多的样本。
最后,为了进行统计分析,需要将数据进行归一化处理,例如使用z-score标准化方法。
数据分析在数据预处理完成后,我们可以开始进行数据分析了。
首先,我们可以计算该商品的每日平均销售量,并进行可视化展示。
通过对平均销售量的观察,我们可以初步判断销售量的分布情况。
平均销售量分布我们可以绘制柱状图来展示每天销售量的分布情况。
柱状图可以展示销售量的频数分布,帮助我们了解销售量的区间和分布特征。
同时,可以计算平均值和标准差来描述销售量的集中趋势和变异程度。
时间序列分析在考察销售量整体情况后,我们还可以进行时间序列分析。
时间序列分析可以帮助我们了解销售量的趋势和季节性变动。
通过绘制时间序列图和计算季节指数,我们可以确定销售量是否存在明显的趋势和周期性。
模型建立与预测在了解销售量的分布和规律后,我们可以基于概率论与数理统计的方法建立模型来预测未来的销售量。
随机游动模型随机游动模型是一种常用的时间序列模型,用于描述一系列随机变量的演化过程。
在本案例中,我们可以考虑用随机游动模型来预测未来的销售量。
随机变量的分布列及统计案例复习学案参考答案例1、解析 ∵P (A )=C 22+C 23C 25=25,P (AB )=C 22C 25=110,∴P (B |A )=P (AB )P (A )=14. 答案 B例2、解析 该题为几何概型,圆的半径为1,正方形的边长为2,∴圆的面积为π,正方形面积为2,扇形面积为π4.故P (A )=2π,P (B |A )=P (A ∩B )P (A )=14.答案 (1)2π(2)14例3、专题三 离散型随机变量的分布列、均值与方差 例4、解设A 、B 、C 分别为甲、乙、丙三台机床各自独立加工同一种零件是一等品的事件,依题意得 ⎩⎪⎪⎪⎨⎪⎪⎪⎧P (A ·B -)=14,P (B ·C -)=112,P (A ·C )=29,即⎩⎪⎪⎪⎨⎪⎪⎪⎧P (A )·(1-P (B ))=14,P (B )·(1-P (C ))=112,P (A )·P (C )=29,得27[P (C )]2-51P (C )+22=0, 解得P (C )=23或P (C )=119(舍). ∴P (A )=13,P (B )=14,P (C )=23.即甲、乙、丙三台机床各自独立加工的零件是一等品的概率分别为13,14,23. (2)记D 为从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的事件. P (D )=1-P (D -)=1-(1-P (A ))·(1-P (B ))·(1-P (C ))=1-23×34×13=56,即从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的概率为56.解 (1)记“该生考上大学”为事件A ,其对立事件为A -. 则P ⎝ ⎛⎭⎪⎫A -=C 15⎝ ⎛⎭⎪⎫13⎝ ⎛⎭⎪⎫234+⎝ ⎛⎭⎪⎫235. ∴P (A )=1-[C 15⎝ ⎛⎭⎪⎫13⎝ ⎛⎭⎪⎫234+⎝ ⎛⎭⎪⎫235]=131243. (2)参加测试次数X 的可能取值为2,3,4,5, P (X =2)=⎝ ⎛⎭⎪⎫132=19, P (X =3)=C 12·13·23·13=427, P (X =4)=C 13·13·⎝ ⎛⎭⎪⎫232·13=427, P (X =5)=C 14·13·⎝ ⎛⎭⎪⎫233+⎝ ⎛⎭⎪⎫234=1627. 故X 的分布列为: E (X )=2×19+3×427+4×427+5×1627=389.所以E (ξ)=1×15+2×35+3×15=2.由题意,η~B ⎝ ⎛⎭⎪⎫3,23,E (η)=3×23=2, 或者P (η=0)=C 03⎝ ⎛⎭⎪⎫133=127; P (η=1)=C 13⎝ ⎛⎭⎪⎫231⎝ ⎛⎭⎪⎫132=29; ⎛⎫⎛⎫⎛⎫⎝⎛⎭⎪⎫⎝ ⎛⎭⎪⎫P (η=1)=C 3⎝ ⎛⎭⎪⎫3⎝ ⎛⎭⎪⎫3=9; P (η=2)=C 2 ⎛⎪⎫22 ⎛⎪⎫1=4;P (η=3)=C 3 ⎛⎪⎫23=8,例6、例7、解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面所以E (ξ)=1×15+2×35+3×15=2.由题意,η~B ⎝ ⎛⎭⎪⎫3,23,E (η)=3×23=2, 或者P (η=0)=C 03⎝ ⎛⎭⎪⎫133=127;P (η=1)=C 13⎝ ⎛⎭⎪⎫231⎝ ⎛⎭⎪⎫132=29; P (η=2)=C 23⎝ ⎛⎭⎪⎫232⎝ ⎛⎭⎪⎫13=49;P (η=3)=C 33⎝ ⎛⎭⎪⎫233=827, 所以,E (η)=0×127+1×29+2×49+3×827=2. (2)D (ξ)=(1-2)2×15+(2-2)2×35+(3-2)2×15=25;由η~B ⎝⎛⎭⎪⎫3,23,D (η)=3×23×13=23.可见E (ξ)=E (η),D (ξ)<D (η),因此建议该单位派甲参加竞赛. 解 ∵考生成绩X ~N (500,502), ∴μ=500,σ=50, ∴P =(550<X ≤600) =12[P (500-2×50<X ≤500+2×50)-P (500-50<X ≤500+50)] =12(0.954 4-0.682 6)=0.135 9. 故考生成绩在550~600分的人数约为25 000×0.135 9 ≈3 398(人).求回归直线方程.为此对数据预处理如下:对预处理后的数据,容易算得x=0,y=3.2.b^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2 (-4)2+(-2)2+22+42-5×02=26040=6.5,a^=y--b x-=3.由上述计算结果,知所求回归直线方程为y^-257=b^(x-2 006)+a^=6.5(x-2 006)+3.2,即y^=6.5(x-2 006)+260.2. ①(2)利用直线方程①,可预测2012年的粮食需求量为6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).例8、解(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K2=500×(40×270-30×160)270×300×200×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.随机变量的概率分布及统计案例课后检测参考答案一、选择题1、解析:k 越大,说明“X 与Y 有关系”成立的可信程度越大,反之越小.答案:B2、解析 ∵E (X )=1×16+2×13+3×12=16+23+32=146=73.∴E (X +2)=E (X )+2=73+2=133. 答案 C3、解析 任意取球5次,取得白球3次的概率为C 35·0.53·(1-0.5)2=C 350.55. 答案 D4、解:回归系数的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位. 答案:C5、解析 记“第一次摸出正品”为事件A ,“第二次摸到正品”为事件B ,则P (A )=C 16C 19C 110C 19=35, P (AB )=C 16C 15C 110C 19=13. 故P (B |A )=P (AB )P (A )=59. 答案 D6、解析 本题主要考查了正态分布及随机变量的概率问题.由随机变量服从正态分布N (0,1),由标准正态分布图可得:P (-1<ξ<0)=12-P (ξ<-1)=12-P (ξ>1)=12-p . 答案 D7、解析:依据两个变量具有相关关系的意义可知,①正确;根据散点图的定义得②正确;根据最小二乘法的思想,所求得的回归直线,满足一组数据对应点到该直线的距离最小,即线性回归直线方程最能代表观测值x ,y 之间的线性相关关系,故③正确;④不正确.答案:①②③8、解析 甲获胜有两种情况,一是甲以2∶0获胜,此时p 1=0.62=0.36;二是甲以2∶1获胜,此时p 2=C 12·0.6×0.4×0.6=0.288,故甲获胜的概率为p 1+p 2=0.648. 答案 D 。
9、解析 ∵X ~N (110,52), ∴μ=110,σ=5, 又5760=0.95≈P (μ-2σ<X ≤μ+2σ) =P (100<X ≤120). 答案 C10、解析 三颗骰子各掷一次,点数共有6×6×6=216种,事件B -表示“三次都没有出现3点”,共有5×5×5=125种,则P (B )=1-P (B -)=1-125216=91216,P (AB )=5×4×C 13216=518, 所以P (A |B )=P (AB )P (B )=6091. 答案 C11、解析 由已知,得3a +2b +0×c =2,得3a +2b =2,所以ab =16×3a ×2b ≤16⎝⎛⎭⎫3a +2b 22=16. 答案 D12、答案:A二、填空题13、解:设父亲身高为x cm ,儿子身高为y cm ,则x -=173,y -=176,b^=0×(-6)+(-3)×0+3×602+9+9=1,a ^=y --b ^x -=176-1×173=3,∴y ^=x +3,当x =182时,y ^=185. 答案:18514.解析 考察一位乘客是否在第20层下电梯为一次试验,这是5次独立重复 试验,故X ~B ⎝⎛⎭⎫5,13, 即有P (X =k )=C k 5⎝⎛⎭⎫13k×⎝⎛⎭⎫235-k(k =0,1,2,3,4,5.)∴P (X =4)=C 45⎝⎛⎭⎫134×⎝⎛⎭⎫231=10243. 答案 1024315.解析 由题意知甲服从X ~B (5,p 1),∴E (X )=5p 1=2.5 ∴p 1=12, 又∵1p 1+1p 2=5. ∴p 2=13.答案 12 1316.解析 设事件A 为“取出的两件中有废品”,事件B 为“取出的两件都是废品”,由题意,显然,A ∩B =B ,而P (A )=C 110·C 190+C 210C 2100,P (B )=C 210C 2100, 故P (B |A )=P (B )P (A )=C 210C 210+C 110·C 190=121. 答案 121 三、解答题17、解 记“这名同学答对第i 个问题”为事件A i (i =1,2,3), 则P (A 1)=0.8,P (A 2)=0.7,P (A 3)=0.6.(1)这名同学得300分的概率为:P1=P(A1A-2A3)+P(A-1A2A3)=P(A1)P(A-2)P(A3)+P(A-1)P(A2)P(A3)=0.8×0.3×0.6+0.2×0.7×0.6=0.228.(2)这名同学至少得300分的概率为:P2=P1+P(A1A2A3)=P1+P(A1)P(A2)P(A3)=0.228+0.8×0.7×0.6=0.564.18、解记3件元器件中有X件为不合格品.(1)P=1-P(X=0)=1-C318C320=2795;(2)X的可能取值为:0、1、2、3,P(X=0)=C316C320=2857,P(X=1)=C14C216C320=819,P(X=2)=C24C116C320=895,P(X=3)=C34C320=1285,∴X的分布列如下:E(X)=0×2857+1×819+2×895+3×1285=171285=35.19、解(1)设参赛学生的成绩为X,因为X~N(70,100),所以μ=70,σ=10.则P(X≥90)=P(X≤50)=12[1-P(50<X<90)]=12[1-P(μ-2σ<X<μ+2σ)]=12×(1-0.954 4)=0.022 8,12÷0.022 8≈526(人).因此,此次参赛学生的总数约为526人.(2)由P(X≥80)=P(X≤60)=12[1-P(60<X<80)]=12[1-P(μ-σ<X<μ+σ)]=12×(1-0.682 6)=0.158 7,得526×0.158 7≈83.因此,此次竞赛成绩为优的学生约为83人.20、解析:(1)由数据,求得x =12,y =27,由公式,求得b ^=52,a ^=y -b ^x =-3,所以y 关于x 的线性回归方程为y ^=52x -3.(2)当x =10时,y ^=52×10-3=22, |22-23|<2,同样,当x =8时,y ^=52×8-3=17, |17-16|<2.所以,该农科所得到的线性回归方程是可靠的.21、解析:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%. (2)K 2=1 000×(360×180-320×140)500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异.” 22、解 (1)设“环保会徽”卡有n 张,由C 2nC 210=13,得n =6.故“绿色环保标志”卡有4张.抽奖者获奖的概率为C 24C 210=215.(2)ξ~B ⎝⎛⎭⎫4,215,ξ的分布列为P (ξ=k )=C k 4⎝⎛⎭⎫215k·⎝⎛⎭⎫13154-k(k =0,1,2,3,4)2 15=815,D(ξ)=4×215×⎝⎛⎭⎫1-215=104225.∴E(ξ)=4×。