几何分布参数p的区间估计 _ 负二项分布 - 贝塔分布法
- 格式:pdf
- 大小:371.71 KB
- 文档页数:3
负二项分布两种定义下的概率母函数及生物学应用严水仙;高淑京【摘要】本文给出了负二项分布两种不同定义下概率母函数,利用两种不同的方法计算出概率母函数的表达式,最后解释了纯生过程服从负二项分布及其生物学意义.【期刊名称】《赣南师范学院学报》【年(卷),期】2015(036)006【总页数】3页(P14-16)【关键词】负二项分布;概率母函数;纯生过程【作者】严水仙;高淑京【作者单位】赣南师范学院数学与计算机科学学院,江西赣州341000;赣南师范学院数学与计算机科学学院,江西赣州341000【正文语种】中文【中图分类】O212.1在概率论、随机过程及种群生态学等领域,负二项分布以其特殊有趣的性质而占有非常重要的地位.负二项分布可用于寄生虫病学、昆虫学、种群生态学、微生物学及流行病学的研究,它在医学上主要用于研究聚集性疾病及微生物、寄生虫分布等数学模型.作为重要的离散型随机变量,负二项分布两种不同定义、性质及结构在国内外有很多研究[1,2].概率母函数在研究离散型随机变量的性质时有着非常重要的作用,它也是研究网络传播动力学建模的一种新方法[3].本文主要给出了负二项分布两种不同定义下概率母函数表达式的计算方法,并结合生物学意义解释了纯生过程服从负二项分布.在伯努利试验中[1],记每次试验中事件A成功发生的概率为p,不成功发生的概率为q=1-p.定义1 在伯努利试验序列中,如果X为事件A第n次成功发生时的试验次数,则X的可能取值为n,n+1,…,称X服从负二项分布或帕斯卡分布,其分布列为pnqk-n, k=n,n+1,…,记X~Nb(n,p),(当n=1时,即为几何分布).定义2 在伯努利试验序列中,如果Y表示事件A第n次成功发生时事件A不成功发生的次数,则Y的可能取值为0,1,2,…,称Y服从负二项分布,其分布列为pn(1-p)k, k=0,1,2,….定义3 设是一个实数数列,若在某个区间b<x<c内收敛,则称f(x)是序列的母函数(也称生成函数).定义4 若X是取值为非负整数的离散型随机变量,其分布列为P(X=k)=pk,k=0,1,2,…则称为离散型随机变量X的概率母函数(Probability Generating Function,简称PGF)例1 二项分布的概率母函数为.例2 几何分布pk=qk-1p, k=1,2,…,pk=qkp, k=0,1,2,…的概率母函数为.性质1 已知离散型随机变量X的概率母函数为f(x),则其概率分布可唯一确定且其概率分布为x=0.性质1说明了离散型随机变量X的概率分布与概率母函数的关系.性质2 离散型随机变量X的概率分布为pk,其概率母函数为,则随机变量X的期望可表示为(1).方差可表示为Var(X)=E[X2]-(E[X])2=f″(1)+f′(1)-[f′(1)]2.由性质1,2可得服从二项分布的随机变量X期望为p.方差为Var(X)=f″(1)+f′(1)-[f′(1)]2=np(1-p).性质3 若随机变量X,Y相互独立,对应的概率母函数分别为f(x),g(x),则随机变量X+Y的概率母函数为f(x)g(x).(相关证明请参阅文献[4])定理1 若X是服从定义1的随机变量,则其对应的概率母函数为证明当n=1时,则,显然成立.此时函数为几何分布的概率母函数.假设当n=m-1时命题成立,则有.若n=m,则.由数学归纳法知,定理1得证.由定理1可得负二项分布概率母函数的一阶导,二阶导根据概率母函数的性质得,定义1对应得负二项分布期望为:方差为:定理2 若Y是服从定义2的随机变量,则其对应的概率母函数. 证明当n=1时,有下式成立,此时函数为几何分布在另一种定义下对应的概率母函数.假设当n=m-1时命题成立,则有下式成立.如果n=m,则有由数学归纳法,定理2得证.同理,根据概率母函数的性质2,可得到随机变量Y 服从负二项分布定义1的期望和方差分别为:, .根据性质3及负二项分布为几何分布的重独立试验,由例2中几何分布的概率母函数,同样可得定理1及定理2的结论.在时间连续状态离散的随机过程研究中,生灭过程占有十分重要的地位.它能够解释许多生物学(种群生态学)现象,其中纯生过程是一类特殊的生灭过程.纯生过程是泊松过程的一种自然推广,是考虑一个生物种群在保证环境优良、食物充足、没有死亡、不考虑迁移的理想环境下的生长模型.在流行病学的研究中纯生过程可有用来建立新病例增长的数学模型.设随机过程{X(t)∶t∈[0,∞)}是时间连续状态离散的纯生过程,X(t)代表t时刻种群的数量,不考虑种群死亡及环境迁移等因素,并且种群的初始数量为X(0)=N.令pj,i(t)=Prob{X(t)=j|X(0)=i}表示在i状态经过t时刻后在j状态的转移概率,pi(t)=Prob{X(t)=i}表示t时刻在i状态的概率, 当Δt充分小时,无穷小转移概率为:其中参数λ是常数.因为纯生过程只有出生,不考虑死亡,种群的大小只可能增加.概率pi(t)=Prob{X(t)=i}是前向Kolmogorov微分方程dp/dt=Qp的解,其中Q 是生成矩阵,p=(p0(t),p1(t),p2(t),…)tr这里有初始条件为.利用概率母函数法求解偏微分方程(详细求解请参阅文献[5-6])可得:上式表明简单的纯生过程服从负二项分布.由公式可得,简单纯生过程的的期望和方差是m(t)=N/p=Neλt, σ2(t)=Nq/p2=Ne2λt(1-e-λt). 即简单纯生过程的期望是满足X(0)=N的指数增长过程.方差也随时间指数增加.【相关文献】[1] 茆诗松,程依明,濮晓龙.概率论与树立统计教程[M].(第2版).北京:高等教育出版社,2011.[2] 康殿统.负二项分布的结构研究[J].华中师范大学学报,2015,(3):339-343.[3] 靳祯,孙桂全,刘茂省.网络传染病动力学建模与分析[M].北京:科学出版社,2014.[4] 林元烈.应用随机过程[M].北京:清华大学出版社,2002.[5] Linda J.S.Allen.An Introduction to Stochastic Processes with Applications to Biology (Second Edition)[M].New York: Taylor & Francis Group,2011.[6] 何书元.随机过程[M].北京:北京大学出版社,2013.·算法设计与应用·。
专题: 超几何分布与二项分布,正态分布[知识点]关键是判断超几何分布与二项分布判断一个随机变量是否服从超几何分布,关键是要看随机变量是否满足超几何分布的特征:一个总体(共有N 个)内含有两种不同的事物()A M 个、()B N M -个,任取n 个,其中恰有X 个A .符合该条件的即可断定是超几何分布,按照超几何分布的分布列()k n k M N MnNC C P X k C --==(0,1,2,,k m =)进行处理就可以了. 二项分布必须同时满足以下两个条件:①在一次试验中试验结果只有A 与A 这两个,且事件A 发生的概率为p ,事件A 发生的概率为1p -;②试验可以独立重复地进行,即每次重复做一次试验,事件A 发生的概率都是同一常数p ,事件A 发生的概率为1p -.超几何分布典型例题(不放回抽取)1、某厂生产的产品在出厂前都要做质量检测,每一件一等品都能通过检测,每一件二等品通过检测的概率为23.现有10件产品,其中6件是一等品,4件是二等品. (Ⅰ) 随机选取1件产品,求能够通过检测的概率;(Ⅱ) 随机选取3件产品,其中一等品的件数记为X ,求X 的分布列; (Ⅲ) 随机选取3件产品,求这三件产品都不能通过检测的概率.2、第26届世界大学生夏季运动会将于2011年8月12日到23日在深圳举行,为了搞好接待工作,组委会在某学院招募了12名男志愿者和18名女志愿者。
将这30名志愿者的身高编成如右所示的茎叶图(单位:cm ):若身高在175cm 以上(包括175cm )定义为 “高个子”,身高在175cm 以下(不包括175cm )定义为“非高个子”, 且只有“女高个子”才担任“礼仪小姐”.(Ⅰ)如果用分层抽样的方法从“高个子”和“非高个子”中中提取5人, 再从这5人中选2人,那么至少有一人是“高个子”的概率是多少? (Ⅱ)若从所有“高个子”中选3名志愿者,用ξ表示所选志愿者中能担 任“礼仪小姐”的人数,试写出ξ的分布列,并求ξ的数学期望.二项分布典型例题(放回抽取)二项分布性质研究二项分布定义:二项分布(Binomial Distribution ),即重复n 次的伯努利试验(Bernoulli Experiment ),用ξ表示随机试验的结果。
医学统计学 1 1。变异:同质事物之间的差别。 2.频数分布的两个特征:集中位置,离散趋势 3。数据分布的类型:对称分布和非对称分布.非对称分布又称偏态分布,包括正偏态和负偏态。单峰分布,双峰分布,多峰分布。
4。统计描述:用统计表、统计图和统计指标等方法对资料的数量特征与分布规律进行描述。 5。集中位置的描述,集中位置指标又称平均数指标。有哪些及适用条件? (1)算数平均数:最适用于单峰对称分布资料的平均水平的描述,特别是正态分布资料 (2)几何平均数:适用于①等比资料 ②对数正态分布资料 (3)中位数和百分位数:适用于①偏态分布的资料 ②开口资料 ③资料分布不明等 6.离散趋势的描述 (1)全距亦称极差,适用于单峰小样本资料 (2)四分位数间距,适用于单峰小样本资料 (3)方差和标准差,适用于对称分布尤其是正态分布资料 (4)变异系数,常用于①比较度量衡单位不同的两组或多种资料的变异度 ②比较均数相差悬殊的两组或多组资料的变异度
7.常用相对数(1)率,是二分类指标(2)构成比(3)比 8.正确应用相对数应注意几个问题: (1)计算相对数的分母不宜过小 (2)分析时不能以构成比代替率 (3)对观察单位数不等的几个率,不能直接相加求其总率 (4)计算率时要注意资料的同质性,对比分析时应注意资料的可比性 医学统计学 2 (5)也有抽样误差,需要假设检验. 9.率的标准法 (1)基本思想:采用统一的标准,以消除病情构成不同对治愈率比较的影响,使算得的标准化治愈率有可比性.
(2)目的:控制混杂因素对研究结果的影响. 10.正态分布 (1)概念P16 (2)标准正态分布,u变换:u=,u是标准正态离差,μ是均数,σ是标准差。 u~N(0,1) (3)正态分布的特征: ①是单峰分布,高峰位置在均数X=μ处。 ②以均数为中心,左右完全对称。 ③取决于两个参数,均数μ和标准差σ。μ为位置参数,μ越大,则曲线沿横轴向右移动;μ越小,则曲线沿横轴向左移动。σ为形态参数,表示数据的离散程度,若σ小,则曲线形态“瘦高";σ大,则曲线形态“矮胖”。
统计学资料背诵版一、单选题:第二章:计量资料的统计描述1、描述一组偏态分布资料的变异度,以四分位数间距指标较好。
2、用均数和标准差可以全面描述正态分布资料的特征。
3、各观察值均加(或减)同一数后标准差不变。
4、比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用变异系数。
5、偏态分布宜用中位数描述其分布的集中趋势。
6、各观察值同乘以一个不等于0的常数后,变异系数不变。
7、正态分布的资料,均数等于中位数。
8、对数正态分布是一种右偏态分布(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)9、横轴上,标准正态曲线下从0到2.58的面积为49.5%10、当各观察值呈倍数变化(等比关系)时,平均数宜用几何均数。
第三章:总体均数的估计与假设检验1、均数的标准误反映了样本均数与总体均数的差异。
2、两样本均数比较的t检验,差别有统计学意义时,P越小,说明越有理由认为两总体均数不同。
3、甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S 12、X2和S22,则理论上由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括04、在参数未知的正态总体中随机抽样,丨X-μ丨≥t0.05/2,vS X的概率为5%5、某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为74±1.96×46、关于以0为中心的t分布,叙述错误的是相同时,丨t丨越大,P越大。
7、在两样本均数比较的t检验中,无效假设为两总体均数相等。
8、两样本均数比较作t检验时,分别取以下检验水准,犯第二类错误概率最小的是α=0.309、正态性检验,按α=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率等于β,而β未知。
10、关于假设检验,说法正确的是采用配对t检验还是两样本t检验是由试验设计方案所决定的。
数据分布类型有哪些数据分布类型主要有以下几种一、连续数据概率分布1. 均匀分布在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。
均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
2. 正态分布正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。
其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
当μ= 0,σ= 1时的正态分布是标准正态分布。
3. t分布在概率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。
如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
t分布曲线形态与n(确切地说与自由度df)大小有关。
与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正— 1 —态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。
4. 伽马分布伽玛分布(Gamma Distribution)是统计学的一种连续概率函数,是概率统计中一种非常重要的分布。
“指数分布”和“χ2分布”都是伽马分布的特例。
Gamma分布中的参数α称为形状参数(shape parameter),β称为逆尺度参数。
4.1 指数分布在概率理论和统计学中,指数分布(也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。
这是伽马分布的一个特殊情况。
它是几何分布的连续模拟,它具有无记忆的关键性质。
除了用于分析泊松过程外,还可以在其他各种环境中找到。
指数函数的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。
考点12 二项分布及其应用概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。
例如:2020年北京高考[18],2022年全国新高考卷Ⅱ[19],2022年全国新高考卷Ⅰ[20],等都对数字特征与概率的计算问题进行了考查。
〔1〕求独立重复试验的概率求独立重复试验概率的3个步骤(1)判断:依据n次独立重复试验的特征,判断所给试验是否为独立重复试验.(2)分析:分析所求事件的构成.(3)计算:对每个事件依据n次独立重复试验的概率公式进行求解,最后利用互斥事件的概率加法公式计算。
〔2〕二项分布及其实际应用1.二项分布的判断:判断一个随机变量是否服从二项分布的关键在于它是否满足以下两个条件:(1)在一次试验中事件A只有两种试验结果(发生和不发生),而且事件A发生的概率为p,事件A发生的概率为1-p;(2)试验可以独立重复地进行,即每重复做一次试验,事件A发生的概率都是同一常数p,事件A发生的概率都是1—p.2.运用二项分布求概率的一般方法(1)根据题意设出随机变量;(2)分析出随机变量服从二项分布;(3)明确参数n,p,写出二项分布的分布列;(4)将k值代入表达式(公式)求出概率。
〔3〕二项分布与超几何分布辨析有放回抽样时,每次抽取时的总体没有改变,因而每次抽到某物的概率都是相同的,可以看成是独立重复试验,此种抽样是二项分布模型.而不放回抽样时,取出一个总体中就少一个,因此每次取到某物的概率是不同的,此种抽样为超几何分布模型.因此,二项分布模型和超几何分布模型最主要的区别在于是有放回抽样还是不放回抽样。
例1.(2022·全国·新高考卷Ⅱ·19)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).例2.(2020·北京·高考·18)某校为举办甲、乙两项不同活动,分别设计了相应的活动方案:方案一、方案二.为了解该校学生对活动方案是否支持,对学生进行简单随机抽样,获得数据如下表:男生女生支持不支持支持不支持方案一200人400人300人100人方案二350人250人150人250人(Ⅰ)分别估计该校男生支持方案一的概率、该校女生支持方案一的概率;(Ⅰ)从该校全体男生中随机抽取2人,全体女生中随机抽取1人,估计这3人中恰有2人支持方案一的概率;(Ⅰ)将该校学生支持方案二的概率估计值记为0p,假设该校一年级有500名男生和300名女生,除一年级外其他年级学生支持方案二的概率估计值记为1p,试比较0p与1p的大小.(结论不要求证明)1.现有A B、两所学校的高三学年分别采用甲,乙两种方案进行线上教学,为观测其教学效果,分别在两所学校的高三学年各随机抽取60 名学生,对每名学生进行综合测试评分,记综合评分为80 及以上的学生为优秀学生,经统计得到两所学校抽取的学生中共有72 名优秀学生.(1)用样本估计总体,以频率作为概率,若在A B、两个学校的高三学年随机抽取3 名学生,求所抽取的学生中的优秀学生数的分布列、数学期望和方差;(2)已知 A 学校抽出的优秀学生占该校抽取总人数的23, 填写下面的列联表, 并判断能否在犯错误的概率不超过0.1的前提下认为学生综合测试评分优秀与教学方案有关.优秀学生非优秀学生合计 甲方案 乙方案 合计附:()20P K k >0.15 0.10 0.05 0.025 0.010 0.005 0.001k2.072 2.7063.841 5.024 6.635 7.879 10.828(()()()()2n ad bc K a b c d a c b d -=++++, 其中n a b c d =+++.2.我市为了解学生体育运动的时间长度是否与性别因素有关,从某几所学校中随机调查了男、女生各100名的平均每天体育运动时间,得到如下数据:分钟 性别 (0,40](40,60](60,90](90,120]女生 10 40 40 10 男生5254030“不合格”,其中,平均每天体育运动时间在(90,120]内认定为“良好”.(1)完成下列2⨯2列联表,并依据小概率值0.005α=的独立性检验,分析学生体育运动时间与性别因素有无关联;不合格 合格 合计 女生 男生 合计(2)从女生平均每天体育运动时间在(](](](]0,4040,6060,9090,120,,,的100人中用分层抽样的方法抽取20人,再从这20人中随机抽取2人,记X 为2人中平均每天体育运动时间为“良好”的人数,求X 的分布列及数学期望; (3)从全市学生中随机抽取100人,其中平均每天体育运动时间为“良好”的人数设为ξ,记“平均每天体育运动时间为'良好'的人数为k ”的概率为()P k ξ=,视频率为概率,用样本估计总体,求()P k ξ=的表达式,并求()P k ξ=取最大值时对应k 的值.附:22()()()()()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.α 0.010 0.005 0.001 x α6.6357.87910.8283,比赛采用积分制,积分规则如下:每场比赛中,如果四局及四局以内结束比赛,取胜的一方积3分,负者积0分;五局结束比赛,取胜的一方积2分,负者积1分.已知甲、乙两人比赛,甲每局获胜的概率为12. (1)在一场比赛中,甲的积分为X ,求X 的概率分布列; (2)求甲在参加三场比赛后,积分之和为5分的概率.4.我国出现了新冠疫情后,医护人员一直在探索治疗新冠的有效药,并对确诊患者进行积极救治.现有6位症状相同的确诊患者,分成,A B 两组,A 组3人,服用甲种中药,B 组3人,服用乙种中药.服药一个疗程后,A 组中每人康复的概率都为45,B 组3人康复的概率分别为933,,1044.(1)设事件M 表示A 组中恰好有1人康复,事件N 表示B 组中恰好有1人康复,求()P MN ; (2)求A 组康复人数比B 组康复人数多的概率.5.华容道是古老的中国民间益智游戏,以其变化多端、百玩不厌的特点与魔方、独立钻石一起被国外智力专家并称为“智力游戏界的三个不可思议”.据《资治通鉴》注释中说“从此道可至华容也”.通过移动各个棋子,帮助曹操从初始位置移到棋盘最下方中部,从出口逃走.不允许跨越棋子,还要设法用最少的步数把曹操移到出口.2021年12月23日,在厦门莲坂外图书城四楼佳希魔方,厦门市新翔小学六年级学生胡宇帆现场挑战“最快时间解44⨯数字华容道”世界纪录,并以4.877秒打破了“最快时间解44⨯数字华容道”世界纪录,成为了该项目新的世界纪录保持者.(1)小明一周训练成绩如表所示,现用ˆˆy bxa =+作为经验回归方程类型,求出该回归方程. 第x (天) 1 2 3 4 5 6 7用时y (秒) 105 84 49 39 35 23 15(2)赢下后一局的概率是0.7,若小明前一局失利,则他赢下后一局比赛的概率为0.5,比赛实行“五局三胜”,求小明最终赢下比赛的概率是多少.参考公式:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线ˆˆv u αβ=+的斜率和截距的最小 二乘估计公式分别为:()()()121ˆnii i nii uu v v uu β==--=-∑∑,ˆˆv u αβ=- 参考数据:721140i i x ==∑,71994i i i x y ==∑6.产品开发是企业改进老产品、开发新产品,使其具有新的特征或用途,以满足市场需求的流程.某企业开发的新产品已经进入到样品试制阶段,需要对5个样品进行性能测试,现有甲、乙两种不同的测试方案,每个样品随机选择其中的一种进行测试,已知选择甲方案测试合格的概率为23,选择乙方案测试合格的概率为12,且每次测试的结果互不影响.(1)若3个样品选择甲方案,2个样品选择乙方案. (i )求5个样品全部测试合格的概率; (ii )求4个样品测试合格的概率.(2)若测试合格的样品个数的期望不小于3,求选择甲方案进行测试的样品个数.7.国内某大学有男生6000人,女生4000人,该校想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取100人,调查他们平均每天运动的时间(单位:小时),统计表明该校学生平均每天运动的时间范围是[]0,3,若规定平均每天运动的时间不少于2小时的学生为“运动达人”,低于2小时的学生为“非运动达人”.根据调查的数据按性别与“是否为‘运动达人’”进行统计,得到如下2×2列联表:运动时间 性别 运动达人非运动达人合计男生 36 女生 26 合计100(1)0.025的前提下认为性别与“是否为‘运动达人’”有关;(2)将此样本的频率估计为总体的概率,随机调查该校的3名男生,设调查的3人中运动达人的人数为随机变量X ,求X 的分布列和数学期望()E X 及方差()D X . 附表及公式:20()P K k ≥0.15 0.10 0.05 0.025 0.010 0k2.0722.7063.8415.0246.6352()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.8.核酸检测是诊断新冠肺炎的重要依据,首先取病人的唾液或咽拭子的样本,再提取唾液或咽拭子样本里的遗传物质,如果有病毒,样本检测会呈现阳性,否则为阴性.某检测点根据统计发现,该处疑似病例核酸检测呈阳性的概率为14.现有4例疑似病例,分别对其取样检测,多个样本检测时,既可以逐个化验,也可以将若干个样本混合在一起化验.混合样本中只要有病毒,则混合样本化验结果就会呈阳性.若混合样本呈阳性,则再将该组中每一个备份的样本逐一进行化验;若混合样本呈阴性,则判定该组各个样本均为阴性,无需再检验.现有以下两种方案: 方案一:逐个化验;方案二:平均分成两组,每组两个样本混合在一起,再分组化验.在新冠肺炎爆发初期,由于检查能力不足,化验次数的期望值越小,则方案越“优”.(1)求4个疑似病例中至少有1例呈阳性的概率;(2)现将该4例疑似病例样本进行化验,请问:方案一、二中哪个较“优”?做出判断并说明理由.9.(2022·河南开封·模拟预测(理))大豆是我国重要的农作物,种植历史悠久.某种子实验基地培育出某大豆新品种,为检验其最佳播种日期,在A ,B 两块试验田上进行实验(两地块的土质等情况一致).6月25日在A 试验田播种该品种大豆,7月10日在B 试验田播种该品种大豆.收获大豆时,从中各随机抽取20份(每份1千粒),并测量出每份的质量(单位:克),按照[)100,150,[)150,200,[]200,250进行分组,得到如下表格:[)100,150[)150,200[]200,250A 试验田/份 3 6 11B 试验田/份6104把千粒质量不低于(1)判断是否有97.5%的把握认为大豆籽粒饱满与播种日期有关?(2)从A ,B 两块实验田中各抽取一份大豆,求抽取的大豆中至少有一份籽粒饱满的概率;(3)用样本估计总体,从A 试验田随机抽取100份(每份千粒)大豆,记籽粒饱满的份数为X ,求X 的数学期望和方差.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥0.15 0.10 0.05 0.025 0.010 0.001 0k2.0722.7063.8415.0246.63510.82810.第242月20日星期日闭幕,该奥运会激发了大家对冰雪运动的热情,某冰雪运动品商店对消费达一定金额的顾客开展了“冬奥”知识有奖竞答活动,试题由若干选择题和填空题两种题型构成,共需要回答三个问题,对于每一个问题,答错得0分;答对填空题得30分答对选择题得20分现设置了两种活动方案供选择,方案一:只回答填空题;方案二:第一题是填空题,后续选题按如下规则:若上一题回答正确,则下一次是填空题,若上题回答错误,则下一次是选择题.某顾客获得了答题资格,已知其答对填空题的概率均为12,答对选择题的概率均为P ,且能正确回答问题的概率与回答次序无关(1)若该顾客采用方案一答题,求其得分不低于60分的概率;(2)以得分的数学期望作为判断依据,该顾客选择何种方案更加有利?并说明理由.11.某省会城市为了积极倡导市民优先乘坐公共交通工具绿色出行,切实改善城市空气质量,缓解城市交通压力,公共交通系统推出“2元换乘畅享公交”“定制公交”“限行日免费乘公交”“绿色出行日免费乘公交”等便民服务措施.为了更好地了解人们对出行工具的选择,交管部门随机抽取了1000人,做出如下统计表:出行方式 步行 骑行 自驾 公共交通 比例5%25%30%40%(1)求m的值和这1200名乘客年龄的中位数;(2)用样本估计总体,将频率视为概率,从该市所有市民中抽取4人,记X为抽到选择公共交通出行方式的人数,求E X.X的分布列和数学期望()12.北京市某区针对高三年级的一次测试做调研分析,随机抽取同时选考物理、化学的学生330名,下表是物理、化学成绩等级和人数的数据分布情况:物理成绩等级A B C化学成绩等级A B C A B C A B C人数(名)11053255701531210(1)A,估计该生的化学成绩等级为A的概率;(2)从该区高三年级同时选考物理、化学的学生中随机抽取2人,以X表示这2人中物理、化学成绩等级均为A的人数,求X的分布列和数学期望(以上表中物理、化学成绩等级均为A的频率作为每名学生物理、化学成绩等级均为A 的概率);s,排名后50% (3)记抽取的330名学生在这次考试中数学成绩(满分150分)的方差为2s,排名前50%的成绩方差为21的成绩方差为2s,则2s不可能同时大于21s和22s,这种判断是否正确.(直接写出结论).2。
高中几个重要的随机变量分布列一.超几何分布超几何分布是统计学上一种离散型随机变量的概率分布.它描述了由有限个物件中抽出n 个物件,成功抽出指定种类的物件的个数(不归还)的概率分布.我们所使用的人教版教材选修2-3中通过一个例题归纳超几何分布的。
我们再复习一下这个例题:例1.在含有 5 件次品的 100 件产品中,任取 3 件,试求: (1)取到的次品数X 的分布列; (2)至少取到1件次品的概率.解: (1)由于从 100 件产品中任取3 件的结果数为310C ,从100 件产品中任取3件,其中恰有k 件次品的结果数为3595k k C C -,那么从 100 件产品中任取 3 件,其中恰有 k 件次品的概率为35953100(),0,1,2,3k kC C P X k k C -===。
所以随机变量 X 的分布列是X123P035953100C C C125953100C C C 215953100C C C 305953100C C C(2)根据随机变量X 的分布列,可得至少取到 1 件次品的概率P ( X ≥1 ) = P ( X = 1 ) + P ( X = 2 ) + P ( X = 3 ) ≈0.138 06 + 0. 005 88 + 0. 00006 = 0. 144 00 .超几何分布的概念:一般地,在含有M 件次品的 N 件产品中,任取 n 件,其中恰有X 件次品数,则事件 {X=k }发生的概率为(),0,1,2,,k n k M N MnNC C P X k k m C --=== ,其中m i n {,}m M n =,且,,,,n N M N n M N N*≤≤∈.称分布列 X1…mP 0nM N Mn NC C C - 11n M N Mn NC C C -- …m n m M N Mn NC C C --为超几何分布列.如果随机变量 X 的分布列为超几何分布列,则称随机变量 X 服从超几何分布. 关于这个概念我们要掌握:(1) 从含有次品的一批产品中不放回地抽出一定数量的样品,则其中所含的次品数X 是一个随机变量,它服从超几何分布;(2)当X k =时,概率计算公式(),0,1,2,,k n k M N MnNC C P X k k m C --=== 二.二项分布:1.独立重复试验的概率公式:一般地,如果在1次试验中某事件发生的概率是p ,那么在n 次独立重复试验中这个事件恰好发生k次的概率()(1)k k n kn n P k C p p -=-.它是[](1)np p -+展开式的第1k +项 3.离散型随机变量的二项分布:在一次随机试验中,某事件发生的概率是P ,在n 次独立重复试验中这个事件发生的次数ξ是一个随机变量.那么在n 次独立重复试验中这个事件恰好发生k 次的概率是kn k k n n q p C k P -==)(ξ,(k =0,1,2,…,n ,p q -=1). 于是得到随机变量ξ的概率分布如下:ξ 01 … k … nPnn q p C 00111-n n q p C … kn k k n q p C - …q p C n n n由于kn k k n q p C -恰好是二项展开式011100)(q p C q p C q p C q p C p q n n n k n k k n n n n n n +++++=+--中的各项的值,所以称这样的随机变量ξ服从二项分布,记作ξ~B (n ,p ),其中n ,p 为参数.关于这个概念,我们重点掌握两点:(1)判断:在n 次独立重复试验中事件A (在一次试验中发生的概率为p )发生的次数~(,)B n p ξ; (2)分布列求解:kn kkn n qp C k P -==)(ξ,(k =0,1,2,…,n ,p q -=1).例2.某厂生产电子元件,其产品的次品率为5%.现从一批产品中任意地连续取出2件,写出其中次品数ξ的概率分布.解:依题意,随机变量ξ~B (2,5%).所以,P (ξ=0)=02C (95%)2=0.9025,P (ξ=1)=12C (5%)(95%)=0.095,P (2=ξ)=22C (5%)2=0.0025.因此,次品数ξ的概率分布是ξ0 1 2P 0.9025 0.095 0.0025三.二项分布与超几何分布辨析1.二项分布与超几何分布是两个非常重要的、应用广泛的概率模型,实际中的许多问题都可以利用这两个概率模型来解决.在实际应用中,理解并区分两个概率模型是至关重要的.下面举例进行对比辨析.例3.袋中有8个白球、2个黑球,从中随机地连续抽取3次,每次取1个球.求:(1)有放回抽样时,取到黑球的个数X的分布列;(2)不放回抽样时,取到黑球的个数Y的分布列.解:(1)有放回抽样时,取到的黑球数X可能的取值为0,1,2,3.又由于每次取到黑球的概率均为21105=,3次取球可以看成3次独立重复试验,则1~35X B⎛⎫⎪⎝⎭,.0331464(0)55125P X C⎛⎫⎛⎫==⨯=⎪ ⎪⎝⎭⎝⎭∴;12131448(1)55125P X C⎛⎫⎛⎫==⨯=⎪ ⎪⎝⎭⎝⎭;21231412(2)55125P X C⎛⎫⎛⎫==⨯=⎪ ⎪⎝⎭⎝⎭;3033141(3)55125P X C⎛⎫⎛⎫==⨯=⎪ ⎪⎝⎭⎝⎭.因此,X的分布列为X0 1 2 3P6412548125121251125(2)不放回抽样时,取到的黑球数Y可能的取值为0,1,2,且有:03283107(0)15C CP YC===;12283107(1)15C CP YC===;21283101(2)15C CP YC===.因此,Y的分布列为Y0 1 2P715715115辨析:通过此例可以看出:有放回抽样时,每次抽取时的总体没有改变,因而每次抽到某物的概率都是相同的,可以看成是独立重复试验,此种抽样是二项分布模型.而不放回抽样时,取出一个则总体中就少一个,因此每次取到某物的概率是不同的,此种抽样为超几何分布模型.因此,二项分布模型和超几何分布模型最主要的区别在于是有放回抽样还是不放回抽样.所以,在解有关二项分布和超几何分布问题时,仔细阅读、辨析题目条件是非常重要的. 2.超几何分布与二项分布的区别与联系(1)判断方法:从含有次品的一批产品中不放回地抽出一定数量的样品,则其中所含的次品数ξ是一个随机变量,它服从超几何分布:在一次随机试验中某事件发生的概率为p ,在n 次独立重复实验中,该事件发生的次数ξ为一个随机变量,它服从以n ,p 为参数的二项分布,即~(,)B n p ξ。