相关系数c++代码说明
- 格式:pdf
- 大小:102.67 KB
- 文档页数:3
机器学习案例三:数据降维与相关性分析(⽪尔逊(Pearson),⼆维相关性分析(TDC),。
在使⽤机器学习模型对数据进⾏训练的时候,需要考虑数据量和数据维度,在很多情况下并不是需要⼤量的数据和⼤量的数据维度,这样会造成机器学习模型运⾏慢,且消耗硬件设备。
除此之外,在数据维度较⼤的情况下,还存在”维度灾难“的问题。
在本篇博客⾥不对数据质量的判定,以及数据的增删做详细的介绍,只介绍对于数据的降维⽅法。
在开展特征⼯程时,数据的降维⽅法思想上有两种,⼀种是例如主成分分析⽅法(PCA)破坏数据原有的结构从⽽提取数据的主要特征,另⼀种是对数据进⾏相关性分析,按照⼀定的法则来对数据的属性进⾏取舍达到降维的⽬的。
在实际的⼯程问题中,由仪器设备采集到的数据具有很重要的意义,如果不是万不得已在进⾏建模的时候不建议破坏数据原有的结构,因为采集到的数据本⾝就具有很重要的物理意义与研究价值,提取出主要特征后会破坏原有数据的信息。
因此在篇中介绍在实际的⼯程应⽤中使⽤相关性分析⽅法进⾏数据的降维。
相关性分析⽅法主要考量的是两组数据之间的相关性,以⼀种指标来判定,看看数据中的哪些属性与⽬标数据的相关性较强,从⽽做出保留,哪些较弱,进⾏剔除。
相关性分析⽅法也分为线性相关性分析与⾮线性相关性分析两种,分别应⽤于不同的场合。
⼀、线性相关性分析 1.数据可视化⽅法: 数据可视化⽅法在某些情况下可以简单且直观的判定数据之间的相关性,但是⽆法很好的展现出数据之间的关系。
2.⽪尔逊相关性分析(Pearsion)(还有斯⽪尔曼,原理与⽪尔逊接近) ⽪尔逊相关性分析的数学公式如下: 求两变量x和y之间的相关性: 对于结果的分析与判断: 相关系数的绝对值越⼤,相关性越强:相关系数越接近于1或-1,相关性越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度: 相关系数 0.8-1.0 极强相关 0.6-0.8 强相关 0.4-0.6 中等程度相关 0.2-0.4 弱相关 0.0-0.2 极弱相关或⽆相关 对于x,y之间的相关系数r : 当r⼤于0⼩于1时表⽰x和y正相关关系 当r⼤于-1⼩于0时表⽰x和y负相关关系 当r=1时表⽰x和y完全正相关,r=-1表⽰x和y完全负相关 当r=0时表⽰x和y不相关 以上的分析是针对理论环境下,在实际的⼯程应⽤中也有学者发现且表明当相关性⼤于 0.2即代表存在相关性。
1、Xcorr相关函数自相关函数是描述随机信号X(t)在任意两个不同时刻t1,t2的取值之间的相关程度.设原函数是f(t),则自相关函数定义为R(u)=f(t)*f(-t),其中*表示卷积.互相关函数给出了在频域内两个信号是否相关的一个判断指标,把两测点之间信号的互谱与各自的自谱联系了起来。
它能用来确定输出信号有多大程度来自输入信号,对修正测量中接入噪声源而产生的误差非常有效.设两个函数分别是f(t)和g(t),则互相关函数定义为R(u)=f(t)*g(-t),它反映的是两个函数在不同的相对位置上互相匹配的程度。
用过Matlab的人都知道,Matlab的命令总是能一石三鸟,通过改变输入参数的注释项即可实现不同功能,如今xcorr命令的难点就在于其有四个注释项,这些注释项使得计算的结果各有不同,本文将详细介绍对应每个注释项Matlab是如何计算的,当然本文考虑输入的是一个简单一维序列x=[1,2,3],序列中数据对应的序号依次为1,2,3(请读者在阅读下文时,不要把序号和数据值弄混,这里只是个特例),其他情况读者可以轻松扩展得到。
首先确定一下,该序列的均值为2,方差值为0.6667.这个应该不用说怎么算的吧。
然后读者需要了解的是该命令意在计算序列中间隔不同距离的数据之间的关系。
第一:缺省注释项,[a,b]=xcorr(x),通过该命令计算的结果为:a=3 8 14 8 3;b=-2 -1 0 1 2.下面介绍一下,该过程计算机是如何计算的,首先讲b的计算,设一维序列的长度为N,则序列中任意两个数据序号相减,最小值为1-N,最大值为N-1,且能取遍两者之间的所有整数,将这些数从小到大排列得到的就是b;然后讲a的计算,在缺省注释项的情况下,a的计算是这样的,a的每一项是对应b的每一项的1、当b(1)=-2时,计算a(1)时只用到一组数据——(3,1)注意顺序,只有这两个数据的序号相减(后面数据的序号减去前面的)满足b=-2,因此a(1)的计算公式为:3*1=32、当b(2)=-1时,计算a(2)时用到两组数据——(2,1)和(3,2),这两组数据的序号相减(后面数据的序号减去前面的)满足b=-1,因此a(2)的计算公式为:2*1+3*2=83、当b(3)=0时,计算a(3)时用到三组数据——(1,1)、(2,2)、(3,3),这三组数据的序号相减(后面数据的序号减去前面的)满足b=0,因此a(3)的计算公式为:1*1+2*2+3*3=144、当b(4)=1时,计算a(4)时用到两组数据——(1,2)和(2,3),(读者请对比和情况2的区别),这两组数据的序号相减(后面数据的序号减去前面的)满足b=1,因此a(4)的计算公式为:1*2+2*3=85、当b(5)=2时,计算a(4)时用到一组数据——(1,3),(读者请对比和情况1的区别),这两组数据的序号相减(后面数据的序号减去前面的)满足b=2,因此a(4)的计算公式为:1*3=3第二:注释项为‘unbiased’,[a,b]=xcorr(x,‘unbiased’),通过该命令计算的结果为:a=3 4 4.6667 4 3;b=-2 -1 0 1 2.下面介绍计算机如何计算该过程,b的计算在四种注释项的情况下是相同的,就不再讲述了。
STKINDI示例代码一、STKINDI示例代码函数注释如下:引用任意证券任意周期的任意指标输出用法 :STKINDI(STKLABEL,INDINAME,INDITYPE,PERIOD)INDITYPE为指标类型,有效值范围为(0-2),依次表示技术指标、条件选股、交易系统公式;PERIOD为周期类型,有效值范围为(-1-11),依次表示:当前周期、分笔成交、1分钟、5分钟、15分钟、30分钟、60分钟、日、周、月、年、多日、多分钟例如:STKINDI('1A0001','MA.MA1',0,DATAPERIOD);例1:引用大盘的涨跌家数。
①被引用公式,设被引用的公式名称为“涨跌家数”,其公式代码如下:A:ADVANCE;D:DECLINE;②引用大盘的涨跌家数,示例代码如下:fStkName:=if(STRCMP(STKMARKET, 'SH'),'399301','1A0001');fAdvance:=STKINDI(fStkName,'涨跌家数.A',0,6);fDecline:=STKINDI(fStkName,'涨跌家数.D',0,6);说明:大盘函数advance、decline只能被大盘所使用,不能在个股中直接使用,这段代码,示范了如何利用STKINDI函数达到在个股中引用的目的。
例2:在日k线中引用本股票5分钟的obv该怎么写?求解:代码如下StkIndi(StkLabel,'OBV',0,2);{注意,公式的名称应使用大写字母}二、横向统计相关函数的用法简介:1、横向统计数据函数ESTDATA(N),取得横向统计日线数据(1-N),仅在日线分析周期有效;2、用法举例:例:设计一个公式,统计当日A股板块涨停板的股票数。
3、方法如下:①设计一个公式,判断个股是否涨停,代码如下,设公式名称是“涨停判断”:bl:=if(STKINBLOCK('ST板块'),1.05,1.1);{如果为ST涨停为5%,否则为10%}ztb:abs(c-intpart(ref(c,1)*bl*100+0.5)/100)<0.0001;{如果涨停返回1,否则返回0}{注:对新股的涨停未做判断,另外个股因历史的原因,是否被ST 或PT处理无法判断,因此对历史数据的判断并不准确}②建立横向统计数据项:鼠标点菜单“管理/横向统计管理”,在“横向统计管理”对话框中,点“新增”,找到刚才设计的公式“涨停判断”。
6.5 相关系数及回归方程两个变量间的相关关系:①有关概念:相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.如果一个变量的值由小变大时另一个变量的值由小变大,这种相关称为正相关;如果一个变量的值由小变大时另一个变量的值由大变小,这种相关称为负相关;如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系.②回归方程: 是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数. 的计算公式.考向一 样本中心【例1-1】某种产品的广告费支出与销售额之间有如下对应数据(单位:百万元),根据下表求出关于的线性回归方程为,则表中的值为( )A. B. C. D.y bx a =+1122()()()n n x y x y x y ,,,,,,a b 、a b 、1122211()()()()nni i i ii i nni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑x y y x 6.5175ˆ.yx =+a 505456.564【答案】B【解析】根据规律知道回归直线一定过样本中心,故得到,将坐标代入方程得到的值为.故答案为:B. 【例1-2】已知表中数据y 与x 有较好的线性关系,通过计算得到y 关于x 的线性回归方程为ˆˆ1.05yx a =+,则相应于下列各点的残差中绝对值最小的是( )A .(2,4)B .(4,6)C .(8,10)D .(10,12.5)【答案】D【解析】ˆˆˆ6,8.3,8.3 1.056,2, 1.052x y aa y x ==∴=⨯+∴=∴=+, 相应于点(2,4),(4,6),(8,10),(10,12.5)的残差分别为0.1,0.2,0.4,0---,故选D.【举一反三】1.“关注夕阳、爱老敬老”—某马拉松协会从2013年开始每年向敬老院捐赠物资和现金.下表记录了第x 年(2013年是第一年)与捐赠的现金y (万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程.ˆ035ymx =+,则预测2019年捐赠的现金大约是( ) A .5万元B .5.2万元C .5.25万元D .5.5万元【答案】C5,196x y a ==+6.5175ˆ.yx =+a 54【解析】由已知得,29t =, 所以样本点的中心点的坐标为(4.5,3.5),代入.ˆ035ymx =+, 得3.5 4.50.35m =+,即0.7m =,所以0.7035ˆ.x y=+, 取7x =,得ˆ0.770.35 5.25y=⨯+=, 预测2019年捐赠的现金大约是5.25万元.2.某同学将收集到的6组数据对,制作成如图所示的散点图(各点旁的数据为该点坐标),并由这6组数据计算得到回归直线l :y bx a =+$$$和相关系数r .现给出以下3个结论:①0r >;②直线l 恰过点D ;③1b >. 其中正确结论的序号是( )A .①②B .①③C .②③D .①②③【答案】A【解析】由图像可得,从左到右各点是上升排列的,变量具有正相关性,所以0r >,①正确; 由题中数据可得: 1.5 2.4 3.54 5.8 6.846x +++++==, 2.1 2.8 3.3 3.5 4.35 3.56y +++++==,所以回归直线过点(4,3.5)D ,②正确;又61621()()10.360.514120.14()iii ii x x yy b x x ==--==≈<-∑∑,③错误.故选A 3.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数2R 变小D .解释变量x 与预报变量y 的相关性变弱【答案】A【解析】∵从散点图可分析得出:只有D 点偏离直线远,去掉D 点,变量x 与变量y 的线性相关性变强, ∴相关系数变大,相关指数变大,残差的平方和变小,故选:A.考向二回归方程【例2】某人经营淡水池塘养草鱼,根据过去40期的养殖档案,该池塘的养殖重量X (百斤)都在20百斤以上,其中不足40百斤的有8期,不低于40百斤且不超过60百斤的有20期,超过60百斤的有12期.根据统计,该池塘的草鱼重量的增加量y (百斤)与使用某种饵料的质量x (百斤)之间的关系如图所示.(1)根据数据可知y 与x 具有线性相关关系,请建立y 关于x 的回归方程ˆˆˆybx a =+;如果此人设想使用某种饵料10百斤时,草鱼重量的增加量须多于5百斤,请根据回归方程计算,确定此方案是否可行?并说明理由.(2)养鱼的池塘对水质含氧量与新鲜度要求较高,某商家为该养殖户提供收费服务,即提供不超过3台增氧冲水机,每期养殖使用的冲水机运行台数与鱼塘的鱼重量X 有如下关系:若某台增氧冲水机运行,则商家每期可获利5千元;若某台冲水机未运行,则商家每期亏损2千元.视频率为概率,商家欲使每期冲水机总利润的均值达到最大,应提供几台增氧冲水机? 附:对于一组数据()()()1122,,,,n n x y x y x y ,其回归方程ˆˆˆybx a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i x y nxy bx nx ==-=-∑∑()()()121,niii ni i x x y y x x ==--=-∑∑ˆˆay bx =- 【答案】(1)337y 1313x =+$当10x =时,此方案可行.(2)应提供2台增氧冲水机 【解析】(1)依题意,5,4,x y ==()()5126iii x x y x =--=∑()()()515213ˆ,13iii i i x x y y bx x ==--∴==-∑∑337ˆ451313a y bx =-=-⨯=$所以3371313y x =+$当10x =时,67ˆ513y=>,故此方案可行. (2)设盈利为Y ,安装1台时,盈利5000Y =, 安装2台时,12040,3000,5X Y p <<==;440,10000,5X Y p ==…. 14()300010000860055E Y ∴=⨯+⨯=安装3台时,12040,1000,5X Y p <<==; 4060,8000,X Y =剟3;5P =160,15000,5X Y P >==. 13()1000800055E Y ∴=⨯+⨯11500080005+⨯=.86008000>,故应提供2台增氧冲水机.【举一反三】1.李克强总理在2018年政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力.某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌.为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据(),(1,2,,6)i i x y i =,如表所示:已知611606i i y y ===∑.(1)若变量,x y 具有线性相关关系,求产品销量y (百件)关于试销单价x (千元)的线性回归方程ˆˆˆy bx a =+;(2)用(1)中所求的线性回归方程得到与i x 对应的产品销量的估计值i y .当销售数据(),i i x y 对应的残差的绝对值ˆ1i i y y -≤时,则将销售数据(),i i x y 称为一个“好数据”.现从6个销售数据中任取3个子,求“好数据”个数ξ的分布列和数学期望()E ξ.(参考公式:线性回归方程中ˆˆ,ba 的估计值分别为1221ˆˆˆ,)ni ii nii x y nxyb ay bx xnx =-=-==--∑∑. 【答案】(1) ˆ482yx =-+ (2)见解析 【解析】(1)由611606i i y y ===∑,可求得48t =,故11910ni ii x y==∑,=1980nx y ,21199ni i x ==∑,2=181.5nx ,代入可得122119101980704199181.517.5ni ii ni i x y nx yb x nx==---====---∑∑,ˆˆ604 5.582ay bx =-=+⨯=, 所以所求的线性回归方程为ˆ482yx =-+. (2)利用(1)中所求的线性回归方程ˆ482yx =-+可得,当13x =时,170y =;当24x = 时,266y =;当35x =时,362y =;当46x =时,458y =;当57x =时,554y =;当68x =时,650y =.与销售数据对比可知满足||1(1,2,,6)i i y y i -≤=的共有4个“好数据”:(3,70)、(4,65)、(5,62)、(6,59) 于是ξ的所有可能取值为1,2,31242361(1)5C C P C ξ===,2142363(2)5C C P C ξ===,3042361(3)5C C P C ξ===, ∴ξ 的分布列为:所以1232555E ξ=⨯+⨯+⨯=.考向三 非线性回归【例3】近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:根据以上数据,绘制了如图所示的散点图.(1)根据散点图判断,在推广期内,y a bx =+与(,xy c d c d =⋅均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表l 中的数据,求y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如表所示:已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客,享受7折优惠的概率为16,享受8折优惠的概率为13,享受9折优惠的概率为12.根据所给数据以事件发生的频率作为相应事件发生的概率,估计一名乘客一次乘车的平均费用. 参考数据:其中lg i i u y =,7117i i u u ==∑.【答案】(1)xy c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)y 关于x 的回归方程式为:0.25ˆ 3.4710xy=⨯,第8天使用扫码支付的人次为347人次;(3)1.66元.【解析】(1)根据散点图判断,x y c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)由(1)知回归方程为x y c d =⋅,两边同时取常用对数得:()lg lg lg lg xy c dc d x =⋅=+⋅,设lg y u =,lg lg u c d x ∴=+⋅,又4x =, 1.54u =,721140i i x ==∑,7172221750.1274 1.547lg 0.2514074287i ii i i x u xu d x x==--⨯⨯∴====-⨯-∑∑,把样本中心点()4,1.54代入lg lg u c d x =+⋅,即1.54lg 0.254c =+∙,解得:4ˆl 0.5gc=, 0.5405ˆ.2ux ∴=+, lg 0.540.25y x ∴=+,y ∴关于x 的回归方程式为:()0.540.250.540.250.2510101040ˆ 3.71xx x y +==⨯=⨯,把8x =代入上式得,23.4734ˆ107y=⨯=, 活动推出第8天使用扫码支付的人次为347人次;(3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4, 则()20.1P Z==,()11.80.30.152P Z ==⨯=, ()11.60.60.30.73P Z ==+⨯=,()11.40.30.056P Z ==⨯=; 分布列为:所以,一名乘客一次乘车的平均费用为:20.1 1.80.15 1.60.7 1.40.05 1.66⨯+⨯+⨯+⨯=(元). 【举一反三】1.为方便市民出行,倡导低碳出行.某市公交公司推出利用支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,在推广期内采用随机优惠鼓励市民扫码支付乘车.该公司某线路公交车队统计了活动推广期第一周内使用扫码支付的情况,其中 (单位:天)表示活动推出的天次, (单位:十人次)表示当天使用扫码支付的人次,整理后得到如图所示的统计表1和散点图. 表1:(1)由散点图分析后,可用作为该线路公交车在活动推广期使用扫码支付的人次关于活动推出天次的回归方程,根据表2的数据,求此回归方程,并预报第8天使用扫码支付的人次(精确到整数).表2:表中,.(2)推广期结束后,该车队对此期间乘客的支付情况进行统计,结果如表3.表3:统计结果显示,扫码支付中享受5折支付的频率为,享受7折支付的频率为,享受9折支付的频率为.已知该线路公交车票价为1元,将上述频率作为相应事件发生的概率,记随机变量为在活动期间该线路公交车搭载乘客一次的收入(单位:元),求的分布列和期望.参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为参考数据:,,.【答案】(1) ,人次为2447 (2)见解析【解析】(1)由题意得,,,关于的线性回归方程为,关于的回归方程为,当时,,第8天使用扫码支付的人次为2447;(2)由题意得的所有取值为0.5,0.7,0.9,1,,,,,的分布列为:1.有下列说法:①若某商品的销售量y (件)关于销售价格x (元/件)的线性回归方程为5350y x =-+,当销售价格为10元时,销售量一定为300件;②线性回归直线y bx a =+$$$一定过样本点中心(,)x y ;③若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1;④在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关;⑤在线性回归模型中,相关指数2R 表示解释变量对于预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好;其中正确的结论有几个( ) A .1 B .2C .3D .4【答案】B【解析】①当销售价格为10时,销售量的预估值为300件,但预估值与实际值未必相同,①错误; ②由最小二乘法可知,回归直线必过(),x y ,②正确;③若两个随机变量为负相关,若线性相关性越强,相关系数r 越接近1-,③错误; ④残差图中,带状区域越窄,模型拟合度越高,④错误;⑤相关指数2R 越接近1,拟合度越高,则在线性回归模型中,回归效果越好,⑤正确. 可知正确的结论为:②⑤,共2个本题正确选项:B2.已知下表为x 与y 之间的一组数据,若y 与x 线性相关,则y 与x 的回归直线y bx a =+必过点( )A .(2,2)B .(1.5,0)C .(1,2)D .(1.5,4)【答案】D【解析】由题可得32x =,4y =, 22223333(0)(14)(1)(34)(2)(54)(3)(74)102222ˆ233335(0)(1)(2)(3)2222b --+--+--+--===-+-+-+-,3ˆ4212a=-⨯=,则回归方程为ˆ21yx =+,将A ,B ,C ,D 四项分别代入方程,只有(1.5,4)这个点在直线上,故选D 。
计算⾃相关系数acf和偏相关系数pacf时间序列分析中,⾃相关系数ACF和偏相关系数PACF是两个⽐较重要的统计指标,在使⽤arma模型做序列分析时,我们可以根据这两个统计值来判断模型类型(ar还是ma)以及选择参数。
⽬前⽹上关于这两个系数的资料已经相当丰富了,不过⼤部分内容都着重于介绍它们的含义以及使⽤⽅式,⽽没有对计算⽅法有详细的说明。
所以虽然这两个系数的计算并不复杂,但是我认为还是有必要做⼀下总结,以便于其他⼈参考。
本⽂的内容将主要集中于如何计算ACF和PACF,关于这两个系数的详细描述,⼤家可以参考⽹上的其它博客。
1. 变量说明⾸先对基本变量做⼀下说明,后续的公式和计算都将以这些变量为准。
我们⽤变量X t表⽰⼀个时间序列,x t表⽰序列中的第t个点,t=1,2,3…,N,N表⽰序列X t的长度。
序列的均值:µ=E(X t)序列的⽅差:σ2=D(X t)=E((X t−µ)2)序列的标准差:σ对于长度⼀样的两条不同序列X t和Y t,可以使⽤协⽅差来刻画它们的相关性。
序列的协⽅差:cov(X t,Y t)=E((X t−µx)(Y t−µy))协⽅差的值|cov(X t,Y t)|越⼤,说明序列X t和Y t的相关性越强(⼤于0时为正相关,⼩于0时为负相关)。
类似地,对于序列X t,我们根据序列的滞后次数k来计算对应的序列⾃协⽅差,序列的⾃协⽅差(有偏):ˆc k=E((X t−µ)(X t−k−µ))=1N∑Nt=k+1(x t−µ)(x t−k−µ)对于c k,我们有两种估计值,有偏估计(上式)和⽆偏估计,序列的⾃协⽅差(⽆偏):c k=1N−k∑Nt=k+1(x t−µ)(x t−k−µ)可以注意到c0(ˆc0)=σ2,进⼀步地,我们根据序列的⾃协⽅差来定义序列的⾃相关系数:序列的⾃相关系数(有偏):ˆr k=ˆc k ˆc 0序列的⾃相关系数(⽆偏):r k=c k c0后续关于PACF的计算将以⽆偏估计值(c k和r k)为代表,⼤家可⾃⾏替换为有偏估计(ˆc k和ˆr k)。
成对数据的统计分析【考情分析】1.考查特点:(1)统计知识主要考查:抽样方法、样本数字特征、统计图表等,以选择题、填空题形式命题,难度较小;(2)回归分析与独立性检验常与概率交汇命题,也是近年的热点,常出现在第19或20题的位置,以中档题为主.2.关键能力:逻辑思维能力、运算求解能力、数学建模能力、创新能力.3.学科素养:数学抽象、逻辑推理、数学建模、数学运算、数据分析.【题型一】回归分析在实际问题中的应用【典例分析】【例1】(2021·长沙统考)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:月份123456广告投入量/万元24681012收益/万元14.2120.3131.831.1837.8344.67他们用两种模型①y ^=b ^x +a ^,②y =a e bx 分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:x -y-∑6i =1x i y i∑6i =1x 2i 7301464.24364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由.(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;(ⅱ)广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -nx -y -∑n i =1x 2i -nx -2,a ^=y --b ^x -.【解析】(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.(2)(ⅰ)剔除异常数据,即3月份的数据后,得x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64.∑5i =1x i y i =1464.24-6×31.8=1273.44,∑5i =1x 2i =364-62=328.b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=1273.44-5×7.2×29.64328-5×7.2×7.2=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.所以y 关于x 的回归方程为y ^=3x +8.04.(ⅱ)把x =18代入(ⅰ)中所求回归方程得y ^=3×18+8.04=62.04,故预报值为62.04万元.【例2】一个国家的数学实力往往影响着国家的科技发展,几乎所有的重大科技进展都与数学息息相关,我国第五代通讯技术(5)G 的进步就是源于数学算法的优化.华为公司所研发的Single RAN 算法在部署5G 基站时可以把原来的4G 、3G 基站利用起来以节省开支,华为创始人任正非将之归功于“数学的力量”,近年来,我国加大5G 基站建设力度,基站已覆盖所有地级市,并逐步延伸到乡村.(1)现抽样调查英市所轴的A 地和B 地5G 基站覆盖情况,各取100个村,调查情况如下表:已覆盖未覆盖A 地2080B 地2575视样本的频率为总体的概率,假设从A 地和B 地所有村中各随机抽取2个村,求这4个村中A 地5G 已覆盖的村比B 地多的概率;(2)该市2020年已建成的5G 基站数y 与月份x 的数据如下表:x123456789101112y283340428547701905115114231721210926013381探究上表中的数据发现,因年初受新冠疫情影响,5G 基站建设进度比较慢,随着疫情得到有效控制,5G 基站建设进度越来越快,根据散点图分析,已建成的5G 基站数呈现先慢后快的非线性变化趋势,采用非线性回归模型ˆˆe bx y a =拟合比较合理,请结合参考数据,求5G 基站数y 关于月份x 的回归方程.(b 的值精确到0.01).附:设ln u y =,则ln i i u y =,(1,2,,12)i = ,1299.17y ≈, 6.88u ≈,()1221143i i x x =-=∑,()()12137238iii x x y y =--=∑,()()12132.42iii x x u u =--≈∑,对于样本(),i i x y ,(1,2,,)i n = 的线性回归方程ˆˆˆybx a =+有()()()121ˆniii ni i x x y y b x x ==--=-∑∑,ˆˆa y bx=-.【解析】(1)用样本估计总体,抽到A 地5G 覆盖的村概率为15,抽到B 地5G 覆盖的村概率为14,A 地抽到的2个村中5G 基站覆盖的村个数为X ,则X 满足二项分布12,5B ⎛⎫ ⎪⎝⎭2214()55i i iP X i C -⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭,0,1,2i =B 地抽到的2个村中5G 基站覆盖的村个数为Y ,则Y 满足二项分布12,4B ⎛⎫ ⎪⎝⎭2213()44iii P Y i C -⎛⎫⎛⎫== ⎪⎪⎝⎭⎝⎭,0,1,2i =,从A 地和B 地各随机抽取2个村,这4个村中A 地5G 覆盖的村比B 地5G 覆盖的村多的概率为(1)(0)(2)(0)(2)(1)P P X P Y P X P Y P X P Y ===+==+==22221122143131138755454544400C C ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=++=⎪⎪⎪ ⎪ ⎪ ⎪ ⎪⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭.(2)由指数模型ˆˆˆbx y ae =,设ln u y =,则ln u a bx =+,则u 与x 是线性相关关系.因为123126.512x +++⋯⋯+==, 6.88u ≈,()()12132.42i i i x x u u =--≈∑,()1221143i i x x =-=∑,所以()()()212132.420.23143ni i n i i x x uu b x x ==--=≈≈-∑∑,ln 6.880.23 6.5 5.39a u bx ≈-≈-⨯≈,即 5.390.23u x =+,即 5.390.23x y e +=.【提分秘籍】1.对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.2.回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.【变式演练】1.(2021·贵州凯里一中高三开学考试(理))越接近高考学生焦虑程度越强,四个高三学生中大约有一个有焦虑症,经有关机构调查,得出距离高考周数与焦虑程度对应的正常值变化情况如下表周数周数x 65432 1.正常值y 556372809099其中121ˆni ii nii x y nxybxnx ==-=-∑∑,11452niii x y==∑,2191ni i x ==∑,ˆˆa y bx=-(1)作出散点图;(2)根据上表数据用最小二乘法求出y 关于x 的经验回归方程ˆˆy bx a =+(精确到0.01)(3)根据经验观测值为正常值的0.85~1.06为正常,若1.06~1.12为轻度焦虑,1.12~1.20为中度焦虑,1.20及以上为重度焦虑.若为中度焦虑及以上,则要进行心理疏导.若一个学生在距高考第二周时观测值为103,则该学生是否需要进行心理疏导?【解析】(1)散点图如下:(2)因为654321 3.56x +++++==,55637280909976.56y +++++==214526 3.576.5ˆ916 3.5b -⨯⨯=-⨯≈8.83-,ˆˆ76.5(8.83) 3.5a y bx =-=--⨯107.4=,所以所求经验回归方程为:8.83107.4y x =-+.(3)因为1031.14 1.1290≈>,为中度焦虑,所以该学生需要进行心理疏导.2.(2021·济南市历城第二中学高三月考)某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t1234567销售量y (万件)1y 2y 3y 4y 5y 6y 7y 但其中数据污损不清,经查证719.32ii y==∑,7140.17i i i t y ==∑0.55=.(1)请用相关系数说明销售量y 与月份代码t 有很强的线性相关关系;(2)求y 关于t 的回归方程(系数精确到0.01);(3)公司经营期间的广告宣传费i x =(1,2,,7i= ),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由.(毛利润等于销售金额减去广告宣传费)参考公式及数据: 2.646≈,相关系数()()niitty y r --=∑||0.75r >时认为两个变量有很强的线性相关关系,回归方程^^^y bt a =+中斜率和截距的最小二乘估计公式分别为^121(()nii i nii tt y y b tt ==--=-∑∑,^^a y bt =-.【解析】(1)由折线图中的数据和附注中的参考数据得4t =,()72128i i t t=-=∑0.55=,()()77711140.1749.32 2.89ii i i i i i i tty y t y t y ===--=-=-⨯=∑∑∑∴ 2.890.992 2.6460.55r =≈≈⨯⨯,因为0.990.75>所以销售量y 与月份代码t 有很强的线性相关关系.(2)由9.32 1.3317y =≈及(Ⅰ)得()()()717212.89ˆ0.10328ii i i i tty y b t t ==--==≈-∑∑ˆˆ 1.3310.10340.92ay bt =-≈-⨯≈所以y 关于t 的回归方程为ˆ0.100.92yt =+(3)当8t =时,代入回归方程得ˆ0.1080.92 1.72y=⨯+=(万件)第8个月的毛利润为10 1.7217.22 1.41414.372z =⨯=-⨯=14.37215<,预测第8个月的毛利润不能突破15万元.【题型二】独立性检验在实际问题中的应用【典例分析】【例3】(2021·山东青岛市·高三二模)现对某市工薪阶层对于“楼市限购令”的态度进行调查,随机抽调了50人,他们月收入(单位:百元)的频数分布及对“楼市限购令”赞成人数如下表:月收入[)25,35[)35,45[)45,55[)55,65[)65,75[)75,85频数510151055赞成人数4812521(1)根据以上统计数据完成下面的22⨯列联表,根据小概率值α=0.025的χ2独立性检验,判断能否有97.5%的把握认为“某市工薪阶层对于‘楼市限购令’的态度与月收入以6500元为分界点有关”?月收入不低于65百元的人数月收入低于65百元的人数合计赞成不赞成合计(2)若对月收入在[)55,65和[)65,75的被调查人中各随机选取两人进行追踪调查,求在选中的4人中有人不赞成的条件下,赞成“楼市限购令”的人数ξ的分布列及数学期望.附:()()()()()22n ad bc a b c d a c b d χ-=++++,n a b c d =+++.()2P k ϕ≥0.0500.0250.0100.0050.001k3.841 5.024 6.6357.87910.828【解析】(1)由题意列联表如下:月收入不低于65百元的人数月收入低于65百元的人数合计赞成32932不赞成71118合计104050220.02550(311729) 6.27 5.024********K x ⨯⨯-⨯=≈>=⨯⨯⨯,根据小概率值α=0.025的χ2独立性检验,有97.5%的把握认为“某市工薪阶层对于‘楼市限购令’的态度与月收入以6500元为分界点有关”(2)ξ的取值分别是0,1,2,3,4,2235225101(0)15C C P C C ξ==⨯=,11221132535522225105103(1)10C C C C C C P C C C C ξ⨯==⨯+=12522111132552222222510505125304519(2)C C C C C C C C P C C C C C C ξ==⨯+⨯+=,2112112555322205117(3)90P C C C C C C C C ξ===+⨯,2252221051(4)45C C P C C ξ===,记4人中有人不赞成为事件A ,则44()1(4)45P A P ξ=-==,1(0)315(0|)44()4445P P A P A ξξ=====,同理27(1|)88P A ξ==,19(2|)44P A ξ==,17(3|)88P A ξ==,(4|)0P A ξ==,所以ξ的分布列为:ξ01234P34427881944178843271917012340448844887E ξ=⨯+⨯+⨯+⨯+⨯=.【提分秘籍】独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个随机事件有关系”犯错误概率的显著性水平α,然后查表确定分位数k .(2)利用公式,计算随机变量χ2.(3)如果χ2>k ,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.【变式演练】1.(2021·吉林长春市·东北师大附中高三其他模拟(理))近日,为进一步做好新冠肺炎疫情防控工作,某社区以网上调查问卷形式对辖区内部分居民做了新冠疫苗免费接种的宣传和调查.调查数据如下:共95份有效问卷,40名男性中有10名不愿意接种疫苗,55名女性中有5名不愿意接种疫苗.(1)根据所给数据,完成下面的2×2列联表,并根据列联表,根据小概率值α=0.050的χ2独立性检验,判断判断是否有95%的把握认为是否愿意接种疫苗与性别有关?愿意接种不愿意接种合计男女合计(2)从不愿意接种的15份调查问卷中得到拒绝接种新冠疫苗的原因:有3份身体原因不能接种;有2份认为新冠肺炎已得到控制,无需接种:有4份担心疫苗的有效性:有6份担心疫苗的安全性.求从这15份问卷中随机选出2份,在已知至少有一份担心疫苗安全性的条件下,另一份是担心疫苗有效性的概率.附:()()()()()22n ad bc x a b c d a c b d -=++++()2P k χ>0.0500.0100.005k3.841 6.6357.879【解析】(1)愿意接种不愿意接种合计男301040女50555合计801595()()()()()()2220.050953055010 4.408 3.84140558015n ad bc x a b c d a c b d χ-⨯⨯-⨯====++++⨯⨯⨯根据小概率值α=0.050的χ2独立性检验,有0095的把握认为是否愿意接种疫苗与性别有关.(2)设事件A 为至少有一份担心疫苗安全性,事件B 为另一份担心疫苗有效性,则()2921523135C P A C =-=,()1164215835C C P AB C ==,所以()()()8835|232335P AB P B A P A ===.【题型三】有关预测与决策问题【典例分析】【例4】(2021·山东淄博市·实验中学高三模拟)某市在司法知识宣传周活动中,举办了一场司法知识网上答题考试,要求本市所有机关、企事业单位工作人员均要参加考试,试题满分为100分,考试成绩大于等于90分的为优秀.考试结束后,组织部门从所有参加考试的人员中随机抽取了200人的成绩作为统计样本,得到样本平均数为82、方差为64.假设该市机关、企事业单位工作人员有20万人,考试成绩ξ服从正态分布()82,64N .(1)估计该市此次司法考试成绩优秀者的人数有多少万人?(2)该市组织部门为调动机关、企事业单位工作人员学习司法知识的积极性,制定了如下奖励方案:所有参加考试者,均可参与网上“抽奖赢手机流量”活动,并且成绩优秀者可有两次抽奖机会,其余参加者抽奖一次.抽奖者点击抽奖按钮,即随机产生一个两位数()10,11,,99L ,若产生的两位数的数字相同,则可获赠手机流量5G ,否则获赠手机流量1G .假设参加考试的所有人均参加了抽奖活动,试估计此次抽奖活动赠予的手机流量总共有多少G ?参考数据:若()2,N ξμσ,则()0.68P μσξμσ-<<+=【解析】(1)由题意,随机抽取了200人的成绩作为统计样本,得到样本平均数为82、方差为64,即82,8μσ==,所以考试成绩优秀者得分90ξ≥,即ξμσ≥+.又由()0.68P μσξμσ-<<+≈,得()()110.680.162P ξμσ≥+≈-=.所以估计该市此次司法考试成绩优秀者人数可达200.16 3.2⨯=万人.(2)设每位抽奖者获赠的手机流量为X G ,则X 的值为1,2,5,6,10.可得()()9756110.16101000P X ==-⨯=,()29129620.161010000P X ⎛⎫==⨯=⎪⎝⎭,()()184510.16101000P X ==-⨯=,()9128860.162101010000P X ==⨯⨯⨯=,()2116100.161010000P X ⎛⎫==⨯=⎪⎝⎭.所以随机变量X 的分布列为:X125610P75610001296100008410000288100001610000所以()75612968428816125610 1.62410001000010001000010000E X =⨯+⨯+⨯+⨯+⨯=(G ).因此,估计此次抽奖活动赠予的手机流量总值为20 1.62432.48⨯=(万G ).【变式演练】(2021•青羊区校级模拟)2021年3•15期间,某家具城举办了一次家具有奖促销活动,消费每超过1万元(含1万元),均可抽奖一次,抽奖方案有两种,顾客只能选择其中的一种.方案一:从装有10个形状与大小完全相同的小球(其中红球2个,白球1个,黑球7个)的抽奖盒中,一次性摸出3个球,其中奖规则为:若摸到2个红球和1个白球,则打5折;若摸出2个红球和1个黑球则打7折;若摸出1个白球2个黑球,则打9折:其余情况不打折.方案二:从装有10个形状与大小完全相同的小球(其中红球2个,黑球8个)的抽奖盒中,有放回每次摸取1球,连摸3次,每摸到1次红球,立减2000元.(1)若一位顾客消费了1万元,且选择抽奖方案一,试求该顾客享受7折优惠的概率;(2)若某顾客消费恰好满1万元,试从数学期望的角度比较该顾客选择哪一种抽奖方案更合算?【分析】(1)利用古典概型的概率公式求解即可;(2)先求出方案一的随机变量X 的可能取值,然后求出其对应的概率,列出分布列,由数学期望的计算公式求解,然后再利用方案二满足二项分布,由二项分布的数学期望公式求解,最后进行比较即可得到答案.【解答】解:(1)选择方案一,若享受到7折,则需要摸出2个红球和1个黑球,故该顾客享受7折优惠的概率为=;(2)若选择方案一,设付款金额为X元,则X的可能取值为5000,7000,9000,10000,所以P(X=5000)==,P(X=7000)==,P(X=9000)==,P(X=10000)=1﹣﹣﹣=,故E(X)=5000×+7000×+9000×+10000×=元;若选择方案二,设摸到红球的个数为Y,付款金额为Z,则Z=10000﹣2000Y,由已知可得Y~B(3,),所以E(Y)=3×=,故E(Z)=E(10000﹣2000Y)=10000﹣2000E(Y)=8800元.因为E(X)>E(Z),故该顾客选择第二种抽奖方案更合算.1.春节是中国人的团圆节,2021年春节期间,某超市为了给“就地过年”的外来务工人员营造温馨的新春佳节氛围,在2月11日至2月17日期间举行购物抽奖活动,活动规定:凡是一次性购物满300元的顾客就可以从装有8个球(其中3个球上写有“牛转乾坤”,另5个球上写有“谢谢惠顾”,每个球除写的字不同外,其他都相同)的抽奖箱中一次性摸出3个球,只有摸到“牛转乾坤”才能获奖,若3个球都是“牛转乾坤”,则获一等奖,奖励20元;若有2个球是“牛转乾坤”,则获二等奖,奖励5元;若只有1个球是“牛转乾坤”,则获三等奖,奖励2元.(1)若一位顾客在此活动期间购物满300元并且参加抽奖,求这位顾客中奖的概率;(2)经统计,2月11日有1400人次购物满300元,其中有280人次没有参加抽奖,设参加一次抽奖所得奖金的金额为X 元,试求X 的分布列,并求2月11日该超市发放奖金总金额的数学期望.【解析】(1)解法一:设一位顾客在此活动期间购物满300元参加抽奖且中奖为事件A ,参加抽奖且中一等奖为事件1A ,参加抽奖且中二等奖为事件2A ,参加抽奖且中三等奖为事件3A ,则123A A A A = ,()()()()()32112335351231233338882328C C C C C P A P A A A P A P A P A C C C =⋃⋃=++=++=.∴一位顾客在此活动期间购物满300元参加抽奖且中奖的概率为2328.解法二:一位顾客在此活动期间购物满300元且参加抽奖,设中奖为事件A ,则事件A 的对立事件为A ,A 为一位顾客在此活动期间购物满300元参加抽奖且没有中奖,即摸出的3个球都是“谢谢惠顾”,()()3538231128C P A P A C ∴=-=-=,∴一位顾客在此活动期间购物满300元参加抽奖且中奖的概率为2328;(2)依题意得:X 的所有可能取值为0,2,5,20,()35385028C P X C ∴===,()12353815228C C P X C ===,()21353815556C C P X C ===,()333812056C P X C ===,X ∴的分布列为:X2520P52815281556156∴数学期望()515151155025202828565656E X =⨯+⨯+⨯+⨯=,∴2月11日该超市发放奖金总金额的数学期望为()()15514002801120310056E X -⋅=⨯=元.2.(2021·海南中学高三模拟)从去年开始,全国各地积极开展“一盔一带”安全守护行动,倡导群众佩戴安全头盔、使用安全带.为了解相关的情况,某学习小组统计了国内20个城市的电动自行车头盔佩戴率(%)x 和电动自行车驾乘人员交通事故死亡率(%)y ,并整理得到下面的散点图.(1)求这20个城市的电动自行车头盔佩戴率大于50%的概率;(2)通过散点图分析y 与x 的相关关系,说明佩戴安全头盔的必要性;(3)有四名同学通过计算得到y 与x 的相关系数分别为0.97,0.62,0.45-,0.98-,请你从中选出最有可能正确的结果,并以此求出y 关于x 的线性回归方程.参考数据:2011000i i x ==∑,2011080i i y ==∑,()20216800i i x x =-=∑,()20211700i i y y =-=∑.参考公式:相关系数()()()()12211niii nni i i i x x y y r x x y y ===--=--∑∑∑,回归方程ˆˆˆy a bx=+中斜率和截距的最小二乘估计公式分别为:()()()121ˆniii nii x x y y bx x ==--=-∑∑, ˆay bx =-.【解析】(1)电动自行车头盔佩戴率大于50%的城市有10个,故所求的概率为12.(2)由散点图可知y 与x 有较强的负相关关系,提高电动自行车头盔佩戴率能有效降低驾乘人员交通事故死亡率,所以佩戴安全头盔十分有必要.(3)最有可能正确的结果为0.98-.根据参考数据得20115020i i x x ===∑,20115420i i y y ===∑,所以()()()()()2020211202022111700ˆ0.980.496800i i ii i i i i i y y x x yy br x x x x ====---==⨯-⨯---∑∑∑∑,ˆˆ540.495078.5ay bx =-=+⨯=,所以y 关于x 的线性回归方程为ˆ0.4978.5yx =-+.3.中国探月工程自2004年立项以来,聚焦“自主创新、重点跨越、支撑发展、引领未来”的目标,创造了许多项中国首次.2020年12月17日凌晨,嫦娥五号返回器携带“月壤”着陆地球,又首次实现了我国地外天体无人采样返回.为了了解某中学高三学生对此新闻事件的关注程度,从该校高三学生中随机抽取了100名学生进行调查,调查样本中有40名女生.如图是根据样本的调查结果绘制的等高条形图(阴影区域表示关注“嫦娥五号”的部分).关注没关注合计男女合计附:()20P K k ≥0.1500.1000.0500.0100.005k 2.072 2.706 3.841 6.6357.879()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d=+++(1)完成上面的2×2列联表,并计算回答是否有95%的把握认为“对‘嫦娥五号’关注程度与性别有关”?(2)若将频率视为概率,现从该中学高三的女生中随机抽取3人.记被抽取的3名女生中对“嫦娥五号”新闻关注的人数为随机变量X,求X的分布列及数学期望.【解析】(1)22⨯列联表如下:关注没关注合计男303060女122840合计4258100所以()()()()()()222100302812308003.941 3.84142584060203n ad bcKa b c d a c b d-⨯⨯-⨯===≈> ++++⨯⨯⨯,所以有95%的把握认为“对‘嫦娥五号’关注程度与性别有关”;(2)因为随机选一个高三的女生,对此事关注的概率为1234010 P==,又因为33,10X B⎛⎫⎪⎝⎭,所以随机变量X的分布列为:X0123P 343100044110001891000271000故()9 10E X np==.4.随着5G通讯技术的发展成熟,移动互联网短视频变得越来越普及,人们也越来越热衷于通过短视频获取资讯和学习成长.某短视频创作平台,为了鼓励短视频创作者生产出更多高质量的短视频,会对创作者上传的短视频进行审核,通过审核后的短视频,会对用户进行重点的分发推荐.短视频创作者上传一条短视频后,先由短视频创作平台的智能机器人进行第一阶段审核,短视频审核通过的概率为35,通过智能机器人审核后,进入第二阶段的人工审核,人工审核部门会随机分配3名员工对该条短视频进行审核,同一条短视频每名员工审核通过的概率均为12,若该视频获得2名或者2名以上员工审核通过,则该短视频获得重点分发推荐.(1)某创作者上传一条短视频,求该短视频获得重点分发推荐的概率;(2)若某创作者一次性上传3条短视频作品,求其获得重点分发推荐的短视频个数的分布列与数学期望.【解析】(1)设“该短视频获得重点分发推荐”为事件A ,则22133033311113()[C ()(1)C ()(1)]5222210P A =⨯⨯-+⨯-=.(2)设其获得重点分发推荐的短视频个数为随机变量X ,X 可取0,1,2,3.则3(3,10X B ,003333343(0)C ()(110101000P X ==⨯-=;112333441(1)C ((110101000P X ==⨯-=;221333189(2)C ()(1)10101000P X ==⨯-=;33033327(3)C ()(1)10101000P X ==⨯-=,随机变量X 的分布列如下:X123P343100044110001891000271000343441189279()0123100010001000100010E X =⨯+⨯+⨯+⨯=.(或39()31010E X =⨯=)5.(2021·东北育才学校高三模拟)学校食品安全问题关系着师生的身心健康,一直受到社会各界的高度关注.为进一步加强学校食堂安全管理,某市卫生监督部门决定对本市所有学校进行一次食品安全抽查.某中学按照要求,将卫生监督部门当天检查的所售菜品取样分成甲、乙两组,甲组菜品有不同的荤菜n 份和不同的素菜2份,乙组菜品有荤菜1份和不同的素菜4份,已知从甲组菜品中随机任取两份菜样,在第一次抽到素菜的条件下,第二次抽到荤菜的概率是34.(1)求n 的值;(2)若卫生监督部门第一次从甲组中随机抽取一份菜样,从第二次抽样开始,若前一次抽到荤菜,则再从甲组中抽取一份;若前一次抽到素菜,则再从乙组中抽取一份,第三次抽样后结束,每次抽取菜样都不放回.已知荤菜检测费用为80元/份,素菜检测费用为60元/份,求本次抽查检测费用的分布列和数学期望.【解析】(1)设第一次抽到素菜为事件A ,第二次抽到荤菜为事件B ,∴2()2P A n =+,22()21(2)(1)n n P AB n n n n =⨯=++++,∵()3(|)()14P AB n P B A P A n ===+,∴3n =.(2)设卫生监督部门抽样结束后,抽取荤菜的份数为Y ,检测费用为Z ,其中Y 可以取0,1,2,3,则Z 的可能取值为180,200,220,240.111243111554C C C 6(180)C C C 25P Z ===,111111111324241211111111111554554545C C C C C C C C C 17(200)+C C C C C C C C C 50P Z ==+=,111111111213321322111111111554545543C C C C C C C C C 8(220)+C C C C C C C C C 25P Z ==+=,111321111543C C C 1(240)C C C 10P Z ===.所以检测费用的分布列为Z 180200220240P6251750825110所以检测费用的数学期望为61781180200220240205.625502510⨯+⨯+⨯+⨯=(元).6.某病毒在进入人体后有潜伏期,患者在潜伏期内无任何症状,但已具传染性.假设一位病毒携带者在潜伏期内每天有n 位密接者,每位密接者被感染的概率为p ,(1)若3n =,13p =,求一天内被一位病毒携带者直接感染人数X 的分布列和均值:(2)某定点医院为筛查某些人员是否感染此病毒,需要检测血液样本是否为阳性,有以下两种检验方式:①逐份检验,即k 份血液样本需要检验k 次;②混合检验,即将k 份(*k N ∈且2k ≥)血液样本分别取样混合在一起检验,若检验结果为阴性,则这k 份血液样本全为阴性,因而这k 份血液样本只要检验一次就够了:如果检验结果为阳性,为了明确这k 份血液样本究竞哪份为阳性,就要对k 份血液样本再逐份检验,此时这k 份血液样本的检验次数为k +1次.假设样本的检验结果相互独立,且每份样本检验结果是阳性的概率为1p =ς的期望值比逐份检验的总次数η的期望值更少,求k 的取值范围.参考数据:ln 20.6931≈,ln 3 1.0986≈,ln 4 1.3863≈,ln 5 1.6094≈,ln 6 1.7918≈.【解析】(1)若n =3,p =13,依题意可知X 服从二项分布,即X ~B (3,13),从而3-312()()()33iiiP X i C ==,i =0,1,2,3.随机变量X 的分布列为:X 0123P8274929127随机变量X 的均值为1()313E X =⨯=.(2)由题意知ζ的所有可能取值为1,1k+,且()(11)k P p ζ==-,()1)+11(k P k p ζ==--,∴()()()()()1++111+11k k kE p k p k k p ζ⎡⎤=---=--⎣⎦,又∵E (η)=k ,依题意E (ζ)<E (η),即:k +1-k (1-p )k <k ,∴1k<(1-p )k ,∵p =1,∴1k <()k ,∴ln k >13k .设()1ln 3f x x x =-,则()'11333x f x x x -=-=,所以03x <<时,()'>0f x ,>3x 时,()'0f x <,所以f (x )在(0,3)上单调递增,在(3,+∞)上单调递减,由于f (1)=13-<0,f (2)=ln2-23>0,f (4)=ln4-43=0.0530>0,f (5)=ln5-53=-0.0573<0,故k 的取值范围为24k ≤≤且k ∈N *.。
⼀⽂教你如何计算变量之间的相关性本⽂介绍了⼏个重要的变量相关性的度量,包括⽪尔逊相关系数、距离相关性和最⼤信息系数等,并⽤简单的代码和⽰例数据展⽰了这些度量的适⽤性对⽐。
从信号的⾓度来看,这个世界是⼀个嘈杂的地⽅。
为了弄清楚所有的事情,我们必须有选择地把注意⼒集中到有⽤的信息上。
通过数百万年的⾃然选择过程,我们⼈类已经变得⾮常擅长过滤背景信号。
我们学会将特定的信号与特定的事件联系起来。
例如,假设你正在繁忙的办公室中打乒乓球。
为了回击对⼿的击球,你需要进⾏⼤量复杂的计算和判断,将多个相互竞争的感官信号考虑进去。
为了预测球的运动,你的⼤脑必须重复采样球的位置并估计它未来的轨迹。
更厉害的球员还会将对⼿击球时施加的旋转考虑进去。
最后,为了击球,你需要考虑对⼿的位置、⾃⼰的位置、球的速度,以及你打算施加的旋转。
所有这些都涉及到了⼤量的潜意识微分学。
⼀般来说,我们理所当然的认为,我们的神经系统可以⾃动做到这些(⾄少经过⼀些练习之后)。
同样令⼈印象深刻的是,⼈类⼤脑是如何区别对待它所接收到的⽆数竞争信号的重要性的。
例如,球的位置被认为⽐你⾝后发⽣的对话或你⾯前打开的门更重要。
这听起来似乎不值得⼀提,但实际上这证明了可以多⼤程度上学习从噪声数据中做出准确预测。
当然,⼀个被给予连续的视听数据流的空⽩状态机将会⾯临⼀个困难的任务,即确定哪些信号能够最好地预测最佳⾏动⽅案。
幸运的是,有统计和计算⽅法可以⽤来识别带噪声和复杂的数据中的模式。
相关性⼀般来说,当我们谈到两个变量之间的「相关性(correlation)」时,在某种意义上,我们是指它们的「关系(relatedness)」。
相关变量是包含彼此信息的变量。
两个变量的相关性越强,其中⼀个变量告诉我们的关于另⼀个变量的信息就越多。
你可能之前就看过:正相关、零相关、负相关你可能已经对相关性、它的作⽤和它的局限性有了⼀定了解。
事实上,这是⼀个数据科学的⽼⽣常谈:「相关性不意味着因果关系」这当然是正确的——有充分的理由说明,即使是两个变量之间有强相关性也不保证存在因果关系。
《管理统计》试卷(B卷)考试时间:120分钟闭卷任课老师:班级:学号:姓名:成绩:一、单项选择题(下列各题中,只有一个符合题意的正确答案,将正确的答案填入括号中。
每小题2分,共20分)1、相关系数的取值范围是()。
A.-1≤r≤0B.0≤r≤1C.-1≤r≤1D.-1<r<12、在小样本的情况下,如果总体不服从正态分布,且总体方差未知,则经过标准化的样本均值服从()。
A.Z分布B.t分布C.2 分布D.F分布3、下面的解释正确的是()A. transform--count 根据已经存在的变量产生新的变量B. transform---categorize variables 产生新的变量C.data--weight case 指定加权变量D. transform--compute 产生分组变量4、箱图是由一组数据的()个特征值绘制而成的。
A.5B.4C.3D.25、SPSS对方差齐性的检验所使用的统计量是:()A.T统计量B.F统计量C.Z统计量D. χ2统计量6、两个配对样本T检验的前提要求:()A.两个样本应是配对的B.样本来自的两个总体应服从标准正态分布C.两个样本应是配对的并且样本来自的两个总体应服从同一分布D.两个样本应是配对的并且样本来自的两个总体应服从正态分布7、某公司计划要求销售收入比上月增长8%,实际增长12%。
试问超计划完成程度为()。
A.103.7%B.50%C.150%D.3.7%8、在一组数据中,每个数据类型出现的次数称为()。
A.参数B.频数C.众数D.组数9、下四分位数是处于数据()位置的值。
A.50%B.40%C.80%D.25%10.当需要输出四分位全距时,需选用()A.DescriptivesB.M-estimatorsC.OutliersD.Percentiles二、多项选择题(备选答案中选择两个或两个正确答案,将正确答案填入相应的括号内。
少选或多选均不得分。
c语言高斯曲线拟合一、引言高斯曲线是一种常见的曲线类型,广泛应用于数学、物理、工程等领域。
在实际应用中,我们经常需要对高斯曲线进行拟合,以获取最佳的曲线参数。
拟合过程通常涉及到高斯曲线模型的选择、数据预处理、参数估计等步骤。
为了方便用户,本文将介绍使用C语言实现高斯曲线拟合的方法和过程。
二、预备知识1. 高斯曲线模型:高斯曲线是一种以数学函数形式表示的曲线,其表达式为y = a*e^(-b*(x-c)),其中a、b、c为参数。
2. 最小二乘法:用于求解高斯曲线参数的最优估计值,通过最小化拟合误差的平方和来实现。
三、实现步骤1. 读取数据:读取需要拟合的高斯曲线数据,包括x值和对应的y值。
2. 数据预处理:对数据进行清洗和标准化处理,去除异常值和缺失值。
3. 模型选择:根据实际情况选择合适的高斯曲线模型。
4. 参数估计:使用最小二乘法对高斯曲线参数进行估计。
5. 结果输出:将拟合结果输出到指定位置或保存到文件中。
四、代码实现以下是一个简单的C语言代码示例,用于实现高斯曲线拟合:```c#include <stdio.h>#include <math.h>// 高斯曲线拟合函数double gaussian_curve_fitting(double x[], double y[], int n) {double a, b, c; // 高斯曲线参数double sum_x = 0.0, sum_y = 0.0, sum_xy = 0.0; // 计算相关系数的偏导数和总和double numerator = 0.0, denominator = 0.0; // 分子分母的值for (int i = 0; i < n; i++) {sum_x += x[i]; // 累加x值总和sum_y += y[i]; // 累加y值总和numerator += pow(x[i] - c, 2); // 高斯曲线的分子部分denominator += pow(x[i] - c, 2) + pow(a*exp(-b*(x[i]-c)), 2); // 高斯曲线的分母部分}if (denominator == 0) { // 如果分母为零,则说明拟合失败,返回错误码return -1;} else {a = numerator / denominator; // 计算a的值b = (sum_xy - sum_x*y[n]/n) / (n - sum_x) / b; // 利用相关系数计算b的值return a; // 返回a的值作为拟合结果}}int main() {// 读取数据并执行拟合操作double x[] = { /* x值数组 */ };double y[] = { /* y值数组 */ };int n = sizeof(x)/sizeof(x[0]); // 数据点个数double result = gaussian_curve_fitting(x, y, n); // 执行拟合操作并获取结果if (result != -1) { // 如果拟合成功,则输出结果并结束程序;否则输出错误信息并结束程序printf("拟合结果:a=%f, b=%f\n", result, b); // 输出结果信息return 0;} else { // 如果拟合失败,则输出错误信息并结束程序printf("拟合失败!\n"); // 输出错误信息return -1;}}```五、总结本文介绍了使用C语言实现高斯曲线拟合的方法和过程。
相关系数C++代码说明
类名:coefficient
一般分为一个基本步骤:
(1)调用公共库里面的计算矩阵的相关系数矩阵方法。
具体算法程序
Input:x(样本矩阵)、n(样本个数)、m(属性个数)。
Output:①相关系数矩阵。
成员变量
变量名变量类型变量描述
x const double*n*m的矩阵,n个样本,m个
指标属性
n int样本数
m int指标属性
yname string指标名称
vx vector<double>接收传入的样本矩阵x的数
据
coef vector<double>相关系数矩阵
array vector<resdata>
(2)
封装过程数据结果
id int记录过程数据步骤号
函数
函数名函数返回类型函数描述
coefficient()构造函数
virtual batch(vector<block>& TT,vector<resdata>&result_data)bool实现基类model的虚函数
(1)(2)
virtual batch(vector<nblock>& TT,vector<resdata>&result_data)bool实现基类model的虚函数
(3)(2)
coefficient_batch(string yyname, int nn,int mm,double*xx, vector<resdata>&result_data)bool相关系数接收传进参数的方
法(nn*mm的样本矩阵xx,
指标名称为yyname,封装过
程数据结果result_data)
copy_data(string yyname,int nn, int mm,double*xx)void copy赋值函数(指标名称
yyname,,nn*mm的矩阵xx)
coefficient_fun()void相关系数的总方法~coefficient()析构函数,释放空间
注:
(1)vector<block>是(数据交互中心)传递参数的向量,其中block类型是结构体,包括name(指标名称);type(指标是否是定性标志,0表示定量,1表示定性);n(样本数);
m(指标属性);data(n*m的矩阵数据)。
(2)vector<resdata>是存储计算的过程数据的向量,其中resdata类型是结构体,包括step_num(步骤号);type_var(类型0表示顺序1表示循环2表示选择);dic_num(数据过程代号);order_num(顺序号);type_value(0表示矩阵1表示公式2表示单个值);
m(表示列数);n(表示行数);var_str(存放矩阵,公式或单个值的字符串)。
(3)vector<nblock>是(样本库管理)传递参数的向量,其中nblock类型是结构体,同block除了data的数据类型不一样外,其它都一样,nblock中data元素的数据类型是string,block中data元素的数据类型是double*。
一般分为五个基本步骤:
(1)计算样本矩阵x每列的最大值,最小值;
(2)计算样本矩阵x每列的平均值,中位数;
(3)计算样本矩阵x每列的方差,有偏方差,标准差,有偏标准差;
(4)计算样本矩阵x每列的偏度,峰度;
(5)计算样本矩阵x每列的和
具体算法程序
Input:x(样本矩阵)、n(样本个数)、m(属性个数)。
Output:①最小值,最大值②平均值③中位数④方差,有偏方差⑤标准差,有偏标准差⑥偏度⑦峰度⑧样本的和。
成员变量
变量名变量类型变量描述
x const double*n*m的矩阵,n个样本,m个
指标属性
n int样本数
m int指标属性
yname string指标名称
vx vector<double>接收传入的样本矩阵x的数
据
array vector<resdata>
封装过程数据结果
(2)
id int记录过程数据步骤号函数
函数名函数返回类型函数描述
statistics()构造函数
virtual batch(vector<block>& TT,vector<resdata>&result_data)bool实现基类model的虚函数
(1)(2)
virtual batch(vector<nblock>& TT,vector<resdata>&result_data)bool实现基类model的虚函数
(3)(2)
statisticsFun(string yyname,int nn,int mm,double*xx, vector<resdata>&result_data)bool描述性统计量接收传进参数
的方法(nn*mm的样本矩阵
xx,指标名称为yyname,封
装过程数据结果result_data)
copy_data(string yyname,int nn, int mm,double*x)void copy赋值函数(指标名称
yyname,,nn*mm的矩阵x)
statistics_batch()bool描述性统计量的总方法
~statistics()析构函数,释放空间
注:
(1)vector<block>是(数据交互中心)传递参数的向量,其中block类型是结构体,包括name(指标名称);type(指标是否是定性标志,0表示定量,1表示定性);n(样本数);
m(指标属性);data(n*m的矩阵数据)。
(2)vector<resdata>是存储计算的过程数据的向量,其中resdata类型是结构体,包括step_num(步骤号);type_var(类型0表示顺序1表示循环2表示选择);dic_num(数据过程代号);order_num(顺序号);type_value(0表示矩阵1表示公式2表示单个值);
m(表示列数);n(表示行数);var_str(存放矩阵,公式或单个值的字符串)。
(3)vector<nblock>是(样本库管理)传递参数的向量,其中nblock类型是结构体,同block除了data的数据类型不一样外,其它都一样,nblock中data元素的数据类型是string,block中data元素的数据类型是double*。