概率统计法建模
- 格式:ppt
- 大小:1.68 MB
- 文档页数:61
所谓指标就是用来评价系统的参量.例如,在校学生规模、教学质量、师资结构、科研水平等,就可以作为评价高等院校综合水平的主要指标.一般说来,任何—个指标都反映和刻画事物的—个侧面.从指标值的特征看,指标可以分为定性指标和定量指标.定性指标是用定性的语言作为指标描述值,定量指标是用具体数据作为指标值•例如,旅游景区质量等级有5A、4A、3A、2A 和1A之分,则旅游景区质量等级是定性指标;而景区年旅客接待量、门票收入等就是定量指标.从指标值的变化对评价目的的影响来看,可以将指标分为以下四类:(1)极大型指标(又称为效益型指标)是指标值越大越好的指标;(2)极小型指标(又称为成本型指标)是指标值越小越好的指标;(3)居中型指标是指标值既不是越大越好,也不是越小越好,而是适中为最好的指标;(4)区间型指标是指标值取在某个区间为最好的指标.例如,在评价企业的经济效益时,利润作为指标,其值越大,经济效益就越好,这就是效益型指标;而管理费用作为指标,其值越小,经济效益就越好,所以管理费用是成本型指标.再如建筑工程招标中,投标报价既不能太高又不能太低,其值的变化围一般是(-10%,+5%)x标的价,超过此围的都将被淘汰,因此投标报价为区间型指标•投标工期既不能太长又不能太短,就是居中型指标.在实际中,不论按什么方式对指标进行分类,不同类型的指标可以通过相应的数学方法进行相互转换8.2.4评价指标的预处理方法一般情况下,在综合评价指标中,各指标值可能属于不同类型、不同单位或不同数量级,从而使得各指标之间存在着不可公度性,给综合评价带来了诸多不便.为了尽可能地反映实际情况,消除由于各项指标间的这些差别带来的影响,避免出现不合理的评价结果,就需要对评价指标进行一定的预处理,包括对指标的一致化处理和无量纲化处理.1.指标的一致化处理所谓一致化处理就是将评价指标的类型进行统一.一般来说,在评价指标体系中,可能会同时存在极大型指标、极小型指标、居中型指标和区间型指标,它们都具有不同的特点.如产量、利润、成绩等极大型指标是希望取值越大越好;而成本、费用、缺陷 等极小型指标则是希望取值越小越好;对于室温度、空气湿度等居中型指标是既不期望 取值太大,也不期望取值太小,而是居中为好.若指标体系中存在不同类型的指标,必 须在综合评价之前将评价指标的类型做一致化处理.例如,将各类指标都转化为极大型指标,或极小型指标.一般的做法是将非极大型指标转化为极大型指标.但是,在不同 的指标权重确定方法和评价模型中,指标一致化处理也有差异.(1) 极小型指标化为极大型指标,将其转化为极大型指标时,只需对指标x 取倒数:jx'二丄,jxjx =M -x ,jjj其中M =max{x},即n 个评价对象第j 项指标值x..最大者.j 1<i<n 可IJ(2) 居中型指标化为极大型指标jj就可以将x 转化为极大型指标.j(3) 区间型指标化为极大型指标对区间型指标x ,x 是取值介于区间[a,b ]时为最好,指标值离该区间越远就越jjjj差.令M =max{x},m =min{x},c =max{a -m,M -b},取j1<i<n ijj1<i<n ijjjjjj对极小型指标xj或做平移变换:对居中型指标xj,令M =max{x}j1<i<n ij 2(x -m)jj —, M -m =V jj2(M -x)j—,M -m,m =min{x},取j1<i<n ijM +mm <x <—J j ;j J2M +m —J j <x <M.2jj就可以将区间型指标x 转化为极大型指标.j类似地,通过适当的数学变换,也可以将极大型指标、居中型指标转化为极小型指标.2.指标的无量纲化处理所谓无量纲化,也称为指标的规化,是通过数学变换来消除原始指标的单位及其数 值数量级影响的过程.因此,就有指标的实际值和评价值之分.—般地,将指标无量纲化处理以后的值称为指标评价值.无量纲化过程就是将指标实际值转化为指标评价值的过程.对于n个评价对象S,S,,S ,每个评价对象有m 个指标,其观测值分别为12nx(i=1,2,,n;j —1,2,,m).ij⑴标准样本变换法令••••••x —xx *—j (1<i <n ,1<j <m ).ijsj其中样本均值x -丄2x ,样本均方差s -£(x —x )2,x *称为标准观测值.jn ij j Vn ijjiji —11i —1特点:样本均值为0,方差为1;区间不确定,处理后各指标的最大值、最小值不相同;对于指标值恒定(s —0)的情况不适用;对于要求指标评价值x *>0的评价方法(如jij 熵值法、几何加权平均法等)不适用.(2)线性比例变换法对于极大型指标,令xx *—j (max x 丰0,1<i<n ,1<j<m ). ijmax x 1<i<nij1对极小型指标,令minxx *—j(1<i <n,1<j <m). ij x或xx *=1-j —(maxx 丰0,1<i <n,1<j <m ).a -x 1——jjc j1,x —b 1——j jx <a;jja <x <b; jjjx >b.jj©maxx 1<i <n ij1<i <nij该方法的优点是这些变换方式是线性的,且变化前后的属性值成比例.但对任一指标来说,变换后的x *=1和x *=0不一定同时出现.ijij特点:当x >0时,x *e[0,1];计算简便,并保留了相对排序关系.ijij(3)向量归一化法对于极大型指标,令优点:当x >0时,x *e[0,1],即£(x *)2=1•该方法使0<x *<1,且变换前ijij ij ij i =1后正逆方向不变;缺点是它是非线性变换,变换后各指标的最大值和最小值不相同.(4) 极差变换法对于极大型指标,令x -minxx *=ij ——1<i <n ij ——(1<i <n,1<j <m). ijmaxx -minx1<i <n ij 1<i <n ij对于极小型指标,令maxx -xx *=——_ij ij ——(1<i <m,1<j <n). ijmaxx -minx1<i <n ij 1<i <n ij其优点为经过极差变换后,均有0<x *<1,且最优指标值x *=1,最劣指标值ijijx *=0•该方法的缺点是变换前后的各指标值不成比例,对于指标值恒定(s =0)的情况ijj不适用.(5) 功效系数法令x -minxx *=c +—ij_i <i <n ij —x d (1<i <n ,1<j <m ). ijmax x -min x1<i <nij1<i <n ij其中c ,d 均为确定的常数.C 表示"平移量”,表示指标实际基础值,d 表示"旋转量”,即表示"放大”或“缩小”倍数,则x *e[c,c+d].ij通常取c =60,d =40,即xx对于极小型指标,令x *ijx-minxx*=60+—j_i<i<n j—x40(1<i<n,1<j<m).ij maxx-minx1<i<n ij1<i<n ij则x*实际基础值为60,最大值为100,即x*e[60,100].ijij特点:该方法可以看成更普遍意义下的一种极值处理法,取值围确定,最小值为c,最大值为c+d•3.定性指标的定量化在综合评价工作中,有些评价指标是定性指标,即只给出定性地描述,例如:质量很好、性能一般、可靠性高、态度恶劣等•对于这些指标,在进行综合评价时,必须先通过适当的方式进行赋值,使其量化•一般来说,对于指标最优值可赋值10.0,对于指标最劣值可赋值为0.0•对极大型和极小型定性指标常按以下方式赋值.(1)极大型定性指标量化方法对于极大型定性指标而言,如果指标能够分为很低、低、一般、高和很高等五个等级,则可以分别取量化值为1.030,5.0,7.0和9.0,对应关系如图8-2所示•介于两个等级之间的可以取两个分值之间的适当数值作为量化值.很低低一般高很高01.03.05.07.09.010.0图8-2极大型定性指标量化方法(2)极小型定性指标量化方法对于极小型定性指标而言,如果指标能够分为很高、高、一般、低和很低等五个等级,则可以分别取量化值为1.0,3.0,5.0,7.0和9.0,对应关系如图8-3所示.介于两个等级之间的可以取两个分值之间的适当数值作为量化值.很高高一般低很低IIIIII I101.03.05.07.09.010.0模糊综合评价方法在客观世界中,存在着许多不确定性现象,这种不确定性有两大类:一类是随机性现象,即事物对象是明确的,由于人们对事物的因果律掌握不够,使得相应结果具有不可预知性,例如晴天、下雨、下雪,这是明确的,但出现规律不确定;另一类是模糊性现象,即某些事物或概念的边界不清楚,使得事物的差异之间存在着中间过渡过程或过渡结果,例如年轻与年老、高与矮、美与丑等,这种不确定性现象不是人们的认识达不到客观实际所造成的,而是事物的一种在结构的不确定属性,称为模糊性现象.模糊数学就是用数学方法研究和处理具有“模糊性”现象的一个数学分支.而模糊综合评价就是以模糊数学为基础,应用模糊关系合成的原理,将一些边界不清、不易定量的因素定量化,进行综合评价的一种方法..隶属度函数的确定方法隶属度的思想是模糊数学的基本思想,确定符合实际的隶属函数是应用模糊数学方法建立数学模型的关键,然而这是至今尚未完全解决的问题.下面介绍几种常用的确定隶属函数的方法.⑴模糊统计法模糊统计法是利用概率统计思想确定隶属度函数的一种客观方法,是在模糊统计的基础上根据隶属度的客观存在性来确定的.下面以确定青年人的隶属函数为例来介绍其主要过程.①以年龄为论域X,在论域X中取一固定样本点x=27.②设A*为论域X上随机变动的普通集合,A是青年人在X上以A*为弹性边界的模糊集,对A*的变动具有制约作用.其中xeA,或x电A,使得x对A的隶属关系000具有不确定性•然后进行模糊统计试验,若n次试验中覆盖x的次数为m,则称m为0n nx对于A的隶属频率.由于当试验次数n不断增大时,隶属频率趋于某一确定的常数,o该常数就是x属于A的隶属度,即m卩(x)=lim--.A0n*n比如在论域X中取x=27,选择若干合适人选,请他们写出各自认为青年人最适0宜最恰当的年龄区间(从多少岁到多少岁),即将模糊概念明确化.若n次试验中覆盖27岁的年龄区间的次数为m,则称m为27岁对于青年人的隶属频率,表8-4是抽样调查n统计的结果.由于27岁对于青年人的隶属频率稳定在0.78附近,因此可得到x=27o属于模糊集A的隶属度卩(27)=0.78.A③在论域X中适当的取若干个样本点x,x,,x,分别确定出其隶属度12n卩(x)(i=1,2,,n),建立适当坐标系,描点连线即可得到模糊集A的隶属函数曲线.Ai将论域X分组,每组以中值为代表分别计算各组隶属频率,连续地描出图形使得到•••青年人的隶属函数曲线,见表8-5与图8-5所示.确定模糊集合隶属函数的模糊统计方法,重视实际资料中包含的信息,采用了统计分析手段,是一种应用确定性分析揭示不确定性规律的有效方法.特别是对一些隶属规律不清楚的模糊集合,也能较好地确定其隶属函数.16.5~17.5670.51928.5~29.5800.62017.5~18.51240.96129.5~30.5770.59718.5~19.5125 1.0030.5~31.5270.20919.5~20.5129 1.0031.5~32.5270.20920.5~21.5129 1.0032.5~33.5260.20221.5~22.5129 1.0033.5~34.5260.20222.5~23.5129 1.0034.5~35.5260.20223.5~24.5129 1.0035.5~36.510.00824.5~25.51280.992⑵三分法三分法也是利用概率统计中思想以随机区间为工具来处理模糊性的的一种客观方法•例如建立矮个子A1,中等个子A2,高个子A3三个模糊概念的隶属函数•设P3={矮个子,中等个子,高个子},论域X为身高的集合,取X=(0,3)(单位:m).每次模糊试验确定X的一次划分,每次划分确定一对数(g,n),其中匕为矮个子与中等个子的分界点,耳为中等个子与高个子的分界点,从而将模糊试验转化为如下随机试验:即将(g,n)看作二维随机变量,进行抽样调查,求得g、n的概率分布p(x)、P(x)后,再分别导出A1、A?和A3的隶属函数卩(X)、R(X)和g_H_A1A2卩(x),相应的示意图如图8-6所示.A3图8-5年轻人的隶属函数曲线图8-6由概率分布确定模糊集隶属函数通常E 和耳分别服从正态分布N (a ,G 2)和N(a11分别为_gv⑶模糊分布法根据实际情况,首先选定某些带参数的函数,来表示某种类型模糊概念的隶属函数(论域为实数域),然后再通过实验确定参数.在客观事物中,最常见的是以实数集作论域的情形•若模糊集定义在实数域R 上,则模糊集的隶属函数便称为模糊分布.下面给出几种常用的模糊分布,在以后确定隶属函数时,就可以根据问题的性质,选择适当(即符合实际情况)模糊分布,根据测量数据求出分布中所含的参数,从而就可以确定出隶属函数了.为了选择适当的模糊分布,首先应根据实际描述的对象给出选择的大致方向.偏小型模糊分布适合描述像“小”、“冷”、“青年”以及颜色的“淡”等偏向小的一方的模糊现象,其隶属函数的一般形式为「1,x <a; 卩(x)斗A [f (x),x >a.偏大型模糊分布适合描述像“大”、“热”、“老年”以及颜色的“浓”等偏向大的一方的模糊现象,其隶属函数的一般形式为f0,x <a ;卩(x )=\A [f (x ),x >a .中间型模糊分布适合描述像“中”、“暖和“、“中年”等处于中间状态的模糊现象,其隶属面数可以通过中间型模糊分布表示.① 矩形(或半矩形)分布2,G2),则A 1、A 2和A3的隶属函数其中Q (x)二i卩(x)=1—① A1卩(x )=①A21气—e 2dt .(、 x 一a 1丿/ 1GiC\x 一a 2(G 丿2—① 卩(x)=1一① A3x 一a 、Gi丿、x 一ac 2G丿(c)中间型0,x <a ;1,a <x <b ; 0,x >b .卩A x )=<此类分布是用于确切概念.矩形(或半矩形)分布相应的示意图如图8-7所示.图8-7矩形(或半矩形)分布示意图② 梯形(或半梯形)分布梯形(或半梯形)分布的示意图如图8-8所示.③ 抛物形分布(a)偏小型 (b)偏大型 (c)中间型(a)偏小型 (b)偏大型 (c)中间型1,x<a; b —x<<, b —a 0,x>b.卩A(x )=10,x <a;x —a,a <x <b;b —a 1,x >b.0,x <a ,x >d ; ,a <x <b ;b -a 1,b <x <c ;d —x,c <x <d ;d —c(a)偏小型(b)偏大型(c)中间型 图8-8梯形(或半梯形)分布示意图抛物形分布的示意图如图8-9所示.(a)偏小型(b)偏大型(c)中间型图8-9抛物形分布示意图④正态分布(a)偏小型(b)偏大型1,x<a;0,x<a;卩(x)=<(x—a]2卩(x)=<(T—a J2、e〔b,x>a. 1—e—l b丿,x>a.(c)中间型⑤柯西分布(a)偏小型(b)偏大型(c)中间型⑥r 型分布(a)偏小型 (b)偏大型 (c)中间型f l,x <a ; [e _k (x _a ),x >a .f 0,x <a ;卩(x)=kA[1一e _k (x _a ),x >a .卩(x)=<Ae _k (x _a ),x <a; 1,a <x <b; e _k (b _x ),x >b.1,1 x <a; 1+a (x -a)P (a >0,B >0)x >a.0, 1x <a ; Q ,x >a .1+a (x 一a )_P叮x)=1+a (x -a )B'(a >0,B 为正偶数).(a >0,B>0)。
第1章概率方法建模简介第2章数据统计描述和分析第3章方差分析第4章回归分析第5章马氏链模型第6章时间序列模型第7章主成分分析及应用第8章判别分析简介及应用主讲:山东大学数学学院陈建良2第1章概率方法建模简介随机性模型,是指研究的对象包含有随机因素的规律,以概率统计为基本数学工具,其结果通常也是在概率意义下表现出来。
随机因素的影响可以用概率、平均值(即数学期望)等的作用来体现。
自然界中的现象总的来说可以概括为两大现象:确定性现象和随机现象在确定性现象中可以忽略随机因素的影响,在随机现象中必须考虑随机因素的影响。
确定性离散模型,主要使用差分方程方法、层次分析方法以及比较简单的图的方法和逻辑方法等方法建立模型;确定性连续模型,主要使用微积分、微分方程及其稳定性、变分法等方法建立模型;§2 概率方法建模实例分析实例一、报童的策略问题1.问题描述报童每天清晨从报站批发报纸零售,晚上将未卖完的报纸退回。
设每份报纸的批发价为b,零售价为a,退回价为c,且设a>b>c,因此报童每售出一份报纸赚(a-b),退回一份赔(b-c)。
若批少了不够买就会少赚,若批多了买不完就赔钱,报童如何确定每天批发报纸的数量,才能获得最大收入?92. 分析显然应根据需求量来确定批发量。
一种报纸的需求量是一随机变量。
假定报童通过自己的实践经验或其它方式掌握了需求量的随机规律,即在他的销售范围内每天报纸的需求量为X = x 份的概率为P(x),则通过P(x) 和a, b, c 就可建立关于批发量的优化模型。
3.数学模型设每天批发量为n,因需求量x 是随机的,因此x可以小于、等于或大于n,从而报童每天的收入也是随机的,作为优化模型的目标函数,应考虑他长期(半年、一年等)卖报的日平均收入。
据概率论中的大数定律,这相当于报童每天收入的期望值(以下简称平均收入)。
1011设报童每天批发进n 份报纸时的平均收入为S (n ),若某天需求量x ≤n ,则他售出x 份,退回(n -x )份;若这天需求量x >n ,则n 份报纸全部卖出。
§4 足球门的危险区域一、问题提出在足球比赛中,球员在对方球门前不同的位置起脚射门对对方球门的威胁是不一样的。
在球门的正前方的威胁要大于在球门两侧射门;近距离的射门对球门的威胁要大于远射。
已知标准球场长为104米,宽为69米;球门高为2.44米,宽为7.32米。
实际上,球员之间的基本素质可能有一定差异,但对于职业球员来讲一般可以认为这种差别不大。
另外,根据统计资料显示,射门时球的速度一般在10米/秒左右。
下面要建模研究下列问题:(1)针对球员在不同位置射门对球门的威胁度进行分析,得出危险区域;(2)在有一名守门员防守的情况下,对球员射门的威胁度和危险区域作进一步研究。
二、问题分析根据这个问题,要确定球门的危险区域,也就是要确定球员射门最容易进球的区域。
球员无论从哪个地方射门,都有进与不进两种可能,这本身就是一个随机事件,无非是哪些地方进球的可能性最大,即是最危险的区域。
影响球员射门命中率的因素很多,其中最重要的两点是球员的基本素质(技术水平)和射门时的位置。
对每一个球员来说,基本素质在短时间内是不可能改变的,因此,我们主要是在确定条件下,对射门位置进行分析研究。
也就是说,我们主要是针对同素质的球员在球场上任意一点射门时,研究其对球门的威胁程度。
某一球员在球门前某处向球门内某目标点射门时,该球员的素质和球员到目标点的距离决定了球到达目标点的概率,即命中球门的概率。
事实上,当上述两个因素确定时,球飞向球门所在平面上的落点将呈现一个固定的概率分布。
稍作分析容易断定,该分布应该是二维正态分布,这是我们解决问题的关键所在。
球员从球场上某点射门时,首先必定在球门平面上确定一个目标点,射门后球依据该概率分布落入球门所在平面。
将球门视为所在平面上的一个区域,在区域内对该分布进行积分,即可得到这次射门命中的概率。
然而,球员在选择射门的目标点时是任意的,而命中球门的概率对目标点的选择有很强的依赖性。
这样,我们遍历球门区域内的所有点,对命中概率作积分,将其定义为球场上某点对球门的威胁程度,根据威胁度的大小来确定球门的危险区域。