当前位置:文档之家› 《储层表征与建模》大报告:多点地质统计随机建模方法

《储层表征与建模》大报告:多点地质统计随机建模方法

《储层表征与建模》大报告:多点地质统计随机建模方法
《储层表征与建模》大报告:多点地质统计随机建模方法

多点地质统计随机建模方法

多点地质统计学是相对于两点地质统计学而言的。地质统计学是法国巴黎国立高等矿业学院马特隆教授(G·Matheron)于1962年创立的,最初应用于采矿业中,主要解决矿床普查勘探、矿山设计到矿山开采整个过程中各种储量计算和误差估计问题。后来在石油工业中得到了迅速的发展,主要应用于储层表征与建模中(Haldorsen and Damsleth,1990;Srivastava, 1994;裘怿楠和贾爱林, 2000;王家华和张团峰,2001;吴胜和等,1999)。

1 传统地质统计学在储层表征中的应用

传统的地质统计学在储层建模中主要应用于两大方面:其一,应用各种克里金方法建立确定性的模型,这类方法主要有简单克里金、普通克里金、泛克里金、协同克里金、贝叶斯克里金、指示克里金等;其二,应用各种随机建模的方法建立可选的、等可能的地质模型,这类方法主要有高斯模拟(如序贯高斯模拟)、截断高斯模拟、指示模拟(如序贯指示模拟)等。上述方法的共同特点是空间赋值单元为象元(即网格),故在储层建模领域将其归属为基于象元的方法。这些方法均以变差函数为工具,亦可将其归属为基于变差函数的方法。

变差函数作为传统地质统计学中研究地质变量空间相关性的重要工具,然而,它的最大不足之处在于只能把握空间上两点之间的相关性,亦即在二阶平稳或本征假设的前提下空间上任意两点之间的相关性,对于表征复杂的空间结构和再现复杂目标的几何形态(如弯曲河道)比较困难。如图1-1所示,三种不同的空间结构(黑色图元和白色图元的空间分布,图1-1a至图1-1c)在横向上(东西方向,图1-1d)和纵向上(南北方向,图1-1e)的变差函数十分相似,这说明应用变差函数不能区分这三种不同的空间结构及几何形态。

变差函数是从已有数据中推算得出,但是在实际情况中,井数据的数量通常很少,不足以获得一个可靠的三维变差函数模型,在横向上尤其如此。即便井数据足够多,因为井通常被部署在有利于油气聚集的地方,因而并不能代表整个储层。因此,以变差函数为工具来捕获所要研究对象的空间变化性,无论从质和量

的角度来说都是不合适的。以它为基础的传统地质统计学的插值和模拟方法因而难于精确表征具有复杂空间结构和几何形态的地质体。

(a)(b)(c)

(d)三种结构东西方向的变差函数(e)三种结构南北方向的变差函数图1-1不能充分反映空间各向异性的变差函数(Caers J, 2002)现有的储层随机建模的另一途径是基于目标的方法,它是以目标物体为基本模拟单元,进行离散物体的随机模拟(Haldorsen and Damsleth,1990;Holdenet al·1998)。主要方法为示性点过程(亦称标点过程),其根据先验地质知识、点过程理论及优化方法(如模拟退火)表征目标地质体的空间分布,因此这种方法可以较好地再现目标体几何形态。但这种方法亦有其不足:

1)每类具有不同几何形状的目标均需要有特定的一套参数(如长度、宽度、厚度等),而对于复杂几何形态,参数化较为困难;

2)由于该方法属于迭代算法,因此当单一目标体内井数据较多时,井数据的条件化较为困难,而且要求大量机时。

2 多点地质统计学的提出与基本概念

鉴于传统的基于变差函数的随机建模方法和基于目标的随机建模方法存在的不足,多点地质统计学方法应运而生。在多点地质统计学中,应用“训练图像”代替变差函数表达地质变量的空间结构性,因而可克服传统地质统计学不能再现

目标几何形态的不足,同时,由于该方法仍然以象元为模拟单元,而且采用序贯算法(非迭代算法),因而很容易忠实硬数据,并具有快速的特点,故克服了基于目标的随机模拟算法的不足。因此,多点地质统计学方法综合了基于象元和基于目标的算法优点,同时可克服已有的缺陷。

过去十年中多点地质统计学(MPS )已经从理论研究发展到石油工业应用中。MPS 对储层建模的新贡献在于训练图像的使用。训练图像允许整合更多的地质信息到储层模型中;能够描述离散或连续变量的空间结构;能够描述由沉积、构造和成岩作用形成的空间结构。对离散变量,如沉积相,MPS 算法SNES-IM 能够模拟沉积相曲线的构筑物(Strebelle, 2002)。对连续变量的训练图像,例如描述孔隙度和渗透率结构的图像,一种名为FILRERSIM 的MPS 算法更合适(Zhang 等, 2006)。能够用一个分级的模拟方法—首先模拟沉积相,接着模拟每一种沉积相内物性的分布,或者能够直接模拟石油物性,最好的方法应该由研究储层中变量数据和地质条件确定。

鉴于两点统计学只能考虑空间两点之间的相关性这一不足,多点统计学着重表达多点之间的相关性。“多点”的集合用一个新的概念,即数据事件(data event )来表述(Strebelle and Journel,2001)。

考虑一种属性S (如沉积相),可取K 个状态(如不同相类型),即{S k , k=1,2,…K},则一个以u 为中心,大小为n 的“数据事件”d n 由以下两部分组成:

①由n 个向量{h α, α=1,2,…n }确定的几何形态(数据构形),亦称为数据样

板(data template ),记为τn ;

②n 个向量终点处的n 个数据值。如图2-1(a )为一个五点构形的数据事件,由一个中心点和四个向量及数值组成。多点统计可表述为一个数据事件}n ,...1,s ){S(u d k n ===ααα出现的概率,即数据事件中n 个数据点s (u 1)…s (u n )分别处于s k 1…s k n 状态时的概率,也可表述为n 个数据指示值乘积的数学期望,

即:

{}(){}()??????====∏=n k n k I n s S d 1;E ,1;Prob Prob ααααααu u (1)

在实际建模过程中,上述多点统计或概率难于通过稀疏的井资料来获取,而需要借助于训练图像。

训练图像为能够表述实际储层结构、几何形态及其分布模式的数字化图像。对于沉积相建模而言,训练图像相当于定量的相模式,它不必忠实于实际储层内的井信息,而只反映一种先验的地质概念,如图2-1(b )为一个反映河道(黑色)与河道间(白色)分布的训练图像。一个给定的数据事件的概率则可通过应用该数据事件对训练图像进行扫描来获取。

对于任一给定的数据样板τn 和一个训练图像T ,定义“侵蚀的训练图像”T n 为诸点的集合,使得以u 为中心的数据样板τn 中的所有n 个结点都在训练图像T 内。“侵蚀的训练图像”T n 的大小用N n 表示。而在应用任一给定的数据样板τn 对一个训练图像T 进行扫描的过程中,当训练图像中一个数据事件与数据样板的数据事件d n 相同时,称为一个重复。这样,在平稳假设的前提下,数据事件d n 在侵蚀的训练图像中的重复数c (d n )与侵蚀的训练图像大小N n 的比值,就相当于该数据事件d n 出现的概率,即多点统计。

(2)

任何基于象元的随机模拟算法均要求获取待模拟点的条件概率分布函数(cpdf ),即对于任一未取样点,需要确定在给定n 个条件数据(记为n ,...1,s )S(u k ==ααα)情况下,属性S (u )取K 个状态中任一个状态的概率。在多点统计模拟中,该概率可记为Prob {s (u )=s k |d n },其中,d n 为由n 个条件数据联合构成的数据事件。根据贝叶斯条件概率公式,该概率可表达为:

(3)

(){}()n n k N d c n s s ≈== ,1;Prob αααu (){}()(){}(){}n s S n

s S s S d s S k k k n k ,1;Prob ,1;and Prob |Prob =======ααααααu u u u

上式中,分母为条件数据事件(n ,...1,s )S(u k ==ααα)出现的概率,可从公式(2)获取;分子为条件数据事件及未取样点u 取s k 状态的情况下同时出现的

概率,相当于在已有的c (d n )个重复中s (u )=s k 的重复的个数与侵蚀的训练

图像大小N n 的比值,记为n n k )/N (d c 。因此,局部条件概率分布函数可表达为:

(4)

因此,通过扫描训练图像,可获取未取样点处的条件概率分布函数。如图2-1所示,图2-1(a )为模拟目标区内一个由未取样点及其邻近的四个井数据(u 2和u 4代表河道,u 1和u 3代表河道间)组成的数据事件,当应用该数据事件对图

2-1(b )的训练图像进行扫描时,可得到4个重复,即c (d n )=4,其中,中心

点为河道(黑色)的重复为3个,即c 1(d n )=3,而中心点为河道间(白色)

的重复为1个,即c 2(d n )=1,因此,该未取样点为河道的概率可定为3/4,而

为河道间的概率为1/4。

(a ) (b )

图2-1 数据事件与训练图像示意图 (a ) 数据事件:由中心点u 和邻近四个向量构成的五点数据事件,其中u 2和u 4代表河道,u 1和u 3代表河道间;(b ) 训练图像:反映河道(黑色)与河道间(白色)的平面分布。图

内四个圆环表示数据事件对训练图像扫描的四个可能的重复(据Strebell ,2001)

3 多点地质统计学随机建模方法

多点地质统计学应用于随机建模始于1992年。包括两大类方法, 即迭代的

()(){}()()

n n k n k k k d c d c d s p n s S s S ≈====)|;(,1;|Prob u u u ααα

和非迭代的方法。迭代的方法主要有:

1)模拟退火方法(Deutsch,1992):从训练图像中得到多点统计参数,据此建立标函数,并应用模拟退火方法进行随机模拟;

2)基于Gibbs取样的后处理迭代方法(Srivastava ,1992):首先基于传统变差函数进行随机模拟,然后根据从训练图像中得到的各待模拟点的局部条件概率,应用基于Gibbs取样的迭代方法,对已有的模拟实现进行迭代修改(后处理),以恢复多点统计特征;

3)基于神经网络的马尔可夫蒙特卡洛方法(Caers and Journel,1998):首先对从训练图像得到的多点统计参数进行神经网络训练,然后应用马尔柯夫链蒙特卡罗模拟(MCMC)产生模拟图像。

以上方法均为迭代算法,主要受到迭代收敛的局限,因而其应用也受到了限制。Guardiano and Srivastava (1993)提出了一种直接的(非迭代)算法,从训练图像中直接提取局部条件概率 , 并应用序贯指示模拟方法产生模拟实现。由于该算法为非迭代算法,不存在收敛的问题,因而算法简单。但由于在每模拟一个网格节点时均需重新扫描训练图像,以获取特定网格的局部条件概率,因此严重影响计算速度,难于进行实际应用。Strebelle and Journel (2001)将算法加以改进,应用一种动态数据结构即“搜索树”一次性存储训练图像的条件概率分布,并保证在模拟过程中快速提取条件概率分布函数,从而大大减少了机时。基于此,提出了多点统计随机模拟的Snesim算法(Strebelle and Journel,2001;Strebelle,2002)。

3.1 Snesim方法

多点统计随机模拟Snesim方法为Single normal equation simulation的简称,其建模基本步骤如下:

1)建立训练图像。

2)准备建模数据,将实测的井数据标注在最近的网格节点上。

3)应用用户定义的与数据搜索邻域相联系的数据样板 n扫描训练图像,以构建搜索树。

4)确定一个访问未取样节点的随机路径。在每一个未取样点u处,使得条件数据置于一个以u为中心的数据样板τn中。令n′表示条件数据的个数,d n’为条件数据事件。从搜索树中检索c(d n’)和c k(d n’)并求取u处的条件概率分布函数。

5)从u处的条件概率分布中提取一个值作为u处的随机模拟值。该模拟值加入到原来的条件数据集中,作为后续模拟的条件数据。

6)沿随机路径访问下一个节点,并重复(3)、(4)步骤。如此循环下去,直到所有节点都被模拟到为止,从而产生一个随机模拟实现。

7)改变随机路径,产生另一随机模拟实现。

多点地质统计学随机模拟方法(如Snesim算法)与传统的地质统计学随机模拟方法(如序贯指示模拟SIS)的本质差别在于未取样点处条件概率分布函数的求取方法不同。前者应用多点数据模板扫描训练图像以构建搜索树并从搜索树中求取条件概率分布函数(上述第1步和第3步),而后者通过变差函数分析并应用克里金方法求取参数条件概率分布函数。正是这一差别,使多点地质统计学克服了传统二点统计学难于表达复杂空间结构性和再现目标几何形态的不足。

3.2 Simpat算法

Simpat是Arpat在2005年设计的多点地质统计学随机建模方法。Arpat认为地下储层可以被看成是地质模式集合构成的一幅图像,因而储层预测过程就是地下储层图像重建的过程。地质模式由多个空间点构成的数据事件或者数据模式来表征,可以利用相似性方法比较待估点处数据事件与训练图像中的数据模式之间的相似性,并用最相似的数据模式整体替换掉待估点处数据事件,从而模拟和再现储层地质模式,建立地下储层空间结构特征。根据计算机视觉及图像处理方面的理论,模式之间的相似性可以通过距离函数d(x,y)来度量。在Simpat中,采用曼哈顿距离函数来计算相似性,数据事件与模式之间的距离函数为:

式中,dev

T (u + h

α)——待估点u处的数据事件

=

-

+

=

nT

T

h

p

h

u

dev

k

T

k

T

T

(

at

)

(

)

pat

(u),

d(dev

α

α

α

pat

T k(h

α)——训练图像内的数据模式。

一旦完成相似性计算,就可以根据相似程度决定模拟节点处存在的数据模式,并用数据模式替换模拟节点处数据事件。当所有节点模拟完成后,就建立起储层地质模型。

Simpat遵循序贯模拟思路,其建模步骤如下:

(1)利用数据样板对训练图像进行扫描,提取所有的单一模式;

(2)应用聚类分析,按照相似性的原则将所有样式进行分类;

(3)定义一条顺序随机访问路径;

(4)在每一个未取样位置,计算周围数据构成的数据事件与训练图像内的数据模拟的相似性,选择最相似的数据事件作为模拟结果;当前网格最相似的模型确定后,对ccdf数据进行模拟。数据事件要符合以前确定的模型;

(5)模拟转入下一个节点,直到所有的节点都被访问,完成一次模拟实现。

在这种算法中,多重网格模拟时不“传递”硬数据而“传递”概率值。3.3 SMPS方法

3.3.1SMPS方法的提出

河流相储层是最重要的含油气储层之一,据统计,我国河流相储层油气约占总油气储量的42.6%。因此,开展河流相储层精细描述,建立高精度的、定量的储层地质模型具有重要的现实意义。

在国外,河流相储层地质建模已经得到深入研究,并发展了多种随机建模方法,如示性点过程、序贯指示模拟(Sisim)、Fluvsim等。然而,由于基于目标的方法(如示性点过程)面临条件化和参数化的困难,而基于象元的方法(如Sisim)存在连续弯曲形态再现的困难。导致在河流相储层建模中,弯曲的、连续的、符合实际的河道形态的真实再现一直难以实现。考虑基于象元的方法主要是通过两点变差函数反映储层结构和形态特征,对于具有弯曲形态的储层再现,两点统计(即变差函数)显得不足。一些学者开始尝试利用多点统计来表征储层形态。这些早期的多点统计由于迭代次数太多,扫描训练图像也需要大量机时,而常规计算机计算能力较低,阻碍了其在实际储层建模中的应用。

2000年,Strebelle在前人研究基础上设计了Snesim (Single Normal

EquationSimulation)多点统计算法,利用“搜索树”存储多点概率,大大节约了运行时间。多点统计地质建模在国际上迅速流行。然而研究表明,Snesim虽然在形态再现上较序贯指示建模有较大的优势,但对于连续河道形态再现,仍然存在不足。2005年,Arpat设计了基于模式模拟的多点地质统计算法Simpat (Simulation with patterns),将储层建模视为图像重建。

尹艳树,吴胜和等在对前人方法研究的基础上,于2008年提出了基于储层骨架的多点地质统计学随机建模方法(SMPS: askeleton-based multiple point geostatistics)。通过概念模型与实际模型的检验,证明SMPS要优于传统的Sisim,Snesim和Simpat。

SMPS主要是在分析了基于目标的方法的优点以及Simpat方法一些不足基础上提出的。在基于目标的方法中,河流相建模已经逐渐由传统的点过程发展为线模型。其核心思想是首先预测河道中线的分布,然后在中线约束指导下分配河道剖面,从而完成河道三维形态再现。在Fluvsim中,河道中线主要是通过河道曲率、波曲长度等地质参数重建,因而能够真实反映河道形态。但是,当河道为多口井钻遇时,Fluvsim难以真实再现。

Simpat方法认为储层是由一些地质模式叠合而成的图像,因此可以通过数据模式的再现恢复地下储层特征。根据计算机视觉理论,图像重建可以利用数据事件之间的相似性计算来进行。由于考虑采用相似性来代替传统的概率估计,并通过数据事件的整体代替来克服以往基于象元的方法单点(Single cell)估计带来的不确定性,Simpat方法认为能够较Snesim更好再现河道特征.然而通过概念模型模拟表明Simpat在条件数据较少情况下河道连续性发生中断。

对Simpat模拟算法的深入研究发现,数据模式缺乏约束的随机选择是导致河道连续性中断的根源。考查仅包含一个条件数据的数据事件,假设其位于河道中线上。对于这样一个数据事件,在训练图像中满足条件的数据事件非常多,如果随机选择了不代表河道中线特征的数据事件,则很可能导致河道连续性中断。而如果能够在数据事件选择中加入更多的约束信息,则选择合适的数据事件的概率将增加,河道连续性形态再现的可能也将大大增加。

在线模型中,河道中线是通过条件数据获得的,而河道中线对于再现河道形态具有决定意义。考虑在多点统计预测中加入河道中线的约束。一方面可以克服

线模型条件化问题;另一方面可以利用河道中线约束指导多点统计中数据事件的选择。提出了建模的新思想,即利用河道中线来约束数据事件的选择。在每一个河道中线上未取样位置u,仅选择训练图像中包含河道中线的数据事件;对待其他未估点,需要考虑两种情况:

(ⅰ)如果待估点包含河道中线点,则在数据模式的选择中,仅选择训练图像中包含河道中线的数据事件;

(ⅱ)如果待估点周围没有河道中线信息,则在数据模式选择中,选择不包含河道中线信息的数据事件。

在计算机视觉里,河道中线就是河道骨架。将这种方法命名为基于储层骨架的多点地质统计学建模方法(SMPS)。

3.3.2 SMPS建模的步骤

从上面的分析中,SMPS分为两步,即河道骨架模型的建立和多点统计预测。

对Fluvsim研究表明,河道中线都是单点估计,即在每一个河道条件数据点产生一条河道中线。对大多数油藏而言,一条河道上布置了多口井。显然,河道中线的预测需要考虑多个条件数据点信息,判断河道条件数据点是否属于同一条河道,然后再利用这些条件数据点建立河道中线模型,即河道骨架模型.

在基于目标的河道建模中,河道范围通过河道波曲长度、河道波动幅度和河道厚度来确定。因此,可以定义这样一个河道“搜索窗”,其长度可以定义为无限长,其宽度为河道波动幅度,其高度则为河道最大厚度。落入“搜索窗”的河道条件数据点则认为属于同一条河道。随后在“搜索窗”内,利用一维高斯函数产生河道中线。具体步骤如下:

首先,在河道主方向上确定河道主流向轴,并根据主流向轴方向对原始坐标进行坐标变换,将主流图3-1搜索窗及利用搜索窗建立的河道骨架模型向轴设置为y坐标轴。那么根据假设,河道中线将围绕y坐标轴分布,且服从高斯分布;

其次,沿y轴方向按规定的网格步长利用高斯函数产生高斯数据,并保存于数组中。高斯数据指示了河道中线偏离河道主方向轴的程度;

再次,根据河道中线波动幅度,确定河道中线分布,将波动幅度与高斯场数据相乘,就得到了河道中线偏离河道主方向的距离了,也就是河道相对于河道主方向轴的位置;

最后,坐标逆变换,恢复河道中线在原始坐标中的位置,完成河道中线预测过程,也就是河道骨架模型建立过程。

图3-1搜索窗及利用搜索窗建立的河道骨架模型

由于河道发育主方向有一个变化范围,“搜索窗”方向也可以设定一个搜索范围。此外,在河流环境里支流也是相当发育的。针对支流情况,考虑由于支流比较于主河道而言规模要小,钻遇几率要低。因此可以根据落入“搜索窗”内河道点的个数来判断是否为支河道。进一步,根据支河道距离主河道中线距离来对支河道归属进行判断。经过这样考虑,复杂河流系统的河道骨架模型也很容易建立起来。下一步就是利用多点地质统计学进行河道形态的预测。

SMPS建模步骤:

河道骨架模型建立完成后,就可以进行多点统计预测了,模拟采用Simpat 建模的思路,即仍然以相似性为基础对未知数据事件作出预测。模拟步骤如下:1)图像预处理,对训练图像进行倒角变换;

2)利用数据样板扫描变换后的训练图像,提取数据模式;

3)利用条件数据建立河道骨架模型;

4)定义一条顺序访问路径,且定义沿河道骨架上的节点具有优先访问的权利;

5)在每一个河道骨架上未取样位置u,计算周围数据构成的数据事件与训练图像内的数据事件的相似性,选择最相似的数据事件作为模拟结果。此时,仅

选择训练图像中包含河道中线的数据事件;

6)在河道骨架上的点模拟完成后,计算河道所占比例。如果少于预期河道的5%,则增加一条河道中线;如果超过5%,则舍弃包含条件数据最少的一条河道,并将其与最近的河道作为同一条河道,返回步骤5)。如果误差在5%,则可以进行其他未估点的估计;

7)对待其他未估点,需要考虑两种情况:

(ⅰ)如果待估点包含河道骨架点,则在数据模式的选择中,仅选择训练图像中包含河道骨架的数据事件;

(ⅱ)如果待估点周围没有河道骨架信息,则在数据模式选择中,选择不包含河道骨架信息的数据事件;

8)模拟转入下一个节点,直到所有的节点都被访问,完成模拟。

SMPS模拟精度要高于Simpat,SMPS在模拟河道储层上具有更强的有效性。

4 问题与展望

储层建模中用训练图像量化模型地质特征将得到广泛应用。和基于目标的方法对比,MPS能更灵活地整合不同类型的数据和从训练图像中捕获的地质构造,生成更符合地质情况的储层模型。只要提供的训练图像是可用的,MPS就能够以多种尺度模拟地质特征。为了加速MPS建模进程,有必要建立一个训练图像库,基于这个库,将会出现储层建模的一种新的工作流程。

多点地质统计学的发展迄今只有十多年的研究历史,而真正作为一种可实用的随机建模方法则是Strebelle and Journel (2001)提出训练树的概念及Snesim 算法之后。因此,该方法远未成熟,尚需进一步加以完善。多点地质统计学是今后地质统计学发展的主要方向。

1)它可以联合反映空间多个位置点的几何形状和相互配位关系;在模拟具有复杂形状地质体分布时,它比两点地质统计学方法具有更大的优势.

2)利用Snesim模拟算法可以快速灵活地进行多点地质统计模拟,模拟的岩相展布图具有一定的真实性,它为储层参数的两阶段模拟奠定了基础综合国际上多点统计学的研究现状及已有实例分析,多点统计学随机建模方法尚需在以下几方面进行深入的研究。

1)训练图像平稳性问题

任何空间统计预测均要求平稳假设。在二点统计学中,要求二阶平稳或内蕴假设,即协方差或变差函数与空间具体位置无关而与矢量距离有关。同样,在多点统计学中,要求训练图像平稳,即训练图像内目标体的几何构型及目标形态在全区基本不变,不存在明显趋势或局部的明显变异性。Zhang (2002)提出了一个几何变换的方法,即通过旋转和比例压缩将非平稳训练图像变为平稳训练图像,并建立多个训练图像以获取未取样点条件概率分布函数。但是,这一方法仍是一种简单化的解决途径,可以解决具有明显趋势而且用少量定量指标如方向和压缩比例能够表达的非平稳性,而对于无规律的局部明显变异性,尚需要更为有效的解决方案。

2)目标体连续性问题

目前的Snesim算法为一序贯模拟算法,每个未取样点仅访问一次,已模拟值则“冻结”为硬数据。这一方法虽然保证快速且易忠实硬数据,但可能导致目标体的非连续性。Apart and Caers(2003)提出了一个型式(pattern)模拟的算法,称为Simpat算法,通过对训练图像数据事件进行分类、多重网格模拟时不“传递”硬数据而“传递”概率值、同时模拟一个数据样板内的所有节点等措施,在一定程度上改进了目标体不连续的问题。

3)综合地震信息的问题

目前多点地质统计学综合地震信息的方法主要包括三大类:其一,对地震信息进行地质解释,将其转换为一种训练图像,同时应用硬信息和原型模型得到一个训练图像,然后应用一个联合数据事件对两个训练图像进行扫描,以获取未取样点的综合条件概率。这一方法目前存在的主要问题是,当软数据类型较多时,扫描训练图像所得的重复数太少,从而影响条件概率的推导。其二,分别应用井信息和地震信息计算条件概率,然后将两个概率综合为一个条件概率(Journel,2002)。这一方法的前提条件是两类数据是独立的,或即使不要求独立但须求取它们对综合条件概率贡献的权重(Liu,2003)。其三,应用类似于同位协同克里金的方式求取综合条件概率,将多点统计方法求取的基于硬信息的概率替换克里金方法求取的概率(Journel,1999)。这一方法要求地震信息的承载小(与模拟网格相同),而且硬信息和软信息对综合概率的权重仍取决于克里金方差。

4)数据样板的选择问题

数据样板的选择很关键,如何提取能够较好地反映地质规律的数据样板,关系到模拟实现结果的合理与否。对此,Qiu等曾进行了研究,并提出了相应的方法技术。目前,在Snesim算法中,采用规则形状,通过对各方向搜索范围、样板大小搜索方位等的限定来约束样板的选择,这种方法便于程序化但也具有一定的模式化,对于复杂的地质情况有一定的局限性。如何使数据样板既符合地质规律又容易实现程序化,尚有待进一步研究。

多点地质统计学是今后地质统计学发展的主要方向,它综合了基于象元方法和基于目标方法的优点,这在河流相建模中尤其具有优势。除了常见的相模拟用途外,Ortiz等通过将变量的总体均值进行标准化,并利用基于指示的方法实现了将多点地质统计学用于连续变量的模拟。这预示着多点地质统计学在储层建模中将会有更加广泛的应用。

Snesim算法的提出及不断完善,使多点地质统计学走向实用,且影响也越来越大。但其理论基础薄弱,有些方面有待进一步研究。

5)SMPS建模方法

SMPS是一种针对河流相储层的建模方法,即基于储层骨架的多点地质统计学随机建模方法。这种方法综合利用了基于目标建模的优点,即预测河道中线分布的思想。对多点地质统计学中的数据事件选择进行改进,利用河道中线加以约束,从而有效提高数据事件选择的合理性,达到更准确建立河道地质模型的目的。概念模型和实际储层建模对比研究表明,SMPS相比较于已有的序贯指示建模、Snesim和Simpat,确实能够更有效的建立起河道储层地质模型。

然而,河道中线模型的建立采用的是一维高斯函数。这种假设对于河流来说是否过于简单,值得进一步的考虑。此外,SMPS目前研究只是在二维模型基础上,对于我国开发中后期油田储层研究而言,需要建立更精细的三维储层地质模型。这就提出了两个方面的挑战:

一方面就是如何在三维空间建立河道骨架;

另一方面是如何利用河道骨架优化数据事件相似性计算,因为在三维空间,数据事件包括的节点众多,模拟运行机时将大大增加,不利于实际应用。

最后,SMPS是针对河流储层,且主要针对河道微相。对于其他类型储层微

相,是否仍然合适,是下一步需要研究的方向。

多点地质统计学为一个新的学科分支,诸多方面需进一步深入研究,其发展可谓任重而道远。

参考文献

[1] 吴胜和,李文克.多点地质统计学——理论、应用与展望[J].古地理学

报,2005,7(1):137-144.

[2] 吴胜和.2010.储层表征与建模[M].北京:石油工业出版社,372-378.

[3] 冯国庆,陈浩,张烈辉,李允.利用多点地质统计学方法模拟岩相分布[J].

西安石油大学学报(自然科学版),2005,20(5):9-11

[4] 李桂亮.多点地质统计学储层建模的实用展望[J].Petroleum Geostatistics:

2007,9

[5] 尹艳树,吴胜和.储层随机建模研究进展[J].天然气地球科学,2006,17

(2):210-216.

[6] 尹艳树,吴胜和,张昌民,李少华,尹太举.基于储层骨架的多点地质统计

学方法[J]. 中国科学D辑:地球科学,2008,38(增刊Ⅱ):157-164.

[7] 裘怿楠,贾爱林.储层地质模型10年[J].石油学报,2000,21(4):101-104.

[8] Arpat B G.Sequential simulation with patterns[C].Ph.Dthesis, 2005.

[9] Tuanfeng Zhan.在储层建模中利用多点地质统计学整合地质概念模型及其解

释[J].地学前缘(中国地质大学(北京);北京大学),2008,15(1):26-35.

[10] Strebelle S,Journel A.Reservoir modeling using multiplepoint

statistics[C].SPE71324,2001:1-11.

[11] Strebelle S.Sequential Simulation drawing structures from training

images[D].Stanford:Stanford University,2000:187.

[12] 骆杨, 赵彦超.多点地质统计学在河流相储层建模中的应用[J].地质科技

情报,2008,27(3):68-72.

[13] 吴胜和,金振奎,黄沧钿,陈崇河.1999.储层建模[M].北京:石油工业出版

社,83-111.

[14] 宋海渤,黄旭日.油气储层建模方法综述[J].天然气勘探与开发,2008,31

(3):53-57.

管理统计学SPSS数据管理 实验报告

数据管理 一、实验目的与要求 1.掌握计算新变量、变量取值重编码的基本操作。 2.掌握记录排序、拆分、筛选、加权以及数据汇总的操作。 3.了解数据字典的定义和使用、数据文件的重新排列、转置、合并的操作。 二、实验内容提要 1.自行练习完成课本中涉及的对CCSS案例数据的数据管理操作 2.针对SPSS自带数据Employee data.sav进行以下练习。 (1)根据变量bdate生成一个新变量“年龄” (2)根据jobcat分组计算salary的秩次 (3)根据雇员的性别变量对salary的平均值进行汇总 (4)生成新变量grade,当salary<20000时取值为d,在20000~50000范围内时取值为c,在50000~100000范围内取值为b,大于等于100000时取值为a 三、实验步骤 1、针对CCSS案例数据的数据管理操作 1.1.计算变量,输入TS3到目标变量,在数字表达式中输入3,把任意年龄段分成三个组20-30设为1组,1-40设为2组41-50设为3组。图1, 图1 1.2.对已有变量的分组合并,在“名称”文本框中输入新变量名TS3单击“更改”按钮,原来的S3->?就会变为S3->TS3,单击“旧值和新值”按钮,系统打开“重新编码到其他变量:旧值和新值”,如下图2,

图2 图3 1.3.可视离散化,选择“转换”->“可视离散化”,打开的对话框要求用户选择希望进行离散化的变量,单击继续,如下图4,

图4 单击“生成分割点”,设定分割点数量为10,宽度为5,第一个分割点位置为18,单击“应用”,如下图, 图5 结果显示如下,

数学建模案例分析—主成分分析的应用--概率统计方法建模

§8 主成分分析的应用 主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。 设有n 个样品,m 个变量(指标)的数据矩阵 (1)1112 1(2)21222()12m m n m n n n nm x x x x x x x x X x x x x ??? ?? ? ? ? ?== ? ? ? ? ????? 寻找k 个新变量12,,,()k y y y k m ≤ ,使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关 这便是主成分分析。主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。 可以证明,若12(,,,)T m x x x x = 为m 维随机向量,它的协方差矩阵V 的m 个特征值为 120m λλλ≥≥≥≥ ,相应的标准正交化的特征向量为12,,,m u u u ,则 12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。 称1 / m i j j λλ =∑为主成分(1,2,,)T i i y u x i m == 的贡献率, 1 1 /k m j j j j λλ ==∑∑为主成分 12,,k y y y 的累计贡献率,它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大 小,通常取k 使累计贡献率在85%以上即可。当然这不是一个绝对不变的标准,可以根据实 际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。 计算步骤如下: 1、由已知的原始数据矩阵n m X ?计算样本均值向量12?(,,,)T m x x x x μ== ; 其中1 1(1,2,,)n i ij j x x i m n ===∑

常用统计分析方法

常用统计分析方法 排列图 因果图 散布图 直方图 控制图 控制图的重要性 控制图原理 控制图种类及选用 统计质量控制是质量控制的基本方法,执行全面质量管理的基本手段,也是CAQ系统的基础,这里简要介绍制造企业应用最广的统计质量控制方法。 常用统计分析方法与控制图 获得有效的质量数据之后,就可以利用各种统计分析方法和控制图对质量数据进行加工处理,从中提取出有价值的信息成分。 常用统计分析方法 此处介绍的方法是生产现场经常使用,易于掌握的统计方法,包括排列图、因果图、散布图、直方图等。 排列图 排列图是找出影响产品质量主要因素的图表工具.它是由意大利经济学家巴洛特(Pareto)提出的.巴洛特发现人类经济领域中"少数人占有社会上的大部分财富,而绝大多数人处于贫困状况"的现象是一种相当普遍的社会现象,即所谓"关键的少数与次要的多数"原理.朱兰(美国质量管理学家)把这个原理应用到质量管理中来,成为在质量管理中发现主要质量问题和确定质量改进方向的有力工具. 1.排列图的画法

排列图制作可分为5步: (1)确定分析的对象 排列图一般用来分析产品或零件的废品件数、吨数、损失金额、消耗工时及不合格项数等. (2)确定问题分类的项目 可按废品项目、缺陷项目、零件项目、不同操作者等进行分类。 (3)收集与整理数据 列表汇总每个项目发生的数量,即频数fi、项目按发生的数量大小,由大到小排列。最后一项是无法进一步细分或明确划分的项目统一称为“其它”。 (4)计算频数fi、频率Pi和累计频率Fi 首先统计频数fi,然后按(1)、(2)式分别计算频率Pi和累计频率Fi (1) 式中,f为各项目发生频数之和。 (2)

数学建模中统计学常用方法

1、1多元回归 1、 方法概述: 在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:北可以定量地描述某一现象与某些因素之间 的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、 分类 分为两类:多元线性回归与非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可 以转化为y=u u=lnx 来解决;所以这里主要说明多元线性回归应该注意的问题。 3、 注意事项 在做回归的时候,一定要注意两件事: (1) 回归方程的显著性检验(可以通过sas 与spss 来解决) (2) 回归系数的显著性检验(可以通过sas 与spss 来解决) 检验就是很多学生在建模中不注意的地方,好的检验结果可以体现出您模型的优劣,就是完整论文的体现?所以这 点大家一定要注意。 4、 使用步骤: (1) 根据己知条件的数据?通过预处理得出图像的大致趋势或者数据之间的大致关系; (2) 选取适当的回归方程; (3) 拟合回归参数; (4) 回归方程显著性检验及回归系数显著性检验 (5) 进行后继研究(如:预测等) 这种模型的的特点就是直观,容易理解。 这体现在:动态聚类图可以很直观地体现出来! 当然,这只就是直观的一个方而! 2、 分类 聚类有两种类型: (1) Q 型聚类:即对样本聚类; (2) R 型聚类:即对变量聚类; 聚类方法: 最短距离法 最长距离法 中间距离法 重心法 (5) 类平均法 (6) 可变类平均法 (7) 可变法 (8) 利差平均与法 在具体做题中,适当选取方法; 3、 注意事项 在样本量比较大时,要得到聚类结果就显得不就是很容易,这时需要根据背景知识与相关的其她方法辅助处理。 还需要注意的就是:如果总体样本的显著性差异不就是特別大的时候,使用的时候也要注意! 4、 方法步骤 (1) 首先把每个样本自成一类; 2)选取适当的衡量标准,得到衡量矩阵,比如说:距离矩阵或相似性矩阵.找到矩阵中最小的元素,将该元素对应的两 个类归为一类, (4)重复第2步,直到只剩下一个类; (4)重复第2步,直到只剩下一个类; 补充:聚类分析就是一种无监督的分类,下而将介绍有监督的“分类”。 我简单说明下,无监督学习与有监督学习就是什么 无监督学习:发现的知识就是未知的 )< 12 3 4

数学建模的基本步骤

数学建模的基本步骤 一、数学建模题目 1)以社会,经济,管理,环境,自然现象等现代科学中出现的新问题为背景,一般都有一个比较确切的现实问题。 2)给出若干假设条件: 1. 只有过程、规则等定性假设; 2. 给出若干实测或统计数据; 3. 给出若干参数或图形等。 根据问题要求给出问题的优化解决方案或预测结果等。根据问题要求题目一般可分为优化问题、统计问题或者二者结合的统计优化问题,优化问题一般需要对问题进行优化求解找出最优或近似最优方案,统计问题一般具有大量的数据需要处理,寻找一个好的处理方法非常重要。 二、建模思路方法 1、机理分析根据问题的要求、限制条件、规则假设建立规划模型,寻找合适的寻优算法进行求解或利用比例分析、代数方法、微分方程等分析方法从基本物理规律以及给出的资料数据来推导出变量之间函数关系。 2、数据分析法对大量的观测数据进行统计分析,寻求规律建立数学模型,采用的分析方法一般有: 1). 回归分析法(数理统计方法)-用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式。 2). 时序分析法--处理的是动态的时间序列相关数据,又称为过程统计方法。 3)、多元统计分析(聚类分析、判别分析、因子分析、主成分分析、生存数据分析)。 3、计算机仿真(又称统计估计方法):根据实际问题的要求由计算机产生随机变量对动态行为进行比较逼真的模仿,观察在某种规则限制下的仿真结果(如蒙特卡罗模拟)。 三、模型求解: 模型建好了,模型的求解也是一个重要的方面,一个好的求解算法与一个合

适的求解软件的选择至关重要,常用求解软件有matlab,mathematica,lingo,lindo,spss,sas等数学软件以及c/c++等编程工具。 Lingo、lindo一般用于优化问题的求解,spss,sas一般用于统计问题的求解,matlab,mathematica功能较为综合,分别擅长数值运算与符号运算。 常用算法有:数据拟合、参数估计、插值等数据处理算法,通常使用spss、sas、Matlab作为工具. 线性规划、整数规划、多元规划、二次规划、动态规划等通常使用Lindo、Lingo,Matlab软件。 图论算法,、回溯搜索、分治算法、分支定界等计算机算法, 模拟退火法、神经网络、遗传算法。 四、自学能力和查找资料文献的能力: 建模过程中资料的查找也具有相当重要的作用,在现行方案不令人满意或难以进展时,一个合适的资料往往会令人豁然开朗。常用文献资料查找中文网站:CNKI、VIP、万方。 五、论文结构: 0、摘要 1、问题的重述,背景分析 2、问题的分析 3、模型的假设,符号说明 4、模型的建立(局部问题分析,公式推导,基本模型,最终模型等) 5、模型的求解 6、模型检验:模型的结果分析与检验,误差分析 7、模型评价:优缺点,模型的推广与改进 8、参考文献 9、附录 六、需要重视的问题 数学建模的所有工作最终都要通过论文来体现,因此论文的写法至关重要:

大数据统计分析方法简介

大数据统计分析方法简介 随着市场经济的发展以及经济程度不断向纵深发展, 统计学与经济管理的融合程度也在不断加深, 大数据统计分析技术通过从海量的数据中找到经济发展规律, 在宏观经济分析中起到的作用越来越大, 而且其在企业经营管理方面的运用也越来越广。基于此, 文章首先对强化大数据统计分析方法在企业经营管理中的意义以及必要性进行分析;其次, 详细阐述大数据统计分析方法在宏观经济方面及企业经营管理方面的运用;最后, 对如何进一步推进大数据统计分析方法在经济管理领域中的运用提出政策建议。 统计学作为应用数学的一个重要分支, 其主要通过对数据进行收集, 通过计量方法找出数据中隐藏的有价值的规律, 并将其运用于其他领域的一门学科。随着数据挖掘(Data Mining) 技术以及统计分析方法逐渐成熟, 大数据统计分析方法在经济管理领域中所起到的作用越来越大。当前, 面对经济全球化不断加深以及经济市场竞争不断激烈的双重压力, 将统计学深度的融合运用于经济管理领域成为提高经营管理效率、优化资源配置、科学决策的有效举措。随着市场经济的发展以及经济程度不断向纵深发展, 统计学与经济管理的融合程度也在不断加深, 大数据统计分析技术通过从海量的数据中找到经济发展规律, 在宏观经济分析中起到的作用越来越大, 而且其在企业经营管理方面的运用也越来越广。由此可见, 加强大数据统计分析方法在经济管理领域中的运用对促进经济发展和和提升企业经营管理效率具有重要意义。 为了进一步分析大数据统计分析方法在宏观经济发展以及企业经营管理方面的运用, 本文首先对强化大数据统计分析方法在企业经营管理中的意义以及必要性进行分析;其次, 详细阐述大数据统计分析方法在宏观经济方面及企业经营管理方面的运用;最后, 对如何进一步推进大数据统计分析方法在经济管理领域中的运用提出政策建议。 一、大数据统计分析方法在经济管理领域运用的意义 由于市场环境以及企业管理内容的变化, 推进统计学在企业经营管理领域运用的必要性主要体现在以下两方面。 (一) 宏观经济方面 经济发展具有一定的规律, 加强大数据统计分析方法在宏观经济中的运用对发展经济发展规律具有重要意义。一方面, 通过构架大数据统计分析系统将宏观经济发展中的行业数据进行收集, 然后利用SPSS、Stata等数据分析软件对关的行业数据进行实证分析, 对发现行业发展中出现的问题以及发现行业中潜在的发

[管理学]统计学实验报告

实验报告 ——(关于小麦品种对小麦产量显著性影响的分析研究) 班级:09工商2班组长:tjs学号:09513285成绩: 小组成员姓名: tjs 09513285 wdh 09513286 ww 09513287 wj 09513288 一、实验目的与意义 本文运用单因素方差分析的统计方法对小麦品种对小麦产量是否具有显著性影响进行实证研究,经过数据分析得出了不同小麦品种对小麦产量具有显著性影响的结论。 二、实验内容 1、为了研究不同的小麦品种对小麦的产量是否有显著性影响,我们选取三个小麦品种:品种1、品种 2、品种3并且对每个品种选取四个地块的产量作为观测值。设三个品种总体均值分别为μ1 μ2 μ3 提出假设:H0 :μ1 =μ2 =μ3 总体均值完全相等,自变量对因变量没有显著性影响。 H1 :μ1 μ2 μ3总体均值不完全相等,自变量对因变量有显著性影响 设置显著性水平为0.05 其数据结构如下: 2、运用spss软件进行数据处理,以下是具体操作过程 (1)选择[Analyze]=>[Compare Means]=>[One-Way ANOVA...],打开[One-Way ANOVA]主对 话框(如图所示)。

(2)从主对话框左侧的变量列表中选定小麦产量[var01],单击按钮使之进入[DependentList]框,再选定变量小麦品种[var02],单击按钮使之进入[Factor]框。单击[OK]按钮完成。 (3)生成统计结果如下:

3、结果分析 根据上面的计算结果,SS为离差平方和; df为自由度;MS为均方;F为检验的统计量;Sig=0.009 为P 值。我们直接运用计算出的P值与显著性水平α的进行比较,若P>α则不能拒绝原假设H0;若P<α则拒绝原 假设H0 ;在本题中,P=0.009<α=0.05 所以拒绝原假设H0 即小麦品种对产量有显著性影响。

数学建模案例分析消费分布规律的分类概率统计方法建模

§7 消费分布规律的分类 为研究辽宁、浙江、河南、甘肃、青海5省份在某年城镇居民生活消费的分布规律,需要用调查资料对这5个省分类.数据见下表: 其中,X 1:人均粮食支出; X 2:人均副食品支出; X 3:人均烟、酒、茶支出; X 4:人均其它副食品支出; X 5:人均衣着商品支出; X 6:人均日用品支出; X 7:人均燃料支出; X 8:人均非商品支出. 在科学研究、生产实践、社会生活中,经常会遇到分类的问题.例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,要考虑哪些经济指标反映的是同一种经济特征;在产品质量管理中,要根据各产品的某些重要指标而将其分为一等品,二等品等等. 这些问题可以用聚类分析方法来解决. 聚类分析的研究内容包括两个方面,一是对样品进行分类,称为Q 型聚类法,使用的统计量是样品间的距离;二是对变量进行分类,称为R 型聚类法,使用的统计量是变量间的相似系数. 设共有n 个样品,每个样品i x 有p 个变量,它们的观测值可以表示为 n i x x x x pi i i i ,,2,1),,,,(21 == 一、样品间的距离 下面介绍在聚类分析中常用的几种定义样品i x 与样品j x 间的距离. 1、 Minkowski 距离 m m p k kj ki j i x x x x d 11 ][),(∑=-= 2、绝对值距离 ∑=-=p k kj ki j i x x x x d 1),( 3、欧氏距离 21 21][),(∑=-=p k kj ki j i x x x x d 二、变量间的相似系数 相似系数越接近1,说明变量间的关联程度越好.常用的变量间的相似系数有 1、 夹角余弦

管理统计学-假设检验的SPSS实现-实验报告

假设检验的SPSS实现 、实验目的与要求 1. 掌握单样本 t检验的基本原理和 spss实现方法。 2. 掌握两样本 t检验的基本原理和 spss实现方法。 3. 熟悉配对样本 t检验的基本原理和 spss实现方法。 二、实验内容提要 1. 从一批木头里抽取 5根,测得直径如下(单位: cm),是否能认为这批木头的平均直径是1 2.3cm 12.3 12.8 12.4 12.1 12.7 2. 比较两批电子器材的电阻,随机抽取的样本测量电阻如题表2所示,试比较两批电子器 材的电阻是否相同(需考虑方差齐性的问题) 3. 配对 t检验的实质就是对差值进行单样本t检验,要求按此思路对例课本 13.4进行重新分析,比较其结果和配对 t检验的结果有什么异同。 4.一家汽车厂设计出 3种型号的手刹,现欲比较它们与传统手刹的寿命。分别在传统手刹,型号I、II、和型号 III中随机选取了 5只样品,在相同的试验条件下,测量其使用寿命(单位:月),结果如下: 传统手刹:21.213.417.015.212.0 型号 I :21.412.015.018.924.5 型号 II :15.219.114.216.524.5 型号 III :38.735.839.332.229.6 ( 1)各种型号间寿命有无差别 ? (2)厂家的研究人员在研究设计阶段,便关心型号III 与传统手刹寿命的比较结果。此时应 当考虑什么样的分析方法?如何使用 SPSS实现? 三、实验步骤 为完成实验提要 1. 可进行如下步骤 1. 在变量视图中新建一个数据,在数据视图中录入数据,在分析中选择比较均值,单样本t 检验,将直径添加到检验变量,点击确定。

薪酬调查数据统计分析方法

薪酬调查数据统计分析方法 对调查数据进行纠正整理的基础上,得出被调查的劳动力市场的薪酬分布的情况。通常薪酬调查数据的统计分析方法有:数据排列法、频率分析法、居中趋势分析法、离散分析法、图表分析法、回归分析法。下面对这几种方法分别作详细的介绍,我们很可能在看一些咨询公司或者政府部门的薪酬调查的报告中都要用这些方法,或者其中的部分方法。 1、数据排列法 统计分析的方法常采用数据排列法。先将调查的同一类数据由高至低排列,再计算出数据排列中的中间数据,即25%点处、中点即50%点处和75%点处。工资水平高低企业应注意75%点处,甚至是90%点处的工资水平,工资水平低的企业应注意25%点处的工资水平,一般的企业应注意中点工资水平,下表是调查的部门文员岗位的工资数据。 2、频率分析法 如果被调查单位没有给出某类岗位完整的工资数据,只能采集到某类岗位的平均工资数据。在进行工资调整数据分析时,可以采取频率分析法,记录在各工资额度各类企业岗位平均工资水平出现的频率,从而了解某类岗位人员工资的一般水平。为了更直观地进行观察,还可以根据调查数据绘制出直方图(下图二)。从下表一和下图二中很容易看出,该类岗位人员的工资主要浮动围介于1800元和2400元之间,这也就是大部分企业为该类岗位人员支付的工资围。 表一分析的是部门文员岗位的工资频数分布情况。

3、趋中趋势分析法 趋中趋势分析是统计数据处理分析的重要方法之一,具体又包括以下几种方法: (1)简单平均法 简单评价法是根据薪酬调查的数据,采用以下计算公式求出某岗位基本工资额,作为确定本企业同类岗位人员工资的基本依据。这种方法用起来比较简单,但异常值(主要是最大值与最小值)有可能会影响结果的准确性,因此采用简单平均法时,应当首先剔除最大值与最小值,然后再作出计算。 (2)加权平均法 采用本方法时,不同企业的工资数据将赋予不同的权重,而权重的大小则取决于每一家企业在同类岗位上工作的工作人数。也就是说,当某企业中从事某类岗位工作的人数越多,则该企业提供的工资数据,对于最终平均值的影响也就越大。在这种情况下,规模不同的企业实际支付的工资会对最终调查结果产生不同的影响。因此,采用加权平均法处理分析数据比简单评价法更具科学性和准确性。在调查结果基本上能够代表行业总体状况的情况下,起经过加权的平均数更能接近劳动力市场的真实状况。

数学建模方法和步骤

数学建模的主要步骤: 第一、模型准备 首先要了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征. 第二、模型假设 根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步.如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为,所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化. 第三、模型构成 根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构.这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天.不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值. 第四、模型求解 可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术.一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重. 第五、模型分析 对模型解答进行数学上的分析."横看成岭侧成峰,远近高低各不?quot;,能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次.还要记住,不论那种情况都需进行误差分析,数据稳定性分析. 数学建模采用的主要方法有: (一)、机理分析法:根据对客观事物特性的认识从基本物理定律以及系统的结构数据来推导出模 型. 1、比例分析法:建立变量之间函数关系的最基本最常用的方法. 2、代数方法:求解离散问题(离散的数据、符号、图形)的主要方法. 3、逻辑方法:是数学理论研究的重要方法,对社会学和经济学等领域的实际问题,在决策,对策等学科中得到广泛应用. 4、常微分方程:解决两个变量之间的变化规律,关键是建立“瞬时变化率”的表达式. 5、偏微分方程:解决因变量与两个以上自变量之间的变化规律. (二)、数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型 1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法. 2、时序分析法:处理的是动态的相关数据,又称为过程统计方法. 3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法.

《管理统计学》实验报告

《管理统计学》实验报告 学号: 姓名: 班级: 指导老师: 2020年9 月11 日

目录 熟悉SPSS的使用方法___________________________________________________________ 3实验(或实训)总结、评价 ____________________________________________________ 6描述统计、参数估计及假设检验 _________________________________________________ 6实验(或实训)总结、评价 ___________________________________________________ 24方差分析(含单因素和双因素) ________________________________________________ 24实验(或实训)总结、评价 ___________________________________________________ 31相关系数、回归参数估计和检验 ________________________________________________ 32实验(或实训)总结、评价 ___________________________________________________ 36

熟悉SPSS的使用方法 一、实验目的、任务 (1)了解SPSS 的运行模式,熟悉其主要窗口的结构; (2)理解并掌握有关数据文件创建和整理的基本操作,学习如何将收集到的数据输入计算机,建成一个正确的 SPSS 数据文件; (3)掌握如何对原始数据文件进行整理,包括数据查询,数据修改、删除,数据的排序等。 二、实验基本内容 (1)SPSS的启动和退出方法; (2)创建数据文件和读取外部数据的方法; (3)数据的编辑、保存和整理。 实验(实训)结果 例题:实验原始数据 某航空公司38 名职员性别和工资情况的调查数据,如表所示,试在SPSS 中进行如下操作: 1、将数据输入到SPSS 的数据编辑窗口中,将gender 定义为字符型变量,将salary 定义为数值型变量,并保存数据文件,命名为“实验1.sav”。 /插入一个变量income,定义为数值型变量。 将数据文件按性别分组。 查找工资大于40000 美元的职工。 当工资大于40000 美元时,职工的奖金是工资的20%;当工资小于40000 美元时, 职工的奖金是工资的10%,假设实际收入=工资+奖金,计算所有职工的实际收入,并添加到income 变量中。

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

统计学实验报告【最新】

统计学实验报告 一、实验主题:大学生专业与实习工作的关系 二、实验背景: 二十一世纪的今天大学生已是一个普遍的社会群体,高校毕业人数日益增加,社会、企业所提供的职位日益紧张,大学生就业问题是当今社会关注的焦点。面对日益沉重的就业压力,越来越多的大学毕业生选择了企业需求的职业,而这种职业与自己在校所学专业根本“无关”或相去甚远,大学毕业生就业专业不对口的现象非常严重。专业对口是个广义的概念,就是说你所学的专业与你所作的工作相关,比如你专业是会计,工作后你到了一个企业做会计,或者到银行做柜员,这都是与经济相关的,这就是对口。如果你学机械设计,但工作后却做了统计员,业务员等于你所学专业无关的工作,这就叫专业不对口。专业不对口导致毕业生所学知识没有用武之地,所以这是一种人力资源的浪费。 三、实验目的: 大学生就业专业不对口是客观存在的问题,我们研究此问题有这几点目的:①了解当代大学生实习工作与专业是否对口的情况,当代大学生对工作与专业不对口现象的态度。②分析大学生就业结构和

专业对口问题,了解当今大学生专业对口情况,为以后大学生选择专业、选择工作岗位提供有效的信息和借鉴。③寻找导致专业不对口的原因,以减少社会普遍存在的人力资源的浪费。 四、实验要求:就相关问题收集一定数量的数据,用EXCEL进行如下 分析:1进行数据筛选、排序、分组;2、制作饼图并进行简要解释;3、制作频数分布图,直方图等并进行简要解释。 五、实验设备及材料:计算机,手机,EXCEL软件,WORD软件。 六、实验过程: (一)制作并发放调查问卷。 (二)收回并统计原始数据:收回了102名大学生填写的调查问卷,并对相关数据进行统计。 (三)筛选与实验相关问题: 1.您的性别( ): A. 男B.女

16种常用的数据分析方法汇总

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。

数学建模-数据的统计分析

数学建模与数学实验 课程设计 学院数理学院专业数学与应用数学班级学号 学生姓名指导教师 2015年6月

数据的统计分析 摘要 问题:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 计算均值、标准差、极差、偏度、峰度,画出直方图;检验分布的正态性; 若检验符合正态分布,估计正态分布的参数并检验参数; 模型:正态分布。 方法:运用数据统计知识结合MATLAB软件 结果:符合正态分布

问题重述 某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、偏差、峰度,画出直方图; (2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数。 模型假设 假设一:此组成绩没受外来因素影响。 假设二:每个学生都是独自完成考试的。 假设三:每个学生的先天条件相同。 三.分析与建立模型 像类似数据的信息量比较大,可以用MATLAB 软件决绝相关问题,将n 名学生分为x 组,每组各n\x 个学生,分别将其命为1x ,2X ……j x 由MATLAB 对随机统计量x 进行命令。此时对于直方图的命令应为 Hist(x,j) 源程序为: x1=[93 75 83 93 91 85 84 82 77 76 ] x2=[77 95 94 89 91 88 86 83 96 81 ] x3=[79 97 78 75 67 69 68 84 83 81 ]

管理统计学实验报告

实验报告 科目管理统计学 班级2011级信息管理与信息系统成员 成都理工大学工程技术学院 二○一三年五月

实验一 一、实验名称:4S调查问卷基本信息统计的分析 二、实验目的:熟练的使用SPSS软件关于数据统计的描述与图表 方法。 三、实验内容: 使用SPSS软件对性别分布状况,年龄分布状况,受教育分布状况,车辆品牌分布状况选择合适的统计图加以分析与说明。 四、实验步骤 1、打开SPSS软件,打开文件中打开数据选项,打开4S调查问卷数据。 2、从SPSS软件的“图形”—>“旧对话”—>“饼图”,启动数据分析过程 3、选择个案分析,定义需要的变量分区 4、最后在此对话框中点击“选项”按钮,弹出“缺省值”对话框。根据需要 进行选择,最后点击确定即可。 五、实验结果

六、 实验结论 1、性别分布状况 就性别分布来看,男性顾客85人,占总人数的85.29%;女性顾客17人,占总人数的14.71%. 2、年龄分布状况 就年龄分布来看,26~45之间的人占大多数人,某种程度上也可以说明这一年龄阶段是4S 店的主要客服。 3、受教育的程度分布状况 就受教育程度分布状况来看,被调查的者大专学历的51人,占总人数的50% ;其次为本科学历的18 人,占总人数的17.65%. 4、车辆品牌分布状况 就车辆品牌分布状况来看,伊兰特和索纳塔是该服务店的主要车型。

实验二 一、实验名称:测量变量的信度 二、实验目的:对各个变量的信度做进一步的分析,保证数据的对 整个实验过程确定性。 三、实验内容: 使用SPSS软件,对评价最低,最高的得分题目,个性化服务度量项目可靠性系数,服务态度度量项目可靠性系数,顾客忠诚度量项目可靠系数,促销活动度量项目可靠系数,服务流程项目可靠系数,顾客满意项目可靠系数,进行分析与说明 四、实验步骤 1、打开SPSS软件,调入数据文件,进入SPSS主界面。 2、单击“分析”菜单中的“尺度分析”,再在“尺度分析”的子菜单中点击“可靠性”分析,打开“可靠性分析”的主对话框。 3、在左侧的源变量框中选择上述四个项目所对应的变量加入到对话框右边的“项目”中,作为分析变量,再在对话框下面的“模型”中选择“Alpha”,进行Alpha 信度分析。 4、点击对话框中的“统计量”按钮,打开相应的对话框,选择要输出的统计量、变量描述、 方差分析,总结等。在 4、点击“继续”按钮,回到“可靠性分析”的主对话框,勾选“列出项目标签”,再单击“确定”按钮,这样软件系统就会自动进行四个项目的分析。 五、实验结果

数学建模常用统计方法

数学建模常用统计方法 1.1多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、分类 分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为 y=u u=lnx来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项 在做回归的时候,一定要注意两件事: (1) 回归方程的显著性检验(可以通过sas和spss来解决) (2) 回归系数的显著性检验(可以通过sas和spss来解决) 检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完整论文的体现,所以这点大家一定要注意。 4、使用步骤: (1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数; (4)回归方程显著性检验及回归系数显著性检验 (5)进行后继研究(如:预测等)

这种模型的的特点是直观,容易理解。 这体现在:动态聚类图可以很直观地体现出来~ 当然,这只是直观的一个方面~ 2、分类 聚类有两种类型: (1) Q型聚类:即对样本聚类; (2) R型聚类:即对变量聚类; 聚类方法: (1) 最短距离法 (2) 最长距离法 (3) 中间距离法 (4) 重心法 (5) 类平均法 (6) 可变类平均法 (7) 可变法 (8) 利差平均和法 在具体做题中,适当选取方法; 3、注意事项 在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景知识和 相关的其他方法辅助处理。 还需要注意的是:如果总体样本的显著性差异不是特别大的时候,使用的时候也要 注意~

管理统计学实验报告

《管理统计学》实验报告 实验项目名称:1、案例2.2迎宾商场 X品牌手机销售数据统计 2、2009年中国上市公司50强营业收入数据统计(省略) 实验指导老师:信息学院张建桃 学生班级:10工业工程2班 学号:20103111020x 学生姓名:hqhsks

一、实验目的: 1、了解熟悉spss软件的使用,让学生用spss对数据的简单处理 2、进一步提高学生对数据的处理和分析能力 3、通过操作加深学生理论与实际操作向结合的能力 二、原理简述 1、spss集数据整理、分析功能于一身。SPSS的基本功能包括数据管理、统计分 析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。 三、仪器设备 Spss软件(英文名称Statistical Package for the Social Science) 四、实验内容和实验步骤 1、启动spss软件,在变量视图里面把实验中涉及到的变量名称输进去 2、返回数据输入窗口把数据输进去进行排序

为7组,且应该是是点击转换窗口再点击重新编码为不同变量窗口 4、紧接着上面一步进入数据分组画面,分为7小组

了解数据的走势我采取了直方图 5、显示出来的直方图然后双击直方图即可进行折线图的显示

管理统计学上机实验报告

《管理统计学》上机试验报告 试验名称:数据文件管理 成绩: 姓名栗跃峰专业财务管理 2班 学号2940940219 试验日期2010-9-29试验地 点 实验楼508 试验目的与要求(1)理解并掌握SPSS软件包有关数据文件创建和整理的基本操作 (2)学习如何将收集到的数据输入计算机,建成一个正确的SPSS数据文件 (3)掌握如何队原始数据文件进行整理,包括数据查询,数据修改、删除,数据的排序等等。 试验原理 SPSS数据文件是一种结构性数据文件,由数据的结构和数据的内容两部分构成,也可以说由变量和观测两部分构成。 SPSS中的变量共有10个属性,分别是变量名(Name)、变量类型(Type)、长度(Width)、小数点位置(Decimals)、变量名标签(Label)、变量名值标签(Value)、缺失值(Missing)、数据列的显示宽度(Columns)、对齐方式(Align)和度量尺度(Measure)。定义一个变量至少要定义它的两个属性,即变量名和变量类型,其他属性可以暂时采用系统默认值,待以后分析过程中如果有需要在对其进行设置。在SPSS数据编辑窗口中单击“变量视窗”标签,进入变量视窗界面即可对变量的各个属性进行设置。 试验内容对某房地产公司30名职员性别和工资情况的调查数据进行分析1.创建一个数据文件 (1)选择菜单【文件】→【新建】→【数据】新建一个数据文件,进入数据编辑窗口。 (2)单击右下角【变量视窗】标签进入变量视图界面,输入变量Id,gender,salary,将gender定义为字符型变 量,将salary定义为数值型变量。 (3)切换到数据试图并保存数据文件,命名为“试验1- 1.sav”。 2.插入一个变量income,定义为数值型变量 在变量视图里插入一个变量income,并将其定义为数值

相关主题
文本预览
相关文档 最新文档