546石油学报2009年第30卷
(5)集成学习。采用AdaBoost算法,迭代10次,两种方案:①弱基分类器(AC4.5)采用c4.5算法,参数设置同C4.5方案;②弱基分类器(ABP)采用BP神经网络,参数设置同BP方案。
3建模结果分析
数据挖掘软件联合使用开源数据挖掘工具RapidMiner[373和Weka…3,其中SVM部分调用了LIBSVM[3f;]。
(I)分类算法对比。①支持向量机整体性能最好,C—SVC和u—SVC优于其他算法,C—SVC+ReliefF准确率为79.17%,是所有方案中最高的;②决策树相对性能最低,但LMT算法例外,在EXP2上准确率达74.83%;③两种神经网络表现一般,其中RBFN+CFS准确率为72.11%;④NB比TAN网络性能高,在EXP2上准确率达74.2%;⑤组合方法均比单独的分类器要好,例如在EXP2上,AdaBoost+C4.5的准确率为7().92%,而C4.5只有68.17%[图2(a)]。
图2重复交叉验证准确率
Fig.2Modelaccuraciesviarepeatedcross-validation
(2)特征选择方法对比。①特征选择提高了模型的预测性能,除EXP3之外,其他方案总体性能均高于ALL方案;AI,L方案训练准确率与RCV准确率差别大,说明由于冗余和无关属性的存在,算法容易过度拟合;②EXP3整体性能最差,因此对于克下组油藏,仅仅依靠原始的常规测井曲线来划分水淹层效果不好;EXP3上个别算法容易过度拟合,例如C—SVC训练准确率达100%、AdaBoost+C4.5训练准确率达95.35%,但重复交叉检验准确率都小于5()%,因此如果不进行交叉验证,很容易造成模型性能高的假象;
③CFS、LVF、Relief和FS这些自动化特征选择方法与专家经验方案的性能不相上下,表明自动化方法行之有效,特别是当参数很多时,其优势更明显。实践中可以首先进行自动特征选择,然后由专家结合经验二次挑选后,再确定最后的特征组合[图2(b)]。
(3)特征集和分类算法综合对比。特征集和分类算法对模型性能的综合影响表现复杂:①每一特征集内的不同算法之阳r陛能变化大,能使某个分类器取得最优结果的特征集,不一定适用于其他分类器。②除了EXP3,每种算法内不同特征集之间性能变化不大,表明不论是人工还是自动选择,均找到了强相关特征,而这其中以TAN波动最小;对于EXP2,3个参数的平均准确率为70.91%,但其训练准确率即能力上限不高,表明为了进一步提高预测能力,必须加入其他参数。
(4)模型性能标准差对比。①C-SVC总体表现最为稳健,在所有算法中性能标准差最低,因此数据集变
化对其预测能力影响不大;LMT也具有低标准差,但
第4期李洪奇等:复杂储层测井评价数据挖掘方法研究
547
受特征集影响大;TAN标准差最大,但特征集之间差异小;BP、RBFN、ABP、AC4.5标准差大,且受特征集影响较大。②每个特征集内不同算法的性能标准差有明显波动,但EXP3波动最大,其次是EXP2,而LVF、
CFS、LS差异较小(图3)。
对于克下组油藏水淹级别划分,SVM效果最好,因此选择其作为最终的建模方法。对8个特征集上C—SVC模型性能进行配对t检验Ⅲ1,在95%的置信水平下,ReliefF方案优于其他方案,所以采纳C-SVC+ReliefF作为最终的预测模型。该模型
图3模型性能标准差
Fig.3
Standarddeviationofmodelaccuracies
最终训练准确率为91.47%(图4),共有142个支持向
量。在258个层位中准确判断了236个。误判主要发
生在相邻水淹级别,特别是油层和弱水淹层最难区分(表2)。决策树模型清楚地了解到分类器工作机理以及各种参数的相对重要性,选择C4.5+LVF决策树模型作为水淹级别划分辅助参考模型(图5)。该树经过剪枝后只用了F。。、F。和S。3个参数,重复交叉检
验准确率为70.12%,训练准确率为81.78%。综合观察所有特征集上的决策树,可以全面了解所有参数参与评价的情况。对于该区块,对水淹程度定量划分最敏感的主要参数依次是F。。、F,、S。、ZONE和CNL。
F。。定义为原始含油饱和度与目前含油饱和度之差与
原始含油饱和度的比值,代表了油层水淹动态程度,因此敏感性最高。测井计算产水率误差大,而含油饱和
图4模型训练准确率
Fig.4
Trainingaccuraciesofmodels
表2
C—SVC+ReIie腰混淆矩阵
Table2
ConfusionmatrixoftheC—SVC+ReliefF
modeI
548石油学报2009年第30卷
度只反映储层目前剩余油的绝对量。因此F。和S。敏感性中等。各沉积小层和不同沉积韵律水淹程度差异大,因此层位也有助于划分水淹程度。中子孔隙度测井主要测量地层的含氢指数,与孔隙度和流体性质有关,因此也与水淹程度有弱相关关系。
图5C4.5+LVF决策树结果
Fig.5DecisiontreefromC4.5+LVF
4结论
复杂储层测井评价数据挖掘方法将特征选择、模型参数优化、性能评估、多学习方法对比研究纳入统一框架,目的是获得高泛化能力的预测模型,从而推动各种智能建模方法真正用于油气勘探开发的生产实践。在克拉马依油田六中区克下组油藏水淹层评价中的应用表明,该方法是实用有效的:采用遗传算法进行特征选择和模型参数优化,提高了预测准确率;对来自12种建模方案、8种特征集的96个预测模型对比分析后,挑选出了适合克下组油藏的最佳预测模型,即GSVC+ReliefF,其预测准确率为91.47%,能满足现场生产要求;此外决策树模型容易理解,便于观察各种因素是如何参与评价的,可以作为数据探查工具来使用。数据挖掘提供的多种建模方法,拓展了储层评价的方法库。使得分析不仅是为了做出预测,还在于发现知识。新区块、新层位的储层评价总要面l临新问题,各种预测建模方法很难从理论上分析优劣,其适用性只能通过实验来确定。为了提高效率,建议开发与现有的测井解释或评价软件集成的数据挖掘软件,并不断充实算法库,从而能在面对新问题时,快速给出最佳的解决模型。该方法同样适用于地质、地震、油藏工程等其他专业领域的预测建模问题。
参考文献
[1]雍世和,张超谟.测井数据处理与综合解释[M].东营:石油大学出版社,1996.
YongShihe,ZhangChaomo.Processingandcomprehensiveinter—
pretationofwellloggingdata[M].Dongying:ChinaUniversityof
PetroleumPress.1996.
[23
[3]
[4]
f53
[6]
[7]
[8]
[9]
[103
[1I]
[12]
[13]
[14]
MohagheghS.Virtual—intelligenceapplicationsinpetroleumen—
gineering:Part1一Neuralnetworks[J].JournalofPetroleum
Technology,2000,52(9):64—73.
杨斌。匡立春,孙中春,等.神经网络及其在石油测井中的应用
[M].北京:石油工业出版社,2005.
YangBin。KuangLichun,SunZhongchun,eta1.Neuralnetworkanditsapplicationsinwelllogging[M].Beijing:PetroleumIn—
dustryPress.2005.
彭涛,张翔.支持向量机及其在石油勘探开发中的应用综述[J].
勘探地球物理进展,2007,30(2):91—95.
PengTao,ZhangXiang.Reviewofsupportvectormachineand
itsapplicationsinpetroleumexplorationanddevelopment[J].
Progress
in
ExplorationGeophysics,2007,30(2):91—95.石广仁.支持向量机在多地质因素分析中的应用[J].石油学报,
2008,29(2):195—198.
ShiGuangren.Applicationofsupportvectormachinetomulti—ge—
ologicalfactoranalysis[J].ActaPetroleiSinica,2008,29(2):
195-198.
石广仁,张光亚,石骁珊.多地质因素的勘探目标优选——人工
神经网络法与多元回归分析法比较研究[J].石油学报,2002。23
(5):1922.
ShiGuangren。ZhangGuangya,ShiXiaofei.Applicationofartifi—
cialneuralnetworksandmultipleregressionanalysistooptimiza—
tionofexplorationprospects[J].ActaPetroleiSinica,2002,
23(5):19-22.
f树寅,李晓光.石强,等.复杂储层测井评价原理和方法[M].
北京:石油L业出版社,2006:1-8.
WangShuyin,LiXiaoguang,ShiQiang,eta1.Principlesand
methodsofcomplexformationevaluationusingwelllogs[M].
Beijing:PetroleumIndustryPress,2006:1—8.
曾文冲.油气藏储集层测井评价技术[M].北京:石油工业出版
社,1991.
ZengWenchong.Technologyof
formationevaluation
using
welll093[M].Beijing:PetroleumIndustryPress,1991.
AminzadehF.ApplicationsofAIandsoftcomputingforchal—
lengingproblemsintheoil
industry[J].JournalofPetroleumScienceandEngineering,2005。47(1/2):5-14.
AlimontiC.FalconeG.Knowledgediscoveryindatabasesandmulti—
phaseflowmetering:Theintegrationofstatistics,datamining?neural
networks,fuzzyLogic,andAdHocflowmeasurementstowardswell
monitoringanddiagnosis[R]。SPE77407。2002.
MohagheghSD.Anewmethodologyfortheidentificationof
bestpracticesintheoilandgasindustry。usingintelligentsys—
tems[J].JournalofPetroleumScienceandEngineering,2005,
49(3/4):239—260.
NikraveshM.Softcomputing-basedcomputationalintelligentfor
reservoircharacterization[J].ExpertSystemswithApplications,
2004,26(1):19—38.
TanP-N,SteinbachM。KumarV.Introductiontodatamining
[M].Boston:AddisonWesley,2005.
WittenIH,FrankE.Datamining:Practicalmachinelearning
tOOlSandtechniques[M].2ndedition.SanFransisco:Morgan
Kaufmann,2005.
复杂储层测井评价数据挖掘方法研究
作者:李洪奇, 郭海峰, 郭海敏, 孟照旭, 谭锋奇, 张军, LI Hongqi, GUO Haifeng,GUO Haimin, MENG Zhaoxu, TAN Fengqi, ZHANG Jun
作者单位:李洪奇,郭海峰,谭锋奇,张军,LI Hongqi,GUO Haifeng,TAN Fengqi,ZHANG Jun(中国石油大学资源与信息学院,北京,102249;中国石油大学油气资源与探测国家重点实验室,北京
,102249), 郭海敏,GUO Haimin(长江大学地球物理与石油资源学院,湖北荆州,434023),
孟照旭,MENG Zhaoxu(中国石油大学资源与信息学院,北京,102249;中国石油大学油气资源与
探测国家重点实验室,北京,102249;新疆油田公司勘探开发研究院,新疆克拉玛依,834000)刊名:
石油学报
英文刊名:ACTA PETROLEI SINICA
年,卷(期):2009,30(4)
被引用次数:2次
参考文献(38条)
1.Liu H;Setiono R A probabilistic approach to feature selection-a filter solution 1996
2.Hall M A Correlation-based feature selection for machine learning 1999
3.彭涛;张翔支持向量机及其在石油勘探开发中的应用综述[期刊论文]-勘探地球物理进展 2007(02)
4.Chang C C;Lin C J LIBSVM:A library for support vector machines 2008
5.Mierswa I;Wurst M;Klinkenberg R YALE(now:RapidMiner):rapid prototyping for complex data mining tasks 2006
6.Platt J C Fast training of support vector machines using sequential minimal optimization 1999
7.赵培华油田开发水淹层测井技术 2003
8.Goldberg D E Genetic algorithms in search,optimization and machine learning 1989
9.Breiman L;Friedman J;Olshen R Classification and regression trees 1984
10.Quinlan J R C4.5:Programs for machine learning 1993
11.Mohaghegh S Virtual-intelligence applications in petroleum engineering:Part 1-Neural networks 2000(09)
12.Hand D;Mannila H;Smyth P Principles of data mining 2001
13.Aminzadeh F Applications of AI and soft computing for challenging problems in the oil industry[外文期刊] 2005(1/2)
14.曾文冲油气藏储集层测井评价技术 1991
15.王树寅;李晓光;石强复杂储层测井评价原理和方法 2006
16.石广仁;张光亚;石骁多地质因素的勘探目标优选--人工神经网络法与多元回归分析法比较研究[期刊论文]-石油学报 2002(05)
17.石广仁支持向量机在多地质因素分析中的应用[期刊论文]-石油学报 2008(02)
18.Kohavi R A study of cross-validation and bootstrap for accuracy estimation and model selection 1995
19.Freund Y;Schapire R E A decision-theoretic generalization of on-line learning and an application to boosting[外文期刊] 1997(01)
20.Dietterich T G Ensemble methods in machine learning 2000
21.Friedman N;Geiger D;Goldszmidt M Bayesian network classifiers 1997(2/3)
https://www.doczj.com/doc/e06546255.html,ngley P;Iba W;Thompson K An analysis of bayesian classifiers 1992
24.Heckerman D Bayesian networks for data mining 1997(01)
25.Scholkopf B;Smola A J;Williamson R C New support vector algorithms[外文期刊] 2000(05)
26.Cortes C;Vapnik V Support-vector networks 1995(03)
27.Vapnik V N Statistical learning theory 1998
28.Bishop C M Neural networks for pattern recognition 1995
https://www.doczj.com/doc/e06546255.html,ndwehr N;Hall M;Frank E Logistic model trees 2005(01)
30.Kass GV An exploratory technique for investigating large quantities of categorical data 1980(02)
31.Kononenko Igor Estimating attributes:Analysis and extensions of RELIEF 1994
32.Molina L C;Belanche L;Nebot A Feature selection algorithms:A survey and experimental evaluation 2002
33.Witten I H;Frank E Data mining:Practical machine learning tools and techniques 2005
34.Tan P-N;Steinbach M;Kumar V Introduction to data mining 2005
35.Nikravesh M Soft computing-based computational intelligent for reservoir characterization[外文期刊] 2004(01)
36.Mohaghegh S D A new methodology for the identification of best practices in the oil and gas industry,using intelligent systems[外文期刊] 2005(3/4)
37.Alimonti C;Falcone G Knowledge discovery in databases and multiphase flow metering:The
integration of statistics,data mining,neural networks,fuzzy Logic,and Ad Hoc flow measurements towards well monitoring and diagnosis[SPE 77407] 2002
38.雍世和;张超谟测井数据处理与综合解释 1996
本文读者也读过(3条)
1.李洪奇.李雄炎.谭锋奇.郭海峰.于红岩.LI Hong-qi.LI Xiong-yan.TAN Feng-qi.GUO Hai-feng.YU Hong-yan 基于数据挖掘技术的测井评价方法[期刊论文]-测井技术2009,33(1)
2.李雄炎.李洪奇.LI Xiong-yan.LI Hong-qi数据挖掘技术在石油天然气勘探领域的应用探索[期刊论文]-地球物理学进展2009,24(5)
3.郭海峰.李洪奇.孟照旭.李雄炎.GUO Hai-feng.LI Hong-qi.MENG Zhao-xu.LI Xiong-yan基于突现自组织映射的数据挖掘:测井岩性识别新方法[期刊论文]-石油天然气学报2009,31(2)
引证文献(2条)
1.王瑞.朱筱敏.王礼常用数据挖掘方法识别碳酸盐岩岩性[期刊论文]-测井技术 2012(2)
2.王礼常.王志章.陶果致密砂岩气藏储层分类新方法[期刊论文]-科技导报 2011(24)
本文链接:https://www.doczj.com/doc/e06546255.html,/Periodical_syxb200904011.aspx