【矿床统计预测 实习指导】实习3c-聚类分析法
- 格式:doc
- 大小:88.00 KB
- 文档页数:4
实习二、用多元线性回归分析法进行矿床统计预测目的 通过实习,学会使用多元线性回归分析进行矿床统计预测,加深对该方法原理的理解。
要求 (1)根据所提供资料,自己动手完成预测计算的各环节,用控制单元数据建立回归模型,对所提供的各未知单元,评价它们含有小型及以上矿床的可能性;按时提交实习报告。
(2)复习课程“多元线性回归分析”有关内容。
资料 研究区是湖北省某地区一个铁矿成矿带。
为在该区进行矿床统计预测,已将研究区划分为500m ×500m 基本单元408个,并提取了地质变量。
为应用回归分析法,选取一种矿床值(储量乘以某个系数得到的矿床价值)为因变量y 和多个地质因素、找矿标志为自变量(i x )。
本次实习为简便只使用其中两个自变量:1x 为单元磁异常值,2x 为单元中闪长岩体出露面积比。
表2-1(控制单元数据及回归估值表)最左4列列出了实习所用数据。
表2-1控制单元数据及回归估值表方法步骤 第一步:分析研究区内铁矿特征及控矿地质条件和找矿标志,划分基本单元,提取地质变量,地质变量赋值并做适当变换(使因变量尽量服从正态分布、使因变量与自变量之间有线性关系)。
这些工作已经完成(不必重新做),见表2-1的最左4列。
第二步:建立回归方程。
二元回归方程为22110ˆx b x b b y++= (1) 上式中各系数210,,b b b 用最小二乘法确定。
最小二乘法就是使偏差平方和∑=-=ni i i yy Q 12)ˆ( (2) 达到极小而求出210,,b b b 。
上式中n 为观测样品总数。
为此令0,0,0210=∂∂=∂∂=∂∂b Qb Q b Q (3) 将(1)和(2)代入(3),可得到关于210,,b b b 的线性方程组,称正规方程组。
解正规方程组可求出各系数210,,b b b ,从而得到回归方程。
虽然可以采用矩阵形式,但为利于深入细节,本次实习采用分步骤计算的方式。
先计算∑y ,∑1x等值,填满表2-1的最下面一行。
实习1、用证据权法进行找矿远景区预测目的 通过实习,学会使用证据权法进行矿床统计预测,加深对该方法原理的理解。
要求 (1)根据所提供资料,自己动手完成预(2)对计算过程中涉及的计算公式要了解其物理意义;对所涉及各地质变量,要分析了解其地质意义。
(3)复习课程“证据权法”有关内容。
资料 研究区是河北某地区一个北东向复式向斜控制的铁矿集中区。
该区铁矿主要赋存于前铁质来源与火山—沉积作有关,经历了复杂的区域变质(包括混合岩化)和构造变动,矿体多呈大小不等的透镜体状。
方法步骤第一步:分析研究区内控矿地质条件和找矿标志,划分网格单元,提取地质变量(统称为证据层),并将所有地质变量变换为逻辑变量(二值变量),选择控制区(有矿和无矿两类单元)。
在控制单元中统计出各变量存在的单元数(i S )和含矿单元数(i N )。
这些工作已经完成(不必重新做),得到表1-1最左边3列。
控制单元总数S =160,其中含矿N =70。
表1-1地质变量(证据层)证据权计算表注:N 表示含有证据层X i 但不含矿的单元数。
第二步:计算各变量的证据权和对比度系数。
证据权分两种,即正权(+i W )和负权(-i W )。
它们的计算公式为:)/(/lnN S N N N W i i i -=+)/(1/1lnN S N N N W i i i ---=- (Eq. 1-1)正权和负权分别表示变量与单元含矿和不含矿的关系密切程度。
为表示变量对于单元含矿/不含矿的区分能力,可计算对比度系数(C i ,或称衬度系数),公式为-+-=i i i W W C (Eq. 1-2)根据对比度系数大小可以评价各变量对找矿的重要性。
请根据以上公式,计算填满表1-1,然后填满表1-2。
注意在表1-2中,为节省空间和时间只评价5个变量。
请在每格填写一个变量名(符号)。
表1-2证据层示矿意义评价表第三步:计算各单元的含矿后验概率。
一个变量在任一单元中的证据权为:⎪⎩⎪⎨⎧===-+if ,1if ,i i i i i X W X W W (Eq. 1-3)即若变量在该单元出现,其权为+i W ,否则为-i W 。
矿床统计预测讲义简介矿床统计预测是指通过对已知矿床数据进行统计分析和模型建立,从而对未知矿床进行预测的一种方法。
它是矿床勘探中重要的工具之一,可以帮助矿业公司和勘探者制定科学合理的采矿方案和决策。
本讲义将介绍矿床统计预测的基本原理、主要方法和实际应用,帮助读者了解和掌握该领域的知识和技能。
内容1. 矿床统计预测的基本原理矿床统计预测是基于已知矿床数据的分析和模型建立,通过对已有数据进行统计分析,找出其中的规律和趋势,从而对未知矿床进行预测。
其基本原理包括:•数据收集:收集已知矿床的地质勘探数据,包括地质剖面、岩石样品、地球物理扫描等。
•数据分析:对已有数据进行统计分析,包括数据的中心趋势、离散程度、分布形态等。
•模型建立:根据数据分析结果建立预测模型,包括回归模型、聚类模型、神经网络模型等。
•预测验证:利用已有数据验证模型的准确性和预测能力。
2. 矿床统计预测的主要方法矿床统计预测涉及多种统计学和数学方法,常用的方法包括:2.1. 回归分析回归分析是一种用于探索因变量与一个或多个自变量之间关系的统计方法。
在矿床统计预测中,回归分析可用于确定地质因素对矿床分布的影响程度,并建立预测模型。
2.2. 空间插值空间插值是一种通过已有数据推断未知位置上的值的方法。
在矿床统计预测中,空间插值可用于填补数据缺失的位置,从而得到完整的矿床数据集。
2.3. 聚类分析聚类分析是一种将相似对象归为一类的方法。
在矿床统计预测中,聚类分析可用于将矿床按照地质特征划分为不同的类型,为矿床预测提供参考。
2.4. 神经网络神经网络是一种模拟人脑神经元网络的计算模型。
在矿床统计预测中,神经网络可用于识别矿床数据中的隐藏关系,并建立预测模型。
3. 矿床统计预测的实际应用矿床统计预测在矿业勘探中有着广泛的应用,主要包括以下几个方面:3.1. 矿床评估通过对已有数据的统计分析和模型建立,可以对矿床进行定量评估,包括矿床的储量、品位、开采潜力等指标。
1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。
聚类分析实习报告(经典版)编制人:__________________审核人:__________________审批人:__________________编制单位:__________________编制时间:____年____月____日序言下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。
文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!并且,本店铺为大家提供各种类型的经典范文,如报告总结、演讲发言、活动方案、条据文书、合同协议、心得体会、社交礼仪、教学资料、作文大全、其他范文等等,想了解不同范文格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you!Moreover, our store provides various types of classic sample essays, such as report summaries, speeches, activity plans, written documents, contract agreements, personal experiences, social etiquette, teaching materials, complete essays, and other sample essays. If you want to learn about different sample formats and writing methods, please stay tuned!聚类分析实习报告聚类分析是一种常用的数据分析技术,能够将一组相似的样本数据分为若干个不同的类别或簇。
聚类分析1聚类分析的概念聚类分析是一组将研究对象认为相对同质的群组的统计分析技术,即依据研究对象在特征上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法,其中:类内个体具有较高的相似性,类间的差异性较大,其目的是为了将相近事物归入类,减少研究对象的数目。
聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。
随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。
后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、MATLAB等。
2.聚类分析的主要步骤(1)数据处理数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。
(2)为衡量数据点间的相似度定义一个距离常用来衡量数据点间的相似度的距离有海明距离、欧式距离、切比雪夫距离过程一直进行下去,每个样品总能聚到合适的类中。
有时为了直观反映系统聚类过程,可以把整个分类系统画成一张谱系图,因此系统聚类也称为谱系分析。
(2)系统聚类过程:○1假设总共有n 个样品,首先将每个样品独自聚成一类,共有n 类;然后根据所确定的样品“距离”公式,形成初始距离阵。
1、资源量是指经成矿预测或勘查工作所计算或估计的矿产资源的数量。
2、根据地质可靠程度和经济技术可行性,资源量分不同的级别。
可靠程度较高、经济意义较大的资源量是储量。
3、矿床统计预测,是运用数学地质的理论和方法进行矿产预测的科学和技术。
4、成矿预测,是分析区域地质背景,研究成矿规律,划分成矿区带,建立区域成矿模式或矿床模型,进行类比,圈定不同类别的远景区,预测不同级别的资源量,并提出地质找矿工作部署建议的工作。
5、找矿远景区、预测区、预测段、找矿靶区经成矿预测工作所圈定的找矿有利地段称找矿远景区;根据成矿条件有利程度、预测依据的充分程度、找矿标志的明显程度、资源潜力大小以及开采条件,远景区一般可分为A、B、C三类。
成矿预测工作种类不同,远景区有不同的尺度,可靠性和精度也有差别,故各有不同的名称:名称:精度远景区尺度量级(粗略)预测区1/10万几十——200 km2预测段比例尺为1/5万<20 km2找矿靶区1/2.5万<2 km26、数学地质,是地质学的一个分支学科,是研究地质体、地质现象、地质作用、地质工作方法的最优数学模型的科学。
是以解决地质问题为目标和出发点,以数学为工具,以计算机为手段,研究客观世界规律性的科学。
根据前面“矿床统计预测”的定义可知,矿床统计预测是数学地质理论方法在矿产预测中的具体应用,也可以说矿床统计预测是数学地质的一个组成部分。
7、在统计学及矿床统计预测中,数据看作是随机试验的试验结果,即对随机变量的抽样观测结果。
数据的统计分布,又称经验分布,对应于随机变量的概率分布。
随机变量的概率分布函数和概率密度反映该变量取不同值的概率。
相应地,数据的统计分布反映一批数据出现不同值的频率。
8、一个随机变量可能取值的全体称为一个总体或母体;9、对随机变量进行有限次观测得到的数据集合称为一个样本。
10、一次观测的结果称为一个样品。
11、作频率分布直方图和/或累计频率分布直方图(或曲线)的方法。
1实习三 趋势面分析目的要求:趋势面分析是用一定的函数对地质体的某种特征在空间上的分布进行分析。
用函数所代表的面来逼近(或拟合)该特征的趋势变化(或区域背景)。
也就是说,用数学的方法,把观测值划分为两部分:趋势部分和偏差部分。
趋势部分反映了区域性的总变化,受大范围的系统性因素控制。
偏差反映局部范围的变化特点。
受局部因素和随机因素控制。
为适应手算,本实习将通过二元一次多项式趋势函数计算,基本掌握趋势面分析的计算原理和方法步骤。
实习资料:某地一条含金石英脉,用钻孔揭穿得20个矿体底板高数据(表11-1),通过趋势面分析,求得含金石英脉的总体产状及局部产状变化特征。
若结合厚度、品位等资料,则可进一步研究它们之间的关系。
方法步骤:二元一次多项式趋势函数的计算:1.整理原始观测值(数据见计算表11-1)。
其中x 为横坐标,y 为纵坐标,(x ,y 为相对值),z 为观测值即矿体底板标高,观测点要尽量均匀,可以是非网格分布。
2.求趋势面方程,二元一次方程为:y a x a a zi 210ˆ++= (11-1) 其中a 0a 1a 2为待定系数,用最小二乘法在满足观测值(z i )和趋势值(i z ˆ)的偏差平方和为最小的条件下,求得:令:偏差平方和∑=-=ni i izz12)ˆ(ε (11-2)2把(11-1)代入(11-2)得:∑=+--=ni i y a x a a z 12210)]([ε (11-3)为了得到最佳的拟合趋势面,要求ε达到最小。
为此,分别求(11-3)式中ε对a 0、a 1、a 2的偏导数,并令其等于零,得:∑==-----=∂∂ni i i i y a x a a z a 121000)1)((2ε∑==----=∂∂n i i i i i Ex y a x a a z a 121010))((2 表11-1 二维一次趋势面计算表3nz =∑==----=∂∂ni i i i i y y a x a a z a 121020))((2ε整理后得:⎪⎪⎪⎩⎪⎪⎪⎨⎧=++=++=++∑∑∑∑∑∑∑∑∑∑∑ii i i ii i i i i ii i i i i i i i i iii i i i zy a y a y x a y z x a y x a x a x z a y a x na 22102120210将计算表11-1中所得有关计算结果代入,解联立方程,即可求得系数a 0、a 1、a 2,联立方程为⎪⎩⎪⎨⎧=++=++=++210210210a a a a a a a a a 解得: a 0= a 1= a 2=所以,求得的二维一次趋势面方程为:zˆ= 3.求出各点的趋势值zˆ,将计算结果填于表11-1。
第1篇本次聚类分析实验旨在深入理解和掌握聚类分析方法,包括基于划分、层次和密度的聚类技术,并运用SQL Server、Weka、SPSS等工具进行实际操作。
通过实验,我们不仅验证了不同聚类算法的有效性,而且对数据理解、特征选择与预处理、算法选择、结果解释和评估等方面有了更为全面的认知。
以下是对本次实验的结论总结:一、实验目的与意义1. 理解聚类分析的基本概念:实验使我们明确了聚类分析的定义、目的和应用场景,认识到其在数据挖掘、市场分析、图像处理等领域的重要性。
2. 掌握聚类分析方法:通过实验,我们学习了K-means聚类、层次聚类等常用聚类算法,并了解了它们的原理、步骤和特点。
3. 提高数据挖掘能力:实验过程中,我们学会了如何利用工具进行数据预处理、特征选择和聚类分析,为后续的数据挖掘工作打下了基础。
二、实验结果分析1. K-means聚类:- 实验效果:K-means聚类算法在本次实验中表现出较好的聚类效果,尤其在处理规模较小、结构较为清晰的数据时,能快速得到较为满意的聚类结果。
- 特点:K-means聚类算法具有简单、高效的特点,但需要事先指定聚类数目,且对噪声数据敏感。
2. 层次聚类:- 实验效果:层次聚类算法在处理规模较大、结构复杂的数据时,能较好地发现数据中的层次关系,但聚类结果受距离度量方法的影响较大。
- 特点:层次聚类算法具有自适应性和可解释性,但计算复杂度较高,且聚类结果不易预测。
3. 密度聚类:- 实验效果:密度聚类算法在处理噪声数据、非均匀分布数据时,能较好地发现聚类结构,但对参数选择较为敏感。
- 特点:密度聚类算法具有较好的鲁棒性和可解释性,但计算复杂度较高。
三、实验结论1. 聚类算法的选择:根据实验结果,K-means聚类算法在处理规模较小、结构较为清晰的数据时,具有较好的聚类效果;层次聚类算法在处理规模较大、结构复杂的数据时,能较好地发现数据中的层次关系;密度聚类算法在处理噪声数据、非均匀分布数据时,能较好地发现聚类结构。
1
实习3c 用聚类分析法进行矿床统计预测
目的 通过实习,学会使用聚类分析法进行矿床统计预测,加深对该方法原理的理解。
要求
(1)根据所提供资料,自己动手完成预测计算的各个环节,按时提交实习报告。
(2)复习课程“聚类分析”有关内容。
资料 研究区是湖北省某地区一个铁矿成矿带。
为在该区进行矿床统计预测,已将研究区划
分为500m ×500m 基本单元408个,并提取了多个地质变量。
本次实习为简便只使用其中两个变量:1x 为单元磁异常值,2x 为单元中心距断裂喷发带的距离。
表4-1(单元数据表)列出了实习所用数据。
表4-1单元数据表(表中?表示“未知”) 单元号
1 2 3 4 5 6 7 8 9 10 11 1x 1.86 3.0 1.3 2.45 1.28 2.5 2.0 0.78 1.09 1.5 2.4 2x
0.5 2.0 2.1 1.0 2.5 0.8 0.9 2.4 2.2 0.8 1.5 含矿情况
?
?
无矿
有矿
无矿
?
?
?
?
有矿
?
方法步骤
第一步:分析研究区内铁矿特征及控矿地质条件和找矿标志,划分基本单元,提取地质变量、为各变量赋值。
这些工作已经完成(不必重新做)。
所用数据见表4-1。
第二步:数据预处理。
主要是通过规格化或标准化变换,使数据统一量纲,从而使各变量的数据具有可比性,避免因有的变量数值大而得到突出、有的变量因数值小而受到压制、
2
从而各变量在分类中作用程度不同的情况。
本次实习所用数据可以不做这种预处理。
第三步:选择相似性指标。
本次实习中,选择距离系数ik d 。
其定义为:
∑=-=
p
j kj ij
ik x x
d 1
2)( (Eq 4-1)
上式中
p 为变量数;ij x 表示第j 变量在第i 样品(单元)中的值;ik d 表示在多维变量空
间(本次实习是2维)内第i 和第k 两样品间的欧氏距离。
两样品距离越近(小)越相似。
第四步:计算所有样品(单元)两两之间的距离,得到距离矩阵。
尚未完成的距离矩阵如表4-2所示。
请完成该表(还有39个距离需计算)。
计算过程举1例说明如下:
22222
12121
()(1.86 3.0)(0.5 2.0) 1.14 1.5 1.884p
j j j d x x ==
-=-+-=+=∑ 余类推。
注意可以将表4-1拷贝到Excel 工作表中,输入合适的公式,快速计算。
第五步:以距离矩阵为基础,用一次计算法画出聚类谱系图。
方法:
(1)画坐标轴。
以距离为横坐标轴。
它的刻度从0开始,最大刻度相当于所有距离中最大者。
以样品(单元)为纵坐标轴,刻度单位1(即1个单元一行)。
表4-2距离矩阵 单元 1 2 3 4 5 6 7 8 9 10 11 1 0 2 1.884 0 3 1.695 1.703 0 4 0 5 1.902 0 6 0.206 2.095 0 7 0 8
3
9 0 10 0 11
(2)归类。
1)从表4-2中依次挑选距离最小的样品(单元)对。
设该最小距离为d 。
2)若该两单元都尚未归入任何一类,则将它们归为一类。
对齐距离轴的d 处,画出谱系图的分枝,并在纵坐标轴左边标出单元号。
3)若该两单元有一个已经被归入某一类,则另一个加入该类。
4)若该两单元已经分别被归入某两类中,则将该两类联接成一大类。
5)若该两单元已经都被归入同一类中,则这两单元不用再处理。
反复进行1)-5),直到所有单元归类完毕,形成一个分类系统,完成分类谱系图。
注意从距离矩阵中寻找最小元素时,可以用Excel 的min()函数。
请完成下面(图4-1)的谱系图(已画完一部分)。
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
距离
单元号
含矿 单元
4 6
3 9
×。