气象观测站优化模型
- 格式:doc
- 大小:380.00 KB
- 文档页数:13
《数学建模与计算》问题关于调整气象观测站问题的数学模型摘要本文讨论了关于调整气象观测站问题。
若用主成份与逐步剔除法解决此问题,似可根据“损失信息量”的概念来确定减少测站个数。
通过计算分析,在不损失信息量的条件下,可以去掉两个测站;在损失信息量为 0.852%的条件下,可以去掉3个测站。
这种算法,使节约设站开资,减少测站数量更具科学性。
关键词气象观测站主成份逐步剔除损失信息量一、问题简介某地区有12个气象观测站,10年来各测站的年降水量已知(见表1),由于经费问题,有关单位拟减少气象站数目以节约开支,但又希望还能够尽量多地获取该地区的降水量信息。
我们从分析观测站数据入手,从中找出去掉某个或某几个气象站的方案。
表 1 年降水量(mm )二、问题假设1、一般来说,单个气象站测得的降水量数据具有随机性,但是各个气象站测出的降水量的分布应该符合一定的规律;2、当初所设的气象站的位置足够控制该地区降水量的分布;3、该地区所提供的12个气象站10年来的降水量数据是比较精确的。
三、符号说明四、主成份与逐步剔除法主成份分析是多元统计分析[1]中的一种方法,它是把多个指标约化为少数几个综合指标的一种统计分析方法,有现成的软件可用。
逐步剔除法[2]是筛选变量的重要方法之一。
主成份与逐步剔除法的方法步骤是:1、求相关系数矩阵R为消除量纲,对原始资料矩阵p n X ⨯作标准化变换,并求相关系数矩阵p p R ⨯,其中n 为样本个数,p 为气象观测站数。
2、求相关矩阵R 的特征值j λ及与其对应的标准正交化特征向量j v ,p j ,,2,1 =。
3、剔除第k 个气象观测站当第i 个特征值0≈j λ时,表示与其对应的主成份对总体的贡献很小, 若j λ所对应的特征向量j v 中第k 个分量所占的权重最大,则说明在贡献很小的主成份中起主要作用的是第k 个测站,因此可把第k 个测站剔除掉,剔除它所损失的信息量就是这个主成份的贡献率。
农业气象预测模型的建立与优化一、引言随着农业生产的现代化进程,气象因素在农业生产中的重要性日益凸显。
气象预测模型的建立与优化成为农业生产管理中的一个重要环节。
本文将详细介绍农业气象预测模型的建立与优化的方法与步骤。
二、模型建立2.1 数据收集在建立农业气象预测模型之前,首先需要收集与农业生产相关的气象数据。
常见的气象数据包括降水量、温度、湿度、风速等等。
可以通过气象站点的观测数据、卫星遥感技术、气象模拟模型模拟得到的数据等多种方式来获取所需数据。
2.2 特征选择从海量的气象数据中选择合适的特征变量是建立有效预测模型的关键。
常见的特征选择方法包括相关性分析、主成分分析等。
通过这些方法,可以筛选出与农作物生长、病虫害发生等相关的气象变量,以提高预测模型的准确度。
2.3 模型选择根据具体的预测目标,选择适合的预测模型。
常见的农业气象预测模型包括线性回归模型、多元回归模型、逐步回归模型等。
通过比较不同模型的效果,选择最适合的模型进行下一步的优化。
三、模型优化3.1 参数优化在确定了模型之后,需要对模型进行参数优化。
选取适当的优化算法,对模型参数进行调整,以提高模型预测的准确度。
常见的参数优化方法包括遗传算法、蚁群优化算法等。
3.2 模型评估优化后的模型需要进行评估,以验证模型的预测效果。
可以使用误差分析、精度评价等方法来评估模型的准确度和稳定性。
通过评估结果,进一步改进模型,提高预测效果。
四、案例分析以某地小麦产量预测为例,通过收集历年来的气象数据(包括降水量、温度、湿度等),选择与小麦生长相关的特征变量,并建立线性回归模型进行预测。
通过对模型进行参数优化,并使用误差分析对模型进行评估,最终得到了较为准确的小麦产量预测结果。
五、结论农业气象预测模型的建立与优化是农业生产管理中的重要环节。
通过合理收集数据、选择特征变量、选择适当的模型、进行参数优化和模型评估等步骤,可以建立准确且稳定的农业气象预测模型,提供有效的决策支持和参考,为农业生产的科学化管理提供有力支撑。
气象学中的气象观测数据质量评估与校正方法改进研究气象观测数据的质量评估和校正是气象学研究中至关重要的环节,它们对气象预测、天气分析、气候研究等方面具有重要的影响。
本文将探讨气象观测数据质量评估的方法以及校正方法的改进研究。
1. 气象观测数据质量评估的方法1.1 数据质量评估的意义在气象学研究中,准确的观测数据是保证模型和算法的可靠性的基础。
因此,对气象观测数据的质量进行评估是十分必要的,它可以帮助科学家了解数据的可靠性,并为数据的后续分析提供参考依据。
1.2 数据质量评估的指标数据质量评估指标是评价观测数据质量优劣的基础。
常用的指标包括准确度、精确度、一致性等。
其中,准确度是指观测数据与真实值之间的差异程度,精确度是指观测数据的精密程度,一致性是指同一观测站点得到的观测数据之间的相似度。
1.3 数据质量评估的方法为了评估观测数据的质量,气象学家们提出了许多评估方法。
常用的方法包括残差分析、邻近观测比较、变差检验等。
这些方法可以通过对比不同时间段、不同观测站点的数据,检验数据的一致性和准确性,进而评估数据的质量水平。
2. 气象观测数据校正方法的改进研究2.1 校正方法的意义气象观测数据校正是提高数据质量的重要手段之一。
通过校正数据的偏倚和误差,可以减小数据的误差影响,提高数据的准确性和可信度。
2.2 校正方法的改进研究方向近年来,随着气象观测技术的不断发展,校正方法的改进也成为研究的热点之一。
在改进研究中,主要有以下几个方向:- 数据插补方法改进:由于各种原因,观测数据中可能存在一些缺失值。
如何对数据进行插补,补全缺失值,是改进校正方法的一个重要方向。
- 多元观测数据融合:不同观测手段和设备得到的数据可能存在差异,如何将多种观测数据进行融合,提高数据的准确性和可信度,是校正方法改进的关键问题。
- 异常值检测和处理:观测数据中的异常值对于数据质量评估来说是十分重要的。
改进校正方法需要对异常值进行检测和处理,保证数据的准确性和可靠性。
气象模型的建立和改进一、引言气象模型是气象学研究中重要的工具,在天气预报、气候研究等领域扮演着至关重要的角色。
本文将探讨气象模型的建立和改进,以及对气象预报准确性的影响。
二、气象模型的建立1. 数据采集和处理气象模型的建立首先需要收集和处理大量的气象数据。
这些数据包括地面气象观测、探空观测、卫星遥感观测等。
通过对这些数据的采集和处理,可以获取不同高度、不同位置的气象要素信息。
2. 物理过程参数化气象模型中包含了大量的物理过程,如大气辐射传输、雨滴的生长和降落等。
这些物理过程需要通过参数化的方式,将其表示为数学公式或算法,以便在模型中进行计算。
3. 数值计算方法气象模型使用数值方法对物理方程进行求解。
常见的数值方法包括有限差分法、有限元法等。
这些方法可以将连续的物理方程转化为离散的数学方程,通过计算机进行求解。
三、气象模型的改进1. 参数化方案改进气象模型中的参数化方案对模拟结果的准确性具有重要影响。
通过观测数据和物理过程研究的进展,可以对参数化方案进行改进,提高模拟结果的精确度。
2. 提高空间和时间分辨率模型的空间和时间分辨率对于模拟天气系统的演变具有重要意义。
随着计算机计算能力的提高,可以逐渐提高模型的空间和时间分辨率,使模拟结果更加准确。
3. 引入数据同化技术数据同化技术可以将观测数据融合到模型中,从而提高预报的准确性。
通过对观测数据和模型结果的比较,可以调整模型的初始条件和参数,使模拟结果更加接近实际观测。
四、气象模型改进对预报准确性的影响1. 提高短期天气预报准确性通过改进气象模型,提高模拟结果的精确度和分辨率,可以有效提高短期天气预报的准确性。
这对于决策和公众安全具有重要意义。
2. 改进气候模拟和预估气象模型的改进还可以提高气候模拟和预估的准确性。
气候模拟和预估对于灾害风险评估、农业生产规划等方面有着广泛的应用。
3. 支持气候变化研究气象模型的改进也对气候变化研究具有重要意义。
通过模拟过去气候和预测未来气候变化,可以增加对气候系统的理解,并为全球气候政策制定提供科学依据。
气象预报模式的改进与分析气象预报是指用各种技术手段对天气和气象发展趋势进行推算和预测的过程,是气象科学的基础和应用研究的重要组成部分。
由于气象预报涉及到大量的数据和计算,因此需要不断提升预报模式的准确性和效率。
本文将从预报模式的发展历程、主要预报模式的类型及其优缺点、改进气象预报模式的方法等方面进行分析。
一、发展历程气象预报的历史可以追溯到公元前4世纪的中国古代天文学家、地理学家和气象学家申屠建的《申屠氏经》。
此外,古代希腊哲学家亚里士多德也提出了在数学和物理基础上进行准确预报的想法。
但直到19世纪末和20世纪初,随着气象观测和数据处理技术的进步,气象预报开始进入现代化时期。
目前,气象预报主要采用数值模式、统计模式和经验模式等方法。
二、预报模式的类型1. 数值模式数值模式是指通过计算过去、现在和未来某一时刻气象场的数值方法来预报气象。
数值模式可以分为全球数值模式、区域数值模式和嵌套模式等。
全球数值模式以地球为整体,通过气象观测站和卫星获取数据,再运用物理方程式进行计算,可以获得全球气象场的横向分布情况。
区域数值模式则以某一特定区域为对象,由于其计算精度和有效性较高,因此得到了广泛的应用。
嵌套模式结合了全球和区域数值模式的特点,能够同时针对大气和海洋进行预报并计算相互影响的变化过程。
2. 统计模式统计模式是一种基于历史数据的预报方法,通过对历史天气数据的各种统计分析得出当天的天气预报。
统计模式通常会运用到概率统计方法、回归分析、时间序列分析等多种数学和统计学方法。
由于统计模式主要基于历史数据,其天气预报的准确性相对数值模式较低。
3. 经验模式经验模式是依靠经验和专家经验预测未来的行为和模式。
该预测方法通常基于突发事件、经验规律和环境变化的预测。
与数值模式不同,经验模式没有确定的数值解,仅基于经验和规律而变化,因此预测准确性不能完全保证。
三、改进方法1. 机器学习算法机器学习算法是深度学习和人工智能的重要组成部分。
海洋水文气象预警系统模型构建与优化在当今快速发展的社会中,海洋水文气象预警系统的建设变得越来越重要。
随着气候变化的不断加剧和人类活动对海洋环境的影响日益显著,建立一个高效准确的预警系统对于保护海洋生态环境、促进海洋经济发展至关重要。
本文将介绍海洋水文气象预警系统模型的构建与优化方法,以提高预警系统的准确性和效率。
一、海洋水文气象预警系统模型构建1. 数据收集与整理构建一个可靠的海洋水文气象预警系统首先需要大量可靠的数据。
这些数据包括海洋水文数据、气象数据、海洋环境数据等,可以通过传感器、卫星遥感等手段收集。
在数据收集过程中,需要注意数据的准确性和实时性,可以利用数据质量控制方法对数据进行筛选和清洗。
2. 数据建模与分析在得到海洋水文气象数据后,需要对数据进行分析和建模。
常用的方法包括统计分析、时空分析、数据挖掘等。
通过数据模型的建立,可以挖掘数据中的潜在规律和趋势,帮助我们理解和预测海洋水文气象变化。
同时,还可以利用模型来评估不同因素对海洋水文气象的影响程度,为预警系统提供科学依据。
3. 模型验证与优化模型验证是保证预警系统准确性的重要环节。
通过与现有的观测数据进行对比和验证,可以评估模型的准确性和可靠性。
如果模型存在不足之处,可以通过模型优化的方法进行改进。
模型优化的方法包括参数调整、算法改进、模型融合等。
通过优化模型,可以提高预警系统的准确性和预测能力。
二、海洋水文气象预警系统模型优化方法1. 数据同化方法数据同化是指将观测数据与模型数据进行有效融合,提高模型预测的准确性。
常用的数据同化方法包括卡尔曼滤波、变分同化等。
通过数据同化方法,可以将观测数据的精度传递到模型中,提高预警系统的准确性。
2. 多模型融合海洋水文气象预警系统可以建立多个模型,并将它们的预测结果进行融合。
多模型融合可以减小单一模型的不确定性,提高预警系统的稳定性和可靠性。
常用的多模型融合方法包括加权平均法、模型集成法等。
3. 智能优化算法智能优化算法是一类基于自然界生物现象或行为的优化方法,包括遗传算法、粒子群优化算法等。
基于大数据的气象预测模型优化探讨在当今科技飞速发展的时代,气象预测对于人们的生产生活、防灾减灾以及经济社会的稳定运行都具有至关重要的意义。
随着大数据技术的不断成熟和广泛应用,气象预测模型也迎来了新的机遇和挑战。
如何充分利用大数据的优势来优化气象预测模型,提高预测的准确性和可靠性,成为了气象领域的一个重要研究课题。
大数据为气象预测带来了丰富的数据资源。
以往,气象数据的来源相对有限,主要包括气象观测站的实测数据、卫星遥感数据等。
而如今,随着物联网、传感器技术的普及,以及社交媒体、移动设备等的广泛应用,海量的非传统气象数据源源不断地产生。
这些数据包括城市中的空气质量监测数据、交通流量数据、智能手机的定位数据等,它们虽然并非直接的气象观测数据,但却与气象条件存在着密切的关联。
通过对这些多源异构数据的整合和分析,可以为气象预测提供更多的信息和线索。
然而,大数据在带来机遇的同时,也给气象预测模型带来了一系列的挑战。
首先是数据的质量问题。
大量的非传统数据来源复杂,数据的准确性和可靠性参差不齐。
如何对这些数据进行有效的清洗和筛选,去除噪声和错误数据,是一个亟待解决的问题。
其次,大数据的体量巨大,处理和分析这些数据需要耗费大量的计算资源和时间。
传统的数据分析方法和计算架构已经难以满足需求,需要采用新的技术和算法来提高数据处理的效率。
此外,大数据的高维度和复杂性也使得模型的构建和优化变得更加困难。
如何从众多的数据特征中选择有效的特征,构建合理的模型结构,是提高预测准确性的关键。
为了应对这些挑战,优化气象预测模型,我们可以从以下几个方面入手。
一是数据预处理。
在数据收集阶段,要尽可能确保数据的准确性和完整性。
对于多源异构的数据,需要进行有效的整合和标准化处理,使其能够在模型中统一使用。
在数据清洗过程中,可以采用多种方法去除噪声和异常值。
例如,通过设定阈值来剔除明显偏离正常范围的数据;利用统计学方法识别和修正数据中的偏差;或者借助机器学习算法对数据进行自动清洗和修复。
天气预报中的气象数据分析与模型优化天气预报一直以来都是人们生活中的重要组成部分,准确的天气预报可以帮助人们做出合理的决策,提前做出应对措施,从而避免不必要的损失。
而天气预报中的气象数据分析与模型优化是实现准确预报的关键。
气象数据分析是指通过获取、加工、分析气象观测数据,来探索和理解天气变化的规律。
气象观测数据包括气温、湿度、风速、降雨量等各种气象要素,这些数据通过气象观测站点、卫星、雷达等设备获得。
利用这些数据,气象学家能够研究气候模式、风暴形成、降雨分布等气象现象,并通过分析相关数据来预测未来天气的变化。
气象数据分析的核心是建立模型来解释和预测天气变化。
气象模型是基于大量的观测数据和气象理论构建的数学模型,它们用于模拟和预测大气现象,提供天气预报等信息。
通过对气象数据的分析和建模,我们可以了解天气变化的规律,预测气象事件的发生概率,提高天气预报的准确性。
然而,气象数据分析和模型优化也面临着许多挑战和困难。
首先,气候系统是非常复杂的,受到多种因素的影响,如大气环流、地理地貌、海洋热力等。
通过收集和分析大量的数据来建立模型需要耗费大量的时间和精力,且建模过程需要考虑到各种不确定性因素。
其次,气象数据的收集和分析也存在一定的局限性,观测数据的空间分布不均匀,存在缺失和噪声,这会对模型的准确性造成一定的影响。
为了克服上述困难和挑战,气象学界不断进行数据采集和模型优化的研究。
通过增加气象观测站点、改进观测设备,提高数据的采集和质量控制,可以增加数据的可靠性和准确性。
同时,利用现代气象卫星、雷达等高科技设备,可以获取更精确的气象数据,提高对大气现象的观测和分析能力。
此外,还可以通过开展气象实验和数值模拟来研究气象现象的特点和规律,进一步提高气象模型的准确性。
模型优化是指对已有的气象模型进行改进,提高其预测能力和适用性。
首先,可以通过引入更精确的物理参数,修正和改进已有的气象模型,提高其对气象变量的描述能力。
数值天气预报模型的优化与应用天气预报对于我们的日常生活、农业生产、交通运输以及许多其他领域都具有极其重要的意义。
随着科技的不断进步,数值天气预报模型已成为现代天气预报的重要工具。
数值天气预报模型是基于物理定律和数学方程,通过对大气状态的模拟和计算来预测未来天气的变化。
然而,要想获得更准确、更可靠的天气预报,就需要不断对数值天气预报模型进行优化,并拓展其在各个领域的应用。
数值天气预报模型的核心是一组描述大气运动、热力学和水汽变化等物理过程的数学方程。
这些方程通常非常复杂,需要借助高性能计算机进行求解。
在模型的建立过程中,需要对大气进行离散化处理,即将大气划分为一个个小的网格单元,并在每个网格单元上计算物理量的变化。
网格的分辨率越高,模型对大气细节的描述就越精确,但同时计算量也会大大增加。
为了提高数值天气预报模型的准确性,优化工作主要集中在以下几个方面。
首先是数据同化。
数据同化是将各种观测数据(如地面观测站、气象卫星、雷达等获取的数据)与模型的初始场进行融合,以得到更准确的初始状态。
通过数据同化技术,可以有效地减少模型初始误差对预报结果的影响。
例如,利用卡尔曼滤波、集合卡尔曼滤波等方法,能够将观测数据与模型模拟结果进行最优组合,从而提高初始场的质量。
其次是物理过程参数化。
大气中的许多物理过程(如云的形成、降水过程、辐射传输等)由于其复杂性和尺度较小,无法在模型中直接求解,需要进行参数化处理。
不断改进和完善这些参数化方案,使其更准确地反映实际的物理过程,是提高模型预报能力的关键。
例如,对于云的参数化,新的研究成果能够更好地考虑云的微物理过程和垂直结构,从而提高对降水和能量收支的模拟精度。
再者是模型分辨率的提高。
随着计算机技术的飞速发展,数值天气预报模型的分辨率不断提高。
更高的分辨率能够捕捉到更小尺度的天气系统和地形影响,从而提高对局部天气现象的预报能力。
例如,在城市天气预报中,高分辨率模型能够更好地模拟城市热岛效应和复杂的地形对气流的影响,为城市规划和应对极端天气提供更有针对性的建议。
气象学模型的改进与优化研究气象学模型是指通过数学和物理等相关理论计算,以预测大气现象和天气变化的模型。
随着科学技术的发展,气象学模型也在不断改进和优化,以提高预报准确性和可靠性。
本文将探讨气象学模型改进与优化的研究方向和技术手段。
一、模型改进的意义气象学模型作为天气预报和气候研究的重要工具,对人们的日常生活、农业生产、交通运输等有着重要影响。
模型的改进可以提升预报的准确性和精度,精细化天气预报,减少误差和盲区,提高对极端天气的预警能力,从而有助于人们做好防灾减灾的准备工作。
二、模型改进的研究方向1. 数值计算方法的优化数值计算方法是气象学模型的核心,其稳定性、精度和计算效率直接影响模型的表现。
改进模型的数值计算方法可以采用高阶离散格式、更精确的边界条件处理方法等,以提高计算效率和模拟结果的准确性。
2. 物理参数化方案的改进气象学模型中,由于大气运动、湍流、辐射传输等过程非常复杂,很难直接模拟。
因此,模型中通常采用物理参数化方案来估计这些过程的影响。
改进物理参数化方案,通过与观测数据的对比和验证,优化参数取值和方案选择,以提高模型预报的准确性。
3. 数据同化技术的应用数据同化技术是将观测数据与模型结果进行融合,以减少模型初值误差和模型误差,提高模型的预报能力。
常见的数据同化方法有卡尔曼滤波、变分方法等。
合理应用数据同化技术,可以使模型更好地反映大气的演化过程,提高模拟结果的可靠性。
三、模型优化的技术手段1. 并行计算技术由于气象学模型的计算量庞大,单机计算已经无法满足需求。
利用高性能计算集群和并行计算技术,可以大幅度提高计算速度,加快模型生成预报的效率。
2. 云计算和大数据技术云计算和大数据技术在气象学模型的优化中扮演着重要角色。
云计算平台提供了高性能计算资源,可以加速模型的训练和预报。
大数据技术则可以利用丰富的历史观测数据,提供更多有效的数据支持,优化模型的参数调整和预报结果评估。
3. 人工智能技术的应用人工智能技术如卷积神经网络、深度学习等方法,在气象学模型的改进中也起到了积极的作用。
气象观测站的优化模型气象观测站的优化模型摘要:本文进行合理的的进行假设和建立模型,在保证得到降水量信息足够大的情况下减少气象观测站的数目,从而节省开支。
用SPSS软件对12个观测站运用模糊聚类法进行聚类,得到12种聚类方案。
我们运用2R统计量方法得到最优的分类方案,分为7类,即{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9}。
为了得到最终的优化方案,我们要从12个站中去除5个站,去除原则:设变量服从同一分布,经比较各变量的均值、标准差与总体的均值、标准差接近度几乎相同,我们标准差大的信息量大,因此保留标准差大的。
最终的优化方案:去除5个站分别是7x、8x、10x、11x、12x。
关键字:模糊聚类分析,2R统计量,伪F统计量一、问题重述某地区有12个气象观察站,为了节省开支,计划减少气象观察站的数目。
已知该地区12个气象观测站的位置,以及10年来各站测得的年降水量,要求减少哪些观测站可以使所得的降水量的信息足够大。
二、模型假设与符号说明2.1 模型假设1.表中数据库存在误差,但没有错误;2.在10年中降水量偏差较小的气象站之间具有较大的相似性;3.相近地域的气象特征具有较大的相似性和相关性,它们之间的影响可以近似为一种线性关系;4.该地区的地理特征具有一定的均匀性,而不是表现为复杂多变的地理特征; 5.在距离较远的条件下,由于地形、环境因素而造成不同区域的年降水量相似的可能性很小,可以被忽略。
不同区域的降水量的差异主要与距离有关;6.不考虑其它区域对本地区的影响;7.相似性较大的气象站的降水量服从同一分布,具有相同的期望和方差。
2.2 符号说明k S :表示类k G 中样品的类内离差平方和; k x :表示类k G 的重心;T : 表示所有样品的总离差平方和; 2i R :有i 个样品被聚合成一类;i x :表示第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i ;)D i x (:表示第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i 。
三、问题分析题目要求我们减少一些观测站,但获得的降水量的信息要足够大。
我们首先要考虑降水量的信息问题。
对一个观测站而言,减少观测站的个数,得到的信息量也必将减少,但由此可以节省开支,因此最优的结果是既要满足气象观测站的个数比较少,同时得到的信息量足够大。
在这两个互相制约的方面,观测站的个数和信息量之间,应主要考虑信息量,因为信息量减少到一定程度,气象观测站就失去意义了。
因此问题就是求怎样减少观测站的个数,在信息量不少于一定值的条件下使观测站的个数尽量减少。
但是,信息量是一个比较模糊的概念。
为了保证信息量,我们认为在相似性很好的n个站可以去掉n-1个站,让剩下的一个站来反映这n个站的共同特点,而原始数据中的与其他站联系不大的站就保留下来。
由于去掉的站是相关性好的,因此去掉的站可以用剩下的站来表示,而且误差较小。
对于此问题,我们可以利用SPSS软件将12个观测站进行聚类,再用谱系聚类法中R2统计量来评价每次合并时聚类的效果,然后确定聚成几类。
四.模型建立与求解4.1.模型准备4.1.1在SPSS软件中实现聚类,聚类结果如下图:1)聚为11类:{1}、{2}、{3}、{4}、{5}、{6、11}、{7}、{8}、{9}、{10}、{12} 2)聚为10类:{1}、{2}、{3}、{4}、{5、10}、{6、11}、{7}、{8}、{9}、{12} 3)聚为9类:{1}、{2}、{3}、{4、7}、{5、10}、{6、11}、{8}、{9}、{12} 4)聚为8类:{1}、{2}、{3}、{4、7}、{5、10}、{6、11}、{8、9}、{12} 5)聚为7类:{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9} 6)聚为6类:{1}、{3}、{4、7、12}、{2、5、10}、{6、11}、{8、9} 7)聚为5类:{1}、{4、7、12}、{2、5、10}、{3、6、11}、{8、9} 8)聚为4类:{1}、{2、4、5、7、10、12}、{3、6、11}、{8、9} 9)聚为3类:{1}、{2、4、5、7、10、12}、{3、6、8、9、11} 10)聚为2类:{1}、{2、3、4、5、6、7、8、9、10、11、12} 11)聚为1类:{1、2、3、4、5、6、7、8、9、10、11、12}4.1.2设某谱系水平上类的个数是G 类,k G 中样品的类内离差平方和为:2k ||||)()(S kG i ik i TkG i ixx x x x x kk-=--=∑∑∈∈k S 的值越小,则说明k G 中样品越相似; 在谱系的第G 层共有G 类且定义∑==Gk k S 1G P又以T 记所有样品的总离差平方和:211||||()(∑∑==-=--=ni i i Tni i x x x x x x T ) 其中∑==ni i x n x 11定义TP R G-=12 2R 统计量可用于评价每次合并时的聚类效果。
显然1R 0≤≤,当n 个样品各自成一类时,12=R ;当n 个样品合并成一类时,02=R 。
2R 的值总是随着分类数目的减少而减少,可以从2R 的值的变化看n 个样品分成几类最合适。
4.2模型的求解 4.2.1.根据TP R G -=12求得2i R 2i R 21R 22R 23R 24R 25R 26R10.96520.93330.89240.84760.7982i R 27R 28R 29R 210R 211R 212R0.6277 0.50510.3366.0.15760.13444.2.2根据2R 统计量的变化量来确定分为几类比较合适。
令11,2++-=i i i i R R R )11,2,1(⋅⋅⋅=i1,2+i i R2,12R 3,22R 4,32R 5,42R ,652R ,762R0.030.030.040.040.040.1748 19 09 48 96 03 1,2+i i R,872R ,982R ,1092R 1,1102R2,1112R0.12260.16850.1790.02320.1344由上述表可以看出,前五组中1,2+i i R 的值变化比较小,从第六组数开始,1,2+i i R 发生了显著的变化。
由此可以得出把十二个观测站聚合成7类比较合适。
4.2.3确定最终方案我们已经确定将12个观测站分为7类,即要从中去除五个观测站较好。
分类为{1}、{2}、{3}、{4、7、12}、{5、10}、{6、11}、{8、9}。
但是应该删去哪五个观测站才比较合理。
{4、7、12}、{5、10}、{6、11}、{8、9}四组数据中,设每组中的变量都服从同一分布。
我们可以比较各变量各自的均值、标准差与总体的均值,标准差的接近程度。
我们认为标准差大的信息量大,因此可以保留。
去除原则:设变量服从同一分布,经比较各变量的均值、标准差与总体的均值、标准差接近度几乎相同,我们标准差大的信息量大,因此保留标准差大的。
(1)计算出各观测站10年降水量的均值,见下表: 记i x 为第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i1x 2x 3x 4x 5x 6x i x 292.02311.77320.32342.28292.22315.157x 8x 9x 10x 11x12xi x343.99303.71312.16299.47310.72391.89(2)计算出各观测站10年降水量的标准差,见下表: 记)D i x (为第i 个观测站10年降水量的均值)12,2,1(⋅⋅⋅=i(3)○1{4,7,12}:比较4x ,7x ,12x 的标准差,由上述去除原则可知去掉标准差较小的7x ,12x 较为合理;○2{5,10}:同理可知去掉标准差较小的10x ; ○3{6,11}:同理可知去掉标准差较小的11x ;○4{8,9}:同理可知去掉标准差较小的8x ; 综上所述,根据原则去除的观测站为7x ,8x ,10x ,11x ,12x 。
4.3模型的检验利用伪F 统计量对上述的模型进行验证:记)()()(G /P 1-G /P -T PSF G G -=n ,其中G P -T 是分为G 个类时的类间平方和,1-G 是其自由度,G P 是分为G 类时的类内平方和,G -n 是其自由度,PSF 是用于描述分为G 个类时的聚类效果。
PSF 值越大表示这些观测可显著分为G 个类。
1x 2x 3x 4x 5x 6x )D i x (100.19680.927108.24463.97594.10394.2007x 8x 9x 10x 11x12x)D i x ( 38.04885.074109.39657.24786.51436.830经过计算可以得到12种聚类的PSF的值,由实际情况可知将12个观测站分为1类和12类的情况显然不可取,故下表只列出分为2至11类的情况:2 3 4 5 6分类数PSF10.301 6.056 2.825 3.143 2.8787 8 9 10 11分类数PSF 3.634 3.301 3.111 2.959 2.816由表可知:分类为2类和3类时PSF的值比其他PSF的值大很多,故忽略不计。
在剩余的8个PSF值中选择相对较大的值即为分类的数目,由表可知,分为7类的PSF显著较大,故分为七类较为合适,同时也验证了上述模型是可取的。
五、模型评价5.1模型优缺点5.1.1模型优点本模型利用模糊聚类分析的方法较成功地解决了气象观察站的优化问题, 方法简练, 道理清晰, 结果可信。
由于本文用了方差分析方法,若多给一些数据, 结果会就更精确。
5.1.2模型缺点(1)在计算2R统计量时,由于数据较多且比较大,用EXCLE来计算有一定的误差,计算量也比较大。
(2)在建立模型时,在建立模型时我们假设同一类的变量服从同一分布,用其标准差和均值的大小来确定最终去除的是哪些变量,结果可能有一定的误差。
参考文献[1] 寿纪麟. 数学建模—方法与范例.西安: 西安交通大学出版社. 1993.[2] 谢季坚、刘承平.模糊数学方法及其应用(第二版). 武汉:华中理工大学出版社. 2000.附录:地点年1x2x3x4x5x6x7x8x9x1x1x1x1981 276.2324.5158.6412.5292.8258.4334.1303.2292.9243.2159.7331.21982 251.6287.3349.5297.4227.8453.6321.5451.0466.2307.5421.1455.11983 192.7433.2289.9366.3466.2239.1357.4219.7245.7411.1357.0353.21984 246.2232.4243.7372.5460.4158.9298.7314.5256.6327.0296.5423.01985 291.7311.0502.4254.0245.6324.8401.0266.5251.3289.9255.4362.11986 466.5158.9223.5425.1251.4321.0315.4317.4246.2277.5304.2410.71987 258.6327.4432.1403.9256.6282.9389.7413.2466.5199.3282.1387.61988 453.4365.5357.6258.1278.8467.2355.2228.5453.6315.6456.3407.21989 158.5271.0410.2344.2250.0360.7376.4179.4159.2342.4331.2377.71990 324.8406.5235.7288.8192.6284.9290.5343.7283.4281.2243.7411.1表1表1各观察站10年的降水量(mm)。