当前位置：文档之家› 遗传神经网络在商业银行信用风险评估中的应用

遗传神经网络在商业银行信用风险评估中的应用

第２２卷第２期

２００１年２月

文章■号：ｌ０００—１２２０（２００１）０２一０１９ｌ—０４

小型微型计算机系统

ＭｌＮｌ一Ｍ１ＣＲＯＳＹｓＴＥＭ

分布式数据开采研究

何炎祥彭锋李世平宋文欣Ｖ０１．２２Ｎｏ２Ｆｅｂ．２００１

（武汉太学软件工程国家重点实验皇武援４３００７２）

（武汉大学计算机科学系武汉４３００７２）

擅要：奉文首先俺单介绍了分布式数据开采的主要研究内客，然后介格了分布式教据开采研宽的现状厦一些实验系巍．随后分析了分布式敷括开采系统的体皋蛄构盅谊具有的特点．曩后，曩出了分布式羲据开采中一些重点研究问赶．关■词：ＫＤＤ，分布式数据开采，Ａｇｅｎｔ

分类号：ＴＰ３儿文ｔ标识码：Ａ

１分布式数据开采简介

近几年，数据开采的研究有了很大进展，在分布式数据库环境中进行数据开采的研究显得尤为突出．无论是提出的分布式开采算法”‘“”’Ⅲ．还是设计的分布式开采体系结构““’７４３ｔ都为在分布式数据库环境下进行数据开采提供了很有力的支持．为什么面向分布式数据库的数据开采的研究得到了如此的重视呢？这主要是由于以下几个原因：１．因为数据开采的目标是大规模的数据集，而在现实环境中，绝大部分的大型数据库都是以分布式的形式存在的，因此，提出新的分布式数据开采系统的体系结构是非常必要的．

２．在数据开采系统中，经常需要来自不同站点的数据库中的数据，这就使得数据开采系统必须具有分布式开采的能力，同时也需要我们根据分布式数据开采的特点设计新的分布式数据开采算法．

３．随着ｗｗｗ的快速应用普厦，Ｉｎｔｅｒｎｅｔ成为人类历史上最大的数据振．Ｉｎｔｅｒｎｅｔ中的数据在以几何级数的速度增长．如何利用Ｉ毗ｅｒｎｅｔ中的资源，如何在Ｉｎｔｅｒｎｅｔ中进行数据开采也开始成为人们考虑的问题”３因为Ｉｎｔｅｍｅｔ本身就是一个巨大的分布式系统，分布式敷据开采系统是在Ｉｎｔｅｒｎｅｔ中获取知识的最好工具．

由于分布式散据开采的巨大应用前景，目前已有相当数量的研究人员投入到对该镊域的研究中，并且取得了一定的成果．第二节，我们介绍当前分布式数据开采的研究现状．在第三节中．对分布式数据开采系统的体系结构做一个简要的介绍和分析．第四节．我们提出分布式数据开采中需要重点研究的三个问题．

２当前研究现状简介

虽然分布式数据开采是近几年才提出的一十新的研究领域，但是已经引起了相当多的研究者的注意，取得了一定的进

ＰＡＤＭＡ系统０３是Ｈｉｌｌ０１Ｋａ’ｇｕｐｔａ等提出的一个使用Ａｇｅｎｔ技术的分布式数据开采系统．其主要功能模块包括可以完成数据开采任务的Ａｇｅｎｔ，用于协调Ａｇｅｎｔ工作的一个Ｆａｃｉｌｉｔａｔｏｒ．系统与用户的交互界面．数据开采Ａｇｅｎｔ负责访问数据并从中获取有用的信息或知识，这些Ａｇｅｎｔ可以并行工作井通过ＦａｃⅡｉｔａｔｏｒ共享它们的数据．除在Ａｇｅｎｔ之间传递信息之外，Ｆａｃｄｉｔａｔｏｒ还负责向用户界面模块传递得到的信息和知识，并可以将用户的反馈传递给各个Ａｇｅｎｌ．ＰＡⅡＭＡ系统使用一个基于ｗｅｂ的用户界砥来向用户显示得到的信息，并从用户得到开采的请求．用户可以使用标准的ｓＱＬ语言书写自己的请求，Ｆａｃｌｌｉｔａｔｏｒ将用户的请求广播给所有的Ａｇｅｎｔ，然后由各个Ａ擎ｎｔ各自开采与请求有关的信息，最后由Ｆａｃｄ?ｔａｔｏｒ收集信息并反馈给用户．该系统使用ＰＰＦｓ（ＰａｒａｌＩｅｌＰｏｒｔａｂｌｅＦ１ｌｅｓｙｓｔｅｍ）开发ｔ目前主要用于分布式系统中文本文档的分析和分类．

ＪＡＭｓｙｓｔｅｍ“?”’是美国哥伦比亚大学的ｓａｌｖａｆｏｒＰｓｔｏｌｆｏ教授和佛罗里达理工学院的Ｐｈｄｉｐｃｈａｎ教授等设计的一个分布式戢据开采系统．ＪＡＭｓｙｓｔｅｍ可以从各个独立的金融机构的数据库中发掘出关于诈骗的知识模式．然后将得到的各个独立的模式形成一个一般的模式．ＪＡＭ系统可以从各个站点中发掘各自的分类器（ｃｌａｓｓｍｅｒ）．然后根据备个站点的分类器生成全局的分类器．该系统使用ＪＡｖＡ语言编写，具有较好的平台无关性．在这个系统中提出了使用ｍｅ【ａｌｅａｒｎｈｌｇ进行分布式数据开采的思想

ｗｏＲｌｄ”１是美国Ｐｉｔｔｓｂｕｒ曲大学的Ａｒｏｎｌｓ教授等设计的一个分布式数据开采系统．在这个系统中，作者提出了两十分布式Ｂａｙｅｓｉａｎ开采模型．这两个模型利用一些范例数据集得到对于整个数据集的特性的预测，第一个模型用于数据在全局范围内是平等分布的情况，而第二个模型则针对于数据在全局范围内是不均匀分布的情况．目前该系统必须依靠人工来保存一个垒局的数据库连接，并且假设分布式异构数据库中存在一个全局可用的词拒表．

ＨｍｏｌＫａｒｇｕｐｔａ等最近提出一种称为ｃｏ№ｎｌｖＰＤａｌａ

收藉日期：２０００ｏｌ一１ｌ作者简介：何炎祥，教授．博士生导师，研究方向为分布计算，戟件工程　万方数据

小型徽型计算机系统２００１年

Ｍ—ｍｎｇ“一的思想来实现分布式数据开采，作者认为，分布式数据开采算法一般都分为两个步骤：①进行局部数据分析得到局部的数据模型，②在全局范围内根据不同站点的局部模型得到全局模型但是，如果各站点问的数据并非线性相关的，也就是说全局模型在各站点问并非是直接可分解的，那么从各站点的局部模型不能直接得到全局模型．ｃｏｌｌｅｃｔｉｖｅＤａｔａＭｍｔｎＲ主要就是解决上面的问题．其主要方｛击是首先各个站点根据自己的数据集独立计算一个近似规范正交基系数，然后从各个站点的数据集选取一些特定的样本移到一个站点上．根据这个集成数据集来计算针对于非线性交叉项的近似基系数，最后根据基系数将局部模型合并成全局模型并提交给用户

在目前的分布式数据开采的研究工作中，非常重要的一个方面是如何设计一个分布式数据开采系统的体系结构，真正能支持各种分布式开采算法．真正实现平台无关性．目前这方面的工作仍属于起步阶段，但是使用Ａｇｅｎｔ技术和ｊＡｖＡ语言是很多研究者的共识

３分布式数据开采系统体系结构的特点

由于基于网络的分布式数据库通常处于一种分散的状态，其特点是数据的异构和站点的分散，这给分布式数据开采造成了很大的困难．因此，提出一个能有效的处理分布式异构数据的开采系统框架是非常重要的““．只有在有效的框架和体系结构支持下，分布式数据开采算法才能真正的发挥作用．我们甚至可以说，没有有效的框架和合理的体系结构的支持，分布式数据开采基本上是不可能的．

我们认为，为了有效的支持分布式数据开采，一个分布式数据开采系统应该具有以下的基本特性；

ｌ通讯便利一个有效的分布式开采系统应该可以在本系统的各个站点间很方便地进行通讯．这种通讯应该是在较高层次上完成的，例如不需要考虑底层是使用的ＴＣＰ／ＩＰ协议还是ＩＰｘ／ＳＰｘ协议．此外，这种分布式数据开采系统中的通讯功能应该可以很方便的处理原始数据，所发据的知识，开采的请求以及开采请求的参数

有些情况下甚至可以传送开采算法本身．

２．吝易扩展由于数据开采理论和算法研究的快速发展．新的知识形式．新的数据开采算法不断出现．为了能够保证分布式数据开采系统的持续可用，分布式数据开采系统应该设计成容易扩展的开放式系统当出现新的算法，新的知识形式时，系统能够通过自身的扩展性功能加人这些新的知识形式，新的算法，而无须对系统进行重新构造或编写．３是活开采分布式数据开采系统应该可以灵括响应用户的各种数据开采要求，比如对不同大小，不同位置的数据库的开采，对同一数据库开采各种形式的知识，对一个数据库的某个子集进行开采等等．

“移动开采在有些数据开采算法中，需要开采算法顺序访问各个站点中的数据集，那么，分布式数据开采系统必须可以支持开采算法的移动性也就是说，当一个算法在一个站点上完成了在本站点的数据开采任务之后，还可眦移动到其它站点上继续进行开采．

５．知识共丰在各个站点间进行分布式开采时必须采用可以被理解的知识形式．一是因为分布式数据开采一般包古面向知识的开采．即在本地知识的基础上开采全局知识，所以必须采取柏够同一理解的知识表示方式才能够在各十站点问实现协同开采．二是因为各个站点上的用户可能需要访问其它站点上的知识，这也需要有一种通用的知识表示方式．６．平台无关由于在分布式系统中存在着平台的异构．操作系统的异构，数据库系统的异构，因此分布式数据开采系统应该能够完成在各种平台的数据开采任务无论是各个站点上的数据开采算法，还是全局数据开采算法，都必须能够处理各种平台上的数据处理及通讯任务．

７．安奎保证在分布式系统中进行数据开采需要考虑的一个问题就是安全性的保证．一般来说有三个方面的安全性考虑：一是数据存取的权限控制．二是知识存取、传送的安全，三是开采任务的设置权限．郎什么角色可以发起什么样的数据开采任务．

８．集中拉制为了方便地实现分布式数据开采，一个用于集中控制的站点（可以是浮动的）是必须的在不存在全局控制站点情况下，整个系统的通讯开销是非常巨大的．为了得到全局知识，所有的站点将进行大量的广播，比起使用全局控制站点的系统来说，开销和难度无疑要大得多．此外，在某些分布式数据开采算法中．需要进行全局范围内的决策，这也是引＾全局控制站点的一个自然原因实际上在引入丁全局控制站点后，系统的可扩展性和灵括性都得到了很好的支持．

实际上．在设计一个分布式数据开采系统时，我们还需要考虑其它一些问题，比如，如何处理各站点问负载的均衡，如何处理异构数据之间的的联系．对于开采出来的知识如何有效的表示和与用户的交互等等但是这些问题有些可以利用现有的分布式系统研究的成果和结论，有些则已经在现有的数据开采算法和系统研究中已经得到了充分的考虑．因此，目前的分布式数据开采系统研究丰耍的目标是完成以上列出的分布式数据开采系统的特定功能

４分布式数据开采的关键问题

虽然分布式数据开采研究已经有了很大的进展，但目前仍处于起步阶段．需要解决的难题还有很多．下面是几个需要解决的关键问题．

４．１利用ＡＧＥＮＴ技术进行分布式数据开采

在计算机领域，Ａｇｅｎｔ是指分布式系统中能持续自主发挥作用的计算实体．在文““中提出了Ａｇｅｎｔ应该具有的四个特性：

ｌ＿自主性Ａｇｅｎｔ具有属于其自身计算资源和局部于自身行为控制的机制，能在无外界直接操纵的情况下．根据其内部状态和感知到的外部环境信息决定和控制自身的行为２．交互性能与其它的Ａｇｅｎｔ进行多种形式的交互，能有效的与其它的Ａｇｅｎｔ协同工作．

３．反应性能感知所处的环境，并对相关事件作出适时

　万方数据

２期何炎祥等分布式数据开采研究

的反应．

４．主动性能遵循承诺采取主动行动，表现出面向目标

的行为．

进行数据开采的Ａｇｅｎｔ（称为ＤＭＡ）可以独立完成用户提出的敷据开采的任务．同时，它可以同其它站点上的ＤＭＡ协同完成分布式数据开采任务．它拥有自己的开采算法，这些算法中一部分负责完成本地的数据开采任务，另一部分负责和其它的ＤＭＡ协同完成分布式开采．每一个ＤＭＡ所拥有的算法并不一定是一样的．它可能只需要能够处理车地数据集的算法，因为每个站点上的数据集的特性都是不同的．有的ＤＭＡ需要处理常规数据库中的数据，而有些则需要处理多

媒体数据、文本数据．但是，在整个系统中，每一个ＤＭＡ所开

采的知识必须是以其它ＤＭＡ所能理解的形式存放的，只有这样．才能使得各个ＤＭＡ可以协同完成分布式数据开采任务每一个ＤＭＡ都有同其它ＤＭＡ进行通讯的功能，传送的内容包括知识．相关数据，甚至是ＤＭＡ本身

一般来说，为了高效的完成分布式数据开采任务，使用Ａｇｅｎｔ的分布式数据开采系统都使用一个全局的程序负责发起和协蜀全局范围内的数据开采请求“‘１，为此，还需要有一套全局开采所必须的决氟系统以完成从局部模型刊全局模型

的合成．

ｒ】ＭＡ必须有良好的可扩展性．也就是说，新的算法、知

识可以方便的加入到ＤＭＡ的算法库和知识库中，而不需要

对ｎＭＡ的核心代码做大的修改．ＤＭＡ还可以自动感应数据集的变化，自动进行知识的更新．在有些系统“１中ｎＭＡ还拥有自己的数据管理子系统和数据缓存以提高数据存取的速度

从而提高开采的速度

目前的研究重点主要在于如何提高Ａｇｅｎｔ的适应性以

及自主性，使其能够适应各种平台、数据库．不同特征的数据集，更加智能化的完成分布式开采的任务．此外，使用可移动的Ａｇｅｎｔ（Ｍｏｈｌ】ｅＡｇｅｎｔ）与增量式数据开采算法相结合进行分布式的数据开采也是研究的方向之一．４．２数据开采原语

引＾数据开采原语有两个好处：

①可眦减少数据开采任务的缩程量．ｓＧＩ公司的Ｍｉｎ巳一ｓｅｒ系统在开发时使用了一个称为ＭＩ，ｃ＋＋（ＭａｃｈｌｎｅＩＩｅａｒｎ—

ｍｇ

Ｌｌｂｒａｒｙ

ｕｓｌｎｇ

ｃ＋＋）的ｃ＋＋类库．其中封装了分类、聚

类、关联规则等的开采算法虽然还不能算是数据开采原语，但已经大大减轻了开发一个数据开采系统的工作量

②可姒方便的实现使用ＭｏｂｌｌｅＡｇｅｎｔ技术进行分布式数据开采．如果使用散据开采原语来编写ＭｏｂｉＩｅＡｇｅｎｔ的代

码，那么它在网络中传输时只需要非常小的带宽，并且很容易实现平台无关性

数据开采原语的设计需要解决以下问题：

１．２

ｌ划分的粒度

将数据开采的功能归纳成一个包含有各种基奉操作（即

数据开采原语）的集合需要仔细考虑划分的粒度．划分过细，

达不到预期的目标，无法减小程序规模，方便开发过程；划分

过粗．就会影响灵活性，无法完成一些特定的开采任务

１９３

４．２．２原话的选择

原语的选择应该是基于对大量的数据开采算法的分析和研兜．从中找出最常用以及最能提高效率的部分．这个工作足非常困难的因为数据开采处理的数据多种多样，使用的算珐也千变万化，有使用ｃ＋＋，ＪＡｖＡ语言的，也有使用ｓＱＬ语言的．有基于统计学理论的，有基于神经网络计算的，所以从中找出共同点并不容易．

此外，如何编写原语的解释程序以达到高散、平台无关的特点，如何在加人新的知识和算法时灵活的扩充原语集也是需要解决并且具有相当难度的问题在目前的情况下．我们认为可以在一些特定的应用领域内编写具有特定使用范围的数据开采原语，例如我们在文ｎ４，１５］中提出的Ｍ—ｓＱＩ。语言．

４．３面向知识的学习（雌ｔ分ｋａｒⅡｉⅡ夸）

在分布式数据开采的研究中，文［１］中提出了ｍｅｌａ

ｌｅａｒｎｉ“ｇ的概念．所谓ｍｅｔａ一１叫ｍｇ，就是基于知识的学习，

也就是如何在局部知识的基础Ｅ学习全局知识．

在文［１］中提出了如何在一个分布式数据库系统中发现全局的分类器（ｃｌａｓｓｉｆｉｅｒ）的过程首先，开采算法在各个站点中发现局部的分类器，称之为ｂａｓｉｃｃｌａ㈣ｆ?ｅｒ，在此过程结束

后，使用一个基于ｍｅｔ８—１ｅａｒｎＩｎｚ的算法在ｂａｓｌｃ

ｃｌ跚ｌｆｌＰｒ神

基础上发现Ⅱ坨ｔ丑＿ｃｌａ蚓ｆｉｅｆ，也就是全局的分类器

在文［１３］中提出的关联规则的分布式开采算法也是一个

基于ｍｅｔａ一１ｅａｒｎｉ“ｇ的算法它从局部的关联规则的基础上得到了全局的关联规则，而不是直接进行全局开采

但是并不是所有的知识和算法都能直接实现ｍｅｌａｔ

ｌｅａｒｎｉ“ｇ．比如说，在相当多的算法“。”１中需要采用训练集束

生成所需要的知识，此时如何选择全局范围内的训练集就需要一定的处理，而不是由算法直接选择另外．当局部知识和全局知识的关联不紧时，皿ｅｔａ１ｒａｒｎｍｇ的正确性和完备性如何保证，也是需要研究的问题

要实现高效的分布式异构数据库巾数据开采川＂

Ｉｅａｒｎｍｇ是一种非常有效的技术它不仅利用了局部开采的

散据，减少了计算的开销，而且正如我们提出的算法“”所显示的那样，在各个站点间传递的大部分是知识而非数据，极大地减少了系统的通讯。并且易于实现异构数据的开采．因此．

如何实现ｍｅｔａ—ｌｅａｒⅢｎｇ也是分布式数据开采所急需解决的

难题之一．

参考文献

ｌ

Ａ．Ｌ¨Ｐｒｏｄ…１ｄｌｓ．Ｐ

Ｋ（、ｈｎ，ｓＪ轴一ｆ。Ｍｃｔａ

ｌｅ…１１Ⅵｌｎ

ｄｌｓｔｒＩｂｕｔｃｄ

ｄａｔａ…Ｌ“ｚｓｙｓｔ…：１８ｓｕｅｓａｎｄ“ｐｐ７…ｈｅｓ

Ａｄ

…ｃｅｓｌｎｄｌｓｍｂｕｔｅｄｄａｔ…㈨“ｇ（Ｍ］ＡＡＡＩ

ＰｒｅｓＨｔＫａ。ｇ“Ｐｔａ

ａｎｄＣｈａｎ（ｅｄｓ．），１９９９ｚ

Ａｒｏｎｊｓ，Ｊ

Ｍ．．Ｋｏｌｌｕｒｌ，Ｖ．Ｐ…ｏｓ￡．ＦＪ

ｅｔ

ａｌＴｌ…¨ｒｌｄ；

Ｋｎｏｗｌｅｄｇｅｄｊｓｃｏ—ｙｆｒｏｍｍｕｌｔｊｐ【ｅｄｌｓｔｎｂｕｔｅｄｄ¨ａｂ…ｓ【Ｒ：

Ｔｅｃｈｎｌｃａｌ

Ｒ印ｏｒｔ

ＩＳＬ９６—６

ｌｋｐａ

ｒｔ…ｔ

ｏｆ

Ｃｏｍｐｕｔｅｒ

ｓｃ㈣１ｒＰ

ＵｎｌｖｅｒｓｎｖｏｆＰ¨ｔｓｂｕｒＲｈ．１９９６３

Ｄ

Ｗ

ＣｈｅｕｎＥ，ＶＴ¨ｇ－Ａ

ｗ

Ｆｕ—ａｎｄＹ

ｊ

ＦｕＥ‰㈣ｎ

ｍｌｎｌｎ２

ｏＩ

ａｓｓｏｃｌａｔｊｏｎ

Ｔｕｌ…ｎ

ｄ”ｒｒｌｂｕｔｅ（１【ＩⅡｔａｂａｓｅｓ

１ｅｅｅ

Ｉ’ｒａｒ１＾［Ｊ］０ｎＫｎｏｗｌｅｄｇｅ

ＡｎｄＤａｔａ

Ｅ“ｇｌ…ｍｚ

ｎ…ｂｅｒ

１９９６．Ｈ

９儿～９２２

４

Ｅｕｉ—Ｈ佣ｇＨａｎ，Ｇｅｏｒ９８Ｋｎ。ｙｐｌｓ，Ｖ１ｐｍＫｕｍ且ｒ

ｓｃａ【ｎｂＩ。Ｐａｒａｌｌｃ』

万方数据

１９４

小型微型计算机系统

ｄａｔ…ｌ“ｇｆ０…ｓｏｃＩⅡｔ…山ｅｓ［Ｃ］Ｐ㈨ｆ

ＳＩＧＭＯＤ‘９７

ＡＺ

ＵｓＡ．２７７～Ｚ８７．１９９７

ｓ

Ｈ’ｕｍＫａ‘ｇｕｐｔａ．ｎｋｅｒＨ丑Ⅲ蠲０９１ｕ，Ｂｒｉａｎｓｔａ赶ｏｒｄ．ｓｃ“曲ｋ

Ｄｉ８一ｔｎｂｕｔｅｄ

ｄａｔ…ｎｌ“ｇ“ｓｌ“ｇ…ｇｃｎｔ

ｂ８ｓｅｄａｒｃＩｌｉｔｅｃｔｕｒｅ．Ｐｒｏｃ

ｏｆ

ＫＤＤ９７，Ｍｅｎｌｏ

Ｐａｒｋ．ＣＡ，１９９７２１１～２１４

６

Ｈ．Ｋａ‘ｚ“ｐｔａｔＢ．Ｐａｒｋ－ＥＪｏｈｎｓｏｎｔ

Ｅ．Ｒｉｖ丑Ｓａｎｓ—ｄｎｏ，Ｌ¨Ｄｉ

ＳＬｌｖｅｓｔｒｅ，ａｎｄＤ

Ｈｅ髂ｈｂｅ‘ｇｅｒ．Ｃｏｌｌｅｃｔｉｖｅｄａｔｄｍｌｎｍｇｈｏｍｄｉｓ

ｔｒｌｂｕｔｅｄ

ｖｅｒｔｌｃａ【ｌｙ

ｐａｒｔＩｔｉ…ｄ

ｋａｔ…ｐａｃｅ

Ｗｏｒｋｓｈｏｐ

ｏｎ

ｄ稚

ｔｒｌｂｕｔｅｄｄａｔａｍｌｎｌｎ出［Ｃ］Ｉｎｔｅｒｎａｔ地ｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉ８ｃｏｖｅｒｙａｎｄＩ）ａｔＢ

Ｍ１ｍｎｇ．ＮｅｗＹｏｒｋ．ＮＹ，ＵＳＡ，１９９８

７

ＪｌａｗｅｌＨａｎ，Ｋｆ掣８ｚｔｏｆ

Ｋｏｐｅｒ８ｋ】ｔＮｅｂｏｊ８ａ

ｓｔｅｆ洲ｃ，ｃｋｏＭｌｎｅｒ：

ＡＳｙｓｔｅｍｐｒｏｔｏｔｙｐｅｆｏｒ

８ｐａｔ试ｄａｔａ叫ｎｍ昏［Ｃ］ＳＩＧＭＯＤ’９７

ＡＺ．ＵＳＡ．１９９７

８

Ｋａ‘ｇｕｐｔａ，Ｈ，Ｈａｍｚａ０９１ｕ，Ｉ．，Ｓｔａｆｆｏｒｄ．ＢＳｃａｌａｂｌｅ，Ｄｉｓｔｒｉｂｕｔ—

ｅｄ

ｄａｔ㈣ｎＩ“ｇ

ｕＢｌ“ｇａｎａｇｅｎｔｂａ８ｅｄ

ａｒｃｈｌｔｅｃｔ…．［Ｃ］Ｐｒｏｃｅｅｄｉ“９８

ｏｆＫｎｏｗｌｅｄｇｅＤ１８ｃｏｖｅ‘ｙＡｎｄＤ＆ｔａＭ１ｍｎｇ．ＥｄｓＩ

Ｄ

Ｈｅｃｋ…ａｎ，

Ｈ

Ｍａｎｎｉｌａ，ＵＰｒｏｇｌｂｏｎａ【■Ｒ

Ｕｔｈ…ｓａｍｙ

ＡＡＡＩ

Ｐｒｅｓｓ

２ｌｌ～２１４．１９９７

９

Ｋａ７９“ｐｔａ．Ｈ．．Ｈ咄８０９ｌｕ．Ｉ．．ｓｔａ“ｏｒｄ，Ｂ．ｗｅｂ

ｂａｓｅｄ

ｐａｒａｌ—

ｌｅｌ／ｄｉ８ｔｎｂｕｔｅｄｍｅｄｌｃａｌ

ｄａｔ…ｎｌ”ｇ

ｕｓｌ“Ｅ

ｓｏＩｔ…ｅ８９ｅｎｔｓ【ｃ］

Ａ呲ｍａｎＭｅｄＫａｌＩｎｆｏｍ诅ｔＫＢ

Ａｓ啪ａｔ

Ｌｏｎ

ＦａｌＩＳｖｍＤｏｓ…．１９９７

ｌＯ

Ｐ．ＣｈａｎａｎｄＳ乳０１ｆｏ．ｏｎ

ｍ……ａｃｙ

ｏｆ

ｍｅｔａ—ｌｅａｒｎＩ“ｚ‰ｒ

８ｃａｌａｂｌｅ

ｄａｔａｍｌｍ“ｇ，Ｊ［Ｊ］Ｉｎ№１１１９曲ｔ１ｎｆｏｒｎ】ａｔｌｏｎ

Ｓｙｓｔｅｍｓ－８：

５—２８．１９９７

ｌｌ

Ｒ．Ａｇｒ…ｌｔ

Ｊ

Ｃ．Ｓｈａ如ｒ，Ｐｎｒａｌｌｅｌ…ｌ“ｇ

ｏｆａｓｓｏｃｌａｔ】ｏｎ『ｕｌｅｓ

［Ｊ］ＩＥＥＥ

Ｔ…ｓａｃｔｌｏｎｓ。ｎ

Ｋ…ｌｅｄｇｅⅡｎｄ

Ｄ＆ｔⅡＥ“ｇｌ…ｒＩ“ｇ．８

（６），９６２～９６９，１９９６

１２

ｓｌ】ｉｂｙＴｈｏｍａｓ，ｓｕｍｔａｓａ…刖Ｍｌｎ】“Ｅｇ…ａｎｚｅｄ

ａｓｓ。ｃ㈨ｏＴｌ

ｒｕｋ８ａｎｄ

８８ｑ…ｔｉａＩｐ＆ｔｔ……ｌ“ｇｓｑＬ

ｑ…ｌｅｓＰｒ…ｅｄｌ“９８【）ｆ

ＫＤＤ９８．１９９８

３４４～３４８

１

３何炎祥、彭悻、宋文欣．分布式异构数据库中相芰规则的并行开采

算法研究．［Ｊ］武双大学学报（自热科学版）ｌ９９９Ｖｏｌ４５．Ｎ。。

６４９～６５３

１４

何炎祥．彭雉．基于网珞环境的分布式ＫＤＤ．受ＤａｔａＭ?…ｇ研究．［Ｊ］小型微型计算机系统．１９９９ＶｏＩ＿２（１，Ｎｍ８．ｚ（）～２４

１５何炎祥等．基于Ａｇｅｎｔ的分布ｌ｜算环境模型研究ＬＪ］武汉大学学

报（自然科学版），１９９９Ｖｏｌ４５，Ｎｏ３．５５７～５６０

ＲＥＳＥＡＲＣＨＳＯＮＤＩＳＴＲＩＢＵＴＥＤＤＡＴＡＭＩＮＩＮＧ

ＨＥ

Ｙａｎ—ｘｌａ“ｇ

ＰＥＮＧ

Ｆｅ“ｇ

ＬＩ

Ｓｈｌ＋ｐｅ“ｇ

ＳＯＮＧＷｅｎ

ｘｌＴｌ

（Ⅳ曲删Ｕｍ口州ｎ，Ⅳ曲ｄｎ｛３００７２）

Ａｂｓｔｒａｃｔ

Ｗｅｆｌｒｓｔｍｔｒｏｄｕｃｅ

ｉｎｔ｝１ｅａｒｔｉｃｌｅｔｈｅⅢａｌｎｒｅｓｅａｒｃｈ

ｃｏｎｔｅｎｔ

ｏｆｔｈｅｆｉｅｌｄｏｆｄｉ８ｔｒｉｂｕｔｅｄｄａｔａｍｌｎｌｎｇ．ｓｏｍｅｒｅｌａｔｅｄ

ｗｏｒｋ

ａｎｄＰｘｐｅｒｔｍｅｎｔａｌ８ｙｓｔｅｍｓ

ｉｎ

ｔｈｅａｒｅａａｒｅ

ｔｈｅｎ

ｐｒｅＳｅｎｔｅｄ．Ｗｅａｌｓｏａｎａｌｙｚｅｔｈｅｐａｒｔｉｃｕｌａｒｃｈａｒａｃｔｅｒｓ

ｔｈａｔ㈣ｌｌ—ｆｏｒｍｅｄ

ｄｌｓｔｒ｜ｂｕｔ—ｅｄ

ｄａｔａ

ｍｌｎｍｇ８ｙｓｔｅｍｓｈｏｕｌｄｈａｖｅｉｎｉｔｓａｒｃｈｉｔｅｃｔｕｒｅ．Ａｔｔｈｅｒｅｓｔ

ｏｆｔｈｉｓａｒｔｉｃｌｅ，ｗｅｅｍｐｈａｓｉｚｅｓｏｍｅｋｅｙ

ｐｒｏｂｌｅ川ｎ

ｔｈｅ

ｎｅａｒ

ｆｕｔｕｒｅｓｔｕｄｙｏｆｔｈｅｄＩｓｔｒｉｂｕｔｅｄｄａｔａｒⅡｌｎｍｇ．

Ｋｅｙ

ｗｏｒｄｓ

ＫＤＤｌ

Ｄｌｓｔｒｉｂｕｔｅｄ

ｄａｔａ

ｍｉｎｉ“ｇｆＡｇｅｎｔ

万方数据

分布式数据开采研究

作者：何炎祥，彭锋，李世平，宋文欣

作者单位：武汉大学软件工程国家重点实验室武汉 430072

刊名：

小型微型计算机系统

英文刊名：MINI-MICRO SYSTEMS

年，卷(期)：2001，22(2)

被引用次数：9次

参考文献(3条)

1.何炎祥.彭锋.宋文欣分布式异构数据库中相关规则的并行开采算法研究 1999(05)

2.何炎祥.彭锋基于网络环境的分布式KDD及Data Mining研究 1999

3.何炎祥基于Agent的分布计算环境模型研究 1999(05)

引证文献(9条)

1.冯俊分布式异常检测研究[学位论文]硕士 2007

2.王益萍.琚春华基于分布式数据挖掘的连锁商业企业经营决策分析[期刊论文]-商业研究 2006(20)

3.张克君基于多镜像站点的分布式Web使用挖掘技术研究[学位论文]博士 2006

4.王征分布式网上信息实时监控及动态采集系统[学位论文]硕士 2005

5.刘印数据挖掘技术在固网通信运营业的应用研究[学位论文]硕士 2005

6.余运强基于Web服务的网络监控系统设计与实现[学位论文]硕士 2005

7.侯敬军.曾致远.向凌一种基于Web服务的分布式数据挖掘体系结构[期刊论文]-微机发展 2004(6)

8.蒋良孝.蔡之华分布式数据挖掘研究[期刊论文]-计算机与现代化 2002(9)

9.黄永锋.刘同明聚集式聚类分析方法及其应用[期刊论文]-华东船舶工业学院学报(自然科学版) 2002(4)

本文链接：https://www.doczj.com/doc/9a11721973.html,/Periodical_xxwxjsjxt200102017.aspx

授权使用：南京航空航天大学图书馆(wfnhtsg)，授权号：a153447b-3b69-4751-9be5-9e2a011aa679

下载时间：2010年11月10日