当前位置:文档之家› 遗传神经网络在商业银行信用风险评估中的应用

遗传神经网络在商业银行信用风险评估中的应用

第22卷第2期

2001年2月

文章■号:l000—1220(2001)02一019l—04

小型微型计算机系统

MlNl一M1CROSYsTEM

分布式数据开采研究

何炎祥彭锋李世平宋文欣V01.22No2Feb.2001

(武汉太学软件工程国家重点实验皇武援430072)

(武汉大学计算机科学系武汉430072)

擅要:奉文首先俺单介绍了分布式数据开采的主要研究内客,然后介格了分布式教据开采研宽的现状厦一些实验系巍.随后分析了分布式敷括开采系统的体皋蛄构盅谊具有的特点.曩后,曩出了分布式羲据开采中一些重点研究问赶.关■词:KDD,分布式数据开采,Agent

分类号:TP3儿文t标识码:A

1分布式数据开采简介

近几年,数据开采的研究有了很大进展,在分布式数据库环境中进行数据开采的研究显得尤为突出.无论是提出的分布式开采算法”‘“”’Ⅲ.还是设计的分布式开采体系结构““’743t都为在分布式数据库环境下进行数据开采提供了很有力的支持.为什么面向分布式数据库的数据开采的研究得到了如此的重视呢?这主要是由于以下几个原因:1.因为数据开采的目标是大规模的数据集,而在现实环境中,绝大部分的大型数据库都是以分布式的形式存在的,因此,提出新的分布式数据开采系统的体系结构是非常必要的.

2.在数据开采系统中,经常需要来自不同站点的数据库中的数据,这就使得数据开采系统必须具有分布式开采的能力,同时也需要我们根据分布式数据开采的特点设计新的分布式数据开采算法.

3.随着www的快速应用普厦,Internet成为人类历史上最大的数据振.Internet中的数据在以几何级数的速度增长.如何利用I毗ernet中的资源,如何在Internet中进行数据开采也开始成为人们考虑的问题”3因为Intemet本身就是一个巨大的分布式系统,分布式敷据开采系统是在Internet中获取知识的最好工具.

由于分布式散据开采的巨大应用前景,目前已有相当数量的研究人员投入到对该镊域的研究中,并且取得了一定的成果.第二节,我们介绍当前分布式数据开采的研究现状.在第三节中.对分布式数据开采系统的体系结构做一个简要的介绍和分析.第四节.我们提出分布式数据开采中需要重点研究的三个问题.

2当前研究现状简介

虽然分布式数据开采是近几年才提出的一十新的研究领域,但是已经引起了相当多的研究者的注意,取得了一定的进

PADMA系统03是Hill01Ka’gupta等提出的一个使用Agent技术的分布式数据开采系统.其主要功能模块包括可以完成数据开采任务的Agent,用于协调Agent工作的一个Facilitator.系统与用户的交互界面.数据开采Agent负责访问数据并从中获取有用的信息或知识,这些Agent可以并行工作井通过FacⅡitator共享它们的数据.除在Agent之间传递信息之外,Facditator还负责向用户界面模块传递得到的信息和知识,并可以将用户的反馈传递给各个Agenl.PAⅡMA系统使用一个基于web的用户界砥来向用户显示得到的信息,并从用户得到开采的请求.用户可以使用标准的sQL语言书写自己的请求,Facllitator将用户的请求广播给所有的Agent,然后由各个A擎nt各自开采与请求有关的信息,最后由Facd?tator收集信息并反馈给用户.该系统使用PPFs(ParalIelPortableF1lesystem)开发t目前主要用于分布式系统中文本文档的分析和分类.

JAMsystem“?”’是美国哥伦比亚大学的salvaforPstolfo教授和佛罗里达理工学院的Phdipchan教授等设计的一个分布式戢据开采系统.JAMsystem可以从各个独立的金融机构的数据库中发掘出关于诈骗的知识模式.然后将得到的各个独立的模式形成一个一般的模式.JAM系统可以从各个站点中发掘各自的分类器(classmer).然后根据备个站点的分类器生成全局的分类器.该系统使用JAvA语言编写,具有较好的平台无关性.在这个系统中提出了使用me【alearnhlg进行分布式数据开采的思想

woRld”1是美国Pittsbur曲大学的Aronls教授等设计的一个分布式数据开采系统.在这个系统中,作者提出了两十分布式Bayesian开采模型.这两个模型利用一些范例数据集得到对于整个数据集的特性的预测,第一个模型用于数据在全局范围内是平等分布的情况,而第二个模型则针对于数据在全局范围内是不均匀分布的情况.目前该系统必须依靠人工来保存一个垒局的数据库连接,并且假设分布式异构数据库中存在一个全局可用的词拒表.

HmolKargupta等最近提出一种称为co№nlvPDala

收藉日期:2000ol一1l作者简介:何炎祥,教授.博士生导师,研究方向为分布计算,戟件工程 万方数据

小型徽型计算机系统2001年

M—mng“一的思想来实现分布式数据开采,作者认为,分布式数据开采算法一般都分为两个步骤:①进行局部数据分析得到局部的数据模型,②在全局范围内根据不同站点的局部模型得到全局模型但是,如果各站点问的数据并非线性相关的,也就是说全局模型在各站点问并非是直接可分解的,那么从各站点的局部模型不能直接得到全局模型.collectiveDataMmtnR主要就是解决上面的问题.其主要方{击是首先各个站点根据自己的数据集独立计算一个近似规范正交基系数,然后从各个站点的数据集选取一些特定的样本移到一个站点上.根据这个集成数据集来计算针对于非线性交叉项的近似基系数,最后根据基系数将局部模型合并成全局模型并提交给用户

在目前的分布式数据开采的研究工作中,非常重要的一个方面是如何设计一个分布式数据开采系统的体系结构,真正能支持各种分布式开采算法.真正实现平台无关性.目前这方面的工作仍属于起步阶段,但是使用Agent技术和jAvA语言是很多研究者的共识

3分布式数据开采系统体系结构的特点

由于基于网络的分布式数据库通常处于一种分散的状态,其特点是数据的异构和站点的分散,这给分布式数据开采造成了很大的困难.因此,提出一个能有效的处理分布式异构数据的开采系统框架是非常重要的““.只有在有效的框架和体系结构支持下,分布式数据开采算法才能真正的发挥作用.我们甚至可以说,没有有效的框架和合理的体系结构的支持,分布式数据开采基本上是不可能的.

我们认为,为了有效的支持分布式数据开采,一个分布式数据开采系统应该具有以下的基本特性;

l通讯便利一个有效的分布式开采系统应该可以在本系统的各个站点间很方便地进行通讯.这种通讯应该是在较高层次上完成的,例如不需要考虑底层是使用的TCP/IP协议还是IPx/SPx协议.此外,这种分布式数据开采系统中的通讯功能应该可以很方便的处理原始数据,所发据的知识,开采的请求以及开采请求的参数

有些情况下甚至可以传送开采算法本身.

2.吝易扩展由于数据开采理论和算法研究的快速发展.新的知识形式.新的数据开采算法不断出现.为了能够保证分布式数据开采系统的持续可用,分布式数据开采系统应该设计成容易扩展的开放式系统当出现新的算法,新的知识形式时,系统能够通过自身的扩展性功能加人这些新的知识形式,新的算法,而无须对系统进行重新构造或编写.3是活开采分布式数据开采系统应该可以灵括响应用户的各种数据开采要求,比如对不同大小,不同位置的数据库的开采,对同一数据库开采各种形式的知识,对一个数据库的某个子集进行开采等等.

“移动开采在有些数据开采算法中,需要开采算法顺序访问各个站点中的数据集,那么,分布式数据开采系统必须可以支持开采算法的移动性也就是说,当一个算法在一个站点上完成了在本站点的数据开采任务之后,还可眦移动到其它站点上继续进行开采.

5.知识共丰在各个站点间进行分布式开采时必须采用可以被理解的知识形式.一是因为分布式数据开采一般包古面向知识的开采.即在本地知识的基础上开采全局知识,所以必须采取柏够同一理解的知识表示方式才能够在各十站点问实现协同开采.二是因为各个站点上的用户可能需要访问其它站点上的知识,这也需要有一种通用的知识表示方式.6.平台无关由于在分布式系统中存在着平台的异构.操作系统的异构,数据库系统的异构,因此分布式数据开采系统应该能够完成在各种平台的数据开采任务无论是各个站点上的数据开采算法,还是全局数据开采算法,都必须能够处理各种平台上的数据处理及通讯任务.

7.安奎保证在分布式系统中进行数据开采需要考虑的一个问题就是安全性的保证.一般来说有三个方面的安全性考虑:一是数据存取的权限控制.二是知识存取、传送的安全,三是开采任务的设置权限.郎什么角色可以发起什么样的数据开采任务.

8.集中拉制为了方便地实现分布式数据开采,一个用于集中控制的站点(可以是浮动的)是必须的在不存在全局控制站点情况下,整个系统的通讯开销是非常巨大的.为了得到全局知识,所有的站点将进行大量的广播,比起使用全局控制站点的系统来说,开销和难度无疑要大得多.此外,在某些分布式数据开采算法中.需要进行全局范围内的决策,这也是引^全局控制站点的一个自然原因实际上在引入丁全局控制站点后,系统的可扩展性和灵括性都得到了很好的支持.

实际上.在设计一个分布式数据开采系统时,我们还需要考虑其它一些问题,比如,如何处理各站点问负载的均衡,如何处理异构数据之间的的联系.对于开采出来的知识如何有效的表示和与用户的交互等等但是这些问题有些可以利用现有的分布式系统研究的成果和结论,有些则已经在现有的数据开采算法和系统研究中已经得到了充分的考虑.因此,目前的分布式数据开采系统研究丰耍的目标是完成以上列出的分布式数据开采系统的特定功能

4分布式数据开采的关键问题

虽然分布式数据开采研究已经有了很大的进展,但目前仍处于起步阶段.需要解决的难题还有很多.下面是几个需要解决的关键问题.

4.1利用AGENT技术进行分布式数据开采

在计算机领域,Agent是指分布式系统中能持续自主发挥作用的计算实体.在文““中提出了Agent应该具有的四个特性:

l_自主性Agent具有属于其自身计算资源和局部于自身行为控制的机制,能在无外界直接操纵的情况下.根据其内部状态和感知到的外部环境信息决定和控制自身的行为2.交互性能与其它的Agent进行多种形式的交互,能有效的与其它的Agent协同工作.

3.反应性能感知所处的环境,并对相关事件作出适时

 万方数据

2期何炎祥等分布式数据开采研究

的反应.

4.主动性能遵循承诺采取主动行动,表现出面向目标

的行为.

进行数据开采的Agent(称为DMA)可以独立完成用户提出的敷据开采的任务.同时,它可以同其它站点上的DMA协同完成分布式数据开采任务.它拥有自己的开采算法,这些算法中一部分负责完成本地的数据开采任务,另一部分负责和其它的DMA协同完成分布式开采.每一个DMA所拥有的算法并不一定是一样的.它可能只需要能够处理车地数据集的算法,因为每个站点上的数据集的特性都是不同的.有的DMA需要处理常规数据库中的数据,而有些则需要处理多

媒体数据、文本数据.但是,在整个系统中,每一个DMA所开

采的知识必须是以其它DMA所能理解的形式存放的,只有这样.才能使得各个DMA可以协同完成分布式数据开采任务每一个DMA都有同其它DMA进行通讯的功能,传送的内容包括知识.相关数据,甚至是DMA本身

一般来说,为了高效的完成分布式数据开采任务,使用Agent的分布式数据开采系统都使用一个全局的程序负责发起和协蜀全局范围内的数据开采请求“‘1,为此,还需要有一套全局开采所必须的决氟系统以完成从局部模型刊全局模型

的合成.

r】MA必须有良好的可扩展性.也就是说,新的算法、知

识可以方便的加入到DMA的算法库和知识库中,而不需要

对nMA的核心代码做大的修改.DMA还可以自动感应数据集的变化,自动进行知识的更新.在有些系统“1中nMA还拥有自己的数据管理子系统和数据缓存以提高数据存取的速度

从而提高开采的速度

目前的研究重点主要在于如何提高Agent的适应性以

及自主性,使其能够适应各种平台、数据库.不同特征的数据集,更加智能化的完成分布式开采的任务.此外,使用可移动的Agent(Mohl】eAgent)与增量式数据开采算法相结合进行分布式的数据开采也是研究的方向之一.4.2数据开采原语

引^数据开采原语有两个好处:

①可眦减少数据开采任务的缩程量.sGI公司的Min巳一ser系统在开发时使用了一个称为MI,c++(MachlneIIearn—

mg

Llbrary

uslng

c++)的c++类库.其中封装了分类、聚

类、关联规则等的开采算法虽然还不能算是数据开采原语,但已经大大减轻了开发一个数据开采系统的工作量

②可姒方便的实现使用MoblleAgent技术进行分布式数据开采.如果使用散据开采原语来编写MobiIeAgent的代

码,那么它在网络中传输时只需要非常小的带宽,并且很容易实现平台无关性

数据开采原语的设计需要解决以下问题:

1.2

l划分的粒度

将数据开采的功能归纳成一个包含有各种基奉操作(即

数据开采原语)的集合需要仔细考虑划分的粒度.划分过细,

达不到预期的目标,无法减小程序规模,方便开发过程;划分

过粗.就会影响灵活性,无法完成一些特定的开采任务

193

4.2.2原话的选择

原语的选择应该是基于对大量的数据开采算法的分析和研兜.从中找出最常用以及最能提高效率的部分.这个工作足非常困难的因为数据开采处理的数据多种多样,使用的算珐也千变万化,有使用c++,JAvA语言的,也有使用sQL语言的.有基于统计学理论的,有基于神经网络计算的,所以从中找出共同点并不容易.

此外,如何编写原语的解释程序以达到高散、平台无关的特点,如何在加人新的知识和算法时灵活的扩充原语集也是需要解决并且具有相当难度的问题在目前的情况下.我们认为可以在一些特定的应用领域内编写具有特定使用范围的数据开采原语,例如我们在文n4,15]中提出的M—sQI。语言.

4.3面向知识的学习(雌t分karⅡiⅡ夸)

在分布式数据开采的研究中,文[1]中提出了mela

learni“g的概念.所谓meta一1叫mg,就是基于知识的学习,

也就是如何在局部知识的基础E学习全局知识.

在文[1]中提出了如何在一个分布式数据库系统中发现全局的分类器(classifier)的过程首先,开采算法在各个站点中发现局部的分类器,称之为basiccla㈣f?er,在此过程结束

后,使用一个基于met8—1earnInz的算法在baslc

cl跚lflPr神

基础上发现Ⅱ坨t丑_cla蚓fief,也就是全局的分类器

在文[13]中提出的关联规则的分布式开采算法也是一个

基于meta一1earni“g的算法它从局部的关联规则的基础上得到了全局的关联规则,而不是直接进行全局开采

但是并不是所有的知识和算法都能直接实现melat

learni“g.比如说,在相当多的算法“。”1中需要采用训练集束

生成所需要的知识,此时如何选择全局范围内的训练集就需要一定的处理,而不是由算法直接选择另外.当局部知识和全局知识的关联不紧时,皿eta1rarnmg的正确性和完备性如何保证,也是需要研究的问题

要实现高效的分布式异构数据库巾数据开采川"

Iearnmg是一种非常有效的技术它不仅利用了局部开采的

散据,减少了计算的开销,而且正如我们提出的算法“”所显示的那样,在各个站点间传递的大部分是知识而非数据,极大地减少了系统的通讯。并且易于实现异构数据的开采.因此.

如何实现meta—learⅢng也是分布式数据开采所急需解决的

难题之一.

参考文献

A.L¨Prod…1dls.P

K(、hn,sJ轴一f。Mcta

le…11Ⅵln

dlstrIbutcd

data…L“zsyst…:18suesand“pp7…hes

Ad

…ceslndlsmbuteddat…㈨“g(M]AAAI

PresHtKa。g“Pta

andChan(eds.),1999z

Aronjs,J

M..Kollurl,V.P…os£.FJ

et

alTl…¨rld;

Knowledgedjsco—yfrommultjp【edlstnbutedd¨ab…s【R:

Technlcal

R印ort

ISL96—6

lkpa

rt…t

of

Computer

sc㈣1rP

UnlversnvofP¨tsburRh.19963

CheunE,VT¨g-A

Fu—andY

FuE‰㈣n

mlnln2

oI

assoclatjon

Tul…n

d”rrlbute(1【IⅡtabases

1eee

I’rar1^[J]0nKnowledge

AndData

E“gl…mz

n…ber

1996.H

9儿~922

Eui—H佣gHan,Geor98Kn。ypls,V1pmKum且r

sca【nbI。Parallc』

 

万方数据

194

小型微型计算机系统

dat…l“gf0…socIⅡt…山es[C]P㈨f

SIGMOD‘97

AZ

UsA.277~Z87.1997

H’umKa‘gupta.nkerH丑Ⅲ蠲091u,Briansta赶ord.sc“曲k

Di8一tnbuted

dat…nl“g“sl“g…gcnt

b8sedarcIlitecture.Proc

of

KDD97,Menlo

Park.CA,1997211~214

H.Ka‘z“ptatB.Park-EJohnsont

E.Riv丑Sans—dno,L¨Di

SLlvestre,andD

He髂hbe‘ger.Collectivedatdmlnmghomdis

trlbuted

vertlca【ly

partIti…d

kat…pace

Workshop

on

d稚

trlbuteddatamlnln出[C]Internat地nalConferenceonKnowledgeDi8coveryandI)atB

M1mng.NewYork.NY,USA,1998

JlawelHan,Kf掣8ztof

Koper8k】tNeboj8a

stef洲c,ckoMlner:

ASystemprototypefor

8pat试data叫nm昏[C]SIGMOD’97

AZ.USA.1997

Ka‘gupta,H,Hamza091u,I.,Stafford.BScalable,Distribut—

ed

dat㈣nI“g

uBl“ganagentba8ed

archltect….[C]Proceedi“98

ofKnowledgeD18cove‘yAndD&taM1mng.EdsI

Heck…an,

Mannila,UProglbona【■R

Uth…samy

AAAI

Press

2ll~214.1997

Ka79“pta.H..H咄809lu.I..sta“ord,B.web

based

paral—

lel/di8tnbutedmedlcal

dat…nl”g

usl“E

soIt…e89ents【c]

A呲manMedKalInfom诅tKB

As啪at

Lon

FalISvmDos….1997

lO

P.ChanandS乳01fo.on

m……acy

of

meta—learnI“z‰r

8calable

datamlm“g,J[J]In№1119曲t1nforn】atlon

Systems-8:

5—28.1997

ll

R.Agr…lt

C.Sha如r,Pnrallel…l“g

ofassoclat】on『ules

[J]IEEE

T…sactlons。n

K…ledgeⅡnd

D&tⅡE“gl…rI“g.8

(6),962~969,1996

12

sl】ibyThomas,sumtasa…刖Mln】“Eg…anzed

ass。c㈨oTl

ruk8and

88q…tiaIp&tt……l“gsqL

q…lesPr…edl“98【)f

KDD98.1998

344~348

3何炎祥、彭悻、宋文欣.分布式异构数据库中相芰规则的并行开采

算法研究.[J]武双大学学报(自热科学版)l999Vol45.N。。

649~653

14

何炎祥.彭雉.基于网珞环境的分布式KDD.受DataM?…g研究.[J]小型微型计算机系统.1999VoI_2(1,Nm8.z()~24

15何炎祥等.基于Agent的分布l|算环境模型研究LJ]武汉大学学

报(自然科学版),1999Vol45,No3.557~560

RESEARCHSONDISTRIBUTEDDATAMINING

HE

Yan—xla“g

PENG

Fe“g

LI

Shl+pe“g

SONGWen

xlTl

(Ⅳ曲删Um口州n,Ⅳ曲dn{30072)

Abstract

Weflrstmtroduce

int}1earticletheⅢalnresearch

content

ofthefieldofdi8tributeddatamlnlng.somerelated

work

andPxpertmental8ystems

in

theareaare

then

preSented.Wealsoanalyzetheparticularcharacters

that㈣ll—formed

dlstr|but—ed

data

mlnmg8ystemshouldhaveinitsarchitecture.Attherest

ofthisarticle,weemphasizesomekey

proble川n

the

near

futurestudyofthedIstributeddatarⅡlnmg.

Key

words

KDDl

Dlstributed

data

mini“gfAgent

 

万方数据

分布式数据开采研究

作者:何炎祥, 彭锋, 李世平, 宋文欣

作者单位:武汉大学软件工程国家重点实验室 武汉 430072

刊名:

小型微型计算机系统

英文刊名:MINI-MICRO SYSTEMS

年,卷(期):2001,22(2)

被引用次数:9次

参考文献(3条)

1.何炎祥.彭锋.宋文欣分布式异构数据库中相关规则的并行开采算法研究 1999(05)

2.何炎祥.彭锋基于网络环境的分布式KDD及Data Mining研究 1999

3.何炎祥基于Agent的分布计算环境模型研究 1999(05)

引证文献(9条)

1.冯俊分布式异常检测研究[学位论文]硕士 2007

2.王益萍.琚春华基于分布式数据挖掘的连锁商业企业经营决策分析[期刊论文]-商业研究 2006(20)

3.张克君基于多镜像站点的分布式Web使用挖掘技术研究[学位论文]博士 2006

4.王征分布式网上信息实时监控及动态采集系统[学位论文]硕士 2005

5.刘印数据挖掘技术在固网通信运营业的应用研究[学位论文]硕士 2005

6.余运强基于Web服务的网络监控系统设计与实现[学位论文]硕士 2005

7.侯敬军.曾致远.向凌一种基于Web服务的分布式数据挖掘体系结构[期刊论文]-微机发展 2004(6)

8.蒋良孝.蔡之华分布式数据挖掘研究[期刊论文]-计算机与现代化 2002(9)

9.黄永锋.刘同明聚集式聚类分析方法及其应用[期刊论文]-华东船舶工业学院学报(自然科学版) 2002(4)

本文链接:https://www.doczj.com/doc/9a11721973.html,/Periodical_xxwxjsjxt200102017.aspx

授权使用:南京航空航天大学图书馆(wfnhtsg),授权号:a153447b-3b69-4751-9be5-9e2a011aa679

下载时间:2010年11月10日

相关主题
文本预览
相关文档 最新文档