当前位置:文档之家› 数字图书馆的知识发现研究

数字图书馆的知识发现研究

湘潭大学

硕士学位论文

数字图书馆的知识发现研究

姓名:靳晓恩

申请学位级别:硕士

专业:图书馆学

指导教师:龙朝阳

20080506

摘要

随着网络信息环境的发展,“信息数量与信息质量非成正比”的信息爆炸现象日益明显,作为人类“知识宝库”的数字图书馆,要真正的“名副其实”,为用户提供更深层次的知识服务,提升自身的信息服务能力,成功应对复杂的信息竞争环境。就要寻求更好技术支持。而应“信息爆炸而知识贫乏”的时代背景发展起来的知识发现技术,正是以有效发现大量数据背后新颖的、并潜在有用的知识为目的。如果将其成功运用在数字图书馆的建设中,无疑将会对提高数字图书馆的知识服务价值起到很大的作用。

因此,对数字图书馆的知识发现进行研究就有着十分重要的意义。而且,近几年来,数字图书馆研究领域的专家、学者已开始运用知识发现技术对数字图书馆资源进行分析研究,只是这些研究仍还处于初步阶段。

本文将通过综合、归纳、文献研究等方法,理论联系实际,合理分析知识发现的方法、过程,对数字图书馆的显性知识及隐性知识的挖掘进行了设计和讨论。并针对数字图书馆资源复杂的特点,强调知识发现过程的系统性,对数字图书馆知识发现的系统构建做了进一步的研究探讨。旨在寻求更佳的数字图书馆建设之路。

本文分为六个部分来对数字图书馆的知识发现进行研究。第一部分首先对数字图书馆知识发现的研究背景和意义作了阐述;然后介绍了研究目的、方法及创新之处;第二部分阐述了数字图书馆及知识发现的相关理论,介绍了知识发现的定义、类型、方法、过程及其与数据挖掘的比较;以及数字图书馆的概念、资源类型及特点等内容;第三部分首先阐述了知识发现系统的一般架构,然后,在此基础上构建了数字图书馆的知识发现系统,并阐明了系统的实现过程;第四部分根据数字图书馆的资源类型特征,通过文本挖掘、多媒体挖掘、结构挖掘、用户信息挖掘四个方面阐述了数字图书馆知识发现的内容。同时,特别强调了存在于数字图书馆馆员及用户身上的隐性知识的发现;第五部分指出了数字图书馆知识发现过程中的非技术因素及在开展知识发现过程中应特别注意的问题;并阐述了数字图书馆知识发现的研究方向;第六部分总结了本文的主要研究内容以及展望了数字图书馆知识发现研究不断发展的前途。目的是为了加深人们更加系统地、全面地认识数字图书馆的知识发现,进而推动更深入的关于数字图书馆知识发现的研究进程。

关键词:数字图书馆;知识发现;文本挖掘;多媒体挖掘

Abstract

With the development of the internet and information circumstance, and the increasingly distinctness of the information explosion,the quantity of information is out of proportion to the quality of information, and it becomes a great challenge to digital library. Digital Library is about to be a real knowledge library, and give users deeply knowledge service, and improve the capability about the information and knowledge service, and be succeeded in dealing with the intricate and competitive information circumstance. So, Digital Library should look for a method to discover the ability of new knowledge service. Knowledge Discovery in Database (KDD) can discover the novel and useful knowledge from the backside of a great deal of data. So KDD can help Digital Library discover more useful and inerratic knowledge. And it is an important research for Digital Library’s development.

The methods such as synthesis, induction and literature search are adopted in this paper, and combines the theory with the reality, discusses how to carry on knowledge discovery in Digital library . And the research aim is seeking a road to construct the better Digital library.

Six parts are included in this paper.

Part 1 introduces the research background, research status quo, research methods, research goal and innovation of this paper.

Part 2 elaborates the correlation theories of Digital library and Knowledge discovery.

Part 3 discusses knowledge discovery system's general construction, and how to construct knowledge discovery system in Digital library, and expounds system's function and the duty.

Part 4 discusses Digital library's resources type characteristic, and how to practice text mining, multimedia mining, structure mining and user’s information mining.

Part 5 emphasizes the non-technical factors in the process of knowledge discovery in Digital library, and elaborated research direction.

Part 6 summarizes this main research content of this paper, and prospects the research future.

The goal of this paper is discussing knowledge discovery in Digital library systematically and generally, and promote the advancement of the knowledge discovery research in Digital library.

Key words:Digital Library ; Knowledge Discovery ; Text Mining ; Multimedia Mining.

湘潭大学

学位论文原创性声明

本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名:日期:年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湘潭大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名:日期:年月日

导师签名:日期:年月日

第1章引言

1.1 选题背景、研究现状及意义

1.1.1 论文选题背景

随着网络信息环境的发展,数字图书馆面临着信息技术及用户信息需求不断发展的推动和信息竞争环境迅速变化的挑战。

一方面,随着信息技术、数据库技术的快速发展,“信息爆炸”现象的越来越明显,信息存储方式的不断升级(从数据库到数据仓库、数据库群等),无不在揭示着数据容量呈现指数增长的速度之快。然而,数据处理技术的发展却相对落后,数据库技术仍然停留在相对简单的录入、查询、统计、检索阶段,对数据库中的数据之间存在的关系和规则、数据的群体特征、数据集内部蕴涵的规律和趋势等,却缺少有效的技术手段将其提取出来,从而出现所谓的“被数据淹没,却饥渴于知识”(John Naisbett,1997)的现象[1]。但是,人们对“知识”的需求水平却在不断升级,越来越不满足于仅仅通过简单的查询所获得的信息,而是要获得更加有用的深层次“知识”,以满足自身学习和工作的需要。那么寻求提取隐藏在大量数据背后的重要信息和知识的方法,就成为当务之急。

而知识发现(Knowledge Discovery in Database,KDD)的兴起,是人们长期对数据处理和分析进行研究和开发的结果,它使数据库技术进入了一个更高级阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出数据之间的潜在联系[2],发现具有指导性作用的预测、差异性知识。成为应对目前“信息丰富而知识贫乏”现象、及帮助最大限度满足用户知识需求的有效工具和方法。

另一方面,在网络环境和信息环境的不断升级中,信息服务的提供方式也越来越多,而且,以Amazon、SciFinder和Web of Knowledge为代表的信息服务商、以Google Scholar 和Google Print为代表的网络搜索引擎、以开放存取(Open Access)和机构知识库(Institutional Repositories)为代表的开放信息交流模式等的信息服务形式都不仅仅只在于提供信息检索和获取方面,而是上升为提供知识挖掘、知识推送和知识组织功能方面。然而,数字图书馆在自身的建设过程中,仍存在着只注重提升资源能力和检索传递能力、而不重视提升用户利用信息提高工作效率的能力方面的不足。这样,数字图书馆就面临着前所未有的环境竞争和自身可持续发展的挑战。然而,从另一个角度来看,数字图书馆从兴起到现在,在满足用户需求的建设过程中,也有着一种数字图书馆自身发展和服务社会的必然趋势,就是从满足用户数据(仅是把图书馆资源数字化后形成数据库)需求、到满足用户信息(对数据库进行再加工)需求、再到满足用户知识(从信息库中挖掘知识)需求的上升演变趋势(如图1.1)。这一趋势暗示着数字图书馆的自我

提升也在不断地进行着。

图1.1 数字图书馆服务提供发展趋势图

因此,面对这种环境背景,本文从真正满足用户信息需要和充分保障数字图书馆的建设效益出发,提出了将知识发现技术系统化地应用到数字图书馆建设中,力求探索、发现隐藏于数字图书馆资源背后的各种关联、结构、趋势变迁和异常等有利于拓展数字图书馆服务机制的知识。从而,实现数字图书馆的成功上升演变,增强数字图书馆的核心竞争力,提升数字图书馆的信息服务能力和服务机制,拓展更广阔的数字图书馆发展空间,促进其可持续发展。那么,本文将对如何开展数字图书馆的知识发现工作进行研究。

1.1.2 知识发现的产生与发展

知识发现(Knowledge Discovery in Database ,KDD )是20世纪80年代兴起的一个交叉学科,它是在数据库技术、机器学习技术、统计学技术、人工智能技术等研究的不断深化中发展起来的。因此,它综合以上所有技术而产生。

知识发现(KDD )这个术语首次出现在1989年8月美国底特律的第11届国际人工智能联合会议的专题讨论会上,在美国国家科学基金会(NSF)的数据库研究项目中,KDD 被列为90年代最有价值的研究项目。随后在1991年、1993年和1994年举行的KDD 专题讨论会上,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。再后来,随着KDD 在学术界和工业界的影响越来越大,在1995年,国际KDD 组委会把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届KDD 国际学术会议,规模由原来的专题讨论会发展到国际学术大会,知识发现从此流行,此后每年召开一次KDD 国际学术会议。除此之外,更多的关于知识发现的国际会议也逐渐开展起来,如:亚太知识发现与数据挖掘会议(PAKDD )、美国人工智能协会(AAAi )、IEEE 数据挖掘国际会议(ICDM)、德国的数据仓库与知识发现国际会议

(DaWaK)等等。研究重点也不断完善升级,从发现方法到系统应用,更加注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。同时,伴随着会议的不断召开,关于知识发现研究的刊物、论坛、网站及书籍也随之出现,其中主要刊物如:1997年3月创刊的《Data Mining and Knowledge Discovery》、1997年10月出版的在线周刊为DS*(DS 代表决策支持)、以及Internet上流行的《Knowledge Discovery Nuggets》等;论坛如:网上论坛DM Email Club;书籍如:1996年美国AAA/MIT出版的《Advances in Knowledge Discovery and Data Mining》;网站如:英国的https://www.doczj.com/doc/3c4369610.html, 、美国的www. https://www.doczj.com/doc/3c4369610.html,、https://www.doczj.com/doc/3c4369610.html,、 https://www.doczj.com/doc/3c4369610.html,等。另外,从Knowledge Discovery Resources 2007(https://www.doczj.com/doc/3c4369610.html,/features/knowledgediscovery.htm,2007)上还可以了解更多的关于知识发现的知识。总之,所有这些,都为传播和研究知识发现提供了丰富的平台。

在应用上,近几年来,知识发现已成功应用于医学生物、商业、金融业、信息业、工程技术等很多领域。先进的知识发现系统也相继出现,世界上比较有影响的典型数据挖掘系统有SPSS公司的Clementine、SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、SGI公司的Mineset、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、加拿大Simon Fraser大学智能数据库系统研究室研究的DBMiner、以及CoverStory、EXPLORA、Knowledge Discovery Workbench、Quest等,另外,针对特定功能或产业的数据挖掘工具有KD1(针对零售业)、Options&Choices(针对保险业)、HNC(针对信用卡诈欺或呆账侦测)、Unica Model 1(针对行销业)等。而且,在一些领域,也已有了成功的应用实例,如:Kansas大学开发的基于Rough集理论的学习系统LERS,已被美国NASA的Johnson空间中心作为专家系统开发工具用于医学及全球气候变化分析;美国加州理工学院喷气推进实验室与天文科学家合作开发成功了自适应识别工具系统——SKICAT系统,用来识别火星上的小火山,其数据来自围绕火星飞行的Magellon号航空器等等;Regian大学的KDD—R已被用于医学数据分析和电信工业的市场分析;IBM公司的AdvancedSeout系统,针对NBA的数据,帮助教练优化战术组合;Lock Head Martin公司的AI中心开发的Reeon系统,用来辅助预测某种股票的趋势或推断是否可能出现异常变化等;澳大利亚将大型地理调查数据库进行归纳学习发现土壤含盐度分类知识等[3]。

这些成功的应用实例更是从实践上证明了运用知识发现工具所发现的知识,对生产、科研等很多领域具有巨大的指导作用。因此,对拥有庞大信息资源的数字图书馆开展知识发现工作,必将会为人类自身的发展及社会的发展进步提供更好的知识保障。

在我国,从事知识发现研究的人员主要在大学,也有部分在研究所或公司。从1994年至2005年4月,在中国期刊网上可查到的相关论文已有一万二千多篇[4]。涉及了很多研究领域,主要集中于学习算法的研究、数据挖掘的实际应用、以及有关数据挖掘理论方面的研究。然而,至目前为止,我国进行的大多数知识发现研究项目主要是由政府资助进行的,如国家自然科学基金、863计划、“九五”计划等,关于国内数据挖掘产品的

报道几乎未见。但是,对于知识发现的研究已成为我国研发的重点之一。

2004年,一份美国产业分析集团Gartner Group的报告中列举了在今后3~5年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。知识发现的应用前景可见一斑。而至今,知识发现研究的日见成熟,应用领域的进一步拓宽,也更加验证了其广阔的应用前景。

1.1.3 数字图书馆知识发现的研究现状

对数字图书馆的研究,从数字图书馆概念提出到现在,在数字图书馆资源建设、管理方式、技术、知识产权等各方面都进行了广泛的研究。而且,一直以来,从未停止过,并在这些研究的基础上不断总结经验,开发出更多更好的数字图书馆建设的技术、方法、途径。目前,随着知识发现在其它领域的成功应用,并显示出巨大价值,引起了图书情报界人士对知识发现的关注,并逐渐尝试将知识发现应用于数字图书馆的资源建设中去,以避免数字图书馆因信息过量而可能造成的知识短缺现象,以及更好地应对如何充分发挥其海量数字资源的作用的问题。从而引发了对数字图书馆开展知识发现工作的研究热潮,受到图书情报界、信息界越来越多的关注。

国外在将知识发现或数据挖掘应用于图书馆的研究较多,特别是1998年美国的Kyle Banerjee写的一篇文章《Is data mining right for your library?》,对将数据挖掘应用于图书馆产生了很大的影响力。随后,从理论到应用方面,美国就走在了前列,特别是2002年美国Syracuse大学信息学院副教授Scott Nicholson创建了Bibliomining信息中心,即Bibliomining Information Center Data Mining for Libraries (https://www.doczj.com/doc/3c4369610.html,),是专门研究数据挖掘(知识发现)应用于图书馆的中心,目的是集合更多的专业人士加入到将知识发现应用于图书馆的研究中,并提高Bibliomining在数字图书馆中应用的水平。

我国对于数字图书馆知识发现的相关研究,最早是1995年方豪彪在《试论KDD技术的发展对图书馆数据库系统的影响》一文中提出了KDD技术有助于满足用户对图书馆数据库的应用[5]。体现了我国图书馆界对KDD技术关注的开始。

随后,我国图书情报界对数字图书馆知识发现的研究主要集中在2001年至今这一时间段中,并受到多种图书情报界会议的关注,研究成果更以论文的形式频频呈现。较有影响的研究是2001年6月韩惠琴和刘柏嵩在情报学报刊物上发表的《数字图书馆中的知识发现》[6],针对数字图书馆特点,提出将知识发现技术应用于数字图书馆的信息发现和信息提供的方案,介绍了采用Web数据开采、多语种信息发现、跨学科协同检索和智能搜索引擎等方法,对实现服务个性化、信息智能推、语义交互和知识共享进行了探讨。从此打开了我国学术界对数字图书馆知识发现研究的热切关注之门。而较全面的研究是2004年,林丽在其硕士论文《数字图书馆数据挖掘研究》[7]中对数字图书馆知识发现中的数据挖掘进行了研究,对数字图书馆的结构、内容、用户记录等的挖掘进行了探讨,

但不足的是,文章未涉及针对数字图书馆隐性知识的挖掘,更未从知识发现系统思想的角度对知识发现过程进行全面研究,而且,对知识发现的研究层次也只停留在数据库的阶段,而未上升到基于知识库的研究阶段。

那么,从2001年至今,通过使用“数字图书馆、图书馆、知识发现、数据挖掘”等关键词排列组合后,在维普及CNKI数据库中进行检索,结果显示关于数字图书馆知识发现方面的相关文献有二三十多篇,通过对其中有代表性的几篇文章[8-25]的分析,发现其研究范围侧重于数字图书馆个性服务方面对用户信息的数据挖掘研究方面,而对于知识发现方法的运用偏重于关联规则在数字图书馆中的应用。虽然,大部分文献阐述并认识到了数据挖掘在数字图书馆中应用可以达到优化资源配置、提高资源利用率、提高服务质量等方面的作用,但是,由于数字图书馆资源比较复杂,大部分研究还不深入,只片面地研究了数据挖掘这一知识发现过程中的重要步骤的应用,缺乏对数字图书馆从信息发现到信息提供这一全过程进行系统化、全方位的知识发现研究,并且,知识发现在数字图书馆的应用中的成功实例很少或几乎没有。

因此,笔者认为:信息时代的数字图书馆建设,应从宏观的角度对数字图书馆的知识发现进行系统、全面的考虑,走更科学规范的研究道路,形成一套标准有序的知识挖掘过程,这是科学化研究的要求,是将知识发现从理论向在数字图书馆实际应用转变的可行途径,也是数字图书馆建设研究中的一个重要研究方向。

总之,数字图书馆的知识发现研究正方兴未艾,对其从理论到应用方面的研究还未成熟,特别是在知识发现的模式评价及知识可视化方面仍存在较大的困难,需要图书情报界人士及各学术界人士加大研究力度,顺应数字图书馆向知识创新型组织发展的趋势,系统、全面地研究数字图书馆的知识发现过程,构建更加完善的数字图书馆知识发现系统框架,全面地对数字图书馆资源的知识挖掘作深入探讨和研究。

1.1.4 数字图书馆知识发现的研究意义

1)理论意义

知识发现是一门多元化的交叉边缘学科,将其应用于具有丰富信息资源的数字图书馆的知识挖掘研究中,可以更有利于增强人们利用数字图书馆进行情报分析、评价、决策的科学性。并能从理论上推动数字图书馆研究和知识发现研究的进步,丰富知识发现的应用研究领域,拓展数字图书馆的发展研究之路。

2)实际意义

知识发现采用适当的模型和算法,从数字图书馆资源中发现隐藏知识、以及资源之间的关联和规律,以提升数字图书馆的信息服务能力,增强资源组织、分配、开发、评价的科学、有效性。因此,将知识发现应用于数字图书馆的资源开发中,将对提高数字图书馆的社会服务质量和服务价值,有着很大的意义:(1)有利于数字图书馆资源的开

发利用,提高用户的信息获取速度。知识发现从大量的数字图书馆资源中发现未知的、新颖的、潜在有用的知识和规律,指导数字图书馆资源建设,提高资源利用率及利用价值,从而满足用户更快、更准地获取所需信息。(2)有利于实现数字图书馆的知识管理进程。知识管理是数字图书馆发展的一个重要方向,知识发现是实现知识管理的一个重要阶段,对数字图书馆深化知识发现所取得的成果都是向数字图书馆的知识管理目标更进了一步。(3)有利于提高数字图书馆的服务水平。知识发现可以发现和预测数字图书馆资源发展规律、用户行为规律、馆员及专家结构,从而合理配置资源,改进馆员及专家的知识结构,这将无疑对提高数字图书馆的服务质量和知识服务水平有极大的帮助。(4)增强数字图书馆的个性化服务功能,拓展服务形式。通过对资源内容、网站结构及用户信息的挖掘,可以提高用户信息订制及信息推送的个性化服务水平,并推动以用户兴趣为基础的智能化检索。(5)增强数字图书馆自主创新及自身知识产权的能力,实现知识增值。对数字图书馆资源的知识发现成果集累、聚集,是一种智慧的不断提升,也是数字图书馆信息服务能力增强的体现。

1.2 论文的基本思路、研究方法、目标及创新之处

在当今“信息量与信息质量非成正比”的信息爆炸社会里,信息数量的指数增长能否带来知识的指数增长、人们能否从大量的信息中方便快捷地找到所需要的“知识”,成为当前信息社会发展中迫切需要我们考虑解决的问题。而此时,应“信息丰富而知识贫乏”的时代背景而出现的知识发现技术,正是为用户发现更有用的知识而服务的。

数字图书馆是集数据、信息、知识为一体,以文献的形式呈现的知识宝库。它隐含着大量的、未知的、仍未被人们完全发现利用的知识模式和规律。那么,对数字图书馆进行全方位的知识发现,能够充分开发数字图书馆资源中的显性及隐性知识,并从中挖掘出潜在的、新颖的、对用户有用的新知识和规律性知识,使数字图书馆有限的资源得到最大限度的利用,并可改变资源采购的盲目性,优化资源配置。除此之外,伴随着数字图书馆知识发现的高效实施,还可以增强数字图书馆自主知识产权的开发水平,提高数字图书馆的信息服务能力和知识服务价值,创造数字图书馆更加广阔的发展前景,从而更好地为人类知识经济的发展服务。

目前,知识发现技术已相当成熟,并成功运用于医学生物、商业、金融业、信息业、工程技术等领域,因此,将其应用于数字图书馆的知识挖掘与组织中已有很多经验可以借鉴,而且文本挖掘、网络信息挖掘及多媒体信息挖掘等专门的知识发现技术也已在得以运用,这些更是对数字图书馆资源进行知识发现的基础。本文也正是在这些研究基础之上对数字图书馆资源发现进行了更加全面的分析研究。

本文主要采用的研究方法是:①文献研究法:通过广泛收集国内外各种有关此课题

的研究文献,了解相关研究的发展动态。②理论与实际相结合,紧密结合数字图书馆的发展进行分析研究。此外,还采用了综合、归纳等研究方法。

在选题上,本文具有一定的新颖性。虽然,目前对知识发现的研究很多,并且,知识发现技术也在很多领域得到成功的应用,但是,知识发现技术在数字图书馆中的应用还刚刚起步,理论上并不成熟,且用于分析研究的数字图书馆知识发现实例也不多。鉴于此,本文从宏观、系统化、更加全面的角度出发,通过合理分析、借鉴其它行业先进的知识发现方法、过程,研究并构建数字图书馆知识发现系统方案,对数字图书馆的显性知识及隐性知识的发现、挖掘进行了设计和讨论,主要介绍了文本挖掘、多媒体挖掘、用户日志挖掘在数字图书馆馆藏资源内容、隐性资源、用户信息资源、以及数字图书馆结构等四个挖掘对象中的处理过程。旨在更加全面的分析、讨论数字图书馆知识发现的过程、方法,寻求提高数字图书馆的核心竞争力、以及提升数字图书馆的信息服务能力和拓展信息服务方式所需要的更好的方法和途径。

由于本文有一定的技术难度,加上个人水平有限,在系统的构建和应用分析上的深度不够,模型显得还比较粗糙,虽然对数字图书馆的整个过程的知识发现作了较为全面的分析,但整体上的分析体系还有待进一步深入完善。作为一篇硕士毕业论文,在内容和知识体系上也还显得有些单薄,相关研究还有待深入。然而,从整体上看,本文也还是代表了本人对数字图书馆知识发现的研究和学习思考的成果,希望老师和广大同仁批评指正,同时希望能够在数字图书馆的知识发现研究上起到抛砖引玉的作用。

1.3 论文结构

本文通过六个部分的分析研究,目的是为了加深人们对数字图书馆进行系统、全面知识发现的认识,进而更加重视知识发现在数字图书馆中的应用,并通过构造数字图书馆知识发现系统和分析研究数字图书馆的知识发现过程,为数字图书馆知识发现提供一个思路,进而推动更深入的关于数字图书馆知识发现的研究进程。

论文各部分的主要内容是:第一部分对论文的背景和意义作了阐述;第二部分阐述了数字图书馆及知识发现的相关理论;第三部分详述了数字图书馆知识发现的系统构建;第四部分阐述数字图书馆知识发现的内容;第五部分展望了数字图书馆知识发现的应用前景;第六部分是对数字图书馆知识发现研究的总结和展望。

第2章数字图书馆知识发现的相关理论

2.1 知识的涵义

知识是对信息进行加工、系统化的过程。是信息的高级形式。信息是事物的本体论层次,而知识就是以人为中心,赋予信息以经验、推理、判断等思维形式后而得出的。古希腊的柏拉图(Plato)指出,“知识是人类理性认识的结果,是人们对于事物本质的反映和表述,不同于人类感性认识所产生的‘意见’”。也就是说,知识的最大特点就是有了人的参与,对信息进行提炼、加工、处理,使其具有消除或减少不确性的价值。所以说,发现知识的过程,就是发现对人类认识世界、认识事物有价值的信息,从而实现知识创新和知识增值的过程。

知识可以分为显性知识和隐性知识,显性知识是已用语言文字或其他可记录、可理解、可传递的形式表达,在社会上可广泛交流共享的知识。这类知识已能够独立于个人的大脑而相对客观地存在,可用合适的知识表示方法编码,较方便地用计算机来存储、处理与交流。隐性知识包括客观隐性知识:一种大量的已编码存储的信息知识中所直接隐含的但又不便用传统情报检索方法直接得到的事物运动规律;及主观隐性知识:一种运动于个人头脑中靠个人内省来把握、尚难或不愿清楚表述的,或者只在特定场合的非正式组织内部,用意会多于言传的默契,运动于少数人之间而不便外传的知识[26]。

那么,数字图书馆的显性知识则是指大量的数字化资源形成的数据库、数据仓库及知识库;而数字图书馆的隐性知识是指馆员、专家、用户等所拥有的、不易显化的知识、技能、经验等智慧。因此,数字图书馆的知识发现就是针对大量的显性馆藏资源及存在于人自身的隐性知识,构建挖掘模型,运用挖掘方法与算法,发现隐藏于大量数据背后的关联、结构、差异、规律性知识,从而指导数字资源建设和开发、提高资源利用率、提升信息服务能力及个性化服务水平、拓展服务机制、促进用户与数字图书馆共同开展的知识创新和知识增值、满足用户的知识需求。最终,提升数字图书馆在先进的技术面前及激烈的信息竞争环境中所具有的信息服务能力及信息服务价值。

2.2 知识发现的基本理论

2.2.1 知识发现的定义、类型

知识发现(Knowledge Discovery in Database, KDD),其最深刻的定义是1996年由Fayyyad等人给出的:是指从大量数据中获得有效的、新颖的、有潜在应用价值的和最终

可理解的模式的高级处理过程。目的是为了支持商业决策。其中“有效”是指发现的模式对新数据来说应该保持正确;“新颖”是指发现的模式对组织来说应该是新的;“有用”是指组织应该能够按着这些模式运作以有利于效益和效率的提高;“可理解性”是指新的模式应该能够被用户理解,并能增加用户的知识[27]。

换言之,知识发现就是可以对大量的数据库、数据仓库或知识库进行分析处理,进而深层挖掘,寻找数据间潜在的关联(Associate)、模式(Pattern)、规则(Rule)、趋势(Trend)等,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘有用的信息和知识,并提供决策支持,是目前解决“信息丰富而知识贫乏”的一个最佳方法。

而对于知识发现类型的划分,根据不同的标准有着不同的分类。本文为了论述的需要,按挖掘任务将知识现分为类、预测、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系发现、异常和趋势发现等类型。在一般情况下可以挖掘出的知识包括:关联规则、特征规则、分类规则、聚类规则、序列模型、总结规则、趋势分析、偏差分析和模式分析等[28]。

那么为了实现上述的挖掘任务,所使用的挖掘方法主要有统计分析方法、机器学习方法、神经网络方法和数据库方法。统计方法又可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主成分分析、相关分析等);机器学习方法可以细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等;神经网络方法可以进一步分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等);数据库方法主要是多维数据分析和OLAP技术,此外还有面向属性的归纳方法[29]。

本文在研究过程中将主要采用关联分析、序列分析、分类、聚类分析方法对数字图书馆的多元化、分布式的数据库进行关联规则、特征规则、分类规则、聚类规则、序列模型、趋势分析等。以求最大发挥知识发现在数字图书馆的知识挖掘中的作用,从而实现数字图书馆服务社会的最大价值。

2.2.2 知识发现的过程

知识发现(KDD)工作可以说是一个系统化很强的工程,其发现知识的过程步骤主要强调以下几个方面的工作:①知识主要根植于个人信息总量及个人信息需求之中;②在数据中寻找模式是知识发现过程中的一项主要内容;③为了更有效地进行数据处理,必须对数据进行结构化处理;④任何一种知识发现的结果必须在某一具体的应用环境中进行评估;各种类型询问的搜索结构必须用确定的形式表示;⑤数据库中知识发现的许多方面在应用过程中是动态可变的,也是可以相互作用的[30]。这五个方面是开展知识发现工作的基础,在知识发现过程中时刻关注这五个方面,才能成功有效地实现知识发现的功能。

那么,在经过人们认真的研究和实验过程中,对于知识发现的过程步骤论述总结为关键三步:数据准备、数据挖掘、及模式识别与评价。具体扩展开来,细化后就是以下五个步骤(如图2.1):

1.理解和定义问题:知识发现人员与领域专家合作,对所需解决的问题进行深入的分析,以确定知识发现的目标和任务。2.搜集和提取相关数据:根据问题的定义和目标对有关数据进行搜集,并建立相应的数据库或数据仓库。3.数据预处理:其中包括数据的探索和清理及对数据的再加工、转换,剔除冗余属性,并根据知识发现任务,转换数据的表述方式,以适于挖掘算法。4.数据挖掘:运行算法选择,根据选定的数据挖掘算法对经过处理后的数据进行模式提取。5.模式表示及评价:运用可视化的方式对模式进行表求,形成用户可理解的知识,并通过兴趣度评价,确定对用户有用的知识,存储形成可更新的知识库。当然,以上这些步骤一般需要经过多次反复操作,以提高模式的可用性。最终形成高效可用的知识库(群)。

图2.1 知识发现过程图

其中,在依照上述五个步骤实施知识发现工作时,需要特别指出的是,这些步骤并不是机械不变的,而是根据知识发现的要求,这五个步骤可以有所交叉重复,以保证所发现知识的新颖性和有用性。当然,如果是针对数据仓库或知识库的知识发现,数据的提取和预处理两个步骤则可以省略,直接可以进行数据挖掘,这是因为数据仓库已经具有对数据进行预处理的功能。

然而,总的来说,知识发现是一个系统工程,全面重视每一步骤,即不仅重视挖掘技术,更要统筹兼顾,重视系统化运作及用户的参与。只有这样,才能发现最终有利于用户需求的知识。本文对于在数字图书馆中开展知识发现的研究重点也就在于此,强调重视用户参与,从更加系统化、宏观的角度开展对数字图书馆的知识发现工作。

2.2.3 知识发现的功能

知识发现的目的是发现隐藏于大量数据信息背后、具有新颖性及潜在有用性、并可理解的知识。其知识类型有:反映同类事物共同性质的“广义型知识”;反映事物各方

面特征的“特征型知识”;反映不同事物之间属性差别的“差异型知识”;反映事物之间依赖或关联的“关联型知识”;根据历史的和当前的数据推测未来数据的“预测型知识”;揭示事物偏离常规的异常现象的“偏离型知识”。

而其具体实现功能是:

1)关联分析(Association Analysis):数据关联规则是数据库中存在的一类重要的、可被发现的知识。关联分析的目的就是寻找数据库中隐藏的关联网,挖掘出数据中隐藏的关联规则,这些规则体现“属性-数值”频繁地在特定数据集中出现的条件,通常表现为“同时发生”或“从一个对象可以推断出另外一个对象”的规则,利用这些关联规则,可以通过对已知情况的分析,对未知问题进行推测判断[31]。其最成功的典型案例就是市场菜篮子分析(Marketing Basket Analysis),这一关联分析通过对顾客购买情况及客户信息的挖掘而发现的关联规则可以很好地了解顾客购买行为,从而指导上货或货架摆放。例如,关于一个“尿布与啤酒”的故事,说的是在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市因此而发现了一个规律,就是在购买婴儿尿布的年轻父亲们中,有30%一40%的人同时要买一些啤酒。根据这一规律(尿布与啤酒之间的关联规则),超市随后调整了货架的摆放,把尿布和啤酒放在一起,结果明显增加了销售额。由此可见,从大量数据、信息或知识中发现隐藏的关联规则,会对即将采取的操作行为有很强的指导作用。那么,同样地,从数字图书馆中大量的信息资源中发现文献与文献之间、用户与文献之间、用户与用户之间的关联规则,也必定会对数字图书馆的资源建设、服务方式及内容、服务发展方向等方面有很大的指导作用。

2)分类和预测(Classification and Prediction) :主要用于描述重要数据类的模型或预测未来的数据趋势。分类是预测分类标号(或离散值) ,而预测通常是通过建立连续值函数的模型来预测数据趋势,通过这两种分析方法可以从数据中发现潜在的信息和知识,用来支持辅助决策[32]。那么,由于其有效的决策支持功能,其应用实例很多。比如,我们可以把邮政网点分为好、一般、较差三种类型,然后从中找出三种邮政网点的特征、属性,并以此对每一个预期的邮政网点进行分析,以确定其属于哪种类型,从而可以更科学地设置邮政网点的分布。因此,在数字图书馆的建设中,我们也可以将数字资源的使用情况分为好、一般、较差三种类型,然后从中分析其特质,预测资源配置情况,指导购买行为,以优化数字图书馆的资源建设过程。

3)聚类分析(clustering)。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系[33]。在数字图书馆的资源建设中,成功应用聚类分析与分类分析,将会对优化资源配置起到很好的辅助作用.

4)序列模式(series pattern)。序列模式分析与关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数

据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A—B—C出现的频度较高”之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。其中在进行序列模式分析时,同样也需要由用户输入最小置信度C和最小支持度R[34]。通过对置信度和支持度的分析,来评价序列模式的可用性,从而确定可用模式来指导行为。在此,如果针对数字图书馆的用户使用信息进行序列模式分析,分析结果知识将会对数字图书馆的个性化服务起到很好的指导作用。

本文在对数字图书馆的资源内容挖掘、用户信息挖掘、结构挖掘的研究过程中,将主要通过这些功能的实现,达到开发数字图书馆更大的资源利用价值、增强数字图书馆信息服务能力的目的。

2.2.4 知识发现与数据挖掘

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。可见,知识发现与数据挖掘在内涵上大体一致,而对两个术语的严格区分是在“知识发现96国际会议”上,Fayyad、Piatetsky-Shapiro和Smyth指出:知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中的一个特定的、关键步骤[35]。也就是说,数据挖掘是知识发现过程中最重要的一个步骤,是知识发现的核心技术;而知识发现则更是一个系统工程,它更强调挖掘过程的系统化、全面性。知识发现的整个过程中融入了领域专家的智慧,具有数据挖掘前的数据预处理功能,为数据挖掘打下良好的基础,创造更好的挖掘环境,更有完善的知识模式评价来提高最终所发现的规则或规律的科学性。而数据挖掘在知识发现这一系统化的工程中,只是一种模式提取和模型构建的技术实现工具,它为完成知识发现过程提供技术和工具支持。因而,我们应从宏观、系统、综合的角度,运用数据挖掘工具,来对数字图书馆进行知识发现。这样,才能使数字图书馆形成良好的知识发现的规范模式。

2.2.5 知识发现与知识管理

知识管理——顾名思义,就是对“知识”的管理,而非仅是对“物”的管理,即,不仅仅是对“知识载体”(图书、音像、数据库等)的管理。拥有丰富信息资源的数字图书馆,只有当它将其丰富的信息资源有效地呈现给用户,用户方便地获取、并从中找到想要的“知识”,成功解决问题。那么,数字图书馆的价值才能实现,这就是知识管理的意义所在,也正是数字图书馆实行知识管理的价值所在。

知识管理(knowledge management,KM),这一概念自1986年联合国国际劳工大会

上最早提出以后,在1994年由美国著名的思图维星(Ehtovation)国际咨询公司首次正式提出[36]。

自此以后,对于知识管理的定义不同领域给出了不同的看法,在图书情报领域,我国南开大学的柯平教授认为:狭义的知识管理是指组织对知识资本(intellectual capital)的管理,广义的知识管理是通过对知识的创造、组织、传播、分析、开发与利用等途径,使之发挥效用的一种理论与方法[37]。由此,我们可以得出数字图书馆知识管理也就是以图书馆馆员和用户为主体,以数字图书馆知识信息资源为对象,以对知识资源的创造、组织、传播、分析、开发与利用为手段,以充分实现满足用户对知识的需求和知识增值为目标的管理。它是融合了知识获取工具(公共检索系统、搜索引擎、知识门户、知识地图等)、知识存储工具(数据库、数据仓库、数据集群、知识库等)、知识开发工具(知识发现、数据挖掘等)等多种工具而得以实现的一种管理方法,更是一种管理理念。也正是随着这一知识管理思想和理念的不断深入,数字图书馆的信息服务不再只停留在显性知识的服务上,更多地是向能提供高质量的隐性知识服务方面拓展,以求更好地发展数字图书馆事业。而知识发现不仅可以从显性知识中发现更多的潜在知识,而且可以使隐性知识渐渐显性化,给人们提供一种能够有效获取和理解隐性知识的途径,使有限的数字图书馆资源得到最大限度的开发被利用。可见,知识发现是实现数字图书馆知识管理不可或缺的工具,而对数字图书馆实行知识管理将促进在数字图书馆资源中更有效地发现知识,二者是相辅相承、不可分割的关系。

因此,由上述二者的关系可以看出,知识发现在数字图书馆中的成功应用,对于数字图书馆向着先进的知识管理模式发展有着很大的推动作用。

2.3 数字图书馆的基本理论

2.3.1 数字图书馆的概念、资源类型及特点

数字图书馆(Digital Library,简称DL),是传统图书馆在信息时代的发展。是随着20世纪90年代数字化技术和网络化技术的高速发展而产生的一个正在成长中的新生事物,是为了从根本上改变互联网上信息分散无序、不便使用的现状而提出的下一代互联网上信息资源的管理模式,是运用高新技术手段,实现图书馆的自动化、网络化、信息化、数字化[38]。是图书馆事业发展的新阶段,其推动了图书馆事业的蓬勃。

1995年,我国图书情报界、IT界介入数字图书馆领域,1997年,原国家计委批准立项“中国试验型数字化图书馆”。1998年10月,国务院副总理李岚青指出:“未来图书馆的模式,就是数字图书馆,简单地说,就是一种拥有多种媒体、内容丰富的数字化信息资源,是一种能够随时随地为读者方便、快捷地提供信息的服务机制,……”。当然,对于数字图书馆的定义,不同的人有不同的说法,但总而言之,数字图书馆就是信息时

代的一种拥有丰富的资源,运用先进的信息技术、网络技术实现资源的搜集、处理、存取,为用户(具有信息需求的所有人)提供通过统一的检索界面检索具有丰富信息、知识的数据库和知识库的服务,并随着时代的进步,具有与时俱进的知识服务能力的现代化信息服务机构,而且,在将来,也必会成为信息时代的知识中心。

数字图书馆承担着保存文化遗产、开发智力资源、传递科技信息、开展社会教育的社会职能。拥有着丰富的信息资源和知识资源。其资源类型包括:1)显性资源:馆藏数字化资源、购置数据库资源、网络信息资源、多媒体资源;2)隐性资源:显性资源中的客观隐性知识——指显性资源中隐含的、未被发现的规则、规律知识,以及主观隐性知识——指馆员、专家、用户的知识、技能、经验等智慧。

由于数字图书馆是融合了信息技术、数据库技术、网络技术而发展起来的,必将具有信息时代的特点,即:1)信息存储数字化。这是数字图书馆的显著特征,即拥有大量的、多种媒体形式的、较快更新的数字化资源,存储在可以网络传输的数字化介质上。2)信息传播网络化。网络的发展使数字图书馆具有超越时空界限提供信息的能力,最大的方便了用户对信息的获取途径。3)信息服务多样化。不仅有一般的查询检索服务,还有体现个性化的信息定制、信息推送、信息咨询服务,不过,这些个性化服务质量的提高需要数字图书馆做好知识发现工作。4)信息组织深层化。运用更多先进的技术(知识管理、知识发现、数据挖掘)对信息进行高效的组织,以提高检索效率,更有效地满足用户的知识需求。5)信息使用共享化。资源利用共享是数字图书馆建设的一个重要目标,致力于满足人们随时随地享有信息的需要。6)信息检索智能化。这是数字图书馆目前正在研究的重点,利用知识发现技术充分提高搜索引擎、交互咨询的智能化,满足人们越来越专深的信息查询。

因此,可以说,数字图书馆的发展是信息时代进步的必然。而要让其所具有的信息化特色更有效地实现,并更好地发挥作用。将知识发现应用于数字图书馆建设中,会是一个有效的方法。

2.3.2 数据库与知识库

数据库的数据是对事态直接观测的结果,是目标的属性值。知识库的知识是物质世界的模型,它源于新的信息并为新的信息所补充[39],是一种由数据库、方法库、模型库、知识源库和专家库组成,并使用数据库技术、多维数据库技术、专家系统、数据挖掘技术对知识进行管理的特殊数据库,库中有与数据相关的语境和经验[40]。它的形成主要是对数据库进行知识发现、数据挖掘的结果,是对数据库的一种水平提升,可以给人们提供更高层次的、超过数据所含信息的知识。“数据库—知识发现—知识库”这一过程,很好地体现了数据库与知识库的关系(如图2.2[41])。

图2.2数据库与知识库的关系

那么,对于数字图书馆来说,实施知识发现,就是针对数字图书馆丰富的数据库资源来进行的,目的是经过复杂的知识发现过程,构建高水平的数字图书馆知识库系统,从而更好地开展知识发现,并形成这种“知识发现——知识库——发现知识”的良性循环过程,以不断地、更好地提高数字图书馆的知识服务水平。

第3章数字图书馆的知识发现系统模型

数字图书馆知识发现系统是数字图书馆知识发现的平台,它支撑整个数字图书馆的知识发现进程,实现整个数字图书馆的知识发现操作。因此,本文将尝试基于数字图书馆的特点构建一个利于数字图书馆知识发现的系统平台。

3.1 构建数字图书馆知识发现系统的基本要求

在构建数字图书馆知识发现系统时,首先要考虑以下几点:

1)系统功能和辅助工具的完备性;2) 系统的可扩展性; 3)支持多种数据源;4)对大数据量的处理能力;5)良好的用户界面和结果展示能力[42];6)较强的模式识别和评价能力。

具体来说,也就是:1)系统功能和辅助工具的完备性;选择合适的数据挖掘工具,同时综合运用数据库处理工具、决策支持工具来辅助完善知识发现系统功能。2)系统的可扩展性;数字图书馆的资源配置具有变动性,服务质量也在不断的提升,系统应具有较强的适应资源及服务变化的环境。3)支持多种数据源;数字图书馆的资源类型多样,系统应能够应付多种类型的知识发现能力,如应有对文本资源、多媒体资源、网络资源及大量的隐性资源的发现能力。4)对大数据量的处理能力;数字图书馆拥有“海量”的数字化资源,系统要有在大量信息处理、发现潜在知识的高性能。5)良好的用户界面和结果展示能力;用户界面的友好度及结果的良好显示能力是一个系统成功与否的主要检测指标,它决定系统能否存在下去。6)较强的模式识别和评价能力;知识发现的模式一般都多于用户所需要的模式,因此,系统要很好地对发现的模式进行识别和评价,以去除用户不感兴趣的模式,从而更有效地向用户提供有用的模式。

3.2 构建数字图书馆知识发现系统

目前,已经出现了一些成功运用的知识发现系统,本文将在一般的知识发现系统结构的基础上,同时结合数字图书馆系统的特点,构建利于数字图书馆资源内容、结构、用户信息挖掘的知识发现系统平台。

3.2.1 知识发现系统的一般结构

知识发现系统主要有两种类型:通用的数据挖掘工具和特定领域的数据挖掘工具。通用的数据挖掘工具适用于各种领域;特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案,在设计时应充分考虑到数据、需求的特殊性,并作相关优化[43]。

知识发现系统大致可以分为三层结构。第一层是数据源,包括数据库、数据仓库以

相关主题
文本预览
相关文档 最新文档