古籍文献数据库存在的问题与突破的方向――试论计算机技术在古典文献研究中的若干问题
- 格式:doc
- 大小:20.51 KB
- 文档页数:6
古籍文献数据库存在的问题与突破的方向-试论计算机技术在古典文献研究中的若干问题【摘要】古籍文献数据库存在着诸多问题,如不同版本整合校勘困难、庞大内容整理困难、文献关系分析复杂等。
本文探讨了利用计算机技术解决古典文献研究问题的方向,包括利用数据挖掘技术进行文献演变分析、建立智能校勘系统等。
结论中指出计算机技术在古典文献研究中有广阔应用前景,可提高研究效率和质量。
未来可加强计算机技术与古典文献学的交叉研究,推动古籍文献数据库的建设和完善,促进古典文献研究的发展。
【关键词】古籍文献数据库、计算机技术、古典文献研究、问题、整合、校勘、文献演变、关系分析、内容整理、归纳、应用前景、研究展望、建议。
1. 引言1.1 研究背景在古籍文献数据库存在的问题与突破的方向这个主题下,研究背景是非常重要的。
古籍文献作为我国传统文化的载体,承载了丰富的历史、文化和思想内涵。
在数字化时代,古籍文献的保存、整理和研究面临着诸多问题和挑战。
古籍文献的存储形式多样,涉及到文字、图片、音频等多种形式,这种多样性给数据库建设和管理带来了困难。
古籍文献的版本繁多,衍生了不同的校勘和整理体系,不同版本间的关系和异同需要进行深入研究和分析。
古籍文献的内容庞大,包括历史、经典、哲学等领域,如何对这些内容进行有效的整理和归纳也是一个重要问题。
古籍文献的演变和关系常常需要通过密集的比较和分析来揭示文献的发展历程和内在联系。
针对这些问题,利用计算机技术来解决古典文献研究中的问题成为当前的研究热点。
通过构建完善的古籍文献数据库系统、建立文献数字化平台、开发智能化分析工具等,可以为古典文献研究提供更多可能性和便利。
随着计算机技术的不断发展和应用,古典文献研究领域也将迎来更多的突破和创新。
1.2 研究意义古籍文献是我国文化传承的重要载体,其中蕴含着丰富的历史、文化和传统知识。
对古籍文献的研究不仅可以帮助我们更好地理解和传承中华文明,还可以为当代社会提供宝贵的参考和借鉴。
古典文献数字化的现状问题与对策1. 引言1.1 背景介绍古典文献是人类文明的重要遗产,记录着丰富的历史、文化和知识。
随着科技的发展,数字化已经成为保护、传承和利用古典文献的重要手段。
在古典文献数字化的过程中,仍然存在着一些问题和挑战。
古典文献的资源分散,信息不全面,给数字化工作带来了困难。
许多珍贵的古典文献散落在各地的图书馆、博物馆和私人收藏者手中,因此很难进行全面的数字化。
古典文献数字化的技术标准并不统一,不同的机构和个人采用的数字化技术和格式各不相同,这给文献的互通和共享带来了困难。
现有的数字化过程缺乏规范,导致有些古典文献的数字化质量参差不齐,影响了其可读性和可搜索性。
为了解决这些问题,我们需要采取一系列对策。
可以通过资源整合和合作共享的方式,使得各个机构和个人共同参与古典文献的数字化工作,提高信息的完整性和准确性。
建立统一的技术标准是解决古典文献数字化问题的关键。
只有制定统一的技术标准,才能实现古典文献数字化工作的互通和共享。
制定数字化规范也是提升古典文献数字化质量的重要手段。
通过制定规范,可以规范数字化过程,提高文献的数字化质量和可读性。
古典文献数字化面临诸多问题,但只要我们采取有效的对策,就能够充分发挥数字化技术的优势,实现古典文献的更好保护、传承和利用。
1.2 问题提出在古典文献数字化领域,虽然取得了一定的进展,但仍然存在着一些问题亟待解决。
问题的提出是为了引起人们对这些现状问题的关注和思考,促使相关部门和机构采取积极的对策,推动古典文献数字化工作迈向更加规范化、高效化的方向。
古典文献数字化的现状问题主要体现在以下几个方面:1. 资源分散、信息不全面:古典文献资源分布在各个机构和个人手中,缺乏统一的信息标准和共享机制,使得部分珍贵文献信息难以获取和利用。
2. 技术标准统一化困难:不同机构或个人在数字化过程中采用的技术标准各异,导致数据格式不统一、互通性差,影响了古典文献数字化资源的整合和利用。
古典文献学研究中存在的挑战与应对策略古典文献学作为一门研究古代文献的学科,面临着许多挑战。
本文将分析古典文献学研究中存在的挑战,并提出相应的应对策略。
首先,古典文献的保全和保存是一个重大挑战。
古代文献的材料多为纸质或羊皮纸等易受湿气、虫害和自然破坏的材料,其保护和保存需要专业的技术和设备。
因此,解决这一问题的策略是建立和维护良好的文献保护机构,并培养专业技术人员进行文献修复和保存工作。
同时,借助现代科技手段,如数字化技术,可以对古代文献进行数字化档案保存,以减少传统文献的破坏和丢失。
其次,古典文献的解读和研究也面临着语言和记述形式的困难。
古代文献多采用古代文字和文字形式进行书写,这给研究者的解读和阅读带来了一定的困难。
为应对这一挑战,我们可以采取以下策略:一是培养古代文字尤其是古代语言学方面的专家,这样能够提供对文献文字进行准确解读的支持;二是加强与其他学科的跨学科合作,例如历史学、考古学等,这有助于全面理解古代文献中的内容和背景;三是推广和普及古代文献学的知识,提高公众对古代文献的认识和理解。
第三,古典文献学研究中的翻译问题也是一个重要的挑战。
由于古代文字和现代语言之间存在很大的差异,进行准确的翻译需要非常专业的知识和技能。
在应对这一挑战时,我们需要建立专业的古典文献学研究团队,培养翻译和语言学方面的专家,并且不断提高他们的技术水平。
同时,可以借助计算机辅助翻译工具和机器翻译等技术,提高翻译的准确度和效率。
第四,古典文献学研究中的文献源的分散也是一个挑战。
古代文献广泛分布于世界各地的图书馆、博物馆和个人收藏等地方,使得研究者很难访问和查阅。
在应对这一问题时,我们可以通过增加资源共享和交流的渠道来解决。
建立国际性的古典文献学研究机构,开展文献资源的数字化整合和共享,提供方便的获取和查阅途径,将有助于解决文献源分散的问题。
第五,古典文献学研究面临的另一个挑战是信息获取和处理的困难。
由于文献的众多和内容的庞杂,研究者很难全面了解和把握所有相关信息。
古籍书目数据库建设存在的问题及措施姚秀敏内容提要分析了古籍书目数据库的建设中机读目录格式、分类法选择、著录用字、工作人员知识结构等方面存在的问题,并对解决这些问题提出具体建议。
关键词古籍,书目数据库,机读目录格式我国历史悠久,流传下来的古籍卷帙浩繁。
这些古籍是中华民族宝贵的文化遗产,在整个图书馆藏书体系中是不可缺少的组成部分。
如何运用现代化手段对这些人类文化的遗产进行深入地开发和利用,实现资源共享,是当前图书情报界面临的一个重大课题。
目前全国已有许多图书馆开展了馆藏古籍的回溯建库工作。
由于古籍本身的特点,古籍回溯书目数据库的建设存在着一些问题需要进一步研究解决。
l存在的问题1.1机读目录格式不统一运用计算机技术对古籍进行编目整理,在国内尚在起步阶段。
到目前为止,全国尚无一部标准化的古籍机读目录格式,而已建成古籍书目数据库的各馆所使用的机读目录格式,基本上是在CNMARC的基础上,适当修改和扩充的结果。
但是,CNMARC处理的对象原本是现代文献,对于在文字形态、编排体例、载体形态、装帧形式等方面与现代文献不尽相同的古籍,其字段和子字段尚不能完全加以揭示,而古籍分类比较复杂,至今没有一部专门适合古籍分类的分类法。
很多图书馆仍沿用传统的四部分类法。
一些藏书较丰富的图书馆,考虑到古籍目录形成于各个时期,一馆之内也采用了多种分类法。
近年来,高校合并而造成一个馆的古籍存在多种分类法的情况也很普遍。
适用分类法不统一,无疑给古籍书目数据库的建设带来诸多困难。
1.3著录用字问题根据国家标准《古籍著录规则》和古籍的特殊性,以及真实反映原书的原则,建立古籍机读目录必须使用原书字体。
而古代文献年代久远,其著作用字不仅是繁体字,还有大量的异体字、生僻字、避讳字,目前还没有一个包括所有这些汉字的超大字库供计算机调用。
由于长期不断的变化,古籍中的繁体字、简体字、异体字、新字型、旧字型等十分复杂,计算机不能进行统一处理。
许多馆在处理一些疑难字符时只能采取替代办法,这势必破坏真实反映原书的原则。
古典文献数字化的现状问题与对策古典文献数字化是指将古代重要文献、手稿、碑帖等重要资料以数字形式保存和传播的工作。
随着信息技术的发展和多种数字化技术的应用,古典文献数字化已经成为当代文化传承和学术研究的重要方式。
古典文献数字化工作面临着诸多问题和挑战,需要制定相应的对策来解决。
本文将探讨古典文献数字化的现状问题,并提出应对的对策。
一、古典文献数字化的现状问题1. 物质古迹文献的保存与数字化由于古代文献的年代久远和保存条件复杂,许多物质古迹文献面临着严重的湿热、腐蚀等问题,保存状况十分恶劣。
面对这些珍贵的文献,如何保护并进行数字化成为了一大难题。
2. 数字化技术体系不够完善目前的数字化技术虽然已经取得了一定的进展,但在处理古典文献数字化时还存在着许多问题。
对于图片的识别和重构、文本的数字化处理以及音频、视频等多媒体数据的数字化技术还有待提高。
3. 数字化成果的使用和传播目前,虽然有一些古典文献数字化成果,但在使用和传播的过程中存在着很多问题。
数字化文献的存储和检索系统不完善,用户体验不佳,致使利用率和效率低。
数字化成果的权威性和真实性也受到质疑。
二、古典文献数字化的对策1. 加强物质古迹文献的保存对于那些在物理上已经受损的古代文献,应当加强保护和修复工作,尽量将这些文献保存下来。
可以采用一些高科技手段,比如红外线扫描技术、低温冷冻保藏技术等,来保护这些物质古迹文献。
2. 完善数字化技术体系应当加强对数字化技术的研究和开发,特别是在对古典文献的数字化处理技术上应进行深入研究。
还需要加强国际合作,吸取和引进国外领先的数字化技术,推动数字化技术的发展。
4. 增加对古典文献数字化工作的支持政府应当加大对古典文献数字化工作的资金投入,加强政策的制定和支持,推动古典文献数字化工作的发展。
可以采取一些激励措施,鼓励企业和科研机构参与古典文献数字化工作,推动古典文献数字化工作的进行。
5. 加强法律法规的保护应当建立相关的法律法规,对古典文献数字化的相关工作进行规范和约束。
古籍整理中存在的问题及对策分析摘要:古籍整理是图书馆日常工作的重点,占据着重要地位。
古籍资料具有文献价值以及学术价值,通过登记整理,搭建数据库,有利于进行古文化的传承,对各项研究的进行,以及推动经济社会发展,起到重要的意义。
鉴于此,文章首先对当前古籍整理工作存在的不足之处进行了分析,然后提出了具体的优化策略,以供参考。
关键词:古籍整理;问题分析;优化策略1古籍整理与保护工作的意义古籍整理与开发是指对古籍进行影印再造、数字化、缩微加工、修复、点校、汇编、目录索引等整理与加工处理工作。
由于古籍文献本身的特殊性,年代久远、获取困难、纸张保存不易等,古籍整理与开发工作迫在眉睫。
这项工作既是对古籍进行保护的一种方式,即为再生性保护的一种,同时也是对古籍的进行利用一种形式,整理与开发后能更好地服务于社会大众。
自从2007年“中华古籍保护计划”实施以来,古籍保护工作取得了很大进展。
无论公共图书馆还是高校图书馆,古籍文献资源的整理与开发都在如火如荼地进行着。
这项工作主要是通过影印再造、缩微、数字化、修复、点校、目录索引等途径开展,其成果形式主要有论文、专著、汇编、目录、数据库等。
这些成果逐渐地被研究机构、学者、教师、学生等喜欢古籍的读者充分利用,其学术价值、历史价值以及社会价值等得到更大的发挥,可以说是在一定程度上实现了整理与开发古籍文献的初衷,同时也解决了古籍文献资源藏与用之间的一些矛盾,也是对古籍文献资源的一种成功延续。
古籍文献资源本身是不可再生资源,是中华民族五千年文化得以传承的载体,从古至今流传下来的古籍文献汗牛充栋。
随着全国古籍普查工作的陆续开展,国内的古籍文献数量不断地清晰明朗起来,而流失到海外的古籍文献不计其数,国家相关部门也正在通过各种方式努力使其回归。
古籍保护工作任重而道远,古籍整理与开发工作是必需手段,其成果福泽子孙后代,其成果利用问题更需认真对待。
古籍整理与开发取得的成果用得其所,可谓功在当代,利在千秋2古籍整理工作的不足2.1基础工作不扎实古籍整理工作的开展,不能够盲目进行,需要设定明确的工作目标,做好梳理和调查等工作,为后续工作的开展提供指导和支持。
古籍书目数据库建设面临的问题及对策李荣慧内容提要古籍书目数据库的建设面临许多问题,本文分析了其中软硬件条件不足,没有统一完善的古籍分类法,著录标准欠妥善、未普及,主题词标引难实施,从业人员知识结构不合理,没有权威组织协调机构等问题,并对解决这些问题提出个人意见。
关键词古籍,书目,数据库关于建设古籍书目数据库,已有不少论文在刊物发表,但这些文章往往只涉及建库的重要性、憧想数据建成后在网络上运行的诸多便利,并提到某馆与某馆或某单位、某国已开始进行联合建库工作,仿佛古籍书目数据库的建成已近在眼前、指日可待,而少有人谈到建库所面临的具体问题,即便论及,或一言带过、或浮于表面、或陷于一隅。
笔者认为这是古籍数据库研究中的严重不足,是由于过于乐观带来的错误。
古籍书目数据库建设面临的问题是多方面的,回避是于事无补的,只有面对问题,找出对策,才能最终解决问题,实现古籍书目数据库建设,本文就此谈点粗浅认识,以抛砖引玉,就教于行家。
1古籍书目数据库建设面临的问题1.1软硬件条件不足建设古籍书目数据库,首先要求有一个适应度更大的软件、一个超大的字库以及方便转化、可随时增补繁体字、异体字、生僻字、避讳字的功能。
从而实现繁简汉字的顺利连接、使系统在显示线装古籍时能达到充分满足汉字信息检索和文字规范控制的要求。
古籍书目数据库有其它数据库所没有的一大特征,那就是书目包涵一些异体字、生僻字、避讳字及部分不可替代的繁体字。
目前我们所接触到的大字库编辑软件一是方正、一是Windows95支持下的word,但这两种编辑软件的字库仍不能满足古籍书目数据库的需要,因为对古籍而言,它们的字库仍嫌太小,而且不能包容、不能互通,虽可另造新字,但对于网上运行没有任何意义。
此外,现有繁简字转化系统是一对一的关系,它不能解决繁简字的对应关系中大量的多对一、一对多的情况,在把用简化字输入的编目数据转化成繁体字再输出时就容易出现错误。
其次,建设古籍书目数据库,需要保障现代化设备的充分投入。
古籍书目数据库建设面临的问题及解决措施古籍书目数据库建设是当前学术界和文化领域的一项重要工作。
随着数字化技术的发展,越来越多的古籍书目得以数字化存储和传播,这为学者和爱好者研究和欣赏古籍书目提供了更便利的途径。
古籍书目数据库建设面临着一系列问题,需要我们采取一系列解决措施,以提高古籍书目数据库的质量和可用性。
一、面临的问题:1. 古籍书目数量庞大:古籍书目的数量庞大,包括文、史、哲、艺术等方面的丰富资源,这就需要大量的人力和物力去整理、数字化和存储这些古籍书目。
2. 古籍书目信息碎片化:古籍书目信息碎片化严重,存储在不同机构和个人手中,检索困难,信息无法被完整的连接和利用。
3. 古籍书目质量参差不齐:由于古籍书目的保存和传播受到历史和自然条件的限制,其质量参差不齐,可能存在缺页、断简、错讹等问题。
4. 古籍书目分类复杂:古籍书目多样丰富,不同地区、不同年代的古籍书目分类习惯和规范不尽相同,给数据库建设带来了一定的困难。
二、解决措施:1. 利用现代科技手段提高工作效率:可以利用OCR文字识别技术、数字化扫描技术等现代科技手段,大大提高古籍书目信息的数字化速度和精度,降低人力成本。
2. 构建统一的古籍书目数据库平台:各地的古籍书目资源应当统一整合到一个数据库平台中,以解决古籍书目信息碎片化的问题,方便用户检索和利用。
3. 加强古籍书目质量检测和修复工作:在数字化过程中,要加强对古籍书目的质量检测和修复工作,减少错讹和缺损,保障古籍书目数据库的质量。
4. 制定统一的古籍书目分类规范:建立统一的古籍书目分类规范,以解决古籍书目分类复杂的问题,方便用户查找和利用古籍书目信息。
古籍书目数据库的建设是一项重要而艰巨的工作,需要学术界、文化机构和政府部门的共同努力。
只有加强古籍书目数据库的建设,才能更好地保护和传承我国的优秀传统文化,为学术研究和社会发展提供更加丰富的资源。
相信随着我们的共同努力,古籍书目数据库的建设将会取得更大的成就。
古籍书目数据库建设面临的问题及解决措施【摘要】古籍书目数据库的建设面临着诸多问题,如数据库建设过程中的挑战、数据清洗与整合的困难、知识产权和版权保护问题、数据可视化与用户体验提升的需求以及数据安全与隐私保护等。
针对这些问题,需要采取一系列解决措施,包括加强数据清洗技术、建立知识产权保护机制、优化数据可视化品质、强化数据安全技术等。
通过克服这些问题,可以更好地促进古籍书目数据库的建设和发展,提升用户体验,保障数据安全和隐私,推动古籍资源的数字化保存和传承。
【关键词】古籍书目、数据库建设、问题、数据清洗、整合、知识产权、版权保护、数据可视化、用户体验、数据安全、隐私保护、解决措施1. 引言1.1 古籍书目数据库建设面临的问题及解决措施古籍书目数据库建设是一个重要而复杂的任务,需要面对诸多挑战和困难。
在建设过程中,我们会遇到各种问题,如数据清洗与整合的挑战、知识产权和版权保护问题、数据可视化与用户体验提升、数据安全与隐私保护等方面的困难。
在面对这些问题时,我们需要制定相应的解决措施,以确保数据库的顺利建设和运营。
在数据库建设的过程中,数据清洗与整合是一个关键的问题。
由于古籍书目大部分为纸质文献,存在着大量的错误和冗余数据,因此需要进行精细的清洗工作。
不同来源的数据需要进行整合,以确保数据的完整性和准确性。
知识产权和版权保护问题也是一个不可忽视的挑战。
在建设古籍书目数据库时,我们需要处理大量的著作权和版权信息,需要确保数据的合法性和合规性。
我们需要建立严格的知识产权保护机制,确保数据的合法使用和传播。
数据可视化与用户体验提升也是一个重要的问题。
构建一个直观、易用、美观的数据库界面,可以提升用户体验,增加用户对数据库的使用和信任度。
我们需要注重数据可视化和界面设计,以提升用户的体验和满意度。
数据安全与隐私保护是建设古籍书目数据库时必须考虑的问题。
在数据库运营过程中,我们需要确保数据的安全性和隐私保护,防止数据泄露和滥用。
古籍文献数据库存在的问题与突破的方向【摘要】古籍文献数据库存在的问题包括文献内容不全面、质量参差不齐、检索标准不一致、数据格式不统一等。
为了突破这些问题,可以建立全面的文献采集机制、提高文献质量审核标准、统一检索标准和元数据规范,并制定统一数据格式标准。
通过这些突破方向的努力,可以提升古籍文献数据库的管理和利用效率,解决现存问题,为古籍文献数据库的建设和维护带来新的发展前景。
【关键词】古籍文献数据库,问题与突破,文献内容,文献质量,检索标准,数据格式,全面文献采集机制,文献质量审核标准,统一检索标准,元数据规范,统一数据格式标准,数据库管理,利用效率。
1. 引言1.1 古籍文献数据库存在的问题与突破的方向古籍文献数据库是文化遗产的珍贵资源,对于学术研究和文化传承具有重要意义。
在建立和维护古籍文献数据库的过程中,也存在着一些问题和挑战,如文献内容不全面、质量参差不齐、检索标准不一致、数据格式不统一等。
这些问题的存在影响了古籍文献数据库的管理和利用效率,需要通过一系列的突破方向来加以解决。
需要建立全面的文献采集机制,系统地整合各种来源的古籍文献资源,确保数据库的内容覆盖面和多样性。
提高文献质量审核标准,加强对文献的审核和筛选工作,确保数据库中的文献质量良好,可靠性高。
统一检索标准和元数据规范也是解决问题的重要方向。
通过统一的检索标准和元数据规范,可以提高用户查找文献的效率和准确性,同时也便于数据库的管理和维护工作。
制定统一的数据格式标准也是必不可少的。
统一的数据格式可以确保不同文献资源之间的互通性和兼容性,方便用户进行跨数据库的检索和利用,也有利于数据库的长期保存和管理。
2. 正文2.1 问题一:文献内容不全面古籍文献数据库存在的问题之一是文献内容不全面。
这一问题主要表现在以下几个方面:一些古籍文献数据库仅收录了部分古籍作品,而对于一些较为偏僻或冷门的作品则往往被忽视,导致了文献内容的不完整性。
这使得研究者在查找相关资料时会遇到困难,无法获得全面的信息。
内容提要:计算机技术在古典文献整理与研究中的贡献是极大的,但目前存在着缺乏统一领导与规划;开发商嗜利忘义;热门文献数据重复,冷门文献数据罕见;技术关卡重重,难以互相兼容;功能单调,难以真正为科研服务;学术圈地,使人心有余而力难用等问题。
解决这一问题的关键在于建立公共古典文献数据库和开发个性化文献检索服务系统两个方面。
具体说来是加强总体规划,建立公共古典文献数据库;数据库内容与文献检索服务系统分离;加速确定字库方案;彻底解决古典文献版权问题;建立公平的交易平台和发展新兴学科,培养专业人才。
关键词:古典文献数据库公共古典文献数据库文献检索服务系统计算机技术的飞速发展,为古典文献研究的现代化提供了坚实的基础,其贡献是有目共睹的。
然而,计算机技术在古典文献研究中的运用仍然存在着极为严重的缺陷也是不容回避的。
笔者近几年来主持并直接参加设计“e书库”数据库的过程中,感到有必要将自己的一些想法提供给正在设计有关软件的计算机专业人员、愿意使用该类软件的专家学者们参考。
一、我国古典文献数据库建设的历程自古以来,历代学者对古典文献整理与研究一直沿袭手工操作的方式,然而自上世纪80年代后,计算机技术开始涉入到古典文献研究中,对传统的古典文献整理与研究方法(自然也对一切需要使用古典文献资料的专业研究)起到了极大冲击。
首先简单回顾一下计算机技术在古典文献研究领域内发展的历程。
上世纪80年代初,我国一些图书馆、大专院校及科研机构陆续开始大规模地利用计算机设计并建立数据库。
大致说来有两类数据库,一类是书目数据库,一类是文献数据库。
南京图书馆于90年代初率先建立书目数据库,对读者检索有关书目起到了极大的帮助。
之后,各地图书馆纷纷效尤,类似的书目数据库很快就普及了。
虽说至今各地图书馆的书目数据库的检索方式,仍存在机读编码格式不统一的问题,然而书目数据库提供的方便快捷的查询功能,对读者来说无疑是一件大好事,具体到学术研究来说,至少为研究者提供了一个比较方便的查找有关古典文献的实用工具。
在建立书目数据库的同时,一些大专院校与科研机构开始研发各自的文献数据库。
从数据制作格式来说,大致可以区分为两类,一类是图像格式,即将按原著内容扫描成PDF图像文本,另一类是元数据格式,即录入文献文本内容(或扫描并转化为电子文本)导入数据库,并转换成可阅读与检索的数据库机读格式。
一般说来,无论是PDF 格式还是元数据格式,它们数据库容量都较大,也提供了较为原始的检索方式,为学术研究提供了不小的帮助。
从上述两类制作格式的数据库来说,PDF图像文本可以直接阅读图像文字,但总体说来不太适应古典文献整理与研究的需要。
而元数据格式较为精致,初步具备了较为方便的常用的功能,可以检索、作卡片等等。
古典文献数据库从收录的文献内容来说,大致可以分为两类:一类是类目数据库,即按“类”收录有关图籍,如经学类、史学类、文学类以及甲骨文、金文或出土文献资料、石刻资料等等,另一类是综合数据库,如《四库全书》、《四部丛刊》、《国学宝典》之类数据库。
[!--empirenews.page--] 大陆最早的古典文献数据库是河南大学的《宋人笔记检索系统南宋主要历史文献》,建立于1987年。
之后,各种数据库纷纷涌现,比较重要的有南京大学、河南大学、苏州大学联合研制的《计算机甲骨文信息处理系统》、中国社会科学院《全唐诗》、《先秦魏晋南北朝诗》、《全上古三代秦汉三国六朝文》、《十三经》、《全唐文》、《诸子集成》等数据库、北京大学《全宋诗》数据库、南京师范大学《全唐五代宋词》数据库、四川大学《宋会要辑稿》数据库(与海外合作)等等。
港台古籍数字化起步较早,均采用繁体字形式。
1984年台湾中央研究院历史语言研究所开始研发《汉籍全文资料库》,香港中文大学则有《汉及以前全部传世文献》、《魏晋南北朝全部传世文献》、《竹简帛书出土文献》数据库等等。
其中《竹简帛书出土文献》收录《马王堆汉墓帛书》、《武威汉简》、《睡虎地秦墓汉简》、《银雀山汉简》、《居延汉简释文合校》及其它散见简牍共140多万字的竹简帛书出土文献,价值颇高。
值得注意的是,这些数据库主要是提供给本单位研究人员使用的,当然也有部分数据库对外开放,为其他研究者提供一定帮助。
虽然这些数据库有种种限制,但它们无疑为古典文献的研究(当然包括其它专业的学术研究)提供了方便。
之后,随着网络技术的发展,各科研机构、大专院校、各地方的图书馆、以及其它数以百计的网站向用户提供收费或不收费的古籍文献检索服务,甚至还提供古籍文献的下载服务。
显然,这些工作的开展,为学术研究的现代化提供了极为有力的支持。
至今为止,据笔者所查索到的除科研机构、大专院校、各地图书馆数据库之外,提供各种文献下载的中文网站至少在200个以上,其中就有不少古籍文献下载的网站。
这些古典文献数据库或有关网站的建立,确实为古典文献整理与研究乃至其它学术研究提供了极有价值的帮助。
二、目前存在的问题当然,我们也应该清醒地看到,在古典文献数据库大量涌现的同时,一些潜在的问题与数据库本身的缺陷严重地制约着古典文献数据库的正常发展。
从古典文献数据库技术发展角度来说,笔者认为大致经过三个发展阶段。
第一阶段是PDF图像文本数据库,其数据来源主要是以扫描方式获得,形成PDF图像文本。
这种图像文本优点是直观,与原书分毫不差,但它的缺点是功能极其单一,仅可供浏览图像和简单地检索书目。
虽然第一阶段的数据库功能极少,但毕竟能方便而直观地阅读文献了,因此引起了学者们广泛的兴趣。
必须指出的是,由于功能太少,这类数据库难以进一步发展。
第二阶段是元数据数据库,以香港迪志公司投资、书同文数字化技术有限公司设计、上海人民出版社出版的《四库全书》、书同文数字化技术有限公司设计、万方数据电子出版社的《四部丛刊》、尹小林《国学宝典》、南开大学永川公司的《二十四史》,以及大陆、港台等大专院校或科研机构制作的较大型的数据库为代表。
它们的优点是具有较多的基本功能,如检索、卡片、打印等功能,有些还附加了日历查询、字典、音乐背景等附加功能。
然而,它们都不允许对数据库内的文本错误进行修订、没有图表处理能力、不提供功能升级服务(某些软件提供所谓新版本,实际上只是增加一些文献文本,并未真正提升软件服务功能)。
而且由于各自为政,开发者大都采取自定义方法来自造非常用的生僻词,因此各种数据库之间字库不能相互兼容。
这一阶段的古典文献数据库也有吸收第一阶段数据库有图像的优点,如上述提及的《四库全书》就附有图像,以利研究者核对文字。
该阶段绝大多数数据库注意到版权问题,但仍有一些数据库在版权上出现较大问题,乃至引起法律纠纷。
[!--empirenews.page--] 计算机技术广泛地涉入文科研究领域,各种古典文献数据库纷纷建立,当然给古典文献整理与研究的现代化提供了极其有利的帮助,然而,在笔者看来,目前计算机技术在这一领域中的运用形成纷乱无序的“战国时代”,有许多亟待解决的问题,否则将会影响或说削弱计算机技术在古典文献研究(乃至其它学术研究)中巨大作用。
对此弊病,笔者拟作一概述,企望引起有关部门、数据库开发者及使用者的重视,以期真正使计算机技术对古典文献整理与研究起到更大的促进作用。
大致说来,主要问题有以下几个方面:其一,缺乏整体领导与规划,国家投资与收益不对称。
当然,首先应该看[1][2][3][4]下一页到,国家有关部门已经着手做了一些规划,也实施建立一些比较大的古典文献数据库,如2002年10月,国家科技图书文献中心受科技部的委托,牵头联合中国科技信息研究所、国家图书馆、上海图书馆、中科院图书馆、北京大学图书馆等单位,启动了我国数字图书馆标准规范建设项目。
这一项目的目的就是力图建立我国比较统一和规范的数字图书馆标准,自然也会对建立古典文献数据库有较大的借鉴与参考的价值。
又如北京大学《中国基本古籍库》、上海图书馆《古籍影像光盘制作及检索系统》等等,也由国家有关部门投入大量资金,而且已经启动并完成了部分内容。
不过也应该强调,由于国家没有制定出一个比较符合国内数据库发展状况的真正有价值的规范体系,因此这些项目的承担者仍是各自为政,数据库之间并不能兼容,不可能形成技术“合力”。
再从所取得的社会效益或说实际使用价值来看,也不尽人意。
因为至今为止建立的各种数据库仍人为地设置许多障碍,无法使它们实现较大的使用价值。
数据库由国家投资,收益自然应该归国家,或者成为不收费的公益数据库,但目前收益既不归国家,又未能成为公益数据库,这不能不说是个极大的遗憾。
实际上,数据库制作者无偿利用国家投资进行了开发,制作完成后却获得相当丰厚的收益,使人感到有“国家投资,个别单位图利”的印象。
笔者不反对交纳一定使用费用,但收费单位一定应该说明收费后去向,绝不允许产生国家投资而由个别单位乃至某些个人得利的情况。
其二,开发商嗜利忘义,数据库错误严重。
除上述由国家投资开发的古典文献数据库外,还有一些有一定技术实力的软件开发商加入到古典文献数据库的开发中来了。
比较而言,各科研机构、大专院校及各地图书馆建立的古典文献数据库质量较高,而开发商则很少关注数据库中的文献质量。
我们承认确有少量开发商制作的数据库质量较高,如迪志公司开发的《四库全书》之类,然而象《四库全书》这样的数据库确实凤毛麟角,难以寻觅。
我们发现,甚至有些开发商仅仅是把文本进行文字扫描导入,疏于校对,因此文本错误百出,难以卒读。
由于利益驱使,绝大多数开发商都以“独自开发”为己任,数据库设计相互保密,互不兼容,使用户深感不便。
这些问题已严重地影响到古典文献数据库的正常发展了。
其三,热门文献数据重复,冷门文献数据罕见。
虽说目前数据库品种繁多,但由于考虑到使用者对文献内容的需求,因此许多开发者热衷于开发那些热门数据,而一些比较冷门的文献则鲜有人问津。
实际上,冷门的文献并非是没有学术价值的文献,只是使用人较少而已。
因而,目前不但数据库中文献内容重复现象极为普遍,甚至同名同姓的数据库也有不少,如《四库全书》就出现了武汉大学版、上海人民出版社版等数种不同版本。
且不说那些数量繁多、质量也不甚高的数据库浪费了多少人力物力,其实也使用户陷入无可适从、欲舍不能的境地。
用户往往为了某些少量文献内容不得不购买和安装整个数据库操作系统,而且这些庞大的数据库大量占据硬盘空间,导致计算机运行速度大为减慢。
而那些允许网上检索的文献数据库又往往容量极大,上网检索者多,导致“交通阻塞”![!--empirenews.page--] 其四,技术关卡重重,难以互相兼容。
各开发者既鉴于不同开发目的与技术条件,又为防止他人解密,因此在开发过程中在数据库某些程序中人为设置技术障碍,以保障自己利益不受损害。
自然,开发者需要投入大量人力物力,保障本身利益不受损害是无可非议的。