中国古籍数字化的现状与展望
- 格式:pdf
- 大小:126.65 KB
- 文档页数:8
古籍数字化与文献利用吴夏平【内容提要】古籍数字化成果显著,但其应用也存在不少问题。
数字化本身的障碍、研究性质的差异、数字化导致思维方式的转变等因素,都影响到学术研究。
因此,在利用时应具审慎态度。
只有坚持现代信息技术工具本位,创建个性化的数据库,才能更好地利用数字化文献推进科研的发展。
【关键词】古籍数字化;文献利用;工具本位;个性化数据库一、古籍数字化现状一般来说,古籍数字化指的是利用现代信息技术手段,将传统纸质文献典籍转换成为可在计算机上进行操作的过程。
这个过程包含两个层级:将印刷、抄写或其他形式的文献用数字方式来表达,属于第一层级;第二层级指的是能够比较客观、完整地反映对象内容与思想的文献,这是数字技术与文献内容的完美结合,数字型的文献能够真实、完整地再现实体型文献的内容。
[1]从目前进程来看,第一阶段发展得较好。
总体来看,古籍数字化的进程有几个特点:其一,台湾地区中文古籍数字化建设起步较早。
台湾地区的中文古籍数字化工作从1984年开始,台湾“中央研究院”就着手进行古籍数字化工作。
目前,已开发的古籍检索系统有汉籍电子文献瀚典全文检索系统,文物图像研究室资料库检索系统,历史语言研究所藏内阁大库档案。
台湾大学中华电子佛典线上藏经阁大正藏全文检索系统,台湾元智大学“网路展书读”等。
基本涵盖了唐代以前绝大部分传世文献。
其二,香港地区古籍数字化建设成果丰硕。
从20世纪80年代末开始,香港中文大学中国文化研究所下属的“汉达古文献数据库中心”所开发的全文数据库资料包括甲骨文数据库、竹简帛书出土文献电脑数据库、金文全文计算机化数据库、先秦两汉一切传世文献计算机化数据库、魏晋南北朝传世文献数据库,中国类书数据库等等。
其三,大陆古籍数字化建设奋起直追。
从20世纪90年代开始,大陆一些图书馆进行了古籍数字化建设的尝试。
1996年,上海图书馆与长江计算机集团合作,建立了古籍影像光盘制作及检索系统,到1999年4月,该系统已经完成古籍善本1000多种60万页的扫描和标引工作。
观点 Viewpoint□ 罗颖在数字化和智能化浪潮席卷全球的当下,中华文化的传承与创新面临着前所未有的机遇与挑战。
古籍承载着厚重的历史底蕴和民族智慧,是中华民族文化的瑰宝。
当前,成都古籍保护和研究工作取得了一定成效,但同时,还存在一些不足之处。
如数字化技术应用不够广泛,专业人才队伍建设滞后,古籍修复工艺落后等。
这些问题在一定程度上造成了成都古籍保护与研究工作的进展缓慢。
因此,本文从数智化的角度出发,探讨如何利用现代科技手段提升成都古籍保护与研究工作的水平,以期为保护与传承中华优秀传统文化贡献智慧和力量。
数智化背景下的古籍保护与研究概述数智化技术的定义与发展数智化技术作为数字化与智能化的融合产物,正逐步成为核心驱动力量,推动着数字化和智能化的发展。
这一技术体系依托于大数据、人工智能、云计算、区块链、物联网和5G 通信技术等在内的先进信息技术,这些技术形成的技术体系共同构成了数智化技术的基础架构(Sign-Tech)。
通过对这些技术的全面应用,可以对海量的运营数据进行采集、存储、处理和分析,从而达到深入洞察并精准掌控业务流程的目的。
数智化技术发展分为3个阶段:信息化阶段。
初步探索数智化技术主要体现在组织内部运用互联网技术(IT)手段实现管理效率的优化和提升。
这一阶段的核心目标是通过电子化、自动化的工具和系统,实现信息的快速流通和高效处理。
数字化阶段。
标志着这一时期开始广泛应用大数据和云计算技术,深入分析并全面优化运营管理技术的重要进化。
这一阶段,通过对海量数据的收集分析、对业务运行内在规律的揭示、对发展趋势的预测等,运用先进的算法和模型,实现决策的精准化。
数智化阶段。
这一阶段的核心是将人工智能(AI)技术深度融合到数据分析和应用中,实现数据的智能化处理和价值最大化,这代表着数智化技术的高级发展阶段。
在数智化阶段,数据不再仅仅是信息的载体,而是通过智能化的分析和应用来驱动业务创新和增长,被视为关键的生产要素。
古籍资源数字化开发与利用:现状、问题与建议作者:陈文韬来源:《商业文化》2020年第21期籍资源数字化开发与利用是新时代古籍整理出版的新趋势和新方向。
目前古籍资源数字化的主要类型有原典的数字化和古籍整理成果的數字化两种,面临缺乏整体规划、古籍整理成果资源有限、缺乏统一的数字化标准、尚未形成明晰的盈利模式等主要问题。
未来应当加强对古籍资源数字化的行业监管和引导,进行项目资助,建立古籍资源数字化版权保护规章制度,加强古籍资源数字化人才培养,加强多种途径的尝试,探索古籍资源数字化的更多可能性。
古籍资源数字化是指利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据形式,通过光盘、网络等介质保存和传播。
古籍资源的数字化开发和利用,已经成为古籍整理出版的新趋势和新方向。
古籍资源数字化开发与利用的现状一是对古籍善本的原物扫描和原样复制。
海内外各图书馆和其他收藏机构进行了大量的古籍原典数字化的工作,很多古籍善本通过扫描制作成图片的方式,实现了网络存储、查询、下载和共享,对我们接触和研究古籍文献提供了极大的便利。
如国家图书馆出版社近年来开发的“中华再造善本数据库”,便将“中华再造善本工程”中影印出版的珍贵古籍善本进行图像数字化,并通过对珍贵古籍善本的数字化加工和多元应用,实现珍贵古籍善本的再开发和再利用,是一个具有重要学术研究价值的古籍数字资源平台。
二是用数字化的形式展现古籍整理的已有成果,发布专业文本供读者浏览,还可实现多功能检索。
经过多年的努力,出版机构尤其是专业古籍出版社积累了大量的古籍整理出版成果,将这些古籍整理出版资源数字化,提供网络阅读和检索服务,将使古籍整理出版成果得到更广泛的利用。
由中华书局下属古联(北京)数字传媒科技有限公司开发的“中华经典古籍库”,便在这一方向进行了很好的实践,取得了一定的成绩。
“中华经典古籍库”收录了中华书局及其他古籍出版社出版的整理本古籍图书,涵盖经史子集各部,包含了“二十四史”、“史料笔记丛刊”、“古典文学基本丛书”、“佛教典籍选刊”、《资治通鉴》、《新编诸子集成》、《清人十三经注疏》等经典系列。
第1篇一、前言随着信息技术的飞速发展,古籍数字化已成为我国文化传承与创新的重要手段。
古籍作为中华民族文化的瑰宝,承载着丰富的历史、文化和科学知识。
然而,由于古籍的物理形态和保存条件的限制,使得这些宝贵的文化遗产面临着难以传承和保护的困境。
为了解决这一问题,古籍数字化应运而生。
本文将就古籍数字化实践进行报告,旨在为我国古籍保护与传承提供有益的借鉴。
二、古籍数字化项目背景1.古籍现状我国古籍数量庞大,据统计,目前我国古籍存世约20万种、约1000万册。
这些古籍涵盖了经、史、子、集等各类文献,是我国文化传承的重要载体。
然而,由于年代久远、保存条件有限,许多古籍面临着破损、霉变、虫蛀等问题,严重威胁着古籍的保存和传承。
2.古籍数字化意义古籍数字化是将古籍转化为数字形式,使其能够被计算机处理、存储、传输和展示。
古籍数字化具有以下意义:(1)便于保存和传承:数字化后的古籍不受物理形态限制,可长期保存,实现永久传承。
(2)提高检索效率:数字化古籍可实现快速检索,提高文献利用效率。
(3)促进学术研究:古籍数字化为学术研究提供了丰富的资源,有助于推动学术发展。
(4)拓展文化传承途径:古籍数字化为公众提供了便捷的文化服务,有助于传承和弘扬中华优秀传统文化。
三、古籍数字化实践1.项目目标本项目旨在通过对某古籍进行数字化处理,实现以下目标:(1)将古籍内容转化为数字化形式,便于保存和传承。
(2)提高古籍检索效率,为学术研究提供便捷。
(3)拓展文化传承途径,让更多人了解和欣赏中华优秀传统文化。
2.项目实施(1)古籍整理:对选定的古籍进行整理,包括清理、修复、去污、去霉等。
(2)图像采集:采用高分辨率扫描仪对古籍进行扫描,获取清晰图像。
(3)图像处理:对采集到的图像进行去噪、增强、分割等处理,提高图像质量。
(4)文字识别:采用OCR技术对古籍图像进行文字识别,实现全文数字化。
(5)数据存储:将数字化后的古籍数据存储在数据库中,实现数据共享。
•古籍资源概述•古籍资源的数字化技术•古籍资源的智能化开发利用•古籍资源数字化与智能化开发利用的应用案例•古籍资源数字化与智能化开发利用的未来发展目录定义特点古籍资源的定义与特点古籍资源的价值与意义030201保护现状利用现状古籍资源的保护与利用现状数字化技术定义将文字、图像、音频、视频等模拟信息转换为数字信息的过程,以便进行存储、传输和处理。
数字化技术分类按照处理方式可分为扫描、OCR(光学字符识别)、语音识别等,按照载体可分为纸质文献数字化、甲骨文数字化等。
数字化技术的定义与分类介绍了国内外的古籍资源数字化技术的研究进展,包括技术手段、应用领域和成果等。
技术手段详细介绍了扫描、OCR、语音识别等技术在古籍资源数字化中的应用和优缺点。
国内外研究现状古籍资源数字化技术的研究现状VS古籍资源数字化技术的挑战与问题挑战古籍资源数字化过程中面临着技术难度大、成本高、标准化程度低等问题,同时还需要解决版权保护、数据安全等问题。
问题古籍资源数字化过程中存在数据质量不高、标准化程度低等问题,同时还需要解决数据存储、数据共享等问题。
智能化开发利用的定义与方法定义方法基于人工智能的古籍资源开发利用知识图谱构建智能问答与推荐文本自动分类与聚类基于大数据的古籍资源开发利用数据挖掘与可视化通过对古籍文本的情感分析,挖掘作者的情感倾向和思想内涵,为研究古代文化提供更多有价值的信息。
文本情感分析语义关联分析基于数字化的古籍修复与保护案例数字化技术助力古籍修复数字化技术促进古籍保护数字化技术推动古籍研究1基于人工智能的古籍文献检索案例23通过人工智能技术,实现古籍文献的智能检索,提高检索效率和准确度,缩短用户查找时间。
智能检索提高效率根据用户的研究领域、兴趣偏好等因素,利用人工智能技术进行个性化推荐,为用户提供更精准的古籍文献服务。
个性化推荐满足需求通过人工智能技术,实现古籍文献的自动分类和聚类,便于图书馆、博物馆等机构进行高效管理。
典籍发展现状及未来趋势分析典籍作为人类智慧的结晶,承载着丰富的历史、文化和思想,对于传承文明、推动社会发展起着重要的作用。
然而,随着科技和社会的不断发展,典籍的地位和传承方式也发生了变化。
本文将从现状和未来趋势两个方面对典籍发展进行分析和展望。
典籍作为传承历史文化的载体,其现状可以从两个角度来观察。
一方面,随着数字化技术的快速发展,典籍的数字化保护和传播得到了极大的便利。
各国图书馆和档案馆纷纷将典籍进行数字化处理,建立了大规模的数字图书馆,使得人们可以随时随地访问和学习典籍。
此外,随着网络技术的普及,许多典籍的电子版本也通过互联网免费公开,并引发了大量的数字典籍研究。
数字化技术的应用拓展了典籍的受众范围,使得更多人可以接触到典籍,从而促进了文化传承的普及化和多元化。
另一方面,尽管数字化技术为典籍的传承带来了便利,但也带来了新的问题。
一方面,数字化典籍的产生需要大量的人力、物力和财力投入,许多小型机构和贫困地区无法承担这样的成本,造成典籍数字化进程的不平衡和不全面。
另一方面,数字化典籍虽然可以方便地存储和传播,但也带来了一个新的问题,即如何保证数字典籍的版权、质量和真实性。
此外,数字化技术也使得传统纸质典籍的阅读和研究逐渐减少,一些珍贵的典籍甚至可能面临流失或被遗忘的危险。
在未来趋势方面,典籍的发展存在一些值得关注的趋势。
首先,随着人们对于文化自身的重视,典籍的保护和传承将得到更多的关注和支持。
许多国家和地区将加大力度对典籍的保护和修复工作,并鼓励人们通过各种手段接触典籍、研究文化。
其次,数字化技术的不断发展也将进一步推动典籍的数字化传承。
随着人工智能、大数据和云计算等新技术的应用,典籍的数字化处理将更加高效和全面,同时也会促进典籍的数据挖掘和研究。
此外,虚拟现实和增强现实技术的应用也将为典籍的展示和研究提供全新的方式和体验,使得典籍不再局限于纸面表现,而是以全新的形态呈现在人们面前。
然而,典籍发展面临一些挑战。
古典文献数字化的现状、问题与对策【摘要】本文在区分古典文献与古籍概念的基础上,阐述了我国古典文献数字化的理论研究和实践探索。
分析了古典文献数字化存在的问题,有针对性的提出对策:各机构应坚持高质量、独特性、效用型、多样性等选题原则;在技术实现过程中,要对文献内容进行深度挖掘;建立统一的标准规范体系;法律、技术、意识三方面做好知识产权保护;培养复合型人才;加强机构间合作。
【关键词】古典文献;数字化;古籍计算机和网络技术改变了人们认识感知世界的方式,为传统行业带来了方法革新。
文字识别、全文检索、数据库等技術则为古典文献数字化提供了技术条件,使得古典文献保护和国学研究焕发新的生机与活力。
一、引言1、古典文献与古籍古典文献与古籍是两个极为类似但实质有所区别的概念,应对此加以区分。
古典文献,即加以历史限定的文献。
《文献著录总则》把文献定义为“记录有知识的一切载体”,吴枫先生将古典文献定义为“五四运动前雕版、活字版和手抄的古籍文献,同时包括文书、卷册、碑铭、拓本等”。
[1]在《现代汉语大词典》中,古籍指“古代典籍。
泛指古书”,文献指“有历史价值或参考价值的图书资料”。
由此可见,古籍专指古书,文献指一切资料,古籍是文献的组成部分。
古典文献与古籍的区别体现在载体形态与内容性质上。
[2]从载体形态来说,文献从甲骨、金石、简牍、缣帛到纸张,形态多样,而古籍的载体多为纸张;从内容性质来说,甲骨卜辞、金石刻文都是重要的历史文献,这与多为册籍的古籍不同,同时,信札、契约、家谱等也不属于古籍的范畴。
由此应明确,古典文献的内涵大于古籍,古典文献数字化应在古籍数字化的范围上加以拓展。
2、古典文献数字化当前,对于古籍数字化的概念界定已达成共识,是指以利用和保护古籍为目的,采用计算机技术将文字或图形转化为计算机可识别的数字符号,从而制成古籍文献数据库的一项系统工作。
[3]由此可将古典文献数字化定义为:利用计算机技术对各种载体形态、内容类型的古典文献进行处理,将其转化为计算机可识别的数字符号并加以描述组织,最终形成数据库、网页等形式的数字产品,通过光盘、网络等介质进行保存传播,并提供浏览、检索、下载等服务的过程。
新时代公共图书馆古籍数字化实践与思考目录一、内容简述...............................................21.1 研究背景...............................................21.2 研究意义...............................................3二、公共图书馆古籍数字化概述...............................42.1 古籍数字化的定义与特点.................................4 2.2 国内外古籍数字化发展现状...............................52.3 公共图书馆在古籍数字化中的角色与责任...................6三、新时代公共图书馆古籍数字化实践案例分析.................73.1 国内公共图书馆古籍数字化实践案例.......................8 3.1.1 大型公共图书馆古籍数字化项目介绍.....................9 3.1.2 成功因素分析........................................10 3.1.3 案例对比与启示......................................12 3.2 国际公共图书馆古籍数字化实践案例......................12 3.2.1 国际知名公共图书馆古籍数字化项目介绍................13 3.2.2 成功因素分析........................................143.2.3 案例对比与启示......................................15四、新时代公共图书馆古籍数字化面临的挑战与对策............164.1 面临的挑战............................................174.1.1 技术难题与瓶颈......................................184.1.2 文化传承与保护的挑战................................194.1.3 法律法规与伦理问题..................................204.2 对策建议..............................................214.2.1 加强技术研发与创新..................................224.2.2 强化文化传承与保护意识..............................234.2.3 完善法律法规与伦理规范..............................24五、新时代公共图书馆古籍数字化的未来展望..................265.1 技术发展趋势..........................................275.2 文化传承与创新路径....................................285.3 社会参与与合作机制....................................30六、结论..................................................306.1 研究总结..............................................316.2 研究展望..............................................31一、内容简述本文档旨在探讨新时代背景下公共图书馆在古籍数字化方面的实践及其所引发的思考。
古典文献数字化的现状问题与对策随着科技的不断发展,古典文献的数字化已经成为了一个趋势。
数字化的古典文献可以让更多人了解和学习古代文化,也有利于保护历史文化遗产。
但是,数字化的古典文献仍面临许多问题,这些问题包括数据质量不高、版权保护不足、缺乏统一的数字化标准等。
为了解决这些问题,可以采取以下对策。
第一,提高数据质量。
数字化的古典文献需要进行OCR识别,但是受限于技术水平,数字化过程中往往存在着一定程度的误识别。
为了提高识别准确率,可以建立更完善的OCR识别系统,或者人工校对识别结果,提高数字化的准确性和可信度。
第二,加强版权保护。
数字化的古典文献涉及到知识产权问题,需要保护版权方的权益。
为此,可以加强版权法律法规的制定和执行,加强对数字化过程中版权权益的保护,同时也应该呼吁各类数字化平台遵守版权法律法规,保护古典文献的版权。
第三,建立统一的数字化标准。
数字化的古典文献存在着多种数字化标准,这给数字化的古典文献的获取和使用带来了困难。
为了让数字化的古典文献更好地服务于社会,应该建立统一的数字化标准,为数字化平台提供更便捷、更通用的使用方法。
第四,加强数字化平台的建设。
数字化平台是数字化的古典文献的重要载体,需要不断地优化和完善。
数字化平台应该具备更好的可视化、交互性和多样性等特点,能够更好地满足用户的需求,同时也应该加强平台的数据安全性和隐私保护。
总之,数字化的古典文献在未来的发展中,需要各方共同努力,解决现有的问题,提高数字化的质量和效率。
只有这样,数字化的古典文献才能走向更加广阔的世界,为更多人了解和学习中国历史文化作出贡献。
大数据框架下古籍数字化发展趋势研究随着大数据技术的发展和应用,人们已经开始关注如何将传统的古籍文化数字化,让更多的人能够更轻松地获取到这些珍贵的文化遗产。
古籍数字化不仅可以更好地保护文化遗产,也更便于学术研究和文化传播。
本文就大数据框架下古籍数字化发展趋势进行研究。
一、古籍数字化的概念及发展历程古籍数字化是指通过数字技术对古籍传承和保护进行的全新尝试,主要包括对古书籍进行扫描、图像采集、文字识别、文字校对等技术处理,将纸质古籍数字化并存储在电子设备中,使之满足网络化、可检索、可传递、可复制等要求。
古籍数字化其实早在20世纪90年代就已经开始了,当时主要以图像扫描为主,随着计算机技术的发展,古籍数字化技术也不断更新换代。
2002年,全国古籍普查领导小组出台了《关于发展数字化古籍保护事业的意见》,标志着我国古籍数字化进入了一个新的阶段。
2005年,国家科技出版物数字化工程启动,古籍数字化逐渐得到了大力发展。
二、大数据框架下的古籍数字化现状对于我国古籍数字化而言,大数据技术的应用将古籍数字化的范围、数量和质量都大大提高,在古籍保护和传承方面发挥了重要作用。
目前,在大数据框架下,我国古籍数字化取得了一些显著的成果:1.数字古籍资源库建设数字古籍资源库是指对数字古籍资源进行整合,建立一个完善的、可检索的数字古籍资源库。
目前,我国已经建立了包括国家图书馆数字图书馆、国家图书馆中国古籍音像数字化项目、中国国学网等在内的多个数字古籍资源库,覆盖了大量的古籍资源。
2.智能化古籍阅读工具传统的古籍阅读工具主要是线装书和卷轴书,这些传统工具在使用时容易产生文字割裂、阅读不便等问题。
利用大数据技术,可以开发智能化的古籍阅读工具,使得读者可以更加方便快捷地获取古籍信息。
3.古籍数据挖掘和分析通过古籍数字化后的数据,可以进行数据挖掘和分析,测量出古籍中的历史价值、学术价值和文化价值等,以供学者参考使用,也可以进行古籍评价和分类归纳等。
古籍数字化技术的研究与应用一、引言随着数字化时代的到来,对于传统的古籍文化的保护和传承也逐渐引起了人们的重视。
古籍数字化技术的研究与应用因此而崛起,成为一个备受关注的领域。
本文将对古籍数字化技术的研究与应用进行探讨,为读者提供更全面的认识。
二、古籍数字化技术的概念古籍数字化技术是指利用现代信息技术手段,对古籍文化进行数字化处理,实现对古籍内容、形态等各个方面的全方位数字化存储、研究、展示等。
三、古籍数字化技术的研究与应用在数字化时代,古籍数字化技术已成为重要的文化遗产保护工具。
古籍数字化技术的研究及应用可分为以下几方面:1.数字化图像技术数字化图像技术是古籍数字化技术的基础,其主要功能是对古籍书籍的版面、文字进行非接触式的高清晰度数字化摄影,生成高分辨率的图像。
数字化图像技术最大的特点是可以对古籍书籍进行快速准确的数字化处理,保留了原始信息和原貌,使得古籍文化的价值能够永久地保存下来。
2.数字化处理技术数字化处理技术主要是将数字化图像进行处理,将数字化图像转化为可供人类阅读的格式或对其进行加密、压缩等处理。
同时,数字化处理技术还可以通过对文字的OCR(Optical Character Recognition)处理,将古籍的文字内容进行全自动识别转录,进而便于人们进行迅速的查找等操作。
3.数字化保护技术数字化保护技术是对已经数字化的古籍文化进行保障的技术。
数字化保护技术采用分布式维护和容错机制,对数字化文本进行备份和转移,并采用各种安全机制实现对数字化文本的权限控制与访问控制,确保了古籍文化的安全性。
四、古籍数字化技术的应用随着古籍数字化技术的不断发展,其应用领域也日渐广泛,主要包括以下几方面:1.数字化展示数字化展示是指将数字化的古籍文化进行展示,使公众能够通过网络等介质进行浏览和学习。
数字化展示主要具有易于操作、迅速高效、具备全球性的特点,为古籍的普及和传承提供了便利。
2.数字化出版数字化出版是指把数字化的古籍文化进行出版,有效地弘扬中华优秀传统文化。
古籍发展现状特点古籍发展现状的特点可以总结为以下几个方面:一、数字化和网络化随着科技的飞速发展,数字化和网络化成为了古籍发展的重要特点。
传统的古籍出版和阅读方式受到了很大的挑战和改变。
越来越多的古籍被数字化,并通过网络平台进行传播和交流。
这极大地丰富了古籍的利用价值,使更多人可以通过网络随时随地地阅读古籍,促进了古籍的传承与推广。
二、多元化的研究方法古籍的研究已经不再局限于单一的学科和方法。
以前古籍研究主要以文献学为主,注重对古籍的整理和校勘。
而现在的古籍研究则更加注重学科的交叉与综合。
除了传统的文献学和古文字学,还涉及到社会学、历史学、文化学、人类学等学科的研究方法。
这使得对古籍的研究更加全面深入,使古籍从单纯的文本变得更具有实践性和现实意义。
三、研究理念的转变传统的古籍研究更加注重对古籍本身的研究和整理,鲜有关注古籍的社会功能和在当下的意义。
现在的古籍研究则更加注重古籍与当代社会的对接,关注古籍的现实运用和社会意义。
古籍不再只是学术界的奇珍异宝,而是被更多人广泛参与的文化资源。
四、保护与传承随着时间的推移,古籍的保护问题日益突出。
许多古籍因为年代久远,受到各种自然因素和人为破坏的影响,亟需保护。
现在,针对古籍保护和传承的工作已经成为了一个重要的领域,有越来越多的机构和专门的人员投入到古籍的修复和保护工作中。
同时,为了更好地传承古籍的精华,很多学校和机构还开设了古籍研究的相关课程和专业,培养更多的古籍专家和研究人员。
综上所述,古籍发展现状的特点是数字化和网络化、多元化的研究方法、研究理念的转变和保护与传承。
这些特点使得古籍得以更好地利用和传承,为人们认识和探索传统文化提供了更多的途径和资源。
古籍数字化对学术的影响及其发展方向郑永晓文章提要:古籍数字化成就巨大,也面临诸多需要解决的问题。
数字化是古籍再生性保护的重要手段,也对促进学术发展至关重要。
古籍数字化的发展方向是设一系列符合统一标准且具有较高水准的专题数据库。
需要凝聚IT领域和文史研究界两方面的智慧对相关问题深入研究,并建立一门交叉学科——数字文献学。
关键词:古籍整理数字化数字文献学数字化古籍对历史学、古典文学研究等学科所带来的便利,已是有目共睹的事实,《四部丛刊》、《四库全书》几乎已经成为文史研究者电脑中的必备工具。
正是看到古籍数字化的美好前景,部分科研机构、高等院校、商业公司纷纷投入巨资,对上起先秦,下迄清末的各类古籍著作予以数字化处理。
但是,以笔者有限的见闻,特别适合学者使用、对学科发展有重要影响的特色数据库尚不多见。
同时,有关古籍数字化的理论探索相对比较滞后,在选题设置、数字化对象、处理方式、元数据标准等方面,有理论深度的探索尚不多见,实际运作中选题重复、资源浪费、效率低下等问题则时有所闻。
一方面,几乎所有学者,都认为数字化的电子版古籍很有用处,每有新的电子版古籍问世,都会迅速占领众多学者们的硬盘;另一方面,则鲜有从事历史学和古代文学研究的学者投身于此,与IT专家一道共同规划、推动古籍数字化进程。
这种状况极大地制约了古籍数字化的良性发展。
总结近年来古籍数字化的经验教训,考察古籍数字化对相关学科学术发展的影响,探索新技术条件下古籍数字化的特点和运作方式,推动古籍数字化与文史学科发展的紧密联系,是摆在IT业者和文史工作者面前的重要课题。
笔者不揣谫陋,愿对其中的一两个小问题稍加疏解,以抛砖引玉,望学界专家有以教之。
一、古籍数字化对学术研究的影响毫无疑问,对广大文史科研、教学工作者而言,古籍数字化进程越快,就越对科研和教学工作有利。
但是,古籍数字化究竟对学术研究有何推动作用?这种作用是仅仅停留在工具层面还是能够渗透历史学和古典文学研究内部?它是在较浅层面上促使学科发生某种表层性的变化?还是在较深层面上对这类历史悠久的传统学科予以根本性的改造?这是每一名当代文史研究工作者不能回避的问题。
新时代公共图书馆古籍数字化实践与思考目录1. 内容概览 (2)1.1 研究背景与意义 (3)1.2 文献综述 (4)1.3 研究方法与数据来源 (5)2. 新时代公共图书馆概述 (6)2.1 公共图书馆的发展历程 (7)2.2 公共图书馆在新时代的作用 (8)3. 古籍数字化实践 (9)3.1 古籍数字化的现状与挑战 (11)3.2 古籍数据采集与处理 (12)3.3 数字资源管理与服务 (13)3.4 数字化项目的案例分析 (15)4. 公共图书馆古籍数字化策略 (16)4.1 古籍资源的评估与选择 (18)4.2 数字化技术和设备的选择 (18)4.3 保护和修复古籍的数字化 (19)4.4 版权与知识产权问题 (21)5. 公众参与与教育 (22)5.1 公众对古籍数字化的认知 (23)5.2 公共图书馆的教育功能 (25)5.3 古籍数字化的传播与推广 (26)6. 数字化实践的思考 (28)6.1 技术进步与管理创新 (30)6.2 文化遗产的保护与传承 (31)6.3 数字化成果的利用与评价 (32)6.4 未来发展方向与建议 (34)1. 内容概览本书旨在深入探讨新时代背景下公共图书馆在古籍数字化实践中所面临的挑战与机遇,并对这一领域的未来发展进行前瞻性的思考。
内容涵盖了古籍数字化的技术手段、资源建设、服务创新以及面临的困境等多个方面。
首先,我们将详细介绍古籍数字化的技术基础,包括扫描技术、识别、数字存储等关键技术,这些技术是实现古籍数字化的基础。
其次,我们将分析公共图书馆在古籍数字化过程中的资源建设问题,如古籍资源的采集、整理、保存和利用等,以及如何构建高效、可持续的古籍资源体系。
接着,我们将探讨古籍数字化服务创新,包括数字化服务的形式、内容和服务质量的提升,以及如何利用数字化技术为公众提供更加便捷、个性化的阅读体验。
此外,我们还将关注古籍数字化过程中所面临的困境和挑战,如版权问题、技术难题、资金投入等,并提出相应的解决策略和建议。
第1页中国古籍数字化的现状与展望 陈 力 (中国国家图书馆)
一、中国古籍数字化之现状
1、简单的历史回顾 利用计算机技术对文献进行加工处理,已经有很长的历史了。但对文献内容本身进行数字化,仅仅只有二十多年的历史。 中国古籍的数字化最早是从计算机事业最发达的国外开始的。七十年代末期,国外的OCLC和RLIN首先建立了《朱熹大学章句索引》、《朱熹中庸章句索引》、《王阳明大学问索引》、《王阳明传习录索引》、《戴震原善索引》、《戴震孟子字义疏证索引》等数据库,用计算机对中国古籍进行处理。 国内何时用计算机进行古籍整理,现在没有十分确切的资料,比较早是八十年代初彭昆仑先生完成的“《红楼梦》检索系统”(1983年11月初步建成,但发布是在1987年)。1984年8月20日第127期《古籍整理出版情况简报》刊登了《微电脑与古文献研究》,提出了关于古籍数字化的设想: 随着微型机数量的增加、功能发展以及分布的扩大,其信息的贮存量会愈来愈多,并在一定范围,从一个地区到全国以及世界各地组成网络,形成一个巨大的资料库,所有信息资源便可共享。实现了这个目标,我国几千年来汗牛充栋而又星罗棋布的古文典籍,可尽行收入方寸之地,召之即来。使用微型机对这些古籍进行版本研究、文句校勘、文字订正、字义诠释、篇章会注、作品编年、古语今译,乃至标点、分段等等都将成为现实。 二十多年来,中国古籍数字化的道路基本上是通过两个方面来进行的,一是利用计算机对古籍进行揭示,建立古籍的书目型数据库,方便读者检索使用;二是利用计算机对古籍的内容进行数字化,使读者不仅能通过计算机来阅读古籍,并且能够通过磁盘、光盘和网络进行传播。
2、古籍书目数字化 古籍书目数字化即古籍书目数据库的建设从八十年代就已经开始了,它经历了自主开发到统一标准、统一规范、联合开发的历程。 目前,中国古籍书目的计算机机读目录格式已有通用标准,在大陆地区主要采用CNMARC,在台湾和香港地区则主要采用CMARC,并且著录规则也有一些差异,一般而言,大陆的著录规则要详细一些,而台湾则稍微简单。 大地地区已有比较完备的相关标准、规范: 《中国文献编目规则》(现正修订) 《汉语文古籍机读目录格式使用手册》 《中文拓片机读目录格式使用手册》 台湾地区也有相应的标准规范。 从2000年起,两岸五地中文文献资源共建共享确立了大陆、台湾等凡收藏有中文古籍的机构开展古籍的联合编目项目,由台湾汉学研究中心负责,由于各种原因,目前进展缓慢。不过,两岸的古籍编目工作都在近年受到了高度重视,并已有很大的进展。台湾方面,已经建立了“台湾地区善本古籍联合目录” (116034笔)。 大陆方面,国家图书馆2003年已经完成了全部27万册善本古籍和160余万册普通古籍的编目 第2页
工作,所有的数据都已经上网供读者使用并通过中国国家图书馆联合编目中心为图书馆界提供下载服务,目前正在进行已建数据的维护以及特种文献如金石拓片、舆图等的编目。其他一些大的公共图书馆如上海图书馆、南京图书馆等也都正在进行古籍的编目工作。高校部分,最近CALIS也在组织进行古籍的联合编目。 目前,中国国家图书馆还在进行古籍人名、地名等名称规范(Authority)数据库的制作。 目前,大陆地区进行的古籍编目工作大部分都仍然采用MARC格式,一些特种文献则开始尝试用DC格式进行编目。中国国家图书馆、北京大学图书馆、中国科学院图书馆等单位正在联合进行“中文元数据标准规范”的研究。
3、《中国古籍总目》的编纂情况 下面介绍一下与古籍数字化有密切关系的现存古籍的调查与编目工作。 1994年,由国务院古籍整理出版领导小组负责组织的中国古籍总目编纂工作开始,到1997年由于各种原因暂停,从2004年1月起该项目又重新启动。 《中国古籍总目》以国家图书馆、上海图书馆、南京图书馆、天津图书馆、辽宁省图书馆、山东图书馆、浙江图书馆、湖北省图书馆、北京大学图书馆、复旦大学图书馆、中科院图书馆等十一家所藏古籍为基本馆藏,十一家已有收藏者,其他馆藏就不再著录,十一家均未著录者,则都予补入。 预计此项目将于2005年完成。 《中国古籍总目》是一个品种目录,此项目完成後,必将对今后古籍的数字化提供非常有用的参考。
4、古籍内容的数字化 古籍内容的数字化与书目数据的建设几乎同时起步,也已经历了二十多年的发展,目前已经成为中国古籍数字化的主流。下面,就简要介绍一下主要的情况: 八十年代,古籍内容的数字化刚刚开始,大部分的工作主要还是在学者的书斋中进行的,并没有对社会产生大的影响。进入九十年代以后,随着计算机的普及及网络技术的发展,古籍作为一种重要的民族文化遗产,受到了高度重视,因此在最早出现的一些读书网站中,如“黄金书屋”等,就已经有了数字化的古籍,这些数字化的古籍主要的内容包括古典小说、历代正史、儒家经典和诸子等等,形式主要是手工输入的一般电子文本。
台湾地区的古籍数字化 在台湾地区,从八十年代末,一些重要的研究机构就开始研发以古籍为主的大型的资源库,这里面最成功的要数台湾中央研究院开发的“翰典全文检索系统”,收录了不少重要的典籍。 除中央研究院外,台湾还有一个较为庞大的“数位典藏计划”,包括: 善本古籍典藏数字化 金石拓片典藏数字化 古籍附图典藏数字化 以及“台湾地区地方文献典藏数字化”和“期刊报纸典藏数位化”,具体的数字化数量此从略。 九十年代中期以后,在大陆地区一些大的出版机构、学术单位和商业公司介入了古籍的数字化工作,古籍数字化的规模迅速扩大,下面重点介绍一些影响较大的古籍数字化项目。
大陆地区的古籍数字化
书同文公司 第3页
书同文公司与台湾迪志公司合作,其开发的主要产品是《四库全书》和《四部丛刊》。 《四库全书》在汉字处理上颇具特色,采用UNICODE,很好地处理了繁简字、异体字、避讳字等等。在内容处理上,以DC元数据和XML相结合。由于使用XML技术,使得对古籍内容的处理与交换符合目前数字图书馆的通行标准,为实现不同数据库之间的跨库检索提供了有利的条件。该数据库实现了版面还原、全文检索、字(词)频统计,并配有一些知识工具,如字典、干支换算等。 《四部丛刊》情况与《四库全书》相似,但由于《四部丛刊》所收各书字体、版式不似《四库全书》那样整齐划一,因此在汉字识别及版面还原方面难度更大。
国学公司 《国学宝典》v8.0版数据工作正在处理,计划收书总数达到3600种,总字数约7.5亿汉字 《中国历代基本典籍库系列》,全套光盘分为“先秦两汉魏晋南北朝卷”、“隋唐五代卷”、“宋元辽金卷”、“明清卷”四种,共收入三千多部(六亿多汉字)中国古代重要的典籍文献。 还有其他一些产品。 主要功能:全文检索、统计、摘录、打印输出、生成卡片、浏览
北京大学《中国基本古籍光盘库》 根据媒体介绍,该古籍库光盘将收录古籍万余种,每种典籍有1个通行版本的全文信息,另附1至2个珍贵版本的图像信息。预计全文20亿字,版本图像2000万页。该光盘采用了书同文的技术,因此其数字化的方法与书同文的产品基本相似,增加了版本对照。
北京大学图书馆 北京大学图书馆的古籍数字化内容计划包括馆藏敦煌文献、宋元版书、明代嘉靖、古代舆图、写本系列(包括手稿本、名人信札、日记,影抄本、旧抄本、名人抄本,圣训、玉牒、奏折、文书、档案、地契等)、 手绘本、家谱、古代戏曲、地方志等等,目前已有部分成果可以通过网上阅览。 关于其数字化的相关标准方面,该馆有如下考虑:根据对不同类型的资源,如印本、写本、舆图、拓片、敦煌卷子等制订相关的扫描加工标准,包括加工用途、加工级别、精度及色彩要求、存储格式等,同时根据不同类型的资源设计相应如拓片元数据标准、古籍元数据标准等。(以上参见肖珑、冯英:《基于古文献特藏的数字图书馆系统的设计与实现》,《文津流觞》第八期) 北京大学图书馆在古籍数字化方面的成就主要体现在相关的数字化标准上面,在数字化时也考虑到了相关工具的使用,如中西历转换工具、康熙字典、古今地名对照、人名规范等等。另外,在拓片的数字化方面,也考虑采用地理信息系统来进行检索,不过只是用于简单指示碑石的出土地,而如果拓片本身不能明确其地理方位而采用地理信息检索系统的话,甚至有可能出现漏查的问题。 从北京大学图书馆的古籍数字化流程图来看,主要是对原始资料进行数字化扫描,然后通过元数据的形式对其进行描述和管理,相关的参考工具也是在系统之外附加,即图像+描述的方式。
清华大学和浙江大学 由清华大学图书馆,计算机科学与技术系,清华大学建筑学院三方合作共同研制开发的“建筑数字图书馆”现在仍在进行中,虽然就内容而言在中国的古籍数字化方面并不具有特殊的意义,但其采用的方法值得注意。在该项目中,他们根据《营造法式》所记述的建筑结构,用数字化的动画进行模拟演示,使枯燥无味的古籍内容变得有声有色、形象直观。可以说这是用数字化的方式对古籍内容进行知识重组。 浙江大学承担的《中美百万册数字图书馆》
中华书局的中华古籍语料库 第4页
由于该库尚未正式向外公布,具体情况不详。但据说主要是以中华书局标点整理本为基础进行古籍的数字化,其最大长处在于古籍的底本选择上较好。
中国国家图书馆的古籍数字化工作(详后)
宗教文献的数字化 宗教文献数字化的代表有CBETA中华电子佛典协会的“线上藏经阁”,该数据库采用XML对佛教文献进行数字化。
网上主要中文古籍数据库调查统计表
二、中国古籍数字化工作之检讨
1、古籍数字化的格局 目前,中国大陆的古籍数字化的格局基本上由三大部分构成:一部分为教学和研究机构,一部分为图书馆,还有一部分则是商业机构。
2、不同机构古籍数字化的特点 上述三部分在进行古籍数字化时是各有其特点的: 教学和研究机构对数字化对象选择目的性强,数字化的目标及方法主要是根据教学和研究工作需要来决定,例如中国社会科学院的数字化项目包括:《全唐诗》《先秦魏晋南北朝诗》《全上古三代秦汉三国六朝文》《十三经》《全唐文》《诸子集成》等等,北京大学的《全宋诗》、深圳大学的《红楼梦》皆是如此。 图书馆所进行的古籍数字化,则主要是根据其馆藏特色来进行,如北京大学图书馆、中国国家图书馆的古籍数字化项目基本上是按这个原则来规划的。 至于商业机构对古籍的数字化主要是根据市场来决定的,哪一类文献有市场,就进行哪一类文献的数字化,考虑到市场的动作,常常选择大型古籍丛书如《四库全书》、《四部丛刊》等等。
目前古籍数字化工作中存在的问题 古籍的数字化是一项文化遗产的保护和弘扬工作,具有浓厚的公益性色彩,需要各方面加强协调,有一个整体的规划。整体规划不仅包括数字化对象的内容确定和合作分工,同时包括相关标准、规范的统一。
1、协作方面的问题 关注焦点过于集中,重复建设。 中国古籍的数字化目前是各自为阵,虽然数量已经不少,但关注的焦点过于集中,并且多数都带有商业性或者追求规模与宣传效应,致使古籍的数字化集中于“少数”常用特别是丛书类的古籍,而大多数学术界需要的古籍的数字化无人顾及。例如文渊阁《四库全书》先后已有四家进行影像的数字化(上海、山东、武汉、浙江大学等),一家进行了影像、全文文本的数字化(书同文)。 利益不同,各自为阵,封闭建库。 由于制作单位不同,各自的利益不同,所制作的古籍数据库常常是封闭的,在技术上很难与其他数据库融为一体,造成知识体系的割裂。 标准规范不统一。