数位化古籍校勘版本处理技术-以CBETA大正藏电子佛典为例.
- 格式:doc
- 大小:29.00 KB
- 文档页数:1
数字化条件下古籍整理的基本问题(论纲)史睿(国家图书馆善本特藏部敦煌吐鲁番资料中心)近年来各地的数字化图书馆建设日益兴盛,古籍的数字化也有一日千里之势,但是必须指出,在相关基础理论问题尚未解决之前,任何古籍数字化,乃至一切文献数字化的努力都可能陷入南辕北辙的尴尬局面。
这些基本理论问题是,古籍数字化的基本性质是什么?在古籍数字化的过程中谁是主导,内容专家还是技术专家?古籍数字化应该以什么为依归,衡量数字古籍优劣的标准是什么?保障古籍数字化走向正确路径的基本要素有哪些?古籍数字化与其它一切文献数字化的关系如何?首先要明确的是,古籍数字化属于古籍整理和学术研究(或称校雠学)的范畴,而不仅仅是图书载体的转换或商业炒作的噱头。
故必须以相关领域的学者(即内容专家,而非技术专家)为主导,才可能向正确的方向发展。
纯粹的技术专家不可能将古籍数字化,甚至数字化图书馆领向一条康庄大道。
技术是形式,内容是核心,内容决定采取何种形式,形式只能服务于内容,而不是相反。
只有熟悉对象(古籍)内涵的主体,即内容专家,才有能力决定实现古籍数字化的基本路向和基本框架,技术专家的作用是在既定的框架内如何最便捷、最优化地实现目标。
故在古籍数字化领域中,内容专家和技术专家的关系应该如同建筑工程师与建筑工人,这样才能形成人力资源的最佳配置,有效地发挥各自的功能。
IT技术永远是工具,没有内容专家的构建和引领,再好的IT技术也难以带来真正的利益。
其次,既然古籍数字化属于古籍整理和学术研究的范畴,那么就必须遵循古籍整理的基本原则,懂得学术研究的基本思维过程。
古籍整理古称校雠学,涉及目录、版本、标点、校勘等一系列的学问,承担着“辨章学术、考镜源流”的学术任务。
整理一部古籍,要选择善本为底本,又要广校众本,之后精心标点,与所引之书和引用此书之书一一校勘,还须广徵群籍,拾遗补阙,最后提要勾玄,界定其学术地位与价值。
实际上经过整理的古籍乃是一部融入学术研究成果的作品,还附有各种索引数据库,以便检索,而并非原有任何版本古籍的复制。
中文古籍数字化方法之检讨随着科技的进步和数字化技术的发展,中文古籍的数字化工作逐渐成为学术界和文化遗产保护领域的重要课题。
数字化能够有效地保护和传承中文古籍,同时方便学者们的研究和大众的阅读。
然而,中文古籍数字化方法并非一成不变,而是不断发展与演进的。
本文将对中文古籍数字化方法进行检讨,探讨其现状、各种方法和心得体会,以期更好地应用中文古籍数字化方法,促进文化传承和学术研究。
忏悔法是一种常见的中文古籍数字化方法,其主要步骤包括对古籍进行扫描、OCR识别和文字校对。
对古籍进行扫描,将其转化为数字图像。
接着,使用OCR(光学字符识别)技术将数字图像转化为可编辑的文本。
对文本进行校对,修正由于OCR技术错误导致的文本错误。
忏悔法的优点在于它能够快速、准确地提取古籍中的文字信息,方便后续的检索和分析。
然而,忏悔法也存在一些缺点,例如OCR技术无法识别手写字体和复杂字体,也难以保证100%的识别准确率。
忏悔法无法提取古籍中的非文字信息,如注释、插图等。
自责法是一种基于自然语言处理技术的中文古籍数字化方法。
它将古籍视为一种自然语言文本,通过分词、词性标注、命名实体识别等技术,提取文本中的语义信息。
自责法的优点在于它能够理解古籍中的语义信息,自动提取出关键词、概念和实体,方便学者们的研究。
自责法还可以将文本中的语义信息结构化,建立知识库,为后续的文本挖掘和知识推理提供支持。
然而,自责法也存在一些缺点,例如它难以处理异体字、繁体字等问题,也难以保证对古代文化背景和语义的完全理解。
总结法是一种综合性的中文古籍数字化方法,它将忏悔法和自责法相结合,同时引入专家学者的研究成果,实现对古籍的高效数字化处理。
在总结法中,首先使用忏悔法对古籍进行扫描和OCR识别,得到初步的文本数据。
然后,利用自责法对初步文本数据进行处理,提取其中的语义信息。
结合专家学者的研究成果,对文本数据进行校对和修正,得到最终的数字化结果。
总结法的优点在于它能够充分利用忏悔法和自责法的优点,同时避免它们的缺点。
面向数字古籍的信息处理技术研究古籍是我们历史的见证,也是文化的传承。
随着数字技术的不断发展,数字化古籍已成为一项重要的工作,为保护及促进古籍文化的传承提供了新的手段。
数字古籍的信息处理技术研究具有重要的理论和应用价值,本文着重探讨数字古籍信息处理的技术与现状。
一、数字古籍的信息处理技术数字古籍的信息处理技术主要包括数字化技术、图像处理技术、自然语言处理技术等。
1. 数字化技术数字化是数字古籍的核心技术。
数字化技术将古籍原本物质形态转化为数字形态,将古籍文化更好地传承和保存。
数字化技术包括数字扫描、数字拍摄、数字化编目等。
其中,数字扫描技术是数字古籍化的主要手段。
数字扫描技术是将古籍进行光学扫描并生成相应的图像文件。
来自图像文件的数字化数据可以被编入数据库中,实现对数字古籍的电子化储存和保存。
2. 图像处理技术数字古籍图像处理技术包括图像增强、分割、识别、重构等。
图像增强技术是指将数字化古籍图像进行细节修正、去噪、色彩纠正等处理以提高图像的质量。
图像分割技术是指将古籍图像分割成多个不同的层次或对象,从而更好地进行数字化处理。
图像识别技术是指将数字古籍图像中的文字进行识别,并将其转化为可编辑文本。
图像重构技术是指将不同来源或损坏的数字化古籍图像进行合并,重建完整的数字古籍图像。
3. 自然语言处理技术自然语言处理技术是指将古籍中的文本进行扫描和识别,并将其转化为可读的电子文本。
自然语言处理技术包括文本分析、命名实体识别、关键词提取、文本分类等。
其中,文本分类是对古籍进行自动分类管理的技术。
而文本分析是本技术领域中最具挑战性的部分之一,这是由于古籍文本语言风格的复杂性和表达形式的多样性所致。
二、数字古籍信息处理技术的现状数字古籍信息处理技术正在不断发展中,取得了很大的进展。
然而,在数字古籍信息处理过程中仍然存在着一些问题。
1. 数字化技术数字古籍的数字化程度及数字化质量是数字化技术面临的最大问题。
数字化技术中的细节捕捉、像素密度、数据格式、数据完整性等都是数字化古籍的难点。
古籍数字出版问题及优化对策研究古籍数字出版问题及优化对策研究一、引言近年来,随着互联网的快速发展和技术的不断进步,古籍数字出版成为了一种重要的保护和传播古籍文化的方式。
然而,古籍数字出版仍然面临着一些问题,包括版权保护、数字化质量、数字阅读等方面的挑战。
本文将就古籍数字出版的问题进行分析,并提出相应的优化对策,以期推动古籍数字出版的进一步发展。
二、古籍数字出版所面临的问题1.版权保护问题古籍数字出版涉及到的古籍作品往往具有较高的历史价值和文化底蕴,版权保护问题是古籍数字出版所面临的首要问题之一。
许多古籍作品的版权归属复杂,未经授权的数字复制和传播可能导致版权纠纷,从而影响古籍数字出版的正常进行。
2.数字化质量问题古籍数字化是一个复杂而精细的过程,涉及到的文本、图片、音频、视频等多种形式的内容。
数字化质量直接影响数字古籍的可读性和可交互性,而古籍作品的特殊性又为数字化质量的要求提出了更高的要求。
当前的数字化技术尚不能完全满足这些要求,因此数字化质量问题是制约古籍数字出版发展的重要因素之一。
3.数字阅读体验问题古籍数字出版的目的是为了方便读者获取古籍信息,并提供更优质的阅读体验。
然而,由于古籍作品的特殊性,传统的阅读方式无法完全适应数字阅读的需求。
在古籍数字出版中,如何保持古籍原汁原味、提供更具交互性和个性化的数字阅读体验成为了古籍数字出版亟待解决的问题。
三、优化古籍数字出版的对策1.加强版权保护古籍数字出版需要加强版权保护意识,遵循版权法律法规,明确古籍作品的版权归属,并通过合法合规的方式获取版权授权。
此外,还需要加强数字版权管理技术,采用数字水印、加密技术等手段,提高数字古籍防止盗版和非法传播的能力。
2.优化数字化质量提高数字化质量是古籍数字出版的核心问题之一。
可以通过技术手段完善数字化流程,采用高清扫描技术,减少扫描失真和噪点问题;利用OCR技术实现准确的文字识别;采用图像处理和修复技术修复古籍图片的损坏等。
古籍数字化存在的问题及对策刘灵西(重庆交通大学图书馆 重庆 400074)摘 要:本文从古籍数字化的必要性入手,分析了在古籍数字化过程当中存在的问题,并进一步提出了相应的意见和对策。
关键词:古籍;数字化;问题;对策中图分类号:G255.1 文献标识码:A 文章编号:1000-9795(2010)03-0115-02收稿日期:2010-04-04作者简介:刘灵西(1976-),女,四川仁寿人,从事图书馆学、文献学方向的研究。
一、古籍数字化定义很多文献对古籍数字化进行了不同的定义,一般认为所谓古籍数字化,是利用现代信息技术,将历来抄写本、刻铸本、雕版、活字版、套版及铅字印刷等方式所呈现的古代文献,转化为电子媒体的形式,通过光盘、网络等介质保存和传播。
二、古籍整理存在的问题(一)没有统一的标准和分类古籍数字化的标准规范从2002年开始,中国科学院文献情报中心、中国科学技术信息研究所等21家单位制定了一些与中文古籍数字化相关的标准和规范,如:《古籍描述元数据著录规则》、《古籍描述元数据规范》、《拓片描述元数据著录规则》等。
全国进行古籍数字化工作的既有教学研究机构,也有各类图书馆,还有商业机构,这些单位各自为政,加上没有制定统一的古籍数字化著录格式,所以开发出的数字化古籍产品质量千差万别。
因此,古籍数字化工作亟待需要一套完整的标准规范。
只有按照标准规范进行古籍数字化工作,才能更有利于古籍数字资源的共享,才能更有利于对古籍进行深层次的研究。
(二)用字问题主要包括:(1)音同音近字致误是一种颇为常见的现象。
由于不少操作者采用拼音法录入,稍有不慎,就会因同音而致误。
(2)古籍电子化产品能否采用通行的简体字系统,几乎是个无法回避的问题。
由于一些繁简字之间的关系是非对称的,所以采用简体字排印古籍有时会造成歧义。
(3)有些用字错误的产生与异体字有关,其中有些是选用异体不当,有些是误用了某异体的形近字。
(4)计算机字库的不足也妨碍了古籍数字化的进程。
佛典數位化之製作與運用──以阿含藏為例永本佛光山電子大藏經主任內容摘要:網際網路的資訊時代,大幅改變生活環境、社會結構與文明發展。
佛教的文獻也廣泛應用科技,進行數位化的整合與傳播,使佛教的弘傳,邁入數位化的時代。
本文介紹『佛光大藏經‧阿含藏』數位化的理念與主旨,及說明製作內容,並分析阿含藏電子版的各項功能、特色,期望藉此能增益使用者的佛學閱讀與研究。
關鍵詞:數位化製作使用功能特色前言新的世紀是電腦科技與網際網路的資訊時代,其影響力與日俱增。
數位化的資訊或電子媒體的取得、記錄、整理、搜取、呈現、傳播的效率,史未曾有。
佛教已廣泛運用資訊科技媒體與工具,有效地管理文獻資料,改進佛教的教學、研究、服務、行政等各層面,使宗教走入新潮流──網路科技的發展,帶動佛教界人士投入佛典電子化的製作。
目前,漢、英、日、韓、巴、梵等語文的藏經等,都在進行佛典數字典藏計畫。
佛光山的電子佛典,是依據文本的《佛光大藏經》而進行設計,並以《阿含藏》為優先製作。
這次的世界論壇,感謝有此因緣,在此報告「阿含藏電子版」的製作。
本文試從佛典數位化的現況談起,進而說明「佛光山電子大藏經」編修緣起、主旨、製作歷程、使用功能、特色等。
佛典數位化之現況順應時代的演進與需求,將流傳二千五百多年的佛教經典文獻電子化,是現在佛教發展的重要課題。
目前出現的電子出版品,除了各種語言藏經的數位化外,還有個人專集及佛學機構出版的數位佛教典籍。
個人的專集,如:印順法師佛學著作集、法鼓全集、智諭法師佛學著作全集、淨- 166 -空大師全集,等。
相關佛教機構出版的有:佛光文化事業公司的佛光大辭典及星雲大師著作、日本花園大學禪學研究所的禪知識庫、法鼓山中華佛學研究所的中華佛學研究所專輯、京都本願寺的淨土真宗聖典、日本大津市睿山學院的天臺電子佛典、美國紐約世界宗教研究所的電子佛典、大陸的中華佛典寶庫,等,如雨後春筍,美不勝收。
在全藏部份,目前已進行的電子佛典,有:1.高麗大藏經知識庫(圖文資料庫)。
藏文古籍数字化出版探索作者:德庆央珍来源:《辞书研究》2021年第04期摘要由于多种原因,以多维关联及结构化的智能知识服务体系,对民文古籍进行保护及再利用的深度加工产品较为少见。
但藏文古籍丰富的藏存量、藏文信息处理技术的发展水平及良好的国内外学术交流环境等因素,使其数字化工作在向知识服务型发展(即深层次开发)方面,进行着较为超前和有益的探索。
文章以明清古籍藏汉审音辞书《西番译语》为例,探讨了小众型藏文古籍在线出版应用的可能性,以期能够在更广泛层面发挥其学术应用价值,更好地服务于学术研究及古籍保护工作。
关键词藏文古籍数字传播在线词典一、古籍数字化层次与民文古籍概述古籍数字化最实质的目的是保护及利用。
其对古籍文献的再生性保护作用、对文本深度挖掘的性能、对构建数据资源库以飨共享的知识服务平台的优势等,使其在古籍保护及传播工作方面的能力无出其右。
深度加工后的古籍内容,更以跨学科的“知识图谱”形式辅助人们阅读与研究,产生二次价值,是以被称为“高效率的知识内容”。
古籍根据数字化加工及开发的程度,有存储、检索、交互、知识服务型数据库构建等形式。
就开发的层次,有学者概括为“表层数字化”和“深层数字化”:前者是图像或文本的简单存储,后者则是古籍内部知识元的标注,以及在知识元间设计建立关联的原则等,是“内容和意义层面”的开发。
(马创新,曲维光,陈小荷2014)104据2007年的国家普查摸底数据,全国汉文古籍藏量总数达20万种50万个版本,至2016年已数字化约10万种15万个版本。
(张贺2016)而民文由于受信息技术发展水平、标准及规范缺乏统一、经济投入能力相对较弱、需求不旺盛等综合条件的制约,民文古籍的数字化工作主要是图片数据库(古籍扫描或影印)和文本数据库(全文文本录入)的建立,数字资源的开发层次较低。
知识服务型数据库,即利用数字技术,应用文献学、信息学等学科的方法,将古籍所涉及的各类专门学科间的知识,以跨学科的方式进行“知识元”间的多元组合,构成结构化的、多维关联的智能知识网络体系的形式,在民文古籍数字化产品中极为少见。
西部高科数字化:古籍数字化须以古籍整理为基础古籍数字化是一个大有前途的文化产业。
目前市场上已有不少古籍数字读物,但往往存在一些质量问题和知识产权问题。
有人认为古籍整理只是加了一堆标点符号,算不得学术著作,也不存在知识产权问题,因而随意抄袭和转录,并制成营利性的商品,从而引起了一些争议和诉讼。
数字化的古籍应该是经过认真整理的古籍,需要运用目录、版本、校勘和文字、音韵、历史文献等各方面知识进行点校,成为现有最好或较好的版本。
否则,将会造成谬种流传,劣本取代善本。
但目前流传的古籍数字书,有些却是未经整理和粗制滥造的版本。
试以中国国学出版社2008年11月第一版的《中国历代笔记》U盘来说,收书很多,号称有1200多种,逾一亿字,信息量很大。
真是“一盘在手,坐拥百城”,方便得很。
然而,从古籍整理的规范来衡量,此U盘却缺点很多,遗憾不少。
为了古籍数字书的改进和传播,本文以《中国历代笔记》U盘(以下简称U盘)为例,说明古籍整理的规范和价值。
壹古籍的复制应该说明用的是什么版本。
而U盘则一律不说根据什么版本录入的,这就丢失了文献的科学依据,使人不敢轻易引用。
贰有些书原有的序跋都被删掉了,这也使读者无从了解版本源流的信息。
叁书目和版本的选择没有必要的说明,随意性很强。
例如,唐张鷟的《耳目记》就是一本伪书,实际上只是抄了《朝野佥载》的几条文字假托的书名。
又如,明无名氏的《巫娥志》,实际上是李祯(昌祺)《剪灯馀话》里的一篇,原名《江庙泥神记》,这也是假造书名的伪书。
又如宋人张君房的《丽情集》是一部佚书,U盘收了十二条残文,大概是根据宛委山堂本的“假《说郛》”辑录的。
但《说郛》本引的只是只言片语,很难理解原意。
其实,如果要收《丽情集》的话,至少《类说》卷二十九所收的24条佚文,就比《说郛》本还多出许多。
再如所收佚名的《灯下闲谈》,只有一篇,即原书中的《神仙雪冤》。
实际上原书是两卷二十篇,有《适园丛书》本和商务印书馆排印的《宋人小说》本,并不难见。
數位化古籍校勘版本處理技術-以CBETA大正藏電子佛典為例
釋惠敏*、杜正民**、周邦信***
*國立台北藝術大學教授(中華電子佛典協會主任委員)
**中華佛學研究所副研究員(中華電子佛典協會總幹事)
***中華佛學研究所資訊組組長(中華電子佛典協會研發組)
摘要
我國漢譯佛典,起自後漢,迄於元代。
苻秦道安乃至隋唐,雖有蒐集分類,編成目錄,總稱佛典為「一切眾藏經典」、「一切經藏」、「大藏經」,但是流通皆賴書寫。
直至宋開寶四年(971)始刻印(木版印刷)版本,稱為開寶藏,並頒賜給日本、契丹、西夏、高麗諸國,以及國內各地。
此後有遼版之契丹藏、金藏、萬壽藏、毘盧藏、圓覺藏、資福藏、磧砂藏等宋朝版本,以及韓國的高麗藏;元代有普寧藏、弘法藏等;明朝刊刻南藏、北藏等。
中華電子佛典協會(CBETA)採用目前廣為學術界使用《大正新修大藏經》(簡稱《大正藏》)為底本,進行數位化的作業。
《大正藏》是西元1924(日本大正時代末期)開始至1934年之間編輯出版。
它是以高麗本為底本,對校宋、元、明三本,另參照正倉院藏經、敦煌古本及巴利文、梵文經典,並在校勘欄中記錄了各版本的不同用字等資訊。
CBETA在製作電子佛典的過程中,將這些校勘資訊以XML記錄,並以HTML方式呈現,藉由校勘資訊做部份的版本還原,讓使用者可以選擇瀏覽不同版本。
此作業過程及其呈現方式或許可作為數位化古籍校勘版本處理技術的參考。