“互联网+”时代的古籍数字化新思路
- 格式:doc
- 大小:32.00 KB
- 文档页数:5
让古籍与数字化时代共振
人类的历史以来一直保留着珍贵的文化遗产,其中古籍就是其
中之一。
古籍在其所处的时代里曾是先人们资料记录的手段,同
时也承载了人类的精神文化。
而如今,在数字化的时代下,我们
可以通过技术手段把古籍信息数字化,这是一场古籍与数字化时
代的共振。
古籍作为文化遗产,存在于举世各地的博物馆和图书馆中,供
人类研究和欣赏。
但是,由于古籍的长期保存和时代变迁的影响,其中不少古籍已经残缺不全,甚至已经失传。
数字化技术的出现
为我们提供了一个将古籍内容更好地保存下来的机会。
通过数字
化手法,我们可以将古籍信息数字化,让古籍面临更广泛的读者
和研究者。
数字化让古籍更新了读者群体。
例如,一些在博物馆和图书馆
里长年昏暗无人的角落里藏着的古籍,可能在数字化时代更具魅力、更容易被发现。
数字化后,古籍可以通过网络公开,让更多
的人了解和研究古籍,从而保护和传承古籍的文化价值。
此外,数字化也让古籍的研究更加全面和普及。
数字化让古籍
内容不再局限于某个地方的博物馆或图书馆中,而是可以通过互
联网更加方便地索引、检索和分析。
数字化还使得古籍的翻译更加准确和及时,让更多的学者参与到古籍研究中,从而促进了古籍研究的发展。
总的来说,数字化让我们更好地保护、传承和利用古籍,同时也让古籍在数字化时代更具价值和活力。
数字化与古籍的共振,让古籍历史记载更加立体、全面和丰富,同时也助力于古籍文化的传承和创新。
数字人文如何推动古籍文献的数字化在当今数字化的时代,数字人文这一新兴领域正以其独特的方式为古籍文献的数字化注入强大的动力。
古籍文献作为人类文明的重要遗产,承载着丰富的历史、文化和知识,然而,由于时间的流逝和保存条件的限制,许多古籍面临着损坏、遗失甚至灭绝的危险。
数字人文的出现为解决这些问题提供了新的思路和方法,为古籍文献的保护、传承和利用带来了前所未有的机遇。
数字人文是什么呢?简单来说,它是将数字技术与人文研究相结合的跨学科领域。
通过运用数字化工具和方法,如数据库建设、文本挖掘、数据可视化等,对人文领域的资料进行收集、整理、分析和展示,从而推动人文研究的创新和发展。
在古籍文献数字化的过程中,数字人文发挥着至关重要的作用。
首先,数字人文为古籍文献的数字化提供了技术支持。
传统的古籍数字化往往只是将纸质文献扫描成图像文件,这种方式虽然在一定程度上保存了古籍的原貌,但无法实现对文本内容的深入挖掘和利用。
而数字人文技术则可以将古籍文献转化为可编辑、可搜索的电子文本,通过光学字符识别(OCR)技术和人工校对相结合的方式,提高文本识别的准确率。
同时,利用自然语言处理技术对文本进行分词、标注和语义分析,为后续的研究和利用奠定基础。
其次,数字人文促进了古籍文献的整理和编目。
在过去,古籍的整理和编目工作主要依靠人工完成,不仅效率低下,而且容易出现错误。
数字人文技术的应用可以实现对大量古籍文献的快速分类、编目和索引。
通过建立古籍文献数据库,将古籍的基本信息、版本、作者、内容摘要等进行规范化整理,方便学者和读者进行查询和检索。
此外,还可以利用数据挖掘技术发现古籍之间的关联和传承关系,为学术研究提供新的视角和线索。
再者,数字人文推动了古籍文献的知识发现和创新研究。
通过对数字化后的古籍文献进行文本分析和数据挖掘,可以发现隐藏在其中的知识和规律。
例如,通过对历史文献中人物关系、事件发生的时间和地点等信息的分析,可以构建历史知识图谱,直观地展示历史发展的脉络和趋势。
“互联网+”时代背景下的古籍保护思考受历史及自然原因影响,我国现存的大量古代文化典籍遭受到了嚴重的散佚与毁损。
在信息技术飞速发展的今天,本文试图通过古籍保护设施的改善、古籍的普查与收录、古籍的利用等方面,阐释数字化技术在古籍保护中的重要作用。
标签:古籍数字化古籍保护中国是世界上四大文明古国之一,我们的祖先在华夏大地上创造了光辉灿烂的文化,留下了卷帙浩繁的古代文献典籍。
宋代学者朱熹在《四书章句集注》中说,“文,典籍也;献,贤也。
”作为传承中华文明的重要载体,典籍的形式多样、数量庞大,除了陶文、甲骨文、金文、简牍、帛书、石经等特殊样式,比重最大的还是纸质的常规古籍。
在这里,我们主要讨论的就是以各级公共图书馆等收藏单位所收纸本古籍为主的保护问题。
一、利用数字化技术改进古籍收藏设施古籍善本是传承中华文明的重要载体,具有十分重要的文献收藏及历史研究价值。
然而,现实情况并不容乐观。
古籍作为一种不可再生资源,目前正面临着来自各方面的侵蚀与损坏。
历史上的政治动荡、兵燹之灾,现代自然环境的恶化、古籍保存设备的落后以及古籍本身不可抗拒的酸化、脆化、絮化等问题,都在考验着当下的古籍保护工作者。
目前我国大部分藏书机构都建设有专门的藏书室,根据《图书馆古籍特藏书库基本要求》,藏书室在建筑上必须符合气密性、抗震、保温阻热等标准,其余如室内温湿度、空气净化程度与通风程度、照明和紫外线标准都需要随时进行监测与调整,需要进行科学规范程序化的控制。
按照《基本要求》,特藏书库应放置温湿度监控设备,全年对室内温湿度进行监控,当前技术条件下,对室内温湿度的控制主要依赖于空调。
相对于传统空调,数字空调在温度湿度控制、净化空气方面显得更为智能。
数字空调采用的是数字处理传感器,可以收集代表真实环境的模拟信号,将这些信号转换为数字信号,以数字方式对信号进行处理,精确地控制压缩机和风机的转速,可使温控精确到0.5℃的范围之内。
也就是说,我们将特藏室的温控系统设置在一定范围内,当室内温度稍有变化,传感器就会准确无误地将这种变化传送给压缩机与风机系统,进行调温,使室内温度始终处于一种近似恒温的状态。
中国古籍数字化保护与利用中国古籍是我们中华文明的重要遗产,这些经典蕴含着丰富的历史、文化和哲学价值。
然而,随着时间的流逝和社会的发展,古籍面临着被破坏、流失和易损毁的危险。
为此,数字化保护和利用成为了古籍传承和研究的重要手段。
一、数字化保护数字化保护是指将古籍转换成数字形式,通过计算机网络保存和传输,以保护其原貌和价值。
这种方式能够有效地保护古籍,使其不再遭受自然灾害、人为破坏等威胁。
数字化保护的最大特点是可以保存原版文件的绝大部分内容,包括文字、图像、书籍文件等,并且可以通过互联网与世界分享。
数字化保护为古籍的传承和推广提供了宝贵的资源和保障。
中国古籍数字化保护的工作重心在于实现数字化文件的高保真还原。
为了达到这个目标,需要对古籍进行详细的阅读和解析,同时结合各种影像技术进行数字化转化。
数字化保护非常注重古籍的原貌和保真度,必须尽可能地还原原人手抄写的风格、笔画、色彩等要素。
在数字化保护过程中,需要经过多次校对、比对和校验,以保证数字文件的准确性和完整性。
二、数字化利用数字化古籍还原后,就可以在计算机网络中进行数字化利用。
数字化古籍能够为各类文化研究者、学生和普通民众提供更加便捷和快速的古籍查阅和学习途径。
利用数字化古籍,可以远程查阅、学习、研究各种古籍,更好地挖掘中国文化精髓,加强中外文化交流。
数字化利用也能使人们对古籍研究有更深刻的认识和理解,加深对中国传统文化的认知。
数字化古籍还原后,还可以开发出各种数字化产品,如软件、APP、数字化评注等,这些产品为古籍的普及和保护带来了新的机会与突破。
数字化产品的出现,让人们能够更加深入细致地了解古籍的内容,同时还可以将古籍和现代科技相融合,形成了更加丰富的古籍文化。
三、数字化保护与利用面临的问题及解决方案数字化保护与利用虽然给中国古籍的传承和研究提供了新的途径和机会,但同时也面临着一些问题和挑战。
首先,数字化保护所需的成本很高,涉及到大量设备和技术的投入,还需要人力、时间和金钱方面的支出。
基于人工智能的古籍数字化技术研究人工智能技术正飞速发展,伴随着这一趋势,古籍数字化技术也得以实现。
通过数字化技术,传承文化遗产,保护历史文化,实现了现代科技与传统文化的结合。
一、数字化技术实现古籍数字化在数字化技术的支持下,古籍的数字化得以实现。
古籍数字化是通过对古籍图像的数字采样和数字处理,从而得到古籍电子图像,使其成为一种可用于网络传输、供人们在线浏览和学习的数字文化资源。
对于传统的文化遗产保护来说,古籍数字化无疑是一种重要的手段。
二、人工智能在古籍数字化中的应用古籍的文字复杂度高,处理难度大。
在传统的数字化过程中,需要人工对每个文字进行手工识别与编码。
为了提高古籍的数字化速度和准确度,人工智能技术进入了数字化古籍的领域。
1.基于OCR的古籍文字识别技术OCR(Optical Character Recognition,光学字符识别)技术在古籍数字化中扮演着重要的角色。
其将古籍的文字转换成计算机可读的形式,进而进行数据处理和分析。
OCR技术在处理古籍时,由于文本版式、文字印刷等方面的差异,必须进行训练才能达到较高的识别率。
2.基于NLP的古籍自然语言处理技术自然语言处理(NLP)技术是从计算机科学、人工智能、语言学、计算心理学等多个领域相互交叉获得的一种研究人类语言和机器之间交互的技术。
在古籍数字化中,NLP技术可以通过对古籍文本的语言模型分析和处理,对古籍文化进行深入的研究。
三、数字化技术对文化遗产的保护与传承古籍数字化可以保证古籍的保存和传承,并且可以更好地展现文化遗产的魅力。
数字化古籍还可以实现大众文化教育和文化创意产业的发展。
1.保护文化遗产古籍数字化能够保护文化遗产的物质与非物质价值,包括古籍的历史、文化和艺术价值。
同时,古籍数字化还能避免古籍的物理损毁、丢失以及维护数字文件的优秀品质和长期保存,方便后代进行研究和学习。
2.传承文化遗产数字化古籍以其清晰的展示效果和便于传播的特点,让更多的人了解和感受中华文化的博大精深。
•古籍资源概述•古籍资源的数字化技术•古籍资源的智能化开发利用•古籍资源数字化与智能化开发利用的应用案例•古籍资源数字化与智能化开发利用的未来发展目录定义特点古籍资源的定义与特点古籍资源的价值与意义030201保护现状利用现状古籍资源的保护与利用现状数字化技术定义将文字、图像、音频、视频等模拟信息转换为数字信息的过程,以便进行存储、传输和处理。
数字化技术分类按照处理方式可分为扫描、OCR(光学字符识别)、语音识别等,按照载体可分为纸质文献数字化、甲骨文数字化等。
数字化技术的定义与分类介绍了国内外的古籍资源数字化技术的研究进展,包括技术手段、应用领域和成果等。
技术手段详细介绍了扫描、OCR、语音识别等技术在古籍资源数字化中的应用和优缺点。
国内外研究现状古籍资源数字化技术的研究现状VS古籍资源数字化技术的挑战与问题挑战古籍资源数字化过程中面临着技术难度大、成本高、标准化程度低等问题,同时还需要解决版权保护、数据安全等问题。
问题古籍资源数字化过程中存在数据质量不高、标准化程度低等问题,同时还需要解决数据存储、数据共享等问题。
智能化开发利用的定义与方法定义方法基于人工智能的古籍资源开发利用知识图谱构建智能问答与推荐文本自动分类与聚类基于大数据的古籍资源开发利用数据挖掘与可视化通过对古籍文本的情感分析,挖掘作者的情感倾向和思想内涵,为研究古代文化提供更多有价值的信息。
文本情感分析语义关联分析基于数字化的古籍修复与保护案例数字化技术助力古籍修复数字化技术促进古籍保护数字化技术推动古籍研究1基于人工智能的古籍文献检索案例23通过人工智能技术,实现古籍文献的智能检索,提高检索效率和准确度,缩短用户查找时间。
智能检索提高效率根据用户的研究领域、兴趣偏好等因素,利用人工智能技术进行个性化推荐,为用户提供更精准的古籍文献服务。
个性化推荐满足需求通过人工智能技术,实现古籍文献的自动分类和聚类,便于图书馆、博物馆等机构进行高效管理。
图书馆数字化古籍文献管理与开放近年来,随着数字技术的快速发展,图书馆数字化古籍文献管理与开放成为了一个热门话题。
数字化技术为保存和传承古籍文化提供了新的途径,同时也为研究者提供了更方便、高效的资源。
本文将探讨图书馆数字化古籍文献管理与开放的意义和挑战,并介绍一些常见的数字化古籍文献管理与开放的方法与实践。
首先,数字化古籍文献的管理与开放有着重要的意义。
传统的古籍文献保存方式通常依赖于纸质版本,这些纸质古籍易受到时间和环境的侵蚀,且分散保存造成了信息的丢失和空白。
而数字化古籍文献管理可以将这些纸质古籍转化为数字形式,通过数字化技术进行存储、保护和传播,有效地解决了纸质古籍保存的难题,实现了古籍文化的长远传承。
其次,数字化古籍文献的开放使得古籍的使用更加便捷和广泛。
传统的纸质古籍读者需亲自前往图书馆或者书店获取,且存在着古籍珍稀和保护的限制。
而通过数字化技术,古籍文献可以在线访问和阅读,读者只需拥有一个互联网连接的设备就可以随时随地地使用古籍资源。
这样无疑扩大了用户的范围,提供了更多人分享古籍文化的机会。
然而,图书馆数字化古籍文献的管理与开放也面临着一些挑战。
首先是数字化古籍文献的版权问题。
由于古籍文献的作者多已逝世多年,因此其版权归属复杂,造成了数字化古籍文献的版权难题。
如何确保数字化古籍文献的合法使用和传播,同时尊重版权,是一个需要解决的问题。
其次是数字化古籍文献的质量问题。
数字化古籍文献需要高清扫描和处理,以确保数字化后的文献质量达到可阅读和研究的标准。
然而,现实情况是,很多图书馆在数字化过程中往往受限于经费和技术条件,导致数字化古籍文献的质量参差不齐。
因此,如何提高数字化古籍文献的质量,提供高质量的数字化资源,是一个需要重视的问题。
针对这些挑战,有许多数字化古籍文献管理与开放的方法与实践。
一种常见的方法是建立数字图书馆。
数字图书馆是一个基于数字化技术的古籍文献库,将纸质古籍转化为数字形式,并提供在线访问和检索功能。
让古籍与数字化时代共振随着数字化时代的发展和普及,越来越多的文化和书籍被数字化,以便更加方便地被保存、分享和利用。
然而,对许多珍贵的古籍来说,数字化并不仅仅是保存的方式,也是一种重要的方法,让这些宝贵的文化资源能够与数字化时代共振。
数字化时代给古籍带来的新机遇数字化时代的到来让我们能够更加容易地在网络上共享和利用珍贵的古籍,这为广大读者和学者带来的便利是无以伦比的。
数字化古籍可以被转化为电子书,可以通过网络传播,能够使得读者可以更加方便地获取这些古籍。
这不仅拓宽了读者可以阅读古籍的途径,也让一些珍贵的古籍能够得到更好的保护和保存。
数字化时代也为古籍的传播和研究带来了新的机遇。
传统的古籍阅读是需要直接阅读古籍手稿,读者必须有一定的古文阅读能力,而且有些古籍的保存状况并不好,需要特殊的保存手段。
而数字化古籍的出现,使得这些问题都得以解决。
通过数字化技术,可以将古籍转化成可搜索的文本格式,以便于检索和使用。
这不仅仅方便了学者的使用和研究,也扩大了古籍的受众群体。
数字化保护古籍的创新技术在数字化时代,能够有效保存古籍往往是保护古籍的重要手段。
数字化技术使得传统的古籍保存方式得到了颠覆,新的方法和新技术可以帮助我们更好地保存古籍文化。
比如,数字化重建是一种重要的技术,在古籍原始阅读材料上进行数字化处理,可以制作出与古籍原校本极为相似的电子校本,同时可能还能够整理成更容易被阅读的文本格式。
此外,通过激光数字化将古籍转化为数字化版,我们不仅能够保存这些珍贵的文化资源,还能够解决文化遗产保存的许多问题。
数字化重建的过程主要是将古籍进行扫描,扫描后得到的数字化版可以通过网络和电子设备直接获取和使用。
这样在一定程度上减少了对古籍的损伤,也保证了古籍在数字化时代具有可阅读性和可利用性。
数字化让古籍文化得以传承数字化时代对古籍的保护和传承,给我们提供了具有挑战性的任务。
通过数字化技术能够保护古籍文化,并记录下其中蕴含的宝贵信息,让这些文化资源得到更好的保存和传承。
关于古籍出版数字化的思考本文在阐述古籍出版数字化现实意义、发展必要性的基础上,分析古籍出版数字化需遵循的原则和标准,进而提出如何进行古籍数字化。
古籍是记录历史遗产的介质,现今的古籍由于历史的变迁存留的数量已经不多了。
信息化技术发展很快,古籍数字化已经比较常见,运用科技技术将古籍保存在系统中,更好地保护了古籍的完整性。
一、古籍数字化的意义古籍整理是一个细致化和学术化的过程,在古籍数字化之前,古籍的整理出版受时间和空间的限制,也受到保存条件的限制,使得古籍出版的产出量跟不上时代的发展。
古籍数字化对古籍原本的保护和内容的传承意义巨大。
古籍出版数字化利用古籍出版数字化系统能够充分挖掘出古籍载体的文化价值和史料价值,从而实现对古籍出版资料的有效利用。
同时将古籍的藏与用的问题良好解决,运用数字化系统将古籍史料价值和文化价值实行有效的分离,充分显示出古籍资料的多样化价值。
另外,古籍数字化也减少了人们和原古籍的直接接触,在很大程度上减少了人们对原古籍的破坏,更好地实现原古籍的长期保持目标。
二、古籍数字化的原则和标准古籍数字化的工作是非常系统化的,要在一定的基层原则指导下,再进行有效的系统工作。
其一,要按照古籍的整理原则进行古籍数字化的工作。
其二,将有效保护和充分利用相结合来进行古籍数字化的工作。
古籍的文化价值和史料价值的分离可以通过数字化来实现。
运用数字化可以提高古籍的使用率,这样符合古籍的利用条件;运用数字化传播古籍内容避免接触古籍原版,减少了古籍的破坏率,这也符合古籍的保护条件。
其三,严格遵循统一规划系统开发的原则进行古籍数字化工作。
在对古籍数字资料管理的同时要充分调动各个部门之间的关系,实现协调化的古籍管理,在最大程度上避免古籍资料浪费情况的发生。
同时,还可以建立有关小组对古籍资料进行统一化的分类、整理。
其四,必须坚持统一著录标准的原则进行古籍数字化工作。
古籍数字化资源共享的基础和古籍机读目录的建设就是编制标准的古籍目录,只有进行深入地标记引入和严格规范控制的数据库才能拥有良好的资源再生,现实的知识是通过再生资源的有效筛选和编排发现的知识。
数字环境下图书馆的古籍整理与保护研究随着数字技术的飞速发展,图书馆在古籍整理与保护方面也面临着新的挑战和机遇。
传统的古籍整理与保护工作主要依靠手工作业,工作效率低下,而且受制于环境条件,存在着易损耗、易丢失等问题。
数字环境下,图书馆在古籍整理与保护方面可以借助数字技术进行更高效、更全面的工作,确保古籍的保存和传承。
本文将从数字环境下的图书馆古籍整理与保护的现状和挑战出发,探讨数字技术在古籍整理与保护中的应用,以及未来的发展方向。
目前,数字环境下的图书馆古籍整理与保护工作主要集中在以下几个方面:1.数字化保护:利用数字技术对古籍进行扫描、拍照或者录入,将古籍转化为数字形式保存,以减少古籍原件的频繁翻阅,减轻古籍的损耗和磨损。
数字化保护还可以让更多的人可以通过互联网进行在线阅读、查询,推动古籍的传播和利用。
2.数字化整理:数字化整理是对古籍内容进行数据化、标准化处理,将古籍的文字、图片、插图等各种元素进行归类、整合,方便读者查阅。
数字化整理还可以对古籍进行全文检索,提高古籍的利用价值。
3.数字化修复:利用数字技术对古籍进行修复,包括对古籍的文字、图片等进行瑕疵修复,使古籍在数字环境下呈现出更加清晰完整的形象。
虽然数字化保护、整理和修复对于古籍的保存和传承有着积极的作用,但是目前数字环境下的图书馆古籍整理与保护还面临着一些挑战:1.技术标准不统一:由于数字化技术的快速发展,导致古籍数字化的标准各异,缺乏统一的规范,使得不同机构和个人开展的数字化工作在格式、质量、权限等方面存在差异,影响了古籍数字化资源的整合和共享。
2.古籍保护与网络安全:数字化古籍的在线展示和共享,使得古籍受到了网络安全的威胁,可能导致古籍的盗版或者侵权行为,因此数字环境下的古籍保护需要与网络安全结合起来。
3.人员素质不足:古籍数字化工作需要专业的人才,但是目前在这方面的专业人才较为匮乏,古籍数字化工作的人员培训和队伍建设任重而道远。
古典文献学与数字化时代的结合与创新引言:古典文献学作为研究古代文献的学科,长期以来关注古代文献的收集、整理和研究。
然而随着数字化时代的到来,数字技术的快速发展为古典文献学带来了许多创新的机遇和挑战。
本文将探讨古典文献学与数字化时代的结合与创新,从数字化资料收集与整理、数字化研究方法和数字化展示三个方面进行阐述。
一、数字化资料收集与整理数字化技术使得古典文献学家能够更加方便地收集和整理古代文献资料。
通过数字化技术,文字、图片、音频和视频等多种形式的文献资料可以被快速转化为电子文件,大大降低了收集和整理的成本和时间。
而且,数字化资料可以进行全文检索和数据交叉,大大提高了研究效率。
对于破碎的古代文献,数字化技术还能够进行虚拟重构,恢复文献原貌,增加文献研究的可信度。
二、数字化研究方法数字化时代给古典文献学提供了新的研究路径和方法。
通过文本挖掘和数据分析技术,研究者可以从大量的数字化文献资料中发现新的结构和内涵。
文本挖掘技术可以帮助研究者发现文献中的关键词、主题、情感等信息,从而更好地理解古代文献的内容和背后的文化内涵。
数据分析技术则可以帮助研究者通过统计模型和可视化方法来分析古代文献的特征和规律。
这些数字化研究方法的出现,为古典文献学开辟了新的研究领域,丰富了研究方法论。
三、数字化展示数字化技术还能够为古典文献的展示提供新的方式和工具。
传统上,古典文献主要通过印刷和展览等方式进行传播和展示。
而借助数字化技术,古代文献可以以电子书、数据库、数字展览等多种形式进行展示。
电子书的出现,使得古代文献可以更加轻松地在网络上进行传播和阅读,打破了时间和空间的限制。
数据库的建立,使得研究者可以将大量的古代文献资料进行分类和整理,方便用户进行查询和使用。
数字展览则能够通过多媒体技术和虚拟现实技术,将古代文献呈现在观众面前,使得观众能够身临其境地感受古代文献的魅力。
结论:数字化时代为古典文献学带来了许多机遇,同时也带来了一些挑战。
古代文献学中的大众化与数字化趋势古代文献学(Ancient Bibliography)是一门研究古代文献的学科,致力于整理、研究和保护重要的古代文献遗产。
随着科技的不断发展,特别是信息技术的迅猛进步,大众化与数字化成为了古代文献学发展的重要趋势。
本文将探讨古代文献学的大众化与数字化趋势,并探讨其对该学科的影响。
一、数字化技术在古代文献学中的应用数字化技术在古代文献学领域的应用日益广泛。
通过数字化技术,我们可以将古代文献的内容以电子形式保存,使其易于被传播和研究。
同时,数字化技术还可以为古代文献提供更全面、更精确的研究方法。
例如,在古代文献的研究中,通过数字化技术可以对大量的文献进行数据分析和统计,从而发现隐藏在文献中的规律和趋势。
二、数字化技术推动古代文献学的大众化数字化技术使得古代文献学的研究不再局限于专业学者,而是可以普及到更多的大众群体中。
通过数字化技术,任何人都可以通过互联网来获取古代文献的信息,而不再需要亲自前往研究机构或图书馆。
数字化技术的普及还促进了古代文献学的交流与合作。
学者们可以通过在线平台共享自己的研究成果,与其他研究者进行合作,推动古代文献学的进一步发展。
三、数字化技术对古代文献学的挑战数字化技术在古代文献学中的应用也面临一些挑战。
首先是数字化过程中的版权问题。
古代文献的版权归属复杂,需要严格遵循相关法律法规。
其次是数字化过程中出现的技术问题。
数字化技术的应用需要相关专业知识,而在古代文献学领域的取证和重建等方面的专业人才相对较少,这就需要更多的跨学科合作与交流。
另外,数字化技术的发展速度较快,技术更新迭代较快,古代文献学的研究者需要不断跟进学习和适应新的技术趋势。
四、数字化时代的古代文献学研究方法创新数字化时代对古代文献学的发展提出了新的要求,同时也促使研究者创新研究方法。
在数字化时代,研究者可以利用文本挖掘技术,通过计算机程序对大量古代文献进行自动化处理和分析,从而发现文献中隐藏的信息和规律。
人工智能在古籍中的应用人工智能在古籍中的应用人工智能在各个领域都发挥着重要的作用,古籍领域也不例外。
利用人工智能技术,可以对古籍进行数字化处理、文献分析和语义理解,使得古籍的研究和保护变得更加高效和全面。
下面将介绍人工智能在古籍中的应用。
1. 古籍数字化人工智能技术可以应用于古籍数字化过程中的图像识别和文字识别。
通过图像处理和模式识别算法,可以将古籍的纸质文献转化为数字形式,实现古籍的数字化保存和展示。
同时,文字识别技术可以自动识别古籍中的文字内容,提高古籍的文献整理和研究效率。
2. 文献分析人工智能技术可以对大量的古籍文献进行深度分析。
通过自然语言处理和机器学习算法,可以自动提取关键词、分类文本、找出文献之间的关联性等。
这有助于研究者更好地理解古籍的内容和内在联系,发现重要的文化价值和历史线索。
3. 语义理解和智能问答人工智能还可以应用于古籍的语义理解和智能问答。
通过深度学习和语义推理算法,可以让计算机理解古籍中复杂的句子结构和含义,实现对古籍中问题的自动回答。
这有助于使研究者更方便地从古籍中获取所需信息,提高古籍研究和阅读的效率。
4. 文化遗产保护人工智能技术还可以应用于古籍文化遗产的保护和修复。
通过图像处理和计算机视觉技术,可以对古籍文物进行数字化重建和虚拟仿真。
同时,人工智能还可以辅助修复古籍中的断裂和残缺,还原古籍的原貌,提高文物保护和修复的准确性和效果。
总结:人工智能在古籍领域的应用广泛而多样。
通过古籍数字化、文献分析、智能问答和文化遗产保护等方面,人工智能技术可以提高古籍研究和保护的效率和准确性。
这些应用有助于更好地理解和传承古籍中的文化智慧,推动古籍的数字化、研究和传播,丰富人们对于历史文化的认知和理解。
随着人工智能技术的不断发展和创新,相信人工智能将为古籍领域带来更多的机会和挑战。
如何运用数字化技术保护古典文献资源在当今数字化时代,古典文献资源的保护面临着前所未有的机遇与挑战。
如何运用数字化技术有效地保护这些珍贵的文化遗产,成为了摆在我们面前的重要课题。
古典文献资源承载着丰富的历史、文化和知识,是人类智慧的结晶。
然而,由于时间的流逝、保存条件的限制以及人为因素的影响,许多古典文献正面临着损毁、遗失甚至灭绝的危险。
数字化技术的出现为古典文献资源的保护提供了新的途径和方法。
首先,数字化扫描是保护古典文献资源的基础手段之一。
通过高精度的扫描仪,可以将纸质文献转化为数字图像。
这些数字图像能够清晰地呈现文献的原貌,包括文字、图案、装帧等细节。
与传统的拍照方式相比,数字化扫描具有更高的分辨率和更准确的色彩还原度,能够最大程度地保留文献的原始信息。
同时,数字化扫描还可以避免在拍摄过程中对文献造成的二次损伤。
在进行数字化扫描时,需要选择合适的设备和参数。
扫描仪的分辨率应根据文献的重要性和珍贵程度来确定。
对于特别重要的文献,应采用高分辨率扫描,以确保细节的完整性。
此外,还需要注意扫描环境的光照条件和温度湿度,避免对文献产生不利影响。
其次,建立数字化数据库是保护古典文献资源的重要环节。
将扫描得到的数字图像以及相关的文字描述、索引等信息整合到数据库中,可以方便地进行管理和查询。
数字化数据库不仅能够提高文献资源的利用效率,还能够为学术研究提供有力的支持。
在构建数字化数据库时,要确保数据的准确性和完整性。
对文献的描述和索引应尽可能详细和准确,以便用户能够快速准确地找到所需的文献。
同时,要建立完善的数据备份和恢复机制,防止数据丢失或损坏。
为了保证数据库的安全性,还需要采取相应的加密和访问控制措施,防止未经授权的访问和使用。
另外,文本数字化也是保护古典文献资源的关键步骤。
利用光学字符识别(OCR)技术,可以将扫描图像中的文字转化为可编辑的文本。
这不仅方便了文献的检索和利用,还为后续的数据分析和研究奠定了基础。
图书馆的数字化古籍保护与利用在数字化时代,图书馆的数字化古籍保护与利用成为了一个重要的话题。
古籍作为文化遗产的重要组成部分,其保存和传承一直备受关注。
数字化技术以其高效快捷的特点,为古籍保护与利用提供了新的途径和手段。
本文将探讨数字化古籍保护与利用在图书馆中的重要性,并讨论其面临的挑战和发展方向。
一、数字化古籍保护的重要性数字化古籍保护是指将古籍进行数字化处理,包括扫描、图像处理、文本识别等技术,使之能够以数字化形式保存和传播。
数字化古籍保护具有以下几个重要的方面。
首先,数字化古籍保护可以有效地保护古籍的原貌。
传统的纸质古籍容易受到时间、灰尘、虫蛀等自然因素的侵蚀,导致古籍的损坏和丢失。
而数字化处理可以将古籍以数字化形式保存,避免了这些自然因素的影响,从而保护了古籍的原貌。
其次,数字化古籍保护可以提高古籍的可访问性。
传统的古籍保存在图书馆的馆藏中,只能在图书馆内进行阅览,对于广大公众来说不太便利。
而数字化古籍可以通过互联网等方式进行在线访问,不受时间和空间限制,使更多人能够方便地接触到古籍,了解和学习其中的知识。
最后,数字化古籍保护可以促进古籍的研究和学术交流。
数字化古籍可以进行全文检索,方便研究者查找和分析古籍中的内容。
同时,数字化古籍可以与其他数字资源进行链接,形成丰富的学术资源网络,促进学术交流和合作。
二、数字化古籍利用的挑战尽管数字化古籍保护与利用带来了诸多好处,但也面临着一些挑战。
首先,数字化古籍保护的成本较高。
数字化过程需要专业的设备和技术支持,同时还需要大量的人力和时间投入。
这些都增加了数字化古籍保护的成本,限制了许多图书馆在数字化古籍方面的进展。
其次,古籍的数字化处理可能会损害其原始材料。
例如,扫描古籍过程中的高温、紫外线等因素可能对古籍造成损坏。
如何在数字化处理中兼顾对古籍的最大保护,成为一个亟待解决的问题。
另外,数字化古籍的版权问题也是一个重要的挑战。
许多古籍的版权归属不明确,涉及到版权保护和使用的问题。
古籍数字化项目实施方案一、项目背景随着信息技术的发展,古籍数字化已成为当今数字图书馆建设的重要内容。
古籍数字化项目的实施,有利于保护和传承中华优秀传统文化,也为学术研究和教学提供了丰富的资源。
因此,本文将针对古籍数字化项目的实施方案进行探讨和总结。
二、项目目标1. 保护古籍文化资源,防止因时间、环境等因素导致古籍文献的破坏和丢失。
2. 实现古籍文献的数字化存储,提高古籍文献的利用率和可持续利用性。
3. 促进古籍文献的学术研究和传播,推动古籍文化的传承和发展。
三、项目实施步骤1. 古籍筛选:根据古籍的历史价值、研究价值和文化价值,确定数字化项目的古籍文献范围和数量。
2. 文献整理:对选定的古籍文献进行整理和分类,确保文献的完整性和准确性。
3. 数字化处理:采用先进的数字化技术,对古籍文献进行扫描、拍摄和录入,生成数字化文献数据。
4. 数据存储:建立古籍数字化文献的数据库,进行数据存储和管理,确保文献数据的安全和稳定。
5. 资源共享:通过网络等方式,实现古籍数字化文献资源的共享和开放获取,促进文献资源的广泛利用。
6. 保护措施:建立古籍数字化文献的保护和备份机制,防止文献数据的丢失和损坏。
四、项目实施要点1. 技术选型:选择适合古籍数字化的先进技术和设备,确保数字化文献的质量和准确性。
2. 人才培养:加强古籍数字化技术人才的培养和队伍建设,提高数字化项目的实施能力和水平。
3. 合作共建:加强与相关单位和机构的合作,共同推进古籍数字化项目的实施,实现资源共享和互利共赢。
4. 法律法规:遵循相关法律法规,保护古籍文献的知识产权和版权,合法合规地开展数字化项目。
五、项目成果评估1. 文献质量:对数字化文献的质量进行评估,确保文献数据的准确性和完整性。
2. 资源利用:对数字化文献资源的利用情况进行评估,促进文献资源的广泛应用和传播。
3. 社会效益:评估数字化项目对古籍文化保护、学术研究和文化传承的社会效益和影响。
人工智能在古籍保护中的发展现状与未来趋势古籍是中华文明的重要组成部分,它们承载着丰富的文化和历史信息。
然而,由于岁月的流逝和自然因素的影响,古籍的保存和保护面临着巨大的挑战。
近年来,随着人工智能技术的迅速发展,人工智能在古籍保护中的应用越来越受到重视。
首先,人工智能在古籍数字化方面发挥了重要作用。
古籍的数字化是保护古籍的重要方式之一,可以使古籍得以更好地保存和传播。
而传统的古籍数字化方法需要大量的人力和时间,效率低下。
而借助人工智能技术,通过对古籍进行图像识别和文字辨识,可以实现自动化的古籍数字化过程,大大加快了数字化的速度和效果。
其次,人工智能在古籍文献的研究和分析方面也发挥着重要的作用。
古籍中蕴含着丰富的文化、历史和学术价值,通过对古籍进行深入的研究和分析可以揭示更多的信息。
而人工智能可以通过自然语言处理、机器学习等技术,对大量的古籍文献进行自动化的分类、标记和分析,帮助研究人员更好地了解和利用古籍中的知识。
另外,人工智能还可以在古籍的修复和保护工作中发挥重要作用。
古籍因为年代久远和外部因素的影响,往往出现破损、褪色等问题,需要进行修复和保护。
而传统的古籍修复工作需要依靠专业的修复师,费时费力。
而利用人工智能的图像处理和模式识别技术,可以对古籍进行自动化的破损检测和修复,大大提高了古籍修复的效率和质量。
然而,人工智能在古籍保护中还面临着一些挑战和问题。
首先,古籍的文字和图像具有多样性和复杂性,不同的古籍存在不同的书写风格和文字结构,同时还存在大量的手写和印刷变体。
这就给人工智能的图像识别和文字辨识带来了一定的困难。
其次,古籍的保护和修复需要专业的知识和技能,而人工智能技术的开发和应用需要充分理解和应用相关领域的知识。
因此,如何将人工智能技术与古籍保护的专业知识相结合,仍然是一个需要深入研究的问题。
未来,随着人工智能技术的不断发展和进步,人工智能在古籍保护中的应用将会更加广泛和深入。
首先,随着深度学习和自然语言处理等技术的进一步改进,人工智能在古籍文字识别和翻译领域的应用将会更加准确和可靠。
文化遗产数字化保护与传承的新思路近年来,随着科技的迅猛发展,文化遗产数字化保护与传承成为一个备受关注的话题。
传统的文化遗产保护方法面临着许多挑战,例如时间的侵蚀、环境的破坏以及人为因素等。
而数字化保护与传承不仅可以有效地解决这些问题,还可以为文化遗产的传承提供全新的可能性。
首先,数字化保护可以实现对文化遗产的精确记录和保存。
传统的文化遗产保护方法往往依赖于实物的保存,但是随着时间的推移,实物的磨损和损坏是不可避免的。
而数字化保护可以通过高清摄影、三维扫描等技术手段,将文化遗产的每一个细节都准确地记录下来,并保存在数字媒体中。
这样一来,即使实物发生了损坏,我们仍然可以通过数字化的方式重新还原和展示文化遗产的原貌。
其次,数字化保护可以实现对文化遗产的虚拟展示和传播。
传统的文化遗产保护方法往往依赖于实物的展示,但是由于一些原因,例如地理位置的限制和保护需求的限制,很多人无法亲身去参观和欣赏这些珍贵的文化遗产。
而数字化保护可以通过虚拟现实技术和互联网的普及,将文化遗产以虚拟的形式展示给全世界的人们。
无论是在家中的电脑上,还是在手机上,人们都可以通过网络随时随地地欣赏和学习文化遗产。
此外,数字化保护可以实现对文化遗产的跨界融合和创新传承。
传统的文化遗产保护方法往往将文化遗产局限在特定的领域中,例如博物馆、图书馆等。
而数字化保护可以将不同领域的文化遗产进行融合,实现跨界的传承和创新。
例如,我们可以将传统的文物与现代的科技相结合,通过虚拟现实技术让人们身临其境地参观历史古迹;我们还可以将传统的音乐与现代的音乐进行融合,创造出全新的音乐作品。
这样一来,不仅可以让文化遗产得到更广泛的传播,还可以激发人们对文化遗产的兴趣和热爱。
然而,数字化保护与传承也面临着一些挑战和问题。
首先,数字化保护需要大量的技术支持和专业人才。
例如,高清摄影、三维扫描等技术需要专业的设备和操作,而虚拟现实技术需要专业的软件和开发人员。
此外,数字化保护还需要专业的人才对文化遗产进行分类、整理和描述,以便于后续的管理和传承。
电子阅读浪潮下古籍资源开发利用的分析随着科技的发展和数字化时代的来临,电子阅读已经成为了人们阅读图书的主要方式之一。
在这个背景下,对古籍资源的开发利用也逐渐转向数字化方向。
本文将从古籍资源的数字化转型、电子阅读的优缺点、古籍数字化电子阅读的实践案例等方面进行分析。
一、古籍资源的数字化转型传统的古籍保护方式主要是抄录、印刷、复制等手段,这些方式虽然可以保护古籍,但是也存在极高的风险,比如印刷版面不能再进行修改,复印件的存储时间有限等等。
随着数字化技术的应用,古籍可以通过数字化转型的方式进行数字化的保护,这样既保留了古籍原貌又具有了数字化保存的便利性,被广泛地应用于古籍资源的保护与开发利用。
数字化转型的过程中需要借助数字化设备,通过扫描、拍摄等工作将古籍文献转换为数字化的文件,然后利用数据分析、数据挖掘、图像处理等技术对古籍文献数据进行深入分析,获得更多的信息价值。
二、电子阅读的优缺点电子阅读相比传统的纸质阅读有着一定的优势和劣势。
优点:1.便利:通过电子阅读器等设备,可以随时随地读取自己想要的书籍,不受时间、空间的限制。
2.交互性强:电子阅读器支持一些交互性操作,例如目录跳转、全文搜索、批注等,用户可以便捷地进行个性化的阅读。
3.容量大:电子书的存储容量相对于传统纸质书籍要大得多,无需担心书籍数量过多所带来的占用空间问题。
4.环保:电子书籍不需要使用纸张等传统材料,大大节约资源,同时也降低了造纸对环境的污染,具有更好的环保性。
1.眼睛疲劳:电子设备的屏幕需要发光,较长时间的阅读容易导致眼睛疲劳。
2.安全性:电子阅读器等设备依赖电量,而电量的供应需要电池等电源装置,所以在某些情况下(例如长途旅途、无电源的地方)可能会受到限制。
3.版权问题:电子书籍很容易被复制、下载并传阅,所以在版权保护方面需要加强管理和法律支持。
三、古籍数字化电子阅读的实践案例1.敦煌古籍数字化工程该工程是中国的一个古籍数字化工程,旨在挖掘和保护敦煌的古籍文献资源。
“互联网+”时代的古籍数字化新思路本文分析了目前中文古籍数字化过程中遇到的问题,在“互联网+”的驱动下,通过借鉴成熟的“reCAPTCHA”技术,构建基于互联网知识网络的古籍数字化平台。
标签:古籍数字化互联网大数据知识网络验证码一、古籍数字化出现的问题1.古籍数字化研究现状古籍又称典籍、文献,是指没有采用现代印刷技术来印制的书籍。
中华文明五千年从甲骨文、简牍、卷轴再到线装,留下了大量宝贵的古籍,作为中华文明文化延续的印证,古籍整理是非常重要的。
古籍整理的传统方法,是通过对古籍进行审校释(审定、校勘、注释)等加工整理后形成新版本,便于现代人进行阅读。
古籍整理的传统方法主要依赖手工进行,有着操作过程繁杂、效率低的缺点,而且新版本仍然是书本形式,难以再次利用。
在计算机技术出现后,古籍整理有了新的工具和方法,即古籍数字化技术。
通过利用信息技术将古籍文献进行加工和整理,并使其转化为电子数据,可以通过光盘、网络进行保存和传播,有效解决了传统古籍整理的缺点。
中文古籍的数字化最早是二十世纪七十年代,从计算机技术发达的美国开始的。
我国在引入相关技术后,产生了大批有价值的成果。
国家图书馆的“古籍特藏文献数字化计划”,完成了“甲骨文”、“数字方志”、“碑砧菁华”、“敦煌遗珍”、“西夏碎金”、“永乐大典”等成果。
其他研究机构也推出了大量产品,其中北京大学所著的《中国基本古籍光盘库》,将收录古籍万余种。
另外,在CALIS项目和CANAL项目中涉及到的古籍子项目也有很好的成果。
国际上,拉丁文体系古籍的数字化工作也进行了大量研究工作。
由欧盟二十六家图书馆联合推出的IMPACT(Improving Access to Text)项目,是一个通过研究OCR(Optical Character Recognition,光学字符识别)技术,来推动拉丁体系文字古籍数字化工程。
2.古籍数字化的发展与瓶颈我国古籍数字化的发展经历了联合目录阶段、目录+影像阶段和全文检索三个阶段。
第一阶段是20世纪80年代,联合目录为古籍数据库检索系统的开发,以数据库的形式储存。
通过利用计算机,对古籍资料进行目录检索、内容整理、储存、数量统计,以及编制索引,极大的改进了古籍文献的检索方式,是古籍研究的辅助工具。
最初的古籍数据库主要是书目数据库,很多省市级图书馆都建立了书目数据库,其中南京图书馆建立了40万条中文古籍书目数据。
第二阶段是20世纪90年代的目录+影像阶段。
这个阶段形成了以光盘为载体,可通过目录进行查询、浏览原文的影像页的古籍文献或古籍数据库,所以又称为光盘版古籍。
1997年武汉大学出版社推出的“四库全书光盘版”共150张光盘,以文渊阁本《四库全书》为底本,将全书两百余万页逐页扫描成电子文件。
第三阶段,2000年起古籍数字化进入了全文检索阶段。
将古籍的全文录入进数据库系统,通过文本与检索项匹配,实现直接到段落的精确查找。
并且配置网络化,以各地区的图书馆为节点、网络为纽带建立了网络上的联合数据库。
通过网络共享服务,可以不再依赖个人存储也能得到海量资源。
然而古籍数字资源不足,影响了网络化的发展。
古籍数字化加工有着很多的问题。
2.1机器难以提高对古籍的识别能力整理好的古籍进行数字化的第一步,便是古籍录入。
图书数字化录入的方法有两种,分别是人工键盘输入和计算机光学字符识别(OCR)扫描输入。
人工键盘输入属于手工作业,需要由录入人员看着图书,逐字录入,有着效率低、成本高的缺点。
OCR是一种先进的自动化技术,通过机器来大量识别图像为文本,是大量图书数字化的主要手段。
但是,如果图书是古籍的情况下,机器的录入难度就增加了不少。
缺字:由于计算机对文字的处理要通过编码来完成,国标字库(GB2312)收录有6763个字,国标扩展汉字字库(GBK)收录有20902个字。
而古籍中通用字约有四万,常用的异体字约为两万。
相对古籍中的繁体字、通假字、异体字、避讳字而言,计算机的编码库无法满足古籍输入要求。
排版:古籍不仅仅是竖排版的问题,有无钤印、句读、栏线,标注分为单行标注和双行标注,写本、刻本、家谱、碑拓等等,甚至出现手写字体,都会让计算机无法识别。
所以,要提高古籍识别系统的可用性和可靠性,必须建立一套自我学习系统,让它尽可能接触更多古籍:从中提取新字样来扩充字符集,识别新版式来增强版面分析能力。
2.2专业要求强、投入不足现代人能将古文顺利“认出”,就是一件非常难的事情。
句读:古文是没有标点符号的,在阅读古文时要做到正确表达和语气顺畅,必须注意文句间起承转合。
不懂句读会造成误读、误解原意,所以古人在《三字经》中要求“明句读”。
唐代文学家韩愈在《师说》中就提到“句读之不知,惑之不解,或师焉,或不焉,小学而大遗,吾未见其明也”。
除非进行专门的学习和研究,现代人很难读懂古文。
生僻字:汉字是在不断发展和变化的。
中国最早商代甲骨文中的文字有三千多字,汉代《训纂篇》有五千多字,《说文解字》有九千多字,晋代《字林》有一万二千多字,后魏《字统》有一万三千多字,唐代《玉篇》有两万二千多字,宋代《类篇》三万一千多字,清代《康熙字典》四万七千多字。
1915年,欧阳博存的《中华大字典》四万八千多字。
1970年,由张其昀主编的《中文大辞典》四万九千多字。
1990年,由徐仲舒主编的《汉语大字典》五万四千多字。
1994年,冷玉龙等的《中华字海》收入大量废弃的字,总字数多达八万五千字。
而新课标在义务教育阶段对学生的识字要求仅有三千五百个。
异体字:同一个汉字在古今也存在多种写法,比如有部分古书会把“嫦娥”中的“嫦”写成“常”。
鲁迅作品中的孔乙己强调茴香豆的“茴”有四种写法,这些字统称为异体字。
古籍整理要求把几个异体字改为一个字,需要有很多古文经验并结合上下文的理解,要求整理者有很深的古文专业知识。
所以古籍整理工作只能依赖于专业人员。
古籍资源数字化是传统文化学习与现代信息技术的结合,现在的古籍整理专业人员多为文科学生,很少有懂得计算机技术,而懂得计算机技术的人员又缺少古文知识。
同时进行两个学科人才的培养,要求教育机构提供跨学科的教育。
从目前的情况来看,投入是远远不足的。
二、搭建基于互联网的古籍数字化新平台经过了十几年的飞速发展,互联网从早期的由网站编辑人员主导发布内容,进化为由网络用户主导发布内容的互联网产品模式,也就是web2.0概念。
产生了如知识网络(维基百科、百度百科、百度知道)、社交网络(facebook、微博、微信)等等大量依赖用户做内容和推广的成功产品。
随着大数据、云计算等新技术的成熟,将互联网转化为数据库、向人工智能进化成为了可能,这些由用户上传、维护的内容,通过数据挖掘,将会产生难以想象的更高的价值。
那么古籍数字化这种专业性这么强的东西,如何交给互联网用户呢?互联网最大的特点就是海量数据的汇集,有时作为一个用户提交的看似很少的数据,在千万个互联网用户那里就形成了知识库。
我们使用一种知识网络为核心,通过验证码技术做为内容来源,搭建一个基于互联网的古籍数字化平台。
图1.知识网络为核心的古籍数字化平台架构1.互联网验证码的活用我们回到古籍输入。
既然古籍OCR那么困难,专业人才又不足。
是否有方法避开ORC这个过程,不需要依赖专家,又能完成古籍的输入呢?互联网给了我们一个非常简单、而且每天可能遇到很多次的办法,那就是各大网站系统的“验证码”。
在网络刚诞生的时候,是没有验证码这种东西的,网络上的用户注册,就像进入一个没有门铃、敞开大门的屋子。
这造成的结果是,伪装成用户的恶意程序,可以随意在网站注册,将垃圾评论和垃圾邮件肆意传播。
互联网时代早期,美国雅虎公司是最重要的免费邮件提供商之一,由于邮箱用户每天会收到大量这样的垃圾邮件,为此雅虎公司耗费了大量资源来阻止这些垃圾邮件。
通过工程师的分析,邮件的发出者正是来自于自己的服务器,恶意程序假冒用户申请了免费邮箱,每天有大量的垃圾邮件通过免费邮箱发出。
雅虎为此对人机辨识问题进行了研究。
最后雅虎选取了Luis V on Ahn提出的,通过验证码识别恶意程序的方案。
由于当时计算机辨识技术落后,对于经过扭曲、字迹有污染的文字(图4),计算机是不能辨识的,而人类只要看一眼就可以轻松认出这些文字。
计算机先是产生一个随机包含字母和数字的字符串,然后生成图像,用程序将图像上的字符串进行随机的污染、扭曲,再将图像推送到网站注册、登录的入口。
凡是能够准确辨识这些字符的视为人类,可以继续下一步服务。
图2.扭曲的文字使得机器OCR识别困难仅仅几秒钟,验证码技术带给了计算机网络安全,全世界每天都有数以十亿计的人通过几秒钟的时间辨认这些验证码。
卡内基梅隆大学的研究室有一个新的想法,每一次识别都有一次的输入,如何把这么多的输入都利用起来。
由于过去落后的印刷技术,歪歪扭扭的古籍文字天生能达到验证码的要求,为此卡内基梅隆大学成立了“reCAPTC HA计划”,以古籍录入为目标的验证码输入系统。
这个计划先将古籍仅做扫描后,由计算机程序切割成小段图像(图5),显示在验证码图像中。
网友在看验证码图像后用人脑识别然后输入,输入的结果汇集到服务器中。
通过“reCAPTCHA计划”,整个纽约时报130年的报纸存档的数字化,原本无法估算的时间和成本,由网友用了几个月就完成了。
图3.reCAPTCHA计划中数字化文档生成的验证码没有输入过的古籍是没有正确答案的,为了避免用户随意输入,为此卡内基梅隆大学改进了传统的验证码。
在新的验证码中,有两个字会被显示出来;一个是未辨别的字,另一个是知道答案的字。
如果验证码输入者正确的回答出已知答案的字,那么就假设他所输入的另一个没有答案的字也是经过认真考虑填写的,系统将这个结果作为正常输入而不是随便输入。
中国古籍中的汉字识别是非常困难的,要依赖字体、字库、需要学习等等,我们是否跳过这些操作去完成古籍数字化?“reCAPTCHA计划”给了我们很大的启示。
汉字作为“图像”来分离非常简单,只需要使用最基本的图像灰度扫描技术,便能非常清晰的将汉字所在的区域,一个一个的分离开。
然后就将分离开的图像,发送到互联网的一个一个页面中,由网友完成识别。
2.知识网络的建立验证码只能解决从图像到文字这个过程,究竟得到的“文字”是否正确,“reCAPTCHA计划”在解决中文古籍数字化时候就束手无策了。
英文从古至今,一共就26个字母。
而汉字究竟有多少个,至今没有一个统一的说法,光康熙词典中就收录了47035个,而且大量的异体字、生僻字。
不仅仅是识别,计算机是否对字库有支持,会给识别出的汉字的录入也带来极大的困难。
为了解决这个问题,我们引入互联网的知识网络。
图4.知识网络流程用知识网络来进行古籍数字化资料整理:使用简单知识网络的展现方式为超文本页面,可以快速生成、存储、更改,使维护更简单;使用简单的格式标记代替HTML格式标记,并通过简单标记,直接通过关键字名来建立链接;关键字名作为页面名称,并且被置于一个单层的平面空间中。