基于双层PDF技术的数字档案馆全文检索实践
- 格式:doc
- 大小:143.00 KB
- 文档页数:4
广元市档案馆档案数字化扫描加工项目技术参数和要求本项目采购的内容包括档案资料分拆卷、页码校核、档案整理、档案修复、全文扫描、图像处理、图像半成品质检及存储、档案分件、系统数据入库、挂接、机读目录上传、全文上传、全文数据质检并提供质检报告等服务。
一、项目描述1.1纸质档案数字化需求1.1.1项目概况本次档案数字化加工数量200 万页,条目著录(含修正)约22 万条。
为确保后期档案查询利用效果,在本次项目中,已具备电子目录的,需要对档案条目信息进行校对修正,无电子目录的需要补录,另外需要对本期项目涉及到的库存档案资料进行电子化扫描、图像处理、数据入库、挂接、机读目录上传、全文上传、全文数据质检并提供质检报告等服务。
以下为具体要求:1.1.2标准依据DA/T 31-2005 《纸质档案数字化技术规范》;DA/T18-1999 《档案著录规则》;GB/T 18894-2002 《电子文件归档与管理规范》;DA/T25——2000 《档案修裱技术规范》GB/T9705——88《文书档案案卷格式》1.1.3技术要求1.1.3.1.属性数据录入(1)此次招标工作中属性数据录入方面要求对已有数据的案卷进行校对、补录;对未录的案卷要按照要求录入,符合有关规范要求。
(2)其他业务档案需按照类型以不同字段进行录入,主要包括年度,文号,公文类型等。
1.1.3.2.影像扫描(1)工作量本次招标的工程量约为200 万页,要求提交成品为真彩24位JPG及双层PDF 两种格式。
实际工作量有可能增加或者减少,增加或减少的工程量按照相关单价结算。
(2)数据格式与存储要求a)满足国家档案行业标准《纸质档案数字化技术规范》(DA/T31-2005)。
b)投标方提交的加工成果是与广元市档案局目前使用的档案管理系统完全一一正确对应的机读目录成品库和全文文件成品库。
c)投标方需提交存储级和利用级两套全文成品数据,数据必须达到以下所述质量控制技术指标:●存储级:采用300dpi分辨率扫描,存储格式为真彩24位JPG。
天地档案是一种信息资源,是信息和载体的统一体。
然而,随着档案存放数量冗多、保管条件差、查找利用率低等问题不断凸显。
随着时代发展和社会进步,计算机技术被广泛地应用于档案管理工作当中,解决了存储难、运输难、查找难等难题。
迁西县档案馆从搭建平台、强化管理入手,实现了档案管理数字化,档案管理工作事半功倍、顺畅高效。
笔者认为有几点经验值得借鉴。
首先是完善硬件,搭建数字化存储平台。
档案是一种能被传输、传达的信息,它是以文件、图像等载体体现出来的信息。
如今,我国的网络技术水平不断提高,档案管理的数字化必然要依靠科学技术的发展来实现。
迁西县档案馆从实际出发,本着档案信息系统运行稳定、功能完善、使用方便、馆室共建、资源共享的工作思路,于2007年投资181万元启动档案数字化工程,购置了3台服务器,磁盘阵列1套,交换机、路由器各2台,UPS电源1套、摄像机、照相机、刻录机各1台、扫描仪6台、打印、复印机各2台,投影仪1台,所有设备都是知名品牌,高标配置。
组建了 “三网、四库、三个平台”,“三网”是档案(局)馆局域网,党政网、因特网,“三网”均采用物理隔离,保证了档案信息的绝对安全。
“四库”是馆藏档案目录数据库、档案数字全文数据库、照片档案数据库和多媒体文件数据库。
“三个平台”是档案数据综合管理平台、档案在线接收指导平台、档案信息检索服务平台。
实现了县档案局(馆)与县直单位、乡镇档案室之间档案数据的“网上传输、网上检查、网上指导、网上查询利用”,做到了馆藏档案数字化、档案管理在线化、档案服务网络化。
其次是建立数字信息档案馆,馆藏档案实现数字化。
为确保数字档案馆质量和服务能力,迁西县档案局经过调研,制定了严谨的《档案数字化建设实施方案》和科学的档案数字化加工处理工序,主要流程包括档案出库、档案整理、目录校对、扫描、图像处理、图像质检、数据挂接、总质检、数据备份、档案装订等,制定了严格的档案保密制度、档案数字化工程工作制度,采取了员工持牌上岗,安装监控设备,详细办理出入库手续等措施,保证了实体档案在数字化加工过程中的安全、完整,同时专门派5人对数字化过程中的目录校对、图像质量、数据挂接等逐条逐页进行质检,从而保证了档案目录数据的正确性、图像与目录挂接的准确性、数据存放的安全性,确保了数字化档案馆质量。
当前纸质档案的数字化建设面临的问题及对策建议思考《纸质档案数字化技术规范》明确指出纸质档案数字化建设的重要性和必要性,也提出一些具有可行性的实施建议。
当前我国纸质档案数字化工作在实践探索中取得显著成果,但也显现出一些矛盾和不足。
对此,应从实际情况出发,依托于先进的技术优势,构建数字档案资料库,深化档案收集及处理中的各项业务,兼顾档案开发与档案保护一同推进,实施精细化管理,使之更加提质增效。
纸质档案数字化建设是一个长期积累和坚持的过程,需要理论联系实际,最大化地排除安全隐患,全程深化数字化各环节的质量控制。
一、纸质档案的数字化建设的重要性(一)有助于节约管理的成本费用。
纸质档案管理工作庞大繁琐,涉及方方面面的内容,对配备的档案库房,内外环境要求极高,不仅要配备去湿机、灭火器等设施设备,还要满足国家相关法律法规。
同时,为维护好纸质档案管理,还需要持续投入大量的人力物力,花费高额的成本管理费用。
纸质档案数字化建设,有效弥补和替代传统纸质为载体的不足,将人工读取的档案信息,改进为机读方式,既能节约空间场所,又能节省成本费用。
尤为重要的是,极大地方便人们快捷高效查阅的功能。
(二)有助于对档案原始资料的保护。
创建电子档案系统,采取数字化录入的方式,可有效替代原件,更好地保护原始资料,增加其使用寿命周期。
有了电子档案系统的屏障保护作用,可有效规避人为的抽取、撤换、随意涂改材料等不良行为。
同时,与传统纸质档案工作模式相比,数字化的电子档案在操作中更加安全可靠,特别是一些具有历史价值的档案材料,经过专门的数字化处理,能强化对档案材料的妥善管理。
此外,在纸质档案数字化推进中,如编目、查阅等,无须调动或挪用原始材料,避免人为损害,为原始档案材料提供更加安全的保障体系。
(三)有助于档案工作的开发利用。
在科学技术推动下,计算机技术、扫描技术等优势在各行业领域不断凸显。
在纸质档案数字化建设中将丰富多样的档案资源以数字化的形式来保存和管理,既真正提升档案的工作效率,又实现档案信息资源的共建共享。
“南大之星”档案网络管理系统功能参数案卷/文件著录:录入实体档案记录信息,形成档案条目信息。
文件档号具备自动查重功能,同时支持批量数据导入功能。
著录的时候会保留上一份文件的信息,提供更加便捷的操作。
文件管理:对已经著录的档案文件记录进行删除、修改、查询等操作。
支持批量修改与删除功能,档号的自动排序功能以及插卷、插件等功能。
自动组卷:根据系统中的档号对应规则对文件进行自动归档。
案卷管理:对已存在案卷进行删除、修改、查询和打印等操作。
案卷调整:对已组卷的案卷和其中的文件进行调整。
包括:案卷号调整、文件调整、合并案卷、拆卷、插入空案卷、移除卷内、卷内顺序号重排、删除空案卷等功能。
案卷移交和接收管理:对部门整编好的移交档案进行鉴定,如果鉴定通过,则进行批量数据移交。
否则,进行重新整理。
1.1.2批量上传:采用ftp方式批量上传电子文件。
1.1.3数据转换:系统自带数据格式转换功能,可以把WORD、excel等格式的数据转换成PDF格式。
1.1.4批量数据提取功能:可对双层pdf文件进行全文提取,以便实现全文检索。
1.2档案信息管理:实现纸质/数字档案的管理及档案馆日常业务管理功能,包括编目、查阅、保管、档案统计和综合管理等。
1.2.1编目管理:对各类档案的编目项、打印格式、输入输出进行管理。
其功能主要包括以下几部分:档案编目:实现各类档案的著录、编辑等功能。
立卷整理:实现自动立卷和手动立卷功能。
目录生成:根据用户定义生成卷内文件目录、案卷目录、分类目录、全引目录、目录索引、案卷移交清单、各类统计报表等归档文件清单、信息清单。
打印输出:实现以上目录信息的打印功能。
1.2.2查阅管理:实现纸质档案的查询和借阅管理。
1.2.3鉴定销毁:对过期档案进行销毁,并可以打印销毁清单。
也可以进行还原操作1.2.4年报管理:实现档案年报管理,所形成的年报报表完全符合国家标准。
1.2.5档案统计:实现对现有档案进行各种口径的统计功能,并提供档案统计报表、直方图、饼柱状图等多种显示方式。
紫光档案管理信息系统技术白皮书修订历史记录(A-添加,M-修改,D-删除)目录1.阅读说明 (3)2.系统特点概述 (3)2.1.提供了遵从标准的电子文件永久安全存储的平台 (3)2.2.知足企事业单位集约化管理的要求 (4)2.3.先进的管理理念使得档案搜集整理工作变得简单高效 (5)2.4.知识管理和服务的表现 (5)2.5.解决了电子档案的安全性问题 (6)2.6.适应单位发展、业务转变的要求 (6)2.7.为用户量身定做知足档案业务需求的系统 (7)3.面向档案人员的系统功能介绍 (8)3.1.设计思想 (8)3.2.功能架构 (9)3.3.信息搜集 (10)3.4.信息管理 (15)3.5.借阅管理 (17)3.6.综合利用 (18)3.7.系统设置 (19)3.8.功能模块示用意及汇总表 (21)4.面向信息人员的系统技术说明 (24)4.1.系统架构 (24)4.2.系统安全性 (26)4.3.系统接口方案 (30)4.4.相关技术的集成 (34)4.5.系统技术性能指标 (36)1.阅读说明本技术白皮书别离从档案业务角度和信息技术角度对紫光档案管理信息系统进行了介绍,以使档案业务人员对系统功能及系统是不是能知足其业务需求能有清楚的了解和熟悉,使信息技术人员从技术角度对系统的技术架构、扩展性、安全性、接口和可集成度、性能和技术水平有详细的了解,以肯定系统是不是符合自身需求,并为咱们提出宝贵建议和意见。
2.系统特点概述通过系统可成立一个覆盖总部及下属各级单位、知足各级单位档案现代化管理、开放的、易于扩展的档案管理信息平台,使得各级单位的档案信息资源能够取得安全靠得住的集中存储和充分共享利用,各级单位间业务系统互联互通、业务工作上下贯通;通过统一的业务平台实现各单位档案业务工作规范统一、数据格式统一、应用界面和信息展示统一;实现档案资源数字化、业务工作信息化、搜集整理自动化、档案数据访问权限取得全安控制、档案利用方式通过网络加倍简单方便和多样。
档案数字化整理步骤1、档案整理档案工作人员拿到档案后,首先要对档案进行分类整理,包括对档案进行统一编号,核对档案页码,粘贴页撕开,页号编写有误的重新编号,对可拆订的做拆订处理,以便扫描时的批次处理。
如果发现折皱不平影响后期扫描质量的文件,应进行相应处理;如果文件存在破损,应先进行技术修复并做好标注;对于文件破损严重不能修复扫描的应做好区分标注。
2、著录标引将整理后的档案,按照国家标准《档案著录规则》结合用户档案著录的具体要求,将案卷目录和卷内目录的原始数据、主题标引、分类标引录入到软件数据库里。
按照原件实体档案条目,对错误档案目录数据修改和补充的数据,须填写更改资料并放入案卷内,卷内目录不全的需补充完整。
3、档案扫描档案扫描是纸质档案实现数字转化的关键步骤。
原件的扫描与存储格式应完全按照国家档案管理的统一标准要求扫描,对实际扫描卷数、每卷的页数要做好登记。
4、图像检查和处理扫描完成后,应采用自动化处理和人工处理相结合的方式,逐张检查图像质量,包括图像顺序与档案原件是否一致,有无漏扫、重张等情况,图像有无黑边、折角以及图像偏斜度、清晰度、失真度等,发现不符合图像质量要求时及时进行调整改正,确保图像顺序正确、质量完美。
5、全文OCR识别如果项目要求实现全文检索,在扫描图像处理完成后,需将数字图像利用专业的识别软件进行全文OCR。
如果用户对识别成功率有严格要求,还需另外进行人工校对,校对结束后将版式还原及转换成双层PDF文件格式,可实现无障碍的全文检索。
6、数据挂接借助系统软件对数据库中的目录数据与对应的纸质档案数字图像进行匹配挂接,并逐条对挂接结果进行检查,包括目录数据与纸质档案数字图像对应的准确性、已挂接数字图像与实际扫描数量的一致性、数字图像是否能正常打开等,以实现目录数据与数字图像的准确关联。
挂接到档案管理系统中后,进行再次的成品验收并做好还卷及数据备份提交。
双层PDF技术在档案管理中的应用作者:盛静王曙明来源:《价值工程》2014年第26期摘要:档案管理的数字化,是指在国家档案建设管理部门的统一规划和组织下,在档案管理的活动中全面应用现代信息技术,对档案信息资源进行数字化管理和提供利用。
双层PDF 技术可以将档案馆现有的纸质档案转化为数字档案,方便档案存储和用户查找。
关键词:双层PDF技术;档案管理;应用中图分类号:G270.7;TP3 文献标识码:A 文章编号:1006-4311(2014)26-0234-021 政策背景档案作为一种重要的信息资源,具有较高的科研价值。
在《国民经济和社会发展第十个五年计划的建议》中共中央明确提出:档案作为一种原生的信息资源,在国家信息化建设过程中,档案信息化建设是一个重要的组成部分。
通过加强档案信息化建设,提高档案管理的现代化水平,这是先进生产力、先进文化发展的必然要求,同时也是提高档案信息服务水平的必然选择,在档案事业发展过程中,提高档案管理的现代化水平具有重要的现实意义。
2 技术研究2.1 概念 PDF全称为便携文档格式(Portable Document Format),是一个适合文档交换的开放标准,致力于不依赖文档创建环境,允许用户交换及浏览的一种电子文档格式。
具有不限定软硬件及系统环境,高压缩比、长期保存、高质量输出等特点。
2.2 技术 PDF文件格式已成为国际标准,越来越多的行业和单位正在使用它。
PDF文件是一种具有多层结构的格式文件,其特点是:文件既可以是文本型的(比如由word生成的文件),也可以是图像型的(比如由扫描生成的文件),双层PDF技术还可以将tif、jpg、bmp、gif、png、单层PDF(图像)等图像类文件经加工后输出为可全文检索的双层(图层和文字层)PDF文件。
双层PDF文件是指文件内容既包含文本层,也包含图像层,且其位置上下一一相对应。
对于PDF文件来说,其每一页涉及的内容主要包括:第一上层是对纸质文件进行扫描获取的原始图像,第二下层是通过OCR软件对图像进行扫描识别后产生的文字结果。
推动数字化转型迈向高质量发展作者:杨中营申士鹏来源:《北京档案》2024年第01期近年来,北京市档案馆紧跟时代步伐,坚持以信息化建设为抓手推动档案工作走向现代化。
市档案馆高度重视机关档案工作的转型升级,投入大量人力、物力、财力开展数字档案室建设。
2023年11月17日,市档案馆机关数字档案室建设试点顺利通过国家档案局专家组评价验收,高分获评“全国示范数字档案室”,取得了档案信息化建设的重大成果,推动市档案馆“业务提档、服务升级、战略转型”迈出了至关重要的一步,也必将辐射带动全市数字档案室建设,提升全市档案信息化整体水平。
早在2017年,市档案馆就建设完成了集中式数字档案室系统,提供市属单位使用。
2019年机构改革中局、馆分设,市档案馆进一步聚焦主责主业,强化自身建设,将建设高水平的数字档案室纳入了本馆“十四五”时期发展规划。
2021年,市档案馆以实施信创工程为契机,在新建OA系统的同时,对数字档案室系统和数字档案馆系统进行了迁移适配和升级改造。
2021年11月,在国家档案局和北京市档案局的大力支持和帮助下,市档案馆成功列为全国数字档案室建设试点单位,由此拉开了“全国示范数字档案室”创建的序幕。
(一)建机制,把方向,抓落实市档案馆领导班子高度重视数字档案室建设工作,把创建高水平数字档案室作为落实习近平总书记对档案工作重要指示批示精神的重要举措。
2021年7月,市档案馆主要领导在全市档案信息化领导小组会议上提出,要发挥技术优势和人才优势,在全市档案信息化建设上充分发挥示范引领作用,并要求相关部门认真研究,积极申报国家数字档案室建设试点。
试点工作启动后,制定《北京市档案馆机关数字档案室建设工作方案》,成立了以馆长为组长、分管信息化工作的副馆长为副组长的数字档案室建设工作领导小组,形成了馆长负总责,分管副馆长具体抓,档案管理部门、项目建设部门、文件形成部门和后勤保障部门全动员的组织体系,在人、财、物等方面给予充分保障。
档案数字化方案档案数字化方案:档案数字化建设方案档案数字化建设方案档案工作的数字化建设是顺应潮流,适应时代发展的新举措、新要求,档案做为原生的信息资源,其重要性正日益凸显出来,逐步掌握信息技术为档案工作服务,为社会主义经济建设服务,为社会主义精神建设服务。
档案数字化是数字档案建设最基础的工作,传统载体的档案经高科技技术加工成数字档案形式,通过局域网、政务网、互联网进行计算检索、阅读电子档案,为迎接档案信息服务新环境的挑战、提高管理水平、提高效率、增强档案部门的服务水平、为档案内部管理及面向客户服务提供高效率的全面服务。
完整的档案数字化建设流程包括案卷交接、档案整理、目录著录、档案扫描、图像处理、ocr文字识别、数字校对、数字质检、数据挂接、整理还原、案卷入库等环节。
业务流程纸质档案数字化标准:da/t31-XX《纸质档案数字化技术规范》da/t18-1999《档案著录规则》1.制订批次计划为在数字化处理过程中对纸质档案进行有效管理以及对数字化处理进行有效控制,需对馆藏档案的数字化处理分批次进行。
2.档案出库交接根据档案数字化加工批次计划进行出库,对出库的档案进行完整性检查。
对通过完整性检查的档案,进行数量确认,并详细登记《资料出库单》。
确保资料的交接过程中的数量正确性,完整性;3.目录著作按照文件数据库目录结构与目录著录要求以及《档案著录规则》等标准,规范需要目录补录的档案目录内容,包括确定档案目录的著录项、字段长度和内容要求等,规范案卷题名、文件名、责任者、起止页号和页数等。
4.档案整理对出库待加工的档案进行扫描前处理,使之成为能够进行扫描的形态。
拆除装订影响扫描工作进行的档案,应拆除装订物。
资料及档案内的成册资料严禁拆除。
区分扫描件和非扫描件区分同一案卷中的扫描件和非扫描件。
页面修整对破损严重、无法直接进行扫描的档案,先期进行技术修复,折皱不平影响扫描质量的原件进行相应技术处理后再进行扫描。
“全国示范数字档案馆(室)”建设现状研究作者:巩淑芳来源:《档案管理》2023年第05期摘要:自2002年11月國家档案局在《全国档案信息化建设实施纲要》中首次提出“在部分中心城市建设示范性数字档案馆”的档案信息化建设目标和任务以来,已有20年。
目前我国示范性数字档案馆(室)的建设情况如何?本文从2015年—2022年各年“全国示范数字档案馆(室)”的认定数量、级别和类别以及国内分布情况三个方面开展研究。
同时,探索、剖析国内第一家建成投运的数字档案馆和首家“全国示范数字档案馆”──青岛市数字档案馆建设的特色经验,以期更好地实现“全国示范数字档案馆(室)”的示范引领作用。
关键词:数字档案馆;数字档案室;建设现状;青岛模式;共享平台;文档一体化;馆室一体化Abstract: It has been 20 years since the National Archives Administration of China first proposed the goal and task"to set up certain demonstration digital archives in some central cities“ in the Implementation Outline of NationalArchives Informatization Construction in November 2002.)How is the construction of the demonstration digitalarchives(rooms) in China now? This paper studies the number, level and category of the "national demonstrationdigital archives (rooms)" from 2015 to 2022, as well as their domestic distribution. At the same time, this paper exploresandanalyzes the characteristic construction experience of the first digital archives which were built and put intooperation in China, and also the first 'national demonstration digital archives' -- Qingdao Digital Archives, in order tobetter realize the demonstration leading role.Keywords: Digital archives; Digital archive room; Construction status; Qingdao mode; Shared platforms; Documentintegration; Integration of archives and offices目前,各级各类档案部门已进入建设数字档案馆(室)快车道的关键时期,梳理、统计、研究“全国示范数字档案馆(室)”建设现状,宣传推广成功经验,充分发挥示范引领作用,对于加快推进我国档案信息化建设具有重要意义。
数字化治理背景下档案的保护、开发、利用研究作者:穆亮雷等来源:《兰台内外》2023年第36期王璐璐马进郑美云摘要:新时代,档案已从传统管理向数字化治理转变,要主动融入并服务于数字中国战略,要积极做好档案数字化治理下的保护、开发与利用工作。
本文从保护、开发和利用三个方面,提出了档案数字化治理背景下档案管理面临的现状和存在的问题,并针对存在的问题提出了相应的对策。
关键词:档案数字化;治理;保護;开发;利用基金项目:本文系国家档案局科技项目“基于图像识别的人事档案智能审核系统研究与实现”(编号:2021-X-02)的研究成果之一。
党的二十大报告指出,要加快建设网络强国、数字中国。
数字中国是数字时代推进中国式现代化重要引擎,也是构筑国家竞争优势的有力支撑。
档案是国家治理和社会治理的重要组成部分,也是数字中国建设的历史见证。
国家数字化转型发展理念和具体措施,直接影响着档案工作发展。
目前,档案资源形态已经从传统模式向数字化、数据化转变,但由于档案数据治理滞后、失衡、缺失,档案存在“不可知、不可控、不可取、不可用”的现象[1],影响档案保护、开发和利用的质量和效率。
1 档案数字化治理下的档案数据保护数字化(Digitization)是指利用信息技术将模拟信号转换为数字信号的处理过程。
档案数字化,则是利用拍摄、扫描等方式对档案进行数字化加工,并将其转化为存储于磁带、磁盘、光盘等载体上的数字文件,并按照档案的内在联系,建立目录数据与数字文件关联关系的处理过程。
档案数字化治理,是指利用多元协作方式,通过运用数字治理技术,在符合相关法规基础上,为确保档案数字信息真实、完整、安全、增值而全面实施档案数字信息全生命周期治理。
随着档案资源的数据化转型、数字技术的广泛应用[2],档案数字化治理面临着档案数据信息复杂化、信息泄露的不确定性与删除的风险性、分布式存储与数据备份的安全风险和数据传输风险等问题[3],需要做好档案数字化治理下的档案数据信息安全保护工作。
《归档文件整理规则》电子文件的其他整理要求(之七)作者:邹杰来源:《档案天地》2018年第04期编者按:国家档案局于2015年10月25日批准发布档案行业标准《归档文件整理规则》(DA/T 22-2015),2016年6月1日起正式实施。
为使各地档案工作者准确了解掌握标准规范的内涵,本刊分八期刊登国家档案局专业人员的系列解读。
《归档文件整理规则》(以下简称《规则》)规定,电子文件整理除组件、分类、排列、编号、编目等与纸质文件类似的整理环节外,还包括格式转换、元数据收集、归档数据包组织、存储等特有的整理环节。
格式转换1.电子文件的归档格式要求现阶段常用的文书类电子文件格式包括WPS、DOC(X)、RTF、OFD、PDF、PDF/A和TIFF等。
为确保归档后电子文件长期可用,在电子文件整理工作中,各单位必须充分考虑电子文件对于软硬件系统的依赖性,对电子文件的格式提出要求。
在电子文件归档格式选择上,最关键的衡量指标就是“通用”和“开放”。
“通用”是指电子文件归档格式要能够在绝大多数计算机上正常的显示和浏览。
“开放”是指任何人都可以按照公开的文件标准对电子文件进行正常的解析和浏览。
只有这样,电子文件才能真正实现电子文件长期保存的目标。
2014年,国家档案局印发《数字档案室建设指南》,对文书类电子文件(电子公文)的归档格式做出规定:电子公文的正本、定稿、公文处理单应以OFD、PDF、PDF/A等版式文档格式归档保存,版式文档格式应符合《版式电子文件长期保存格式需求》(DA/T 47 - 2009),并支持向同级国家综合档案馆采用的长期保存格式转换。
集中记录修改过程的彩色留痕稿以及确有必要保存的重要修改稿可以WPS、RTF、DOC 等同级国家综合档案馆认可的格式归档保存。
2.电子文件格式转换电子文件格式转换就是为了长期保存和长久可用,将不符合归档要求的电子文件格式转换为符合《数字档案室建设指南》要求的归档文件格式。
基于工程档案矢量化平台的档案大数据服务模式建设与应用摘要:为积极响应国网公司档案管理工作部署,严格落实省公司工程档案协同管理工作要求,国网甘肃省电力公司超高压公司(以下简称“公司”)依托工程档案矢量化平台的落地应用,打造出档案大数据服务新模式,建成工程现场服务、业务管控服务、数据增值服务三大服务体系,全面推动传统档案管理模式向档案全电子化、智慧化、集中化的现代化管理模式发展。
关键词:工程档案矢量化管理模式0引言工程档案是公司生产要素、知识资产和信息资源的重要组成部分,具有资源、资产双重属性。
确保工程档案真实准确、齐全完整、系统规范、保管安全和有效提供利用,对于强化企业内部控制,防范生产经营风险,维护公司合法权益,提高公司核心竞争力,促进国有资产保值增值具有不可替代的重要作用。
为此,公司建设应用工程档案矢量化平台,形成大数据服务模式,推动工程档案管理现代化转型升级。
1建设背景1.1响应工程档案管理新战略新要求的重要举措国网甘肃省电力公司贯彻落实国家电网公司电网建设项目档案管理的标准化和规范化要求,从持续优化营商环境,深化业务融合,坚持问题导向出发,出台加强工程档案管理的各项文件,提出工程档案馆集中统一管理200kV以上工程档案、工程图纸DWF矢量化应用等多项工作要求,为推动工程档案管理及服务模式现代化变革指明方向。
1.2解决工程档案管理利用疑难问题的迫切需要近年来,公司持续夯实档案业务建设、强化工程档案管理,但传统的档案管理模式仍存在一些局限性,如,管理流程繁冗,影响跨全宗档案服务利用效率;图纸利用困难,历史工程档案电子版图纸放大易失真且无法设计修改等历史疑难问题亟待解决。
1.3应用新兴技术助推服务模式变革的必然选择当下,开展工程档案建设移交、库存、检索利用、平台应用等情况的实时、动态分析,进而形成新兴大数据服务模式,是充分释放工程档案数据价值,提升工程档案服务能力的重要举措。
公司亟待应用移动互联、人工智能、大数据、等技术,带动工程档案服务模式向数据化、智慧化方向发展。
自然资源档案信息化建设及数字化管理探讨作者:马卓敏来源:《兰台内外》2022年第27期摘要:伴随经济社会信息化的迅速发展,档案管理工作走进了信息化时代,传统的档案管理模式已不再适应新的形势,自然资源档案信息化迫在眉睫,探讨自然资源档案信息化建设及数字化管理具有重要意义。
本文分析当前自然资源档案信息化建设及数字化管理现状及存在的问题,根据实际情况提出了几点策略,供参考。
关键词:自然资源档案;信息化建设;数字化管理自然资源档案是指自然资源管理部门在履行职责过程中形成的,对国家、社会和本单位有查考、利用和保存价值的各种形式、各种载体的历史记录。
它是国家档案资源体系的重要组成部分,是自然资源管理和生态文明建设的重要基础支撑,是自然资源系统开展权属管理、资源开发利用、行政执法、防灾避险、调节权属纠纷等核心业务工作以及维护自然资源系统自身权益的重要依据。
开展好自然资源档案数字化建设工作,强化信息技术应用,改变档案管理模式,实现自然档案管理信息化,查阅、利用便捷高效,对提升自然资源管理水平具有十分重要的意义。
探讨推进这项工作十分重要。
1自然资源档案信息化建设及数字化管理现状近年来,自然资源档案增长速度快、数量大、种类多,目前山东省自然资源厅机关和各直属事业单位存档40 多万卷,各市(县、区)自然资源局存档1000余万件。
多年来,各级自然资源部门形成了大量的电子数据。
由于数据标准不统一,业务壁垒、信息孤岛和数出多源问题日渐突出,档案资源共享困难,影响了档案信息利用和价值发挥。
同时纸质档案利用频繁、查阅流程繁琐、不便于长期存储,传统档案管理模式已不能满足新形势下自然资源档案管理工作发展的需求。
为消除信息孤岛,实现自然资源档案查阅利用便捷高效,迫切需要进行自然档案信息化建设工作。
按照山东省自然资源厅档案十三五规划部署,从2017年起开始分期分批开展档案整理及数字化建设工作,制定了省自然资源档案管理规范(试用稿),统一立卷归档要求和范围,完成文书类、业务类档案的整理、数字化工作,初步建立省自然资源厅档案数据,开发了山东省自然资源综合档案管理系统,实现档案收、管、存、用一体化管理,档案信息化和数字化管理转型有了实质性进展。
基于双层PDF文档的全文检索技术在数字档案馆中的应用贺志军向禹(湖南长沙中南大学档案馆 410083)【摘要】本文通过基于双层PDF文档的全文检索技术运用于B/S结构的档案管理系统的研究实践,实现了高效、快捷的档案检索,实现了高查全率和高查准率,界面友好,可靠安全,扩展性强。
【关键词】双层PDF 全文检索数字档案馆【分类号】G270随着社会信息化程度的提高,人们对档案信息资源的依赖程序也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切,发展数字档案馆是社会发展的必然,数字档案馆是一个提供档案远程服务和信息共享的平台。
近年来,数字档案馆的研究和建设也如火如荼的开展起来,数字档案馆的平台呈现多样化,档案数字化加工也存在着不同标准,建设数字档案馆的最终目标都是为了档案永久存储和高效利用,本文以中南大学数字档案馆建设实例,着重讨论数字档案馆建设中的全文检索技术。
1 概述1.1 全文检索全文检索是计算机程序通过扫描文件中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。
当用户查询时根据索引进行查找,类似于通过字典的检索字表查字的过程。
档案的收藏是为了利用,档案检索应该把查全率摆在首位,兼顾查准率。
数字档案馆要提供便捷的查询和高查全率,必须建设全文检索系统,全文检索系统由索引模块、分词模块、检索模块和存储模块等构成。
1.2 双层PDF技术双层PDF文件是一种包含Text层和Image层的多层结构PDF格式文件,两层内容位置上一一对应。
Image层是原始图像,保留了原始档案的效果;Text层是Image层的识别结果,支持选择、检索和复制等功能。
通过程序控制可实现两个图层的任意显示和切换,可实现检索词的精确定位。
双层PDF加工是指将其它文件(可以是WORD、也可以是图像文件)转换,或者将标准纸质文档通过扫描后,经过去污、修正和OCR识别,通过软件生成双层PDF文档,然后挂接到档案管理系统的相应目录下。
1.3全文检索的意义全文检索是一种很重要的检索途径,弥补了目录检索的不足,也解决了目录著录不全、不规范等问题,大幅度提高了查全率。
由于全文检索不是直接访问数据库,而是通过对数据库中的数据或者对双层PDF文件的Text层进行索引,因此用户搜索对数据库的压力为零,可以达到毫秒级的检索速度和每秒数百次的并发访问,大大提升检索速度。
2 全文检索在数字档案馆的实现2.1 创建全文数据库我们采用湖南德立信软件开发有限公司的档案数字化加工系统和PDF车间进行纸质档案的数字化加工,实行流水线作业,将档案扫描加工为电子档案;使用双层PDF车间,将文件识别为文字,然后再将Text层和Image层组合成为一个完整的双层PDF文件。
我们仍然采用目前技术成熟、广为流行的基于目录数据库挂接方式来实现PDF文件的挂接,对档案内容数据及其元数据等相关信息建立永久联系,形成数据包。
2.2 创建索引将制作好的PDF文件和数据包通过调用德立信全文检索系统(Delisun Text)内核函数建立对应的索引文件,抓取和解析数据,创建索引的过程实际上也就是将数字化档案原文及其原数据(包括结构化和非结构化数据)信息提取并创建索引文件的过程。
2.2.1索引创建:为了对文档进行索引,Delisun Text 提供了五个基础的类, Document、 Field、IndexWriter、Analyzer、Directory。
1、首先指定生成Index目录。
2、建立索引器indexWriter,生成index对象,把一个个的 Document 对象加到索引中来。
3、建立信息字段对象Field,描述文档的某个属性,如文件标题和内容可以用两个 Field 对象分别描述。
4、建立文档对象Document,用来描述文档,内容可以从TXT、HTML等文档及数据库等多种途径获得,一个 Document 对象由多个 Field 对象组成的。
也可以把一个 Document 对象看作数据库中的一个记录,而每个 Field 对象就是记录的一个字段。
在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就是由 Analyzer类来完成。
Analyzer 类是一个抽象类,它有多个实现,针对不同的语言和应用需要选择适合的Analyzer。
Analyzer 把分词后的内容交给 IndexWriter 来建立索引。
在分词时,如果用来进行索引的文档不是纯文本,先得转换成纯文本才能再进行操作;对同一索引,用来分词建立索引的分词器与用来查询的分词器必须是同一个,才能保证得到正确的查询结果。
5、将Field添加到Document里面,再将Document添加到IndexWriter里面。
6、优化indexWriter对象,Directory类代表了 Lucene 的索引的存储的位置,它是一个抽象类,有两个实现,一个是 FSDirectory,它表示一个存储在文件系统中的索引的位置;其次是RAMDirectory,它表示一个存储在内存当中的索引的位置。
通俗的讲,索引过程也可以理解为四个阶段:1) 有一系列被索引文件;2) 被索引文件经过语法分析和语言处理形成一系列词(Term);3) 经过索引创建形成词典和反向索引表;4) 通过索引存储将索引写入磁盘。
最后完成index的生成。
2.2.2索引管理:1 查看索引,读取指定路径索引中是否存在;索引中包含的文档,词条情况,是否需经过优化等;最后一次修改的时间,路径信息,含有的文档数目等;读取索引词条相关基本信息。
2 删除索引,删除指定序号的文档之后,自动删除对应的索引文件;恢复被删除的文档及索引。
3 更新索引,更新索引中的某个文档;另外就是,索引同步处理,用户可根据需要自己定制创建索引时间,可定时更新也可以实时更新。
2.3 全文检索2.3.1 检索过程全文检索实际上是一个复杂的过程,主要分为以下步骤:第一步:用户输入查询语句。
第二步:对查询语句进行词法分析和语法分析,得到一系列的词,然后进行语言处理。
词法分析主要用来识别单词和关键字;语法分析主要是根据查询语句的语法规则来形成一棵语法树;语言处理同索引过程中的语言处理几乎相同。
通过分析和处理,得到一个查询树。
第三步:搜索索引,得到符合语法树的文档。
1)在反向索引表中,分别找出包含查询内容的文档链表;2)对包含查询内容的链表进行合并操作,得到包含查询内容的文档链表;3)将此链表与查询内容的文档链表进行差操作,去除无关的文档信息,从而得到包含查询内容的精确的文档链表;4)此文档链表就是我们要找的文档。
第四步:根据得到的文档和查询语句的相关性,对结果进行排序。
1)一个文档有很多词(Term)组成;2)找出词(Term)对文档的重要性的过程称为计算词的权重(Term weight)的过程;3)判断词(Term)之间的关系从而得到文档相关性的过程应用向量空间模型算法(Vector Space Model);4)最终计算出权重(Term weight)。
第五步:将查询结果返回给用户界面。
2.3.2 用户界面设计直观实用的用户界面,用于接收系统返回的检索结果:1)高亮显示结果条目中的检索条件,可根据需要通过Lucene高亮处理基本设置;2)提取过滤搜索结果,对搜索结果进行排序,初始的结果排序列按相关性计算出的权重值从大到小排列;3)对提取过滤搜索结果可进行二次过滤搜索;4)根据档案管理系统权限,对检索出的结果可进行下载与浏览。
2.3.3 原文获取和定位通过检索过程,在用户界面得到了查询结果,接下来,在检索利用中,便是要获取PDF原文,并查出检索词在原文中的具体位置。
这里,我们运用Acrobat Reader(创建和阅读PDF文档使用最广泛的软件),结合档案管理系统,自动实现检索词在原文中的定位。
1、在多个PDF文档中查找文本Reader 软件本身对双层PDF文档的查找、文本复制、双层切换等功能都提供了支持,“搜索”窗口允许在多个 PDF 查找项目。
打开 Reader在“查找”工具栏,键入需要查找的文本然后从弹出菜单选择“打开完整的 Acrobat 搜索”。
在“搜索”窗口,选择“所有 PDF 文档,位于”。
从本选项下方弹出菜单选择“查找位置”。
运用Acrobat Reader,可以实现在检索词在指定文档中的定位。
2、在检索结果中自动实现PDF文档的定位档案管理系统的用户界面获取了来自检索系统的信息之后,如果实现从超级链接到自动打开PDF文档,以及检索词在文档中的精确定位呢?以下便是实现这一功能的代码的一部分。
PDF控件代码:<OBJECT id='AutoVueX' classid='clsid:*****' border='0' WIDTH='100%' height='100%'><param name='_Version' value='65539'><PARAM name='_ExtentX' value='20108'><PARAM name='_ExtentY' value='10866'><PARAM name='_StockProps' value='0'><PARAM name='SRC' value="<%=readPath%>">3 总结经过实际测试,基于双层PDF文档技术的全文检索,有效的提高了查询利用工作效率,它通过对档案数据库的数据和双层PDF文档的TEXT层建立索引,查询时不访问数据库,有效减轻数据库和系统的压力。
目前可以支持1000万级的数据,毫秒级的查询时间,每秒500人的并发访问,从而实现大容量、高速度的目标;可以适应linux和window平台,支持多种数据库接口;它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。
通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅提高档案的利用价值;同时,对档案编研也起到积极的作用;也为档案信息聚合(RSS,也叫聚合内容,Really Simple Syndication)的研究、定向的档案信息服务研究或者更深层次的档案服务奠定了基础。
【参考文献】[1] 李靖等. 基于Lucene的全文检索引擎的研究与应用[J]淮阴工学院学报,2008,(02).[2] 员建厦. Oracle全文检索及自动更新索引的实现[J]计算机与网络,2007,(12).[3] 刘清杰. 一种基于全文检索技术的数字档案馆解决方案[J]办公自动化,2009,(10).[4] 朱虹; 吴林. 倒排索引压缩及在RDBMS全文检索中的实现[J]华中科技大学学报(自然科学版),2009,(4).[5] 张颖; 朱大鹏. 基于任意字串的全文检索算法[J]河南师范大学学报(自然科学版),2009,(4).[6] 解鹏飞. Lucene搜索引擎技术在国家海洋数字档案馆示范系统中的实现及应用[J]海洋环境科学,2008,(8).[7] 刘清杰.一种基于全文检索技术的数字档案馆解决方案 [Z]OA’2010办公自动化国际学术研讨会论文集,2010,(7).【作者简介】贺志军,1965年生,男,博士,副研究员,江西人,现为中南大学档案馆馆长,发表专业论文十余篇,参与多项省部级课题;向禹,1976年生,男,副研究馆员,毕业于湘潭大学图书情报、计算机应用专业,现为中南大学档案馆综合办公室主任,发表专业论文十余篇,参与省级课题多项。