校对双层PDF中的隐藏文本
- 格式:pdf
- 大小:164.81 KB
- 文档页数:3
pdf隐藏部分内容PDF隐藏部分内容。
在日常工作和生活中,我们经常会使用PDF文档进行文件的传递和共享。
而有时候,我们可能希望在PDF文档中隐藏一些内容,以保护隐私或者限制部分内容的查看权限。
本文将介绍如何在PDF文档中隐藏部分内容,以及如何解除隐藏的内容。
首先,我们需要使用专业的PDF编辑软件,比如Adobe Acrobat等,打开需要隐藏内容的PDF文档。
在打开后,我们选择“工具”菜单下的“保护”选项,然后点击“加密”。
在加密选项中,我们可以选择“加密文件”或者“限制编辑和打印”,根据需求选择相应的选项。
如果我们只是希望隐藏部分内容,可以选择“限制编辑和打印”,然后点击“下一步”。
接下来,我们可以在弹出的对话框中设置权限密码,以限制对隐藏内容的查看和编辑权限。
设置好密码后,点击“确定”即可完成对隐藏内容的限制。
此时,我们可以在PDF文档中选择需要隐藏的内容,比如一段文字或者一张图片,然后右键点击选择“属性”或者“编辑对象”,在弹出的对话框中选择“安全”选项,然后勾选“不可打印”或者“不可复制”,最后点击“确定”即可完成对内容的隐藏。
当我们需要解除隐藏的内容时,只需输入设置的权限密码,即可对隐藏的内容进行查看和编辑。
这样,我们可以灵活地控制PDF文档中的内容,保护隐私信息,或者限制部分内容的查看权限。
总的来说,通过使用专业的PDF编辑软件,我们可以轻松地在PDF文档中隐藏部分内容,并且设置权限密码进行权限限制。
这为我们在工作和生活中处理敏感信息提供了便利和保障。
希望本文的介绍对大家有所帮助,谢谢阅读!。
lenText:zone所含字符串的长度。
offText、lenText合起来决定了zone的文字内容nChildren:下级zone的数量,如一个Word下面含几个Character从DjVu对文字的定义看,DjVu中的隐藏文本在技术上有几个特点:1、是真正的“隐藏文本”,没法直接显示DjVu中的文字有utf-8编码,有文字的显示位置、显示尺寸,但是没有字体信息,因此如果想显示出来,还需要指定字体信息。
正是因为文字根本就没打算显示,所以在DjVu浏览器中文字与图像完全不会互相干扰,双层DjVu也就没有双层PDF所需考虑的究竟是“图压字”还是“字压图”的问题。
另外也不需要考虑文本究竟是横排还是竖排的问题:反正你也看不见,你管它是横排还是竖排?可能是受DjVu文字的影响太深刻,DjVu官方软件Caminova DocumentExpress Enterprise 7.5(简称deent75)在将DjVu转为PDF时,虽然支持隐藏文字的转换,也支持横排的亚洲语言,但就是不支持竖排的亚洲语言。
除竖排的问题外,DjVu中简单的文字表示也造成校对的问题:没办法直接把文字显示出来进行校对,只能把文字导出成XML,校对后再导入DjVu。
DjVuToy的一个德国用户向我介绍过一个校对DjVu中隐藏文本的方法:对同一个DjVu文件,用MODI和ABBYY各OCR一遍,导出纯文本,然后用文本比较工具进行比较,能够较快地发现OCR的错误。
按他的说法,至少对于德语来说,MODI和ABBYY各有千秋,所以他用这个方法屡试不爽。
有兴趣的不妨也试试。
2、文本信息比较简单,节省存储空间,也容易复制、导出从定义就可以知道了,没有PDF那么多花狸狐哨的东西,相对比较简洁,有利于减小文件长度。
而且DjVu中的文本统一采用utf-8编码,这个是有标准的,做不了什么手脚,转换成Unicode也比较容易,因此理论上说从DjVu复制或导出的文字不可能是乱码,而PDF则不一定。
pdf遮挡文字最简方法在处理PDF文件时,有时我们可能需要遮挡或隐藏其中的一些文字。
以下是一个简单而有效的方法:1. 打开PDF文件并选择编辑工具。
对于一些专业的PDF编辑软件,提供了更多高级编辑功能,如Adobe Acrobat Pro等。
2. 在编辑工具中,选择“文字遮挡”或“文字隐藏”选项。
这个选项可能在不同的软件中有所不同,但基本思路是相同的。
3. 选择要遮挡的文字。
可以使用鼠标拖动或者指定一个矩形区域。
4. 确定隐藏的方式。
通常有两种方法来遮挡文字:一种是用黑色方块覆盖文字,另一种是将文字替换为特定字符或符号。
5. 进行文字遮挡。
在选定的区域上,应用你选择的隐藏方式。
6. 验证遮挡效果。
确保遮挡的文字已经被隐藏或覆盖了。
7. 保存文件。
将修改后的PDF文件保存,并进行必要的备份。
以上就是隐藏或遮挡PDF文件中文字的简单方法。
当然,在实际应用中,可能会出现一些其他情况或需求,比如需要考虑排版、文档格式等因素。
因此,根据具体问题和软件的功能,还可以尝试各种不同的方法和技巧来实现更复杂的文字遮挡效果。
总结起来,隐藏PDF文件中文字的方法包括选择编辑工具、选择遮挡方式、选择要遮挡的文字区域、进行遮挡、验证效果以及保存文件。
有了这个简单的流程,相信你在处理PDF文件时能够更加轻松地实现文字遮挡的需求。
希望这篇文章能对你理解PDF文件文字遮挡的方法有所帮助,同时也能够提供指导意义,让你在实际应用中更加得心应手。
祝你顺利完成PDF文件编辑工作!。
PDF中的文字允许使用内嵌字体,也允许使用外挂字体,相对来说采用外挂字体的更易于校对:内嵌字体为减小文件长度,通常只嵌入所需用到的文字的字形,用不到的就不嵌入了。
在这种情况下如果想增加一个原来没有的字可就麻烦了。
而外挂字体则不受此限制,只要外部字体文件中有字形的文字,都可以加入进来。
当然外挂字体的平台兼容性比外挂字体略差:找不到字体的时候自然就不能显示。
不过这个问题的影响和解决方法在我看来不是啥大问题,在简体中文环境下更没有问题。
所以一项技术的选择有时候没有对错之分,只有侧重点的不同:Acrobat侧重于“平台兼容性”,所以选择了内嵌字体;我的三个软件考虑“校对”、“文件长度”、“实现难易程度”等,就选择了外挂字体。
2、“字压图”还是“图压字”?对于双层PDF来说,隐藏文字在顶层,扫描图像在底层的是“字压图”,否则就是“图压字”。
在实际中两种路线都有人采用:Acrobat生成双层PDF采用的是字压图,deent75采用的是图压字。
在我看来,采用字压图路线的双层PDF更便于校对:如果采用字压图,图像显示出来后还能看到上层的文字,反之文字就会被图像盖住。
deent75采用字压图可能也有它自己的考虑,但真实原因它不说就谁也不知道,总之我那三个软件在别的地方都在全力模仿deent75,唯独在这个地方坚定不移地跟Acrobat走——字压图。
三、校对工具的选择同样的原因,这世上也不是什么编辑软件都适合做双层PDF校对的,在我看来至少需满足如下条件才行:1、支持外挂字体。
即采用外挂字体的PDF,在编辑完成后还是外挂字体。
这条虽然简单,但直接就把Acrobat排除了:采用外挂字体的PDF,在用Acrobat编辑存盘后,新加入的字就全变成内嵌的了。
2、支持亚洲语言,尤其是简体中文。
这一条基本上就把大多数国外的编辑软件给排除了。
最终选来选去,发现还是Foxit PDF Editor和Foxit Phantom满足要求。
一种pdf文档乱码的检测、校正的方法PDF(Portable Document Format)是一种广泛应用于文档传输和存档的文件格式,然而有时候我们打开一个PDF文档时会发现出现乱码的情况,这就需要进行乱码的检测和校正。
下面将介绍一种用于检测和校正PDF文档乱码的方法。
PDF文档乱码是指打开PDF文件后,所显示的文字变成了无法辨认或者是乱码字符。
造成PDF文档乱码的原因可能是字体缺失、字体编码问题、字体文件损坏等。
针对不同的情况,我们可以采取以下方法进行检测和校正。
首先,对于字体缺失的情况,我们可以通过检查PDF文档中使用的字体是否在我们的字体库中,来确定是否缺失字体。
在校正时,我们可以尝试在系统的字体库中安装缺失的字体,然后重新打开PDF文档,看是否能够正常显示文字。
如果无法找到缺失的字体,我们还可以尝试在网上下载相应的字体文件,然后进行安装和应用。
其次,对于字体编码问题引起的乱码,我们可以使用一些专门的工具来检测和校正。
这些工具可以通过分析PDF文档中的字体编码信息,来判断是否存在编码错误,并尝试进行修复。
一般来说,这些工具会提供用户友好的界面,让用户能够方便地进行操作。
在使用这些工具时,我们需要根据具体的情况选择合适的工具,同时要注意备份原始的PDF文档,以防修复过程中出现意外。
此外,如果PDF文档的乱码是由于字体文件损坏导致的,我们可以尝试重新下载或替换损坏的字体文件。
在进行替换时,我们需要确保新下载的字体文件与原字体文件的名称、版本号等信息一致,以保证替换后的字体能够正确应用于PDF文档。
总之,PDF文档乱码的检测和校正需要根据具体的情况采取相应的措施。
针对字体缺失、编码问题和字体文件损坏等原因,我们可以尝试安装缺失的字体、使用专门工具进行修复、重新下载或替换字体文件等方法。
在校正过程中,我们需要谨慎操作,注意备份原始文件,以免造成不可逆的损失。
希望以上方法对于解决PDF文档乱码问题能够有所帮助。
制作双层高清pdf
以
/bookDetail.jsp?dxNumber=000008093705&d=C06EDFB72099CFC48C69 0A5FF587844A&fenlei=0903********&sw=%BF%FA%C6%C6%BD%F0%C6%BF++%CE% E2%CF%D0%D4%C6%D0%C2%CB%B5%BD%F0%C6%BF%C3%B7这书为例,下好pdg.
1.调整附属页dpi和尺寸,调整所有发白页面的亮度对比度和y值,有严重倾斜的页面也
要看一下的,使页面易于被软件识别。
无书签的挂上书签。
用PhotoZoom调整附属页dpi和尺寸.
下两张是调整后的效果.
2.将pdg转换为pdf
用老马的pdg2pic转换,略
3.用泰比企业版对生成的pdf文档进行ocr。
检测页面方向请勿打勾,否则有些页面要旋转的。
识别中…
逐页验证,这一步最为费时最后保存
4.挂书签,添加附属信息。
先从第一个pdf导出,再往第二个已ocr好的pdf上挂。
完成后的成品。
文档隐藏怎样操作方法恢复
文档隐藏的操作方法恢复会根据具体使用的操作系统或应用程序而有所不同。
下面是一些常见的恢复方法:
在Windows操作系统中,使用以下步骤恢复隐藏的文档:
1. 打开文件资源管理器,并导航到包含被隐藏文档的文件夹。
2. 点击"查看"选项卡,在"查看"选项卡中,找到"隐藏项目"复选框,并点击选择。
3. 被隐藏的文档将会显示在文件资源管理器中。
在Mac操作系统中:
1. 打开Finder,并导航到包含被隐藏文档的文件夹。
2. 在菜单栏中,点击"显示",然后选择"显示所有文件"。
3. 被隐藏的文档将会显示在Finder中。
如果文档被隐藏于特定应用程序中,可以尝试在应用程序的设置中进行恢复。
具体步骤可能会因应用程序的不同而有所不同,一般可以在应用程序的"视图"或"选项"菜单中找到相关选项来显示隐藏的文档。
另外,如果文档被隐藏后还进行了删除操作,那么恢复可能会更加困难。
在这种情况下,可以尝试使用数据恢复软件来尝试恢复已删除的文件。
有一些专业的数据恢复软件可以帮助找回已删除或隐藏的文件。
1引言信息社会的发展,使电子书、网上图书馆以及网页等种类繁多的信息平台不断出现,供人们使用。
这些平台上的信息主要是通过键盘录入、图像扫描等方式输入到计算机的。
在输入过程中,任何一种方式都无法保证存入的信息准确无误,校对技术,作为确保准确输入信息的一种专业性技术,便显示出其重要性来。
国外研究在英文文本校对方面取得了一定成果,部分成果实现了商品化。
英文校对一般分为两部分[1],一是针对英语单词内部出现的拼写错误,主要采用最小编辑距离技术、相似键技术等六种方法来实现[2];二是对句子中出现的单词正确但用法错误的情况进行校正,主要采用自然语言处理和统计语言模型技术(SLM )解决。
由于汉语与英语在语言本身及文本输入方式上均存在较大差异,因而汉语的文本校对系统所采用的策略及技术,与英文校对系统有一定的差异。
现今普遍采用的技术有:词切分技术[3]、近似集模糊匹配技术[4-5]、语法分析及语义分析技术等[6]。
国内对文本校对方面的研究始于上世纪90年代初期,但发展速度较快,其中藏文字的主要校对方法采用字典匹配法进行。
文献[7]详细描述了藏文的文法并根据藏文文法提出了基于分段的藏文联合多神经网络模型的藏文字校对方法*安见才让(青海民族大学计算机学院,西宁810007)摘要:针对藏文字校对问题,提出一种不使用藏字字典的联合二层BiLSTM 模型和CNN 模型展开学习的藏字校对模型。
模型通过研究藏文字构字语法、字母训练,得到藏文字母的向量表示,对字母向量进行BiGRU 学习,所得的特征向量用三个卷积核进行CNN 和全连接运算,最后用最小化交叉熵来优化模型查检藏文字的正确性。
为了验证方法的实际表现,建立一共73155个藏文字实验语料,其中正样本占55.1%,负样本占44.9%。
实验表明,该方法对藏文字对错识别率的F 值达94.06%。
关键词:藏文字;神经网络模型;校对DOI :10.3969/j.issn.1002-2279.2021.02.011中图分类号:TP391.1文献标识码:A 文章编号:1002-2279(2021)02-0041-04Proofreading Method of Tibetan Words Combined withMulti-Neural Network ModelsAnjian-cairang(The Computer College of Qinghai Nationalities University,Xining 810007,China )Abstract:To solve the problem of Tibetan words proofreading,a Tibetan character proofreading model is proposed,which combines the two-layer BiLSTM model and CNN model without using Tibetan dictionary.The model obtains the vector representation of Tibetan letters by studying the grammar and letter training of Tibetan characters,learns the letter vectors by BiGRU,and performs CNN and full join operations on the obtained feature vectors with three convolution kernels and the model is eventually optimized to check the correctness of Tibetan characters by minimizing cross entropy.In order to verify the actual performance of the method,a total of 73,155Tibetan experimental corpora are established,of which positive samples account for 55.1%and negative samples account for 44.9%.Experiments show that the F value of the recognition rate of Tibetan characters is 94.06%.Key words:Tibetan words;Neural network model;Proofreading基金项目:国家自然科学基金项目(61862054);青海省应用基础研究项目(2019-ZJ-7066)资助作者简介:安见才让(1969—),男,藏族,青海省西宁市人,硕士,教授,主研方向:自然语言信息处理。
双层PDF技术及在档案数字化中的应用郭金光【期刊名称】《陕西档案》【年(卷),期】2013(000)001【总页数】2页(P26-27)【作者】郭金光【作者单位】汉中市档案局【正文语种】中文当前,档案部门正在开展档案数字化加工,通过对档案的数字化加工建立全文数据库已是一条必由之路。
对全文的检索目前有两个路径,一是通过目录数据的检索,查找到条目信息后调取全文数据;二是直接对全文进行搜索,查找所需信息。
近年来,一些地方通过创建双层PDF文件,实现了上述目标。
双层PDF文件是一种包含文本(Text)层和图像(Image)层的双层结构PDF格式文件,一层是从纸质文件扫描出来的原始图像,另一层是用OCR软件对扫描图像进行识别后产生的文字结果,但字体效果设置成透明,这样用户在阅读PDF文件时看到的是扫描图像,可以100%保留原始版面效果(包括公章、签名)。
图像层是原始图像,保留了原始档案的效果;文本层是图像层的识别结果,支持选择、检索和复制等功能。
通过程序控制可实现两个图层的任意显示和切换,可实现检索词的精确定位。
通常可以将其它文件(如WORD、图像文件等)通过转换,或者将标准纸质文档通过扫描后,经过去污、修正和OCR识别,通过软件生成双层PDF文档,然后挂接到档案管理系统的相应目录下。
将文本格式的文件(WORD、WPS等)转化为PDF格式的相对简单,通过程序可以直接转换,最新的WPS和MS Office都可以直接转换,当然也可以通过第三方软件转换,如笔者使用的FoxitPhantom224cn(福昕V2.2.4)就只有9.39M大小,功能强大,轻松实现各类文档转化为PDF格式。
比较麻烦一点的就是扫描的图像如何制成双层PDF,包括图像转PDF和OCR识别两个问题,现介绍如下:(一)图像转PDF问题图像转PDF的软件有许多,由于PDF文件本身的标准化、方便性,目前在企业和家庭应用越来越多,由此也带动了诸多图像转PDF软件的诞生。
PDF中的文字允许使用内嵌字体,也允许使用外挂字体,相对来说采用外挂字体的更易于校对:内嵌字体为减小文件长度,通常只嵌入所需用到的文字的字形,用不到的就不嵌入了。
在这种情况下如果想增加一个原来没有的字可就麻烦了。
而外挂字体则不受此限制,只要外部字体文件中有字形的文字,都可以加入进来。
当然外挂字体的平台兼容性比外挂字体略差:找不到字体的时候自然就不能显示。
不过这个问题的影响和解决方法在我看来不是啥大问题,在简体中文环境下更没有问题。
所以一项技术的选择有时候没有对错之分,只有侧重点的不同:Acrobat侧重于“平台兼容性”,所以选择了内嵌字体;我的三个软件考虑“校对”、“文件长度”、“实现难易程度”等,就选择了外挂字体。
2、“字压图”还是“图压字”?
对于双层PDF来说,隐藏文字在顶层,扫描图像在底层的是“字压图”,否则就是“图压字”。
在实际中两种路线都有人采用:Acrobat生成双层PDF采用的是字压图,deent75采用的是图压字。
在我看来,采用字压图路线的双层PDF更便于校对:如果采用字压图,图像显示出来后还能看到上层的文字,反之文字就会被图像盖住。
deent75采用字压图可能也有它自己的考虑,但真实原因它不说就谁也不知道,总之我那三个软件在别的地方都在全力模仿deent75,唯独在这个地方坚定不移地跟Acrobat走——字压图。
三、校对工具的选择
同样的原因,这世上也不是什么编辑软件都适合做双层PDF校对的,在我看来至少需满足如下条件才行:
1、支持外挂字体。
即采用外挂字体的PDF,在编辑完成后还是外挂字体。
这条虽然简单,但直接就把Acrobat排除了:采用外挂字体的PDF,在用Acrobat编辑存盘后,新加入的字就全变成内嵌的了。
2、支持亚洲语言,尤其是简体中文。
这一条基本上就把大多数国外的编辑软件给排除了。
最终选来选去,发现还是Foxit PDF Editor和Foxit Phantom满足要求。
具体我测试了Foxit PDF Editor v1.2、v1.5、v2.2,及Foxit Phantom v2.0、v2.2.4、v5.0.4,感觉各有不同:
Foxit PDF Editor v1.2:对Adobe标准中文字体支持不佳,半角文字显示宽度超宽。
Foxit PDF Editor v1.5:修正了半角问题,但编辑界面与v1.2相同,操作繁琐。
Foxit PDF Editor v2.2:编辑界面较v1.5简化,在宽屏下使用方便,普屏下足够让你咬牙切齿。
Foxit Phantom v2.0、v2.2.4:编辑界面非常简洁,符合一般文字处理习惯。
Foxit Phantom v5.0.4:版本大跃进,功能大倒退。
Foxit Phantom在v2.2.4后,一跳就跳到了v5.0,没有中间的3、4版本,但5.x版本放弃了原先的文本编辑模式,改为采用将Foxit PDF Editor换了个名字集成进来的方式,所以文字编辑功能在方便性上相当于Foxit PDF Editor v2.x,比Foxit Phantom v2.x大有不如。
最终,我选择Foxit Phantom v2.2.4作为双层PDF编辑器,并写在那三个软件的界面提示中。
如果只想用文字编辑功能,不需要其他闲杂功能,Foxit Phantom v2.2.4很容易实现绿化:安装完成后,直接将安装文件夹中的全部内容复制出来,就是绿色版了。
如果再删除用不到的文件,整个运行所需的文件约17.1 MB,包括简体中文界面所需文件。
四、校对过程
在解决了文件问题和工具问题后,下面就该具体说一下校对过程了。
校对过程其实也很简单,大体上分为三步:
1、显示出双层PDF中的隐藏文字
在DjVuToy、FreePic2Pdf、Pdg2Pic中,均有“校对”按钮,点击后进入“PDF校对工具”界面,第一个页签就是“显示文字”——Foxit Phantom只能编辑可见文字,隐藏文字是不能编辑的,所以要先显示出来才能走到以后的步骤。
在操作的时候,可以选择是只显示文字,还是图像、文字一起显示。
这个需要根据自己的习惯进行选择:如果只显示文字而隐藏图像,则校对的时候看起来更简单一些,不容易眼花,但是在调整文字显示位置、显示比例的时候,会没有参照物。
文字、图像同时显示(图像可以选择透明度)看起来会累一点,但如果有什么字拿不准,鼠标把文字拖走即可看到底图,看完了按Ctrl+Z就可以让文字回到原位,用鼠标拖拽调整文字显示位置、显示比例时也有参照物。
2、用Foxit Phantom v2.2.4校对PDF
用Foxit Phantom v2.2.4打开PDF文件后,鼠标左键点击其工具条上的“双击文本对象或右键点击对象对其修改”按钮,以后再用鼠标左键双击需要编辑的文字即可对其进行修改,单击则可通过拖拽改变文字的显示位置、显示比例。
总之感觉和用PowerPoint改PPT差不多,所以我说它方便。
3、校对完成后,把文字再隐藏起来
毕竟文字隐藏起来后,才是普通意义上的“双层PDF”。
DjVuToy、FreePic2Pdf、Pdg2Pic的“PDF校对工具”界面中的第二更页签,就是用来干这个的。
不论第1步中采用了什么样的显示方式,经此一步后都回到隐藏文字、显示图像的双层PDF,只不过文字是经过校对的。
如果对校对结果很有自信,对文件大小又比较在意,还可以再走一步:把双层PDF中的扫描图像全部删掉,只留下文字层。
这样搞出来的文字版PDF不仅文件长度比较小,而且文字版式与原文相同,至少作为参考文献引用的时候,页码、行数是不会错的。
以前看Ken777制作“精确版面还原PDF”的时候,羡慕了很久,后来Acrobat中提供的ClearScan也很令我心动,这次总算有机会照猫画虎了。
五、延伸讨论
用过PdfToy的人可能会觉得DjVuToy、FreePic2Pdf、Pdg2Pic中“PDF校对工具”的界面看起来有点眼熟,其实这个工具从界面到代码都COPY自PdfToy的“流过滤”功能,只不过把表达式写死了,所以只能支持特定情况的PDF,对其他PDF无能为力。
对于不是用DjVuToy、FreePic2Pdf、Pdg2Pic生成的双层PDF,其实只要满足前述的采用外挂字体、字压图的情况,理论上说都可以用PdfToy的“流过滤”功能实现与“PDF校对工具”相同的功能,只不过所用的表达式可能要根据具体情况做一点修改。
在《PdfToy应用案例(七)》(案例十三)中,我将详细说明“PDF校对工具”所用到的表达式及其原理,便于PdfToy的用户举一反三。