当前位置:文档之家› OCR作业手顺书

OCR作业手顺书

OCR作业手顺书
OCR作业手顺书

一:软件安装

安装环境基本要求:e.Typist 12要求系统为:XP,内存为:512二:工具设定(红色部分必须完全按要求设定)

1)基本设定

2)文字认识设定

3)环境设定

4)其他设定

设定画像尺寸按照画的顺序排序注意:当改变其他属性的时候需要重新排序

选择“范围设定”

选择“文章领域”

语言设定

根据文章内容选择合适的语言选择“横一段”

英语和日语结合在一起的文章多数情况下选择日语,覆盖效果会比选择英日混合好字体为“Digio ”

字体添加:将“digio.ttf”文件

添加到“C:\WINDOWS\Fonts”路径下

部分设定需导入原画像,如:范围设定

文字识别后,原稿和TEXT的位置

一般初始设定为

左右表示

使用过程中

一般设定为

上下表示

在这里可以

选择一个合适的

自己喜欢的颜色

这个设定是必须的(认识后设定)

这种表示方法,有利于更准确的修改乱码

三:导入图像

1、可以导入[.tif] [.jpg]等图片文件,也可以导入[.pdf]文件

2、“画像リスト”表示设定

鼠标点击[ファイル]

弹出[画像ファイルを開く]画面

选择需要打开的文件

如果选择的是.pdf 文件

会弹出[PDFページ指定]画面

“すべてのページ”所有页一起打开

“ページ指定”选择需要打开的页

“サムネイル”表示为

画像缩略图“画像リスト”表示为文件名一般图像比较多的时候

选择这个选项

四:读取范围及读取顺序

1)读取范围:图、表除外的所有文字

2)读取顺序:读取顺序的原则,从上到下,从左到右的读文章顺序

五:认识

认识前确认顺序,如果顺序不对,需要修改,修改有两种方法

1、点击认识顺序变更改变顺序

2、鼠标右键选择

表示顺序

改变顺序:选择这个选项后,用鼠标按照正确的顺序点击选区,直到最后一个

选中数字可以

变更顺序

需要注意的是:改变一个

选区的顺序同时,要看

其他选取是否也跟着改

变了

123

5

46

六:文字修正

在这里可以再次选择英文或者日文重新认识在认识过程中,有时文章中英文较多的时候会以英文为主识别,日文错误不提示

所以要重新选择日文,再次识别

快捷键[F7]

上下表示

左右表示

对照原文,可以看到这个地方是错的

按日文解析显示为蓝色字

七:检查

鼠标单击

弹出下面对话框

鼠标单击

弹出右面对话框

注意:

現在のページのみを転送する:查看现在页

すべてのページを転送する:查看所有打开页

Ctrl+A全选查看覆盖情况

最好的情况是每一行都覆盖在原来文章的位置上

但由于字体、字间隔等与原文不同等一些因素,很难

达到最好的效果,所以,在检查覆盖的时候,只要

覆盖的每行头和尾不超出原文的位置即可

但每行的覆盖率必须达到该行的三分之二

(如上图红框内的文章),特殊情况及特殊情况的

修改在[覆盖问题注意事项]中详细介绍

覆盖问题主意事项

避免覆盖出现问题的主要原则是:

a、语言划分要详细,语言选择要正确

b、画范围要尽量细,特殊的地方要分行画

c、修改时要仔细,要边修改边删除,错字尽量学习登陆

1、覆盖出现在边角时

有时画像脏点较多,修改时注意多余覆盖所在的位置,是否有多余的乱码

2、覆盖超出原文的行首或行尾时

行头和行末的错字,用学习登陆成正确的文字,确认该行文字是否存在多余内容行头行末的空格要删除

3、覆盖“乱跳”

画选区时,尽量多分几个选区画,以避免覆盖乱跳

八:保存

1、保存etn文件

选择OCR文件保存

文件名同画像名

选择现在页保存*这个选项不选

2、保存为txt文件

1、テキスト(*txt)文件格式保存

2、画像名使用

3、現ページ

鼠标单击

弹出下面对话框

这个选项不选

第一次保存txt文件时修改,以后作业过程中不需要修改

3、保存为PDF文件

1、PDF画像(透明テキスト付き)(*pdf)文件格式保存

2、画像名を使用してページ毎に保存

3、現ページ

4、txt用秀丸打开检查Unicode

修改时有很多办法可以找到Unicode 码,下面介绍几种比较方便的

1、查看原文,原文中有长横线的地方,txt文档中会出现unicode 码

2、查看etn文件中有隐藏的空格,这种空格很容易被发现,没有任何标志,txt文档中会出现unicode 码还有一些其他方法,比如用web格式看也可以看到乱码的地方就是存在Unicode 码,除此之外还有很多方式可以检查,在工作过程中选择合适自己的方法即可,只是上面提到的3种方法比较直观

注:如果存在Unicode,需要打开etn文件修改,重新保存etn、pdf及txt文件

5、检查纳品的PDF文件及修改方法

纳品的PDF文件,尺寸过小,或者过大 都是注意的重点。

1)PDF文件,size 为1KB~100KB范围内,任意尺寸一般情况下,PDF文件的KB数,都是大于原画像的KB数

如出现以上错误,1.检查e.Typist v.12.0设置是否与前面的设置相符 (参照第9行,84行,466行)

2)PDF文件是否与原画像相符

打开PDF 时,是否会提示:画像のデータに不足があります

如果出现该提示,说明画像有问题,需及时联络并确认

有这样的提示就说明

文章中有Unicode 码

九特别页处理方法

1)原稿横画像

12

3

十、マクロ検査外字

2程序安装完后,将这三个文件考到“C:\Program Files\Hidemaru”

1秀丸的安装软件

1、打开TXT文件,点マクロ→マクロ実行(X)

2、点击:外字チェック.mac

外字チェック.mac

3、機種依文字を自動置換処理

4、標準

5、機種依存文字はないようです(文字数:***文字)。(表示処理完成)

6、機種依存文字が*個見つかりました。

點撃OK,秀丸開始自動置換

自動置換完成,弾出另一個TXT

将弾出来的txt関閉(不保存)

置換後正確的TXT要保存,関閉

7、特殊

置換出来的是錯誤的

関閉,不保存

在etn里找到該機種依存文字,修正

重新保存PDF、TXT

十一、NoEditor検査行頭、空行、行尾空格的整形1、空行を削除

Ctrl+A

2、行末のタブースベース削除

Ctrl+A

3、行頭のタブーベース削除Ctrl+A

保存,関閉

相关主题
文本预览
相关文档 最新文档