使用Office 2003自带的OCR程序进行文字识别
- 格式:doc
- 大小:409.50 KB
- 文档页数:5
利用MS Office工具提取图片中的文字如果你手头有一份试卷的图片版,或者自己用扫描仪、摄像头拍摄的试卷图片,那么就请按照下面的步骤,将它们中的文字部分提取到word中进行编辑。
(要求office 2003)1、开始-程序-Microsoft Office-Microsoft Office 工具-Microsoft Office Document scanning。
该工具是MS office 2003自带的,但是默认却没有安装,所以此时很可能会弹出对话框,要求放入office 2003的安装光盘,乖乖,按照要求去做就行;2、安装完毕后,会自动启动该工具,在出现的对话框中,点击“扫描”。
如果此时弹出提示,不要理会,一路确定即可;3、很快会出现一个预览框,觉得从摄像头出来的图像满足要求,点击“捕捉”按钮即可;4、再点击“发送”-“完成”,然后会打开MS的Document Image工具,打开刚才捕捉到的图片;5、在Document Image工具的工具栏上,点击“页面”左侧的按钮“将图片发送到word”;6、word会自动打开,出现的就是已经提取的文字段落了;如果是现成的图片,可以这样处理:7、选择该图片,右键-打开方式-windows图片和传真查看器;8、打印,一路回车,一直到出现打印机选项;9、在出现的打印对话框中,选择打印机类型为“Mic rosoft Office Document image writer”,选择适当路径存放;10、双击被保存的文件;11、重复第5~6点;图片文字提取方法集锦阅读(53) 评论(0) 发表时间:2008年09月17日 10:05本文地址:/blog/332664981-1221617149方法一:利用Office 2003从图片中提取文字Office在2003版中增加了Document Imaging工具,用它可以把文字给“抠”出来。
(1)打开传真图片,用抓图软件SnagIt对相关的内容进行抓取,然后在“文件”菜单中选择“复制到剪贴板”命令(也可以用其他抓图软件,当然最简单的是Windows中自带的Print Screen键来抓取整个屏幕,然后在“画图”程序中对不要的部分进行裁剪并保存,然后复制)。
使用Office 2003自带的OCR程序进行文字识别用途:我们经常从期刊网下载的PDF文件或CAJ文件的文本都是不能直接复制出来的,遇到这种情况,我们可以使用Office 2003所自带的OCR程序进行识别。
操作步骤:1. 用CAJViewer打开准备要进行文字识别的文件,按“文件→打印”按钮打开打印选项对话框。
2. 在“打印”对话框中,首先在“名称”选择栏中必须选中“Microsoft Office Document Image2选择打印的范围3. 然后按确定选择保存的位置,保存在那里都不要紧,因为打印生成的文件只是一个暂时使用的文件,我们在使用完后可以把他删除了。
4. 打印成功后,系统会自动打开“Microsoft Office Document Imaging”软件打开刚才打印成功的文件。
5. “Microsoft Office Document Imaging”打开后,选择工具栏中的眼睛图标进行文字识别。
6. 等待识别完成后,在文档区拉动鼠标选择需要复制的文字,当文字出现亮蓝显示时,证明文字是可以复制出来的,然后按键盘的ctrl+c,或者按鼠标右键复制都可以把文字复制出来。
附如果你在第二步操作选择打印机时没有看到“Microsoft Office Document Image Writer”出现,表明你还没有按照Office 2003中的这个工具,我们可以按照以下的步骤安装。
1. 打开“控制面板”——“添加删除程序”。
2. 在“添加删除程序”列表框中选中Office 2003安装项目,选中它,然后点击“更改”按钮。
3. 在新打开的“Office 2003”安装对话框中,选择“添加删除功能”,然后按下一步。
4. 然后必须选择“选择应用程序的高级自定义”选项,再点击下一步按钮。
5. 拖动新开窗口的右侧滚动条,打开“office 工具”子菜单,选择“Microsoft Office Document Imaging”工具,然后点击鼠标左键,在弹出的选项框中选择“从本机运行”,然后按“更新”按钮。
巧用Office 2003实现OCR文字输入为了迎接市里的工作验收,领导拿来了许多存档文件,要求小王在三天内摘录并形成汇报文档。
看着厚厚的材料小王发愁了,这时有人提醒:你的笔记本电脑不是刚装上Office2003吗,里面的Microsoft Office Document Imaging不错。
它是一个光学字符识别(OCR)软件,可以用扫描仪扫入纸文档中的汉字,用它,摘录文件的速度可快多了。
○ 操作准备局里只有一台比较旧的F1210扫描仪,小王把它连接到笔记本电脑的并口,接通电源以后安装扫描仪驱动程序。
单击“开始”-->“所有程序”-->“Microsoft Office工具”中的“Microsoft Office Document Imaging”,将纸文档放入扫描仪,准备将其中的汉字输入Word。
○ 扫描设置打开Microsoft Office Document Imaging窗口以后,单击工具栏中的“扫描新文档”按钮,即可看到如图1所示的对话框。
首先单击其中的“扫描仪”按钮打开选择扫描仪对话框,查看当前扫描仪的型号是否在里面。
如果对话框或下拉列表中没有当前扫描仪,就要检查驱动程序安装和电源连接是否正确。
接下来要根据文档的特点选择扫描预设。
如果是彩色纸张上的黑色或彩色文本,或者是白色纸张上的彩色文本,可以选择“将彩色页面扫描为黑白图片”;对常见的白色纸张上的黑色文本而言,可以选择“黑白模式”或“灰度模式”。
Microsoft Office Document Imaging提供的扫描预设功能可以满足大多数文档的要求。
如果文档使用的字体太小,或者由于纸张等缘故导致文字不太清楚,就得适当调整扫描预设中的分辨率。
用户只要选中要调整的某种扫描预设,单击图1中的“预设选项”按钮打开菜单,选择其中的“编辑所选预设”,就可以看到“预设选项”对话框的“常规”选项卡。
单击其中的“高级”按钮打开如图2所示的对话框,可将默认的分辨率(DPI)值由200修改为300。
Office软件的OCR文字识别OCR(Optical Character Recognition)文字识别技术是一种通过计算机识别和理解图像中的文字信息的技术。
在Office软件中,OCR文字识别技术能够帮助用户将扫描或拍摄的图片文件中的文字内容转换成可编辑的文本文件,极大方便了用户对文字信息的处理和管理。
本文将从OCR文字识别的基本原理、Office软件中的应用、优缺点及未来发展方向等方面进行详细探讨,以便读者对该项技术有进一步的了解。
一、OCR文字识别的基本原理OCR文字识别的基本原理是通过对图像进行预处理,提取出图像中的文字信息,然后利用字符识别技术将提取出的文字信息转换成可编辑的文本文件。
其主要步骤包括图像预处理、文字分割和字符识别三个过程。
在图像预处理环节,需要对图像进行灰度化、二值化、去噪等操作,以便提高后续文字信息的识别效果。
文字分割环节即将提取出的文字进行切割,以便字符识别技术对每个文字进行识别。
最后是字符识别环节,利用模式识别和机器学习等算法对提取出的文字进行识别并转换成文本文件。
二、Office软件中的OCR文字识别应用在Office软件中,OCR文字识别技术主要应用于扫描仪和拍照文档的文字转换。
用户可以通过OCR文字识别功能将扫描或拍摄的图片文件中的文字内容直接转换成可编辑的文本文件,并进行编辑、修改或者复制粘贴等操作。
这一功能在处理扫描版合同、拍摄版书籍、图片版文件等方面具有很大的实用价值,也方便了用户对文字信息的管理和利用。
三、OCR文字识别的优缺点优点:1.方便用户处理图片文件中的文字信息,提高工作效率。
2.能够将图片文件中的文字信息转换为可编辑的文本文件,方便进行编辑和管理。
3.对于扫描版合同、拍摄版书籍等具有重要实用价值的文件起到了极大的便利作用。
缺点:1.对于复杂的图像和文字特征不明显的文档,识别效果可能不佳。
2.非结构化的文档识别困难,需要人工干预进行修正。
OFFICE2003里面有自带OCR软件各种格式文件ocr成word文件的方法你还在为不同格式的文件怎么变成word文件发愁吗?各种识别软件各有缺陷,识别效率低,让你痛苦不堪,有的只能识别字,对表格和图形无能为力,识别完了,版面乱七八糟,无法使用。
现在好了,本文针对各种情况下文字识别进行总结,帮助大家掌握正确方法,节省时间,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案:1、PDF文件的识别:1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader(下载/soft/4/136/2006/Soft_29430.html),直接另存为rtf 文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到word等中。
2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003(下载/soft/188/215/2006/Soft_28356.html),并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF 文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个PDF文件识别输出到word文件中。
注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit 软件将图形打开,然后复制到word中。
现在的办公软件是越来越智能化了,在工作中使用办公软件的次数也是越来越多了。
就像前几天小编的室友给推荐了一个OCR文字识别软件,功能很齐全的软件,具体是怎样操作的?一起小编看一下吧!
接下来小编给大家介绍的是迅捷OCR文字识别软件中的语音转文字的操作,该工具的功能有很多,比如说图片转文字,文档翻译等。
步骤一:首先将我们提前准备好的语音文件上传到电脑上,然后再将电脑上的OCR文字识别工具给打开就可以了。
步骤二:打开OCR文字识别软件后,就可以看到桌面上弹出该工具的功能
页面了。
在多种功能中需要点击一下“语音识别”功能。
步骤三:在语音识别的功能页面中,需要添加一下语音文件,点击一下“上传音频文件”就可以将我们需要的音频文件给添加进去了。
步骤四:上传完音频文件后,在导出目录中,为识别出的文字文件调整一下存储的位置。
如桌面。
步骤五:调整完文字文件的存储位置之后,只需要点击一下“开始识别”,该功能就可以进行语音识别了。
以上简单的几步就是OCR文字识别软件中的语音转文字的操作了,大家学会了吗?有需要的小伙伴记得学学哦!。
Office在2003版中增加了Document Imaging工具,用它可以把文字给“抠”出来。
打开传真图片,用抓图软件SnagIt对相关的内容进行抓取,然后在“文件”菜单中选择“复制到剪贴板”命令(也可以用其他抓图软件,当然最简单的是Windows中自带的Print Screen键来抓取整个屏幕,然后在“画图”程序中对不要的部分进行裁剪并保存,然后复制)。
在“开始”菜单的“Microsoft Office工具”中打开Microsoft Office Document Imaging,在左侧窗口中单击鼠标右键,选择“粘贴页面”,把复制的图片粘贴---到Document Imaging中,在“工具”中选择“使用OCR识别文本”,Document Imaging的OCR识别程序就会对图片进行识别,完成后选择“工具”中的“将文本发送到Word”,程序会自动打开Word文档,展现在你面前的就是从图片中“抠”出来的文字。
提示:一般而言,识别的准确率可以达到95%以上,但对英文和数字的识别不是太好。
还有其他软件:一、汉王感觉比紫光好,可以识别表格,新版汉王5800,还没有装。
二、清华紫光以前7.5用过很多次,基本还可以,文科类书籍识别还不错,新版紫光9.0,应该有提高。
三、慧视小灵鼠号称很厉害,用手机拍得都行。
四、尚书有表格识别,大概很中庸,用的人不多。
五、丹青能识别繁体六、cajviewer 6.0不是专用识别软件,内部应该是汉王的核心。
七、Microsoft Office Document Imagingoffice2003中内含,2003装过一次,发现access到入数据不顺,就改回用2000,还没有注意到,不知道对公式识别是否有相当的作用,想想和word结合比较强,这是应该的。
八、FineReader v7.0 Professional据说很牛的英文识别软件,是俄国人搞的,天空软件有下,汉字也有,只是没有地方下到。
扫尽桌面成堆文件——巧妙使用Office2003的OCR识别功
能
王兰富
【期刊名称】《电脑高手》
【年(卷),期】2004(000)007
【摘要】办公室中少不了要扫描和OCR.自然也少不了遇到种种问题。
其实随便学几招.立刻就能当个扫描专家,既能提高效率。
还不用嗲嗲地去找IT部门的眼镜GG,何乐不为?
【总页数】2页(P58-59)
【作者】王兰富
【作者单位】无
【正文语种】中文
【中图分类】TP317.1
【相关文献】
1.在Authorware中巧妙使用视频文件 [J], 张钦;罗楚新
2.使用Lucene技术实现桌面批量文件搜索引擎 [J], 赵春霞
3.巧用Office 2003内置的OCR识别功能 [J], jack
4.在桌面办公系统中使用图形文件的一点体会 [J], 张兵;傅晓俊
5.Office2003实现PDF文件转Word文档 [J],
因版权原因,仅展示原文概要,查看原文内容请购买。
Office软件的OCR文字识别OCR(Optical Character Recognition)文字识别技术是一种将图像中的文字转换为可编辑文本的技术,它可以帮助用户快速高效地转换图片或扫描件中的文字内容。
在Office软件中,OCR文字识别可以极大地提高工作效率,本文将就Office软件中的OCR文字识别功能进行探讨,并探讨其优势和应用场景。
一、OCR文字识别的基本原理OCR文字识别的基本原理是通过图像处理和模式识别技术,将图片中的文字信息转换成计算机可以识别和编辑的文字信息。
首先,OCR软件会对输入的图片进行预处理,包括图像增强、去噪等操作,然后通过分析像素点的颜色、形状和分布等信息,识别出文字区域,并将其转换成文本信息。
最后,通过文字识别引擎对文本信息进行识别和矫正,生成可编辑的文本文件。
二、Office软件中的OCR文字识别功能在Office软件中,如Word、Excel等,用户可以通过插件或集成的OCR功能,将扫描件或图片中的文字内容进行识别和转换。
OCR识别完成后,用户可以直接在Office软件中编辑、保存和分享识别出的文本内容,极大地提高了办公效率。
通过OCR的识别,用户可以将纸质文档快速转换为电子文档,实现数字化管理。
三、OCR文字识别的优势1.提高工作效率:通过OCR文字识别,用户可以快速将图片或扫描件中的文字内容转换成可编辑文本,省去了手动输入的麻烦,极大地提高了工作效率。
2.实现纸质文档的数字化管理:通过OCR技术,用户可以将纸质文档快速转换为电子文档,方便进行存储、管理和检索。
3.便于编辑和分享:识别后的文本内容可以直接在Office软件中进行编辑、格式调整和分享,方便用户进行后续处理和传播。
四、OCR文字识别的应用场景1.文档扫描和整理:用户可以通过OCR技术将扫描件中的文字内容转换为可编辑文本,实现文档的数字化整理和管理。
2.会议记录和笔记整理:用户可以利用OCR技术将会议记录和手写笔记快速转换为电子文本,并进行整理和归档。
巧用Office 2003内置的OCR识别功能
jack
【期刊名称】《玩电脑:在线技术》
【年(卷),期】2005(000)010
【摘要】Office 2003中默认的OCR功能可以将PDF文件或者其他特殊格式文件中的文字拷贝出来,首先使用“PrintScreen”捕获屏幕,粘贴到Windows内置的“画图”工具中。
然后使用“剪切”,剪切需要OCR识别的文本区域,并选择复制。
【总页数】1页(P84)
【作者】jack
【作者单位】无
【正文语种】中文
【中图分类】TP317.1
【相关文献】
1.Office文字识别功能的应用 [J], 朱岁松;董超雄
2.扫尽桌面成堆文件——巧妙使用Office2003的OCR识别功能 [J], 王兰富
3.“大腕儿”的交流——巧用 Office 2003实现PDF文件转换 [J], 倪勇
4.在Office2003中巧用Shift键 [J], 张协勇
5.玩转Office 2003的文字识别功能 [J], 陈桂鑫
因版权原因,仅展示原文概要,查看原文内容请购买。
Office软件的OCR文字识别随着科技的发展,人们在工作和生活中使用的Office软件越来越普遍。
其中,OCR文字识别技术的应用成为办公软件中的一大亮点。
OCR(Optical Character Recognition)文字识别技术是一种通过光学设备识别并翻译印刷体或手写体的文字的技术,它可以将图片或扫描文件中的文本内容转换为可编辑的文本格式,为用户提供了巨大方便。
本文将从OCR文字识别的基本原理、应用场景、技术优势和发展趋势等方面,对OCR文字识别技术进行详细的介绍。
一、基本原理OCR文字识别的基本原理是利用图像处理和模式识别技术,先对扫描的图片或文档进行预处理,再通过文字分割和特征提取等步骤,最终识别出文本内容并转换为可编辑的文本格式。
1.图像预处理:图像预处理是OCR文字识别的第一步,主要包括灰度化处理、二值化处理、降噪处理等,目的是将原始图像转换为适合进行文字识别的处理对象。
2.文字分割:文字分割是将预处理后的图像中的文字进行分割,分离出单个的文字或字符,为后续的文字识别做准备。
3.特征提取:通过特征提取,可以提取出文字的特征信息,如文字的形状、大小、颜色等,以便进行文字识别。
4.文字识别:文字识别是OCR文字识别的核心步骤,通过对文本内容的分析和识别,将图片或扫描文件中的文字转换为可编辑的文本格式。
二、应用场景OCR文字识别技术在办公软件中有着广泛的应用场景,主要包括以下几个方面:1.扫描件转换:将纸质文件或扫描件中的文本内容转换为可编辑的文本格式,便于编辑和管理。
2.文档识别:对于大批量的文档进行文字识别,实现自动化的文档处理和管理。
3.名片识别:通过OCR文字识别技术,可以将名片中的信息自动提取出来,进行电子化管理。
4.表格识别:将扫描的表格转换为可编辑的电子表格,方便数据的处理和分析。
5.手写体识别:对手写体文字进行识别,实现手写体文档的数字化处理和管理。
6.卡片识别:识别银行卡、身份证等卡片中的文字信息,方便实名认证和信息管理。
Office软件的OCR文字识别随着信息化时代的到来,我们所需要处理和管理的文本数量越来越大。
尤其是在工作中,办公文档与我们息息相关,我们需要时常处理与编辑PDF、WORD等文档格式。
随着OCR技术的快速发展,现如今的Office软件也可以通过OCR技术实现对文档中文字的识别和提取。
Office软件的OCR文字识别已成为我们平时办公的一大利器。
一、OCR技术简介OCR (Optical Character Recognition)技术是一种将图像中的字符转换成文本的技术。
OCR单元应该是一个输入图像,将其数字化并生成字符的文本数据。
OCR技术已经有超过100年的时间了,但一直没有完全满足人们的期望。
但随着近年来计算机,图像处理,机器学习等技术的高速发展,OCR技术已经大有作为。
现在,OCR技术已经能够在各个领域发挥巨大的作用,例如银行票据识别、数字识别、车辆牌照识别等。
二、Office软件的OCR文字识别功能Office软件作为文档编辑与处理的重要软件,其OCR文字识别功能无疑更加方便了我们的工作。
它通过OCR技术识别文档中的文字,实现了将图像信息转换成为文本。
这样,用户可以在Office软件上轻松地处理OCR工作。
【具体示例】以微软Word为例,其OCR文字识别功能提供在“转换文字”菜单下。
我们可以通过以下步骤使用该功能:第一步:打开Word软件并加载需要OCR文字识别的文档第二步:选择需要转换的内容,点击“转换文字”第三步:Word会开始转换并显示可编辑的文本第四步:以文本的形式编辑文档不难看出,这样我们在处理文档时非常方便。
一旦有需要将图片转换成为文本的需求,我们可以轻松地一键操作,就可以进行文本编辑。
三、OCR文字识别的应用范围OCR技术在各个领域都已经得到广泛的应用。
在医药,银行,出版,发票,票房等领域中,使用OCR技术已经成为一种不可或缺的工具。
【OCR在医学中的应用】病历记录是医生工作中的重要内容,而OCR可帮助医生快速而精准地转换医疗文件报告,从而使患者得到更好的治疗。
Office在2003版中增加了Document Imaging工具,用它可以把文字给“抠”出来。
打开传真图片,用抓图软件SnagIt对相关的内容进行抓取,然后在“文件”菜单中选择“复制到剪贴板”命令(也可以用其他抓图软件,当然最简单的是Windows中自带的Print Screen键来抓取整个屏幕,然后在“画图”程序中对不要的部分进行裁剪并保存,然后复制)。
在“开始”菜单的“Microsoft Office工具”中打开Microsoft Office Document Imaging,在左侧窗口中单击鼠标右键,选择“粘贴页面”,把复制的图片粘贴---到Document Imaging中,在“工具”中选择“使用OCR识别文本”,Document Imaging的OCR识别程序就会对图片进行识别,完成后选择“工具”中的“将文本发送到Word”,程序会自动打开Word文档,展现在你面前的就是从图片中“抠”出来的文字。
提示:一般而言,识别的准确率可以达到95%以上,但对英文和数字的识别不是太好。
还有其他软件:一、汉王感觉比紫光好,可以识别表格,新版汉王5800,还没有装。
二、清华紫光以前7.5用过很多次,基本还可以,文科类书籍识别还不错,新版紫光9.0,应该有提高。
三、慧视小灵鼠号称很厉害,用手机拍得都行。
四、尚书有表格识别,大概很中庸,用的人不多。
五、丹青能识别繁体六、cajviewer 6.0不是专用识别软件,内部应该是汉王的核心。
七、Microsoft Office Document Imagingoffice2003中内含,2003装过一次,发现access到入数据不顺,就改回用2000,还没有注意到,不知道对公式识别是否有相当的作用,想想和word结合比较强,这是应该的。
八、FineReader v7.0 Professional据说很牛的英文识别软件,是俄国人搞的,天空软件有下,汉字也有,只是没有地方下到。
在简体中文Office2003下OCR繁体中文、日文、韩文一、引子在简体中文Office 2003下用Micorsoft Office Document Imaging (MODI)做OCR的步骤为:1.先确保MODI已经正常安装。
Office 2003的缺省安装是第一次使用MODI时安装,Office 2007的缺省安装是不装,都需要改过来。
2.在资源管理器里选中某个多页TIFF文件,从右键菜单选择用Micorsoft Office Document Imaging打开。
3.打开后,先选择“工具->选项”,对OCR选项进行设置。
常规设置是去掉“自动拉伸”、“自动旋转”选项,再选择合适的语言。
4.选择“工具->将文本发送到Word”,在弹出的对话框中选择“所有页面”,“在输出时保持图片版式不变”,然后选择默认文件夹,点“确定”,即可开始OCR。
5.OCR结束后,文本自动发送到Word。
缺省格式是HTML,当然也可以另存为txt、doc。
与其他商业OCR软件相比,MODI具有下列特点:•支持多页TIFF。
某些OCR只支持单页TIFF,OCR以后还需要对结果进行合并。
当然MODI支持的TIFF页数也不是无限的,我个人的经验是不要超过300页。
单页TIFF文件可以用免费的TiffToy合并成多页TIFF,然后再用MODI进行OCR。
TiffT oy合并时可以选择每合并多少个文件生成一个新文件。
•中文标点、文本段落保持得比较好,后期校对省了很多事。
•支持的语言比较多,Office支持的语言基本都支持。
但是这一点对大多数用户来说无法体会,因为正常情况下,MODI只支持英文和当前Office语言(如简体中文)的OCR,要想支持更多的语言,需要进行一些设置,这就是本文所要讨论的内容。
当然我并非语言天才,对于亚洲主要语言(中、日、韩)还算有所了解,其他语言一概无知,所以本文的讨论也仅限于这三国语言。
光学字符识别技术OCR(Optical Character Recognition的简称),是自动识别技术研究和应用中的一个重要领域,我们识别图片中的文字,用的就是OCR技术。
目前有很多OCR识别软件,例如Office Document Imaging、汉王OCR,清华紫光OCR、尚书6号等等。
但需要注意,通常OCR软件只能够识别比较规范的印刷体,手写文本目前在识别上仍有困难。
下面简单介绍一下几款OCR识别软件及使用方法。
方法一、利用Office Document Imaging 提取文字Office在2003版中增加了Document Imaging工具,用它可以把文字给“抠”出来。
注意:Microsoft Office Document Imaging不是Office 2003默认的安装选项,初次启用时,如果该组件未安装,则需要插入Office的安装光盘进行安装。
使用方法1、在“文件”中打开图片,若是提取扫描仪中的印刷品文字,选择“扫描新文档”,即可将印刷品的文字扫描到电脑上。
2、工具-->使用OCR识别文本,OCR识别程序就会对图片进行识别,完成后选择:工具-->将文本发送到Word ,程序会自动打开Word文档,展现在你面前的就是从图片中“抠”出来的文字。
注意事项1、若图片中是英文,可在工具-->选项-->OCR-->OCR 语言,选择english,再进行识别。
2、Office Document Imaging只支持MDI、TIF等图片格式。
如需识别其他格式的图片,需要利用图片处理软件转换一下,或者利用Office Document Imaging 组件中的“Microsoft Office Document Imaging Writer”的虚拟打印机,将图片打印成一个MDI文件,然后再进行识别。
方法二、使用文字识别工具提取文字1、清华紫光OCR用法简介1)打开带有文字的图片,根据所要提取的文字进行裁剪(如果是电子书籍,可按下“Print Screerl”屏幕捕获键将其保存为图片)。
使用Office 2003自带的OCR程序进行文字识别
用途:我们经常从期刊网下载的PDF文件或CAJ文件的文本都是不能直接复制出来的,遇到这种情况,我们可以使用Office 2003所自带的OCR程序进行识别。
操作步骤:
1. 用CAJViewer打开准备要进行文字识别的文件,按“文件→打印”按钮打开打印选项对话框。
2. 在“打印”对话框中,首先在“名称”选择栏中必须选中“Microsoft Office Document Image
2选择打印的范围
3. 然后按确定选择保存的位置,保存在那里都不要紧,因为打印生成的文件只是一个暂时使用的文件,我们在使用完后可以把他删除了。
4. 打印成功后,系统会自动打开“Microsoft Office Document Imaging”软件打开刚才打印成功的文件。
5. “Microsoft Office Document Imaging”打开后,选择工具栏中的眼睛图标进行文字识别。
6. 等待识别完成后,在文档区拉动鼠标选择需要复制的文字,当文字出现亮蓝显示时,证明文字是可以复制出来的,然后按键盘的ctrl+c,或者按鼠标右键复制都可以把文字复制出来。
附
如果你在第二步操作选择打印机时没有看到“Microsoft Office Document Image Writer”出现,表明你还没有按照Office 2003中的这个工具,我们可以按照以下的步骤安装。
1. 打开“控制面板”——“添加删除程序”。
2. 在“添加删除程序”列表框中选中Office 2003安装项目,选中它,然后点击“更改”按钮。
3. 在新打开的“Office 2003”安装对话框中,选择“添加删除功能”,然后按下一步。
4. 然后必须选择“选择应用程序的高级自定义”选项,再点击下一步按钮。
5. 拖动新开窗口的右侧滚动条,打开“office 工具”子菜单,选择“Microsoft Office Document Imaging”工具,然后点击鼠标左键,在弹出的选项框中选择“从本机运行”,然后按“更新”按钮。
6. 然后插入Office 2003安装光盘进行安装。