第二讲 文本素材的采集与处理
- 格式:doc
- 大小:150.50 KB
- 文档页数:4
第二节采集素材学习目标掌握素材采集的基本方法。
学习内容:1、文字素材的采集;2、图像素材的采集;3、声音素材的采集;教学重点:怎样从网上或从其它地方收集素材;教学难点:怎样收集声音素材。
教学过程:一、文字素材的采集:一般而言,文字素材比较容易采集,我们可以通过书籍、报纸、网络等多种途径查阅到需要的文字资料,再利用文字处理软件对文字素材进行预处理。
诗的内容输入,并处理成如图1—2—所示效果。
试试看二、图像素材的采集图像素材的采集可以通过外部采集和计算机内容采集的方法获得。
外部采集是利用扫描仪或数码相机等从外部采集图像数据;内部采集是利用抓图工具软件从计算机屏幕上显示的图像中抓取图像,也包括从网络上、素材光盘上间接取得图像素材。
对于采集到的图像,还可以通过图像处理软件,如Photoshop 、画图等进行处理。
在/yxzduiyue.asp 中下载如图1-2-2所示图片。
三、声音素材的采集有了声音的多媒体采集有了声音的多媒体作品,会更加具有吸引力。
声音素材既可以从网络、素材光盘上进行获取,也可以使用Windows 中的“录音机”进行采集及预处理,“录音机”窗口如图1-2-3所示。
采集时,首先应将麦克风正确连接与设置,然后依次单击“开始”→“程序” →“附件” →“娱乐” →“录音机”,打开“录音机”程序,再试试看单击按钮开始录制,单击按钮结束录制。
最后,依次单击“文件”→“保存”,将录制内容保存下来。
请用Windows 提供的“录音机”程序录制《水调歌头·明月几时有》的录音。
动画及影像素材如何采集?下面两个网址提供与课文相关的素材: /art/wenxue/enjoy/poem/200207/120704801158.html .tw/shenghg/pg-ci0360-drkaskmon.htm 小结1、文字素材的采集方法主要有网上下载、查找素材为、录入等。
2、图像素材的采集方法主要有外部采集和计算机内部采集。
第二讲文本素材的采集与处理本讲目标:1.明确文本素材的五种获取方法。
2.掌握扫描仪的使用方法,会用扫描仪获取大量文本,并能利用文字识别软件对获取的文本进行修改编辑。
重点:获取文本素材的方法。
难点:大量文本的采集—扫描仪扫描文字识别法。
一、五种文本素材的获取方法文本素材的获取有直接获取与间接获取两种方式,直接获取是指通过多媒体教学制作工具软件的文字工具或在文字编辑处理软件中用键盘直接输入或复制,一般在文本内容不多的场合下使用该方式。
间接获取是指用扫描仪或其他输入设备输入文本素材,常用于大量文本的获取。
文本素材的获取方法如下:(1)键盘输入方法键盘输入方法是文本输入的主要方法,使用计算机输入汉字,需要对汉字进行编码,根据汉字的某种规律将汉字用数字或英文字符编码,然后由计算机键盘输入。
汉字有音、形、义三个要素,根据汉字读音的编码叫音码,根据汉字字形的编码叫形码,兼顾汉字读音和字形的编码叫音形码或形音码。
在常用的多媒体教学制作软件中,都带有文字工具,在文本内容不多的情况下,可以直接输入文字,对输入的文字可进行直接编辑处理。
(2)手写输入方法使用“输入笔”设备,在写字板上书写文字,来完成文本输入。
利用手写输入法获取文本的方式,类似于平时我们在纸上写字,但对在写字板上书写的文字要经选择。
手写输入方法使用的输入笔有两种:一种是与写字板相连的有线笔,另一种是无线笔。
无线笔携带和使用均很方便,是手写输入笔的发展方向。
写字板也有两种,一种是电阻式,另一种是感应式。
(3)语音输入方法将要输入的文字内容用规范的语音朗读出来,通过麦克风等输入设备送到计算机中,计算机的语音识别系统对语音进行识别,将语音转换为相应的文字,完成文字的输入。
语音输入方法目前开始使用,但识别率还不是很高,对发音的准确性要求比较高。
(4)扫描仪输入法将印刷品中的文字以图像的方式扫描到计算机中,再用光学识别器(OCR)软件将图像中的文字识别出来,并转换为文本格式的文件。
文字素材采集方法
采集文字素材的方法有很多,以下是其中几种常见的方法:
1. 搜索网络:利用搜索引擎搜索关键词来寻找相关的文本素材,比如使用Google搜索“相关文章”、“新闻”、“图片”等。
2. 阅读书籍和杂志:阅读经典文学作品和流行的杂志、报纸、博客等,收集其中的文字内容作为素材。
3. 利用新闻嗅觉:关注时事热点,敏锐的新闻嗅觉能够帮助你快速找到各种文本素材。
4. 参考书籍和文献:寻找相关的书籍和文献,比如学术论文、专业书籍、历史书籍等,收集其中的文字内容作为素材。
5. 观察生活:在生活中观察、记录、思考,收集其中的文字素材。
例如,写一篇文章描述当天的天气,或者记录下自己的想法和感受。
6. 利用社交媒体:利用社交媒体平台,如Twitter、Facebook等,收集用户发布的文字内容。
7. 利用采访和问卷调查:通过采访相关的人或组织,收集他们的意见和建议,或者通过问卷调查收集用户的反应和反馈。
以上是一些常见的采集文字素材的方法,每种方法都有不同的特点和适用场景,需要根据自己的需求和情况进行选择。
第二讲文本素材的采集与处理
本讲目标:
1.明确文本素材的五种获取方法。
2.掌握扫描仪的使用方法,会用扫描仪获取大量文本,并能利用文字识别软件对获取的文本进行修改编辑。
重点:获取文本素材的方法。
难点:大量文本的采集—扫描仪扫描文字识别法。
一、五种文本素材的获取方法
文本素材的获取有直接获取与间接获取两种方式,直接获取是指通过多媒体教学制作工具软件的文字工具或在文字编辑处理软件中用键盘直接输入或复制,一般在文本内容不多的场合下使用该方式。
间接获取是指用扫描仪或其他输入设备输入文本素材,常用于大量文本的获取。
文本素材的获取方法如下:
(1)键盘输入方法
键盘输入方法是文本输入的主要方法,使用计算机输入汉字,需要对汉字进行编码,根据汉字的某种规律将汉字用数字或英文字符编码,然后由计算机键盘输入。
汉字有音、形、义三个要素,根据汉字读音的编码叫音码,根据汉字字形的编码叫形码,兼顾汉字读音和字形的编码叫音形码或形音码。
在常用的多媒体教学制作软件中,都带有文字工具,在文本内容不多的情况下,可以直接输入文字,对输入的文字可进行直接编辑处理。
(2)手写输入方法
使用“输入笔”设备,在写字板上书写文字,来完成文本输入,利用手写输入法获取文本的方式,类似于平时我们在纸上写字,但对在写字板上书写的文字要经选择。
手写输入方法使用的输入笔有两种:一种是与写字板相连的有线笔,另一种是无线笔。
无线笔携带和使用均很方便,是手写输入笔的发展方向。
写字板也有两种,一种是电阻式,另一种是感应式。
(3)语音输入方法
将要输入的文字内容用规范的语音朗读出来,通过麦克风等输入设备送到计算机中,计算机的语音识别系统对语音进行识别,将语音转换为相应的文字,完成文字的输入。
语音输入方法目前开始使用,但识别率还不是很高,对发音的准确性要求比较高。
(4)扫描仪输入法
将印刷品中的文字以图像的方式扫描到计算机中,再用光学识别器(OCR)软件将图像中的文字识别出来,并转换为文本格式的文件。
目前,OCR的英文识别率可达90%以上,中文识别率可达85%以上。
(5)从互联网上获取文本
从互联网上可以搜索到许多有用的文本素材,在不侵犯版权的情况下,可以从互联网上获取有用的文字。
从互联网的html页面上获取部分文本的方法是:首先拖动鼠标选取有用的文本,或单击鼠标右键,在弹出的快捷菜单中,选择“全选”命令,将整个页面上文字全部选中,然后选择“复制”命令,打开文字处理软件(如Word),选择“编辑”/“粘贴”命令,就可以将复制的文字在文字处理软件中进行编辑处理了。
如果将互联网上其他格式的文本文件(如:.pdf,.caj)格式的文件进行保存,然后使用部分有用文本,常用的方法是:选择“文件”菜单中的“另存为”命令,将文本文件进行保存,
然后在打开的阅读器中,选择工具栏上的“文字选择工具”选取文字后,选择“复制”
命令,然后在文字处理软件中选择“粘贴”命令。
(注意:对有些.pdf,.caj格式的文件,处于版权的考虑,不允许选取复制)
对于大量印刷品中的文本素材,常用扫描仪以图像方式扫描到计算机中,再通过文字识别软件,将文字图像进行版面分析,文字识别后转化成文本文件,对识别不正确的文本进行编辑修改。
下面具体介绍用扫描仪扫描文字的方法。
二、扫描仪的主要性能指标与使用方法
扫描仪是一种光电一体化的计算机输入设备,有手持式(价格便宜、携带方便、但精度低、使用不便,目前较少使用)、平板式(目前使用较普遍)和滚筒式(可扫描较大的画面,主要用于工程设计)。
1.扫描仪的主要性能指标
(1)分辨率。
分辨率是指扫描时每英寸获取的像素点数,单位为像素/秒。
它分为水平分辨率和垂直分辨率。
分辨率越高,扫描出的图像越清晰,但生成的文件也
越大。
常见的扫描仪分辨率为600*1200和1200*2400。
(2)灰度等级。
扫描时,对图像的亮度从最黑到最白进行划分的等级用灰度等级表示。
级数越高,图像的亮度变化范围越大,图像的层次越丰富。
目前,扫描仪
的灰度等级有8bit(有28 =256个灰度等级)、10bit(有210=1024个灰度等级)
和12bit(有212=4096个灰度等级)等。
(3)色彩数量。
用来表示扫描仪在扫描时可以识别的最大色彩数目。
通常用每个像素点颜色的位数来表示。
如:24位可描述的色彩个数最多为224=1677216。
色
彩数量越大,图像色彩越丰富,但生成的文件相对也越大。
目前扫描仪的色彩
数量大多在32位以上。
(4)扫描速度。
扫描速度指扫描一个文件时间的长短,主要决定于扫描仪的接口模式、扫描仪步进电机的速率和扫描仪设定的分辨率。
分辨率越高,扫描速度越
慢。
一幅A4幅面、300像素/秒分辨率的图像,大约需要扫描30—60秒。
(5)扫描幅面。
它是扫描仪可以扫描的画面的最大尺寸。
常见的扫描仪的扫描幅面有A4、A4加长和A3等。
2.扫描仪的使用方法
下面以MiraScan为例,介绍用扫描仪扫描文字图像和将文字图像转换为文本文件
的方法。
(1)按照扫描仪的说明书,将扫描仪和计算机连接好,并安装相应的软件和图像编辑软件(如照片编辑器、Ulead PhotoImpact 或Phtoshop等)。
然后接通扫描仪的电源,运行图像编辑软件。
(2)打开扫描仪的上盖,将要扫描的图像正面朝下放入扫描仪中,并将图像的位置放正,合上盖子。
(3)启动扫描仪运行程序后,单击“文件”/“扫描图像”菜单命令,调出“MiraScan”对话框。
然后,对扫描图像的参数进行设置,如设置扫描模式为“彩色”、
扫描来源为“反射稿”、图像解析度为“72”,然后选择“去网花”等。
(4)单击“PreScan”(预扫)按钮,进行预扫,预览扫描范围是否得当。
若不得当,进一步进行调整图像的位置或设置参数。
(5)单击“Scan”按钮开始扫描,出现扫描进度提示,此时扫描仪的指示灯不断闪烁。
(6)扫描完成后,单击“结束”按钮,然后保存图像即可。
3.对扫描的文字图像进行识别
用扫描仪扫描的文字图像,不能对个别文字进行编辑修改,在教学中,需要利用文字识别软件,将文字图像进行识别,将图像格式转化成文本格式,常见的文字识别软件有很多,主要功能基本相同,在此以ScanMaker 4850ii随机附送的尚书七号为例,介绍用文字识别软件对扫描仪扫描的文字图像进行识别的正确使用方法。
用尚书七号对文字图像识别转化的过程,利用其主菜单:“文件”、“编辑”、“识别”、“输出”可以很方便地完成。
具体步骤为:
步骤1:获取文字图像文件。
选择“文件”菜单下的“扫描”或“打开图像”(将已经扫描好的图像文件打开)命令,打开图像文件。
如果连接了多台扫描仪,可以选择“文件”菜单下的“选择扫描仪”命令,调用扫描仪。
步骤2:对扫描的图像页进行调整
选择“编辑”菜单下“图像页面的处理”子菜单下的“图像页的倾斜校正”(提供自动和手动实现方法)及“旋转”等命令,将扫描的图像页进行调整。
步骤3:版面分析与文字识别转化
版面分析,选择识别范围,在进行文字识别前要选择识别范围,识别过程的核心是“版面分析”。
尚书七号的自动版面分析功能很强,对报纸杂志等复杂的版面,也能保持很高的分析正确率。
设置好后,直接点击“开始识别”的按钮就可以进行文字识别了。
步骤4:校对修改
自动识别完毕,识别结果的“文本窗口”会弹出,这个窗口能够提供识别结果的校对,为了校对方便,尚书七号增加了光标跟随显示原图像行的校对方法(如图3出现的黄色提示行的出现)。
提供的校对方法,一眼就能够看到图像原文和识别出文本的差别,如果发现识别有误,可以进行修改。
步骤5:输出
如果检查修改后确认无误,选择识别结果的“输出”菜单,输出的文件格式有:RTF、HTML、XLS、TXT,可以根据自己的需要选择对应的格式。
如果用户想得到类似原文的识别结果,请选择RTF格式。
把RTF格式输出的文件用WORD打开后,会发现几乎保留了原文的所有痕迹,包括原来页面中的彩色图像,都已经保留在WORD 中了。