第二讲 文本素材的采集与处理
- 格式:doc
- 大小:150.50 KB
- 文档页数:4
第二节采集素材学习目标掌握素材采集的基本方法。
学习内容:1、文字素材的采集;2、图像素材的采集;3、声音素材的采集;教学重点:怎样从网上或从其它地方收集素材;教学难点:怎样收集声音素材。
教学过程:一、文字素材的采集:一般而言,文字素材比较容易采集,我们可以通过书籍、报纸、网络等多种途径查阅到需要的文字资料,再利用文字处理软件对文字素材进行预处理。
诗的内容输入,并处理成如图1—2—所示效果。
试试看二、图像素材的采集图像素材的采集可以通过外部采集和计算机内容采集的方法获得。
外部采集是利用扫描仪或数码相机等从外部采集图像数据;内部采集是利用抓图工具软件从计算机屏幕上显示的图像中抓取图像,也包括从网络上、素材光盘上间接取得图像素材。
对于采集到的图像,还可以通过图像处理软件,如Photoshop 、画图等进行处理。
在/yxzduiyue.asp 中下载如图1-2-2所示图片。
三、声音素材的采集有了声音的多媒体采集有了声音的多媒体作品,会更加具有吸引力。
声音素材既可以从网络、素材光盘上进行获取,也可以使用Windows 中的“录音机”进行采集及预处理,“录音机”窗口如图1-2-3所示。
采集时,首先应将麦克风正确连接与设置,然后依次单击“开始”→“程序” →“附件” →“娱乐” →“录音机”,打开“录音机”程序,再试试看单击按钮开始录制,单击按钮结束录制。
最后,依次单击“文件”→“保存”,将录制内容保存下来。
请用Windows 提供的“录音机”程序录制《水调歌头·明月几时有》的录音。
动画及影像素材如何采集?下面两个网址提供与课文相关的素材: /art/wenxue/enjoy/poem/200207/120704801158.html .tw/shenghg/pg-ci0360-drkaskmon.htm 小结1、文字素材的采集方法主要有网上下载、查找素材为、录入等。
2、图像素材的采集方法主要有外部采集和计算机内部采集。
第二讲文本素材的采集与处理本讲目标:1.明确文本素材的五种获取方法。
2.掌握扫描仪的使用方法,会用扫描仪获取大量文本,并能利用文字识别软件对获取的文本进行修改编辑。
重点:获取文本素材的方法。
难点:大量文本的采集—扫描仪扫描文字识别法。
一、五种文本素材的获取方法文本素材的获取有直接获取与间接获取两种方式,直接获取是指通过多媒体教学制作工具软件的文字工具或在文字编辑处理软件中用键盘直接输入或复制,一般在文本内容不多的场合下使用该方式。
间接获取是指用扫描仪或其他输入设备输入文本素材,常用于大量文本的获取。
文本素材的获取方法如下:(1)键盘输入方法键盘输入方法是文本输入的主要方法,使用计算机输入汉字,需要对汉字进行编码,根据汉字的某种规律将汉字用数字或英文字符编码,然后由计算机键盘输入。
汉字有音、形、义三个要素,根据汉字读音的编码叫音码,根据汉字字形的编码叫形码,兼顾汉字读音和字形的编码叫音形码或形音码。
在常用的多媒体教学制作软件中,都带有文字工具,在文本内容不多的情况下,可以直接输入文字,对输入的文字可进行直接编辑处理。
(2)手写输入方法使用“输入笔”设备,在写字板上书写文字,来完成文本输入。
利用手写输入法获取文本的方式,类似于平时我们在纸上写字,但对在写字板上书写的文字要经选择。
手写输入方法使用的输入笔有两种:一种是与写字板相连的有线笔,另一种是无线笔。
无线笔携带和使用均很方便,是手写输入笔的发展方向。
写字板也有两种,一种是电阻式,另一种是感应式。
(3)语音输入方法将要输入的文字内容用规范的语音朗读出来,通过麦克风等输入设备送到计算机中,计算机的语音识别系统对语音进行识别,将语音转换为相应的文字,完成文字的输入。
语音输入方法目前开始使用,但识别率还不是很高,对发音的准确性要求比较高。
(4)扫描仪输入法将印刷品中的文字以图像的方式扫描到计算机中,再用光学识别器(OCR)软件将图像中的文字识别出来,并转换为文本格式的文件。
文字素材采集方法
采集文字素材的方法有很多,以下是其中几种常见的方法:
1. 搜索网络:利用搜索引擎搜索关键词来寻找相关的文本素材,比如使用Google搜索“相关文章”、“新闻”、“图片”等。
2. 阅读书籍和杂志:阅读经典文学作品和流行的杂志、报纸、博客等,收集其中的文字内容作为素材。
3. 利用新闻嗅觉:关注时事热点,敏锐的新闻嗅觉能够帮助你快速找到各种文本素材。
4. 参考书籍和文献:寻找相关的书籍和文献,比如学术论文、专业书籍、历史书籍等,收集其中的文字内容作为素材。
5. 观察生活:在生活中观察、记录、思考,收集其中的文字素材。
例如,写一篇文章描述当天的天气,或者记录下自己的想法和感受。
6. 利用社交媒体:利用社交媒体平台,如Twitter、Facebook等,收集用户发布的文字内容。
7. 利用采访和问卷调查:通过采访相关的人或组织,收集他们的意见和建议,或者通过问卷调查收集用户的反应和反馈。
以上是一些常见的采集文字素材的方法,每种方法都有不同的特点和适用场景,需要根据自己的需求和情况进行选择。
多媒体教学素材的采集与制作现代教学媒体需要大量的多媒体资源素材,需要大量的文本、图形图像、音频、动画、视频等多种数据,我们将这些数据称为多媒体素材。
这些多媒体素材是制作多媒体教学课件的重要组成部分,是使用现代教学媒体的基石[1]。
充分使用各种媒体素材是多媒体技术的基本特点。
一、多媒体教学素材分类1.文本文本信息主要指在计算机中存储的文字内容,是迅速、有效传播教学信息的最重要的媒体元素。
常见的文本文件类型为.txt,.rtf,.doc,.wps等。
但是.doc,.wps文件中可能还包含图形、图片等信息,所以不能一概而论认为皆是严格意义上的文本。
2.图片图片是学习者很容易接受的信息,一幅图画可以形象、生动、直观地表现大量的信息。
图片类型的素材包括图形和图像两种。
图形是指由外部轮廓线条和轮廓内部所构成的矢量图,是以数学方法描述的。
图像是由扫描仪、照相机等输入设备捕捉实际的画面产生的数字图像,由像素点阵构成。
常见的图形图像文件类型为.bmp,.jpg,.tif,.gif等。
.jpg和.tif是进行数据压缩的图片文件格式。
.gif文件可能是一个动画,如果是这样就不能认为是图片,这点也需要注意。
3.音频音频是记录声音的最直接形式。
音频包括音乐、语言语音和各种音响效果。
常见的音频文件类型为.wav,.mp3,.mid等。
4.动画动画是对事物运动、变化过程的模拟,可以用来模拟事物的变化运动过程。
常见的动画文件类型为.gif,.swf,.flv等。
5.视频视频是对现实世界真实所见的记录。
它的信息量比较大,使用得当会使得效果异常突出。
常见的视频文件类型为.wmv,.rm,.asf,.avi等。
知道了多媒体文件的这些类型,那么如何获取这些多媒体教学素材呢?二、文本素材的获取与处理文本素材的主要来源有计算机键盘输入,扫描文字图片再进行文字识别,从网络中复制保存等方式获取。
通常情况下,文本素材是根据教学需要自己从键盘输入的。
采集文本素材的方法嘿,朋友们!咱今儿就来唠唠采集文本素材这档子事儿。
你说这文本素材就像做菜的食材,没有好食材,咋能做出美味佳肴呢?咱先说说从书里找素材吧。
那书啊,可真是个宝库!古今中外,各种各样的知识、故事都在里面藏着呢。
你就像个探险家,在书的海洋里遨游,说不定啥时候就捞出个宝贝素材来。
读小说,感受那跌宕起伏的情节和丰富多彩的人物形象;看传记,了解那些伟大人物的传奇经历;翻史书,探寻历史的奥秘和真相。
这不就跟在果园里摘果子似的,挑那些又大又甜的摘呗!还有啊,互联网也是个超级大的素材库呢!那上面的信息多得呀,就像天上的星星数都数不过来。
各种新闻网站、博客、论坛,应有尽有。
你在上面能看到当下发生的热点事件,能听到不同人的观点和想法。
就好比你在一个超级大的集市上,啥稀奇古怪的玩意儿都有,就看你有没有那双慧眼去发现啦!不过可得注意哦,网上的信息也有真有假,咱得学会分辨,可别把那坏的素材也当宝贝捡回来咯。
再说说生活吧,这可是最直接的素材来源啦!你身边的人和事,每天发生的点点滴滴,那都是最真实、最生动的素材呀。
和朋友的一次聊天,路上看到的一个场景,甚至是自己的一段经历,都能变成宝贵的文本素材呢。
这不就跟你口袋里的零花钱似的,随时都能拿出来用。
比如你今天遇到了一件特别有趣的事儿,赶紧记下来呀,说不定哪天写文章的时候就能派上用场了。
还有呢,别忘了那些传统的媒体,像报纸、杂志啥的。
它们虽然没有网络那么快捷,但往往有着更深入的报道和更专业的观点。
你随手翻翻,也许就能发现一些被忽略的好素材呢。
那怎么采集这些素材呢?嘿,这可得有点小技巧啦!首先得有双善于发现的眼睛吧,别对身边的事儿视而不见呀。
看到有意思的就赶紧记下来,甭管是写在本子上还是记在手机里。
然后呢,还得有颗好奇的心,对啥都感兴趣,都想去了解了解。
这样才能发现更多别人发现不了的素材呀。
而且呀,还得学会整理这些素材,给它们分分类,找的时候才方便呢。
你想想看,要是没有丰富的文本素材,你写文章能写出啥花样来?那不是巧妇难为无米之炊嘛!所以啊,大家可得重视起来采集文本素材这事儿,别偷懒,多去搜罗搜罗。
第一节文本素材的采集与制作教学目标:掌握多媒体CAI课件中,文本素材的采集和制作方法教学重点:使用word进行文本素材的编辑教学难点:文本素材的艺术化编辑教学方法:讲授法、举例法课时安排:2课时讲授+2课时上机教学过程:导入:举例:多媒体CAI课件中各种文本元素授新:文本:数字格式的字符数据叫做“文本”一、文本的计算机处理与文件格式1、计算机中处理汉字的软件系统汉字操作系统:包括汉字信息输入输出管理软件、汉字信息处理软件、汉字字库等;汉字输入法:就是在汉字操作系统支持下,把汉字输入到计算机中所采用的方法,如全拼拼音输入法、简拼拼音输入法、双拼拼音输入法、五笔字型输入法、自然码输入法等;汉字编辑软件:用于对文本的编辑排版,如汉字处理之星Wordsfor(简称WS)、WordProcessing System(简称WPS)及Microsoft Word等。
汉字的显示:半角与全角字符显示2、文本文件的格式纯文本文件格式(*.txt)写字板文件格式(*.wri)Word 文件格式(*.doc )Rich Text Format文件格式(*.rtf)3、文本的制作方法利用通用文字处理软件制作:如利用文字处理软件WPS及Word等;利用多媒体开发工具直接制作:一般的多媒体开发工具均有文字制作工具;利用图像处理软件制作:如PhotoShop。
4、文本的制作注意事项选择适当的中文环境使用规范化的文字提高文字的总体表达效果课件字幕要良好的艺术性二、文本的艺术加工与编辑1、文本艺术字的制作专门的制作软件:CoreDraw、Photoshop、PhotoStyle用Office97/2000制作文本艺术字(演示操作)2、文本艺术字的编辑加工给文本艺术字加颜色(演示操作)修改文本艺术字的格式(演示操作)修改文本艺术字的形状(演示操作)文本艺术字的缩小与放大(演示操作)3、特殊符号的输入一些特殊符号:希腊语、拉丁语、箭头、数学运算符号、技术符号、几何图形符、制表符等等输入方法:“插入”菜单栏――“符号”/“特殊符号”项――选择符号――“插入”按钮返回第二节音频素材的采集与制作教学目标:掌握多媒体CAI课件中,音频素材的采集和制作方法教学重点:掌握采集音频素材的方法教学难点:音频素材的编辑教学方法:讲授法、举例法课时安排:2课时讲授+2课时上机教学过程:导入:举例:多媒体CAI课件中各种音频元素授新:一、多媒体CAI课件音频素材的种类及教学功能1. 多媒体CAI课件中音频素材的种类语音音效配乐2. 多媒体CAI课件音频信息的教学功能语音的教学功能语音:解说和旁白作用:承上启下、穿针引线音效的教学功能音效:心跳、呼吸音、金属撞击声等作用:表现真实感和增强气氛;扩大画面的表现力;增强画面的层次感和空间感音乐的教学功能音乐:乐音作用:深化教学主题,烘托气氛,渲染主题,转换时空二、音频信息的数字化处理及文件格式1. 音频信息的数字化处理原理(1)音频的数字化过程采样:对连续的声音信号进行采样,叫“取样”,就是每隔一段时间间隔读一次声音的幅度。
第二讲文本素材的采集与处理
本讲目标:
1.明确文本素材的五种获取方法。
2.掌握扫描仪的使用方法,会用扫描仪获取大量文本,并能利用文字识别软件对获取的文本进行修改编辑。
重点:获取文本素材的方法。
难点:大量文本的采集—扫描仪扫描文字识别法。
一、五种文本素材的获取方法
文本素材的获取有直接获取与间接获取两种方式,直接获取是指通过多媒体教学制作工具软件的文字工具或在文字编辑处理软件中用键盘直接输入或复制,一般在文本内容不多的场合下使用该方式。
间接获取是指用扫描仪或其他输入设备输入文本素材,常用于大量文本的获取。
文本素材的获取方法如下:
(1)键盘输入方法
键盘输入方法是文本输入的主要方法,使用计算机输入汉字,需要对汉字进行编码,根据汉字的某种规律将汉字用数字或英文字符编码,然后由计算机键盘输入。
汉字有音、形、义三个要素,根据汉字读音的编码叫音码,根据汉字字形的编码叫形码,兼顾汉字读音和字形的编码叫音形码或形音码。
在常用的多媒体教学制作软件中,都带有文字工具,在文本内容不多的情况下,可以直接输入文字,对输入的文字可进行直接编辑处理。
(2)手写输入方法
使用“输入笔”设备,在写字板上书写文字,来完成文本输入,利用手写输入法获取文本的方式,类似于平时我们在纸上写字,但对在写字板上书写的文字要经选择。
手写输入方法使用的输入笔有两种:一种是与写字板相连的有线笔,另一种是无线笔。
无线笔携带和使用均很方便,是手写输入笔的发展方向。
写字板也有两种,一种是电阻式,另一种是感应式。
(3)语音输入方法
将要输入的文字内容用规范的语音朗读出来,通过麦克风等输入设备送到计算机中,计算机的语音识别系统对语音进行识别,将语音转换为相应的文字,完成文字的输入。
语音输入方法目前开始使用,但识别率还不是很高,对发音的准确性要求比较高。
(4)扫描仪输入法
将印刷品中的文字以图像的方式扫描到计算机中,再用光学识别器(OCR)软件将图像中的文字识别出来,并转换为文本格式的文件。
目前,OCR的英文识别率可达90%以上,中文识别率可达85%以上。
(5)从互联网上获取文本
从互联网上可以搜索到许多有用的文本素材,在不侵犯版权的情况下,可以从互联网上获取有用的文字。
从互联网的html页面上获取部分文本的方法是:首先拖动鼠标选取有用的文本,或单击鼠标右键,在弹出的快捷菜单中,选择“全选”命令,将整个页面上文字全部选中,然后选择“复制”命令,打开文字处理软件(如Word),选择“编辑”/“粘贴”命令,就可以将复制的文字在文字处理软件中进行编辑处理了。
如果将互联网上其他格式的文本文件(如:.pdf,.caj)格式的文件进行保存,然后使用部分有用文本,常用的方法是:选择“文件”菜单中的“另存为”命令,将文本文件进行保存,
然后在打开的阅读器中,选择工具栏上的“文字选择工具”选取文字后,选择“复制”
命令,然后在文字处理软件中选择“粘贴”命令。
(注意:对有些.pdf,.caj格式的文件,处于版权的考虑,不允许选取复制)
对于大量印刷品中的文本素材,常用扫描仪以图像方式扫描到计算机中,再通过文字识别软件,将文字图像进行版面分析,文字识别后转化成文本文件,对识别不正确的文本进行编辑修改。
下面具体介绍用扫描仪扫描文字的方法。
二、扫描仪的主要性能指标与使用方法
扫描仪是一种光电一体化的计算机输入设备,有手持式(价格便宜、携带方便、但精度低、使用不便,目前较少使用)、平板式(目前使用较普遍)和滚筒式(可扫描较大的画面,主要用于工程设计)。
1.扫描仪的主要性能指标
(1)分辨率。
分辨率是指扫描时每英寸获取的像素点数,单位为像素/秒。
它分为水平分辨率和垂直分辨率。
分辨率越高,扫描出的图像越清晰,但生成的文件也
越大。
常见的扫描仪分辨率为600*1200和1200*2400。
(2)灰度等级。
扫描时,对图像的亮度从最黑到最白进行划分的等级用灰度等级表示。
级数越高,图像的亮度变化范围越大,图像的层次越丰富。
目前,扫描仪
的灰度等级有8bit(有28 =256个灰度等级)、10bit(有210=1024个灰度等级)
和12bit(有212=4096个灰度等级)等。
(3)色彩数量。
用来表示扫描仪在扫描时可以识别的最大色彩数目。
通常用每个像素点颜色的位数来表示。
如:24位可描述的色彩个数最多为224=1677216。
色
彩数量越大,图像色彩越丰富,但生成的文件相对也越大。
目前扫描仪的色彩
数量大多在32位以上。
(4)扫描速度。
扫描速度指扫描一个文件时间的长短,主要决定于扫描仪的接口模式、扫描仪步进电机的速率和扫描仪设定的分辨率。
分辨率越高,扫描速度越
慢。
一幅A4幅面、300像素/秒分辨率的图像,大约需要扫描30—60秒。
(5)扫描幅面。
它是扫描仪可以扫描的画面的最大尺寸。
常见的扫描仪的扫描幅面有A4、A4加长和A3等。
2.扫描仪的使用方法
下面以MiraScan为例,介绍用扫描仪扫描文字图像和将文字图像转换为文本文件
的方法。
(1)按照扫描仪的说明书,将扫描仪和计算机连接好,并安装相应的软件和图像编辑软件(如照片编辑器、Ulead PhotoImpact 或Phtoshop等)。
然后接通扫描仪的电源,运行图像编辑软件。
(2)打开扫描仪的上盖,将要扫描的图像正面朝下放入扫描仪中,并将图像的位置放正,合上盖子。
(3)启动扫描仪运行程序后,单击“文件”/“扫描图像”菜单命令,调出“MiraScan”对话框。
然后,对扫描图像的参数进行设置,如设置扫描模式为“彩色”、
扫描来源为“反射稿”、图像解析度为“72”,然后选择“去网花”等。
(4)单击“PreScan”(预扫)按钮,进行预扫,预览扫描范围是否得当。
若不得当,进一步进行调整图像的位置或设置参数。
(5)单击“Scan”按钮开始扫描,出现扫描进度提示,此时扫描仪的指示灯不断闪烁。
(6)扫描完成后,单击“结束”按钮,然后保存图像即可。
3.对扫描的文字图像进行识别
用扫描仪扫描的文字图像,不能对个别文字进行编辑修改,在教学中,需要利用文字识别软件,将文字图像进行识别,将图像格式转化成文本格式,常见的文字识别软件有很多,主要功能基本相同,在此以ScanMaker 4850ii随机附送的尚书七号为例,介绍用文字识别软件对扫描仪扫描的文字图像进行识别的正确使用方法。
用尚书七号对文字图像识别转化的过程,利用其主菜单:“文件”、“编辑”、“识别”、“输出”可以很方便地完成。
具体步骤为:
步骤1:获取文字图像文件。
选择“文件”菜单下的“扫描”或“打开图像”(将已经扫描好的图像文件打开)命令,打开图像文件。
如果连接了多台扫描仪,可以选择“文件”菜单下的“选择扫描仪”命令,调用扫描仪。
步骤2:对扫描的图像页进行调整
选择“编辑”菜单下“图像页面的处理”子菜单下的“图像页的倾斜校正”(提供自动和手动实现方法)及“旋转”等命令,将扫描的图像页进行调整。
步骤3:版面分析与文字识别转化
版面分析,选择识别范围,在进行文字识别前要选择识别范围,识别过程的核心是“版面分析”。
尚书七号的自动版面分析功能很强,对报纸杂志等复杂的版面,也能保持很高的分析正确率。
设置好后,直接点击“开始识别”的按钮就可以进行文字识别了。
步骤4:校对修改
自动识别完毕,识别结果的“文本窗口”会弹出,这个窗口能够提供识别结果的校对,为了校对方便,尚书七号增加了光标跟随显示原图像行的校对方法(如图3出现的黄色提示行的出现)。
提供的校对方法,一眼就能够看到图像原文和识别出文本的差别,如果发现识别有误,可以进行修改。
步骤5:输出
如果检查修改后确认无误,选择识别结果的“输出”菜单,输出的文件格式有:RTF、HTML、XLS、TXT,可以根据自己的需要选择对应的格式。
如果用户想得到类似原文的识别结果,请选择RTF格式。
把RTF格式输出的文件用WORD打开后,会发现几乎保留了原文的所有痕迹,包括原来页面中的彩色图像,都已经保留在WORD 中了。