文本素材处理word版
- 格式:doc
- 大小:1.56 MB
- 文档页数:23
温州资金
3: 最近温州人外流、外迁现象呈上升趋势。
调查显示,温州的外迁企业有名有姓的就有1000多家。
其中包括一些大企业,如著名的均瑶集团等就已经把总部迁到了上海市。
到目前,整体外迁的企业就有250家左右。
5: 因此,保守估计,温州实际的民间资金应该是上述数字的1.5至2.5倍左右,即在1500亿元以上。
一向追捧“以钱生钱”的温州人,现在为这庞大的资金深感头疼。
1: 这些跨地区投资经营的温州人,在全中国开办了4万多家公司。
2001年在外温州工业企业平均产值为700万元,其中上规模工业企业平均产值为3606万元。
而产值超过亿元的企业有近百家,超千万元的有3万多家。
⑴页面纸张大小为B5(18.2厘米宽×25.7厘米高),上下页边距均为2.8
厘米,左右页边距均为2.5厘米,并在左边预留0.9厘米的装订线位置;⑵将考试文件夹中的InsN.TXT文件内容插入到本文档中,然后按段落编号从小到大排列各段落;⑶标题格式:黑体、小二号、加双波浪线下划线,水平居中;⑷在页面顶端(页眉)左侧插入页码,起始页码为d。
1、打开文件(3-模拟操作题模拟练习的题目2-素材文字处理素材1 e x a m 1 . d o c x ),并按照下列要求进行排版。
(1)将标题字体设置为“华文行楷”,字形设置为“常规”,字号设置为“小初”且居中显示。
(2)将“——陶渊明”的字体设置为“隶书”、字号设置为“小三”,文字右对齐加双曲线边框,线型宽度应用系统默认值显示。
(3)将正文行距设置为25 磅。
操作完成后以原文件名保存。
2、打开文件(3-模拟操作题模拟练习的题目\2-素材文字处理素材\2\exam2.docx),并按照下列要求进行排版。
(1)设置第一段首字下沉。
(2)将第一段(除首字)字体设置为“楷体”,字号设置为“四号”。
(3)将第二段字体设置为“方正舒体”,字号设置为“小四号”,加双横线下划线。
3、打开文件(3-模拟操作题模拟练习的题目\2-素材文字处理素材\3\exam3.docx),并按照下列要求进行排版。
(1)将标题“闲情赋”字体设置为“幼圆”,字号设置为“小二”,居中显示。
(2)将“序——”和“正文——”,字体设置为“隶书”,字号设置为“小四号”,添加项目符号“ ”。
(3)将“序”的正文“左缩进”设置为“ 2 字符”,“行距”设置为“ 17磅”。
操作完成后以原文件名保存。
4、打开文件(3-模拟操作题模拟练习的题目\2-素材文字处理素材\4\exam4.docx),并按照下列要求进行排版。
(1)将正文字体设置为“隶书”,字号设置为“四号”。
(2)将正文内容分成偏左的两栏。
设置首字下沉,将首字字体设置为“华文行楷”,下沉行数为“ 3”。
(3)插入一幅剪贴画,将环绕方式设置为“紧密型”。
操作完成后以原文件名保存。
5、打开文件(3-模拟操作题模拟练习的题目\2-素材文字处理素材\5\exam5.docx),并按照下列要求进行排版。
(1)将标题段(“上网方式比较”)设置为小二号、蓝色、外部阴影(向右偏移)、黑体、倾斜、居中、字符间距加宽2 磅,并为文字添加黄色边框。
第3章字处理软件Word 2010实验一Word 2010文档的基本操作一、实验目的及实验任务1.实验目的(1)掌握Word文档的建立、保存与打开方法:(2)掌握Word文本内容的选定方法,文本的复制、移动和删除方法;(3)掌握文本的查找与替换方法,包括高级查找与替换;(4)掌握撤销与和恢复的操作方法及自动更正功能的使用方法;(5)掌握拼写和语法检查功能的使用方法。
2. 实验任务根据提供的实验素材,练习Word文档的基本操作。
二、实验所需素材下载素材文件:实验素材\第3章\实验一\在路上.docx。
三、实验操作过程1.启动Word20102.打开文档3.复制文本4.新建文档5.粘贴文本6.保持文档7.用不同视图方式查看文档8.查找与替换9.自动更正10.拼写和语法检查四、实验分析及知识拓展实验二文档格式化与排版一、实验目的及实验任务1.实验目的(1)掌握字符、段落格式的设置方法;(2)了解分栏与首字下沉的操作;(3)掌握样式、项目符号、编号、边框和底纹、页眉与页脚的使设置操作。
2.实验任务根据提供的实验素材进行文档的格式化、应用样式、项目符号和编号设置、分栏、首字下沉、边框和底纹、页眉和页脚的操作。
二、实验所需素材下载素材文件:实验素材\第3章\实验二\祖国述怀.docx。
三、实验操作过程打开实验素材中的“祖国述怀.docx”,按要求操作,结果以原文件名保存。
1.字符格式的设置要求:设置标题为华文隶书、二号,文本效果为第3行第4列的效果,居中显示;将“国述”两个字的间距加宽5磅,位置提升10磅;把第一段落设置为首字下沉两行。
2.段落格式的设置要求:将文中所有段落的段前间距设置为0.5行,首行缩进2个字符。
3.项目符号的设置要求:给第二段和第三段添加项目符号“◆”,字体为红色、16号。
4.分栏与边框和底纹的设置要求:将文中第7段分为三栏,栏宽相等,有分隔线;给第2段添加“橙色,强调文字颜色6,深色25%,0.5磅”的阴影边框;给文章第3段添加“橙色,强调文字颜色6,深色25%”填充色和“样式20%、自动颜色”的底纹。
Word排版练习素材在日常办公和学习中,我们经常需要使用Microsoft Word进行文档排版。
而掌握一些优秀的排版技巧不仅可以提高我们的工作效率,还可以让我们的文档更加美观、清晰。
本文将为大家提供一些Word排版练习素材,供大家练习和借鉴。
1. 为什么需要练习Word排版?在实际应用中,很多人只会简单地使用Word进行文字录入和基础格式设置,而忽视了Word强大的排版功能。
良好的排版不仅可以增强文档的可读性,还可以提升专业形象。
因此,通过练习Word排版,我们可以学习和掌握更多的技巧,为将来的工作和学习提供更多选择。
2. 如何练习Word排版?2.1 文字格式设置文字格式设置是Word排版的基础,包括字体、字号、对齐方式等。
可以尝试练习以下内容:•调整字体和字号,选择最适合的样式;•使用加粗、斜体、下划线等效果突出重点;•调整段落对齐方式,如居中、左对齐、右对齐等。
2.2 段落样式设置段落样式是Word排版的重要组成部分,可以使文档更有层次感。
可以练习以下内容:•设置标题级别,使用不同的标题级别进行文档结构设置;•调整段前段后距离,使段落看起来更加整洁;•使用编号或项目符号,为文本添加序号列表或项目符号列表。
2.3 表格制作表格在排版中经常会用到,可以用来整理数据或者显示信息。
可以练习以下内容:•创建表格,选择合适的行列数目;•调整表格宽度和列宽,使表格排版更加美观;•合并拆分单元格,便于进行跨行或跨列的布局。
2.4 图片插入在一些文档中,插入图片可以增加信息表达的形象性。
可以尝试练习以下内容:•插入图片,并调整图片的大小和位置;•设置图片的文字环绕方式,使得文字和图片的排版更加协调。
3. 注意事项在练习Word排版的过程中,需要注意以下事项:•选择适合的字体和字号,确保文字清晰易读;•不要过度使用特效和装饰,保持文档整洁;•注意段落的层次结构,避免出现重复或混乱的标题;•保持一致的风格,例如标题的字体和颜色统一。
第二讲文本素材的采集与处理本讲目标:1.明确文本素材的五种获取方法。
2.掌握扫描仪的使用方法,会用扫描仪获取大量文本,并能利用文字识别软件对获取的文本进行修改编辑。
重点:获取文本素材的方法。
难点:大量文本的采集—扫描仪扫描文字识别法。
一、五种文本素材的获取方法文本素材的获取有直接获取与间接获取两种方式,直接获取是指通过多媒体教学制作工具软件的文字工具或在文字编辑处理软件中用键盘直接输入或复制,一般在文本内容不多的场合下使用该方式。
间接获取是指用扫描仪或其他输入设备输入文本素材,常用于大量文本的获取。
文本素材的获取方法如下:(1)键盘输入方法键盘输入方法是文本输入的主要方法,使用计算机输入汉字,需要对汉字进行编码,根据汉字的某种规律将汉字用数字或英文字符编码,然后由计算机键盘输入。
汉字有音、形、义三个要素,根据汉字读音的编码叫音码,根据汉字字形的编码叫形码,兼顾汉字读音和字形的编码叫音形码或形音码。
在常用的多媒体教学制作软件中,都带有文字工具,在文本内容不多的情况下,可以直接输入文字,对输入的文字可进行直接编辑处理。
(2)手写输入方法使用“输入笔”设备,在写字板上书写文字,来完成文本输入。
利用手写输入法获取文本的方式,类似于平时我们在纸上写字,但对在写字板上书写的文字要经选择。
手写输入方法使用的输入笔有两种:一种是与写字板相连的有线笔,另一种是无线笔。
无线笔携带和使用均很方便,是手写输入笔的发展方向。
写字板也有两种,一种是电阻式,另一种是感应式。
(3)语音输入方法将要输入的文字内容用规范的语音朗读出来,通过麦克风等输入设备送到计算机中,计算机的语音识别系统对语音进行识别,将语音转换为相应的文字,完成文字的输入。
语音输入方法目前开始使用,但识别率还不是很高,对发音的准确性要求比较高。
(4)扫描仪输入法将印刷品中的文字以图像的方式扫描到计算机中,再用光学识别器(OCR)软件将图像中的文字识别出来,并转换为文本格式的文件。
计算机文本素材的获取和编辑方法作者:丁小峰王长丰来源:《理财·经论版》 2015年第7期丁小峰①王长丰②文本是文字、字母、数字和各种功能符号的集合。
在现实生活中,人们对事情的讲述、逻辑的推理、数学公式的表述等都主要用文字和数字来准确地表达。
一、文本的特点和作用文本指的是在计算机中运用文本编辑软件编写的,并以文本格式存储的文字信息。
文本是计算机办公自动化和多媒体应用中最重要的媒体元素之一,并且具有丰富的表现形式,如文字叙述、图形图像的文字注释、提问与解答、片头片尾的字幕等。
与其他媒体相比,文本素材具有以下特点:编码形式简单;容易处理、占用存储空间最少、最方便利用计算机输入和存储;处理和传输容易;文本传播信息时最为准确、有效;通过字体、字形、颜色等格式改变可以使表现形式丰富多样;可以配合其他媒体的应用提高作品表现力;很方便建立超文本链接功能。
鉴于以上特点,办公自动化和多媒体应用中行文、表述、标题、菜单、按钮、导航、超链接等方面往往都用到文本信息。
在多媒体应用系统中,虽然有图形、声音、视频影像等多种媒体形式,但是对于一些复杂而抽象的事件,文本表达却有它不可替代的独到之处。
二、文本素材的常见存储格式目前流行的文字处理软件种类很多,不同的软件生成的文件格式各不相同。
当使用不同的文本编辑软件编辑文本时,系统通常会采用默认的文本文件格式来保存文档。
在Windows 系统平台下,使用文字素材时应尽可能采用Windows平台上的文字处理软件,选用文字素材文件格式时要考虑开发工具是否能识别这些格式,以避免准备的文字素材无法插入到开发工具软件中。
常见的文字素材格式主要有:TXT 格式:文件扩展名是“.txt”,是纯ASCII 码文本文件。
纯文本文件除了换行、回车、文字大小、字体外,没有颜色、位置、间距和更多的其他格式化信息,是Windows 系统的“记事本”中默认的文本存储格式。
WRI 格式:文件扩展名是“.wri”,是Windows 系统下的写字板应用程序默认支持的文件格式。
Word2010新功能第一章引言无论您是一个Word专家还是新手,您都会对Microsoft® Word 2010能给您带来什么新功能进行了解,并且看到这些功能如何发挥作用。
您是否希望以更简单的方式创建更美观的文档来帮助您凸显重要内容?当您用文档与他人协作时,是否需要又快又简单的工作手段?您想不想当您方便时而不依赖于电脑就能访问、编辑文档?新增与改进的文档格式化和文档管理工具,比以往更容易创建令人难以置信的内容。
基于文档的协作无需轮番等待。
另外,不管最好的创意何时涌现,您都可以将其记录在案并重复使用。
欢迎使用 Word 2010—迄今为止最强大、最直观产品发行版。
第二章快速入门一、将您的想法付诸实践当今的文档种类,从简单的信件到表单,再到复杂的报表和需要专业印刷机构印刷的文件。
但是,它们都有一个共同的特点——各种文件都代表了您的想法。
而您一定不希望它们仅仅只是纸上的刻板文字。
Word 2010 给您提供了用于创建专业而优雅的文档的工具,帮助您更高效的表达自己的想法。
二、在恰当的时机轻松获得恰当的工具新增和改进的功能帮您提高工作效率,但前提是需要时可以马上找到。
幸运的是,Word 2010 强大的自定义功能区,可以更轻松的发现更多的命令,以便您可以专注于最终产品而不是实现过程。
想用更短的时间来确认您工作的文档已经完成并准备好公共消耗?想通过更快、更直接的路径打印一些东西?或者需要一个更快的方法共享文档?新增的Microsoft Office Backstage™ 视图能帮您全部实现甚至更多。
您现在可以更加轻松的打印、共享、管理文件,并且自定义您的Word 2010 用户体验,所有一切都来自一个便捷的地方。
三、让您的文字跃然于纸上高效的文档设计帮助您传达重要的信息。
当您想让文字像想象的一样强大时, Word 2010 提供了灵活、易于使用的工具,给文字赋予新的生命。
应用令人印象深刻的文字效果—例如渐变填充和反射—对文档中的文字直接应用艺术字效果,就像应用加粗或下划线一样简单。
Word素材排版举例【例3-11 】:将以下素材按要求排版。
(1)、将标题字体设置为“华文行楷”,字形设置为“常规”,字号设置为“小初”、选定“效果”为“空心字”且居中显示。
(2)、将“陶渊明”的字体设置为“隶书”、字号设置为“小三”,文字右对齐加双曲线边框,线型宽度应用系统默认值显示。
(3)将正文行距设置为25磅。
【素材】:归去宋辞——陶渊明归去来兮!田园将芜胡不归?既自以心为形役,奚惆怅而独悲?悟已往之不谏,知来者之可追;实迷途其未远,觉今是而昨非。
舟摇摇以轻殇,风飘飘而吹衣。
问征夫以前路,恨晨光之熹微。
乃瞻衡宇,栽欣载奔。
童仆欢迎,稚子候门。
三径就荒,松菊犹存。
携幼入室,有酒盈樽。
引壶觞以自酌,眇庭柯以怡颜。
倚南窗以寄傲,审容膝之易安。
园日涉以成趣,门虽设而常关。
策扶老以流憩,时翘首而遐观。
云无心以出岫,鸟倦飞而知还。
暑翳翳以将入,抚孤松而盘桓。
【例3-12 】将以下素材按要求排版。
(1)设置第一段首字下沉。
(2)将第一段(除首字)字体设置为“宋体”,字号设置为“五号”。
(3)将第二段字体设置为“方正舒体”,字号设置为“四号”,加双横线下划线。
【素材】归去来兮,请息交以绝游。
世与我而相遗,复驾言兮焉求?悦亲戚之情话,乐琴书以消忧。
农人告余以春兮,将有事乎西畴。
或命巾车,或棹孤舟。
既窈窕以寻壑,亦崎岖而经丘。
木欣欣以向荣,泉涓涓而始流。
羡万物之得时,感吾生之行休。
己矣乎!寓形宇内复几时?何不委心任去留?胡为惶惶欲何之?富贵非吾愿,帝乡不可期。
怀.良辰以孤往,或执杖而耘耔。
登东坳以舒啸,临清流而赋诗。
聊乘化以归尽,采夫天命复奚疑?【例3-13 】将以下素材按要求排版。
(1)将标题“闲情赋”字体设置为“幼圆”,字号设置为“小二”,居中显示。
(2)将“序——”和“正文——”,字体设置为“宋体”,字号设置为“五号”,添加项目符号“?”。
(3)将“序”的正文“左缩进”设置为“2字符”,“行距”设置为“17磅”。
《大学计算机基础》实验报告班级物联网1411 学号141003320115 姓名祁辉实验2:文字处理Word 2010一、实验目的掌握字处理软件中文Word 2010文本编辑的基本方法二、实验要求1.掌握Word文档中字体、段落、分栏等设置操作;2.掌握方法表格的插入、编辑以及与文本之间的转换等操作;3.掌握艺术字的编辑、图片的插入、图文混排、文字替换等的操作方法;4.掌握公式编辑和文本框、图形编辑、页眉页脚设置、文档页面设置的方法。
三、实验环境操作系统:Windows 7中文版字处理软件:Word 2010中文版四、实验内容及过程(过程以截图和文字方式说明)1. 打开\实验素材\flx1.docx按要求操作,结果以原文件名保存。
(1)将文章中除标题以外的所有“中国”及其后任一字符格式设置为“隶书、加粗、红色、20号、突出显示”上海世博会中国国家馆中国馆共分为国家馆和地区馆两部分,国家馆主体造型雄浑有力,宛如华冠高耸,天下粮仓;地区馆平台基座汇聚人流,寓意社泽神州,富庶四方。
国家馆和地区馆的整体布局,隐喻天地交泰、万物咸亨。
国家馆居中升起、层叠出挑,采用极富中国建筑文化元素的红色“斗冠”造型,建筑面积46457平方米,高69米,由地下一层、地上六层组成;地区馆高13米,由地下一层、地上一层组成,外墙表面覆以“叠篆文字”,呈水平展开之势,形成建筑物稳定的基座,构造城市公共活动空间。
观众首先将乘电梯到达国家馆屋顶,即酷似九宫格的观景平台,将浦江两岸美景尽收眼底。
然后,观众可以自上而下,通过环形步道参观49米、41米、33米三层展区。
而在地区馆中,观众在参观完地区馆内部31个省、市、自治区的展厅后,可以登上屋顶平台,欣赏屋顶花园。
游览完地区馆以后,观众不需要再下楼,可以从与屋顶花园相连的高架步道离开中国馆。
为了均衡客流,世博会期间中国馆将实行“全预约”参观,预约点设在展览现场各出入口。
第一展区:探寻“东方足迹”。
请在[答题]菜单下选择[进入考生文件夹]命令,并按照题目要求完成下面的操作。
注意:以下的文件必须保存在考生文件夹下。
在考生文件夹下打开文档WORD. DOCX。
某高校学生会计划举办一场"大学生网络创业交流会"的活动,拟邀请部分专家和老师给在校学生进行演讲。
因此,校学生会外联部需制作一批邀请函,并分别递送给相关的专家和老师。
请按如下要求,完成邀请函的制作。
(1) 调整文档版面,要求页面高度18厘米、宽度30厘米,页边距(上、下)为2厘米,页边距(左、右)为3厘米。
(2) 将考生文件夹下的图片"背景图片. jpg"设置为邀请函背景。
(3) 调整邀请函中内容文字段落对齐方式。
(4) 根据"Word -邀请函参考样式. Docx"文件,调整邀请函中内容文字的字体、字号和颜色。
(5) 据页面布局需要,调整邀请函中"大学生网络创业交流会"和"邀请函"两个段落的间距。
(6) 在"尊敬的"和"(老师)"文字之间,插入拟邀请的专家和老师姓名,拟邀请的专家和老师姓名在考生文件夹下的"通讯录.xlsx"文件中。
每页邀请函中只能包含l位专家或老师的姓名,所有的邀请函页面请另外保存在一个名为"word-邀请函. docx"文件中。
(7) 邀请函文档制作完成后,请保存"Word. Docx"文件。
请在[答题]菜单下选择[进入考生文件夹]命令,并按照题目要求完成下面的操作。
注意:以下的文件必须保存在考生文件夹下。
在考生文件夹下打开文档word.docx,按照要求完成下列操作并以该文件名(WORD. DOCX)保存文件。
按照参考样式"word参考样式.Jpg"完成设置和制作。
具体要求如下:(1) 设置页边距为上下左右各2.7厘米,装订线在左侧;设置文字水印页面背景,文字为"中国互联网信息中心",水印版式为斜式。
Word2010新功能第一章引言无论您是一个Word专家还是新手,您都会对Microsoft® Word 2010能给您带来什么新功能进行了解,并且看到这些功能如何发挥作用。
您是否希望以更简单的方式创建更美观的文档来帮助您凸显重要内容?当您用文档与他人协作时,是否需要又快又简单的工作手段?您想不想当您方便时而不依赖于电脑就能访问、编辑文档?新增与改进的文档格式化和文档管理工具,比以往更容易创建令人难以置信的内容。
基于文档的协作无需轮番等待。
另外,不管最好的创意何时涌现,您都可以将其记录在案并重复使用。
欢迎使用 Word 2010—迄今为止最强大、最直观产品发行版。
第二章快速入门一、将您的想法付诸实践当今的文档种类,从简单的信件到表单,再到复杂的报表和需要专业印刷机构印刷的文件。
但是,它们都有一个共同的特点——各种文件都代表了您的想法。
而您一定不希望它们仅仅只是纸上的刻板文字。
Word 2010 给您提供了用于创建专业而优雅的文档的工具,帮助您更高效的表达自己的想法。
二、在恰当的时机轻松获得恰当的工具新增和改进的功能帮您提高工作效率,但前提是需要时可以马上找到。
幸运的是,Word 2010 强大的自定义功能区,可以更轻松的发现更多的命令,以便您可以专注于最终产品而不是实现过程。
想用更短的时间来确认您工作的文档已经完成并准备好公共消耗?想通过更快、更直接的路径打印一些东西?或者需要一个更快的方法共享文档?新增的Microsoft Office Backstage™ 视图能帮您全部实现甚至更多。
您现在可以更加轻松的打印、共享、管理文件,并且自定义您的Word 2010 用户体验,所有一切都来自一个便捷的地方。
三、让您的文字跃然于纸上高效的文档设计帮助您传达重要的信息。
当您想让文字像想象的一样强大时, Word 2010 提供了灵活、易于使用的工具,给文字赋予新的生命。
应用令人印象深刻的文字效果—例如渐变填充和反射—对文档中的文字直接应用艺术字效果,就像应用加粗或下划线一样简单。
第2章 Word文字编辑2.1 Word基本操作[实验目的]●掌握文档的建立、打开和保存●掌握文本的选定、剪切、复制和粘贴●掌握文本的查找和替换●掌握插入批注、给文档添加修订标记[实验内容及案例]一、建立与保存文本1.实验内容(1)输入“word案例1素材”中文字,分别在“位”、“字节”、“字”三个名词定义前分别插入特殊符号①、②、③。
以“WORD案例1”为名保存在学号文件夹下。
(2)关闭文档窗口,再打开“WORD案例1”文件,将其以“WORD案例1备份”名字另存在学号文件夹下。
word案例1素材:二、文本的选定、移动和复制1.实验内容(1)打开“学号”文件夹下“WORD案例1”,将第二段“内存储器的主要性能指标就是存储容量和读取速度。
”移动到最后,作为最后一段。
(2)将第二段中“现在我们介绍一下各种单位:”中“我们”两字删除。
最后按原名保存。
三、文本的查找和替换1.实验内容(1)打开“学号”文件夹下“WORD案例1”,用替换方法将“字节”两字字体设置成“红色”。
(2)用替换方式将冒号前“字节”两字颜色设置成黑色。
(3)查找颜色为黑色的“字节”两个字。
四、插入批注与文档修订1.实验内容(1)打开“学号”文件夹下“WORD案例1”,给第一段标题“存储器概念”插入批注“这是标题”。
(2)设置修订属性,将插入内容设置为红色,并且加下划线,设置对所有修改增加修订标记,删除第一段中“我们知道,”,在标题文字“存储器”后插入“的”字。
(3)设置显示“标记的最终状态”、设置显示文档的“最终状态”。
2.2 Word文档的排版[实验目的]●掌握字符格式的设置●掌握段落格式设置●掌握分栏、首字下沉的设置●掌握页眉、页脚的设置、添加项目符号●掌握页面设置和打印[实验内容及案例]一、字符格式设置1.实验内容(1)打开“学号”文件夹下文件“WORD案例2”,设置第一段标题“打开文档”字体为“四号”、加粗、阴影格式,设置字符间距加宽1磅,设置文字效果为“礼花绽放”。
Word排版素材_长文档草稿一、绪论...................................................................... (II)(一) 课题的背景和意义...................................................................... (II)1( 研究的背景...................................................................... . (II)2( 研究的目的和意义....................................................................... II (二) 国内外研究现状...................................................................... (IV)1( 主题图和主题图融合研究现状 (IV)2( 词汇相似性度量研究现状 (V)3( 句子相似性度量研究现状.......................................................... VI (三) 本文的研究content ................................................................ . (VIII)1( 研究content ................................................................ .. (VIII)2( 研究方法及技术路线 (VIII)(四) 扩展主题图的融合...................................................................... (X)1( 扩展主题图融合定义及原则 (X)2( 扩展主题图融合过程 (XII)(五) 语义冲突...................................................................... (XIII)1( 语义异构的原因 (XIII)( 语义冲突的定义及类型........................................................... XIV 2(六) 语义相似度在扩展主题图融合中的使用 (XVII)1( 简单文本分类的应用 (XVII)2( 扩展主题图融合中的文本分类技术应用 (XVIII)3( 主题融合与词语语义相似度 (XXI)4( 知识元融合与句子语义相似度 (XXII)(七) 本章小结...................................................................... (XXIV)I一、绪论(一)课题的背景和意义1(研究的背景本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。
第2章文本素材处理学习指南:本章介绍文本素材采集、编辑、加工处理的有关知识。
主要内容有:文本素材的基础知识,文本素材的采集与处理方法,文本素材创作实例。
学习本章,要求掌握以下知识:掌握文本在计算机中的表示方法,了解文本素材的主要特点;熟悉常见的文本文件的格式,并能正确地选择文本文件的存储格式;了解常用的文本素材采集方式,熟悉扫描仪+OCR文字识别输入方法;了解常用的文字处理软件,掌握Word文字处理的方法;会用相关的文字处理软件制作多媒体作品中需要的文本素材。
在多媒体作品中,文本是最基本也是最常用的素材。
一些说明、介绍、作品中的文字资料都会用到文本,作为多媒体系统的组成元素,它和其它素材同样重要。
文本素材处理包含文本的采集、录入、编辑等加工处理,本章将介绍文本素材处理的相关知识。
2.1 文本素材概述文本是人们早已熟知的信息表示方式,如一篇文章、一段程序、一个文件都可用文本描述。
它通常以字、句子、段落、节、章为单位,记录自然现象、表述思想感情、传达某种信息。
人们在阅读时,通常是一字一句、一行一页顺序地浏览。
文本是文字、字母、数字和各种功能符号的集合。
在现实生活中,人们对事情的讲述、逻辑的推理、数学公式的表述等都主要用文字和数字来准确的表达。
在多媒体应用系统中,虽然有图形、声音、视频影像等多种媒体形式,但是对于一些复杂而抽象的事件,文本表达却有它不可替代的独到之处。
2.1.2 文本素材基础知识在多媒体应用系统中,文本作为重要的基本素材而被广泛应用,它具有信息表达清楚、计算机处理方便、存储容易、传输快捷等优势。
具体来说:(1)编码形式简单在计算机中,西文字符最常用的编码是ASCII码,即American Standard Code For Information Interchange(美国信息交换标准代码)。
它用7位二进制数进行编码,可以表示27即 128个字符,其中包括数字字符0~9、大小写英文字符、运算符号、标点符号、标识符号和一些控制符号。
这些字符种类大致能够满足各种计算机语言、西方文字、常见命令的需要。
一个ASCII码字符在内存中占一个字节。
汉字字符在计算机中也是以编码形式处理的,汉字输入用输入编码,汉字存储用机内码,汉字输出用字型码。
在计算机中存储时,一个汉字占2个字节。
(2)易于获取,存储、处理和传输容易多媒体计算机系统中,文本资料可以用多种方式获取,可采用多种输入编码录入,还可以用光电技术或语音识别技术输入。
如果用键盘输入文字,对于一个熟练的文字录入员来说,每分钟可以输入上百个汉字,用光电扫描和语音识别录入,其录入和处理速度更加快捷。
西文字符和汉字在计算机中都是以一个或两个字节的二进制编码表示,占用的空间很小,处理和存储都非常方便,所生成的文本格式文件也很小,一篇十万字的纯中文文本仅占200k左右的空间,移动和传输都很容易。
(3)在多媒体作品中的表现形式丰富为了使文字在多媒体作品中更加美观生动,常将作品中的文字处理成多姿多彩的艺术形式。
各种文字处理软件都具有较强的处理功能,能将文本设置成多种多样的形式,通过对文本字体、字号、颜色、字形(如:加粗、斜体、底纹、下划线、方框、上标、下标等)、字间距、对齐等设置,使文本在多媒体作品中变得丰富多彩。
(4)可以配合其它媒体的应用而提高作品表现力文本具有其它媒体不可替代的重要作用,它除了自身所能完成的表述功能外,还可以配合其它媒体,共同完成对事件的描述,提高多媒体作品的表现能力。
它可以为图片添加说明、为视频添加字幕、为声音解说配上文字注释。
(5)建立超文本链接功能在多媒体应用系统中,可用文本设置超链接。
通过超文本建立的链接关系,实现程序的交互跳转,从而突破传统文本信息表示的线性和顺序结构、建立真正的多种媒体逻辑连接。
例如:在多媒体作品中,文章的标题、导航菜单、按钮中的文本都可以建立对应的超链接,用户可通过点击超链接选择自己需要的信息,这样可满足一些教学软件联想式学习的需要及一些多媒体软件交互式操作的需要。
2.1.2常见文本文件的格式目前流行的文字处理软件种类繁多,不同的软件生成的文件格式各不相同。
当使用不同的文本编辑软件编辑文本时,系统通常会采用默认的文本文件格式来保存文档。
如字处理软件MicroSoft Word XP/2003的默认文档格式为DOC ,当然该软件还支持另外一些流行的文本文件格式。
如TXT 、RTF等等。
下面是比较流行的文本文件格式:(1)TXT格式:是纯ASCII码文本文件,纯文本文件除了换行和回车外,不包括任何格式化的信息,即文件里没有任何有关文字字体、大小、颜色、位置等格式化信息。
Windows 系统的“记事本”就是支持TXT文本编辑和存储的文字工具程序。
所有的文字编辑软件和多媒体集成工具软件均可直接使用TXT文本格式文件。
利用纯文本不含任何格式化信息的特点,我们可以比较方便地实现一些图形表格文字的转换,例如,从网页上下载的文字资料一般都包含有格式控制,如果直接下载到Word等字处理环境中,会带有一些不需要的格式符号,常含有表格形式,通过“记事本”等工具,将下载的文本资料转换为纯文本后再导入Word中,会使排版变得轻松快捷。
(2)WRI格式:是Windows系统下的写字板应用程序所支持的文件格式。
(3)DOC格式:是Microsoft Word字处理软件所使用的默认文件格式,其中可以包含不同的字符格式和段落格式。
(4)RTF格式:是Rich Text Format文件格式,是一种可以包含文字、图片和热字(超文本)等多种媒体的文档。
在Macromedia公司的多媒体开发软件Authorware6.0/7.0中就可以直接对RTF格式文档进行编辑,并且通过RTF知识对象对其使用。
另外,在Microsoft Word字处理软件中也能将文档保存为RTF文件格式。
(5)WPS格式:是金山中文字处理软件的格式,其中包含特有的换行和排版信息,称为格式化文本,通常只在WPS编辑软件中使用。
各种文本格式可以通过一定的方法相互转换,例如:① WPS文档转换为Word文档:常见的WPS文档可以直接在WPS应用程序中转换为Word 应用程序使用的DOC格式文档。
操作方法是:启动WPS应用程序窗口,打开要转换的WPS 文档,然后选择〖文件〗菜单中的“另存为”命令,打开“另存为”对话框,然后在其文件类型列表选项中选择“Word的DOC文档”,按下【保存】按钮即可转换。
② Word文档转换为WPS文档:在Word 2000应用程序中也可以直接打开WPS文档,方法是:在Office 2000安装盘找到“\PFiles\Common\MSShared\TextConv”文件夹中的WPS 2000转换器程序“Wps2Word.exe”,双击它可以自动为Word 2000安装WPS 2000 转换器。
安装成功后,启动 Word 并单击〖文件〗菜单中的“打开”命令时,就会在“文件类型”列表框中找到“WPS DOS file 导入”和“WPS file (*.wps)”选项。
利用这一转换器,可以打开WPS 2000/97 的所有文档,并且会保留原文件的大部分格式信息和嵌入对象。
2.2 文字素材的采集与处理与其它媒体素材相比,文字输入方便、容易处理。
从操作方式上来看,文字采集主要可分为两类方式:自然输入和键盘编码输入。
通过构建OCR文字识别系统和语音识别系统,可以实现文字的自然输入,这是文字输入的最理想和快捷的方式。
但目前技术上还不够完善,还不能完全满足实际需要。
而键盘编码输入则是根据文字的读音或文字的基本结构将文字编成与之对应的数字代码或字母代码输入计算机。
下面将介绍文本信息采集的有关内容。
2.2.1 文本信息的获取文本信息输入、采集的方法主要有以下几类:(1)键盘输入方法:键盘输入法是利用键盘,按照一定的编码规则来输入汉字。
这是最早采用的文本输入方法,也是现在计算机进行文字输入最普遍的方式。
其中,英文字符可以直接从键盘输入,无需编码;汉字输入则必需对汉字编码,可以根据汉字的读音或基本形状用数字或英文字符编码。
常用的有“微软拼音输入法”、“五笔字型输入法”等。
汉字输入法种类繁多,而且新的输入法还在不断涌现,各种输入法各有特点,功能也不断增强。
键盘输入文本的优点是方便快捷,易修改并且不需附加录入设备,缺点是由于使用键盘输入文字通常需要理解和记忆对应的中文输入法的编码规则,因此输入速度较难提高。
对于键盘输入法来说,无论其有多好,都需要使用者经过一段时间的练习才可能达到基本要求的速度,至少用户的指法必须熟练才行,因此现在文本输入新技术正向着自然输入的方向发展。
(2)语音输入方法随着计算机技术的发展,大量信息输入仅仅通过键盘来完成已经不能满足人们的需要,让计算机能听懂人类语言,或是用语音来控制各种自动化系统,是一种最理想的信息输入选择。
语音输入法,是将声音通过话筒输入计算机后直接转换成文字的一种输入方法。
利用语音识别技术,计算机能迅速、自然地把读入计算机的声音信息转换成计算机中的文本。
语音输入法在硬件方面要求电脑必须配备能正常录音的声卡和录音设备,安装语音识别软件。
在调试好麦克风后,即可以对着麦克风进行朗读录入。
如果普通话不标准,可用语音识别软件提供的语音训练程序,进行一段时间的训练,让软件熟悉您的口音后,就可以通过讲话来实现文字输入。
识别软件将录入的语音信号识别转换为数字文本,实现语音文字输入。
目前,语音识别技术整合较好的软件有IBM公司的VIA Voice , VIA Voice标志大词汇量、非特定人和连续语音识别技术正在趋于成熟。
国内推出的Dutty ++语音识别系统、天信语音识别系统、世音通语音识别系统等也被广泛使用。
语音输入是通过向计算机发出一个简单的声音命令,控制计算机操作。
如:命令启动计算机中的 Microsoft Office Word 2003应用程序,只需对着话筒说道“开始程序Microsoft Office Word 2003”,就可以启动对应的应用程序Microsoft Word 2003。
然后进行朗读,计算机在语音识别软件的控制下自动写出对应于语句的文本。
但是,目前大多数语音识别软件构建的语音识别系统是与说话者相关的,还不是一个完善的非特定人识别系统,因此,在需要使用语音录入系统前必须经过反复训练,使计算机熟悉讲话者的语音、语调和节奏等声音特征后再进行语音输入,正确率可达到90%以上,能较准确完成语音输入转换成文本的功能。
语音输入方法的优点是可以快捷、自然地完成文本录入,可减轻用户使用键盘输入的疲劳;缺点是错字率仍然比较高,特别是一些未经训练的专业名词及生僻字,因此要求录入者发音比较标准,还需要先使系统适应录入者的语音语调。