中文信息处理

  • 格式:doc
  • 大小:55.00 KB
  • 文档页数:7

下载文档原格式

  / 13
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中文信息处理技术浅谈

摘要:随着科学技术的发展,中文信息处理已经深入到了社会生活的各方面。广泛的应用对中文信息处理技术也提出了较高的要求。本文从主流技术、新技术展望等,对中文信息处理技术进行了初步探索。

关键词:中文信息处理N元模型语音识别词性标注

中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合,它是一门用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。其中,“中文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言:但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少,是负熵。所谓“处理”,是指用计算机对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。

一、中文信息处理的特点及难点

中文信息处理在许多方面有自己的特点。

1、汉字的特殊性

西方语言只有几十个字母。而汉字由于数量大且字形复杂,也给计算机处理带来了困难。汉字信息处理是中文信息处理的关键和基础,包括汉字信息的输入、汉字信息的加工和汉字信息的输出等方面,其难点是汉字编码问题。根据在汉字信息处理过程中的不同要求,汉字有多种编码,主要可以分为四类,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。

2、书面汉语的特殊性

书面汉语中,词跟记号之间没有分隔标记,自动分词成为书面汉语分析的第一道难关。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。

3、汉语语音的特殊性

汉语语音的特点是音节结构简单,音节界限分明,但有声调和变调等问题,对于语音识别和语音合成来说,既有有利的一面, 也有不利的一面。

4、汉语语法的特殊性

汉语形态贫乏,难以凭借形态来确定词的句法功能,词序和虚词是主要的语法手段,句法歧义特别复杂,使得汉语语句自动分析这一关键技术迟迟不能取得

突破。

另外,现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起来的。而汉语无论在语音、文字表示,还是在词汇、语法、语义及其语用等各个层面上,都与之存在着很大的差异。这使得无法直接套用西方已成熟的理论和技术,汉语无疑是计算模型比较不发达的语言。这对从事中文信息处理的研究者来说是一个巨大的挑战和压力。

二、中文信息处理的主流技术

中文信息处理技术从70年代的蓬勃发展至今,仅仅经历了短短20多年的时间,便完成了由初级阶段向比较成熟阶段的过渡,这是微电子技术和IT技术高速发展以及迫切的应用需求所促成的。

中文信息处理技术处于初级阶段的主要特征是以研究为主。在70~80年代,国内曾出现汉字输入方法研究千军万“码”的局面,上千种输入方法应运而生。在汉字字型方面,从15×16点阵到256×256点阵,仿宋、宋、楷、黑等各种字体不断涌现,以CCDOS为代表的20余种汉化DOS不断出台,各具特色,联想汉卡、巨人汉卡、四通汉打等曾风靡一时。

从90年代初开始,中文信息处理技术开始进入比较成熟的阶段。其主要标志是初步实现了“四化”,即标准化、一体化、工程化和产品化。

标准化是指国家相应出台了一系列有关中文信息处理方面的标准。如GB2312-80、GB5007等30余项汉字信息交换码及汉字点阵字型标准,以及GB130001、GB16681/96大字符集和开放系统平台标准等。汉字输入法也在经历了大浪淘沙之后趋于集中。

一体化是指中文信息处理多项技术实现了有机、合理的结合。如软硬件技术的结合、输入输出技术的结合、多领域成果的结合。

工程化、产品化是指中文信息处理解决了在大规模应用、大规模生产以及市场营销中出现的问题。如规范性、可靠性、可维护性、界面友好性及各环节的包装。

经过20多年的努力,我国在中文信息处理方面已取得了十分可喜的成绩,在某些方面的研究已处于世界领先。如北大方正的激光照排技术,其市场份额独占鳌头。汉王公司的手写汉字识别技术及产品,在经历了1996年和1997年的“春秋争霸”之后,超过了实力强大的摩托罗拉的“慧笔”和台湾的“蒙恬”产品,占据了最大的市场份额,它不仅与各种电脑捆绑销售,据悉,最近汉王还与微软签约,将汉王笔输入法作为Windows CE的标准输入接口软件,为其下一步在手持计算机方面的销售铺平了道路。此外,清华文通、紫光OCR也是赫赫有名。在中文平台方面,中文之星和四通利方顽强地与微软争夺市场份额,说明国内产品已具有相当的技术实力。在Internet上,新浪中文网站已成为世界上最大的中文搜索引擎。汉仪、中标、中易的汉字库名噪海内外,湖南华天公司研制的具有10万汉字的曲线汉字库创世界之最。另外,由国家语委和二炮二所研制的7000万字现代汉语语料库也已基本完成,首批将颁布2000万字语料库投入社会应用。国家“863”和国家“九五”预研工作在智能中文人机接口、跨平台中文处理、中文

虚拟平台、中文浏览器、中文文本处理等方面的研究也都取得了令人鼓舞的进展。

目前,中文信息处理的主流技术主要有:

1、N元模型

设wi是文本中的任意一个词,如果已知它在该文本中的前两个词wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n 个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:

P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn- 1)

不难看出,为了预测词wn的出现概率,必须知道它前面所有词的出现概率。从计算上来看,这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关,问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri-gram):

P(W)≈P(w1)P(w2|w1)Πi(i=3,...,n P(wi|wi- 2w- 1)

符号Πi i=3,...,n P(...)表示概率的连乘。一般来说,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有

P(wi|wi- 2wi- 1) ≈count(wi- 2wi- 1wi)/count(wi- 2wi- 1)

式中count(...)表示一个特定词序列在整个语料库中出现的累计次数。

2、语音识别

让人与计算机自由的交谈,机器能听懂人讲话,是语音识别技术的最终目标。语音识别技术所设计的领域包括:信号处理、模式识别、概率论和信息论、发声机原理和听觉原理、人工智能等。

语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及到语音识别单元的选取。

关于语音识别单元的选取,对于大中型词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

关于特征参数提取技术,语音信号中含有丰富的信息,这些信息称为语音信号的声学特征。特征参数提取技术就是为了获得影响语音识别的重要信息,特征参数应该尽量多的反映语义信息,尽量减少说话人的个人信息。

关于模式匹配以及模型训练技术,模型训练是按照一定的准则,从大量已知的模式中获取表征该模式本质特征的模型参数。模式匹配是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。其实,语音识别任务可视为对以下条件概率极大值的计算问题:

W*= argmaxW P(W|speech signal)

= argmaxW P(speech signal|W) P(W)/P(speech signal)