当前位置:文档之家› 基于语料库的现代汉语词缀与派生词自动识别问题初探

基于语料库的现代汉语词缀与派生词自动识别问题初探

基于语料库的现代汉语词缀与派生词自动识别问题初探
基于语料库的现代汉语词缀与派生词自动识别问题初探

2010年2月

第1期语言文字应用App lied L inguistics Feb .,2010No .1

[收稿日期]2009-02-17

[作者简介]尹海良,山东大学威海分校讲师,博士,主要研究中文信息处理和对外汉语教学等。

3本文在笔者博士论文《现代汉语类词缀研究》某节基础上修改而成,感谢业师盛玉麒先生给予的悉心

指导。本文得到山东省社会科学规划项目青年基金“基于语料库的现代汉语类词缀研究”

(09DW Z05)和山东大学威海分校青年成长基金项目(1060508430002)的资助,特此感谢。

基于语料库的现代汉语词缀与

派生词自动识别问题初探

3尹海良

(山东大学威海分校国际教育学院 山东 威海 264209)

[摘要]汉语词缀的显著特点是语义半虚半实、位置固定以及较高的能产性。词

缀能够批量造就语言中急需的部分词语,造词规则较为明晰简单,符合语言系统的经济性原则。词缀造词的大规模性和临时性又给自然语言的自动处理带来了很大障碍。文章以汉语词缀造成的未登录词为切入点,初步探讨了词缀与派生词自动识别的有关问题,具体包括信息处理用分词规范对词缀的处理原则、带缀词语自动切分情况统计分析、分词碎片中词缀归并策略与规则、落单词缀归并与标注处理的难点等。

[关键词]词缀;未登录词;归并;自动识别

[中图分类号]H08[文献标识码]A [文章编号]100325397(2010)0120125210

A Corpus 2ba sed Preli m i n ary Study of Automa ti c

Recogn iti on of M odern Ch i n ese Aff i xes and D er i va ti ve W ords

YI N Hailiang

Abstract:Their p r om inent characteristics of Chinese affixes are gra mmaticalized t o

s ome extent,relatively fixed in positi on and highly p r oductive .The great potential of affixes makes many ne w words possible .I n the mean while,high p r oductivity of affixes causes s ome p r oble m s f or language inf or mati on aut omatic p r ocessing .Starting with the unknown words,this paper studies affix 2p r ocessing p rinci p les of the seg mentati on nor m ,

statistics and analysis of the results of aut omatic seg menting derivatives,combinati on

strategies and rules of the affixes in the segregati on frag ments,difficulties of combinati on

 ?126

 ?语言文字应用2010年第1期and tagging of the Chinese affixes.

Keywords:affix;unknown words;combinati on;aut omatic recogniti on

一 引 言

未登录词(unknown word)是自动分词处理的后续工作。所谓未登录词,就是机器可读词典中没有收录的词语。通过派生即词根加词缀方式构造的词语(主要是新词)是未登录词的一部分。而未登录词是影响自动分词和自动句法分析精度的主要因素之一,因为“计算机程序当碰到未定义词时,总是把它们分割成单个的汉字,未定义词处理的首要目的就在于把单字重新合成词并确定其词性。显然,要解决好计算机系统内未定义词处理的问题,需要语言学家们加强合成词构词规律及词间关系的研究”(俞士汶,1999)。未登录词可以通过扩充分词词表、添加构词规则、上下文特征规则和大规模概率统计的方法来帮助识别或推测经过一般分词过程后剩下的离散单字串是“词”与否的可能性(俞士汶,2003)。本文采用未登录词的前两种处理策略,希望能为未登录词的自动识别提供一些有用的语言学知识。

派生词尤其是在线(on2line)生成的多音节派生词是一类特殊词汇,由此本文“派生词自动识别”就包含了这样两方面的含义:一是二音节和三音节的派生词(如“影迷、乒坛、准妈妈、闪电式”等),由于具有很强的词的“心理现实性”,需要在自动分词阶段将其作为一个切分单位切分出来,而不是分成像“影/ng 迷/v”“乒/o 坛/n”“准/h 妈妈/n”“闪电/n 式/k”等这样的离散形式;二是多于三音节的派生词(如“网络货币持有者”),由于不符合人们的“词感”但在理解时又必须作为一个整体性很强的单位,这样在自动分词阶段便将其处理为“网络/n 货币/n 持有/v 者/k”,在句法分析阶段再将其归并为“网络货币持有者/n”。因此,本文讨论的内容既是自动分词的后续工作,同时又是浅层句法分析的前期工作。

本文所用语料库为1998年1月的《人民日报》和自建现代汉语平衡语料库。

二 分词规范对汉语词缀的处理原则

汉语本体研究领域的“词缀”和信息处理领域的“词缀”并不完全相同,简单地说,信息处理领域的“前接成分”和“后接成分”基本对应于汉语本体研究领域的“前缀”和“后缀”,但它们之间又有差别。我们对比了北京大学历经10年研制的面向中文信息处理的《现代汉语语法信息词典》(1998)和教育部语用所《面向中文信息处理的词语切分与词性标注规范》①(2002,以下简称《规范》)对“前接成分”和“后接成分”的收录情况,结果显示:《现代汉语语法信息词典》收词缀54个,《规范》收词缀48个,二者的合集72个,交集30个,具体见表1。

《北大语料库加工规范》对“词缀”的处理原则是:“语法信息词典中包含的前接成分、后接成分、词素、非词素字都不是切分单位……。”③(俞士汶等,2003)因此,把那些被错误分开的单位即分词碎片通过规则最终以“分词单位”的形式正确地呈现出来便是提高自动分词精度的一项重要工作。本研究将依据《北大语料库加工规范》和中华人民共和国国家标准《(G B13715)信息处理用现代汉语分词规范》来进行。由于典型词缀构成的一些派生词十分固定且很少创造新词,这些词在分词词表中大都已经收录,分词碎片一般不发生在典型词缀上,因此本文所说的词缀多指的是生成能力较强的类词缀。

2010年第1期尹海良:基于语料库的现代汉语词缀与派生词自动识别问题初探?127

 ? 

表1 《现代汉语语法信息词典》和《规范》对比

合集《现代汉语语法信息词典》《规范》交集

前接成分阿/超/老/小/准++5之/非/过/微/伪/以+-

反/副/抗/无/有/总-+

后接成分长/场/儿/法/化/机/家/界/率/论/们/器/

生/然/式/手/头/型/性/学/业/仪/员/者/子

++25单/边/度/堆/方/感/观/乎/计/家(jia5)/

老②/面/品/体/艇/炎/症/制

+-

费/工/价/匠/类/期/人/师/说/素/形/种-+

总计72544830

注:+表示收录,-表示未收录。

三 带缀词语自动切分情况统计分析

孙茂松等人(2001)在谈到《信息处理用现代汉语分词词表》的制定时指出,词表的制定要“以人为本,机器归根到底是为人服务并且为人所用的”,“不要另起炉灶,人为地将面向机器和面向人割裂开来”。基于此,本文对词缀的归并研究将依据经人工校对过的1998年1月的《人民日报》语料库(约184万字)来进行,这样研究的结果有望更好地为人所用而不至于人机分离。

我们对比了北大校对过的《人民日报》(在下表中用A表示)和中科院分词系统自动切分的《人民日报》(在下表中用B表示),分别对二者切分开的前缀和后缀做了统计,具体见表2。

表2统计结果显示,经过校对的语料其词缀和词根归并起来的数量要比词法分析系统自动归并的数量多得多,这表现在单独切分出来的词缀的绝对数量和全部使用频次两个方面。④面向信息处理的“前接成分”和“后接成分”与本体研究认定的前缀和后缀有很多的共同点,但也有些个体上的出入,本文研究范围以应用性课题为主,不严格局限于汉语本体研究领域所认定的那有限的几个词缀或类词缀。同时,由于受到词缀构词复杂性的限制,本文目前只探索在受限文本(contr olled text)《人民日报》中被切分开的词缀的归并策略与规则问题。

四 分词碎片中词缀归并策略与规则

分词包括静态词表分词、歧义处理、专名识别、后缀词语归并等步骤(吴赣、宋柔、邱超捷, 1998),可见词缀的归并是自动分词的一部分,是后续工作。

(一)词缀的归并策略

目前,信息处理领域一般倾向于采取“大词库、小规则”的处理策略,因为在计算机技术已经十分成熟的今天,词典的大小对于处理速度几乎没有什么影响,计算机可存储的信息量也几乎不会成为词典大小的制约。但是,由于规则的使用必须在词典之后,这样就大大降低了机器的处理速度,而且规则之间也难以保证没有冲突,一招不慎就可能导致整个系统的崩溃。因此,对于那些意义比较透明的类词缀组合,计算机词典的收录频率限制就应该要大大低于普通型语文词典,这样收录更多的派生词或类派生词要比单纯用规则控制更为经济合算,切分精度

 ?128

 ?语言文字应用2010年第1期表2 《人民日报》人工校对版和计算机自动分词版切分后的落单词缀对比

序号

A B A B

前缀前缀频次前缀前缀频次后缀后缀频次后缀后缀频次

1非40非98们823们845

2准2准22者29者157

3前2前15型16型55

4泛1老110界8界24

5 超34式6式28

6 亚7论3论6

7 阿5长2长3

8 微5堆1堆6

9 伪2化1化25

10家1家3

11牌1头13

12业1业12

13制1制19

14症1边81

15性28

16率15

17儿6

18场3

19度2

20器2

21热2

22仪1

23子1

总计4个45次9个298次14个894次23个1337次

注:表中阴影部分为二者共有的落单词缀,即交集,包括前缀和后缀。

也更加高些。概括地说,词缀的归并策略之一是扩大机器分词词表,根据派生词的频率和词缀的构词能力决定对它予以收录还是给以规则。

自动分词系统错误切分出来的词缀如下:

新闻/n 界/k 理论/n 界/k 决策/n 者/k 区域/n 化/k

温饱/n 型/k 开放/v 型/k 闪电/n 式/k 全景/n 式/k

以上这些三音节结构在《现代汉语语法信息词典》中基本都收录了,因为它们的出现频率很高且具有很强的心理现实性,如果将这些高频率的带缀词语收入词表显然提高了这部分词

 ? 2010年第1期尹海良:基于语料库的现代汉语词缀与派生词自动识别问题初探?129

语切分的准确性,并且为下一步自动句法分析的顺利进行打下了基础。

词缀归并的另一个策略是在自动分词系统中单独建立“用户词典”。由类词缀构成的派生词随时都在增加,有些使用比较稳定且有进入词库的倾向,这部分词难以在机器词表中得到及时的补充,若仅仅为一小部分词再重新编排机器词表似乎有些小题大做,这样,在机器主体词表之外单独建立一个个人可以管理的“用户词典”就很有必要了。这一策略在天津海量智能计算技术研究中心开发的“海量科技分词”⑤系统中得到了应用,该系统有自己的主体基本词表,用户不能对其进行修改等操作,另外还有一个用户词典,用户可根据自己的需要进行词语的添加、删除等操作,词典可以自由装载和卸载。这一功能对于专业性较强的用户比较适用,因为用户可以将自己专业领域的词汇全部输入用户词典中,这样凡是词典中收录的词汇分词系统就能准确地切分出来。下面以具体实例说明该策略的实用性。

(1)使污染物做到零排放,这就是循环经济。

中科院分词:使/v 污染物/n 做/v 到/v 零/m 排放/vn ,/w 这/r 就是/v 循环/vn 经济/n 。/w

海量科技分词:使/v 污染物/n 做到/v 零/m 排放/v ,/w 这/r 就是/c 循环/ v 经济/n 。/w

海量科技分词(在用户词典中加入“零排放”):使/v 污染物/n 做到/v 零排放/v ,/ w 这/r 就是/c 循环/v 经济/n 。/w

(2)在中国,酿酒师要比欧洲的酿酒师享受更多的自由度。

中科院分词:在/p 中国/ns ,/w 酿酒/v 师/ng 要/v 比/p 欧洲/ns 的/u 酿酒/vn 师/ng 享受/v 更/d 多/a 的/u 自由度/n 。/w

海量科技分词:在/p 中国/ns ,/w 酿酒/v 师/n 要/v 比/p 欧洲/ns 的/u 酿酒/v 师/n 享受/v 更/d 多/a 的/u 自由度/n 。/w 

海量科技分词(在用户词典中加入“酿酒师”):在/p 中国/ns ,/w 酿酒师/n 要/v 比/p 欧洲/ns 的/u 酿酒师/n 享受/v 更/d 多/a 的/u 自由度/n 。/w

(3)使街道办事处的“准政府”功能不断加强。

中科院分词:使/v 街道/n 办事处/n 的/u ″/w 准/h 政府/n ″/w 功能/n 不断/d 加强/v 。/w 

海量科技分词:使/v 街道/n 办事处/n 的/u ″/w 准/a 政府/n ″/w 功能/n 不断/d 加强/v 。/w

海量科技分词(在用户词典中加入“准政府”):使/v 街道/n 办事处/n 的/u ″/w 准政府/n ″/w 功能/n 不断/d 加强/v 。/w

以上通过两个不同的词法分析系统对几个含有类词缀的句子进行了自动切分,切分结果都不太理想,使用度较高的几个派生词都没有正确地切分出来。但是通过在用户词典中加入这些常见的派生词,词法分析系统就可以直接调用,因此就减少了不当切分造成的落单字。这说明,通过单独建立用户词典扩大新词词库,对词语切分精度的提高有很大帮助。

(二)词缀的归并规则与标注

前面谈到分词碎片的问题可以通过增加用户词典的方式来解决,但适当扩大分词词库并不意味着要绝对地放弃规则,因为很多类词缀都有着极强的潜在生成新词的能力,而词典收词总是滞后的,因此,词法规则的发现与使用也就必不可少。分词精度的提高和浅层句法分析⑥

 ?130

 ?语言文字应用2010年第1期仍需要依据“大词库小规则”的策略逐步完善。许嘉璐先生(2001)说:“只靠统计概率是不能统摄复杂多变的语言现象的,因此还需要结合语言规则。”下面是通过对大量具体语料的观察以后归纳总结出的部分词法规则。

规则1 被+(名)+及物动词+缀⑦

(4)寄托/v 了/u 对/p 被/p 选举/v 者/k 的/u 崇高/a 希望/n 和/c 良好/a 祝愿/vn 。/w

(5)它/r 是/v 中心/n 的/u 创造者/n 也/d 是/v 被/p 中心/n 逐出/v 者/n ,/w

在笔者自建的现代汉语平衡语料库(2633万字)中,共有此规则的词语66条,全部是“者”缀词。具体来说,“被+双音节及物动词+者”的49条,“被+单音节及物动词+者”的15条,“被+名词+及物动词+者”的2条。

规则2 右引号+缀

(6)又/d 过/u 多/a 地/u 被/p “/w 卡通/n ”/w 式/k 读物/n 所/u 包围/v 。/w

(7)将/d “/w 香港/ns 同胞/n ”/w 界/k 改/v 为/v “/w 特邀/v 香港/ns 人士/n ”/w 界/k

在《人民日报》语料库中“右引号+缀”规则的词语46条,出现的词缀有“们”“式”“型”“界”“者”“论”。同种构词模式在现代汉语平衡语料库中出现有356次。在句法分析时根据此规则能很容易地将引号内的结构与后缀予以归并。

规则3 形/副+动+缀

(8)《/w 人民日报/nz 》/w 同样/d 发表/v 了/u 热烈/a 欢呼/v 式/k 的/u 社论/n ,/w

(9)大亚湾/ns 建立/v 了/u 权责/n 明确/a 的/u 逐级/d 授权/v 制/k 。/w

该规则以“副+动+缀”的组配形式更常见一些,共发现15例,出现的词缀主要有“者”“式”“制”“化”等。

规则4 方位词+缀

(10)不过/c 这/r 次/q 倒/d 是/v 东方/f 式/k 的/u ,/w

(11)中国/ns 绝不/d 能/v 容忍/v 西方/f 式/k 的/u 民主/an 。/w

在自建平衡语料库中该规则的词语有128条,出现的词缀有“儿”“式”“化”等,其中以“儿”为最多。

规则5 区别词+缀

(12)展开/v 大规模/b 、/w 全方位/n 、/w 立体/b 式/k 的/u 勘探/vn ,/w

(13)可/v 看作/v 迷你/b 型/k 的/u 元旦/t 。/w

在自建平衡语料库中仅词根为区别词但和词缀没有归并的就有71条,出现的词缀有“者”“仪”“式”“型”“观”“性”“率”“制”“化”“们”“品”等。区别词具有一定的粘附性,句法分析时需要与粘附性更强的词缀归并。

规则6 普通名词+及物动词+缀

这条规则要求前面的名词和后面的及物动词有动宾搭配关系,如:

 ? 2010年第1期尹海良:基于语料库的现代汉语词缀与派生词自动识别问题初探?131

(14)严格/ad 控制/v 并/c 逐步/d 淘汰/v 资源/n 开采/v 型/k 产业/n ,/w

(15)必须/d 保证/v 85%/m 以上/f 的/u 任务/n 完成/v 率/k ,/w

自建平衡语料库中发现此规则的结构有89条,出现的词缀主要有“者”“型”“率”“界”“制”“业”“器”等。

规则7 国名(简称)+缀

(16)那/r 时候/n 时兴/v 的/u ,/w 是/v 捷克/ns 式/k 家具/n 的/u 颜色/n ,/w

(17)曾/d 批评/v 50/m 年代/n 以后/f 在/p 北京/ns 兴建/v 的/u 苏/j 式/k 建筑/n ,/w

在自建平衡语料库中,“国名/地名全称+缀”的词语有63条,没有归并的“国名/地名简称+缀”的词语有61条,出现的词缀我们发现的有“式”“型”“化”,其中以“式”为最多。

规则8 身份词+缀

身份词包括现实和虚拟的人名。

(18)是/v 当年/t 被/p 称为/v “/w 欧阳/nr 海/nr 式/k 的/u 小/a 英雄/ n ”/w 戴/nr 碧蓉/nr 。/w

(19)这/r 老舍/nr 式/k 的/u 格言/n 真的/d 伴随/v 着/u 老舍/nr 先生/n 自己/r 走/v 完/v 了/u 他/r 的/u 一生/n ,/w

这一规则的应用是以对人名的正确识别为基础的,如果前面的人名不能够正确地识别出来,那么就会影响到这类词的归并,

收录。

规则9 数字/字母/专名+(分隔符)+(数字/字母)+缀

数字包括阿拉伯数字、汉语大写数字,字母包括英文字母和罗马字母,分隔符包括“-”“#”“3”等。

(20)说/v 着/u 从/p 身上/s 摘/v 下/f 一/m 支/q 九九/m 式/k 步枪/n ,/w

(21)波音/b 公司/n 的/u 787/m 型/k 客机/n 与/p 空客/j 的/u A350/nx 型/k 客机/n 是/v

在自建平衡语料库中,“(专名)+数字+缀”词语78条,“字母+缀”词语235条,出现的词缀有“式”“型”“们”“界”“业”“制”,其中前一种词语模式以词缀“式”为最多,后一种词语模式以词缀“型”为最多。

规则10 (副)+可+及物动词+缀

(22)其/r 可/v 预测/v 性/k 及/c 可/v 扩大/v 性/k 便/d 达/v 不到/v 预期/vn 效果/n 。/w

(23)不知/v 怎么/r 一/m 来/f ,/w 我/r 一下子/d 成为/v “/w 极/d 可/ v 接触/v 者/k ”/w 。/w

在自建平衡语料库中有“可+及物动词+缀”规则的词语13条,出现的类词缀只有后缀“性”,如“可操作性”“可替换性”“可度量性”等。另外还有2例与此规则十分相近的结构“副+可+及物动词+缀”,如“极/d 可/v 接触/v 者/k”。

 ?132

 ?语言文字应用2010年第1期规则11 成语/熟语+缀

(24)尤其/d 是/v 暴风骤雨/i 式/k 的/u 群众运动/l 不可避免/l 的/u 失误/vn 。/w

(25)伙伴/n 亚盟/nr 就是/v 一个/m 经验/n 丰富/a 的/u 搭便车/l 者/k 。/w

在自建平衡语料库里,“成语+缀”式词语有146条,“熟语+缀”的有117条,出现的词缀有“者”“们”“儿”“式”“制”“界”“型”“症”“品”“率”。

最近,类前缀“零”造就的一批词正在迅速崛起,如“零距离、零差距、零缺点、零次品、零故障、零差错、零误差、零利率、零利润、零利息、零现金、零口供、零排放、零投诉、零上访”等。考察大量语料发现,类前缀“零”一般后加双音节名词或动词派生新词。我们统计了张谊生(2003)《当代新词“零X”词族探微》一文中出现的“零”族词,该文共列举“零X”63个,其中

“零+N

双”的37个,“零+V

”的25个,另外一个特殊的是“零平衡”,即规则“零+A

”。由

此可见,针对这种规则性较为明晰且相对周遍的词缀,可以单独为其编写归并规则,如:规则12 零+N

/V双

通过这条规则将能够实现98%的归并率。

以上从规则的抽取角度探讨了分词过程中落单词缀的归并问题,并简单总结了12条确认规则。当然这些规则大多还不具有强周遍性,可能会存在个别例外,因此还需要在此基础上对规则加以细化,将不合条件的情况过滤掉。“否定规则”(与“确认规则”相对,刘开瑛,2000)有待今后逐步挖掘。

五 落单词缀归并与标注处理的难点

书面汉语词缀归并存在很多的困难,这与汉语和汉字系统的特点紧密相关。

(一)汉语缺乏形态,作为语法标记的词缀和实词素形式相同,计算机难以识别。如(以下语料均取自中科院I CT CLAS词法分析系统自动切分后的《人民日报》语料库):

(26)标注偏误:选/v 准/h 项目/n ,/w 重点/d 扶持/v 计划生育户/n 。/w

(27)切分偏误:提高/v 农村/n 的/u 城镇/n 化/v 水平/n 。/w

例(26)的“准”应标注为实词“准/a”,[27]中的“化”或标注为后缀“化/k”或归并成派生词“城镇化/v”。

(二)同形词难以识别。如:

(28)提高/v 航班/n 正点/d 率/v ,/w 保证/v 安全/an 起降/vn ,/w

(29)外经贸部/j 部长/n 吴/nr 仪/nr 今天/t 离开/v 北京/ns ,/w 率/k [/ w 中国政府/n ]/w 经贸/j 代表团/n 开始/n 对/a 斐济/ns 和/ag 萨摩亚/ns 两/m 国/j 进行/v 正式/a 友好/a 访问/v 。/w

例(28)中“率”(lǜ)应该是类词缀,分词系统当成了动词,第[29]例中“率”(shuài)是动词,结果分词系统却当成了词缀,标记为“/k”。这种错误结果是由同形词造成的。

(三)有些类词缀具有短语词化功能,自动句法分析系统难以识别派生词边界。如:

(30)向/p 资本密集型/n 、/w 信息/n 服务/v 型/k 、/w 智能/n 效益型/n 的/u 方向/n 发展/vn 。/w

例(30)的划线部分在自动句法分析时应分别归并为“信息服务型”和“智能效益型”。前

 ? 2010年第1期尹海良:基于语料库的现代汉语词缀与派生词自动识别问题初探?133

一个“型”没有归并,后一个“型”由于没能正确识别字段边界而归并失当。

(四)字符串出现交集歧义字段。如:

(31)反对/v 撤军/v 者/k 可以/v 退出/v 政府/n ,/w

(32)他/r 顶住/v 所谓/v “/w 抢救/v 失足/v 者/k ”/w 的/u “/w 左/f ”/w 的/u 做法/n ,/w

孤立地看“反对/v 撤军/v 者/k”,既可以归并成动宾短语“反对/v 裁军者/n”,也可以是名词性短语词“反对裁军者/n”,“抢救/v 失足/v 者/k”可归并成动宾短语“抢救/v 失足者/n”,也可以是名词性短语词“抢救失足者/n”。到底选择哪一种归并层次依赖于具体的语境,对语境的分析至少目前计算机是难以做到的。

最后还需要说明一点,即落单词缀的归并应该区分自动分词和自动句法分析两个阶段。也就是说,单纯的自动分词系统对切分开的三音节的派生词要归并,对多于三个音节的派生词要切分开来(当然“计算机化”这样的除外),如“为社会主义建设做出巨大贡献者”要切分为“为/p 社会主义/n 建设/v 做出/v 巨大/a 贡献/n 者/k”,因为这样利于词频统计。而在机器翻译等以句法分析为基础的系统中,复杂的派生词和派生形式应该归并,否则将会因不归并或归并失当而带来错误的翻译结果。如:

(33)这句话形象地总结了一代自然爱好者的所为,也大致适用于梭罗。⑧

人工标准译文:The re mark char m ingly sum s up the behavi or of an age of nature2l overs,and it m ight app ly in part t o Thoreau.

金桥在线翻译:⑨3This words i m age field has summed up what natural a mateur of generati on is,has app lied t o Henry David Thoreau als o basically.(3表示机器翻译造成的偏误语句)该翻译例句说明,“自然爱好者”这个稍复杂的派生词如果句法分析系统分析成偏正词组“自然/a 爱好者/n”,显然就会出现上面那样错误的翻译结果,金桥在线翻译系统就是这样分析的,而实际上这是个“O+V+者”式派生词。这个错误出现的根源就是句法分析系统没能正确地识别“者”缀派生词的边界,没能正确分析出词根的结构。

六 结 语

本文初步探索了汉语词缀在中文信息处理领域中的应用性课题,发现了词缀在分词和自动句法分析中存在的一些问题,提出了解决的思路和设想,基于语料库归纳了十二条归并规则。但由于自然语言的高度复杂性,书面汉语分词碎片中的词缀归并存在很大的困难,规则难以做到绝对周遍,因此自动识别必须采取规则和统计相结合的策略,完全依赖于哪一种策略都不可取。文章还根据实际切分后的语料偏误列举了造成误分的几个因素。所有这些问题都有待日后逐步细化知识的颗粒度并最终解决。

[附 注]

①此规范见盛玉麒《语言文字信息处理》附录一“面向中文信息处理的词语切分与词性标注规范”,山东大学

出版社,2006。

②《现代汉语语法信息词典》的前接成分和后接成分中都有词缀“老”,前接成分的组合如“老三、老王”,后

接成分的组合如“李老、郭老”等,二者同形异质。

③本规范主张像“北京队”“雷锋班”这样的专名作为一个“切分单位”,如果处理为[北京/ns 队/n]nt、[雷

 ?134

 ?语言文字应用2010年第1期锋/nr 班/n]nt也是可以接受的。因此,“姓名+式/型”也可以照此方式处理。如“[贾/nr 宝玉/nr 式/k]b”,还有“成语/习语+式”。

④需要说明的是,语料中有一些因词根加了引号而造成与类词缀隔离的情况,如:被/p “/w 卡通/n ”/w

 式/k 读物/n 所/u 包围/v 。/w。正在/d 从/p “/w 运动/n ”/w 化/v 转向/v 个性化/ vn ;/w。这样就导致自动分词版的语料库存在的落单类词缀多一些。

⑤海量分词研究版免费下载网址:htt p://https://www.doczj.com/doc/cb1034600.html,/。

⑥近年来,自然语言处理开始由完全句法分析走向浅层句法分析[shall ow parsing,也叫部分句法分析(partial

parsing)或语块分析(chunk parsing)],这是因为自然语言十分复杂,大规模真实文本中的噪声(noisy)太多,想得到一棵完整准确的句法树,目前看来几乎没有实现的可能。因此,不得不改变策略,借助具有实现基础的浅层句法分析得到的成果来满足社会的应用需求。

⑦符号说明:“()”表示内部的成分可以出现也可以缺省,“/”表示或者,其他如“动”“形”“副”则表示词类

属性。

⑧该例中的汉语和对应的人工标准译文均选自《英汉双语对齐语料1500句对》,免费下载网址:htt p://www.

nl https://www.doczj.com/doc/cb1034600.html,/。

⑨金桥在线翻译系统网址:htt p://https://www.doczj.com/doc/cb1034600.html,/。

[参考文献]

[1]毕玉德.面向语言信息处理的韩语谓词及词尾还原分析[J].解放军外国语学院学报,1999,(1).

[2]卞成林.汉语工程词论[M].济南:山东大学出版社,2000.

[3]冯敏萱,杨翠兰,陈小荷.带后缀“者”的派生词识别[J].语言文字应用,2006,(2).

[4]侯 敏.计算语言学与汉语自动分析[M].北京:商务印书馆,1999.

[5]黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997,(1).

[6]刘开瑛.中文文本自动分词和标注[M].北京:商务印书馆,2000.

[7]刘 源,谭 强,沈旭昆.信息处理用现代汉语分词规范及自动分词方法[M].北京:清华大学出版社;

南宁:广西科技出版社,1994.

[8]任学良.汉语造词法[M].北京:中国社会科学出版社,1981.

[9]孙茂松,王洪君等.信息处理用现代汉语分词词表[J].语言文字应用,2001,(4).

[10]王 惠,朱学锋.《现代汉语语法信息词典》的收词原则[J].中国计算机报,1994,(21).

[11]吴 赣,宋 柔,邱超捷.现代汉语文章中后缀词语的动态归并[A].1998中文信息处理国际会议论文

集[C].北京:清华大学出版社,1998.

[12]许嘉璐.现状与设想———试论中文信息处理与现代汉语研究[J].中文信息学报,2001,(2).

[13]俞士汶,段慧明,朱学锋等.北大语料库加工规范:切分?词性标注?注音[J].Journal of Chinese L anguage

and Co m puting,2003,(2).

[14]俞士汶.计算语言学概论[M].北京:商务印书馆,2003.

[15]俞士汶等.现代汉语语法信息词典详解[M].北京:清华大学出版社,1998.

[16]俞士汶.自然语言理解与语法研究[A].马庆株.语法研究入门[C].北京:商务印书馆,1999.

[17]张谊生.当代新词“零X”词族探微[J].语言文字应用,2003,(1).

[18]周 强.规则与统计相结合的汉语词类标注方法[J].中文信息学报,1995,(3).

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

现代汉语常用词表

现代汉语常用词表(草案) 1.范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008 个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1 词和语兼顾原则 本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初

秋”“初夏”,但对于“‘晚'+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残'+季节”的词语,只收录“残冬”未收录“残春”“残 秋”“残夏”。 4.《现代汉语常用词表》(草案)说明 4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况。 4.2 本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年?2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约 7 000 万字的语料。总共 2.5 亿字。 4.3 本表共收录常用词语56 008个,包括单音节词3 181 个,双音节词语40 351 个,三音节词语 6 459个,四音节词语 5 855个,五音节和五音节以上词语 162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.doczj.com/doc/cb1034600.html,.au/~dlee/CBLLinks.htm (https://www.doczj.com/doc/cb1034600.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.doczj.com/doc/cb1034600.html,/corpus/ 互动平台 https://www.doczj.com/doc/cb1034600.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

语音识别综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:语音识别综述 授课教师(职称): 研究生姓名: 年级: 学号: 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

语音识别综述 摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。 关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理 1.引言 语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史 语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。 60年代,计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。 70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

基于语料库的中国大学生英语口语表达中的“中式 英 语” 探究

基于语料库的中国大学生英语口语表达中 的“中式英语” 探究 摘要:本文利用大学学习者英语口语语料库,选取全国大学英语考试口语考试部分27名考生的口语语料库作为研究对象,对其中出现的中式英语进行标注和分类。作者根据统计结果,从词法和句法两个层面分析我国大学生英语口语中出现的中式英语现象,探讨汉语母语作为中式英语出现的主要原因及对英语口语的影响,最后对中国大学生的英语日常学习及口语水平的提高提出相关建议,为广大高校师生提供借鉴意义。 关键词:中式英语中国大学生口语语料库 1.引言 中国大学生在他们的年纪已经获得用汉语思考和表达的能力,形成用汉语思考和表达的习惯。绝大部分中国人都是在掌握了母语之后才开始学习英语的,所以在学英语的过程中,总是从中国人的思维角度思考,不顾西方的语言习惯,这就造成中式英语的大量存在。由于不符合英语的表达习惯,中式英语在人际交流中有时会引起误解和困惑。因此,它作为一种特殊的语言现象,应该引起人们的注意。在中国,高校在校学生占英语学习者的很大一部分,他们毕业之后就

由英语学习者转变为英语使用者,所以他们在学校学得如何,直接影响他们在工作岗位上用得如何。 从现状看,我国大学毕业生的平均英语水平不能满足各行各业越来越高的需求,尤其是在口语表达和人际交流方面。在现行教育体制下,高校英语教学过于强调语法和词汇的讲解,而对学生语言能力的培养和英语文化的教授则有所忽略。其结果就是许多中国大学生在学了十多年英语之后,只是善于记忆单词和语法规则;他们能在笔试中得高分,但是一张嘴就是中式英语。 《牛津英语词典》对中式英语作了如下定义:中式英语是一种汉语和英语的混合体;尤其是汉语使用者使用的或中英双语语境中的一种英语变体,典型地夹杂一些汉语的词汇和结构,或是汉语语境中特有的英语术语。 总的说来,中式英语是指一种不符合英语文化习惯的畸形英语,由某些受汉语思维方式和文化背景影响而将母语的语言规则运用到英语中的中国人说出或写出。 2.研究方法 2.1研究对象和数据收集 “大学学习者口语语料库”由上海交通大学的杨惠中教授主持完成。该语料库容量达70万字,来源是全国大学英语考试口语考试部分的真实音视频材料。它按照考试来源地、专业、考试成绩和对话题目,采取随机抽样的方法组

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.doczj.com/doc/cb1034600.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.doczj.com/doc/cb1034600.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.doczj.com/doc/cb1034600.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.doczj.com/doc/cb1034600.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.doczj.com/doc/cb1034600.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.doczj.com/doc/cb1034600.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.doczj.com/doc/cb1034600.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.doczj.com/doc/cb1034600.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.doczj.com/doc/cb1034600.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.doczj.com/doc/cb1034600.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加工 国家语委语料库科研成果简介 教育部语言文字应用研究所计算语言学研究室 一、国家语委现代汉语语料库介绍 语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了大规模的语料库,如英国国家语料库BNC等。我国从1990年开始由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国家语委现代汉语语料库。 国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。 国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下: 1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。

语料库语言学的发展

语料库语言学的发展 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。 近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.doczj.com/doc/cb1034600.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

语音识别技术

语音识别 1 摘要 语音识别对于多年的研究人员来说一直是迷人、有趣的话题。过去几年在这一领域已经取得了很大进展,主要是由于多年的研究和高性能系统和算法的可用性。 语音识别是一个声音信号转换为一组词的过程。许多不同的技术和应用都参与了识别的过程。 该模板和统计方法是两大模式识别模型。首先是这样一个模型,它采用平均程序派生出词组和一个距离测度的比较模式。隐马尔可夫模型(HMM)是一种广泛使用的统计方法的例子,这是基于语音信号的特点可以作为参数随机过程的想法。 语音识别被几种不同类别的用户使用。那些使用他们的手型有困难的人、专业人士,和有学习障碍的人是它的主要使用者。 语音识别既有的优势也有局限。该软件可以给各种各样的使用者和许多因技术的提高而有生活乐趣的人提供了福利。尽管几十年的研究和技术的显着改善,但仍需要很大的努力,必须采取进一步的研究以应付存在的限制,重要的缺点是,使用者对处理器的功耗和低准确率的高要求。

1 摘要 (1) 3简介 (3) 4语音识别的一般问题 (3) 4.1历史回顾亮点 (3) 4.2过程概述 (4) 4.3用户和使用领域 (4) 5语音识别过程 (5) 5.1难点 (5) 5.2工艺步骤 (5) 5.2.1数字化 (6) 5.2.2代表 (6) 5.2.3搜索 (6) 5.3鲁棒性 (6) 5.4识别模型 (6) 5.4.1隐马尔可夫模型(HMM) (6) 5.4.1.1声学模型 (7) 5.4.1.2字和单元模型 (7) 5.4.1.3语言模型 (7) 5.5系统的范例 (7) 5.6 优点和局限性 (8) 6结论 (9)

现在和几乎过去的五十年,由机器实现自动语音识别是语音科学家和工程师的最终目标。在过去几年中,在语音识别技术已经发生了戏剧性的好转。这是由于有效的系统和算法有很大的进步,以及多年的研究。 语音输入,对于有或没有残疾的人似乎都有很大的潜力。语音识别可用在不同的领域,如在电话网络的自动化,提高运营商服务。 在过去的今年中这项研究已经取得了不断的进展。但是我们仍然远未达到让一个智能的机器可以理解任意发言者讲的每一句话的期望目标。 基本的和语音识别过程都是本报告的考虑范围。 4语音识别的一般问题 4.1历史回顾亮点 许多对声学语音学的基本思路的研究都发生在20世纪50年代。这是第一步,用机器建立自动语音识别装置系统。1952年在贝尔实验室,一个分离单扬声器的数字识别系统建成。尝试识别10个不同的音节,体现在10个单音节词,这是一个演讲者1956年在RCA实验室做成的。1959年,在英国大学学院,建成了一个音素识别器,它能识别四元音和九常数。频谱分析仪和模式匹配被用表彰这个仪器。另一个亮点是在1959年,元音识别器在麻省理工学院林肯实验室被建造出来。这种识别器可识别嵌入在任意一个音箱/ b/-vowel-/t 中的10个元音。 几个基本的突破发生在1960年。识别器的硬件和硬件元音音素识别都于1962年在京都大学建成。1963年在NEC实验室建立了硬件数字识别。这十年包括三个关键研究项目,它们是在过去20年对语音识别的研究和开发的主要问题。首先,一套基本的时间归一化方法,伴随着降低变量作为任务识别的分数,在RCA实验室被创建。第二,Vintsyuk 提出了一种对话语进行修辞调整的时间动态规划方法。 在20世纪70年代孤立词的识别是研究领域的关键。在俄罗斯,美国和日本的研究产生了“孤立词”技术的效用。在过去的20年里,IBM的研究人员在“大词汇量语音识别”领域研究了三个不同的任务。在AT&T贝尔实验室中进行了“真正的扬声器独立扬声器识别系统”的实验[1]。 1980年,连字识别成为了一个重要的焦点。许多连字算法制定和实施了意图识别流利口语话的字符串匹配,这是基于单个单词的级联模式。在这十年中通过了两项新技术。首先,统计建模方法是关注的焦点。隐马尔可夫模型尤为广为传播。使用神经网络来解决问题被重新提出。国防高级研究计划局(DARPA)社区实施了大词汇量连续语音识别系统的研究[1]。 DARPA的项目是一直持续到20世纪90年代。在这十年中,语音识别技术被广泛应

语料库的类型

语料库的类型 [作者:李文中转贴自:Corpora and the ELT点击数:97 文章录入:neilruan ] 语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。语料库是“作品汇集,以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集,为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”(Sinclair,1986:185-203)。语料库是按照明确的设计标准,为某一具体目的而集成的大型文本库(Atkins and Clear,1992:1-16)。 Renouf认为,语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”(Renouf, 1987:1)。 Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础,“为获得必需的频率数据,我们必须分析足量的自然英语(或其它语言)文本,以便基于观测频率(observed frequency)进行合乎实际的预测。 因此,就需要依靠可机读的电子文本集,即可机读的语料库”(Leech, 1987:2)。综上所述,语料库具有以下基本特征: 1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的,语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析,而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英语和英国英语的对比分析和语法分析。 2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料(naturally-occurred data)。 3)语料库作为自然语言运用的样本,就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性,“自然语料库存在如此严重的偏差,以至于对其所进行的描述将不过是一个词表而已”(Chomsky, 1962:159)。这种批评对任何以概率统计为基础手段的研究都是有价值的(McEnery, 1996:5)。 但是,目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围,如BROWN语料库和LOB语料库分别是以1961年全年的美国英语和英国英语出版物作为抽样范围i[i];再就是确定语料的分层结构,进行分层抽样,如把语料按文类(genre)和信道(channel, 如书面语和口语等)进行分层,如图2.1所示。从各种语料的抽样比例上又可分为‘均衡抽样’(balanced)和‘塔式抽样’(pyramidal)。前者对各种语料按平均比例抽取,而后者对不同的语料进行不等比例抽取。 4)语料库语料以电子文本形式储存并且是通过计算机自动处理的。巨量语料以纯文本形式存储在磁盘上,以便语料库索引软件检索和处理。也可以通过转换软件把其它格式的文件如超文本(htm 或html)格式转换为纯文本。另外,语料库具有一定的容量。语料库的大小取决于语料库的设计原则和研究需求,以及建库过程中语料资源的获取难度及其它因素。计算机语料库实际上提供了一种人机交互,这种交互方式随着语料库工具的发展而逐步加强其自动化特性。Leech认为这种人机交互有以下四种渐进的模式:(1)‘数据检索模式’。计算机以便利的形式提供数据,人进行分析。(2)‘共生模式’。计算机提供部分经过分析的数据,人不断改善其分析系统。(3)‘自我组织模式’。计算机分析数据并不断改善其分析系统,人提供分析系统参数及软件。(4)‘发现程序模式’。计算机基于数据自动划分数据范畴并进行分析,人提供软件(Leech,1991:19)。 计算机自动处理包括自动词性附码(tagging)、自动句法分析(parsing)等。其基本处理和分析过程包括以下几个步骤: 语音分析(phonetic analysis)指音段分析,主要用于语音识别和语音合成。 正字分析(orthographic analysis)指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。 形态分析(morphological analysis)即词性指定和附码。语料库自动附码软件通过概率统计和分析,对所给句子每一个词指定一个或多个词性码。结果显示分列显示和行显示两种。目前语料库自动词性附码准确率一般在97%以上。 句法分析(syntactic analysis)是指句子成分切分、句法关系识别、以及句法分析。语义分析(semantic analysis)和语用分析对语篇进行语义指定和意义解释。 5)基于语料库的研究以量化研究为基石,以概率统计为基本手段,以“数据驱动”为基本理念。其基本方法是通过对实际语言运用的抽样,确定其对语言整体的代表性,通过对样本特征的描述概括整体特征。在量化分析中,首先对特征进行分类,并统计各个特征的频率,通过建立复杂的统计模型对观测到的数据进行解释。分析结果可对研究对象总体进行概括。量化分析能够使我们发现在某一种语言或语言变体中哪些现象反映了语言的真实特征,那些现象仅属于偶然的个例。针对某一语言变体而言,我们还可以确切地知道某一语言现象的显著性,从而确认该现象是规范的还是异常的(McEnery,1997:3)。 6)语料库既是一种研究方法,又代表着一种新的研究思维,并以当代先进的计算机技术为技术手段。 7)语料文本是一连续的文本或话语片断(running text or continuous stretches of discourse),而不是孤立的句子和词汇。在语料库研究中,对某一搜索词的语法关系、用法、以及搭配的观察是通过分析提供的语境(context)进行的。语料库索引提供的语境可分为以下几种:(1)指定跨距,即使用者指定以搜索词为中心左右相邻的词数;(2)意元语境,即以某一意义单元结束为一微型语境,在语料库索引中意元的确定是以意义结束符号如“,;”等为标识的;(3)句子语境,即以句子终结符号如“. !”等为标识;(4)可扩展语境,即对搜索词所在语境可无限扩展。这对研究词汇的语法关系、词汇用法、词汇搭配、词丛(word cluster)、词汇在连续语篇中呈现的范型(pattern)、以及主题词汇之间的意义关系提供了可靠而方便的途径。如“necessarily”一词在《新英汉词典》中作为“necessary”词条下该词的副词形式,定义为“必定,必然”;Oxford Advanced Learner’s Dictionary of Current English把它列为一个单独的词条,给出的定义为“adv as a necessary result; inevitably”;各种英语教科书中对该词的定义和解释也大同小异。在上海交大科技英语语料库(以下简称JDEST)中搜索“necessarily”这个词,发现该词在全库中出现264次,频率最大的搭配词“not”出现在该词左边第一个位置,观察搭配频数为136。全库中出现5次以上的三词词丛有20组,同时含有“not”和“necessarily”的词丛有18组。通过索引行统计和词丛统计可以看出(见图2.4示例),“necessarily”一词最典型的用法是与“not”

相关主题
文本预览
相关文档 最新文档