国内语料库建设一览表
- 格式:doc
- 大小:56.00 KB
- 文档页数:3
国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表类型语料库名称及大小建设单位英语学习者语料库(书面语及口语)中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万)上海交大香港科技大学学习者语料库HKUST Learner Corpus香港科技大学中国英语专业语料库CEME(148万)南京大学中国英语学习者口语语料库SECCL (100万)南京大学国际外语学习者英语口语语料库中国部分LINSEI-China (10万)华南师大硕士写作语料库MWC(12万)华中科技大学平行语料库汉英平行语料库PCCE北外南大-国关平行语料库南京大学英汉文学作品语料库;外研社冯友兰《中国哲学史》汉英对照语料库李约瑟(JoselfNeedham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所柏拉图(Plato)哲学名著《理想国》的双语语料库英汉双语语料库(15万对)中科院软件所英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)东北大学英汉双语语料库(40-50万句子对)哈尔滨工业大学双语语料库(5万多对)北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities)香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾特殊英语语料库中国英语(China English)语料库河南师范大学军事英语语料库(Corpusof Military Texts)解放军外语学院新视野大学英语教材语料库上海交通大学汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字)北京航空航天大学中学语文教材语料库(1983年,106万8000字) 北京师范大学现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字)北京大学计算机语言学研究所大型中文语料库(5亿字,10分库)北京语言文化大学现代汉语语料库(1亿字)清华大学汉语新闻语料库;(1988年,250万字) 山西大学标准语料库(2000年,70万字)生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所。
《当代语言学》第11卷2009年第2期113-123页,北京词义消歧研究:资源、方法与评测3吴云芳 北京大学提要 词义消歧是计算语言学领域的基础性关键研究课题。
本文从语言资源建设、词义消歧方法和国际语义评测三个方面概要地介绍了词义消歧研究的现状:语言资源建设主要介绍了语义词典构建和词义标注语料库建设;词义消歧方法重点介绍了有指导的机器学习方法;语义评测主要介绍了国际语义竞赛Se mEval 。
以期了解词义消歧研究的前沿状态,促发从计算的角度来审视义项区分和词义描述,进而促进汉语词汇语义学的研究。
关键词 词义消歧 义项区分 词义标注语料库 有指导的机器学习方法 语义评测1.引言词义消歧(word sense disa mbiguati on,W S D )是计算机根据上下文语境来自动确定词语的意义。
词义消歧包含两个必要的步骤:(1)在词典中描述词语的意义;(2)在语料中进行词义自动消歧。
例如“仪表”在词典中描述有两个不同的意义:人的外表;测定温度、气压等的仪器。
对于下面两个语句:(1)贵族的仪表使人对人性产生了美丽的错觉。
(2)我国仪器仪表事业的创始人朱良漪。
在网络上进行信息检索时,计算机应该能自动将不同意义的“仪表”区别开来并分别显示。
在汉英机器翻译中,例(1)中“仪表”可译成appearance,而例(2)中“仪表”应译成meter 。
词义消歧是计算语言学领域的基础性关键研究课题,作为一个“中间任务”,直接关系到信息检索、机器翻译、文本分类、语音识别等语言处理应用系统的效率和成败。
W eaver (1949)论及机器翻译系统中必须进行词义消歧,这一点在Chan 等人(2007)的研究中得到了证明,其研究表明词义消歧可以显著提升机器翻译系统的准确率。
St okoe 等人(2003)证明高效的词义消歧技术可以显著提升信息检索的准确率。
然而,正如I de 和Ver onis (1998)所指出的那样,虽然历经半个多世纪的努力,词义消歧研究并没有取得突破性进展。
CLEC中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计 1070602言语失误标注原则1. 简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2. 分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past,[vp6, 4-] kind to each other…, 失误用方括号表示,放在失误people are 之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
语料库简介及国内的语料库建设摘要:语料库作为一种随着计算机技术发展而广泛应用的新兴的语言研究工具,在语言的定量分析上有极大的作用。
本文正是基于语料库的这种重要性,对国内外的语料库建设发展进行了简介,并且分析了国内语料库建设的不足。
关键词:语料库;国内语料库;语料库语言学1、语料库发展综述语料库通常指为一个或多个语言研究目标而专门收集的、有一定结构的、具有一定规模的、用电子形式保存的、可以被计算机程序检索的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
下面对语料库发展的四个时期进行分别介绍。
1.1手工语料库时期18世纪开始到20世纪50年代,语料的研究都是手工进行的,由人工收集,将需要的词或句子写在纸条上,然后整理成卡片进行检索。
涉及到了圣经与文学研究、词典编纂、语言教育研究、语法研究和方言研究、儿童语言习得和语言比较的研究中。
他们使用大规模语言资料来进行语言研究的工作,是具有开创性的。
但这些语料库都是手工建立的,研究者们假定自然语言的句子是有限的。
这些有限的句子可以收藏和列举,语料库可以作为语言研究的唯一可靠的数据来源,这样的看法难免由片面的地方。
他们使用的语言材料都不是机器可读的,所以还不能算成是真正意义上的语料库。
代表人物是伦敦大学的奎克,他提出了英语用法调查语料库,代表了使用手工方法建立的语料库的最高水平。
1.2 第一代电子语料库时期20世纪五十年代到80年代,出现了机器可读的语料库。
语料库来到了电子或电脑化的时代。
在这个时期建立了布朗语料库、LOB语料库、LLC语料库等影响十分大的语料库。
语料均为书面语,缺乏口语和手稿。
这些语料库的规模都比较小,布朗语料库和LOB语料库都只有100万词左右。
这些小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌。
近十年汉语中介语语料库建设介绍作者:王丽会来源:《读与写·上旬刊》2015年第06期摘要:语料库是指一个由大量的语言实际使用的信息组成,可供语言研究的资料库。
目前为止,各国制作了许多语料库,除了文本语料外,还有语音语料,语料库的规模越来越大。
对语料库的研究也是涉及到方方面面,本文主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。
关键词:汉语中介语语料库;建设;简介中图分类号:G648 文献标识码:B文章编号:1672-1578(2015)06-0001-01"语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
"这种观点不仅仅是语料库语言学家们的自誉,也正在成为整个语言学界的共识(丁信善,1998)。
语料库作为一种研究方法正在不断得到推进和改善,在某些方面发挥着传统研究方法无法比拟的作用。
随着语料库语言学的迅速发展和母语语料库的广泛建设,从上世纪90年代开始,中国大陆开始建设外国人学习汉语的中介语语料库。
经过20多年的发展,语料库建设已初具规模,语料库被广泛运用于二语习得,语言教学,对比语言学,词典编辑,句法学和语义学等各方面研究,并在对外汉语教学及相关研究领域发挥了重要的推动作用。
以往语料库的研究主要从建设和应用两大角度出发,而语料库的设想和建设是基于语料库的一系列研究的前提和基础,本文通过列举的方式主要对近十年汉语中介语语料库的设想和建设情况作简单介绍。
王韫佳,李吉梅(2001),该文拟建立的汉语中介语语音语料库以文本、语音和声学参数三种形式和用户见面,其中后两种形式是用户比较关心的,也会给研究带来很多方便。
该语料库的建立包括发音人和发音素材的确立、录音、数据库系统和数据库管理系统的建立、原始资料的登录、对部分录音的声学分析和声学参数的登录五部分,然后对汉字文本进行标音转写,并对声母和韵母,音节,节奏单元等进行标注。
三个汉语中介语语料库对比分析随着汉语在全球的普及和影响力的提升,汉语中介语语料库的发展也日益受到人们的。
中介语语料库是第二语言习得研究的重要工具,能够反映出第二语言学习者在习得过程中的语言使用情况和特点。
本文将对三个汉语中介语语料库——国家社科基金语料库、国家汉语水平考试中心语料库和北京大学汉语中介语语料库进行对比分析。
国家社科基金语料库是由北京语言大学牵头建设的大型汉语中介语语料库,涵盖了不同汉语水平的学习者在不同学习阶段所使用的语言材料。
该语料库包含了书面语和口语材料,其中书面材料包括作文、翻译、阅读等,口语材料包括口语表达、口语考试等。
该语料库的特色在于对不同水平的学习者进行了标注和分类,有利于针对不同水平的学习者进行深入研究。
国家汉语水平考试中心语料库是国家汉语水平考试中心建设的大型汉语中介语语料库,主要涵盖了中高级水平学习者的语言材料。
该语料库以测试和模拟试题为主,包括听力、阅读、写作等部分。
该语料库的特色在于其试题均来自国家汉语水平考试的真实考题,具有较高的真实性和可靠性。
北京大学汉语中介语语料库是由北京大学对外汉语教育学院建设的中级汉语学习者使用的中介语语料库,主要涵盖了中高级水平学习者的语言材料。
该语料库包含了各类写作材料,包括日记、作文、翻译等,同时也包括口语表达和口语考试等材料。
该语料库的特色在于对学习者的各类写作材料进行了细致的标注和分类,有利于针对不同类型的学习者进行深入研究。
国家社科基金语料库和国家汉语水平考试中心语料库均属于大型中介语语料库,但两者的语料来源和规模存在一定差异。
国家社科基金语料库的书面材料来源广泛,包括作文、翻译、阅读等,而国家汉语水平考试中心语料库则主要来源于真实的考试试题。
在规模方面,国家社科基金语料库的口语材料相对较多,而国家汉语水平考试中心语料库的书面材料则更为丰富。
北京大学汉语中介语语料库相对较小,但也有一定的代表性。
其材料来源相对较为集中,主要涵盖了中高级学习者的各类写作材料。
语言翻译必备:国内外23个语料库推荐语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
下面推荐一些优质的语料库资源。
国内语料库资源1. 国家语委现代汉语语料库 现代汉语通用平衡语料库现在重新开放网络查询了。
重开后的在线检索速度更快,功能更强,同时提供检索结果下载。
现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
2. 国家语委古代汉语语料库 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。
同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。
3. 北京大学“《人民日报》标注语料库”4. 北大语料库——北京大学中国语言学研究中心 北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。
其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。
正在此基础上做汉英对照短语库,预计规模将达数十万条。
(汉英双语语料库目前仅对北大校内用户开放)5. 北京语言大学高翻学院的“高翻记忆库”6. 清华大学汉语均衡语料库TH-ACorpus7. 中央研究院“现代汉语平衡语料库” 专门针对语言分析而设计的,每个文句都依词断开,并标示词类。
语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。
现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。
8. 中央研究院“近代汉语标记语料库”9. 中央研究院汉籍电子文献(瀚典全文检索系统) 包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。
国内汉语语料库概况作者:郑萌来源:《科技视界》2014年第27期【摘要】本文概述了语料库的起源和发展的历史,着重从中国语料库的建设与发展出发,列举近二十年常用的大型语料库,并对中国语料库语言学研究存在的问题和发展趋势等方面进行了分析,为语料库的建设和语言学研究提供参考建议。
【关键词】汉语;语料库;语言学0 引言自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的建设上成绩显著。
不同语言、不同类型、不同规模的语料库越来越多。
语料库的广度越来越大,开发加工的深也日益加深。
语料库在语言学研究和自然语言处理中发挥的作用越来越大。
自第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多年的历史。
而国内的语料库研究也有30多年的历史,并在上世纪90年代得到飞速发展,语言学与计算机技术加速融合,不同的学者和专家秉着不同的出发点,在各种角度和各种层次上进行了大量实证研究,这使得我国的语料库语言学迅速发展繁荣。
1 语料库和语料库语言学1.1 语料库和语料库语言学的定义语料库(corpus 或corpora,corpuses[复]):是指按照一定的语言学原则,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。
语料库语言学:在文本语料的基础上进行语言研究的一门学科。
语料库语言学通过语言现象出现的概率对语言材料进行研究。
这里的语言材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观性,研究结果更加真实可靠。
1.2 语料库在语言学研究领域的应用语料库应用对语言学研究的主要改进有:(1)保证了语料的客观真实性,排除了语言学家的主观性;(2)借助计算机的储存能力,提高了研究的广度和深度;(3)提高了工作效率,减少了人工误差;(4)使语料资源具有共享性。
国内语料库建设一览表
类型语料库名称及大小建设单位
英语学习者语料库(书面语及
口语)
中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万) 上海交大香港科技大学学习者语料库HKUST Learner Corpus 香港科技大学中国英语专业语料库CEME (148万) 南京大学中国英语学习者口语语料库SECCL (100万) 南京大学
国际外语学习者英语口语语料库中国部分LINSEI-China (10万) 华南师大硕士写作语料库MWC (12万) 华中科技大学
平行语料库
汉英平行语料库PCCE 北外
南大-国关平行语料库南京大学
英汉文学作品语料库;
外研社冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库
计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研
究所柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对) 中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语
料31万句子对
中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学
英汉双语语料库(40-50万句子对) 哈尔滨工业大学
双语语料库(5万多对) 北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料
库
中国英语(China English)语料库河南师范大学军事英语语料库(Corpus of Military Texts) 解放军外语学院新视野大学英语教材语料库上海交通大学
汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字) 北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字) 北京大学计算机语言学研究所大型中文语料库(5亿字,10分库) 北京语言文化大学
现代汉语语料库(1亿字) 清华大学
汉语新闻语料库;(1988年,250万字)
山西大学标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所。