国内语料库建设一览表 宁静以致远~~ csdnblog
- 格式:doc
- 大小:13.45 KB
- 文档页数:8
大学英语四、六级考试语料库建设剖析大学英语四、六级考试是我国高等教育最重要大规模,标准化外语考试,对促进我国大学生整体外语水平提高发挥了重要作用。
同时,这项考试对于国家、社会各类用人单位公正,科学评估大学生外语水平,合理选拔录用人才,也发挥了积极作用。
因此,我们语料库语言学研究也应理论联系实际,注重研究考试语料库开发建设问题,特别应着手建立像大学英语四、六级考试这类关系重大大规模外语考试试题语料库。
正是出于这一理念,我们以过去十一年这两项考试真题及模拟试题为原始语料,采用手工标注试卷主要语法特征模式,花费了近两年时间建立了《大学英语四、六级考试语料库》。
我们相信,作为一种新网络信息资源,一个新媒体工具,这一试卷语料库将会为大学外语教学提供有价值新信息。
因为这个语料库对于大学英语辞书、语法、词汇、阅读教材、参考资料编写,老师、同学把握四、六级考试重点,都提供了真实、量化、可靠依据。
广大英语教师与同学可以方便地把它联接在大学网站、教育网站上,拷入学校计算机室、网络教室计算机内,或装入自己计算机中检索、研究、使用。
现将这个语料库设计理念、建设过程及其对大学英语教学、四、六级考试复习、备考意义简要介绍如下。
1 建立大学英语四、六级考试语料库重点剖析与解决问题在建设这一语料库时,我们特别留意观察国内外专门用途语料库建设现状,研究了当前国际语言学界较为流行几款语料库软件不同特点,如Wordcruncher, Concordance,Lexa,TACT及Wordsmith等软件。
在对这些软件优点及缺陷进行系统剖析基础上,根据对四、六级试卷语法特征进行检索专门要求,我们设计出了这一项目专用语料库检索软件,“四、六级考试语法特征检索软件”,并反复实验,多次上机运行,检测软件各项指标,不断改进,直到软件运行平稳,达到了较为理想效果。
这样就为科学、便利地检索出四、六级考试各项语法考查重点提供了可靠技术保障。
同时我们也剖析了考查要点内容定位与标注模式符号统一问题。
国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表类型语料库名称及大小建设单位英语学习者语料库(书面语及口语)中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万)上海交大香港科技大学学习者语料库HKUST Learner Corpus香港科技大学中国英语专业语料库CEME(148万)南京大学中国英语学习者口语语料库SECCL (100万)南京大学国际外语学习者英语口语语料库中国部分LINSEI-China (10万)华南师大硕士写作语料库MWC(12万)华中科技大学平行语料库汉英平行语料库PCCE北外南大-国关平行语料库南京大学英汉文学作品语料库;外研社冯友兰《中国哲学史》汉英对照语料库李约瑟(JoselfNeedham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所柏拉图(Plato)哲学名著《理想国》的双语语料库英汉双语语料库(15万对)中科院软件所英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)东北大学英汉双语语料库(40-50万句子对)哈尔滨工业大学双语语料库(5万多对)北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities)香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾特殊英语语料库中国英语(China English)语料库河南师范大学军事英语语料库(Corpusof Military Texts)解放军外语学院新视野大学英语教材语料库上海交通大学汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字)北京航空航天大学中学语文教材语料库(1983年,106万8000字) 北京师范大学现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字)北京大学计算机语言学研究所大型中文语料库(5亿字,10分库)北京语言文化大学现代汉语语料库(1亿字)清华大学汉语新闻语料库;(1988年,250万字) 山西大学标准语料库(2000年,70万字)生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所。
汉语语料库的建设及其在汉语教学中的应用(精华)汉语语料库的建设及其在汉语教学中的应用*俞士汶北京大学信息科学技术学院北京大学计算语言学研究所1. 引言语言学家历来重视第一手语言资料的获取和运用。
在个人计算机普及以前,语言学家只能靠手工用卡片收集少量的典型的资料。
所以,中国前辈语言学家曾感叹他们是在用小本钱做大买卖。
计算语言学把传统的语言学研究同自然语言信息处理技术结合起来,为语言学的发展、为语言教学研究注入了新的活力。
计算语言学(Computational Linguistics)这个专业术语自 1960 年代在文献中出现以来[1],这门学科已经有了40 多年的发展历史。
1990 年代,语料库语言学异军突起,这是计算语言学发展历史上的一个重要的里程碑。
由于计算机以及应用技术(电子排版、因特网等等)的发展,大规模的电子文本唾手可得,自然语言处理技术专家有了从大规模真实文本中获取语言知识(词频、词义、词语搭配、句子结构规则等等)的物质基础,基于大规模语料库的统计语言模型(如:n 元语法、隐马尔可夫模型、向量空间模型等)在诸如词性标注、文本分类等语言工程中的成功应用[2]更加有力地推动了语料库语言学的发展,至今仍是方兴未艾。
语料库语言学发展的基础设施是由大规模真实文本资料构成的语料库。
可以引用以下事实作为语料库价值的佐证。
2002 年 3 月,中国教育部和国家语委发布《第一批异形词整理表》时,李行健先生解释了整理异形词所遵循的三个原则:通用性、理据性、系统性。
并进一步说明:“通用性怎么确定呢,就是用计算机做词频统计。
”这项词频统计工作是应用计算机技术、选用1995 年至2000 年6 年共计1.5 亿字的《人民日报》语料作为对象进行的。
如果没有理解错,笔者以为李行健先生所做的“词频统计”是仅仅针对预先收集到的几百组(最多不过1500 组)异形词进行的。
即使针对性如此明确,在中文文本中统计这些异形词的时候,仍会遇到困难。
古今汉语平行语料库的语料构建一缘起“汉语是世界上正在使用的语言中最古老的语种之一。
汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界上都是无与伦比的。
”①灿烂悠久的中国思想文化,通过这些典籍得以保存、传承,在历经千载的延续过程中,又得后人的认识和研究,融入新的内涵,由此构筑了中国的古代文明。
今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使用着,尤其在人文学科领域的应用价值更是显而易见。
同时,随着大众文化水平的提高、经济的发展与对外往来的增加,越来越多的非专业人士希望深入了解中国传统的思想文化,但古代汉语与现代汉语之间存在着的明显差异使得很多现代人难以理解以古汉语为载体的传统典籍。
有鉴于此,我们提出要建设一个大型、开放的古今汉语平行语料库及其应用平台,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代汉语教学与研究以及辞书编纂提供基础资源,为需要了解中国传统思想文化的普通读者及相关学科的专家提供阅读、翻译、检索、统计服务,并为与现有的汉英双语语料库的对接奠定基础,从而为实现古汉语和英语的翻译(含机器翻译或机器辅助翻译)创造条件。
平行语料原指使用不同语言撰写、相互间具有“翻译关系”的文本,本文将其延展为基于同一语言且不同历史时期兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。
平行语料库已被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。
国外涉及汉语的平行语料库中影响较大的是与Freiburg-LOB Corpus of British English (即FLOB 平行对应的汉语语料库LCM②(The Lan caster Corpus of Ma ndarin Chinese )。
国内的主要研究有北京大学计算语言学研究所的汉英双语语料库以及北京外国语大学拥有的目前国内最大的双语平行语料库(含汉英和汉日两个库)等[1] 。
国家语言资源监测语料库介绍何婷婷杨尔弘侯敏华中师范大学计算机科学系国家语言资源监测与研究中心网络媒体语言分中心北京语言文化大学国家语言资源监测与研究中心平面媒体语言分中心中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心2005年,教育部语言文字信息管理司开始和国内若干高校陆续联合建设语言资源监测中心,其中包括与北京语言文化大学共建的平面媒体语言分中心、与中国传媒大学共建的有声媒体语言分中心、与华中师范大学共建的平面媒体语言分中心。
这三个分中心分别建设了平面媒体动态流通语料库、有声媒体监测语料库、网络媒体监测语料库,它们共同构成国家语言资源监测语料库。
语料库包括网页、纯文本,并采用中科院自动化所的自动分词工具做了自动分词。
欢迎各界同仁共同开发、建设使用该语料库。
1、语料库现状1.1 平面媒体动态流通语料库(DCC)平面媒体语言分中心自2001年以来,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸的内容,作为平面媒体动态流通语料库的语料采集内容,目前,已经形成了近30亿字的语料库。
语料进行了元数据的标注、自动分词标注,语料库提供了生语料、分词标注语料的检索功能,并能够历时地查询词语使用的情况。
网址/。
根据网页栏目的分类体系,所有语料进行了分类。
类别包括15类:娱乐,游戏,文艺,体育,时政新闻_社会,时政新闻_军事,时政新闻_国内,时政新闻_国际,生活男女,汽车,旅游,科技,经济,教育,房产。
为实现语料库中的文本分类,建立了60万个文本的训练语料,语料规模约6亿字次。
1.2有声媒体监测语料库有声媒体语言分中心自2001年开始语料库的建设。
到目前为止,已建起一个多功能的、跨媒体的汉语传媒有声语言语料库。
每年以收视率为基本条件,综合考虑了“传播媒介(广播、电视)、媒体级别(中央、地方)、播出时间(黄金时间、非黄金时间)、节目样态(独白、对话、综合)、文本现存(是否有转写好的文本)”五个因素,采集了电台、电视台播出的有声节目的录音或录像及由其转写成的文本语料。
【推荐】语料库语言学各种常用软件下载资料来源:博主按:以下文字和软件等版权属原作者,使用请注意版权。
部分网址可能失效,但是可以按图索骥。
博主对原文和原软件作者深表谢意!作者:张义出自:张义的语言学博客浏览/评论:3,577/5日期:2005年10月20日18:011.concapp04(concapp03的修订版,可支持超大字符集)软件下载地址;(concapp03版)2.Wconcord--语料库分析软件软件介绍:A slow but very stable concordancer that can create concordances,collocation tables,and frequency lists.Unfortunately,the output is limited to 16,000 lines.下载地址3.WordSmith Tools 4--语料库分析软件介绍Michael Scott's brilliant software.下载地址中科院计算所汉语词法分析系统ICTCLAS软件介绍:词是最小的能够独立活动的有意义的语言成分。
但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。
为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。
分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。
ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。
中国语料库研究的历史与现状冯志伟语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科-- 语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
1.国外语料库概况现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster 大学与挪威Oslo大学与Bergen大学联合建立了LOB 语料库。
欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。
国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表
类型
语料库名称及大小
建设单位
英语学习者语料库(书面语及口语)
中国学习者语料库CLEC(100万)
广外、上海交大
大学英语学习者口语语料库
COLSEC (5万)
上海交大
香港科技大学学习者语料库
HKUST Learner Corpus
香港科技大学
中国英语专业语料库CEME
(148万)
南京大学
中国英语学习者口语语料库
SECCL (100万)
南京大学
国际外语学习者英语口语语料库中国部分LINSEI-China (10万)
华南师大
硕士写作语料库MWC
(12万)
华中科技大学
平行语料库
汉英平行语料库PCCE
北外
南大-国关平行语料库
南京大学
英汉文学作品语料库;
外研社
冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself
Needham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;
国家语言文字工作委员会语言文字应用研究所
柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对)
中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对
中国科学院自动化研究所
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)
东北大学
英汉双语语料库(40-50万句子对)
哈尔滨工业大学
双语语料库(5万多对)
北京大学计算语言学研究所
对比语料库
LIVAC(Linguistic variety in Chinese communities)
香港城市理工大学
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料库
中国英语(China English)语料库
河南师范大学
军事英语语料库(Corpus
of Military Texts)
解放军外语学院
新视野大学英语教材语料库
上海交通大学
汉语语料库
汉语现代文学作品语料库(1979年,527万字) 武汉大学
现代汉语语料库(1983年,2000万字)
北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院
国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会
《人民日报》语料库(2700万字)
北京大学计算机语言学研究所
大型中文语料库(5亿字,10分库)
北京语言文化大学
现代汉语语料库(1亿字)
清华大学
汉语新闻语料库;(1988年,250万字) 山西大学
标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学
现代自然口语语料库
中国社会科学院语言所
旅游咨询口语对话语料库和旅馆预定口语对话语料库
中国科学院自动化所。