国外个主流语料库使用
- 格式:doc
- 大小:44.50 KB
- 文档页数:3
中外学术英语语料库
中外学术英语语料库是一个大型的语料库,主要用于学术研究,特别是语言学、文学、翻译等领域。
该语料库包含了大量的学术论文、期刊文章、会议论文等资源,涵盖了各个学科领域。
中外学术英语语料库的建立,旨在为学者们提供一个全面、权威的学术资源平台,方便他们进行学术研究、论文写作、翻译等工作。
该语料库不仅提供了大量的语料资源,还提供了各种分析工具和统计数据,帮助学者们更好地分析和理解语言现象。
此外,中外学术英语语料库还注重学术诚信和版权保护,确保所有资源都经过严格的筛选和审核,确保学术研究的公正性和权威性。
同时,该语料库还提供了一些学术规范和指导,帮助学者们更好地遵守学术道德和规范。
总之,中外学术英语语料库是一个非常有价值的学术资源平台,为学者们提供了全面的学术支持和帮助。
语言学常用语料库
语言学常用语料库有很多,以下是一些常用的语料库:
1. Brown语料库:美国布朗大学语言学部于1960年代编制的语料库,是英语语料库中最早的、最著名的语料库之一。
2. Penn Treebank语料库:由宾夕法尼亚大学开发的语料库,主要用于句法分析和语言学研究。
3. CoNLL语料库:共享任务(Conference on Computational Natural Language Learning)所使用的语料库,包括各种语言的语料。
4. Europarl语料库:包括欧洲议会会议的多种语言翻译版本,用于机器翻译和跨语言研究。
5. Google语料库:由Google搜索引擎收集的大规模网络文本语料库,可用于研究自然语言处理和文本挖掘等领域。
6. Corpus of Contemporary American English (COCA):包括当代美国英语的语料库,涵盖了各种不同类型的文本。
7. British National Corpus (BNC):出版物、广播和会话等来源的英国英语语料库,是英国英语的重要资源。
这些语料库提供了大量的文本数据,可用于研究不同语言的语
言学现象,如词汇使用、语法结构和语义等。
它们对于语言学研究和自然语言处理的发展起着重要作用。
英语句子语料库
英语句子语料库是用于自然语言处理和机器学习的文本数据集,其中包含大量英语句子。
以下是一些常用的英语句子语料库:
1. Brown Corpus:布朗语料库,包含一百万个单词,涵盖了多种文体和主题。
2. Penn Treebank:宾州树库,包含大量的英语句子和词性标注信息。
3. CoNLL 2003:用于命名实体识别和词性标注的语料库。
4. OntoNotes:多语言语料库,包含英语、中文、阿拉伯语等多种语言的文本和标注信息。
5. BERT Corpus:BERT模型使用的语料库,包含大量的英语句子和预训练模型。
6. OpenWebText Corpus:开源的Web文本语料库,包含大量的英语句子和网络用语。
7. Common Crawl Corpus:公共爬虫语料库,包含大量的英语句子和网页内容。
8. News Crawl Corpus:新闻爬虫语料库,包含大量的英语新闻文章和句子。
9. WikiText-103:维基百科文本语料库,包含大量的英语维基百科文章和句子。
10. BookCorpus:书籍语料库,包含大量的英语书籍和句子。
以上是一些常用的英语句子语料库,可以根据需要进行选择和使用。
这些语料库可以用于自然语言处理、机器学习、文本挖掘等领域的研究和应用。
双语语料库的用途
双语语料库是指以两种语言作为语料库的基础,主要用于帮助人们理解和翻译不同的语言。
它们广泛用于翻译、学习语言、语言教学、自然语言处理等领域。
以下是双语语料库的几种用途:
1. 翻译:双语语料库可以提供大量的语言对比资料,以帮助翻译人员更快更准确地翻译。
通过对比两种语言的语法、词汇、用法和习惯表达方式等,可以更好地理解和翻译不同的语言。
2. 学习语言:双语语料库可为学习者提供丰富的语言对比资料,以便更好地掌握语言。
通过对比两种语言的差异和相似之处,学习者可以更好地理解和掌握语言的特点和用法。
3. 语言教学:双语语料库可为教师提供丰富的教学资源,以便更好地教授语言。
通过对比两种语言的语法、词汇、用法和习惯表达方式等,教师可以更好地设计教学内容和教学方法,以提高学生的语言水平。
4. 自然语言处理:双语语料库可为自然语言处理提供数据支持,以便更好地进行文本分析、语言识别、机器翻译等任务。
通过对比两种语言的语法、词汇、用法和习惯表达方式等,可以更好地训练自然语言处理系统,以提高其准确性和效率。
总之,双语语料库在语言学和计算机科学等领域中都具有重要的应用价值。
随着全球化的不断加速,双语语料库的应用前景将更加广阔。
- 1 -。
语言学常用语料库
以下是一些语言学常用的语料库:
- Brown语料库:这是一个基于英语的语料库,包含了1961年至1979年间推广的1,000,000个单词的样本,覆盖了各种文体和题材。
- COCA(Corpus of Contemporary American English):这是一
个覆盖美国当代英语的语料库,包含了1990年至今的一亿多
个单词样本。
- BNC(British National Corpus):这是一个覆盖英国英语的
语料库,包含了1980年代至1993年间的一亿个单词样本。
- CHILDES(Child Language Data Exchange System):这是一
个收集婴儿和儿童语言数据的数据库,用于研究儿童语言发展。
- Penn Treebank:这是一个标注了句法和语义信息的英语语料库,用于自然语言处理研究。
- EuroParl语料库:这是一个包含欧洲议会会议记录的多语言
语料库,可以用于研究多语言对比和机器翻译。
- COrE(Corpus of English):这是一个以英语为基础的多样
化语料库,包含了来自不同国家和地区的语言样本,用于研究语言变体和语言接触。
- WALS(World Atlas of Language Structures):这是一个收集了世界各地不同语言结构的数据库,可以用于跨语言比较和语言学理论研究。
这些语料库可以通过在线平台或特定的研究机构访问和获取。
使用语料库可以帮助语言学家进行语言研究、语言分析和理论构建。
国外个主流语料库使用参考期刊网上刘玉山,胡志军的介绍。
这是一个语料库标题索引软件(一致性),由魁北克大学蒙特利尔分校(UQAM),加拿大魁北克大学的汤姆科布开发。
三部分:learners,researchers,teachers自我学习,研究,教师命题。
它可以同时提供多个语料库的在线搜索,但缺点是一次只能处理一个文本。
2.bnc从2022起,将通过BYU的申请免费获得。
britishnationalcorpus从一980年到1993年,有1亿字,90%是书面的,10%是口头的,4124篇文本英国牛津出版社p朗文出版公司p钱伯斯―哈洛普出版公司p牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库共有七类口头演讲、小说、流行杂志、报纸和学术期刊,以及两类非学术、杂项,不包括在古柯分类中secondeditionbncworld(2001)thirdeditionbncxmledition(2021)摘自国际和国内报纸、专家、期刊和期刊、兴趣爱好、学术书籍和出版物,发表在丹东出版社和memranda,学校和大学论文,以及许多其他类型的文本。
通常可以访问的链接是杨百翰大学提供的BYUbyu大学在2021年对语料库经行了重新附码,用的claws73.Coca:当代美式英语杨百翰大学语料库3.6亿,1990-2021年间,美国国内各种语料语料库来源有五种:口语、小说、通俗杂志、报纸和学术期刊且持续更新中,每年以2000万词递增,目前到1990-2021,共4.5亿词它标志着语料库的时间,便于研究语言的历时和共时变化以及相关的教学用法查找同义词,如[=scold].[v*]表示查找所有scold的同义词找到一个主题的词汇,比如花[n*]的意思是找到与花有关的单词。
如果你需要找到更专业的词汇,使用相互信息。
找出一个词的风格分布查找词汇的搭配如[head].[v*]up表示head作为动词搭配up4.同时,BYU还提供了其他在线搜索语料库,如《时代》杂志语料库、美国语料库和谷歌图书语料库,这些语料库可以在未来进一步研究。
wikipedia语料库使用方法使用Wikipedia语料库的方法Wikipedia是全球最大的在线百科全书,拥有丰富的知识库和多语言版本,每天都有大量的用户贡献和编辑。
Wikipedia语料库是由Wikipedia的所有文章和相关信息组成的一种资源,它包含了各种主题的文章、页面历史、编辑讨论和其他与内容相关的信息。
使用Wikipedia语料库可以帮助我们进行文本分析、信息提取、自然语言处理等任务。
本文将介绍如何使用Wikipedia语料库以及如何利用它进行文本分析和信息提取。
一、获取Wikipedia语料库要使用Wikipedia语料库,首先需要下载并安装Wikipedia的数据文件。
Wikipedia提供了各种下载选项,包括完整的语料库、特定语言的语料库以及最新或历史版本的语料库。
用户可以根据自己的需求选择合适的下载选项。
一般来说,下载完整的语料库需要较大的存储空间和较长的下载时间,而下载特定语言的语料库则相对较小。
二、解析Wikipedia语料库下载完毕后,需要对Wikipedia语料库进行解析,以便将其中的内容提取出来进行分析。
常见的解析方式是使用开源工具,如WikiExtractor或Wikipedia Extractor。
这些工具可以将Wikipedia语料库中的文章和其他信息提取为纯文本格式,并去除一些无关的标记和格式。
三、文本分析和信息提取解析后的Wikipedia语料库可以用于各种文本分析和信息提取任务。
以下是一些常见的应用示例:1. 文本分类:可以使用Wikipedia语料库中的文章进行训练,构建文本分类模型,用于对新文本进行分类。
这对于自动化新闻分类、情感分析等任务非常有用。
2. 关键词提取:可以使用Wikipedia语料库中的文章来提取关键词,帮助理解文章的主题和内容。
关键词提取可以通过统计词频、TF-IDF等方法来实现。
3. 命名实体识别:可以利用Wikipedia语料库中的实体链接信息,对文本中的命名实体进行识别和链接。
1. The Complete Lexical Tutor
http://www.lextutor.ca/
参考期刊网上刘玉山,胡志军的介绍。
是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发
三部分:learners, researchers, teachers自我学习,研究,教师命题。
特别是concordance中有13个语料库为检索对象。
还可以用来对学生作文中的用词分析。
http://www.lextutor.ca/concordancers/concord_e.html
可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。
2.BNC
2014年开始,免费获得,通过BYU的申请。
British National Corpus
一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料
英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库
共有七类
口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic
还有COCA分类中没有的两类non-academic, miscellaneous
second edition BNC World (2001)
third edition BNC XML Edition (2007)
extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text
通常可进入的那个链接是BYU, 美国杨百翰大学提供的
BYU大学在2012年对语料库经行了重新附码,用的CLAWS 7
3. COCA: the corpus of contemporary American English
Brigham Young University 美国犹他州杨百翰大学
Doctor Mark Davies
3.6亿,1990-2007年间,美国国内各种语料
口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源
且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词
Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance 相关度
标记了语料的时间,便于研究语言历时与共时的变化
教学中相关用法
查找同义词,如[=scold].[V*]表示查找所有scold的同义词
查找某一话题的词汇,如flower.[N*],表示查找与花有关的词汇,如果需要查找更为专业的词汇,就利用互信息。
查找某一词汇的语体分布
查找词汇的搭配如[head].[v*] up表示head作为动词搭配up
4.同时BYU提供在线搜索的其他语料库,例如Time Magazine Corpus, Corpus of American Soap Operas, Google Books , 可以以后继续学习。
5.布朗家族语料库
第一个Brown 创建于60年代,美国布朗大学500个文本,每个2000词,共一百万词,文本来源于1961年美国出版物。
our broad genres refer to newspaper texts (A-C, 88 texts), miscellaneous informative prose or general prose (D-H, 206 texts), learned and scientific English (J, 80 texts), and fictions (K-R, 126 texts), cf. http://icame.uib.no/archives/No_5_ICAME_News_index.pdf)
第二个LOB ,创建于79年代,LOB语料库创建时间:1970年代初创建单位:G. Leech (Lancaster大学),S. Johansson (Oslo大学)和K. Hofland (Bergen大学) 三方协同,依据布朗语料库的模式,建起了“兰开斯特—奥斯陆/卑尔根语料库”(The Lancaster-Oslo / Bergen (LOB) Corpus)。
英国Lancaster大学和挪威Oslo大学以及Bergen大学规模层级:100万词次基本情况:研究当代英国英语,与美国英语对比,The Lancaster-Oslo/Bergen Corpus (LOB)
第四Frown和Flob是德国Freiburg大学分别按照原来Brown和LOB语料库抽样方案而建成的1991年的美国英语和英国英语语料库。
第五个是Crown_CLOB语料库是由北京外国语大学中国外语教育研究中心的许家金副教授和梁茂成教授于2012年建成的通用语料库。
语料库语体子库容量总库容语料库语体子库容量总库容
Brown 1961 小说259467
1027021
LOB
1961
小说258722
1018785 通用423160 通用418137
学术163309 学术162322
新闻181085 新闻179604
Frown 1992 小说260414
1027323
FLOB
1991
小说260664
1024643 通用421933 通用419990
学术163228 学术163286
新闻181748 新闻180703
Crown 2009 小说259250
1026226
CLOB
2009
小说259484
1023466 通用422799 通用421163
学术163197 学术163139
新闻180980 新闻179680
因此Crown有700个文件,CLOB有744个文件6.LOCNESS
7.BAWS
8.BFSU CQPweb多语言在线语料库检索平台
CQPweb是开源的四代语料库分析工具。
CQPweb的主要特点是:1、将语料库与分析工具合二为一;2、支持多语种语料库的分析;3、运用了索引技术,检索速度大大快于单机版语料库;4、充分利用语料库的元信息,提供更多呈现语料分析结果的呈现方式。
CQPweb可以实现WordSmith Tools等三代语料库软件的绝大部分功能。
概括说来,CQPweb可以实现以下功能。
(1)在线生成语料库的词频表(frequency list);(2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次(frequency),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果。
(3)计算特定词语在语料库中的典型搭配(collocation);(4)计算语料库中的核心关键词(keywords),等。
有老友记的,时代周刊, China Daily等,其他的语料库,不足的是,时代周刊等不全,都只是部分年份的文本。
BYU大学时代周刊语料库(1923-2006)
/time/
库容量1亿词。