国外生物医学文本语料库分类及特点研究
- 格式:pdf
- 大小:1.26 MB
- 文档页数:7
国内外文摘数据库信息检索综述1MEDLINE数据库MEDLINE是美国国立医学图书馆(TheU.S.NationalLibraryofMedicine,簡称NLM)最早的书目数据库,其包含生命科学领域,特别是生物医学方面的超过2200万期刊文献的题录及文摘信息。
MEDLINE的一个显著特点是记录了NLM编制的医学主题词表(MeSH)的索引。
MEDLINE是联机的医学文献分析与检索系统(MEDicalLiteratureAnalysisandRetrievalSystem),起源于1964年。
是PubMed的主要部分,部分Entrez在线检索数据库是由美国国家生物技术信息中心(NCBI)来提供的。
1.1数据库介绍起始年限:1946年-至今,还包含一些旧的资源。
来源:大约40种语言5600多种学术期刊的引文及60种语言的旧版期刊,MEDLINE引文由NLM,国际合作伙伴和一些合作组织共同创建。
更新:自2005年起,每天增加2000-4000条完整的题录信息。
更新在11月至12月的几周内暂停主要是因为NLM要将医学主题词表添加进索引中。
学科范围:MEDLINE的主体范围是生物医药与健康,此外还包括生命科学,行为科学,化学、生物工程,公共卫生,临床护理以及植物和动物科学领域。
其中,生命科学覆盖率增加始于2000年。
MEDLINE数据库挂靠在WebofScience平台上,包含各生命科学领域的期刊文章,记录超过1200万条,尤其偏重于生物医学领域。
MEDLINE记录由NLM和协作伙伴创建。
MEDLINE的来源出版物涵盖基本生物学研究和临床科学。
学科类别包括护理学、牙科学、兽医学、药理学、健康相关学科和临床前科学。
MEDLINE还包括对生物医学从业者、研究人员和教育工作者至关重要的生命科学方面的内容,包括生物学、环境科学、海洋生物学、植物和动物科学以及生物物理学和化学的某些方面内容。
从2000年开始,生命科学的涵盖范围得到增加。
语料库的分类一、介绍语料库是指用于语言学研究的大规模文本数据集合,是自然语言处理(NLP)领域的重要资源之一。
通过对语料库的分类和应用,可以帮助我们更好地理解和分析自然语言现象,提高机器对语言的理解能力和处理效果。
本文将介绍几种常见的语料库分类及其应用。
二、基于文本来源的分类1. 平衡语料库平衡语料库是指从各个领域、不同类型的文本中均匀采样得到的语料库。
这类语料库可以用于构建通用的语言模型,对各种领域的文本进行处理和分析。
2. 领域特定语料库领域特定语料库是指针对某一特定领域的语言样本进行收集和整理的语料库。
比如医学领域的语料库可以用于医学文本的分类、信息抽取和实体识别等任务。
3. 实时语料库实时语料库是指根据实时产生的文本数据构建的语料库,例如社交媒体上的实时文本。
这类语料库可以用于情感分析、事件检测和舆情分析等任务。
三、基于语言类型的分类1. 单语语料库单语语料库是指只包含一种语言的文本数据集合,例如中文语料库、英文语料库等。
这类语料库可以用于机器翻译、语言模型训练等任务。
2. 双语对照语料库双语对照语料库是指包含两种语言的文本数据集合,例如中英文对照语料库。
这类语料库可以用于机器翻译、跨语言信息检索等任务。
3. 多语语料库多语语料库是指包含多种语言的文本数据集合,例如欧洲各国的语料库。
这类语料库可以用于跨语言信息检索、语言联系研究等任务。
四、基于文本属性的分类1. 口语语料库口语语料库是指包含口语化文本的语料库,例如电话对话、社交媒体文本等。
这类语料库可以用于语音识别、对话系统等任务。
2. 书面语语料库书面语语料库是指包含书面语文本的语料库,例如新闻报道、学术论文等。
这类语料库可以用于文本分类、信息抽取等任务。
3. 平行语料库平行语料库是指包含相同内容但使用不同语言表达的文本对,例如中英文平行语料库。
这类语料库可以用于机器翻译、句子对齐等任务。
五、应用领域1. 机器翻译语料库是机器翻译系统的重要训练数据来源,通过对平行语料库的分析和建模,可以提高机器翻译的准确性和流畅度。
浅谈语料库分类及用途一、语料库的定义在语言学中,语料库是指大量文本的集合。
在语料库语言学中,他们是主要用来进行统计分析与假设检定,在某一领域中,测试语言规律的出现或有效性。
语料库可以是某一单独语种的文本(单语语料库),又或者是多种语言中的文本数据。
二、语料库的分类1.多语种语料库多语种语料(Multilingual corpora)经常经过格式特殊处理进行比对研究,也被称作平行语料库。
它是由大量的平行文本(parallel text)组成。
平行文本通常是几种语言放在一起,有原文有译文,对齐放置。
较为著名的平行文本有洛布古典丛书和克莱梵语丛书。
平行文本不仅仅是两种语言的平行,有时会有多种语言集合。
如圣经研究中,关于圣经的译文可以有多种版本。
较为著名的便是俄利根的《圣经六国译文合璧》,其中为旧约提供了六个版本。
在多語种语料库中,一定要注意多语种语义的平行对齐,这是保障语言学研究的前提条件。
一般情况下,双语平行语料库中,主要有两种类型,翻译语料库(translation corpus)和对比语料库(comparable corpus)。
在翻译语料库中,一种语言的文本会是另外语种语言文本的翻译。
在翻译过程中,翻译人员可以对句子进行拆分、合并、删除、插入或重新排列。
翻译语料库现如今广泛运用于机器翻译中,机器翻译实际属于计算机语言学中的一类,其方法是通过某种程序将一种语言翻译成另外一种语言。
借助语料库,便可以提供大量准确而地道的目标语言文本,从而使计算机可以生成更加复杂的自动翻译,处理更复杂的语言翻译。
在对比语料库中,文本都是同种类型,覆盖同种内容,但是他们并不是互相翻译的关系。
为开发平行语料库,有些文本需以一个短语或句子组成的语块进行匹配。
其中,经常会运用由两种语言语料库组成的平行语块对双语的机器翻译进行训练。
为使语料库能够对语言学研究更能有用,他们通常会运用到注释程序,比如,对演讲的部分内容进行注释或是词性标注。
英文命名体识别语料英文命名体识别语料是指用于训练和测试命名实体识别(Named Entity Recognition,简称NER)模型的语料库。
命名实体识别是自然语言处理中的一个重要任务,它旨在从文本中识别出具有特定意义的实体,如人名、地名、机构名等,并将它们分类为预定义的类别。
以下是几个常用的英文命名体识别语料:1. CoNLL 2003语料库:该语料库是命名实体识别领域最常用的语料库之一,由英国语言技术与计算语言学会(Association for Computational Linguistics and Language Technology,简称ACL)主办的CoNLL-2003共享任务提供。
该语料库包含英文新闻文章,其中包含4个命名实体类别:人名、地名、组织机构名和其他实体。
2. OntoNotes语料库:该语料库由美国国家科学基金会(National Science Foundation,简称NSF)资助,由多个机构合作建立。
该语料库包含多种类型的文本,如新闻、广播、采访等,其中包含12个命名实体类别,包括人名、地名、组织机构名、时间、日期等。
3. ACE语料库:该语料库由美国国防部高级研究计划署(Defense Advanced Research Projects Agency,简称DARPA)资助,旨在为情报分析和反恐任务提供命名实体识别和关系抽取的支持。
该语料库包含英文新闻文章,其中包含9个命名实体类别,包括人名、地名、组织机构名、武器、货币等。
4. GENIA语料库:该语料库由日本生物信息学研究所(Institute for Genome Research,简称TIGR)和英国国家物理实验室(National Physical Laboratory,简称NPL)合作建立,旨在为生物医学领域的命名实体识别提供支持。
该语料库包含生物医学文献,其中包含7个命名实体类别,包括基因、蛋白质、细胞类型等。
关于国外英文医学期刊中典型词块研究——基于自建小型语料库的研究国外英文医学期刊中典型词块研究—基于自建小型语料库的研究蔡美兰(延边大学外国语学院吉林延吉133002)[摘要] 通过自建小型语料库,研究并分析了国外英文医学期刊中的典型词块。
发现在国外医学期刊论文中名词性词块最多,其次是介词性词块和动词性词块。
分析结果可以对医学英语教学尤其是写作教学提供有益的参考。
[关键词] 医学期刊;词块;医学英语教学一、研究词块的意义词块是近年来的一个研究热点。
词块又称多词序列、复现词组、词簇、预制语块、套语、N 元组等。
词块是指在语料中高频出现的连续词语组合。
各种语言中都存在着大量的词块,以英语为本族语的人能够掌握数以万计的词块,因而中国的英语学习者如果要达到本族语的熟练程度,就必须掌握大量的此类结构。
在心理学、心理语言学、神经语言学和二语习得等研究领域,研究者发现,本族语者能够准确、流利地说出较为复杂的语句,并非因为他们的心理词库中储存了大量孤立的单词,而是因为他们大脑中储存了大量的词块。
在产出话语时,他们从大脑中提取出来的也并非单个的词,而是整块地提取预先存放在大脑中的词块,从而把更多的认知资源用于内容整合、句法加工等方面[1]。
记忆的容量很有限,大概是7个信息单位左右。
这可以是7个词,也可以是7个词块。
以词块作为储存的信息单位,既可以增加记忆的储存容量,也可以减轻记忆的负担。
由于词块是一种现成的并作为整体保存在记忆中的特殊词汇现象,它在即时交际中不必临时组合就可以迅速提取和使用,因而不需要太多的计算资源,也不需要交际者有意识地注意语法结构,可以大大减缓即时交际的压力,从而保证即时交际的流利性。
本文通过自建小型语料库分析了国外英文医学期刊论文中的典型词块。
分析结果可以对医学英语教学尤其是医学英语写作教学提供有益的参考。
二、研究设计1.研究问题国外英文医学期刊论文中,有哪些高频词块?在词块的使用上有什么典型特点?在国外英文医学期刊论文中方法、结果、讨论三部分,词块的使用有什么区别?2.语料来源The New England Journal of Medicine ( ) 2010年全年所有的原创论文(original articles),共计208篇。
语料库研究语料库研究引言语料库是语言学研究中的一个重要工具,它包含了大量的实际语言使用数据。
语料库研究可以帮助我们更好地理解语言的构建和使用规律。
本文将介绍语料库的基本概念、类型分类以及在语言学研究中的应用。
一、语料库的概念和分类语料库(corpus)指的是收集了大量的实际语言文本的数据库。
在语料库中,文本被按照一定的方式组织和分析,并且可以通过计算机进行访问和处理。
语料库有不同的分类方式,主要可以分为以下几种:1. 经典语料库:这类语料库在早期语料库研究中非常常见,包括了大量的书籍、报纸和杂志等出版物。
这些语料库的特点是内容丰富多样,反映了一段时间内的语言使用情况。
2. 专门语料库:这类语料库是为特定研究目的而创建的,比如医学语料库、法律语料库等。
专门语料库的特点是包含了特定领域的文本,能够支持对该领域词汇和语言使用特点的研究。
3. 平行语料库:这类语料库一般用于翻译研究中,包含了同一内容的不同语言版本。
平行语料库对于翻译质量评估、翻译记忆等方面的研究有着重要的作用。
4. 多模态语料库:这类语料库包含了不同形式的语言数据,比如文本、图片、音频和视频等。
多模态语料库可以帮助我们研究不同语言形式之间的关系,更全面地理解语言的使用情况。
二、语料库在语言学研究中的应用语料库的出现和应用给语言学研究带来了重要的变革,它为语言学家提供了更多的实证数据,并且可以用来验证理论假设。
以下是语料库在语言学研究中的几个主要应用方向:1. 词汇研究:语料库可以帮助我们更加准确地了解和研究词汇的使用情况。
我们可以通过查看语料库中某个词汇的出现频率、共现关系以及上下文语境等信息,来推断该词汇的含义和用法规律。
2. 句法和语法研究:语料库可以用来验证句法和语法理论的假设。
我们可以通过对语料库中句子结构和语法现象的分析,来验证或者调整句法和语法理论的规则和假设。
3. 语言变异和变化研究:语料库可以帮助我们观察和分析语言的变异和变化。
语料库的分类及其依据语料库(corpus)是指用于语言学研究的大规模文本集合。
在自然语言处理(NLP)和机器学习领域,语料库起着重要的作用。
语料库的分类及其依据多种多样,下面将介绍一些常见的分类及其依据。
1. 根据语料库的来源分类语料库可以根据其来源进行分类。
常见的来源包括书面语料库、口语语料库、网络语料库等。
书面语料库是指搜集和整理的书面文本,如报纸、杂志、书籍等。
口语语料库则是指口头语言的记录,如录音、对话等。
网络语料库则是指从互联网上搜集和整理的文本,如网页、论坛帖子等。
根据来源的不同,语料库的特点和应用也会有所差异。
2. 根据语料库的用途分类语料库可以根据其用途进行分类。
常见的用途包括语言学研究、机器翻译、情感分析等。
语言学研究是指利用语料库来探索语言的结构、规律和演化等。
机器翻译是指利用语料库来训练机器翻译模型,实现自动翻译的任务。
情感分析则是指利用语料库来分析文本中的情感倾向,如判断一篇文章是正面还是负面情感。
3. 根据语料库的语言分类语料库可以根据所涉及的语言进行分类。
常见的语言包括英语、中文、法语等。
根据不同的语言,语料库的建立和应用也会有所差异。
例如,对于英语语料库,可以用于英语教学、英语学习者语言分析等方面。
4. 根据语料库的领域分类语料库可以根据所涉及的领域进行分类。
常见的领域包括新闻、医学、法律等。
根据不同的领域,语料库中的文本内容也会有所差异。
例如,医学语料库中的文本主要涉及医学知识和术语,可以用于医学研究和医学文本自动化处理等方面。
5. 根据语料库的规模分类语料库可以根据其规模进行分类。
常见的规模包括小型语料库、中型语料库、大型语料库等。
根据语料库的规模不同,可以应用于不同的研究需求和任务。
大型语料库通常包含数百万或数十亿个文本,可以用于训练深度学习模型和进行大规模文本分析。
总结起来,语料库的分类及其依据包括来源、用途、语言、领域和规模等方面。
不同的分类方式适用于不同的应用场景和研究需求。