论人格词汇语料库的创建及应用
- 格式:pdf
- 大小:364.95 KB
- 文档页数:5
语料库的应用(最终)语料库的应用语料库方法广泛应用于语言学理论研究、军事等领域。
当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。
军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。
和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。
军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。
【一】、语料库成为语言学理论研究的基础资源语料库是计算语言学的基础。
语料库对应的英文是corpus,复数形式为corpora。
这个词既可以指语料也可以表示语料库。
英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也可作为验证语言假说的手段。
计算机语料库是一大批机器可读文本的结集。
各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。
起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。
随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。
我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。
语料库研究在教学和研究中的应用1.语料库概念及发展史语料库(Corpus)是一个由大量在真实情况下使用的语言信息经过科学的收集和组织而集成的专供研究使用的资料库。
语料库中的语料是某种语言中自然出现的,可以是书面的,也可以是口头的。
语料库语言学就是在文本语料的基础上进行语言研究的一门学科。
语言学家把这种材料作为研究语言的素材。
由于电脑语料库容量大,资料真实,信息提取准确,因此,语言学家借助语料库可以多方面多层次地描写语言并验证各种语言理论和假设,甚至建立新的语言模式和语言观。
在没有出现计算机之前,建设语料库是一项十分繁重而成效甚微的工作。
Samuel Johnson花了八年时间(1747―1755)才编成了世界上第一部英语词典,其中大部分时间都用在寻找、整理语料与建立语料库上。
强调运用语料分析和描写语言的美国结构主义语言学家Sapir和Baos在上个世纪初,为了搜集语料走访一些印第安部落。
但是到了上个世纪50年代后期,随着Chomsky的生成语法学派的兴起,“基于语料”的描写语言学受到抨击。
因为Chomsky认为语料只不过是对语言行为的取样,不能直接反映存在于人的大脑中的语言能力,因此不能作为语言研究的依据和材料。
上世纪60年代初,很少有人对真实的语言素材进行研究。
而基于语言学家的语感和直觉所得到的“可能的句子”及“不可能的句子”成了语言研究及语法教学的主要数据来源。
Quirk在1959年宣布建立英语用法调查语料库(SEU),要对英语语法进行全面准确的描写,提出新的语料库语言学研究。
随着计算机的出现,不久之后,美国的Francis和Kucera等人利用计算机建立了布朗语料库。
在Quirk提出的语料库语言学中,他强调研究自然语言材料的重要性,并引用Aldous Huxley 的话说:“我们最精到的理论,我们最细致的描写,都不过是对实际情况极度粗糙而又不讲理的简化,实际情况的每个最简单的实例都是无比复杂的。
汉语语料库的建设及其在汉语教学中的应用(精华)汉语语料库的建设及其在汉语教学中的应用*俞士汶北京大学信息科学技术学院北京大学计算语言学研究所1. 引言语言学家历来重视第一手语言资料的获取和运用。
在个人计算机普及以前,语言学家只能靠手工用卡片收集少量的典型的资料。
所以,中国前辈语言学家曾感叹他们是在用小本钱做大买卖。
计算语言学把传统的语言学研究同自然语言信息处理技术结合起来,为语言学的发展、为语言教学研究注入了新的活力。
计算语言学(Computational Linguistics)这个专业术语自 1960 年代在文献中出现以来[1],这门学科已经有了40 多年的发展历史。
1990 年代,语料库语言学异军突起,这是计算语言学发展历史上的一个重要的里程碑。
由于计算机以及应用技术(电子排版、因特网等等)的发展,大规模的电子文本唾手可得,自然语言处理技术专家有了从大规模真实文本中获取语言知识(词频、词义、词语搭配、句子结构规则等等)的物质基础,基于大规模语料库的统计语言模型(如:n 元语法、隐马尔可夫模型、向量空间模型等)在诸如词性标注、文本分类等语言工程中的成功应用[2]更加有力地推动了语料库语言学的发展,至今仍是方兴未艾。
语料库语言学发展的基础设施是由大规模真实文本资料构成的语料库。
可以引用以下事实作为语料库价值的佐证。
2002 年 3 月,中国教育部和国家语委发布《第一批异形词整理表》时,李行健先生解释了整理异形词所遵循的三个原则:通用性、理据性、系统性。
并进一步说明:“通用性怎么确定呢,就是用计算机做词频统计。
”这项词频统计工作是应用计算机技术、选用1995 年至2000 年6 年共计1.5 亿字的《人民日报》语料作为对象进行的。
如果没有理解错,笔者以为李行健先生所做的“词频统计”是仅仅针对预先收集到的几百组(最多不过1500 组)异形词进行的。
即使针对性如此明确,在中文文本中统计这些异形词的时候,仍会遇到困难。
高校英语词汇教学中语料库的运用随着全球化进程的加快,英语作为国际间通用的语言,被越来越多的人所重视和学习。
作为英语学习的重要组成部分,词汇教学一直都是英语教学中的难点和重点。
而高校英语词汇教学则更是要求学生掌握更丰富、更灵活的词汇,以适应更广泛的语境。
在这一背景下,语料库的运用成为了高校英语词汇教学中的重要手段。
本文将就高校英语词汇教学中语料库的运用进行探讨。
语料库,顾名思义,即语言的材料库,是指收集、整理和管理语言数据的仓库。
在高校英语词汇教学中,语料库的意义主要体现在以下几个方面:1. 丰富词汇语境:语料库中收集了丰富的语言数据,包括不同场景、不同语境下的词汇使用情况。
这些丰富的语言数据可以帮助学生更好地理解词汇的含义、用法,为他们提供更为真实、贴切的语境,从而更好地掌握词汇。
2. 提高学习兴趣:语料库中的语言数据来源于日常生活,因此更贴近学生的生活实际。
通过语料库的运用,教师可以设计更丰富多样的教学活动,调动学生学习英语的积极性,提高他们的学习兴趣。
3. 培养语感:语料库中包括了大量的真实语言数据,通过对这些数据的分析和比较,学生可以逐渐培养出较为准确的语感,更好地理解和运用词汇。
4. 及时更新教学内容:语言是日新月异的,随着社会的不断发展,新的词汇不断涌现。
教师可以通过语料库及时掌握并引入新的词汇,确保教学内容的及时性和新颖性。
语料库在高校英语词汇教学中的意义主要在于提供丰富、真实的语言材料,帮助学生更好地掌握词汇。
语料库在高校英语词汇教学中的运用方式主要包括以下几个方面:1. 词汇搭配的教学:语料库可以用于搜集并分析某一特定词汇的搭配情况,帮助学生掌握词汇的常见搭配,提高他们的语言表达能力。
通过语料库的搜集分析,可以得出“make a decision”这一常见的词汇搭配,教师可以引导学生练习相关句型,巩固词汇的用法。
2. 词汇用法的教学:语料库可以用于分析某一词汇在不同语境下的用法情况,帮助学生更全面地理解词汇的用法。
浅谈语料库语言学在的应用以及在中国的发展趋势一、语料库语言学的兴起与发展语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。
自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。
由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。
在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。
90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。
在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。
1996年广州外国语学院开始建立中国学生交际英语语料库。
此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。
二、语料库语言学发展趋势语料库语言学研究的发展总是以语料库的建设为基础的。
没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。
近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。
(一)英语学习者语料库。
其中包括书面语和口语。
有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士写作语料库MWC,12万词次。
高校英语词汇教学中语料库的运用随着英语教学的不断发展,语料库已经成为了英语教学的一个重要组成部分。
在英语词汇的教学中,语料库的运用可以使学生更加自然地掌握单词的用法、搭配和语境,帮助学生真正掌握英语语言的运用规律,提高英语口语和写作能力。
因此,本文将重点探讨高校英语词汇教学中语料库的运用问题。
一、什么是语料库?语料库是指一个用于收集、管理、分析和利用语言(或其他类型的信息资源)的大型计算机数据库。
语料库按照特定的规则收集大量真实的语言数据,这个数据集可以包含从简单的短语到大段的文章、小说或其他语言支付等文本文件。
语料库的数据可以用来研究单词的用法、搭配、语境以及词汇之间的关系。
1.帮助学生学习新单词语料库可以帮助学生更好地学习新的单词,帮助学生了解词汇的用法、搭配和语境。
在学习新单词时,教师可以引导学生通过查找语料库来了解该单词的具体用法和搭配,这样学生就可以利用语境来掌握单词的意思和用法,提高单词的掌握程度。
2.帮助学生掌握单词的用法和搭配通过语料库,学生可以了解某些常用的搭配和固定用法。
例如,如果学生想知道“depend”的常用用法,可以搜索相关语料库,查看“depend on”、“depend upon”、“depend for”等短语的使用情况,以判断不同的搭配是否更合适。
3.帮助学生学会辨别同义词和反义词的差别通过语料库的助力,学生可以轻松地辨别同义词和反义词的区别。
例如,对于“tight和narrow”这两个单词,学生可以通过查询语料库来分析这两个单词在语境中的不同用法和搭配。
通过语料库,学生可以更快地找到所需的信息并加深对单词的认识。
在信息大爆炸的时代,用英语学习,学生常常花费大量时间寻找适当的语境。
这时,使用语料库就可以帮助学生更快地找到所需的例句,提高学习的效率。
5. 帮助学生提高口语和写作能力通过阅读语料库中的实际语言文本,可以帮助学生更好地了解文化差异和社会语言结构。
这样会帮助学生写作和口语表达更流畅和自然,更有说服力。
人文社会科学的语料库建设与应用研究一、引言人文社会科学作为一门涵盖广泛的学科,需要大量的数据支持,其中包括大量的文献资料和调查数据等。
因此,语料库建设和应用在人文社会科学中具有重要的作用。
本文将从人文社会科学的角度入手,探讨人文社会科学的语料库建设与应用研究。
二、人文社会科学语料库的概念语料库是指存储一定语言的实例集合,是对某种语言的一个大规模的实例化数据库。
人文社会科学语料库则是指为人文社会科学研究提供数据支持的语料库。
它主要涉及到人文社会科学领域的文本和多媒体数据,包括文献、期刊、调查、访谈、新闻等多种类型的数据。
三、人文社会科学语料库建设的重要性语料库作为人文社会科学数据的重要来源,具有非常重要的作用。
首先,它可以为研究者提供丰富的数据,使研究者可以在更广泛的基础上进行研究。
其次,它可以帮助研究者发现新的研究趋势和新的现象。
可以通过分析大量的语料,发现人文社会科学的发展趋势和未来的研究方向。
再者,语料库的建设可以促进各领域学科之间的跨学科研究,扩大交叉领域的研究范围。
四、人文社会科学语料库建设的现状目前,人文社会科学语料库建设在中国尚处于起步阶段。
虽然有一些建设语料库的项目,但是缺乏对于语料库的长期投入和维护。
由于语料库需要有长期的投入和维护,才能保证数据的质量和多样性。
因此,人文社会科学语料库的建设还需要更多的投入。
五、人文社会科学语料库应用研究的现状人文社会科学语料库作为人文社会科学研究的数据来源,目前已广泛应用于人文社会科学研究的不同领域。
其中,最显著的应用在社会学、语言学、文化研究、历史研究等领域。
人文社会科学语料库的应用,可以有效地帮助研究者对过去的文化和历史进行更深入的了解,并发现新的研究问题和现象。
此外,语料库在文本分析、关键词提取等方面也具有非常重要的应用价值。
六、人文社会科学语料库建设和应用的挑战当然,人文社会科学语料库建设和应用也面临着许多挑战。
首先,由于人文社会科学领域数据种类繁多、数据量大、数据来源分散,因此人文社会科学语料库的构建需要广泛的数据采集和利用工具。
Advances in Psychology 心理学进展, 2019, 9(8), 1424-1428Published Online August 2019 in Hans. /journal/aphttps:///10.12677/ap.2019.98174On the Construction and Application ofPersonality Vocabulary CorpusYing Chang*, Chun Yong#School of Psychology, Inner Mongolia Normal University Hohhot, Hohhot Inner MongoliaReceived: Jul. 24th, 2019; accepted: Aug. 8th, 2019; published: Aug. 15th, 2019AbstractHealthy and sound personality education is an inevitable requirement to comprehensively promote psychological health education and realize students’ physical and mental development. This paper adopts document analysis, lexicology, semantics and database description to collect and encode personality words. The steps of building the corpus of personality vocabulary are as follows: corpus collection, corpus standardization, corpus labeling, updating and perfecting, and forming the corpus of personality vocabulary. Vocabulary is the basic material for the study of personality, including the language information base of personality description vocabulary, personality evaluation vocabulary, personality trait vocabulary and personality state vocabulary, which aims to promote the develop-ment of students’ positive personality and cultivate the personality characteristics needed by the development of modern society in the mental health education.KeywordsPsychological Health Education, Personality Vocabulary, Corpus, Big Data, Information Processing论人格词汇语料库的创建及应用常颖*,永春#内蒙古师范大学心理学院,内蒙古呼和浩特收稿日期:2019年7月24日;录用日期:2019年8月8日;发布日期:2019年8月15日摘要健康健全的人格教育是全面推进心理健康教育,实现学生身心发展的必然要求。
文章采用文献分析法、*第一作者。
#通讯作者。
常颖,永春词汇学研究法、语义学研究法和数据库描述法,对人格词汇进行采集与编码。
人格词汇语料库的建库步骤为:语料采集,语料规范,语料标注、更新与完善,形成人格词汇语料库。
词汇是用于人格研究的基本材料,包括人格描述词汇和人格评价词汇、人格特质词汇和人格状态词汇的语言信息库,其目的是在学生心理健康教育中促进其积极人格的发展和培养现代社会发展所需要的人格特征。
关键词心理健康教育,人格词汇,语料库,大数据,信息处理Copyright © 2019 by author(s) and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY)./licenses/by/4.0/1. 引言语料库是指“有目的、有计划、收集具有代表性的、一定结构的、可以被计算机所识别的具有一定规模的语言的集合”。
从20世纪90年代起,语料库和语料语言迅速发展,多种形式的语料库已经在诸多方面发挥了作用(王利娜,2012)。
通过对语言中与人格特征相关的形容词的分析,可以得到人格结构的具体维度,并反映出文化内涵(王登峰&崔红,2000)。
目前我国人格词汇语料库的建设情况尚不完善,文章就学生心理健康教育的人格词汇语料库的建设问题,对人格词汇语料库的建设进行探讨,并对语料库的应用提供建议。
2. 人格词汇语料库的创建意义英国学者高尔顿在1884年提出了人格词汇学假说。
高尔顿首先把词典作为一种工具来估计所有词汇中描述人格的词汇数量,并确定这些词汇能够在何种程度上传达这种特征的含义。
“人格心理学之父”G.W.奥尔波特用传记文献的词汇进行分析,较早地对个人特质进行了深入的研究,为人格特质的研究做出了贡献,这也使“词汇分析法”成为人格研究的主要方法之一(谭磊,2017)。
“词汇学假设”认为,对自然语言中习得的人格词汇进行分析,会得到一组数目有限的特质,这些特质代表了这种语言环境中人最重要的特征,人格词汇学的研究很难独立于其存在的语境。
由此可见,建设人格词汇语料库能够弥补这一不足。
20世纪90年代初,王登峰、杨国枢等中国学者对中国人格的词汇学进行了探索,促进了词汇学研究的本土化进程。
词汇分析法假设是人格心理学研究的常用方法,其含义为在人们生活中,与人格有关的一切活动及个体差异最终都会被编码到他们的语言中去,其活动和差异越重要,就越有可能由一个单独的词来描述(赵伶俐,2010)。
人类的社会日益认识到了国民心理素质是一个国家长治久安、繁荣昌盛的根本性基础因素,心理健康教育是人类社会真正幸福的必要内涵。
由此可见,心理健康教育是学生在人格发展过程中必不可少的关键因素。
将人格词汇语料库的创建辅助心理健康教育是一项全新的探索与尝试,尚由于此方面没有过多的研究,在研究中理论支撑较少、研究较少等问题比较常见,但这也是研究的创新性与独特性。
创建专用语料库不但有利于翻译效率的提高,而且有利于推动语言服务的发展。
人格词汇语料库的创建属于专用语料库,建设人格词汇语料库能规范人格词汇的参差不齐的现状。
人格词汇的信息化处理是建设人格词汇语料库的重要组成部分,为语料库的跨学科做出一定的贡献,人格词汇的建设是当代信息社会发展的必要举措。
当遇到有关人格词汇不明确时,能够便捷、自由的检索语料,并对语料进行了常颖,永春充分的理解,这突出了语料库的便捷性与实用性。
人格词汇具有一定代表性、一定规模和结构的语料集合,人格词汇可以成为人格发展研究的基础,基于现有的语料库建设大部分为语言学领域研究,缺少了跨学科的理论指导,人格词汇语料库的选材不仅限于某一领域,语料库建设大部分成为选材面向所有教材中有关人格的词汇学研究,尤其是为语文教材中的人格词汇语料库对人格教育的具体实施提供便利。
我国人格词汇语料库的发展并不完善,有关人格词汇双语资料较少,因此创建人格词汇语料库有利于推动语言服务的发展,创建人格词汇语料库还有利于解决教育教学中人才培养的问题。
截至目前,国内还没有专门服务于人格系统的语料库。
只有在一些语料库的子库中,能够零星的发展有关于人格的英汉/汉英双语语料。
人格词汇语料库的空白不利于有关人格课题研究以及心理学、社会学服务人才的培养。
本研究为语料数据库提供跨学科的理论指导。
由此可见,创建人格词汇语料库非常必要。
3. 人格词汇语料库的建设3.1. 建设步骤人格词汇语料库的系统是以语料库为核心,包括计算机硬件、软件、语料库用户、语料采集和加工规则、语料库管理和应用程序的一个完整系统(何婷婷,2003)。
其建库过程可以表示为图1:Figure 1. Research flow chart图1. 研究流程图3.1.1. 语料采集与标注通过文献分析法、词汇学研究法、语义学研究法和数据库描述法对人格词汇进行采集,最终形成人格词汇文本。
文本人格语料库的构建,为本研究提供更全面的语料库,取材要保证多样化,从《现代汉语词典》、中小学语文教材、名著、小说集和诗歌集等书籍采集人格有关词汇,精心加工,设计词汇属性和标记,为撰写文本打好基础。
确定人格词汇标注是一个非常庞大又基础性的工作,根据人格词汇特点对语料不断的进行标注与更新,并在具体的调查分析调查中不断地完善和扩充标注集。
通过调查分析可以探索最核心的人格特质,调查其人格词汇的喜好度、利用度、熟悉度等,通过频次统计并确定核心人格词汇,建设一个覆盖面较广的人格语料数据库,建设多维度、多变量、多属性的人格语料数据库。
3.1.2. 语料规范人格词汇总数据库包括一级分库、二级分库和三级分库。
一级分库人格理智特征词汇数据库,包括二级分库感知觉词汇分库、记忆词汇分库、想象词汇分库、思维词汇分库、语言词汇分库和行为词汇分库;一级分库人格态度特征词汇数据库,包括二级分库他人态度词汇分库、劳动态度词汇分库、自我态常颖,永春度词汇分库、集体态度词汇分库、社会态度词汇分库和家庭态度词汇分库;一级分库人格情绪特征词汇数据库,包括二级分库愉快和激活水平高词汇分库、愉快和激活水平低词汇分库、不愉快和激活水平高词汇分库,不愉快和激活水平低词汇分库;一级分库人格意志特征词汇数据库,包括二级分库自觉有关词汇分库、坚韧性有关词汇分库、自制力有关词汇分库、果断性有关词汇分库。
将以上的词汇分库按性质属性、强度属性、动力性属性、利用度属性、性别属性、年龄属性、稳定性属性、词频和喜好度对人格词汇进行规范,将规范后的词汇纳入信息库。
3.2. 建设过程中出现的问题3.2.1. 理论研究匮乏在中国,研究人格词汇语料库的专业人员很少,由于缺乏相应的理论依据,将会导致语料库相关建设中存在诸多问题。
对知网中有关人格词汇语料库的文献检索中,未发现有关人格语料库的相关研究,尽管语料库的相关研究较多,但人格词汇语料库的研究较少。