基于语料库对文学作品检索分析
- 格式:doc
- 大小:29.00 KB
- 文档页数:9
作者简介:宋晨曦,硕士研究生在读。
研究方向:应用语言学研究。
2基于语料库的《月亮与六便士》的检索结果及分析2.1语言特点本文主要采用定量与定性分析相结合的方法。
量化分析必定涉及文本的数据收集、整理与统计。
语料库软件AntConc的生成词表功能可以提供文本的统计数据,有助于分析文本的语言特点。
生成词表所具有的主要功能有类符数(word types)、形符数(word tokens)和频率表(frequency)。
类符数即是语料库中不同的词形,形符数则包括语料库出现的所有词语。
类符数或形符数本身并不能从本质上反映文本的语言特点。
但是二者的比率即类符形符比却能在一定程度反映用词的变化性。
类符形符比的计算方式是类符数/形符数×100%。
类符形符比值越大,也就说明用词变化性越大,用词越丰富,更具有多样性;反之则更少。
利用AntConc软件中的生成词表功能,笔者发现《月亮与六便士》共包括6840词类、76248词次,计算得出类符形符比为8.97,说明文章的用词变化量不大,整体难度不大,故事情节易于把握。
除此之外,生成词表中的频率表功能还可以迅速计算出语料库中的所有词类并按频率以降序排列。
我们利用生成词表功能对自建的小说《月亮与六便士》语料库进行检索后生成小说的高频词表信息,出现频率前50的词语分别是:the、I、to、and、a、of、he、was、that、in、it、you、his、had、she、with、him、her、for、not、but、me、at、on、Strickland’s、is、my、have、they、their、which、as、said、an、what、there、when、be、were、no、would、so、all、do、by、could、one、know、we和our。
这些高频率的词汇表明文中多次出现人称代词,词汇较为简单。
笔者发现去除语法虚词之后,词表中出现频率最高的实词是第一人称“I”,出现了2576次,且利用检索情节工具,笔者不难发现“I”贯穿全文始终,分布非常密集,如图1所示。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在大数据时代背景下,如何实现基于汉语语料库的中文词句快速检索,成为了一个重要的研究课题。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的研究,分析其技术原理、实现方法和应用前景,为相关领域的研究和应用提供参考。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
它包含了大量的中文文本数据,如新闻报道、文学作品、科技论文等。
通过对这些语料进行预处理和分词等操作,我们可以获取到用于检索的词句。
为了实现快速检索,需要构建高效的数据结构和算法。
三、快速检索算法研究(一)算法技术原理基于汉语语料库的中文词句快速检索算法主要采用倒排索引技术。
倒排索引是一种基于关键词的索引方式,它将每个词的所有出现位置进行记录和存储。
当用户输入查询词时,系统可以快速地找到所有包含该词的文本数据,从而实现快速检索。
(二)算法实现方法1. 预处理阶段:对语料库进行分词、去除停用词等操作,提取出用于检索的关键词。
2. 构建倒排索引:将关键词与对应的文本数据建立映射关系,形成倒排索引表。
3. 查询处理:当用户输入查询词时,系统根据倒排索引表快速找到所有包含该词的文本数据,并进行排序和展示。
(三)算法优化策略为了进一步提高检索速度和准确性,可以采取以下优化策略:1. 优化数据结构:采用更高效的数据结构存储倒排索引表,如压缩存储、稀疏矩阵等。
2. 引入机器学习技术:利用机器学习算法对语料库进行语义分析和理解,提高检索准确性。
3. 分布式计算:将检索任务分布式部署在多个计算节点上,实现并行计算和负载均衡。
四、应用前景展望基于汉语语料库的中文词句快速检索算法具有广泛的应用前景。
它可以应用于搜索引擎、信息推荐、自然语言处理等领域。
在搜索引擎中,用户可以通过输入关键词快速找到相关信息;在信息推荐中,系统可以根据用户的历史行为和兴趣偏好推荐相关内容;在自然语言处理中,该算法可以用于文本分类、情感分析等任务。
基于语料库的儿童文学的语篇分析本文将使用语料库检索软件,对美国作家弗兰克·鲍姆(Frank Baum)创作的儿童文学作品《绿野仙踪》的文本特征、主要内容等方面进行分析,以展示语料库检索软件在文学分析方面的强大功能,提高英语专业大学生对英语文学学习的兴趣,促进他们的英语学习。
标签:语料库;《绿野仙踪》;文本分析1简介随着近年来信息技术的发展以及计算机的普及和语料库研究的渐渐升温,国内外不少学者将语料库研究方法应用到文学领域,利用语料库检索软件(Concordance)对文学语篇进行分析,如Conrad、杨建枚、张厚振等。
他们的研究大胆创新,十分具有操作性,为后来的文学研究者带来很大的启示。
并且语料库研究方法也为英语专业的学习带来了非常大的便利,也节省了资源与时间,是一种高效的研究方法。
《绿野仙踪》又名《奇妙的奥兹男巫》,是美国作家弗兰克·鲍姆创作发表的奇幻冒险童话故事集,共十四本。
问世百年以来被翻译成多种语言出版,根据《绿野仙踪》故事改编的动画片和电影更是不计其数。
国内常见的《绿野仙踪》是这个系列的第一本。
《绿野仙踪》主要讲述了小女孩“Dorothy”和她的小狗“Toto”被龙卷风吹到了一个奇妙的“Oz”(奥兹国),小女孩为了能回到自己的家,经历了一系列有趣又惊现的事情,最后安全回家的故事。
2基于词表的语篇基本情况分析基于语料库的语言研究一般采取定性与定量相结合的研究方法,要进行定量研究就要涉及文本检索和数据统计。
Wordsmith软件中的Wordlist工具可以对语篇的基本信息进行统计,自动生成词表(图1),它可以提供文本中的简略统计数据,从而有助于分析文本的总体统计特征和基本情况。
词表的主要统计特征有:文件的字节数(bytes)、形符数(tokens)、类符数(types)、类符形符比(type/图1)The Wizard of OZ的文本统计信息截图(token ratio)、标准化类符形符比(standard type/tokenratio)、平均词长(meanword length)、句子数(sentences)等。
《活着》的语料库检索分析作者:赵慧来源:《文教资料》2018年第35期摘; ; 要:本文利用语料库检索软件Antconc,对余华长篇小说《活着》从主题、故事情节和人物形象塑造等方面进行了较为深入的分析。
首先,利用Antconc的主题词功能提取出小说主题词并进行归类,结果发现主人公“福贵”的人生由四位重要人物填充。
然后,利用该软件的索引功能,对主要角色“我”(主人公“福贵”)进行检索,对检索内容进行统计分析后,得出了主人公“福贵”的人生经历和性格特点。
关键词: Antconc; ; 语料库; ; 《活着》1.引言《活着》是著名作家余华在1992年创作的一部长篇小说,讲述了福贵这一小人物在建国前至70年代末,这三十年的时代浪潮中命运的跌宕起伏,并通过主人公一生的生存状态告诉世人活着的自为性和终极性。
该作品同余华的另一部作品《许三观卖血记》同时入选百位批评家和文学编辑评选的“九十年代最有影响力的十部作品”,余华也凭借这部作品于2004年荣获法兰西文学和艺术骑士勋章。
《活着》在余华文学创作历程中具有重要的分水岭意义,是作者放弃先锋探索重返写实之路的乡土力作。
本文采用基于语料库的研究方法,以《活着》为研究对象,首先利用语料库检索软件Antconc的主题词功能提取出主题词并进行归类,分析小说的主题和作者的写作风格;然后利用软件的索引功能对主人公“我”进行检索,对节点词“我”的搭配词进行统计分析,深入探讨主人公的人生阅历和人物形象特点。
本研究的目的在于,通过语料库方法对余华作品《活着》进行量化分析和定性研究,挖掘前人在传统研究方法指导下尚未发现的文本意义,为语料库在揭示中国文学作品显性和隐性内容方面具有可能性和有效性提供强有力的支撑。
2.研究背景余华是当代杰出的文学创作家,相对于其他作家来说,他具有更加独特新颖的想法。
其作品以纯净细密的叙述,打破日常的语言秩序;其创作视角打破常规的固定思维,颠覆了人们对叙事类小说的印象,建构起一个又一个奇异、怪诞、隐秘和残忍的独立于外部世界的文本世界,实现了文本的真实。
第5期总第128期2014年9月浙江工商大学学报JOURNAL OF ZHEJIANG GONGSHANG UNIVERSITYNo.5Vol.128Sep.2014收稿日期:2014-04-11基金项目:国家社会科学基金项目“英语学术论文语篇的话语策略研究”(13BYY157)作者简介:陈婵,女,浙江工商大学外国语学院讲师,主要从事语料库文体学和话语分析研究;程乐,男,浙江大学外国语言文化与国际交流学院教授、博士生导师,法律话语与翻译中心主任,主要从事语料库、符号学以及专门传意等研究,系本文通讯作者。
莫言作品《蛙》的语料库检索分析陈婵1,程乐2(1.浙江工商大学外国语学院,杭州310018;2.浙江大学外国语言文化与国际交流学院,杭州310058)摘要:文章利用语料库检索软件Antconc ,对莫言的小说《蛙》从主题、故事情节和人物形象塑造等方面进行了较为深入的分析。
首先,利用Antconc 的主题词功能提取出主题词并进行归类,结果不仅印证了《蛙》的主题与计划生育密切相关,而且也反映出《蛙》与莫言其他作品之间的延续性以及作品中乡土立场和人文立场的统一。
然后,利用Antconc 的索引功能对主要角色“姑姑”进行检索,对每一条检索结果根据其描述内容和情感倾向做了人工标注并统计,分析结果显示,对“姑姑”的感情生活、容貌性情以及身世等方面看似与主题无关的描写实际上对小说人物塑造、情节发展都起到了至关重要的作用。
关键词:语料库;莫言;蛙;主题词;检索中图分类号:I06文献标志码:A 文章编号:1009-1505(2014)05-0026-09A Corpus-based Analysis of Mo Yan's Novel FrogCHEN Chan 1,CHENG Le 2(1.School of Foreign Languages ,Zhejiang Gongshang University ,Hangzhou 310018,China ;2.School of International Studies ,Zhejiang University ,Hangzhou 310058,China )Abstract :The present paper applies the corpus retrieval software ,Antconc ,to study Mo Yan's novel Frog from the per-spectives of theme ,plot ,and means of character shaping.The extracted keywords not only confirm the theme of Frog is closely related to family planning ,but also reflect the continuity between Frog and other works of Mo Yan as well as the unity of local standpoint and humanistic position in the novel.Furthermore ,by annotating manually all the retrieval results of the major role “Aunt ”according to their contents and emotional tendency ,the paper finds that the seemingly irrelative descriptions of aunt's love and family life ,appearance and temperament ,actually play a critical role in character shaping and plot development.Key words :corpus ;Mo Yan ;Frog ;key words ;retrieval一、引言2012年,莫言获得了瑞典诺贝尔委员会颁发的诺贝尔文学奖,成为第一位获得该奖项的中国籍作家。
收稿日期:2020-12-26语、词组、语法结构和搭配;二是研究文体结构和主题;三是研究作家写作特点及风格(陈心怡 等,2016)。
伍尔夫的语言独树一帜,在篇章、句法和词汇方面均展现出她的与众不同。
用基于语料库的方法来研究其作品能更准确地分析其作品的主题思想。
文学语料库的建立及研究思路语料库文体学研究通过分析文本的词汇和语法特征,特别是主题词或词组,能有效揭示故事主题和情节发展走向(Toolan ,2009)。
本文主要研究伍尔夫的《一间自己的房间》的语言特点,包括检索文本主题词、考察高频词簇和主题词的方向与领域、分析作者使用语言的用意和心理及作品所蕴含的社会现象和女权主义思想。
笔者首先建立《一间自己的房间》语料库,然后运用语料库软件LancsBox v4.5的Words (主题词检索、和其他语料库比较)、GraphColl (寻找关联和交叉关联并将语料库里的词语搭配图像化)和Ngrams (检索词簇)检索功能,将新建语料库与LOB 语料库(由英国兰卡斯特大学、挪威奥斯陆大学与卑尔根大学联合建立的100万词次的英国英语语料库)进行对比分析,以找出此作品的语言的特殊性。
最后,笔者从文本的词汇层和句法层进行分析,测试以上两个语料库之间是否存在显著差异。
2 数据提取及分析本研究基于两个英文语料库展开:一是基于1993年企鹅出版社出版的英文原著《一间自己的房间》而建立的语料库,作者是弗吉尼亚·伍尔夫;二是LOB 语料库,该语料库包括一般小说、侦探小说、科幻小说、冒险小说和爱情小说,涵盖了20世纪小说的各种类型。
两个参照语料库中的作品均为同世纪小说,因此具有可比性。
笔者通过对比两个语料库中的主题词以及高频词簇进行分析。
2.1 词汇分析主题词即可以解释文学作品主题的词汇,研究者通过对语料库中主题词的检索与提取能够了解作品表达的思想。
也就是说,“分析语言特征的基础是对其关键性进行分析”(桂诗春,2009)。
基于语料库对文学作品的检索分析摘要本文依据语料库语言学的研究方法,以美国作家欧·亨利的短篇小说《最后的常春藤叶》为自建英文语料库,借助wordsmith 和antconc功能,对这部小说的语言运用、情节发展、人物塑造、象征意义等方面进行分析,不仅得到对文本更加理性的诠释,而且更深入探讨了将语料库检索软件运用于揭示文学作品特征的新途径。
关键词:欧·亨利《最后的常春藤叶》语料库检索文学分析中图分类号:h05 文献标识码:a一引言人们建设大型语料库的最初目的主要是用于词典编纂和语法研究。
然而,近年来国内外不少学者将语料库研究方法应用于文学领域。
因为一部文学作品的文体风格是作者在文字交流中形成的独特魅力,是作者创作意图在字里行间的反映,所以研究文体风格必须源始于作品的文本,即语言的使用。
语料库正是从这一点切入了文学赏析和文艺评论的研究,即已经收入语料库的大量文学作品逐渐成了文学赏析和文学评论的有利资源,而利用语料库检索软件对文学语篇进行分析,以此“把隐含的结构显现出来同时激发人的想象力,并可检验文本对读者的感染力”。
与传统方法相比,这种方法对研究作家的某种语言特点或作品的主题表达提供了可靠的量化依据,避免了传统文学品评中只注重概念演绎或生搬各种文学以外的理论进行穿凿附会的弊端。
美国著名短篇小说家欧·亨利的代表作《最后的常春藤叶》不但受到广大中外读者的喜爱,也激发了众多语言文学研究者的研究兴趣。
国内对于欧·亨利作品的研究非常多,本文作者在查询中国期刊网时,以“欧·亨利”为关键词检索,发现有210篇论文;以“最后一片藤叶,最后的常春藤叶”为关键词查询,结果有47篇论文。
这47篇论文主要从主题意义、故事情节、角色剖析、人性美学、象征意义等各个侧面对此作品进行解析,方法上主要是描述性的分析。
本文研究则基于语料库,使用wordsmith及antconc软件检索,对文学文本进行量化分析,从新的角度分析这篇小说在语言运用、情节发展、人物刻画和象征意义等方面的特点,达到对短篇小说《最后的常春藤叶》更理性、更客观的分析,以此为研究文学作品寻找出一个更新、更深入的途径。
笔者将利用brown文学语料库作为参照语料库进行比较。
二文本检索分析本文主要使用的语料库是《最后的常春藤叶》英文原文构成的语料库tll,为了使检索结果更具有说服力,选取通用语料库brown 作为参照语料库。
一部作品词汇量的大小直接反映了作品中意象的丰富程度。
本文借助wordsmith软件中的wordlist工具对语篇的基本信息进行统计,自动生成词表,通过词表可以得出该作品的一些基本的文本信息,同时笔者将这组数据与brown文学语料库数据相比较,统计比较表明:该作品的形符数为1,024,远远低于brown 语料库的标准形符数1,200,490,属于较短的文学作品,符合短篇小说短小精悍之特点。
该文本的类符形符比为47.3,超过brown语料库标准的39.04,说明该作品虽为短篇小说,但词汇变化量却并不小。
平均词长为5,与brown语料库的4.48基本持平,说明作品中的词汇基本属于较简单词,有较多常用词汇。
我们可以初步判定:该作品用词贴近生活,词汇难度相对小,句子及篇幅不长,较容易理解,这都大大增加了其可读性。
以上是通过wordsmith语料库软件对作品的文本分析得出的量化数据,这些数据对于我们对文学作品有了更加理性的诠释。
三主题情节检索我们知道,通过观察关键词词表中排在较前的关键词,可以得到该文本的最关键信息(关键值越高,说明该信息越重要),如故事中的主题、主要人物、时间、地点、背景、关键线索等描述信息。
用antconc软件对《最后的常春藤叶》的文本进行统计,可以得到一个主题词。
透过主题词表可以看出:这个文本中出现频率最高的实意词依次是her(26次)、sue(24次)、said (22次)、johnsy (21次)、behrman(12次)。
从这几个出现频率最高的人称代词、人名和动词看,这部小说中的主人公就是sue、johnsy和behrman,由此我们可以猜出,小说的主要故事情节是围绕着这三个人物展开的。
作者在描写这些人物时,必定要花费一番功夫。
尤其是检索发现,behrman在作品的中后部分出现频繁,即可推测出中间后面部分是作品的高潮部分。
这正符合欧·亨利小说往往有着不同寻常的结尾这一特点。
“说”(said)是这部作品中出现频率最高的动词,说明文本主要由对话组成,故事情节和人物形象可以从其对话方式中得到。
再从人名上下文搭配的检索结果,我们可以大概了解到这篇小说的主要故事情节描写的是华盛顿贫民窟的三位贫穷画家如何相濡以沫、彼此帮助的故事,是一曲美好心灵的颂歌。
检索sue可知,苏和琼茜是志同道合的朋友(sue and johnsy had their studio);在琼茜不幸染上严重的肺炎,并且其病情越来越重的时候,苏为琼茜悲痛,同时也在尽最大力量帮助琼茜,在生活上照顾琼茜。
检索johnsy可发现,琼茜染病后失去了活下去的勇气和信念,并将生命的希望寄托在窗外最后一片藤叶上,她以为藤叶落下之时,就是她生命结束之时(you needn’t get any more wine,”said johnsy,……then i’ll go,too)。
作为她的朋友的苏很伤心,也很烦恼,便将琼茜的想法告诉了老画家贝尔曼。
于是,作品中便出现了另一个主要人物贝尔曼。
检索behrman可以得知,贝尔曼是个老画家,脾气火爆,终日与酒为伴。
他画了近四十年的画,仍一事无成,虽然每天都说要创作出一篇惊世之作,却始终只是空谈而已(behrman was a failure in art)。
然而,令人惊奇的事发生了:尽管屋外的风刮得那样厉害,而且那片锯齿形的叶子边缘已经枯萎发黄,但它仍然长在高高的藤枝上。
当琼茜看到那片经历了凛冽的寒风和细雨的叶子仍然挂在树上时,便想一片经过凛冽的寒风的树叶都可以存留下来,自己为什么不能?于是,她又重拾生的信念,顽强地活了下来。
可是故事并不是到此就结束了,真相才刚刚打开:原来,为了帮助琼茜重拾活下去的勇气,老画家贝尔曼在一个风雨交加的夜晚,在墙上画了一片藤叶。
为此,年过六旬的贝尔曼染上了肺炎(mr.behrman died of pneumonia)。
在生命的最后时刻,贝尔曼终于完成了已等待多年的杰作。
这片叶子堪称是贝尔曼的生命杰作(it’s behrman’s masterpiece)。
以上分析十分符合欧·亨利的小说创作特点,即:善于描写百姓的大众生活,情节生动,布局精妙,结局出人意料。
四人物塑造检索分析语料库检索最常见的形式叫做kwic(keywords in context),即“语境中的关键词”。
文本中的主要人物一般会出现在主题词表(或关键词表)较前的位置。
如果输入人物关键词(如表示姓名的名词和其人称代词等),利用检索软件检索全文,定能把该词及其共现的语境按照字母顺序罗列出来。
搜索到的相关词和短语就构成了搜索词的共现语篇(co-text)。
这种微型语境可以为我们进行搜索词的搭配分析和文章的主题分析提供可靠的依据。
将所收集到的词和短语进行分类、归纳和分析,就能够描述人物的外貌、活动、性格、心理活动等方面。
利用antconc的concordance plot功能,可以得出作品对三位主人公的描述。
从情节分析图中可以看出,sue和johnsy在作品中开篇到结尾的分布比较均衡,这与作者在通篇作品中对苏和琼茜的描述是符合的。
而behrman的分布不均衡,在开始几乎没有behrman的分布,作品后部behrman的分布则密集起来,这表明behrman是在作品中间出来的人物,符合作者在结尾对他的渲染。
欧·亨利在文章末尾突出地刻画了一个舍己为人,以自己生命为代价的老画家形象。
贝尔曼伟大形象跃入我们眼前,让我们对老画家肃然起敬。
通过检索发现,小说对琼茜的描述,重点放在了对她眼睛进行了描写。
在小说中,作者对eyes的描写有6处,而且这些描写正好与故事情节发展一致,从琼茜空洞无望地瞪着双眼,等待死亡(johnsy’s eyes were open wide);到她毫无生机地凝视窗外,数着一片片正凋零的落叶(keeping her eryes fixed out the window);直到她闭上眼睛,煎熬过风雨交加的黑夜(closing her eyes),再次睁开眼睛,惊异地发现那片正由绿变黄的叶子依然顽强地挺立于风雨中,致使琼茜开始重新审视生活,恢复生活的勇气。
这些正好是琼茜对生活失去信心到重新恢复希望的一个心理过程。
同时,读者可以体会到这片顽强的叶子给予琼茜多么强大的力量。
通过检索还发现,作品中还有一个线索式的重要人物,他就是医生。
doctor在全文出现9次。
观察doctor左右的词汇内容可以发现,作品通过医生场景来描述琼茜的病情发展。
医生第一次出现时候,是在走廊上向苏宣布琼茜的病情几乎无药可救,(doctor invited sue into the hallways,”she has one chance”);医生第二次出现是在隔天下午,他告诉苏,琼茜的病情有了好转,生还的希望是百分之五十(doctor came in the afternoon”even chances,”);医生第三次出现是在隔天早上,他告诉苏,琼茜完全康复了。
同时,医生告诉了苏另外一个可怕的消息,楼下有个老艺术家突然染上了严重的肺炎,并且必死无疑(the next day the doctor said to sue:“she’s out of danger.”)。
这些描写,不仅是在通过医生告诉苏以及读者,琼茜的病情发展;更是作者借助医生这条线索来演绎故事情节的发展。
这些内容通过软件检索更加鲜明地映入读者眼前,而作者这样巧妙地勾勒故事情节的发展,让读者佩服他的构思同时,更有惊叹。
五象征意义检索短篇小说《最后的常春藤叶》正如作品名称一样,其中最具有象征意义的词汇就是叶子(leaf,leaves)。
通过检索叶子,发现leaf 出现8次,leaves出现6次,加起来共有14次,是文章中出现频率最高的实意名词。
文章先从琼茜软弱无力地躺在床上一片片地数着落叶入手,烘托出凄凉、悲观的氛围。
恶劣的天气,纷纷的落叶带给主人公(尤其是个病人)悲凉的心情,导致病人就像一片随时会凋零的落叶。
按照通常思路,那片孤零零的叶子会掉下来,特别是经过雨雪交加的黑夜之后,肯定会掉落,而病人在医生看来已经无生还的希望。
谁知叶子却毅然地挂在树上,而且作者对其形状和颜色进行了详细地描述:深绿色的根,枯黄的叶边,将整片叶子像水彩画一样呈现在读者眼前。