浙江大学肖忠华语料库session 5
- 格式:ppt
- 大小:337.05 KB
- 文档页数:38
第42卷第4期2023年7月大连工业大学学报J o u r n a l o fD a l i a nP o l y t e c h n i cU n i v e r s i t yV o l.42N o.4J u l.2023收稿日期:2023-04-13.基金项目:辽宁省社会科学规划基金项目(L18B T Q004).作者简介:魏晓聪(1982-),女,讲师.D O I:10.19670/j.c n k i.d l g y d x x b.2023.0411中文预设识别语料库的构建与预设识别魏晓聪,段懿桐,刘思含(大连外国语大学软件学院,辽宁大连116044)摘要:预设是普遍存在于人类语言中的一种特殊推理关系㊂为提升计算机对预设这一语言现象的自然语言理解能力,构建了基于人工标注的中文预设识别语料库㊂本语料库与中文自然语言推理数据集的识别难度大体相同㊂通过在本语料库上精调B E R T-b a s e㊁B E R T-w w m-e x t㊁R o B E R T a㊁E L E C T R A以及X L N e t语言模型,结果表明,该语料库能够有效促进大规模预训练模型对预设语言现象的理解,对于体裁格式比较固定的触发类型模型识别较好,对问句㊁与事实相悖的条件从句识别准确率较低,现有大规模预训练语言模型仍然缺乏预设触发语含义的相关知识,在中文预设别方面还有很大的提升空间㊂关键词:语料库;预设识别;自然语言推理;自然语言理解;大规模预训练语言模型中图分类号:T P391文献标志码:A文章编号:1674-1404(2023)04-0299-07T h e c o n s t r u c t i o no fC h i n e s e p r e s u p p o s i t i o n r e c o g n i t i o n c o r p u s a n dp r e s u p p o s i t i o n r e c o g n i t i o nW E I X i a o c o n g,D U A N Y i t o n g,L I U S i h a n(S c h o o l o f S o f t w a r eE n g i n e e r i n g,D a l i a nU n i v e r s i t y o f F o r e i g nL a n g u a g e s,D a l i a n116044,C h i n a)A b s t r a c t:P r e s u p p o s i t i o ni s a s p e c i a lk i n d o fi n f e r e n t i a lr e l a t i o n s h i p t h a ti s c o m m o ni n h u m a n l a n g u a g e.T oe n h a n c et h en a t u r a ll a n g u a g eu n d e r s t a n d i n g a b i l i t y o fc o m p u t e r so nt h i sl i n g u i s t i c p h e n o m e n o n,ah u m a n-a n n o t a t e dC h i n e s e p r e s u p p o s i t i o n r e c o g n i t i o nc o r p u sh a sb e e n p r o p o s e d.T h i s c o r p u s h a s r o u g h l y t h e s a m e l e v e l o f d i f f i c u l t y i n r e c o g n i t i o n.B y f i n e-t u n i n g B E R T-b a s e, B E R T-w w m-e x t,R o B E R T a,E L EC T R A,a n d X L N e to nt h i sc o r p u s,t h er e s u l t ss h o w t h a tt h i s c o r p u s c a n e f f e c t i v e l y p r o m o t e t h e u n d e r s t a n d i n g o f p r e s u p p o s i t i o n l a n g u a g e p h e n o m e n a b y l a r g e-s c a l e p r e-t r a i n i n g m o d e l s.I t p e r f o r m sw e l l i n i d e n t i f y i n g t r i g g e r t y p e sw i t hr e l a t i v e l y f i x e d g e n r e f o r m a t s b u t h a s l o w e ra c c u r a c y i n i d e n t i f y i n gq u e s t i o n sa n dc o u n t e r f a c t u a l c o n d i t i o n a l s.E x i s t i n g l a r g e-s c a l e p r e-t r a i n e d l a n g u a g em o d e l s s t i l l l a c kr e l e v a n tk n o w l e d g eo f t h em e a n i n g o f p r e s u p p o s i t i o nt r i g g e r s, a n d t h e r e i s s t i l lm u c h r o o mf o r i m p r o v e m e n t i nC h i n e s e p r e s u p p o s i t i o n r e c o g n i t i o n.K e y w o r d s:c o r p u s;p r e s u p p o s i t i o nr e c o g n i t i o n;n a t u r a l l a n g u a g e i n f e r e n c e;n a t u r a l l a n g u a g eu n d e r-s t a n d i n g;l a r g e-s c a l e p r e-t r a i n e d l a n g u a g em o d e l s0引言预设普遍存在于人类语言中,是说话人没有明说,但对谈话双方都是不言而喻的内容,即话语中包含的一种假设[1]㊂自然语句中任何有意义的Copyright©博看网. All Rights Reserved.语句都能推导出一个预设,它是自然语言中一种特殊的推理关系[2],预设由此成为语言学特别是语用学研究焦点㊂在语言学领域,预设研究主要集中在预设的表达,如预设种类㊁预设触发语等方面㊂现阶段对预设触发语的研究,主要以西语为考察对象㊂预设作为一种特殊的推理关系与自然语言推理息息相关㊂在自然语言推理数据资源方面,继识别文本蕴含任务[3]被提出后,自然语言推理(n a t u r a l l a n g u a g e i n f e r e n c e,N L I)领域涌现了大量的相关数据集[4-5],文本蕴含数据集(英文为主)[6-7]㊁中文蕴含数据集[8]㊁C N L I评测数据集[9]以及O C N L I等[10]㊂预设作为一种语言现象,总是与某些特定的词语或句子结构相关联,这些特定的词语和结构形式就是用来标明预设的预设触发语,然而现有的N L I数据集很少有与词汇触发语用推理相关的显式信息,仅包含了一些松散的语用推理迹象㊂为研究N L I模型语用推理能力,J e r e t i c等[11]提出了包含级差含义和预设两种语用推理类型的I M-P P R E S数据集㊂为探索机器对特定功能词的理解能力,K i m等[12]提出了包含358个预设实例,覆盖41个预设触发语的数据集㊂在语用预设推理方面,多数工作都是从预设触发语角度开展的[13-16],如J i a n g等[6]研究了涉及事实型动词蕴含补语从句的预测方法㊂除语用预设推理之外,也有学者对其他类型的语用推理,如级差含义[11,17]㊁事件短语上常识推理开展研究㊂预设的复杂性导致语言学家很难对预设触发语进行穷尽性的归纳,现有自然语言推理研究对已知类型的预设触发语覆盖面仍然太小,还不能充分的验证模型在预设方面的推理能力㊂目前仍缺少专门针对中文预设这一语言现象的N L I数据集㊂因此,本研究借鉴现有自然语言推理的先进手段,将原本潜在的㊁较为隐蔽的语用预设从话语的低层析出到表层,构建覆盖多种预设触发类型以及大量预设触发语的中文预设识别语料库(c h i n e s e p r e s u p p o s i t i o n r e c o g n i t i o n c o r p u s, C P R C),以期推动中文领域自然语言推理研究,提高计算机自然语言理解能力㊂1语料库构建按照自然语言推理的标准定义,本语料库的每条语料由一个前提句(p r e m i s e,记作P)和一个假设句(h y p o t h e s i s,记作H)构造为句对㊂与R T E数据集[3]类似,本文将每个句对标注为预设或不预设其中的一种标签㊂如果前提P能够预设得出假设H,那么就说P预设H,记作正例,否则记为负例㊂例如: 哈尔滨发现3例确诊病例 与其触发的预设 哈尔滨有确诊病例 构造为正例句对, 哈尔滨发现3例确诊病例 不能触发出假设句 哈尔滨确诊病例数不胜数 ,将其构造为负例句对㊂1.1前提句收集预设触发语可以标明预设㊂如: 他们继续交往着,谁都拿他们没办法 ,触发语 继续 预设 他们之前一直交往着 ㊂因此本语料库的前提句主要从预设触发语的角度收集㊂与M u l t i N L I[7]的收集策略类似,本文收集的前提句来自语料库㊁书籍㊁论文㊁报刊㊁网络㊁影视剧等多种体裁,覆盖常见预设触发语类型㊂前提句选取时注意长度的多样性,避免长度过短以及句法结构单一㊂本语料库触发类型主要参考蓝纯[18]和王跃平[19]总结的预设触发类型㊂考虑到动词为常见的预设触发类型,语料库以动词类预设为主,包括事实型动词㊁含蓄性动词以及其他动词㊂事实型动词主要依据蒋彩利[20]收集的143个事实型动词㊂含蓄性动词来自C S L I W o r k s h o p P e r s p e c-t i v e s o n M o d a l i t y[21]提供的114个英文含蓄性动词对应的中文词㊂王跃平[19]对‘现代汉语词典“所收录的动词进行考察,以北大语料库为佐证,筛选出的4228个动词也作为触发语收录入语料库㊂触发词存在一词多义的现象,例如: 我已经去了解过这件事了 中触发词 了解 意思为 打听㊁调查 ,触发的预设为 发生过一件事 ㊂而 了解 还有 知道得清楚 等其他含义,但该含义并不能触发出上述预设㊂有的触发词还具有多种词性㊂因此,在收集前提句时首先需要辨别词义㊁明确词性,然后再依据触发词收集前提句㊂1.2假设句标注标注过程初期,按照触发类型学习预设知识并组织讨论㊂为每种触发类型分别收集5条前提句㊂为了避免组员混淆正㊁负例预设,首先训练组员撰写正例假设句;组员进行交叉验证,对存在争议的正例集体讨论和修改;再对上述例句撰写负例㊁交叉验证㊁集体讨论和修改㊂经过多次迭代和多轮假设句撰写训练,最终确定可行的标注体系, T e x t=([T r i g g e r],T y p e,P r e m i s e,N e g,H y p o t h-e s i s,L a b e l,S o u r c e),其中,T e x t代表语料库中的一条语料,T r i g g e r为触发词,T y p e为预设触发类型,P r e m i s e为前提句,N e g为前提句的否定形003大连工业大学学报第42卷Copyright©博看网. All Rights Reserved.式,H y po t h e s i s 为假设句,L a b e l 为句对标签(1为存在预设关系,0为不存在预设关系),S o u r c e 表示例句收集来源㊂因为该语料库主要以触发词触发的预设为主,同时也包含句式触发以及没有触发词的触发类型,所以T r i g ge r 为选填项㊂假设句需符合汉语日常用语习惯,需要注意语言㊁措辞的多样性以及标点符号规范㊂语言表达需多样化,句子表述完整,不能过于简短㊂如果前提句能够同时触发多种预设,只需要书写本触发类型所触发的假设即可㊂1.3 一致性检测为保证语料库标注质量㊁录入语料库的预设信息准确性,语料库的一致性检测分为正例自检和交叉验证两种验证方式㊂正例自检:根据预设在否定句中依然保留这一特性,本语料库标注的正例首先需要通过自检进行验证㊂标注者撰写前提句的否定形式,然后撰写对应的正例假设句,即前提句的预设㊂如果撰写的预设既能从前提句推导出来,也能从前提句的否定形式推导出来,则说明该预设的撰写满足上述特性,该句对可进入后续交叉验证环节㊂交叉验证:通过自检的正例句对以及负例句对在录入语料库前,会被分配给其他2位组员进行校验㊂若3位组员意见统一方可录入语料库㊂若存在意见分歧,由5位组员共同讨论,继续修改假设句,直至5位组员意见统一方可录入㊂由此,最大程度上保证标注的一致性和准确性㊂1.4 语料库统计本语料库收录中文预设语料总计21286条,其中正例11092条,负例10194条,语料库触发类型及句对示例见表1㊂其中, 其他 这个类别是由存在预设,但标注者不能确定属于哪种已知预设类别的语料构成㊂前提句及来源统计见表2㊂表1 语料库触发语类型及句对示例T a b .1 E x a m p l e s o f p r e s u p p o s i t i o n t r i g g e r t y pe sw i t hs e n t e n c e p a i r sf r o m C P R C 触发语类型数量/条前提句假设句(触发的预设)事实动词3729哈尔滨发现3例确诊病例㊂哈尔滨有确诊病例㊂含蓄性动词1320安排好童霜威午睡后,他就拿起课本做起数学习题来㊂童霜威之前没有午睡㊂状态变化动词327孟晚舟回到深圳㊂孟晚舟之前离开了深圳㊂方向动词42我上来了,你下去吗?我和你此刻在上面,我之前在下面㊂其他动词9797我行动不便,村委的网格员主动帮我办理了老年证,让我感到非常暖心㊂有一种证书叫老年证㊂强调句型1908交警在朋友圈晒收到的雨伞㊂交警收到了雨伞㊂特指描写367这是我第一次来到大连,这里真美啊!有一个城市叫大连㊂问句310明天是多云还是晴天呢?明天是多云或者晴天㊂重述词292赵科长又戒烟了㊂赵科长之前戒过烟㊂对比结构218与去年国庆假期相比,今年的时间更短了㊂去年国庆假期时间短㊂与事实相悖的条件从句200要是我提前半小时出门,就不会错过高铁了㊂我没有提前半小时出门㊂时间状语从句196直到出家门,我也没想起来把窗户关上㊂我离开了家㊂语气副词98去一趟至多两个半小时㊂两个半小时算是说多的㊂祈使句36你把这棵树挖掉吧㊂此刻你尚未把这棵树挖掉,你具备把这棵树挖掉的能力㊂比况短语6她就像蛇盘青蛙一样地缠着我㊂存在蛇盘青蛙这件事㊂情态补语6我笑得气都接不上来了㊂存在气都接不上来这个情态㊂谓语成分28今天双休日㊂存在着双休日㊂表时间的名词4林祎星期二出国了㊂存在星期二㊂插入语6‘国际歌“,正如列宁所说,是全世界无产阶级的歌㊂有列宁这个人和说这个行为㊂动词成分4大哥把父亲送上车后才回的家㊂大哥送父亲了㊂感叹句20几千年来披枷带锁的土地,一旦回到人民的手里,变化是多么神速啊!土地变化神速㊂呼应语4周总理,中华儿女永远怀念你!周总理是存在的㊂结果补语6我们把这里的名胜古迹都游览完了㊂(游览)存在完这个情况㊂103第4期魏晓聪等:中文预设识别语料库的构建与预设识别Copyright ©博看网. All Rights Reserved.续表1触发语类型数量/条前提句假设句(触发的预设)时地补语6他的父母生于寒武纪,而他直到公元21世纪才降生㊂存在寒武纪这个时候㊂关系动词24学校的正式工总是剥削来自农村的临时工㊂学校有正式工,有来自农村的临时工㊂区别词10暂时的热闹更增加他的孤寂,辗转半夜睡不着㊂存在着永久的热闹㊂其他2322那条山路,除了他,谁也不熟悉㊂那条山路只有他熟悉合计21286表2 语料库例句来源统计T a b .2 S t a t i s t i c s o f c o r pu s i n s t a n c e s s o u r c e 来源类型数量/条来源示例书籍8604‘平凡的世界“‘假如给我三天光明“‘京华烟云“等报刊5930‘人民日报“‘中国青年报“‘三联生活周刊“等文献358‘预设研究综述“‘现代汉语事实预设动词研究“等网络6087百度㊁微博㊁微信公众号㊁‘中国青年报“‘人民日报“等智库76瞭望智库等动画91‘总之就是非常可爱“‘咱们裸熊“‘龙猫“等电影56‘我和我的父辈“‘肖申克的救赎“‘情书“等电视剧21‘三十而已“‘爱情公寓“‘请回答1988“等其他63合计21286语料库前提句平均词数为18.96,假设句平均词数为8.61㊂前提句和假设句间共同出现的词语占假设句词数的平均百分比为0.05%,其中正例为0.056%,负例为0.044%㊂可见由人工撰写的中文预设识别语料库运用了丰富的词汇表达,在前提句和假设句之间极少出现重叠词汇,从而避免了在词汇上显式的指示前提与假设句之间的关系㊂2 中文预设识别基准实验2.1 数据集识别难度为了便于验证C P R C 的识别难度,选择具有代表性的中文数据库C N L I 和C H N L I ,并将两个语料数据集中标注为中立和矛盾的标签合并为非蕴含类别作为负例,将蕴含标签作为正例,构造为二元分类问题㊂实验采用N L T K 自然语言处理工具包㊁P y-t o r c h 机器学习库和H u g g i n gF a c e 开发的t r a n s -f o r m e r s 包进行建模㊂对比朴素贝叶斯㊁双向长短期记忆网络(B i L S T M )以及卷积神经网络(C N N )3个典型的机器学习方法,其中C N N 词向量128维,批次大小为32,卷积核数量100,卷积核大小为3,训练50轮,学习率为0.001,A d a m 优化器㊂B i L S T M 词向量128维,隐层256维,批次大小为32,训练50轮,学习率为0.001,A d a m优化器㊂训练集和测试集随机打乱㊂本文将每个数据集的90%作为训练集,10%作为测试集,对比结果如表3所示㊂可见,尽管在C N L I 和C HN L I 上用于模型训练的数据量远大于本文的C P R C ,但C P R C 在3种模型上的平均识别准确率最低,另外,在3个数据集上识别准确率因自然语言推理模型不同结果不尽相同㊂但总体来看,C P R C 与C N L I 和C H N L I 识别难度上大体相同,适合作为中文自然语言推理数据资源㊂表3 C P R C 及相关数据集识别准确率T a b .3 I d e n t i f i c a t i o na c c u r a c y ofC P R Ca n do t h e r r e l a t e dd a t a s e t s%数据集朴素贝叶斯C N NB i L S T M 准确率均值C N L I73.9765.4555.8065.09C HN L I 66.6759.8169.6765.38C P R C49.2767.7369.4962.162.2 大规模预训练语言模型基准实验为了检验C P R C 的适用准确性,选择了具有影响力的中文语言模型B E R T -b a s e C h i n e s e,B E R T -w w m -e x t C h i n e s e ,R o B E R T a -w w m -e x t C h i n e s e ,E L E C T R A -180g-b a s e -d i s c r i m i n a t o r C h i n e s e ,X L N e t -b a s eC h i n e s e㊂2.2.1 实验参数基于大规模预训练语言模型的实验采用大规模预训练语言模型加模型精调的方式进行中文预设识别㊂大规模预训练语言模型作为预设识别模型基底,生成句对的上下文语义表示,之后参与下游预设识别训练㊂即在该任务学习过程中,预训练语言模型对自身参数进行更新,让其能够充分利用预训练语言模型庞大的参数来学习更多的预203大 连 工 业 大 学 学 报第42卷Copyright ©博看网. All Rights Reserved.设识别任务知识㊂训练批次大小为8,测试批次为32,训练3轮,每个实验运行3次,随机打乱顺序,准确率和F1取3次实验平均结果㊂2.2.2结果分析典型模型运行的准确性如图1所示,基于t r a n s f o r m e r的大规模语言模型的中文预设识别性能较传统机器学习和神经网络模型有很大的提升,一部分原因可以归功于大规模的训练样本规模比较大,一部分可以归功于模型的优化设计㊂由于考虑了中文分词,B E R T-w w m-e x t比以字粒度切分的B E R T-b a s e在预设识别准确率上有所提升㊂R o b E R T a㊁E L E C T R A-180g-b a s e d i s c r i m i n a t o r 和X L N e t在解决了B E R T诸多局限后,获得了比B E R T-w w m-e x t㊁B E R T-b a s e更好的识别效果,这同样也反映在C P R C上,说明本文中文预设识别语料库可以被用来作为检验自然语言理解的补充数据资源㊂另外,通过在大量中文预设识别语料上精调,模型性能提升了30%~40%,这也说明本语料库可以有效地促进模型对预设这一语言现象的识别能力,进一步提升计算机自然语言推理和理解能力㊂为了区分中文预设识别能力的提升是本语料图1精调模型前后对比F i g.1 C o m p a r i s o nb e f o r e a n da f t e r f i n e-t u n i n g m o d e l s 库中文预设句对的作用,还是训练语料规模的作用,将基准实验中效果较好的E L E C T R A-180g-b a s ed i s c r i m i n a t o r C h i n e s e和R o B E R T a-w w m-e x tC h i n e s e作为基底模型,从C N L I和C HN L I 中随机抽取与基准实验精调模型数量相等的句对精调模型,其余实验参数不变,结果如表4所示㊂可见C N L I和C H N L I虽然是中文自然语言推理数据集,精调模型后在预设识别准确率上比C P R C作为训练数据精调模型低13%~40%,说明该中文预设识别语料库可以大幅度促进大规模预训练语言模型透过字面信息推导语言背后的含意,加强了对语言深度的理解㊂表4精调模型数据集对中文预设识别的影响对比T a b.4I m p a c t c o m p a r i s o no f t h e d a t a s e t s f o r f i n e-t u n i n g m o d e l s模型C N L I C HN L I C P R C准确率F1准确率F1准确率F1 E L E C T R A-180g-b a s e d i s c r i m i n a t o r,C h i n e s e76.3578.6551.2024.6989.5389.41 R o B E R T a-w w m-e x t,C h i n e s e73.4075.3575.1075.7588.5988.64有研究表明,在自然语言推理数据集标注假设句时,容易存在一些体裁风格和注释上的问题[10]㊂为了验证模型不会在本语料库中学习类似的虚假模式,并且在不理解句对关系的情况下预测,将图1中前提-假设句对精调模型后的结果(前提句与假设句串联作为输入)与仅使用假设句作为输入精调模型的结果进行比较,结果如图2所示㊂可见,仅使用假设句作为输入模型性能显著降低㊂因此,为了在本语料库上达到最佳性能,模型需要通过学习前提句与假设句间的相互关系才能做出正确推理㊂为了对比不同种类预设触发类型的识别难度,本文将语料库中 其他 中的句对作为训练集分别精调R o B E R T a-w w m-e x t和E L E C T R A-180g-b a s e,将精调后的模型对图3所示的类别进图2句对训练和仅假设句训练模型性能对比F i g.2 C o m p a r i s o no f s e n t e n c e p a i r s v s.h y p o t h e s i s-o n l ys e n t e n c e su s e da s t h e i n p u t行预设识别㊂本文将语料库中数量比较少的类别:方向动词㊁祈使句㊁比况短语㊁情态补语㊁谓语成分㊁表时间的名词㊁插入语㊁动词成分㊁感叹句㊁呼应语㊁结果补语㊁时地补语㊁关系动词㊁区别词,303第4期魏晓聪等:中文预设识别语料库的构建与预设识别Copyright©博看网. All Rights Reserved.统一合并为 小类别 ㊂由图3所示,有些类别的假设句,如语气副词㊁重述词㊁特指描写等,可能因为体裁格式比较固定,如特指描写类别的假设句,经常以 有一个 有一种 开头,因此预设识别准确率相对较高㊂而有些类别,如问句㊁与事实相悖的条件从句,识别准确率较低㊂图3 各类别预设识别难度对比F i g .3 C o m p a r i s o no f r e c o g n i t i o nd i f f i c u l t y o f p r e s u p p o s i t i o n t y pe s 表5为部分大规模预训练语言模型预测错误案例㊂可见,预测错误的一个主要原因是缺乏理解预设触发语含义的相关知识㊂如表5列出的句对中,模型如果没有很好地对 趁 公布 假如 这些触发词进行理解,则无法进行正确的推理㊂表5 大规模预训练语言模型预测错误案例T a b .5 E x a m p l e s o f e r r o r sm a d eb y l a r g e -s c a l e p r e -t r a i n e d l a n g u a gem o d e l s 前提句假设句真实标签预测标签趁天还没黑,快点儿赶路吧!天黑了㊂负例正例2021年5月下旬,中国乒协公布东京奥运会的参赛大名单,30岁老将刘诗雯落选女子单打比赛名单,令众多球迷惋惜㊂2021年5月下旬的时候,中国参加东京奥运会的乒乓球运动员名单已经确定了㊂正例负例3 结 论为提高计算机自然语言推理能力,加深计算机对中文自然语言的理解,促进自然语言处理研究逐渐由浅入深地从形式㊁语义,向推理㊁语用过渡,本文提出了针对预设这一语言现象的中文预设识别语料库㊂该语料库由21286条前提-假设句对构成,语料来源体裁广泛,覆盖常见预设触发类型㊂为保障质量,语料库完全由人工标注㊂通过与近年提出的中文自然语言推理数据集相比,本语料库识别难度适中㊂基于大规模预训练语言模型的中文预设识别还有很大的提升空间,该语料库可以有效地促进模型对中文潜在含义的深度理解㊂下一步工作将聚焦在两方面:自然语言理解和中文语用研究㊂一方面,将在本文语料库上进行大规模预训练语言模型的探针工作,以及将预设要素引入到句子表示学习中,使得预设的潜在信息在句子表示上发挥作用;另一方面,由于有些情况下语用预设表现得并不明显,可以研究利用神经网络注意力机制发现隐含的㊁不显示的预设,从而辅助语言使用者运用语用和认知推理推导话语中隐含的语用预设㊂参考文献:[1]F R E G EG.Üb e r s i n nu n db e d e u t u n g [J ].Z e i t s c h r i f t f ür P h i l o s o p h i e u n d p h i l o s o ph i s c h e K r i t i k ,1982,100:25-50.[2]S T R AW S O NPF .O n r e f e r r i n g[J ].M i n d ,1950,59(235):320-344.[3]D A G A N I ,G L I C KMA N O ,MA G N I N I B .T h eP A S C A L r e c o g n i s i n g t e x t u a l e n t a i l m e n t c h a l l e n g e [C ]//M a c h i n eL e a r n i n g C h a l l e n g e s .E v a l u a t i n g Pr e -d i c t i v eU n c e r t a i n t y ,V i s u a lO b j e c t C l a s s i f i c a t i o n ,a n d R e c o g n i s i n g T e c t u a l E n t a i l m e n t .B e r l i n :S p r i n ge r ,2006:177-190.403大 连 工 业 大 学 学 报第42卷Copyright ©博看网. All Rights Reserved.[4]K H O T T,S A B HA RWA L A,C L A R K P.S C I-T A I L:a t e x t u a l e n t a i l m e n t d a t a s e t f r o m s c i e n c e q u e s t i o na n s w e r i n g[C]//P r o c e e d i n g so ft h e T h i r t y-S e c o n d A A A I C o n f e r e n c e o n A r t i f i c i a lI n t e l l i g e n c e a n dT h i r t i e t h I n n o v a t i v eA p p l i c a t i o n s o fA r t i f i c i a l I n-t e l l i g e n c eC o n f e r e n c ea n d E i g h t h A A A IS y m p o s i u m o n E d u c a t i o n a l A d v a n c e si n A r t i f i c i a lI n t e l l i g e n c e. N e w O r l e a n s:A A A IP r e s s,2018:5189-5197. [5]S A D A T M,C A R A G E A C.S c i N L I:ac o r p u sf o r n a t u r a l l a n g u a g e i n f e r e n c e o n s c i e n t i f i c t e x t[C]//P r o-c e e d i n g s o f t h e60t h A n n u a lM e e t i n g o f t h eA s s o c i a-t i o n f o rC o m p u t a t i o n a lL i n g u i s t i c s.D u b l i n:A s s o c i a-t i o n f o r C o m p u t a t i o n a l L i n g u i s t i c s,2022:7399-7409.[6]J I A N G N J,D E MA R N E F F E M C.D o y o uk n o w t h a t F l o r e n c ei s p a c k e d w i t h v i s i t o r s E v a l u a t i n g s t a t e-o f-t h e-a r tm o d e l so f s p e a k e r c o m m i t m e n t[C]// P r o c e e d i n g s o f t h e57t hA n n u a lM e e t i n g o f t h eA s s o-c i a t i o n f o rC o m p u t a t i o n a lL i n g u i s t i c s.F l o r e n c e:A s-s o c i a t i o n f o rC o m p u t a t i o n a lL i n g u i s t i c s,2019:4208-4213.[7]W I L L I AM S A,N A N G I A N,B OWMA N S.Ab r o a d-c o v e r a g ec h a l l e n g ec o r p u sf o rs e n t e n c eu nde r-s t a n d i n g t h r o u g hI nf e r e n c e[C]//P r o c e e d i ng so fth e 2018C o n f e r e n c eo ft h e N o r t h A m e ri c a n C h a p t e ro f t h e A s s o c i a t i o nf o rC o m p u t a t i o n a lL i n g u i s t i c s:H u-m a nL a n g u a g eT e c h n o l o g i e s.N e w O r l e a n s:A s s o c i a-t i o n f o r C o m p u t a t i o n a l L i n g u i s t i c s,2018:1112-1122.[8]L I U H Y.C h i n e s e T e x t u a l I n f e r e n c e[E B/O L]. (2018-12-15)[2023-04-13].h t t p s://g i t h u b.c o m/l i-u h u a n y o n g/C h i n e s e T e x t u a l I n f e r e n c e.[9]B L C U N LP.C N L I[E B/O L].(2019-04-16)[2023-04-13].h t t p s://g i t h u b.c o m/b l c u n l p/C N L I. [10]HU H,R I C HA R D S O N K,X U L,e t a l.O C N L I: o r i g i n a lC h i n e s e n a t u r a ll a n g u a g ei n f e r e n c e[C]//F i n d i n g so f t h eA s s o c i a t i o nf o rC o m p u t a t i o n a lL i n-g u i s t i c s:E MN L P2020.O n l i n e:A s s o c i a t i o n f o rC o m p u t a t i o n a l L i n g u i s t i c s,2020:3512-3526.[11]J E R E T I C P,WA R S T A D T A,B H O O S HA N S,e t a l.A r en a t u r a l l a n g u a g ei nf e r e n c e m o d e l sI M P-P R E S s i v e L e a r n i n g I M P l i c a t u r ea n dP R E S u p p o s i-t i o n[C]//P r o c e e d i n g s o f t h e58t hA n n u a lM e e t i n g o f t h eA s s o c i a t i o nf o rC o m p u t a t i o n a lL i n g u i s t i c s.O n-l i n e:A s s o c i a t i o n f o r C o m p u t a t i o n a l L i n g u i s t i c s, 2020:8690-8705.[12]K I M N,P A T E L R,P O L I A K A,e ta l.P r o b i n gw h a t d i f f e r e n t N L P t a s k s t e a c h m a c h i n e s a b o u tf u n c t i o n w o r dc o m p r e h e n s i o n[C]//P r o c e e d i ng so f th eEi g h t hJ o i n tC o n f e r e n c eo nL e x i c a l a n dC o m p u-t a t i o n a l S e m a n t i c s.M i n n e a p o l i s:A s s o c i a t i o n f o rC o m p u t a t i o n a l L i n g u i s t i c s,2019:235-249.[13]K A B B A R AJ,F E N G Y,C H E U N GJC K.C a p t u-r i n gp r a g m a t i ck n o w l e d g e i na r t i c l eu s a g e p r e d i c t i o n u s i n g L S TM s[C]//P r o c e e d i n g so fC O L I N G2016, t h e26t hI n t e r n a t i o n a lC o n f e r e n c eo nC o m p u t a t i o n a l L i n g u i s t i c s:T e c h n i c a lP a p e r s.O s a k a:T h e C O L-I N G2016O r g a n i z i n g C o m m i t t e e,2016:2625-2634.[14]C I A N F L O N E A,F E N G YL,K A B B A R AJ,e t a l.L e t s d o i t a g a i n :a f i r s t c o m p u t a t i o n a l a p p r o a c h t od e t e c t i n g a d v e r b i a l p r e s u p p o s i t i o nt r i g g e r s[C]// P r o c e e d i n g s o f t h e56t h A n n u a lM e e t i n g o f t h eA s-s o c i a t i o n f o rC o m p u t a t i o n a l L i n g u i s t i c s.M e l b o u r n e:A s s o c i a t i o nf o r C o m p u t a t i o n a l L i n g u i s t i c s,2018: 2747-2755.[15]C L A R KP,H a r r i s o nP,T H OM P S O NJ,e t a l.O n t h er o l eo fl e x i c a la n d w o r l d k n o w l e d g ei n R T E3[C]//P r o c e e d i n g so f t h e A C L-P A S C A L W o r k s h o p o n T e x t u a lE n t a i l m e n ta n d P a r a p h r a s i n g.P r a g u e:A s s o c i a t i o nf o r C o m p u t a t i o n a l L i n g u i s t i c s,2007: 54-59.[16]P A V L I C K E,C A L L I S O N-B U R C H C.T e n s em a n-a g e s t o p r e d i c t i m p l i c a t i v eb e h a v i o r i nv e r b s[C]//P r o c e e d i n g so ft h e2016C o n f e r e n c e o n E m p i r i c a l M e t h o d s i n N a t u r a lL a n g u a g eP r o c e s s i n g.A u s t i n:A s s o c i a t i o nf o r C o m p u t a t i o n a l L i n g u i s t i c s,2016: 2225-2229.[17]S C HU S T E RS,C H E N Y X,D E G E NJ.H a r n e s s-i n g t h el i n g u i s t i cs i g n a l t o p r e d i c ts c a l a r i n f e r e n c e s[C]//P r o c e e d i n g s o f t h e58t hA n n u a lM e e t i n g o f t h eA s s o c i a t i o nf o rC o m p u t a t i o n a lL i n g u i s t i c s.O n l i n e:A s s o c i a t i o nf o r C o m p u t a t i o n a l L i n g u i s t i c s,2020: 5387-5403.[18]蓝纯.现代汉语预设引发项初探[J].外语研究,1999(3):11-14.[19]王跃平.现代汉语预设触发语研究[M].南京:南京大学出版社,2020.[20]蒋彩利.现代汉语事实预设动词研究[D].上海:华东师范大学,2009.[21]A n o n.I n d e xo f/g r o u p/c s l i_l n r/l e x i c a l_r e s o u r c e s[D B/O L].[2023-04-13].h t t p://w e b.s t a n f o r d.e d u/g r o u p/c s l i_l n r/L e x i c a l_R e s o u r c e s/.(责任编辑:刘发盛)503第4期魏晓聪等:中文预设识别语料库的构建与预设识别Copyright©博看网. All Rights Reserved.。
1引言人机口语对话系统是语音识别技术走向实用的一个重要研究方向。
口语对话系统的目标是能够让人通过自然语言表达自己的思想,与计算机就某一领域的内容进行信息交互[1]。
近年来各国都投入了大量人力、物力、财力来研究口语对话系统,美国有DARPA的Communicator计划,欧洲有ARISE计划、RE-WARD计划、VERBMOBIL计划等。
很多著名的学府与研究机构都在开展这项研究,如MIT的SLS实验室、CMU的ISL实验室、Lucent-BeII实验室、日本的ATR实验室、OGI的CSLU中心和PhiIips公司等[2]。
国内也有中科院自动化所、清华大学、香港中文大学、台湾大学等多家研究单位从事此方面研究。
口语对话系统可分为四个层次:人机交互层,自然语言处理层,对话管理层,应用程序层。
目前很多口语对话系统都将自然语言处理层研究的重点放在语法和语义平面,这样处理的一个问题是无法理清一段对话的整体内在联系[3]。
而对话往往由于口语中省略、指代、结构歧义等现象的存在,使得分析的结果具有歧义。
这就要求我们用话语分析(Discourse AnaIysis)模块利用上下文语境和相关的领域知识进行排歧从而能得到最后的语义表示[4]。
话语分析后存储的对话历史还可以帮助系统推测用户下面将说的话语,以实现语言处理模型的动态转换,从而提高系统识别的准确率。
话语分析包括两方面:一是从独立的对话中抽取出主题和用户意图,二是用恰当的数据结构描述出主题与意图的转换关系[5]。
话语分析策略可以分为基于知识的方法与基于语料库的方法。
基于知识的方法用一系列规则从对话中抽取主题和用户意图,并用规则的方法描述状态的转换过程。
这些规则的设计主要根据语言学者的总结[6]。
而基于语料库的策略需要用到两个概率:P(TIW)和P(IIW)。
P(TIW)是主题T的条件概率,P(II W)是用户意图I在一个对话中出现过的词符集W下的条件概率。
这两个概率通过对已标注的语料库的分析来估测,并用来抽取主题和识别用户意图。
国内语料库翻译研究综述【摘要】语料库辅助(corpus-assisted)翻译研究始于英国学者mona baker,近些年我国相关学者应用这一新范式对翻译理论及实践进行了多方面的探讨,本文基于近十年《中国翻译》期刊上发表的全部共16篇有关语料库翻译研究的学术论文进行归纳总结,得出其研究的内容主要可分为六个方面:翻译普遍性、翻译实践与教学研究、翻译语料库创建与应用、译者风格、书评、综合概述。
启发当代语料库翻译的实体建设及理论深化研究。
【关键词】语料库翻译;《中国翻译》;研究综述1.引言1993年,英国学者mona baker 发表了“语料库语言学与翻译研究:启示和应用”一文,将语料库研究方法引入翻译研究,此文标志着语料库翻译研究的开端。
国内的语料库翻译研究始于杨惠中教授1993年发表的“语料库语言学与机器翻译”一文,几乎与国外同时起步。
如今,国内的研究已经走过了20个春秋,也有了长足的发展。
本文就《中国翻译》这一cssci核心期刊进行人工检索,获得近十年全部有关语料库翻译研究的学术论文共16篇,文献表明:近些年国内相关学者应用这一新范式对翻译理论及实践进行的探讨,主要包括以下六个方面:翻译普遍性、翻译实践与教学研究、翻译语料库创建与应用、译者风格、书评、综合概述等。
2.语料库辅助翻译理论与实践的主要研究方向不可否认,语料库就像一个显微镜,它能使我们更客观,更具体地去探究翻译这一复杂人类交际活动。
当然,我们也应该看到,尽管语料库翻译研究为我们提供了对大量真实翻译文本的客观描述,但方法本身并不提供对翻译现象的解释。
对语料库翻译理论与实践的研究需要在更广泛、更细致的基础上不断地加深。
2.1翻译普遍性(translation universals)“翻译普遍性,是指翻译语言作为一种客观存在的语言变体,相对于原语语言或目标语原创语言从整体上表现出来的一些规律性语言特征。
”(baker,1993:243) baker和oolhan等人先后揭示的翻译共性主要是:简化、显化、范化。
ENGLISH ON CAMPUS2022年14期总第610期明晰化理论视角下的电影《肖申克的救赎》的字幕翻译研究摘 要:字幕是以文字形式显示的影视作品的对话等非影像内容,字和声音语言的局限性不同,能为电视、电影等作品消除语言隔膜以及其他客观因素造成的传播障碍。
随着越来越多的外国影视作品引入国内,作为源语文本和译语文本同时出现的唯一翻译形式——字幕翻译(Subtitling Translation)也受到了广泛关注。
影视是文化传播的载体之一,优秀的影视作品跨界传播的同时,文化交流亦与此同步发生着,字幕翻译使得不理解某种外语的观众既能听见原作声带,又能理解内容。
要生产出适合观看的字幕,字幕组或其他翻译人员会采用不同的翻译方法来提高片源文字的质量。
本文以明晰化理论为指导,探讨了正反译法、增加连词、重复法、添加注释、使用具体词等具体的明晰化策略在电影《肖申克的救赎》字幕翻译中的运用。
关键词:明晰化理论;字幕翻译;《肖申克的救赎》作者简介:杨秀花,昆明理工大学外国语言文化学院。
一、电影《肖申克的救赎》简介根据斯蒂芬·金的中篇小说《丽塔海华丝与肖申克监狱的救赎》改编的电影《肖申克的救赎》(The Shawshank Redemption)是一部美国剧情片,由弗兰克·德拉邦特于1994年编剧并导演。
该片获得了包括奥斯卡金像奖在内的众多奖项,片中台词“忙着活,或忙着死”(Get busy living, or get busy dying)获得百年百大电影台词提名,被普遍视为20世纪90年代的电影杰作。
《肖申克的救赎》也具有深刻的文化影响,老一辈观众向新生代分享,使得其公众认可度经久不衰,大部分情况下已经超出评论家能够诉诸笔端的程度。
该片能激起任何年龄段、不同国籍的观众的共鸣,离不开成功的字幕翻译。
数十年后,影片仍在上映,而且跨越国界乃至洲界限制,经院线加印和海外发行。
二、案例分析《肖申克的救赎》中一些人物的对白或者独白用词含蓄、笼统,含有许多重要的地名或者具有文化色彩的词,简单的直译会造成语义上含糊,或失去原版字幕的风格特点。
AntConc软件在B级考试复习中的应用黄永新;张黎黎【摘要】语料库在外语教学领域的应用具有广泛的发展前途.以笔者自建的英语应用能力考试B级考试真题语料库为例,利用语料库检索软件AntConc,探讨语料库技术在B级考试复习中所能发挥的功能与作用,旨在从一个全新的角度为英语等级考试复习提供思路.【期刊名称】《石家庄铁路职业技术学院学报》【年(卷),期】2011(010)002【总页数】3页(P79-81)【关键词】AntConc;语料库;B级考试【作者】黄永新;张黎黎【作者单位】石家庄铁路职业技术学院,河北,石家庄,050041;石家庄铁路职业技术学院,河北,石家庄,050041【正文语种】中文【中图分类】H310.421 引言语料库语言学为语言教师提供充足的语料资源,使得教师教学中的感性认识可以通过数据统计获得验证,从而得以发现更细微的语言现象。
同时,随着网络及个人电脑的普及,越来越多的外语教师及研究者开始构建个自己的语料库。
全国高等学校英语应用能力考试(Practical English Test for Colleges, 简称PRETCO)是教育部批准实施的面向高职高专层次全国性教学考试,分为A级和B 级。
以B级考试复习为例,探讨语料库检索软件AntConc所能发挥的功能与作用。
2 复习范围的确定真题是B级考试复习中的重要材料,因为真题中的所有题目都经过反复论证,质量远远高于其它习题和模拟题;而且,真题包含许多考试信息和讯号,具有情报功能,吃透真题,可以充分理解和把握命题人的思路。
一般情况下,教师都会为学生准备十套真题。
那么,十套真题到底够不够呢?下面通过语料库手段对这一问题进行验证。
表1 B级真题词汇量统计表试题年份 2005.06 2005.12 2006.06 2006.12 2007.06 2007.12 2008.06 2008.12 200906 2009.12词汇量 875 901 842 860 873 821 880 875 902 787笔者收集了2005年6月至2009年12月共十套B级真题,建成了一个小型B级考试真题库。