大数据时代汉英语际对应词的挖掘

格式：doc
大小：13.50 KB
文档页数：5

下载文档原格式

大学英语英汉互译教学的可创性探究——以iTEST系统为语料库

一一一一一一一翻译研究本栏目责任编辑：梁书大学英语英汉互译教学的可创性探究——以iTEST 系统为语料库陈亦炘（浙江传媒学院大学外语教学部，浙江杭州310018）摘要：大数据时代下，科学技术的引进与突破，预示着教师的教学策略应当具有日新月异的变革。

大学英语教学中，学生英汉互译能力的培养与检测是不容忽视的一个重要环节。

该文以外研社iTEST 大学外语测试与训练系统作为数据库，建立双语平行语料库并通过对授课学生的译句质量得出分析结果，提出适应于本校英汉互译教学的创新对策及阐述英汉互译能力培养的价值。

关键词：英汉互译；平行语料库；质量分析；策略；创新中图分类号：G424文献标识码：A文章编号：1009-5039(2019)18-0009-021英汉互译教学现状与问题“2+3”（网络自学2学时与课堂教学3学时）教学模式，是基于网络教学平台与网络测试平台的大学英语教学模式。

教学软件为外研社提供的U 校园智慧教学云平台（简称：U 校园）及iTEST 大学外语测试与训练系统（简称：iTEST 系统）。

大学英语听、说、读、写、译的教学中，“译”的教学即通过英译汉与汉译英的方式，培养学生使用英汉双语进行表达，从而实现更好的跨文化交际的能力。

因此，在网络科技的帮助下，学生英汉互译能力的训练得以更为有序地进行，而能力检测则使用iTEST 系统，进而实现教学模式与测试模式的相互协调与相对统一。

英汉互译的教学多采用教师讲授翻译技巧并呈现相关的翻译实例，学生则进行实战操练，以文篇翻译或句子翻译的方式进行。

相较国内其他高校的翻译课堂教学，相似的问题在于，英汉互译教学仍是以教师为主导，学生被动模仿式的翻译教学状态，因此，限制了学生双语灵活运用能力的发挥。

本校现代科技与传统相结合的英语教学模式，促使教师在翻译模块教学中的改进，学生积极性的增加，自觉性的提高以及译句质量的提升是教师值得思考的问题。

2基于语料库的译句分析语料库是根据一定的语言规则，以随机抽样的方式，收集现实生活中自然连续的语言，运用文本或文字片段，建成的具有一定容量的大型电子文本库。

“文本挖掘与话语研究”专栏

2020年7月Jul.2020天津外国语大学学报Journal of Tianjin Foreign Studies University第27卷第4期Vol.27No.4“文本挖掘与话语研究”专栏主持人语（汪顺玉）:数字时代的话语生产者正在以惊人的速度和量级生产和传播话语。

得益于网络技术助推的数据革命以及计算机软、硬件技术助推的计算革命，这些真实话语大数据的获取和计算都已经成为现实。

新兴蓬勃发展的文本挖掘技术能够从海量的自然语言文本中获取有价值的语义和情感信息。

主题模型、文本聚类、结构化特征提取、情感分析等技术能超越目前基于Antconc或WordSmith工具的词汇（或N-元结构）语法结构频度分布的语料库话语分析限制，也能够超越基于主流文献计量工具提供关于文献背景信息（而非文献本身）的词共现或主题网络分析的限制，为文本分析提供望远镜和显微镜式的量化分析，拓展话语量化研究新视野。

这些新变化能够为话语研究获取新数据、提供新方法、解决新问题。

本栏目的四篇文章涉及学术话语、政治话语、科技话语，使用了对应分析、主题模型、情感分析方法，既有体现无监督学习的主题模型、文本相似度计算，也有基于情感字典的文本情感分析。

西安外国语大学汪顺玉的《中国学生英语讲述中国故事的话语方式研究——基于文本挖掘的发现》以2018年北京词网公司开展的全国英语写作“百万同题”竞赛写作语料库为研究材料，应用R和T-Lab分析工具进行了文本聚类、文本相似性、主题模型方法对初中、高中、高职院校、普通高校、重点高校的13500篇作文进行分析，发现了不同层次学校学生用英语讲述中国故事的话语构建模型的异同。

重庆大学钱深华和重庆邮电大学刘靓的《基于情感词典的中国英语学习者写作文本的情感挖掘研究》主要基于R的语言查询与字词计数法，对来自五种类型院校的734578篇作文文本进行情感挖掘，发现正向情感中高中学生文本在五类院校中最高，初中学生文本最低，而负向情感中初中文本的焦虑、愤怒、悲伤相关的情感词汇频数皆为五类院校中最高。

高并发汉英信息抽取系统的设计与实现

2019 年 8 月 15 日
第 42 卷第 16 期
104
DOI：10.16652/j.issn.1004⁃373x.2019.16.024
Aug. 2019
Vol. 42 No. 16
现代电子技术
Modern Electronics Technique
高并发汉英信息抽取系统的设计与实现
张少迪 1，2，艾山·吾买尔 1，2，郑
用户能够快速地发现自己所需要的信息，减少不必要的
大地推动了相当一部分人去从事汉语和英语信息抽取
时间花费，也让一些信息能够顺利地被其受众找到，实
相关技术的研究。通过这些年的研究，已经有很多比较

现其应有的价值成为了学者们研究的重要课题。然而
成熟的算法被提出，如 Taeho Jo 提出一种基于 KNN 的表
中图分类号：TN912.34⁃34；TP391
文章编号：1004⁃373X（2019）16⁃0104⁃04
文献标识码：A
Design and implementation of high⁃concurrency Chinese⁃English
information extraction system
ZHANG Shaodi1，2，AISHAN Wumaier1，2，ZHENG Jiong1，2，SHI Gang1，2
（1. School of Information Science and Engineering，Xinjiang University，Urumqi 830046，China；
2. Laboratory of Xinjiang Multi⁃Language Information Technology，Xinjiang University，Urumqi 830046，China）

基于语言学资源的汉-英机器翻译

2021.04科学技术创新基于语言学资源的汉-英机器翻译金鹏张春祥冯禹瑄贾永刚王淇桢(哈尔滨理工大学软件与微电子学院,黑龙江哈尔滨150080)1概述在机器翻译系统中翻译知识是重要的知识源,能够完成源语言到目标语言的转换任务。

目前,从语料库中学习翻译知识已经占到了主流地位。

基于语料库的机器翻译可以分为两种形式:基于统计的翻译系统和基于实例的翻译系统。

1.1统计机器翻译(St at i s t i cal M achi ne Tr ans l at i on ,SM T ),又称数据驱动的翻译,是一种采用统计学习技术来获取知识的方法。

这种方法将翻译知识表示为模型参数,利用双语语料来优化模型参数。

统计机器翻译主要包括基于信源信道模型的统计翻译、基于平行概率语法的统计翻译和基于最大熵的统计翻译[1]。

1.2基于实例的机器翻译(Exam pl e-Bas ed M achi ne Tr ans l at i on ,EBM T ),其基本原理是:把双语语料看作翻译知识库,通过实例的查询和相似度计算来实现知识的查找和匹配。

类比源语言与翻译实例,通过组合相近的实例片断来生成目标语译文。

实例的查询和相似度计算本身就是一个知识获取的过程。

这种方法不通过深层次的分析,仅使用已有的经验知识,通过类比原理来进行翻译[2]。

本文对汉英双语语料进行词汇对齐,根据词链从中抽取汉英对译片断对。

同时,给出了基于对译片断对的机器翻译框架,对输入的汉语句子进行翻译转换。

2汉-英对译片断对获取对译片断对也就是人们常说的翻译等价对。

翻译等价对获取不但是机器翻译课题中的一个重要环节,而且也是自然语言处理中亟待解决的问题。

在处理像汉-英这样具有异构语法体系的语言对时,现行的对译片断对抽取方法会遇到很多问题。

对以下汉-英双语句对,其对译片断对的抽取过程如下所示:汉语句子:这是收据和零钱英语句子:H er e i s t he r ecei pt and your change 词汇对齐结果如图1所示:图1汉英句对的词汇对齐结果对译片断对:这是<->H er e i s 收据<->t he r ecei pt 和<->and 零钱<->your change在实际应用中,对译片断对是很复杂的。

《汉蒙词语对齐及相关技术研究》范文

《汉蒙词语对齐及相关技术研究》篇一一、引言随着中国与蒙古国之间的交流日益频繁，汉蒙语言之间的互译需求也日益增长。

而汉蒙词语对齐技术作为自然语言处理领域的重要研究方向，对于促进汉蒙语言的互译和交流具有重要意义。

本文旨在探讨汉蒙词语对齐的相关技术及其应用，为汉蒙语言互译和跨文化交流提供技术支持。

二、汉蒙词语对齐的背景及意义汉蒙词语对齐是指将汉语与蒙古语中的词汇进行一一对应的过程。

在汉蒙翻译、词典编纂、自然语言处理等领域，汉蒙词语对齐技术发挥着重要作用。

通过对齐技术，可以实现汉蒙两种语言之间的准确互译，为跨文化交流提供便利。

此外，汉蒙词语对齐还有助于推动汉蒙语言资源的共享和利用，促进两国人民的友好交流与合作。

三、汉蒙词语对齐的技术研究1. 基于规则的词语对齐技术基于规则的词语对齐技术是指通过人工制定的规则或算法，将汉蒙两种语言中的词汇进行对应。

这种方法需要大量的语言学知识和经验，但具有较高的准确性和可靠性。

在汉蒙词语对齐中，可以通过制定一些规则，如词性对应关系、语义相似度等，来提高对齐的准确性。

2. 基于统计的词语对齐技术基于统计的词语对齐技术是指通过分析大量语料库中的词汇信息，计算汉蒙两种语言之间的词汇对应关系。

这种方法不需要人工制定规则，可以自动进行词语对齐。

常用的统计方法包括词频统计、共现关系分析等。

在汉蒙词语对齐中，可以利用统计方法分析语料库中的词汇信息，提取出对应关系并进行对齐。

3. 深度学习在汉蒙词语对齐中的应用深度学习是一种基于神经网络的机器学习方法，可以自动提取和挖掘数据中的特征信息。

在汉蒙词语对齐中，可以利用深度学习技术对大量语料库进行训练和学习，提取出汉蒙两种语言之间的语义特征和对应关系，从而提高对齐的准确性和效率。

四、汉蒙词语对齐的应用场景1. 汉蒙翻译汉蒙词语对齐是汉蒙翻译的基础工作之一。

通过对齐技术，可以实现汉蒙两种语言之间的准确互译，为翻译工作提供便利和支持。

2. 词典编纂汉蒙词语对齐技术可以用于词典编纂工作，将汉语与蒙古语中的词汇进行一一对应，为词典的编纂提供数据支持和技术支持。

“目的论”视角下从“可读性”出发浅谈汉译英歌词翻译技巧——以

n翻译目的论与“可读性"
麻 l.i于翻2译0世目的纪论70年代的翻译目的论是以德国功能派
翻译理论为基础发展分化而成的。该理论认为翻译目的决定了翻译策略及方法，翻译是“在目的语情景中为某种目的及目标受众而生产的语篇”。在弗米尔的目的论框架中，决定翻译目的的最重要因素之一是译文接受者; 同时，赖斯(2004)从功能的视角审视了翻译过程，认为如果译文具有特殊功能和特殊读者群体，就应根据译文的功能和读者群体类别来优先考虑译文的功能特征而不是对等原则。在这一框架下，翻译过程更注重译文的受众需求，翻译结果更注重译文的功能效应。
ozz
［8］王建华.关于语境的定义和性质QJ.浙江社会科学，2002(2). ［9］杨春.性M吾言研究［M］.北京：光明日报出版社，2010.
d^o
［10］杨永红.语用学视角下《红楼梦》称谓语韩译研究UL北京：北
京外国语大学，2017.
［11］张莉萍.称谓语性别差异的社会语言学研究［D］.北京：中央民
翻译目的论有三大原则：目的性、连贯性和忠实性原则。后来，诺德补充加入了忠诚原则。目的原则是翻译目的论的首要原则，它指翻译应能在译入语情境和文化中按译文接受者期待的方式发生作用。这意味着译者需以译文读者为出发点，以满足他们的需求为翻译目的, 选择翻译方式进行翻译，即翻译目的决定翻译行为。
1.2可读性首先明确一组概念：可读性(understandability)与可唱性(singability)。这组概念的提出是为了区分歌词翻译的两个目的，一是为了翻译后的歌词可以被人演绎翻唱 (cover),在这种情况下翻译的最终目的是''可唱性”，这要求歌词译文与旋律适配；而当翻译是为了人们欣赏艺术表演可以通过字幕明白表演者想表达的内容时，翻译的最终目的是“可读性”，即可以看懂歌词内容。我国早期翻译家严复在《天演论》中曾说："译事有

英语词典的来源是什么？

英语词典的来源是什么？一、词典的历史渊源（500字左右）词典作为一种记录和解释语言的工具，具有悠久的历史渊源。

最早的英汉词典可以追溯到18世纪末，那个时期主要是国内编纂的词典。

然而，真正标志着英汉词典走向于繁荣的还是由外国传教士编写的英汉词典。

西方文化的传入为英语词典的发展提供了宝贵的素材，同时也对科学性和规范性产生了重要影响。

至今，英语词典在语言学、翻译和英语教学等领域仍扮演着重要角色。

二、资源丰富的收集和整理（800字左右）1. 母语和二语者的贡献最早的词典由个别学者独自编纂，他们依靠的主要是自身的语言学知识和对语言的敏感。

然而，随着世界交流和沟通的增加，许多母语和英语作为第二语言的人开始主动参与词典的编纂。

他们通过提供丰富且真实的语料，帮助纠正原有词典中的错误和不足。

他们的贡献使得词典内容更加准确和全面。

2. 大数据技术的运用随着互联网和智能手机的普及，人们的生活方式发生了巨大改变。

海量的文本数据成为一种宝贵的资源，它包含了各类领域的专业词汇和日常口语表达。

信息技术的发展也使得大数据处理变得更加高效和智能化。

通过对这些文本数据的挖掘和筛选，词典编纂者可以从中收集到更多新词汇、词义和搭配等信息，使词典更贴近当代语言使用。

3. 乐趣与创新的结合编写词典是一项充满乐趣和创新的工作。

在索引和编排词目的过程中，编纂者可以根据语言变迁和文化演变的趋势，赋予词典以更多的生命力。

例如，近年来一些权威词典开始加入网络流行语和潮流词汇，使得词典不再是冰冷的工具，而更像是一本活生生的语言宝库。

同时，一些新的词典还会通过引入图表、插图和语篇等形式，使得读者可以更加直观地了解词汇的使用环境和背景，提升词典的魅力和实用性。

三、词典的未来发展（400字左右）词典作为语言工具的象征和载体，与人们的日常生活息息相关。

在未来，词典的发展仍将继续以更加智能化和互动化为方向。

随着人工智能和机器学习的发展，词典编纂将更多依靠计算机的辅助和智能处理，提高编纂效率和准确度。

大数据时代的大学英语写作教学

大数据时代的大学英语写作教学田娅丽（河北师范大学附属民族学院河北·石家庄050091）摘要互联网以及各种智能客户端逐步深入到教育领域中，推动着教育信息化和教育多元化的发展，将教育带入到了全新的大数据时代中。

大数据时代下大学英语写作教育，不再局限于传统的课堂教学，而是全面革新了英语作文教学的内涵、观念以及辅助手段等，写作教学资源以及写作目的、写作内容等都出现了多方面变化，从而为大学英语写作教学创新带来了挑战和机遇。

本文针对大数据时代的大学英语教学创新路径，进行深入探究和分析，以期为高校英语写作教育提供有效的策略与措施，进一步提升英语写作教学效果。

关键词大数据时代大学英语写作教学中图分类号：H319.36文献标识码：A1大数据时代下大学英语写作变化趋势1.1英语写作教学环境变化大数据时代下大学生英语写作教学，将教学目标聚焦于语言应用，要求教师从多个角度认识和解析作者、文本和读者之间的关系，教学要从多个维度制定教学策略。

大学英语教师，需要针对大数据时代下大学英语写作教学目标、教学方式以及教学模式的变化，做好思想与策略准备，在提升自身信息技术能力的同时，加强与教育技术人员合作，准确把握大学英语写作教学的变化趋势，且更好地适应变化趋势，选取合适有效的教学方法，推动大数据时代大学英语教学改革。

写作能力是英语基础能力组成之一，为了切实提升大学生英语写作水平，需要强化大学生写作能力培养，学生本身也应借助大数据时代的信息技术和网络，转变传统的写作学习思维。

故此，高校需将信息技术和新型写作理念融入到写作教学中，革新师生的思维方式和学习方式。

1.2英语写作教学目标、模式变化一方面，教师在教育中需要从教学目标、教学资源以及教学形式入手，重新构建大学英语写作教学模式，推动大学英语写作教学进入新的发展阶段，实现大学英语写作教学改革。

另一方面，大数据时代下，学生要积极利用网络自主学习和交互学习，但为了避免出现写作抄袭和复制、网络翻译的情况，应该采用翻转课堂和微课教学形式。

基于HSK动态作文语料库的程度副词偏误研究

基于HSK动态作文语料库的程度副词偏误研究I. 研究背景和意义随着全球化的不断推进，汉语在世界范围内的应用越来越广泛。

作为世界上使用人数最多的语言之一，汉语的学习者数量逐年攀升。

为了满足这一需求，HSK(Hanyu Shuiping Kaoshi,汉语水平考试)应运而生，成为衡量非母语者汉语水平的权威标准。

然而HSK考试中的一些问题仍然存在争议，例如程度副词的使用。

程度副词是表示动作或状态程度的词语，如“很”、“非常”等。

在汉语中程度副词的使用较为复杂，容易出现偏误。

因此对程度副词偏误的研究具有重要的理论和实践意义。

本文旨在通过对HSK动态作文语料库的研究，探讨汉语学习者在写作过程中对程度副词的使用特点和偏误现象。

首先本文将分析HSK 动态作文语料库的特点，包括语料来源、样本规模、主题范围等。

其次本文将采用自然语言处理技术，对语料库进行预处理和分析，提取出不同程度副词的使用频率和分布特征。

然后通过对比分析学习者作文中的程度副词使用情况，找出常见的偏误现象。

结合相关理论和研究成果，提出针对性的修改建议，以帮助学习者提高程度副词使用的准确性。

本文的研究对于提高汉语教学质量、促进汉语国际交流具有重要意义。

同时对于其他涉及程度副词使用的语言教学研究也具有一定的借鉴价值。

A. 介绍HSK动态作文语料库的来源和特点HSK动态作文语料库是由中国国家汉办(北京)和人民教育出版社联合开发的一种专门用于汉语水平考试(HSK)的动态作文训练资源。

该语料库旨在帮助考生提高汉语写作能力，特别是在描述、说明和议论等文体中使用副词的能力。

HSK动态作文语料库包含了大量的真实生活场景和典型题目，涵盖了各个年龄段和不同背景的考生，为考生提供了丰富的写作素材和实用的写作技巧。

多样性：语料库包含了各种类型的动态作文题目，如日常生活、学习工作、社会热点等，满足了考生在不同场景下的实际需求。

实用性：语料库中的作文题目都是紧扣时代发展和社会热点的，有助于考生提高对时事政治、经济文化等方面的关注度和敏感度。

多语种网络文本快速新词抽取

多语种网络文本快速新词抽取刘冰洋;刘倩;张瑾;刘欣然;程学旗【摘要】从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用.本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序.【期刊名称】《中文信息学报》【年(卷),期】2014(028)002【总页数】7页(P78-84)【关键词】新词;邻接类别;字符串整体度;后缀树;多语言【作者】刘冰洋;刘倩;张瑾;刘欣然;程学旗【作者单位】中国科学院计算技术研究所网络数据科学与工程研究中心,北京100190;中国科学院大学,北京100190;中国科学院计算技术研究所网络数据科学与工程研究中心,北京100190;中国科学院大学,北京100190;中国科学院计算技术研究所网络数据科学与工程研究中心,北京100190;国家计算机网络应急技术处理协调中心,北京100029;中国科学院计算技术研究所网络数据科学与工程研究中心,北京100190【正文语种】中文【中图分类】TP3911 引言网络文本的重要特点之一是不断的涌现新词。

2011到2012年出现的网络新词有，“hold住”、“给力”、“穿越”、“小清新”、“12306”、“甄嬛体”等等。

语言带有强烈的时代烙印，这些新词基本上都是以前未出现的，包括了命名实体，词组和短语以及约定俗成的固定用语。

新词最能敏锐反映时代和社会心理的变迁，它与新的社会现象密不可分，从一个特定的角度表达着人们的价值观和文化心态。

所以，挖掘网络新词对于跟踪社会发展，发现社会、网络舆情，预测发展趋势具有重要意义。

互联网是一个开放的信息平台，存在多领域多语言的文字。

截止到2011年12月30日，互联网的网页内容中，英语占56.6%，接下来依次为德语、俄语、日语、西班牙语、中文、法语、意大利语，其中中文的内容量为4.5%［1］。

《现代汉语程度副词“有点(儿)”研究》

《现代汉语程度副词“有点（儿）”研究》一、引言在现代汉语中，程度副词是用于表达形容词或动词所描述的程度或数量的一种特殊词汇。

其中，“有点（儿）”作为程度副词的一种，具有独特且丰富的表达功能。

本文旨在深入探讨现代汉语中“有点（儿）”这一程度副词的使用特点、语义内涵以及在句法结构中的作用。

二、文献综述“有点（儿）”是汉语口语和书面语中常见的程度副词，关于它的研究历来为语言学者所关注。

早期的文献认为，“有点”用来表示事物的某种微小或轻微的属性，如“他有点害羞”表示他稍显羞涩。

而“有点儿”则常用于口语中，具有更强的口语化色彩。

三、语义分析1. 含义“有点（儿）”的语义涵盖了多种情境和表达，主要表达的程度或属性具有一定的模糊性。

其用于表达肯定意义的时侯，指出了被修饰词的部分程度或性质；当其用于否定意义时，则强调了轻微的否定或不满的程度。

2. 感情色彩“有点（儿）”可以传达不同的感情色彩，如表达委婉的赞同或轻度的不满等。

它的使用需要根据语境来判断。

四、句法功能在句法结构中，“有点（儿）”具有多样的用法和位置灵活性。

它可以在句首、句中或句尾出现，用于修饰形容词、动词或整个句子。

例如，“他今天看起来有点儿高兴”中，“有点儿”修饰了形容词“高兴”，而“他有点儿迟疑地回答了问题”则将“有点儿”放在了句首。

此外，“有点（儿）”还可以与其他程度副词连用，共同修饰一个词或句子。

五、应用领域及语料分析在现代汉语交际中，“有点（儿）”广泛用于各种正式和非正式场合，尤其在日常口语中更显其优势。

我们通过对大量语料的分析发现，“有点（儿）”的使用在年轻群体和日常对话中更为常见。

在具体语境中，它常常用来表示某种轻微或不肯定的属性或状态，如“这个菜有点儿咸”或“我还有点事要处理”。

六、与其他程度副词的对比研究“有点（儿）”与其他程度副词如“非常”、“十分”、“很”等相比，具有更强的语气灵活性和语义模糊性。

这使其在不同场合下使用更加自然流畅，也使得语言表达到达了微妙且含蓄的效果。

《2024年汉蒙词语对齐及相关技术研究》范文

《汉蒙词语对齐及相关技术研究》篇一一、引言在自然语言处理（NLP）领域，汉蒙词语对齐技术是连接汉语和蒙古语两座语言桥梁的关键技术之一。

随着全球化趋势的推进，跨语言的信息处理需求逐渐增多，因此汉蒙词语对齐及相关技术的研究变得尤为重要。

本文将就汉蒙词语对齐的相关技术及其研究进展进行阐述。

二、汉蒙词语对齐概述汉蒙词语对齐主要是指将汉语和蒙古语两种不同语言之间的词汇或短语进行映射。

在双语词典编译、跨语言文本挖掘、机器翻译等任务中，汉蒙词语对齐技术发挥着重要作用。

通过对齐技术，可以实现不同语言之间的信息互通与共享。

三、汉蒙词语对齐技术1. 基于规则的词语对齐基于规则的词语对齐主要是利用语言学知识，通过人工或自动的方式制定一系列规则，将汉语和蒙古语中的词汇或短语进行匹配。

这种方法需要专业人员参与，对规则的制定要求较高，但准确性较高。

2. 基于统计的词语对齐基于统计的词语对齐主要是利用统计方法，如共现频率、互信息等，对两种语言之间的词汇或短语进行匹配。

这种方法不需要人工制定规则，但需要大量的语料库支持，对语料库的质量要求较高。

3. 深度学习在汉蒙词语对齐中的应用近年来，深度学习技术在自然语言处理领域取得了显著成果。

在汉蒙词语对齐中，深度学习技术可以通过训练模型来学习两种语言之间的语义信息，从而进行更为精准的词语对齐。

目前，深度学习技术在汉蒙词语对齐中的应用尚处于探索阶段，但其前景广阔。

四、相关技术研究进展1. 语料库建设语料库是进行汉蒙词语对齐的重要基础资源。

随着技术的不断发展，越来越多的汉语和蒙古语语料库被建立和更新。

这些语料库为研究人员提供了丰富的数据支持，促进了汉蒙词语对齐及相关技术的发展。

2. 机器学习算法研究机器学习算法在汉蒙词语对齐中发挥着重要作用。

研究人员针对不同任务需求，不断改进和优化算法模型，提高了汉蒙词语对齐的准确性和效率。

3. 跨语言模型研究跨语言模型研究是汉蒙词语对齐的重要方向之一。

研究人员通过训练多语言模型，使模型能够更好地理解不同语言之间的语义信息，从而进行更为精准的词语对齐。

数字词典发展策略探析——以《新华字典》APP为例

582021年第7期总第385期VIEW ON PUBLISHING数字词典发展策略探析——以《新华字典》APP 为例文/鲁馨遥随着新媒体的发展，大众获取信息和知识的渠道发生了根本性变革，纸质图书的生存空间不断被压缩。

词典作为特殊的纸质图书，其受众本就存在一定的局限性，加上编纂模式落后于时代发展，成本高昂且盈利模式单一，印刷量不断递减，导致纸质词典生存面临巨大的挑战。

在此形势下，数字词典应运而生，并凭借其便捷性、智能化、即时性等优势，一跃成为数字化时代工具书的全新替代品。

许多优秀的词典也开始向数字化发展：2012年《牛津英语大词典》全部改为线上查询，纸质版停止印刷；有道词典、金山词霸等也开启了数字化探索。

其中，《新华字典》APP成为权威汉字辞书数字化的典范。

新华字典于1953年10月由人民教育社首次出版，到《新华字典》第12版APP发行已有近70年的历史，全球发行量超6亿册。

2020年，《新华字典》APP获得第十三届新闻出版业互联网发展大会“出版机构优秀客户端TOP 10”荣誉。

词典数字化是出版数字化进程下的必然趋势，对传统词典而言既是一种补充也是一种创新。

相比传统词典，数字词典不论在形式上还是内容上都有所突破，能够为用户带来更优质的体验。

虽然数字词典的优势显而易见，但其发展仍面临重重阻碍。

除了资金、人才和技术等客观原因，数字词典主体的思想观念、盈利模式、推广方式和版权保护等都是影响数字词典发展的重要因素。

一、数字词典的发展优势1．立体可感，智能多维数字词典是立体可感的，不仅能够从发音到笔顺充分调动用户的感官系统，让汉字学习“动起来”；还可以借助语音、视频、色彩等进行丰富的模式设计，让汉字学习进入一个丰富多彩的立体空间。

当前数字词典技术已经进入智能化阶段，不仅能够通过书写、读音以及拍摄等方式快速锁定用户需查找的内容，还可以一级一级进入拓展内容，通过人机交互进行深度学习。

2．结构新颖，内容丰富虽然数字词典的结构设计保留了26个字母查阅的方式，但同时也增设了智能查阅方式，用户可以根据个人使用习惯自行选择查阅方式，也可以将所需内容进行收藏、分享，更加便捷新颖。

COCA语料库对英译汉语新词的实证性研究——以《新世纪英汉大词典

COCA语料库对英译汉语新词的实证性研究——以《新世纪英汉大词典》（第二版）为例发表时间：2018-08-20T15:20:43.750Z 来源：《品读》2018年1月下作者：高丽云[导读] 项目教学法的理念充满着新意，在中职语文教学中有着良好的运用。

研究表明，在中职语文教学中运用项目教学法可以挖掘学生的学习潜力，还能够提高中职学生学习语文的主动性和培养高职学生学习语文的能力。

指导老师：岑秀文(河北工业大学天津市北辰区 300401）摘要：本文借鉴巴斯奈特文化翻译观理论，以回译、意译和直译等三种汉语新词英译原则为标准，以外研社新出版的《新世纪英汉大词典》（第二版）中的19个英译汉语新词为例，在COCA语料库中对这些词进行检索分析，并结合英语国家的权威媒体报道和词典综合考量，探讨其译法在英语国家的可接受度和合理性，对英译汉语新词进行科学实证，提高英译汉语新词的准确性。

关键词：新世纪英汉大词典(第二版)；英译汉语新词；COCA；科学实证 COCA Corpus Empirical Research about English Translation of Chinese Neologisms ——Take the New Century English-Chinese Dictionary (Second Edition) as an Example Abstract：This article based on the theory of cultural translation of Bassnett and followed the principles of reductive translation, significant translation and direct translation of Chinese neologisms.Nineteen Chinese neologisms in the New Century Chinese-English Dictionary (second edition) published by CNP were tested by COCA corpus. It combined authoritative media reports and dictionaries in English-speaking countries to meke a scientific demonstration of English translation of Chinese neologisms and improve its accuracy. Key Words：New Century English-Chinese Dictionary (Second Edition); English translation of Chinese neologisms;COCA; Scientific Demonstration1 引言词汇是语言要素中变化最快的一个。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

摘要文章分析了大数据时代词典编纂可用或可参考数据的特点，探索如何从海量数据中挖掘汉英语际对应词等词汇知识，还简要探讨了与数据或语料使用相关的问题。挖掘实践表明：充分利用可用资源，从纷杂的大数据中可以挖掘出所需的词汇知识，但目前仍需专业人员进行筛选、认定和解读。词典要保持生命力必须及时修订和收录新词。对于汉英词典来说，提供汉语词语的地道英语对应词会提升其实用价值。研究语际对应词挖掘不仅有助于编纂出符合用户需求的双语词典，对构建大数据语言资源库和开发挖掘分析软件也有参考价值。

关键词大数据时代对应词新词挖掘汉英词典一、研究背景移动互联网的飞速发展加快了媒体融合的进程，也使传统的词典学研究和词典编纂实践面临挑战。不仅纸质词典，就连掌上型电子词典也遭到了前所未有的冷遇。人们更喜欢通过智能手机或计算机查询在线网络词典或离线电子词典。大数据的应用前景广阔。但是，词典学研究和词典编纂可用的数据是大数据吗？词典学研究和词典编纂真的需要大数据吗？我们尝试从大数据时代词典学研究和编纂实践可用数据的特点出发回答第一个问题，结合汉英语际对应词的挖掘实例分析回答第二个问题，还简要探讨与数据或语料使用相关的问题。二、大数据与编纂词典的可用数据 1. 大数据的特点传统意义上的“数据”指的是“有根据的数字”。现在，“数据”不仅指“数字”，还统称一切保存在电脑中的信息（包括文本、声音、视频等）。（赵勇，徐轲2014）在这个信息爆炸的时代，经过一定时间的积累就会出现海量或巨量的数据。过去，计算机存储信息或数据的计量单位用gb/gigabytes（1gb=1024mb）就已经很大了。现在用到tb/terabytes（1tb=1024gb），pb/petabytes（1pb=1024tb=1048576gb），甚至更大的计量单位。但是，不能简单地认为数量大就是大数据。大数据的体量巨大，不仅存储量大，计算量也大，超出了传统数据处理方法所能管理和处理的能力。现在具有代表性的观点是大数据具备4v特征：（1）数据量庞大（volume）。（2）数据呈现多样性（variety），不但类型多（如文本、网页、图片、音频、视频和位置信息等），而且来自多种数据源，不仅有结构化数据，更多的是半结构化数据和非结构化数据。（3）时效性（velocity），即数据增长速度快、变化速度快，处理速度也要求快，包括大量的在线或实时数据分析处理。例如电子商务对销售数据的实时快速分析就意味着能及时抓住商机。（4）数据价值高（value），但价值密度低，即价值与数据总量之比很低，需要对海量的数据进行挖掘分析才能形成用户价值。如在长时间连续的监控视频中查找犯罪线索，有用的数据可能只有短短几秒钟。（赵勇，徐轲2014；严霄凤，张德馨2013；宗威，吴锋2013） 2. 大数据的定义信息时代的“数据”概念是明确的，但是对于“大数据”至今还没有一个公认的标准定义。美国国家科学基金会（nsf）将大数据定义为：“由科学仪器、传感设备、互联网交易、电子邮件、音频视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集。”（黄南霞，谢辉，王学东2013）李战怀、王国仁和周傲英（2013）从数据库研究者的视角对大数据进行了解读，认为大数据是个笼统的概念。他们指出：“与应用密切相关的各类数据都属于大数据范畴，大数据强调支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构数据；世界上凡是可以表达出来的信息都是数据；当为了一个具体的应用而需要把大量的不同类型、质量各异的数据及时进行处理时，这些数据就进入了大数据的范畴。” 胡雄伟、张宝林和李抵飞（2013）认为：“不存在严格意义上的大数据资源的定义，任何已有数据资源的汇集和整合就可以构成所谓的大数据资源。„„大数据是各种类型的小数据的集合，通过各种类型的小数据整合、集合、集成处理，从中挖掘出潜在的新价值。所以说，大数据是小数据的再次利用和多次重复利用。” 3. 编纂词典的可用数据及特点各行各业都有可能产生大数据，但是并非所有的数据都能用于词典编纂。从是否付费的角度看，编纂词典的可用数据包括自有内部数据，可免费使用的外部数据和需交费使用的外部数据。通过互联网等各种途径搜集或积累起来的单语、双语，甚至是多语语言资源，为词典编纂提供了丰富的语料或知识来源。但是将收集到的海量或巨量数据进行挖掘，找出规律并有效地加以利用才能创造价值。因此，挖掘和提炼出有价值的词汇知识对词典编纂工作来说至关重要。三、汉英语际对应词及其挖掘 1. 语际对应词语际对应词（interlingual equivalents）指的是可插入性对应词（insertible equivalents），包括两种语言间的绝对对应词和部分对应词。包双喜和斯日古楞（2007）指出：一种语言的词，在基本意义上可以与另一种语言直接对译的词，彼此之间称为“对应词”；对应词是大量存在的，否则不同语言之间的翻译和交流就不能实现。李明和周敬华（2000）在《双语词典编纂》一书中详细介绍和探讨过对应词的分类、在双语词典中提供对应词的方法、辨别对应词意义的手段，以及对应词的质量问题。他们发现双语词典编纂者在寻找（语际）对应词时可能会遇到三种情况：（1）能找到绝对对应词（absolute equivalents；或称对等词）；（2）只能找到部分对应词（partial equivalents；或称局限对应词bound equivalents）；（3）找不到对应词，出现词汇空缺（lexical gap）。李明和周敬华（2000）认为：除了绝对对应词和部分对应词，还可以把对应词分为翻译对应词（translational equivalents，又称插入对应词insertible equivalents）和解释性对应词（explanatory equivalents，又称描写性对应词descriptive equivalents）。他们建议把对应词分成插入性对应词和非插入性对应词。因为非插入性对应词只是词语的解释性翻译或描写性释义，所以不是严格意义上的对应词。插入性对应词有助于产出，而非插入性对应词有助于理解。在两者都可用的情况下，双语词典提供的插入性对应词在翻译方面对读者的帮助更大。 2. 现存问题提供语际对应词是编纂双语词典的重要任务，也是专家们的共识。但是，提供地道实用的语际对应词的难度不小。正如曾泰元（2005）指出的那样，双语词典中对应词不够地道或不准确的现象并不少见，冗长的解释性释义依然存在。李安兴（2010）的研究显示：国内一些汉英词典编纂者未能将前人（尤其是国内外翻译家）已经给出的一些汉语词语的佳译提供给读者。通过构建语料库获取对应词的研究早已有之。我国的语料库建设和应用也有了实质性进展。尽管不少研究机构和出版社已经或正在构建与词典编纂和出版相关的语料库，但是各方都是专注建设自己的语料库或数字出版资源库，没有采用统一的数据标准。而且，仅仅依靠现有的语料库不能完全满足词典编纂的需要。再加上建设周期、更新速度和使用权限的限制，词典编纂人员实际可用的语料库并不像人们想象的那样全面。 3. 汉英语际对应词的挖掘探索大数据时代的到来为充分利用包括网络资源在内的各种资源和技术编纂汉英词典打开了更广阔的视野。下面结合实例探索如何从纷杂的大数据中挖掘出编纂汉英双语词典所需的语际对应词等词汇知识。汉英语际对应词的挖掘是指从带噪声非结构化或半结构化的语料中找出未知的或未收录的汉语词语的英语对应词。（1）挖掘方法和步骤（2）挖掘实践因为汉英语际对应词的挖掘涉及面很广，所以我们选取了十项有代表性的挖掘任务，结合典型实例展示大数据在词典学研究和词典编纂实践中的重要应用价值。根据语料库词频数据对比，不仅可以找出“车展”的地道对应词，还可以判断出对应词的使用地域分布特点（见表1）。 2）区分义项，标注所属学科。如果专业术语的使用范围不断扩大，也会进入普通词汇。词典收录时，应根据学科领域划分义项并标注。例如：近几年，中国人喜欢为所有健康、乐观、积极向上的人，以及催人奋进、给人力量和充满希望的事贴上“正能量”的标签。“正能量”源自英语中的positive energy。在心理学领域，“正能量”的意思是“积极的能量；正向的能量；积极进取的动力”。但是“正能量”原是物理学领域的一个概念，与心理学领域“正能量”的英语对应词相同，意思不同（见例4）。 3）验证两个或多个近义汉语词语是否有共同的对应词。例如：英汉对照文本显示“民意测验”和“民意调查”有共同的高频英语对应词poll和opinion poll（见例5至例7的对照）。 5）梳理对应词并分类。词典对词语的收录不应回避社会生活的负面状况。有些词语描述的是社会转型过程中出现的负面状况，汉语中有，英语中也有。如“傍大款”就是个典型的例子。从互联网上能搜索到“傍大款”的多种英译表达。表3是必应网络词典中“傍大款”的网页挖掘结果（根据2015年3月1日的检索结果复制）。这个挖掘实例既展示了网页文本挖掘的重要作用，也暴露出自动挖掘结果的不足之处。从表3可以筛选出“傍大款”的英语对应词，但必须排除噪声干扰。首先是第一项中的of a girl被错误提取并列为对应词。它出现的频率高，但只是括注。接下来是第一项和第六项中都有lean on a moneybags。看上去moneybags的前面加冠词a不符合语法，但实际上moneybags是单复数同形，其前用冠词a是可以的。而第五项和第八项中的a moneybag只有“钱袋”之意，没有“大款；阔佬”的意思。第四项与第七项给出的对应词结构相似，但是一个用介词for，另一个用to。第五项列出的结果是lean on a moneybag，接下来的第六项却出现了与之不一致的to lean on a moneybags。第八项错误地提取出beer belly（将军肚；啤酒肚）作为“傍大款”的英语对应词。经人工整理，并参考其他来源的挖掘结果，能提炼出下列可用的英语对应词：（of a girl） find/have a sugar daddy；（be a） gold digger； lean on/live off a moneybags； find a fat cat； be a rich mans mistress。例10至例12是应用实例。如果汉语中已经存在多个近义表达，但又出现了新的源自英语的汉语近义词，其英语对应词容易辨认且稳定，应收录并单列词条。例如：“零容忍”已渐渐成为人们关注和讨论的热点。“零容忍”不仅能表达“毫不留情”“毫不迁就”“毫不宽容”“绝不容忍”“绝不留情”，以及“决不姑息”的意思，而且含义明确，态度坚决，英语对应词zero tolerance在汉英跨语言交流中的信息传递既直接又准确（见例13至例16）。 7）增补新出现的对应词，但需区分词性。例如：英语中的mutually beneficial可以表达“（互利/互惠）双赢的”意思（见例17和例18）。根据焦瑞娟（2013）的研究，汉英词典有必要提供对应词辨析信息。经核查，英语单词parvenu（复数形式为parvenus）的意思也是“暴发户；新贵”，但这个词语体正式，没有“土豪”所含的“品位不高”“爱炫富”和“粗俗”等意思，也没有讽刺和调侃的意味。有人用