面向汉英机器翻译的双语语料库的建设及其管理

格式：pdf
大小：147.07 KB
文档页数：4

下载文档原格式

/ 4

《面向机器翻译的蒙汉评测语料库研究》范文

《面向机器翻译的蒙汉评测语料库研究》篇一一、引言随着人工智能技术的飞速发展，机器翻译技术在跨语言交流中扮演着越来越重要的角色。

蒙汉机器翻译作为其中一项重要应用，其准确性和流畅性直接关系到民族语言文化的传播与交流。

因此，对蒙汉机器翻译进行深入研究，建立高质量的蒙汉评测语料库显得尤为重要。

本文旨在探讨面向机器翻译的蒙汉评测语料库的研究现状、方法及挑战，以期为蒙汉机器翻译的进一步发展提供参考。

二、蒙汉机器翻译研究现状目前，蒙汉机器翻译技术已经取得了一定的研究成果，但在实际应用中仍存在诸多问题。

其中，缺乏高质量的蒙汉评测语料库是制约其发展的重要因素之一。

蒙汉评测语料库是评估蒙汉机器翻译质量的重要依据，其质量和规模直接影响着机器翻译的准确性和流畅性。

因此，建立高质量的蒙汉评测语料库对于推动蒙汉机器翻译技术的发展具有重要意义。

三、蒙汉评测语料库的研究方法1. 语料收集：为了建立高质量的蒙汉评测语料库，需要收集丰富的蒙汉双语语料。

这包括各类文本、文献、新闻、小说、科技文献等。

同时，还需要考虑语料的领域多样性，以覆盖不同领域的翻译需求。

2. 语料标注：收集到的语料需要进行标注，以便评估机器翻译的准确性。

标注内容包括词汇、句法、语义等信息，以及人工翻译的参考译文。

3. 语料处理：对标注后的语料进行清洗、过滤和整理，去除无效、重复和错误的数据，保证语料的质量和可靠性。

4. 评估指标：建立评估指标体系，包括准确率、召回率、F 值等，用于评估机器翻译的性能和效果。

四、蒙汉评测语料库的应用与挑战蒙汉评测语料库的应用主要包括两个方面：一是用于评估蒙汉机器翻译的性能和效果；二是为蒙汉机器翻译的研究提供数据支持。

通过建立大规模、高质量的蒙汉评测语料库，可以为研究人员提供丰富的数据资源，促进蒙汉机器翻译技术的不断创新和发展。

然而，建立高质量的蒙汉评测语料库也面临着诸多挑战。

首先，蒙汉语言文化差异较大，如何保证译文的准确性和流畅性是一个重要问题。

军事英汉汉英平行语料库建设存在的问题及对策

当代语料库研究出现于２Ｏ世纪６０年代，其标志是美国Ｂｒｏｗｎ语料库的建成和使用。语料库研究快速发展始于２０世纪８０年代，随着Ｐｃ机性能的提高和普及，语料统计分析不再是一件繁琐的事，普通研究者只要学会在Ｐｃ机上运行语料库分析工具就有能力从事语料统
王岚．严灿勋２
（１．解放军外国语学院英美系，河南洛阳４７１００３；２．解放军外国语学院语言工程系。河南洛阳４７１００３）
摘要：军事英汉汉英平行语料库建设对军事翻译工作和自然语言处理技术发展等有重要意
义，但我国这方面建设却严重不足。各相关军事单位可以从本单位军事资料翻译等实际应用出发。
计分析。另外，从大规模语料分析中获得的数据真实可靠，说服力强，并且能够揭示很多平时观察不到的语言现象。网络技术的发展为语料的获取和共享提供了方便。同时还为语料库
研究者提供了更多语料处理工具，从而进一步促进了围绕语料库所进行的各种研究和应用。现在，语料库语言学已涉及语言学的各个领域，而且已经影响到其他社会科学问题的探索。
・
３４・
解放军外国语学院学报
２０１５生
一
些科研院所和商业公司，不但基于大规模平行语料库建设了多套全自动机器翻译系统，而
且还开发出了支持受限领域使用的，甚至是面向通用领域的实时语音通信翻译系统。如中国
科学院自动化所的紫冬口译（ＺＴＳｐｅｅｃｈ）软件（杜金华等２０１３：４）。相比其他平行语料库，我国军事领域平行语料库建设数量少，规模小。本文以军事英汉

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目【摘要】这篇文章旨在探讨高速铁路英汉双语语料库建设项目，首先介绍研究背景和研究目的。

正文部分包括高速铁路英汉双语语料库的建设、语料库内容、以及语料库在实际应用中的价值。

文章还会讨论建设项目的方法和步骤，以及可能面临的挑战。

结论部分将对文章内容进行总结，并展望未来研究方向。

通过这篇文章，读者将能够深入了解高速铁路英汉双语语料库建设项目的重要性和意义，以及其中所涉及的关键内容和挑战。

【关键词】高速铁路、英汉双语、语料库、建设项目、研究背景、研究目的、正文、内容、应用价值、方法、步骤、挑战、总结、展望未来。

1. 引言1.1 研究背景高速铁路英汉双语语料库建设项目是在当前信息化时代背景下的重要举措。

随着中国高速铁路的不断发展壮大，人们对高速铁路相关信息的需求也日益增加。

目前针对高速铁路的英汉双语语料库却相对匮乏，无法满足人们对于高速铁路信息的准确获取和理解需求。

通过建设高速铁路英汉双语语料库，可以收集整理包括列车时刻表、运行状态、车站信息等在内的丰富信息资源，为用户提供更为全面、准确的信息查询和阅读服务。

通过对高速铁路的英汉双语语料进行整理和分类，可以为高速铁路领域的专业研究和教学提供可靠的语言素材和参考资料。

建设高速铁路英汉双语语料库不仅有利于提升高速铁路信息的传播效率和质量，更能促进高速铁路领域的研究和学术交流。

在信息化和全球化背景下，构建这样一份跨语言、跨文化的语料库对于推动高速铁路行业的发展具有重要意义和深远影响。

1.2 研究目的研究目的是为了搭建一个高速铁路英汉双语语料库，以满足日益增长的高速铁路领域专业人士和学习者的语言学习和研究需求。

通过收集、整理和分析高速铁路相关的英文和中文文本，建立起一个包含丰富多样语料的数据库，为高速铁路领域的语言学研究提供有效的支持。

通过语料库的构建，也可以促进中英文之间的文化交流和理解，推动高速铁路领域的国际合作与交流。

通过对高速铁路英汉双语语料库的建设工作，可以探索和提高自然语言处理技术在高速铁路领域的应用效果，为相关技术的进一步发展提供更多的实践基础和研究资源。

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文——文章均为WORD文档，下载后可直接编辑使用亦可打印——论文摘要指以提供文献内容梗概为目的，不加评论和补充解释，简明、确切地记述文献重要内容的短文。

(国家标准GB 47) 学术论文摘要概括论文的主要信息，对研究的目的、方法、结果和最终结论有一个比较完整的说明，对于论文的发表、收录、检索及科研人员的学术交流等起着重要的作用。

当今时代，英语已成为国际交往的世界性语言，英文学术论文摘要的重要性日益显现。

近年来，不少中外学者(如Swales1990、段平2002、滕延江2008、邓军涛2013 等) 对论文摘要的语言特点与翻译进行了比较广泛深入的分析，其成果无疑有利于该领域的实践与发展。

然而，大多数相关研究都是基于研究者个人的经验，选取的例句和掌握的语料比较有限。

不少学习者和研究人员撰写及翻译摘要的能力还比较欠缺。

鉴于此，本课题组决定建设学术期刊论文摘要汉英双语语料库，一方面从大的语料基础上客观描述英文摘要的文体特征和进行汉英翻译研究，同时将该语料库用作翻译教学平台，试验并总结数据驱动的教学方法，推动学术研究与翻译教学共同发展。

一、学术期刊论文摘要汉英双语语料库的建设(一) 语料库与双语语料库语料库是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库(杨惠中，2002) 。

语料库具有语料真实、丰富、代表性强以及融合了计算机技术等特点，在语言研究和教学方面具有较大的优势与应用价值。

按照语料的语种，语料库可以分成单语、双语和多语语料库。

双语和多语语料库还可分为平行语料库和可比语料库。

平行语料库收集原文与译文双语对照的文本，按设定的标准对语料进行句子或段落的对齐。

可比语料库收集具有可比性的语料，分别放置于不同的文本库，主要用于语言对比研究。

关于双语语料库的作用，不少专家从不同角度进行了探讨。

机器翻译中的语料库构建与翻译模型训练研究

机器翻译中的语料库构建与翻译模型训练研究近年来，随着机器学习和自然语言处理技术的不断发展与应用，机器翻译已经成为了现代社会中一个重要且受到广泛关注的研究领域。

在机器翻译中，语料库的构建和翻译模型的训练是关键的环节，它们直接影响到机器翻译系统的准确性和性能。

本文将详细介绍机器翻译中的语料库构建与翻译模型训练的研究内容。

语料库构建是机器翻译的基础，它提供了大量的翻译训练样本。

语料库的构建可以通过多种途径进行，如从互联网上搜集已有的双语文本、人工标注翻译对、以及从现有的平行语料库中提取数据等。

在构建语料库的过程中，可以使用自动化的技术来加速和优化这个过程，比如使用网络爬虫来获取互联网上的双语文本数据。

此外，还可以利用现有的平行语料库，如欧洲议会的多语种平行语料库(Europarl)、联合国的多语种会议记录语料库(UN)等。

这些平行语料库已经被广泛应用于机器翻译的研究中，它们具有高质量和丰富的语言对，可用于翻译模型的训练。

语料库的质量对机器翻译的翻译效果至关重要。

质量低下的语料库可能会导致翻译模型的性能下降。

因此，在构建语料库时需要注意以下几个方面：首先，语料库应包含大量的双语对，以确保训练模型的覆盖面广。

其次，语料库应具有多样性，覆盖不同领域、不同风格、不同层次的文本。

这有助于提高翻译模型的泛化能力，使其在面对新的文本样本时具备更好的适应能力。

此外，语料库中的错误和噪音应被最小化，以减少对模型的干扰。

最后，对于特定的翻译任务，还可以针对性地收集专门领域的语料库，以提高翻译模型在该领域的准确性。

翻译模型的训练是机器翻译研究中的核心环节。

主要的翻译模型包括基于规则的模型、统计机器翻译模型(SMT)和神经网络机器翻译模型(NMT)等。

这些模型都需要通过大量的语料进行训练，以学习翻译的规律和特点。

针对不同的模型，训练过程也不同。

传统的基于规则和统计的模型需要进行特征提取和参数调优等繁琐的步骤，而NMT模型则基于深度学习的方法，使用神经网络进行端到端的训练。

敦煌文化汉英术语库建设及术语管理研究

敦煌文化汉英术语库建设及术语管理研究敦煌文化是中国古代文化中的一种独特文化现象，被誉为“东方艺术的宝库”。

研究敦煌文化的过程中，涉及到大量的术语，这些术语对于准确理解和传承敦煌文化具有重要意义。

建设和管理敦煌文化汉英术语库在研究和传承敦煌文化方面起到了关键性作用。

敦煌文化汉英术语库是指将敦煌文化研究中的中文术语和对应的英语术语进行整理和管理的数据库。

通过建设与管理，可以有效地存储敦煌文化领域的术语，方便研究者和爱好者进行查阅和参考，促进敦煌文化的研究和传播。

敦煌文化汉英术语库的建设可以从以下几个方面进行：一、术语收集与整理建设一个完善的敦煌文化汉英术语库需要有一个广泛而全面的术语收集与整理工作。

可以通过查阅文献、专家访谈、学术会议等途径，积累敦煌文化领域的术语，然后进行分类与整理。

根据不同的专题和领域，将术语进行分组，形成条目化的数据库。

二、翻译与对应敦煌文化汉英术语库的建设离不开对术语的翻译与对应工作。

由于敦煌文化具有一定的独特性和复杂性，翻译工作需要注重对文化内涵的准确理解和表达。

需要将中文术语与英文术语进行对应，确保翻译的准确性和一致性。

三、标准与规范敦煌文化汉英术语库的管理需要遵循一定的标准与规范。

可以参考国际上通用的术语管理标准，例如《国际标准化组织术语标准化导则》和《汉英术语翻译原则与方法》等，建立起相应的标准和规范体系。

标准与规范的制定可以提高术语库的可用性和应用范围，促进研究的交流与合作。

四、互联网与技术支持随着互联网技术的发展，可以利用现代信息技术手段来支持敦煌文化汉英术语库的建设与管理。

可以建立一个在线的术语库平台，方便用户进行查阅与使用。

可以利用机器翻译技术和语义分析技术，提高术语的翻译准确度和搜索效率。

敦煌文化汉英术语库的建设和术语管理研究对于敦煌文化的研究和传承具有重要的意义。

通过建立一个全面而系统的术语库，可以更好地记录和传承敦煌文化的智慧和经验，提高研究的准确性和深度，促进敦煌文化在国内外的传播与交流。

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目1. 引言1.1 项目背景高速铁路英汉双语语料库建设项目的项目背景是由于中国高速铁路建设的快速发展和“一带一路”倡议的推动，越来越多的外国友人来中国参观交流。

由于语言障碍，很多外国友人在了解和体验中国高速铁路发展的过程中遇到了困难。

为了更好地促进中外友好交流，建设一个涵盖高速铁路相关信息的英汉双语语料库尤为重要。

目前，虽然已经存在一些高速铁路相关的英汉翻译资料和论文，但这些资料散落在各个领域，不够系统和全面。

建设一个高速铁路英汉双语语料库，将大大提升外国友人了解中国高速铁路的便利性和准确性。

通过这个项目，我们可以让外国友人更加直观深入地了解中国高速铁路的建设成就和发展态势，促进各国在高速铁路技术和运营管理方面的交流与合作。

这也为中国高速铁路行业的国际化发展提供了一定的支撑和参考。

1.2 项目目的项目目的是为了促进高速铁路英汉双语语料库的建设和完善，以提供给研究人员、教育机构和企业使用。

通过建立这样一个语料库，可以为高速铁路领域的英汉翻译提供更多可靠的语言材料，提高翻译质量和效率。

该项目旨在促进中英两国在高速铁路技术领域的合作与交流，促进技术创新和知识传播。

通过建设高速铁路英汉双语语料库，还可以促进高速铁路行业人才的培养和专业知识的传承，为高速铁路的发展做出贡献。

该项目的目的是促进中英两国在高速铁路领域的合作与交流，提高高速铁路领域的翻译质量和效率，促进技术创新和知识传播，同时也为高速铁路行业的发展和人才培养做出贡献。

1.3 研究意义高速铁路英汉双语语料库建设项目的研究意义主要体现在以下几个方面：建设这样一份英汉双语语料库可以为高速铁路相关领域的信息检索、翻译和语言教学提供重要支持。

在高速铁路建设的过程中，涉及到大量的技术规范、施工方案、安全管理等内容，这些内容需要在不同语言之间进行准确的传递和理解。

通过建设英汉双语语料库，可以帮助相关工作者更方便地获取到这些信息，提高工作效率。

机器翻译中的语料库构建与翻译模型训练

机器翻译中的语料库构建与翻译模型训练随着全球化的加速和信息技术的快速发展，机器翻译（Machine Translation，MT）成为了现代翻译领域的热门研究方向之一。

机器翻译的目标是利用计算机技术将一种自然语言的文本自动翻译成另一种自然语言的文本，并能够保持原文的意思表达和语法结构。

在机器翻译的过程中，语料库的构建和翻译模型的训练是非常关键的步骤。

语料库是指存储大量平行语料（Parallel Corpus）的数据库，其中包含了源语言和目标语言的句子对。

语料库的构建过程包括收集、整理和标准化等环节。

建立一个高质量的语料库对于训练准确且可靠的翻译模型至关重要。

首先，语料库的收集是语料库构建的第一步。

语料库的收集可以通过多种途径进行，如爬取互联网上的双语网站、购买商业语料库或者与合作伙伴共享数据等。

当然，收集语料库时需要保证所收集到的数据具有高质量和代表性。

此外，还需要注意保护用户的隐私和版权等问题。

其次，语料库的整理是对收集到的语料进行过滤、去重和格式化等处理。

这一过程的目标是保留高质量的语料，同时去除错误、噪音和重复的句子对。

通常情况下，语料库中会存在一些低质量的数据，如拼写错误、语法错误或者上下文不完整等。

因此，在整理过程中，需要使用自然语言处理（Natural Language Processing，NLP）技术来过滤这些低质量的数据。

然后，标准化是对语料库进行统一和规范化处理。

由于语料库的来源各异，可能存在不同的数据格式、标记和编码方式等。

为了使语料库能够被翻译模型训练所使用，需要对语料进行统一的编码和标准化处理。

这可以通过使用统一的数据格式和转换工具来实现。

语料库的构建是机器翻译的基础，而翻译模型的训练是机器翻译的核心。

在语料库构建完成之后，需要利用这些平行语料进行翻译模型的训练。

翻译模型的训练是一个机器学习的过程，需要利用统计学方法、神经网络等技术来建立模型。

一般来说，翻译模型可以分为统计机器翻译（Statistical Machine Translation，SMT）和神经机器翻译（Neural Machine Translation，NMT）两种类型。

石家庄公示语汉英平行语料库的设计与建设

石家庄公示语汉英平行语料库的设计与建设宋建威;吴慧【摘要】Based on the concept of Corpus Linguistics, this paper falls into eight categories of Shijiazhuang public signs according to its features. Then, the authors introduces the specific process and methods on establishing the Chinese-English parallel corpus about Shijiazhuang public signs. At last, they analyses possible applications and defects of the corpus. This is of considerable significance for the improvement of the translation in this field and the enhancement of the international image of Shijiazhuang City.%基于语料库语言学的基本观点，结合石家庄市公示语的文化特色及特点，对石家庄公示语汉英平行语料库的主题栏目进行规划，重点介绍建设石家庄公示语汉英平行语料库的具体过程和做法，最后指出该语料库的应用及不足之处，对改进石家庄公示语翻译质量，提升石家庄国际形象具有重要意义。

【期刊名称】《石家庄铁路职业技术学院学报》【年(卷),期】2014(000)004【总页数】4页(P92-95)【关键词】公示语;平行语料库;设计;建设【作者】宋建威;吴慧【作者单位】石家庄铁路职业技术学院河北石家庄 050041;石家庄铁路职业技术学院河北石家庄 050041【正文语种】中文【中图分类】H319语料库（Corpus）通常是包含数以万计字的机器可读的语言材料集，它不同于档案，通常是被挑选出来并经过处理的文本，可用来代表特定的语言变体或流派，因此可作为一个标准的参考。

《面向机器翻译的蒙汉评测语料库研究》范文

《面向机器翻译的蒙汉评测语料库研究》篇一一、引言随着人工智能技术的快速发展，机器翻译已经成为一个备受关注的领域。

作为人工智能技术的重要应用之一，机器翻译需要大量的高质量语料库来进行模型的训练和评估。

而面向蒙汉机器翻译的语料库建设显得尤为重要，因为蒙古族是一个具有独特文化和语言特性的民族，蒙汉双语间的交流与沟通需求强烈。

本文旨在研究面向机器翻译的蒙汉评测语料库的构建与应用，为蒙汉机器翻译的进一步发展提供支持。

二、蒙汉机器翻译的现状与挑战蒙汉机器翻译作为跨语言交流的重要手段，已经取得了显著的进展。

然而，由于蒙古语和汉语在语法、词汇、句式等方面的差异较大，使得蒙汉机器翻译仍面临诸多挑战。

其中，语料库的匮乏是制约蒙汉机器翻译发展的重要因素之一。

目前，虽然已有一些蒙汉双语语料库的建立，但其在规模、质量、多样性等方面仍存在不足，无法满足机器翻译的需求。

三、面向机器翻译的蒙汉评测语料库的构建为了解决上述问题，本文提出面向机器翻译的蒙汉评测语料库的构建。

该语料库应具备以下特点：1. 丰富的多样性：语料库应涵盖蒙古族生活的各个领域，包括政治、经济、文化、教育等，以确保其覆盖面的广泛性。

2. 高质量的数据：语料库应包含经过人工校对的高质量数据，以提高机器翻译的准确性。

3. 规模庞大：语料库应具备足够的规模，以满足机器翻译训练和评估的需求。

4. 动态更新：随着蒙古族社会和文化的发展，语料库应定期进行更新，以保持其时效性和准确性。

在构建过程中，我们应采用多种方法收集数据，如从官方网站、新闻媒体、学术期刊等渠道获取相关文本数据；同时，我们还需采用先进的数据清洗和预处理方法，对数据进行筛选、分类和标准化处理，以提高数据的质量和可用性。

四、蒙汉评测语料库在机器翻译中的应用构建好的蒙汉评测语料库可以广泛应用于蒙汉机器翻译的各个方面。

首先，它可以用于训练机器翻译模型，提供大量的双语数据供模型学习；其次，它可以用于评估机器翻译的性能，通过与人工翻译结果进行对比，评估模型的准确性和性能；最后，它还可以用于研究蒙古族文化和语言特性，为跨文化交流提供支持。

浅谈国内汉英平行语料库建设的问题分析

浅谈国内汉英平行语料库建设的问题分析汉英平行语料库的建设是国内语料库研究的一个重点建设方向。

本文对当前国内汉英平行语料库建设中存在问题进行研讨，论述如何改善和加强对其建设与研究，提出了改善国内汉英平行语料库建设有效建议。

标签：汉英平行语料库；建设；问题分析随着计算机技术的不断发展，语料库研究的不断进步，国内语料库建设与发展得到长足的发展。

而汉英平行语料库的建设与应用是国内语料库研究的一个重点建设方向。

因此，国内汉英平行语料库建设作为国内语料库建设重要组成部分，更加应该关注和建设。

本文对当前国内汉英平行语料库建设中存在问题进行研讨，论述如何改善和加强对其建设与研究，提出了改善国内汉英平行语料库建设有效建议。

一、国内汉英平行语料库建设中存在问题（一）各汉英平行语料库库容规模尚小，并且之间相互共享资源少目前国内现有的汉英平行语料库有一定数量，并且各自语料库都具备一定的规模，对国内汉英平行语料库的建设和发展做出很大的贡献。

但是随着科技的发展，各汉英平行语料库库容规模尚小，国内的各汉英平行语料库库之间相互共享资源少，而汉英平行语料库的建设本身是一项费时、耗力的工作，导致我国目前缺乏库容量上亿词量，覆盖面更宽，应用范围更广的国家级汉英平行语料库。

不利于我国汉英平行语料库建设和发展。

（二）语料库的深加工和技术开发尚需进一步加强目前国内大多汉英平行语料库主要用于文学研究为主，其他的学科的视角展开研究的语料库规模还比较小。

语料库的深加工和技术开发远远没达到人们对汉英平行语料库使用需求，语料库的深加工和技术开发尚需进行一步加强。

（三）与语料库建设的相关学科的沟通与合作不够由于汉英平行语料库的建设是通过借助计算机分析工具，来开展相关的语言理论及应用研究，与计算机技术不断发展，导致在很长的一段时间里，国内汉英平行语料库研究主要计算机技术或计算机语言学领域，更侧重计算机技术实现语料库功能的研究，导致与语料库建设的相关学科的沟通与合作不够，不利于国内汉英平行语料库的发展。

翻译记忆与小型英汉双语语料库的构建

翻译记忆与小型英汉双语语料库的构建作者：宋忱忱张月辉来源：《大东方》2018年第04期摘要：自建的小型双语语料库在翻译教学和研究领域中应用广泛，近年来各学者也开始重视这方面的研究。

但目前，我国的广大翻译研究者中，只有部分学者较为深入此领域，而大多数人只是浅略了解，缺乏相应的操作经验。

事实上语料库技术是一项实用类技术，作为使用者的个人应该把主要精力放在内容的选取和呈现方面。

本文旨在以翻译记忆为基础，尝试以现有的常见机辅手段构建小型英汉双语语料库。

关键词：翻译记忆；小型英汉双语语料库一、记忆库（1）定义。

翻译记忆库（TM）是一种存储原文和译文的数据库系统，所存储的数据可供在将来重复使用。

在翻译过程中，当出现相同或相似的句子或短语时，记忆模块会搜索与原文相同或相似的实例，自动输出译文部分，以供译员参考和修改。

使用机辅软件翻译的材料越多，记忆库（TM）存储的内容就越多，因此译者的翻译工作效率也会随之提高。

（2）应用。

共享在线翻译记忆库，使译者间自由选用和参考其他译员的工作成果成为了可能。

使用各类翻译软件时，译员一般要先行建立一个记忆库以及术语库（表）。

在初次使用且没有现成记忆库的情况下，记忆库则有待慢慢积累，一般规模较小且只能够提供有限的参考数据。

那么，则可以利用双语对齐工具来初步收集可用语料。

其原理就是将原文句段和相应的译文句段以翻译单元进行自动配对。

若效果偏差过大，则需要手工对齐，译员可将句段分割开或将句段合并，在自动对齐以后再使用菜单检查文件检查对齐结果。

最后将这些连好的翻译单元导出生成相应文件，并最终导入到翻译记忆库中。

（3）术语。

另一个重要工具就是术语管理系统，译员可以将术语及相关信息储存于特定的数据库中，即术语库（termbase）。

译员可建立术语库，添加和编辑术语，在术语库中进行浏览，搜索，设置筛选条件，并且导出数据。

在制作术语库时，不能做得太大，否则运行速度会有所下降；也不宜太小，一方面不方便使用，另一方面，术语库切换十分消耗时间。

构建大规模的汉英双语平行语料库1

构建大规模的汉英双语平行语料库1柏晓静1常宝宝1詹卫东1,2吴拥华11(北京大学计算语言学研究所,北京 100871)2(北京大学中文系,北京 100871)E-mail: {baixj, chbb, zwd, wyongh}@摘要: 双语语料库在机器翻译研究中的作用已日趋明显，但作为一项重要的语言资源，双语平行语料库的系统性构建在中国国内尚未得到充分的关注。

本文介绍一个大规模汉英双语平行语料库的构建工作，包括其总体规划、实施模型和流程细节。

该工作的深入和展开将促进作为机器翻译基础资源的双语语料库建设，从而推动相关的理论研究和应用技术不断向前发展。

关键词: 机器翻译;双语平行语料库;语料库构建引言近年来，双语平行语料库在机器翻译和机器辅助翻译中的应用已经得到越来越多的认可，基于双语平行语料库的各种方法不仅能够改进机器自动翻译的质量，还可以加强机器辅助翻译中的人机交互。

目前在中国国内，相关的研究和介绍主要侧重于双语语料的对齐技术和双语平行语料的应用技术，但对大规模双语平行语料库的系统性构建却关注较少。

就汉英对照语料而言，国内尚且没有超过10万句对的平行语料库。

作为一项重要的基础资源，双语平行语料库的建设仍处于滞后状态，影响了相关的理论研究和应用技术的发展。

北京大学计算语言学研究所同中国科学院计算技术研究所、清华大学智能技术国家重点实验室联合开发“面向新闻领域的汉英机器翻译系统”。

在这个采用多引擎机制的机器翻译系统中，双语平行语料库将主要服务于基于存储的翻译引擎。

作为该课题的子任务之一，一个大规模汉英平行语料库正在建设之中。

本文介绍我们构建这个汉英平行语料库的系统性流程以及该语料库目前的建设情况。

论文第1节总体介绍语料库构建的规划和模型，第2节详细介绍语料库构建的流程和相关经验，以及语料库现状的基本统计数据，最后是对进一步工作的展望。

1 语料库构建的规划和模型构建大规模双语平行语料库，现阶段的应用目标是一个多引擎结构的汉英机器翻译系统。

浅谈高速铁路英汉双语语料库建设项目

浅谈高速铁路英汉双语语料库建设项目随着中国高速铁路建设的不断发展，高速铁路英汉双语语料库建设项目也越来越受到关注。

该项目的主要目的是收集和整理高速铁路相关的中英文双语语料，以提高高速铁路翻译的质量和效率。

本文将针对该项目进行浅谈。

1. 提高高速铁路翻译的质量高速铁路是国家重点发展的交通方式之一，其技术领先世界，对外交流和合作方面也相当活跃。

然而，高速铁路行业的专业术语和技术特点较为复杂，给翻译工作带来很大挑战。

如果有了高质量的英汉双语语料库，可以帮助专业翻译更好地理解和翻译相关内容，进一步提高翻译的质量。

2. 增加高速铁路企业国际竞争力高速铁路建设不仅是中国的国内需求，也是中国拓展对外合作和竞争的重要手段。

通过建设高速铁路英汉双语语料库项目，可以提高翻译效率和准确性，加快高速铁路企业与国际市场之间的合作和交流，增强企业的国际竞争力。

3. 促进国际间的文化交流语言是交流的桥梁，而翻译是语言交流的核心环节。

高速铁路英汉双语语料库项目的建设，可以促进国际间的文化交流，让更多的国际友人更加了解中国高速铁路行业的发展，加深中外互相了解和沟通。

1. 收集相关翻译语料针对高速铁路技术特点和领域，收集相关的中英文翻译语料，涉及到车站、车辆、线路、技术等方面。

2. 翻译语料的获证和整理对收集到的语料进行整理和合法性验证，制作标准翻译。

3. 构建语料库将翻译语料存放在数据库中，按照行业领域进行划分和归纳，确保语料库的准确性和完整性。

4. 定期更新和完善随着高速铁路技术不断更新和发展，需要不断更新和完善语料库中的内容，使其保持时效性和实用性。

高速铁路英汉双语语料库建设项目是一项重要的国家级项目，未来将得到更多的政策和经费支持。

同时，该项目也将引领高速铁路行业和专业翻译工作者的发展，提高翻译质量和效率，加强国际交流和合作，助力中国高速铁路企业在国际市场上更加优秀。

需要不断的利用科技，开发出更加智能化的翻译技术，加速该项目的实施，为国家和社会做出更多的贡献。

《论语》汉英平行语料库建设及其翻译教学实践

《论语》汉英平行语料库建设及其翻译教
学实践
《论语》汉英平行语料库建设及其翻译教学实践《论语》是儒家经典，是中国古代政治、哲学、伦理、教育、家庭礼仪等思想文化的精华，是中国传统文化的重要组成部分，也是中西方文化交流的重要窗口。

因此，汉英平行语料库建设及其翻译教学实践对于深化中西方文化交流具有重大意义。

汉英平行语料库建设是翻译研究的基础，它可以提供更多的一般性和特定性的文本，以便理解翻译的原则和规则，更有效地进行翻译。

建设汉英平行语料库，首先要建立句法树库，以确定语义和表达模式，并且要考虑词汇和句子的结构；其次，要搜集平行语料，实施翻译的结构分析，结合实际情况，进行文体分析；最后，建设平行语料库，以便后续翻译研究和研究。

翻译教学实践是提高学生翻译能力的重要手段，因此，汉英平行语料库建设及其翻译教学实践在提高学生翻译水平方面具有重要意义。

一方面，可以培养学生辨别不同语言之间的语义差异，培养学生对不同语言之间的表达模式的把握能力；另一方面，可以培养学生熟悉不同文体的语言特点，掌握翻译的原则和规则，从而提高翻译水平。

总之，汉英平行语料库建设及其翻译教学实践对深化中西方文化交流具有重要意义，也是提高学生翻译水平的重要手段。

因此，建设汉英平行语料库和实施翻译教学实践对普及和深入弘扬《论语》精神具有重要的现实意义。

机器翻译中的平行语料库构建方法

机器翻译中的平行语料库构建方法机器翻译是指使用计算机技术对一种语言的文本进行自动转化为另一种语言的过程。

构建一个高质量的平行语料库对于机器翻译的研究和应用非常重要，因为平行语料库是机器翻译模型的训练数据来源。

构建平行语料库的方法有很多种，可以是从互联网上获取，也可以通过人工方法进行创建。

下面我们将介绍一些常用的平行语料库构建方法。

第一种方法是从互联网上获取平行语料库。

互联网上有很多已经对齐好的平行语料库，可以直接下载并使用。

其中一种常用的平行语料库是由机构、研究团队或者志愿者创建的。

这种平行语料库通常是基于特定主题的，比如法语到英语的新闻平行语料库，或者中文到英文的科技平行语料库。

这些平行语料库一般来自不同的网站、新闻或者论文等，通过爬虫技术进行获取。

获取到的平行语料库通常会进行处理，去除噪声和重复文本，然后进行句对齐和语言标注，最后保存为可读取的平行语料库文件。

第二种方法是使用在线翻译服务来构建平行语料库。

在线翻译服务是指通过互联网连接远程的机器翻译系统进行翻译的服务。

这些服务通常支持多种语言之间的翻译，包括常见的语种如中文、英文、法语、西班牙语等。

通过将源语言文本输入在线翻译服务，然后获取机器翻译结果作为目标语言的文本，即可构建平行语料库。

这种方法的优点是简单方便，因为不需要进行额外的数据处理，在线翻译服务会自动完成句对齐和语言标注的工作。

不过由于机器翻译服务的性能不同，结果的质量也会有所差异，可能存在翻译错误或者不准确的情况。

第三种方法是通过人工翻译来构建平行语料库。

这种方法通常需要雇佣专业的翻译人员来完成翻译工作。

翻译人员会按照一定的规范和要求，将源语言文本翻译成目标语言的文本。

在翻译的过程中，可能会涉及一些领域知识或者专业术语的处理，以保证翻译结果的准确性和专业性。

人工翻译的好处是可以获得高质量的平行语料库，但是成本较高，需要投入大量的时间和人力资源。

另外，有些研究人员通过对已有的平行语料库进行处理和重组，来获取更加丰富的平行语料库。

面向文学领域的英汉平行语料库的构建

一、引言（一）背景在当今信息社会，人们经常会接触到非母语的信息资源，而汉语与英语的使用都非常广泛，英汉互译已经融入了我们的生活与工作之中。

为了满足人们的这一需求，研究发展机器翻译技术已经成为一种潮流。

随着计算机技术的进步，基于实例的机器翻译思想正在逐步成为未来机器翻译探索的重要方向，而基于实例的机器翻译必须经过查询平行语料库来完成翻译，因此构建一个双语语料库是实现基于实例的机器翻译的前提。

20世纪80年代中期，语料库就开始应用于小说文本的翻译。

在20世纪90年代建立了一大批平行语料库中，小说文本占有较大比例[1]。

汉语和英语在语法规则及语序上有着明显的区别，且存在大量难以翻译的俗语，这点在文学作品中尤为明显。

这使传统的基于规则的机器翻译在实现英汉互译时面临诸多问题，在机器翻译英文时往往无法得到通顺的中文译文。

这时需要建立一个内容丰富、准确可靠的英汉平行语料库，通过查询该语料库将有效地提高译文的质量，使机器翻译向“信”“达”“雅”的方向发展。

（二）技术发展状况构建英汉平行语料库需要从收集并整理好的英汉双语文本中提取对应的双语片段，将它们成批量地存放到数据库当中，为了完成这项工作我们需要高效且精确的句子对齐技术。

研究各个级别的对齐技术一直是构建双语平行语料库的主要议题。

平行语料库中只保存已经对齐的语料，语料对齐的精确度越高，平行语料库越可靠。

本文将使用句子级别的对齐思想，方法主要有以下三种[2]。

1.基于长度的对齐方法。

这种方法的核心假设是一种语言及其译文的长度是接近的。

因为不需要参考词典信息，逻辑简单，所以运行效率高、容易实现，但对齐的准确度则相对较低。

这种对齐方法由Brown和Gale提出[3][4]，他们使用这种方法完成了英法双语的对齐任务，因为英语与法语发源于拉丁语系，同属字母文字，源语言与译文的长度相差不大。

但英语与汉语差别较大，互为译文的英语与汉语中，往往英文的长度要明显长于汉语的长度。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

图!
双语语料库的语料组成
三、语料库的编码
管理这些平行语料的理想方式是设计一个专用管理系统。语料库中所有语料均需按照同样的方式编码或标记。这可以使得语料库能够独立于软件平台和具体的应用程序，具有较强的数据可交换性。目前国际上有两个著名的语料库标记标准建议方案，一个是正处在开发之中的语料库编码标准 ) *+, & ，另外一个是文本编码标准 -+.。-+. 已为一些著名语料库所采用，例如英国国家语料库 ) /0* & 。这两个标准都是基于 ,123 标记语言而制定的。考虑到我们的语料的主要来源是国际互联网，大部分语料是以超文本标记语言 ) 4-23 & 形式存在的。因此，如何对语料库进行编码存在三种 ) % & 采用国际上业已制定的标准方案； )!& 直选择：接采用互联网上广泛使用的超文本标记语言（ ) $ & 制定，这样似乎可以有效减少工作量； 4-23）一个新的标记方案。方案（尽管可以减少工作量，但并不可行。 !）首先，超文本标记语言是目前世界上最为流行的网页标记语言，不同的支持公司都对其作了不同的扩充，语法要求并不严格，常常可以用不同的标记形式来标记不同的内容，因而不适合用来标记・ !"・
计算机辅助术语研究
!""# 年第 $ 期
面向汉英机器翻译的双语语料库的建设及其管理
0 常宝宝
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-
詹卫东
张华瑞（北京大学计算语言学研究所）
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-
近年来，在语言信息处理的研究和开发中，单语和多语语料库（以双语语料库居多）的作用日益凸显出来。特别是在机器翻译研究中，人们提出了多种基于双语语料库的新方法，例如采用所谓的基于实例（ CE*1.&3 B F*/3<）的或基于存储（ @-*’/&*4%,’ G31,-7）的机器翻译方法，可以直接使用经过对齐的双语语料改善机器译文的质量。此外，也可以通过统计模型从双语语料库中获取双语词典和翻译模式，从而改进传统的机器翻译方法。除中文信息方面的应用之外，双语语料库的建设对于双语词典编纂、跨语言的对比研究也具有重要价值。目前关于双语或多语语料库的研究大致可分・!"・
四、语料的标注和对齐
语料库标注工作取决于语料库将以何种方式使用。我们希望部分语料库资源能够直接用于改善机器译文的质量，也希望能够从语料库中学习到从汉语到英语的翻译知识，例如汉英双语词典、翻译模式等。为此，目前我们正在进行或计划对语料库进行下列标注工作： - 9 中文分词和词性标注； 7 9 英文词性标注；中文机构名 ! 9 中文和英文的专名标注（识别已作了小规模的实验）；英文文本句子一级的对齐； ; 9 中文、 < 9 中文专名和英文专名的对齐； = 9 中文词语的详细语法特征标注。这项标注将根据《现代汉语语法信息词典规格说〔进行。在现代汉语语法信息词明书》俞 ->>=〕典中，每类词都可能拥有多达几十个的语法特征信息，但在具体的上下文环境中，并非每个语法特征都有所表现，我们希望这项标注将有助于学习词汇翻译知识。目前对这项标注已经进行了一些小规模的实验。上述标注工作基本按照下面的过程进行： - 9 首先利用软件工具进行自动标注；7 9 人工校对标注结果。目前已有约 -" 万字的中文语料进行了分词和词性标注，对应的译文进行了词性标注，这部
都还没有见到有关系统的、ቤተ መጻሕፍቲ ባይዱ经过深度加工的、以汉语为源语言的双语语料库的报道。北京大学计算语言学研究所、清华大学智能技术国家重点实验室和中国科学院计算所三家单位联合承担了国家 "#$ 课题—— — “ 面向新闻领域的汉英机器翻译系统” 的研制开发任务。系统决定采用基于多种方法的多引擎体系结构（将基于规则的方法与基于语料库的方法相结合）。为此，需要建立一个具有一定规模的经过对齐处理的汉英双语语料库。本文将简要介绍这样一个服务于汉英机器翻译的双语语料库的设计、收集、编码和加工的情况。
!""# 年第 $ 期
计算机辅助术语研究收集了一些具有非常流畅自然的中文翻译的英语材料。 $ & 文本应以全文形式收入语料库，这将有益于篇章知识的获取和学习，一个实用的机器翻译系统最终必须面对全文的翻译。 ’ & 就创作时间而言，所有收入的文本应当是最近几年的文本，这样才能够反映当下语言的实际使用情况。在上述原则的指导下，我们收集了大约 %(( 万字的汉语全文语料及其英语译文。这些语料基本来源于国际互联网。大致可分为四类：新闻报道、新闻发布会文稿、白皮书以及杂文。其构成比例如图 % 所示：
!""# 年第 $ 期
还要标记命名实体，例如人名、地名以及机构名等。 8 7 9 中文文本语言学标记文件和英文文本语言学标记文件主要标记中英文文本中有关词语的词性信息、短语的结构信息、分句的组成关系信息、句子结构成分信息等。 8 ! 9 中文英文对齐信息文件标记中文文本和英语译文文本之间在各个级别上的对齐关系，包括段落级对齐、句子级对齐、词一级的对齐、短语结构级的对齐信息，等等。按照 645 标记语言的规定，总共为上述文档定义了四个文档类型定义 8 :1: 9 。分别用于描述：（（整个双语语料库；中文基本标记文件和英 -） 7）（文基本标记文件；中文文本语言学标记文件和 !）（英文文本语言学标记文件；中文英文对齐信息 ;）文件。标记系统允许以一致和循序渐进的方式对语料进行由浅层到深层的信息标注。
关键词 # 双语语料库；机器翻译；语料库标记；语料库标注摘要 # 近年来，在语言信息处理的研究和开发中，单语和多语语料库（主要是双语语料库）的作用日益突显出来。为了支持一项正在进行的汉英机器翻译系统的开发，我们建立了一个汉英双语语料库。本文简要介绍了该语料库的建设和管理情况。
!"#"$%&’# ()*+&, ()$,-*&.-")$ ’$/ "-, 0’$’%121$3)* (4"$1,1 5 6$%#",4 0’.4"$1 7*’$,#’-")$
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-
一、引
言
为三类：一是研究双语语料的对齐技术（，国内外学者就此提出多种策略和方 H&%(’13’4）法，现在已经出现了许多对齐双语或多语语料的程序或工具〔；二是研究双语语料的各 I*&3 JKKL〕种应用，如在基于统计的机器翻译技术〔 F-,;’ 、基于实例的机器翻译技术〔，双 JKKM〕 N*(*, JK"O〕技术语词典编纂〔 P&*:*’/ *’< @Q,)53-1*’’ JKKM〕中，双语语料库都发挥着十分重要的作用；三是双语语料库的设计、采集、编码和管理问题。目前比较著名的语料库编码方案有 @C6 文本编码标准以及 ACR 标准，两者均基于 RIGS 标记语言。就前两类研究来说，中国国内目前做了较多的跟踪研究工作，而对于第三类研究，即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究，探索工作似乎做的相对较少。与此相关，目前国内外
计算机辅助术语研究我们的语料库。其次，超文本标记语言不做内容和显示的区分，其中既包含用于内容的标记元素，也包含用于显示的标记元素。因而很多情况下，网页作者因为显示效果而放弃使用内容标记元素。例如在我们收集的语料中，文本标题很少使用 #$%& 标记，而更多使用 #’(%)(*& 、 #+,%)& 等标记。，尽管 ./0 和 1/2 是专为标记语再看方案（ -）料库而设计的国际标准方案，但二者均面向通用目的，即使选择一个由较少的必要元素组成的子集，也会因过于复杂而难以掌握。并且其中许多元素对于我们的应用意义不大，同时对一些我们需要详细标记的信息，如新闻报道的特有结构，却又（ “ 没有合适的标记可以使用即有大炮打蚊子” 之嫌）。另外，作为二者基础的 0345 标记语言，也一直因为过于复杂而难以得到信息处理界（包括 21 产业界）的广泛使用，开发一个全面的 0345 分析器也不是一个短时期内可以完成的工作。经过上述分析，为了获得一个简单的但能满足我们需要的编码方案，我们选择了方案（，即 !）参照 ./0 开发一个新的标记系统。这个标记体系不力求覆盖所有文档类型，但要求对于我们所关心的文档类型有足够的支持，对其他文档类型仅仅要求有一般性支持。这个标记体系基于目前正日益流行的标记语言 645，从而保证我们的标记系统有广泛的软件支持。按照我们的标记系统，整个语料库由一组相互链接的文档组成，整个双语语料库的逻辑结构如图 7 所示。
!"#$% &’()’( *"#$ +,-.(/0 *"#$% "1’21!"#$%&’() $%&%’()*& +,-.)/0 1*+2%’3 4-*’/&*4%,’0 +,-.)/ 1*-5).0 +,-.)/ *’’,4*4%,’ *+(,&-.,) 6’ -3+3’4 73*-/0 1,’,&%’()*& ,- 1)&4%&%’()*& 8 .-%1*-%&7 $%&%’()*& 9 +,-.,-* *-3 :%3;3< */ 537 -3/,)-+3/ %’ &*’()*(3 %’=,-1*4%,’ .-,+3//%’( *’< &*’()*(3 3’(%’33-%’( .-,>3+4/? @, /)..,-4 *’ ,’(,%’( A2%’3/3 B C’(&%/2 1*+2%’3 4-*’/&*4%,’ .-,>3+40 * A2%’3/3 C’(&%/2 $%&%’D ()*& +,-.)/ %/ $3%’( /34 ).? @2%/ .*.3- (%:3/ * $-%3= <%/+)//%,’ ,’ +,’/4-)+4%,’ ,= 423 +,-.)/?

面向汉英机器翻译的双语语料库的建设及其管理

合集下载

《面向机器翻译的蒙汉评测语料库研究》范文

军事英汉汉英平行语料库建设存在的问题及对策

浅谈高速铁路英汉双语语料库建设项目

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文

机器翻译中的语料库构建与翻译模型训练研究

敦煌文化汉英术语库建设及术语管理研究

浅谈高速铁路英汉双语语料库建设项目

机器翻译中的语料库构建与翻译模型训练

石家庄公示语汉英平行语料库的设计与建设

《面向机器翻译的蒙汉评测语料库研究》范文

浅谈国内汉英平行语料库建设的问题分析

翻译记忆与小型英汉双语语料库的构建

构建大规模的汉英双语平行语料库1

浅谈高速铁路英汉双语语料库建设项目

《论语》汉英平行语料库建设及其翻译教学实践

机器翻译中的平行语料库构建方法

面向文学领域的英汉平行语料库的构建

文档推荐

最新文档

面向汉英机器翻译的 双语语料库的建设及其管理

合集下载

《面向机器翻译的蒙汉评测语料库研究》范文

军事英汉汉英平行语料库建设存在的问题及对策

浅谈高速铁路英汉双语语料库建设项目

学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文

机器翻译中的语料库构建与翻译模型训练研究

敦煌文化汉英术语库建设及术语管理研究

浅谈高速铁路英汉双语语料库建设项目

机器翻译中的语料库构建与翻译模型训练

石家庄公示语汉英平行语料库的设计与建设

《面向机器翻译的蒙汉评测语料库研究》范文

浅谈国内汉英平行语料库建设的问题分析

翻译记忆与小型英汉双语语料库的构建

构建大规模的汉英双语平行语料库1

浅谈高速铁路英汉双语语料库建设项目

《论语》汉英平行语料库建设及其翻译教学实践

机器翻译中的平行语料库构建方法

面向文学领域的英汉平行语料库的构建

文档推荐

最新文档

面向汉英机器翻译的双语语料库的建设及其管理