多语种在线语料库检索平台使用简明手册.pdf
- 格式:pdf
- 大小:1.42 MB
- 文档页数:8
浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。
语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。
语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。
本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。
标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。
目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。
语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。
高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。
一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。
不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。
不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。
上次说到可以随意下载的正版Trados相信你已经安装成功了。
让我们一起看看有些什么值得欣赏的内容。
在桌面上点击“开始”-“所有程序”-“Trados 6.5 Freelance”之后你会看到有一组项目其中包括1“文件documentation”里面是pdf格式的各种用户手册对Trados的主要模块进行了十分详尽的说明可惜都是英文版。
但既然大家都是干翻译的直接看原版手册应当是个良好的习惯没有什么疑难长句而且多有重复。
2“过滤模块Filters”这些模块可以理解为是某种专用的转换工具把一些特殊软件的字体或格式转换为翻译平台可以接受的文件以便进行后续工作。
这些软件在国内不常遇到辽倌壳澳憧梢圆挥霉芩 ?3“教材Tutorial”采用小电影的形式介绍了翻译平台和对齐模块如果你没有耐心去看原文手册也应当看完这些小电影便于从整体上快速了解Trados当然还是英文的但是高度概括而且直观。
4“专用窗口T-Windows”这些模块针对各种格式文件提供了定制化的编辑环境以便进行翻译和本地化工作你可以在这里处理诸如ExcelPowerPoint可执行文件剪贴板素材等各种含有可译文字的内容。
如果非常熟练你会发现在这里干活有时要比翻译平台还方便因为平台是个正规餐厅去那里就餐有时要讲究着装不是什么素材都能直接拿来处理而在这里则相当随便只要工具顺手拿来就用比如只管翻译幻灯片上的文字不用搭理图片是不是愿意。
5注册和版本说明。
6翻译平台本身这当然是Trados的核心也只有这部分是有加密保护的其它模块的注册都在这里体现。
或者换句话说只要在这里注册成功其它所有的部件也全都可以使用了。
7“标识符编辑器TagEditor”对于各种需要保护其内在格式但又要翻译其文字的文件需要借助这个模块进行处理。
与T-Windows不同标识符编辑器主要处理与互联网有关的文件格式HTML XML 和SGML这些格式看起来面熟吧还有用于桌面出版DTP的某些文件。
一关于CCL语料库及其检索系统1.1 CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CCL不承担由此产生一切后果。
1.2 本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实。
1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。
1.5 检索系统以汉字为基本单位。
1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
2.1 特殊符号查询表达式中可以使用的特殊符号包括8个:| $ # + -~ ! :这些符号分为四组:Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下:(一)Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1)| 相当于逻辑中的“或”关系。
(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2)$ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数小于或等于Number(3)# 表示它两边的“简单项”出现于同一句中,不考虑前后次序。
Homework for Introduction parthttp://211.69.132.28/ 检索的库为:introduction 子语料库语料库使用练习目标一:熟悉语步与词汇的对应关系;目标二:学习以扩展意义单位为基础的新语义观(核心词、搭配、类联接、语义倾向、语义韵);目标三:掌握有语言问题后如何查找相应答案的技能。
提交的作业文件名为:姓名+introduction提交的内容: 1. 在三个introductions,标注:1)M1, M2, M3;2)每个move的内容要点(用汉语);3)每个语步的经典句型划线,4)红颜色标注:语步1中的评价性形容词、语步2的转折连词(引出现有研究的问题),语步3中代表弥补现有研究不足的表达(如研究目的等)2. 回答表格中基于语料库检索的8个问题。
提交时间:周二上课的班级提交时间为周一晚9:30:提交给刘琴同学的QQ邮箱周三上课的班级提交时间为周二晚9:30 ,提交到周颖同学的QQ邮箱Direction :1.Download 3 introduction parts from 3 journal articles in your own professional fields. Identify the 3 moves of the introduction part and mark them respectively by M1, M2, M3.and point out the main point of each move inChinese in barckets. Mark evaluative adj.in M1(评价性形容词), disjunctive conj.(转折连词)in M2, and the expressions implying filling gaps, such as research purpose in M3 in red.Move1 : statements about the subjects. (M1), (main points :problems, background information, definition, importance ,etc) , Move2 : review of relevant studies(M2) (description & comments , point out the weakness of existing researches)Move3: introduction of the present study(M3)(purposes to fill the gaps, research focuses, questions, hypothesis,etc.)2.Underline the representative sentence patterns in each move and summarize it in the bracket such as [importance]3.Answer the questions in the right column of the form based on the corpus data.(注意:如果你不会调节表格,请把答案写在表格外)Sample :The separation of mixtures of alkanes is an important activity in the petroleum and petrochemical industries. For example, the products from a catalytic催化isomerization reactor consist of a mixture of linear, mono-methyl and di-methyl alkanes. Of these, the di-branched molecules are the most desired ingredients in petrol because they have the highest octane number. It is therefore required to separate the di-methyl alkanes and recycle the linear and mono-methyl alkanes back to the isomerization reactor. In the detergent industry, the linear alkanes are the desired components and need to be separated from the alkanes mixture[M1: 通过现实需要突出研究的重要性与意义].Selective sorption on zeolites is often used for separation of alkanes mixture(1-7文献被省略). The choice of the zeolite depends on the specific separation task in hand. For example, small-pore Zeolite A are used for separation of linear alkanes using the molecular sieving principle. However, the branched molecules cannot enter the zeolite structure[M2:指出现有研究方法及方法中存在的问题]. This study aims to overcome this limitation. Both linear and branched molecules are allowed inside the medium-pore MFI matrix and the sorption hierarchy in MFI will be dictated both by the alkanes chain length and degree of branching.[M3:本研究目的和采用新方法的优势]Introduction的写作方法:说明论文特定主题与较为广泛的研究领域之间的关系,同时提供足够的背景资料。
多语种在线语料库检索平台使用简明手册
许家金
中国外语与教育研究中心
、访问及登录
访问(用户名:和密码:),可点击使用相应的语料库。
目前平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等数十个语料库。
图:主界面
、功能概要
按()对语料库分析工具的时代划分,属于第四代语料库工具,即在线语料库分析工具。
四代工具的突出代表是美国杨百翰()大学教授创建的系列语料库检索界面()。
类似的在线语料库检索系统还有、、、等。
而当前主流的语料库工具属于第三代,其中以、和等为代表。
第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。
在线语料库工具通常将语料库文本按特定格式建成索引(),存储在服务器上。
用户检索响应速度要远高于三代软件在本地电脑上的检索速度。
其操作也较三代语料库软件简便得多。
四代语料库工具可完成三代语料库几乎所有的功能,其中又以所能实现的功能最多最全。
更重的是,是开源软件。
概括说来,可以实现以下功能。
()在线生成语料库的词频表();
()查询()字词、语言结构等,以获取大量语言实例或相应结构的出现频次(),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果;
()计算特定词语在语料库中的典型搭配();
()计算语料库中的核心关键词(),等。
、使用实例
标准查询模式
在简单查询模式()下,可输入单词、短语等进行检索。
图:语料库查询界面
图:查询结果界面
点击查询结果页面右上角下拉菜单,显示(新查询)时,按键,即可重新回到语料库检索界面。
相当于返回按钮。
新查询,返回语料库检索首页
查询结果随机抽样
频数分解、分解频数
查询结果的分布展示
查询结果排序设定
搭配计算
下载保存查询结果
(随机取样),比如,可从万行结果中,随机抽取行。
(频数分解)表示在进行复杂查询时,对命中的不同词项分别计算频数。
比如,查询时,会按这个词项分别报告命中频数和频率。
图:动词查询(频数分解)结果示例
:按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果
图:语料库中"lov.*"的分布情况()
图:语料库中"lov.*"的分布情况(Bar chart)
:计算特定词语在语料库中的典型搭配
图:语料库中"lov.*"的典型搭配词(以log likelihood value排序)
限定条件查询
限定条件查询,指在任务一开始,即选定一个或多个限制条件(如,语体、年代、章节、写作题材等)进行查询。
限定条件的有无、多寡,源自语料库文本的元信息()。
因此,在创建语料库时,应尽可能详细记录语料文本产生的社会语言学信息。
丰富的社会语言学信息,可以大大丰富研究的层面和深度。
这样的元信息可以存储在文本的头部,也可以在文本之外单独存储。
图:限定在语料库的学术语体中查询情态动词生成词频表
图:语料库的词频表
生成主题词表
比如以《红楼梦》与语料库进行对比,可能得到《红楼梦》的主题性词汇。
、多语种语料库建设思路
本族语平衡语料库:百万词次以上
特定语体语域专门用途语料库:比如文学作品、新闻报导、法律文本、网络文本等学习者语料库:学习者作文、翻译练习
翻译文本及平行语料库
附录:平台中英文术语对照表(表)
词次
词种
词语搭配
语料库说明文档
语料库元信息
复杂检索语法
分布(按语体等分类条件分别呈现结果)
频数、频率
频数分解、分解频数
词频表、词表
词频表
主题词
对数似然率(典型词语搭配的统计方法)
最大跨距(计算搭配时中心词和左右语境词
之间的距离)
出现次数
检索词、中心词、节点词
查询结果每页显示的行数
查询、检索
限定条件查询
直译:在个不同文本中返回个匹
配项
意译:在个文本中查到例子
查询结果按中心词排序
简单查询(不区分大小写)
词语相关查询
附录:复杂检索举例(查询时,选择)
单词检索:、、
词码混合检索:、、、
、
近义词批量检索:、
北外语料库语言学团队网站:
使用北外平台,可引用:
许家金、吴良平,,基于网络的第四代语料库分析工具及应用实例,《外语电化教学》():,。