中国口译学习者语料库的副语言标注_标准与程序
- 格式:pdf
- 大小:650.74 KB
- 文档页数:8
口译的标准和原则
口译的标准和原则包括以下几个方面:
1. 准确性:口译应尽可能准确地传达讲话者的意思,不掺杂个人理解或加入自己的观点。
口译员应尽力避免翻译错误或误解。
2. 流畅性:口译员应保持良好的口语表达能力和流利的口译技巧,确保信息在翻译过程中的连贯性和流畅性。
3. 中立性:口译员应保持中立的立场,不对讲话内容进行评判或偏颇,尊重不同的观点和立场。
4. 忠实性:口译员应忠实于原始讲话内容,不随意删减或增加信息。
在遇到无法直接翻译的文化差异或难以表达的内容时,可以适当注释或解释。
5. 合适性:口译员应根据具体场合调整口译方式和语言风格,以适应不同的听众群体和环境要求。
6. 专业性:口译员应具备专业的背景知识和丰富的语言技巧,及时更新和提升自己的专业知识和技能。
7. 快速性:口译员应准确抓住讲话者的主旨和要点,及时反应并适时调整自己的翻译速度,保证信息的及时传递。
口译的标准和原则是以准确、流畅、中立、忠实、合适、专业和快速为基础,以确保信息的准确传达和有效沟通。
口语对话语音语料库CADCC和其语音研究·李爱军,殷活纲,王茂抹徐波啊宗成庆'矿中田社会科学院语言研究所,Ⅲ中国科学院自动化研究所摘要口语对话和朗读语麓的差别表现在句法、剐语言学现象、音段和韵律等许多方面,这给口语对话的标注带来新的课题.本文介绍自然口语对话语音语料库CADCC(ChineseAnnotatedDialoguoandConvvrsationCorpus)和其文字转写,音段以及韵律标注.CADCC包括两个子库:电话对话库setl和口语对话语篇库set2.其标注内容包括篇章话题、话轮、韵律和音段的标注.音段标注采用SAMPA—C标注系统,韵律标注采用C-ToBI标注系统.本文还报告了标注结果,如篇章话题的长度,口语话轮出现的模式,插入和叠接现象,韵律结构和朗读语篇的差异等等.1自然口语库CADCC语篇(discourse)包括朗读语篇和自然口语语篇,又可以分成独白和对话两种形式。
不同形式的语篇具有不同的特性,比如参与的人数、涉及的话题、话轮顺序和话轮长度等等。
我们已经建立了朗读语篇库ASCCD和独自的自然口语CASS,并且进行了语音学标注【2】.口语对话语篇库CADCC是我们今年开始收集和标注的,我们希望它对言语工程和语音研究会有较大的贡献。
CADCC包括两个子库,其中SET1是电话对话库,SET2是正常通道对话库。
表1给出了CADCC的详细信息。
SET2中的对话双方是同事或同学.有共同的爱好或话题.谈话内容不限.也就是语篇话题可以自由转换。
其中有8位发音人曾经参加朗读语篇ASCCD的录音.这样做的目的是为了详细对比朗读和自然口语的各种差异.录音在普通办公室或宿舍进行,对话者身别无线话筒,无线录音设备放置在另外的房间,这样保证了对话双方完全进入自然谈话状态。
每一对发音人的谈话时间在1个小时左右。
2音字转写所有的声音都进行了汉字转写,特别将口语的副语言学和非语言学现象按照表2的符号进行转写例l:B:我傻OV<B:我印度人A:LA<LA>OV>;例2:A:LE<MO<嗅LE>M09;B:那个就是DS<一一DS>m子的事儿。
翻译语料的言语失误标注原则鉴于目前国内的学习者语料库如杨惠中老师和桂诗春老师(CLEC),SWECL(Spoken and written English of Chinese Learners), 大学英语口语语料库(卫乃兴)等所用的标准均为error-tagging system. 为了保持统一和可对比性,便于以后对我国不同类型的英语学习者的语料进行对比,故我们决定采用统一体系,然后在一些不同之处作说明。
CLEC的标注体系“采取两级分类,第一级是大类,每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等”这个赋码相对简单合理,易于系统操作。
由于错误标注是手工操作,参与标注的人比较多,如果分类表过于繁复,就难于掌握,届时标注的准确性和连贯性皆难以得到确保。
因此,在实际操作层面,可操作性在很大程度上确定了标注的准确性和统一连关性,也是学习者语料库建库成败的关键。
语语料库标注的一大问题(Hunston, 2003)。
不仅是一如何其他的标注方式如扬达复老师提出的从五个纬度标注,此外,一些错误的类型难以判断,特别是一种错误引起另一种错误,或者错误的本身可以从不同的层面上进行界定,在这种情况下,统一遵循学习者预料的客观性。
作为学习者语料,这是进行中介与对比研究的基础,标注是一项必不可少、又费时费力的浩大工程。
这是进行对比分析的依据,同时也对中介语研究的关键步骤。
同时为了确保标注的正确性和统一性,除对标标注小组成员进行培训,熟悉赋码,还定期会面,讨论标注过程中出现的一些问题,这些讨论一方面有助于统一对某些错误的认识,同时也有助于市的一些分析变得更加深入和丰富。
句子之间的标注以衔接词和连词为主,另一在现有的格式上好操作的标注体现在叙述性人称代词的使用,如。
其他语言层面的标注没有进行,语篇标注的其他层面,如语用角度的言语行为等。
语料库标记与标注以中国英语语料库为例一、本文概述本文旨在探讨语料库标记与标注的重要性及其在中国英语语料库中的应用。
我们将简要介绍语料库的定义和类型,以及标记与标注在语料库建设中的作用。
接着,我们将以中国英语语料库为例,详细阐述语料库的标记与标注过程,包括标记符号的选择、标注规则的制定以及标注质量的控制等方面。
在此基础上,我们将进一步探讨语料库标记与标注对于语言研究、自然语言处理以及机器翻译等领域的影响和应用价值。
我们将总结当前语料库标记与标注研究中存在的问题和挑战,并展望未来的发展趋势和研究方向。
通过本文的阐述,我们希望能够加深对语料库标记与标注的理解,推动中国英语语料库的建设和发展,为相关领域的研究提供有益的参考和启示。
二、语料库的基本概念与分类语料库(Corpus)是以电子形式存储的语言材料的集合,通常包括文本、音频或视频等形式的语言数据。
语料库语言学是语言学的一个分支,专注于利用语料库进行语言研究。
在语料库语言学中,语料库被视为一种研究工具,可用于描述语言的实际使用情况,揭示语言的规律,以及评估语言教学和自然语言处理的效果。
语料库可以按照不同的标准进行分类。
按照语料库的来源,可以分为原生语料库(native corpus)和编译语料库(compiled corpus)。
原生语料库是直接收集的自然语言文本,如新闻报道、文学作品、社交媒体帖子等。
编译语料库则是由多个不同来源的文本经过整理、清洗和标注后形成的。
按照语料库的内容,可以分为通用语料库(general corpus)和专用语料库(specialized corpus)。
通用语料库包含各种类型的文本,旨在反映语言的整体使用情况。
专用语料库则针对某一特定领域或主题,如医学、法律、科技等领域的语料库。
按照语料库的处理程度,可以分为生语料库(raw corpus)和标注语料库(annotated corpus)。
生语料库是未经处理的原始文本,而标注语料库则对文本进行了各种形式的标注,如词性标注、句法标注、语义标注等。
语料库中熟语标注的基本处理思路和方法
基本处理思路:
1. 语料库的数据抽取:语料库中常见的信息形式包括语句、词语对以及对应的表达式标记;
2. 进行数据标注:将句子中的每个词语标记上正确的类别;
3. 数据分类:按照表达式类别,将语料库中的信息分类;
4. 分析记录:将所有被标记的数据进行归类,并整理出各个类别的主要特点;
5. 生成规则:根据分析记录,提取出规律性的模式,从而生成规则;
6. 验证结果:测试结果,对研究结果进行检验验证。
处理方法:
1. 语料库分类:按照词汇或句子类别将语料库进行分类;
2. 命名实体识别:通过词性标注、抽取关键词字根的的方法等将句子或文本中的实体信息抽取出来;
3. 模式相似度对比:根据相似模式进行对比,给出和语料库里相似的表达式;
4. 语义分析:对语料库内容进行语义分析,抽取出语句中的隐含信息暗示的概念;
5. 模糊查询:对文本的每个单词进行模糊查询,将查询到的所有结果列出来,进行筛选处理;
6. 标准语料库建立:把属于同一表达式标注的数据以及可能归属于同一表达式标注的数据放入一个标准语料库中。
CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
言语失误标注原则1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
5.对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计1070602言语失误标注原则1.简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
《口译语料库驱动下的口译副语言现象研究》篇一一、引言随着全球化的快速发展,口译作为一种特殊的语言交际方式,越来越受到广泛关注。
其中,口译副语言现象在口译实践中具有重要的研究价值。
口译副语言是指除基本语言之外,用于辅助传达信息、表达情感和姿态的额外语言元素。
本文以口译语料库为驱动,对这一现象进行深入研究。
二、口译语料库的构建与作用首先,我们构建了一个高质量的口译语料库。
该语料库包括大量真实的口译实例,涵盖了各种场景和主题。
通过这些语料,我们可以系统地分析口译过程中的副语言现象。
口译语料库的构建对于研究副语言现象具有重要意义。
首先,它为研究者提供了丰富的数据资源,使得研究更具针对性和深入性。
其次,通过对比和分析不同实例,我们可以发现副语言现象的规律和特点,为口译实践提供指导。
三、口译副语言现象的分类与特点根据口译实践中的实际表现,我们将口译副语言现象分为以下几类:体态语言、语气与音调、修辞技巧、表情符号等。
(一)体态语言体态语言是口译副语言中最为显著的部分。
包括肢体动作、面部表情和眼神交流等。
这些动作可以辅助传达信息,帮助听者更好地理解。
(二)语气与音调语气与音调是传达信息的重要手段。
通过调整语气和音调,口译员可以更好地表达情感和态度,使信息更具说服力。
(三)修辞技巧修辞技巧是口译中常用的副语言手段。
包括比喻、排比、反问等修辞手法,可以增强语言的表达力和感染力。
(四)表情符号表情符号是一种非语言的表达方式,通过面部表情和肢体动作等来传达信息。
在口译中,表情符号可以帮助传达更丰富的信息,提高沟通效果。
四、口译语料库驱动下的副语言现象分析基于构建的口译语料库,我们深入分析了各类副语言现象在口译实践中的应用和作用。
通过对比和分析不同实例,我们发现:(一)体态语言在口译中具有辅助传达信息的作用。
肢体动作和面部表情可以帮助听者更好地理解翻译内容,提高沟通效果。
(二)语气与音调的合理运用可以增强信息的表达力和感染力,使翻译更加生动形象。
语言文学研究口译语料库在口译教学中的应用徐谦谦(上海应用技术大学外国语学院,上海201418)摘要:基于口译语料库的研究方法是口译研究的一种主8方法,借助语料库研究方法研究口译教学具有重大意义。
本文从口译教学特点及当前口译教学存在的问题出发,探究口译语料库在提供口译训练材料、辅助口译译前准备、辅助口译记忆训练等方面的具体应用。
关键词:口译语料库口译教学口译记忆训练1.引言语料库口译研究始于,1998年Shlesinger发文"Corpus-Based Interpreting Studies as an Offshoot of Corpus-Based Translation Studies"。
Shlesinger在文中提出可以借鉴语料库语言学对词汇密度、语篇特征、类符-形符比等描写手段及语料库翻译学利用平行语料库和可比语料库的方法开展口译研究。
国际知名出版公司Peter Lang出版了迄今第一本语料库口译研究专题论文集《拓荒语料库口译研究}(Breaking Ground in Corpus-Based Interpreting Studies)(陈菁,2014)。
目前国外已建成两个大型口译语料库即日本名古屋大学建立的CIAIR口译语料库和意大利博洛尼亚大学建立的EPIC (欧洲议会口译语料库)。
国外研究建型专门用途口译语料库,如Meyer(2008)建立K6语料库来研究交传和同传中对人名的;Petite(2008)建立语料库专门研究同传中的纠正机制(Repair Mechanism);Cencini(2000)建立电视口译语料库(Television Interpreting Corpus);Fumagalli(1999-2000)建类比和对应语料库研究英一意时事特点。
甲芳(2017)出目前国已建成的个口译语料库:外国语大学文秋芳教授及其团队建立PACCEL-S(Parallel Corpus of Chinese EFL Learners-Spoken);上海交通大学胡开宝及其团队建立CECIC(Chinese English Conference Interpreting Corpus)(包括三个库:会汉英平行语料库、会英语语料库、英平行语料子库);香港理工大学及其团队建立BICCSL(Hong Kong Bilingual Interpreting Corpus on Contem porary Social Life);英国利大学及建立CEIPPC(Corpus of Chinese-English Interpreting for Premier' s Press Conference)(后来被拓展为CEICO(Chinese-English Interpreting Corpus Online))o国内外文,基于语料库的口译研究具在类口译语料库建应用、口译语料库研究方法、口译和、口译语料写和方法、于建口译语料库进行口译语言特征和口译、口译教学等方。
中国翻译协会标准T/TAC x—xxxx 语料库通用技术规范General specifications for corpus(征求意见稿)2018-xx-xx发布2019-xx-xx实施中国翻译协会发布前言中国翻译协会是包括翻译与本地化服务、语言教学与培训、语言技术工具开发、语言相关咨询业务在内的语言服务行业的全国性组织。
制定语言服务规范,推动行业有序健康发展,是中国翻译协会的工作内容之一。
近年来,随着人工智能、语言服务、学术研究和语言教学的发展,语料库交易活动日益活跃。
为了更好地规范语料库交易市场,推进语料库在人工智能和语言服务、学术研究及其他相关领域中的应用,特编制《语料库通用技术规范》。
本规范起草单位:上海交通大学、北京大学、北京外国语大学、中国人民解放军外国语学院、同济大学、东南大学、南京师范大学、浙江大学、浙江财经大学、中国社会科学研究院、中国标准化研究院、中译语通科技股份有限公司、阿里巴巴(中国)网络技术有限公司、华为技术有限公司、传神语联网网络科技股份有限公司、北京中译天凯教育服务有限公司、成都优译信息技术股份有限公司、杭州中语科技有限公司、苏州联跃科技有限公司等机构的专家共同起草。
本规范主要起草人:胡开宝、杨平、罗慧芳、张雪涛、陈圣权、吴永波、谢凝、彭成超、许文胜、李爱军、梁红丽、王海涛、王海波、李洁、潘轶岑、何征宇、刘四元、蔡方仁、俞敬松、高志军、张威、程乐、严志军、黎昌抱、易绵竹、毕玉德、郭庆、管新潮、田绪军、李婵、李晓倩、胡昂、任才淇等。
本规范按照GB/T 1.1—2009给出的规则起草。
本规范由中国翻译协会提出并归口。
目录1. 适用范围 (1)2. 规范性引用文件 (1)3. 术语与定义 (1)4. 建设与加工 (7)4.1 建设流程 (7)4.2 语料采集 (8)4.3 语料预处理 (8)4.4 语料标注 (8)4.5 语料对齐 (9)4.6 语料库生成 (9)5. 管理与维护 (9)5.1 语料的分类 (9)5.2 语料库的分类 (9)6. 交易与共享 (10)6.1 语料库描述 (10)6.2 语料库评价 (11)6.3 语料库交易 (15)附录:参考文献 (16)1. 适用范围本标准侧重于描述并规定语料库的建设与加工、管理与维护、交易与共享。
《口译语料库驱动下的口译副语言现象研究》篇一一、引言口译作为语言交流的重要桥梁,在跨文化、跨语言的交际过程中起着举足轻重的作用。
而随着信息技术和大数据的迅猛发展,语料库方法逐渐被应用于口译研究中。
口译语料库不仅可以提供丰富多样的翻译语料,还可用于分析和揭示口译副语言现象。
本文旨在探讨口译语料库驱动下的口译副语言现象,分析其特点、规律及影响。
二、口译副语言现象概述口译副语言现象是指在口译过程中,除了主要的语言翻译外,还伴随着一些非语言性的表达方式,如肢体语言、面部表情、语气变化等。
这些副语言现象对口译的准确性和流畅性起着重要作用。
然而,由于副语言现象的复杂性和多样性,传统的口译研究方法难以全面揭示其特点与规律。
因此,本文尝试借助口译语料库进行深入研究。
三、口译语料库的构建与应用1. 构建:为了全面收集和分析口译副语言现象,我们构建了一个大规模的口译语料库。
该语料库包含了多种语言、多种类型的口译案例,涵盖了政治、经济、文化等多个领域。
同时,我们还采用了先进的语音识别和文字转录技术,将口译过程中的语音和文字信息转化为可分析的数据。
2. 应用:在构建了语料库的基础上,我们利用计算机辅助分析方法对语料库进行深入分析。
通过对副语言现象的识别、提取和分析,我们可以更全面地了解其特点和规律。
同时,我们还采用了定量和定性相结合的方法,从多角度揭示了副语言现象对口译效果的影响。
四、口译副语言现象的特点与规律通过分析和研究,我们发现口译副语言现象具有以下特点:1. 多样性:副语言现象涉及多种非语言性表达方式,如肢体语言、面部表情、语气变化等。
这些表达方式在口译过程中相互交织、相互影响。
2. 动态性:副语言现象是动态变化的,随着口译任务的不同和场景的变化而发生变化。
例如,在紧张或复杂的任务中,副语言现象可能更加丰富和复杂。
3. 辅助性:副语言现象对口译的准确性和流畅性起着辅助作用。
通过合理的运用副语言现象,可以提高口译的效果和质量。
语料库标注说明“HSK动态作⽂语料库”语料标注及代码说明“HSK动态作⽂语料库”从字、词、句、篇、标点符号等⾓度,对所收⼊的作⽂语料中存在的外国⼈使⽤汉语的中介语偏误进⾏全⾯标注。
1 、字处理(包括标点符号)[C]:错字标记,⽤于标⽰考⽣写的不成字的字。
⽤[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,⽤于标⽰把甲字写成⼄字的情况。
别字包括同⾳的、不同⾳⽽只是形似的、既不同⾳也不形似但成字的等等。
把别字移⾄[B]中B的后⾯,并在[B]前填写正确的字。
例如:提[B题]⾼、考虑[B虎]。
[L]:漏字标记,⽤于标⽰作⽂中应有⽽没有的字。
⽤[L]表⽰漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表⽰“悔”在原⽂中是漏掉的字。
农[L]药,表⽰“农”在原⽂中是漏掉的字。
[D]:多字标记,⽤于标⽰作⽂中不应出现⽽出现的字。
把多余的字移⾄[D]中D的后⾯。
例如:我的[D的],表⽰括号中的“的”是多余的字(原⽂中写了两个“的”)。
[F]:繁体字标记,⽤于标⽰繁体字。
把繁体字移⾄[F]中F的后⾯,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标⽰的是使⽤正确的繁体字,如果该繁体字同时⼜是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,⽤于标⽰异体字。
把异体字移⾄[Y]中Y的后⾯,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼⾳字标记,⽤于标⽰以汉语拼⾳代替汉字的情况。
把拼⾳字移⾄[P]中P的后⾯,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:⽆法识别的字的标记,⽤于标⽰⽆法识别的字。
每个不可识别的字⽤⼀个[#]表⽰。
例如:更[#][#]保存⾃⼰的⽣命,……[BC]:错误标点标记,⽤于标⽰使⽤错误的标点符号。
CLEC中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计 1070602言语失误标注原则1. 简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2. 分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past,[vp6, 4-] kind to each other…, 失误用方括号表示,放在失误people are 之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
[收稿日期]2009-03-10[作者简介]曹文,博士,北京语言大学对外汉语研究中心副教授,主要研究语音学和对外汉语教学;张劲松,博士,北京语言大学对外汉语研究中心和信息科学学院教授,主要研究语音识别和计算机辅助语音教学。
*本研究得到了教育部人文社科基地重大项目07JJD740060、北京语言大学科研规划项目08WT01及青年骨干教师项目资助。
面向计算机辅助正音的汉语中介语语音语料库的创制与标注*曹 文1 张劲松1,2(11北京语言大学对外汉语研究中心 北京 100083;21北京语言大学信息科学学院 北京 100083)[摘要]本文介绍面向计算机辅助正音的汉语中介语语音语料库的创制思路与标注方法。
该库包括单音节、双音节、三音节、四音节、句子和语段六个子库。
它最大的特点是在声母、韵母、声调及语调等方面进行了偏误标注。
对声母、韵母,它将提供中介语发音人在发音部位和P 或发音方法上的偏误信息;对声调、语调,它将提供声调特征点、调核、边界调、停延P 间断等方面的偏误信息。
这些信息将为汉语CAPL 系统提供可靠、实用的正音线索。
[关键词]对外汉语教学;语音;语料库;计算机辅助语音学习(C APL)[中图分类号]H195[文献标识码]A[文章编号]1003-5397(2009)04-0122-10The Construction of a CAPL ChineseInterlanguage Corpus and Its AnnotationC AO Wen ,Z HANG JinsongAbstract :This paper describes the design and annotation of a Chinese InterlanguageCorpus for Computer Assisted Pronunciation Learning (CAPL).The corpus is created in twosteps differing in number of the samples.It is composed of six sub -corpora:the one ofmonosyllables,the one of disyllables,the one of tr-i syllables,the one of quarter -syllables,theone of sentences and the one of paragraphs.Analysis of the errors in initials,finals,tones andintonations are presented by certain labels in the corpus.The data of the corpus can provideerror information and also clues to making right pronunciation.Keywords :Teaching Chinese as a Foreign Language;corpus;phonetics;CAPL2009年11月第4期语言文字应用Applied Linguistics Nov.,2009No.4引 言学好语音是学好一门外语的基础。