现代汉语语料库建设及深加工项目总结报告
- 格式:ppt
- 大小:245.50 KB
- 文档页数:36
浅谈高速铁路英汉双语语料库建设项目【摘要】这篇文章旨在探讨高速铁路英汉双语语料库建设项目,首先介绍研究背景和研究目的。
正文部分包括高速铁路英汉双语语料库的建设、语料库内容、以及语料库在实际应用中的价值。
文章还会讨论建设项目的方法和步骤,以及可能面临的挑战。
结论部分将对文章内容进行总结,并展望未来研究方向。
通过这篇文章,读者将能够深入了解高速铁路英汉双语语料库建设项目的重要性和意义,以及其中所涉及的关键内容和挑战。
【关键词】高速铁路、英汉双语、语料库、建设项目、研究背景、研究目的、正文、内容、应用价值、方法、步骤、挑战、总结、展望未来。
1. 引言1.1 研究背景高速铁路英汉双语语料库建设项目是在当前信息化时代背景下的重要举措。
随着中国高速铁路的不断发展壮大,人们对高速铁路相关信息的需求也日益增加。
目前针对高速铁路的英汉双语语料库却相对匮乏,无法满足人们对于高速铁路信息的准确获取和理解需求。
通过建设高速铁路英汉双语语料库,可以收集整理包括列车时刻表、运行状态、车站信息等在内的丰富信息资源,为用户提供更为全面、准确的信息查询和阅读服务。
通过对高速铁路的英汉双语语料进行整理和分类,可以为高速铁路领域的专业研究和教学提供可靠的语言素材和参考资料。
建设高速铁路英汉双语语料库不仅有利于提升高速铁路信息的传播效率和质量,更能促进高速铁路领域的研究和学术交流。
在信息化和全球化背景下,构建这样一份跨语言、跨文化的语料库对于推动高速铁路行业的发展具有重要意义和深远影响。
1.2 研究目的研究目的是为了搭建一个高速铁路英汉双语语料库,以满足日益增长的高速铁路领域专业人士和学习者的语言学习和研究需求。
通过收集、整理和分析高速铁路相关的英文和中文文本,建立起一个包含丰富多样语料的数据库,为高速铁路领域的语言学研究提供有效的支持。
通过语料库的构建,也可以促进中英文之间的文化交流和理解,推动高速铁路领域的国际合作与交流。
通过对高速铁路英汉双语语料库的建设工作,可以探索和提高自然语言处理技术在高速铁路领域的应用效果,为相关技术的进一步发展提供更多的实践基础和研究资源。
汉语中介语语料库建设研究沈锐1,黄薇2(1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100)【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。
【关键词】语料库;中介语;汉语教学语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。
本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。
中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。
中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。
无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。
在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。
因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中小规模的语料库。
一、需求分析和框架设计语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。
半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。
现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。
第一步是对原始语料进行切分和词性标注。
1994年制订了《现代汉语文本切分与词性标注规范V1.0》。
几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。
在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。
为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。
因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
制订《现代汉语语料库加工规范》的基本思路如下:⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。
由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。
⑵ ⑵ 小标记集。
词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。
北京大学现代汉语语料库基本加工规范俞士汶段慧明朱学锋孙斌(北京大学计算机系,北京大学计算语言学研究所 北京 100871)摘要:北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。
加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。
这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。
发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
关键词:现代汉语;语料库;词语切分;词性标注;规范中图分类号:TP391The Basic Processing of Contemporary Chinese Corpus at Peking UniversitySPECIFICATIONYU Shi-wen DUAN Hui-ming ZHU Xue-feng Bing SWEN(Institute of Computational Linguistics, Peking University, Beijing, 100871) Abstract: The Institute of Computational Linguistics, Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters. In addition to word segmentation and part-of-speech tagging, the processing involves the tagging of proper nouns (person names, place names, organization names and so on), morpheme subcategories and the special usages of verbs and adjectives. The success of this large-scale language engineering is attributed to the SPECIFICATION, which had been made beforehand and was being perfected while in use. We are hereby making an introduction to the SPECIFICA TION through this publication, thus inviting the comments from all the experts and our colleagues for the improvement of it.Keywords: contemporary Chinese; corpus; word segmentation; part-of-speech tagging; specification⒈ 前言关于汉语语料库的全面情况,冯志伟教授的文章已有详细介绍[1]。
对外汉语领域语料库应用情况研究与探索语料库语料丰富,对语料库中语料的统计分析,可以为对外汉语提供很多有价值的研究材料。
本文收集了近几年对外汉语领域使用语料库辅助研究的文献,归纳出语料库在研究汉语学习者习得情况、研究汉语语言现象、汉语教学工具书信息来源、回馈课堂教学等方面的作用。
传统语料库在对外汉语领域未尽其用,游离于课堂教学之外,真正适用于对外汉语课堂教学的语料库还有待研发和建立。
标签:语料库对外汉语课堂教学语料库是由大量语言实际使用的信息组成,专供语言研究、分析和描述的语言资料库,简而言之,就是存放语料的仓库。
语料库存放的语料丰富而有序,研究者利用计算机可以从数百万的语料中调出某个词、短语或者句子的实例,简捷方便。
在真实语境中,语言符号的意义不是完全确定、一成不变的,随机性特点显著,因此通过收集大量的真实语言素材,对其进行统计分析,得出语言在实际应用中的内在规律就显得十分必要。
近些年来,从事对外汉语教学工作者对语料库在对外汉语领域的教学研究和理论研究方面所起到的作用有了更深刻的认识,新的针对对外汉语领域的语料库不断地被研发和使用,使得传统的研究语言的依靠直觉经验的方法被量化的统计方法所取代。
一、对外汉语语料库的研发与使用概况北京语言大学崔希亮教授主持开发了“HSK动态作文语料库”,该语料库是针对母语非汉语的外国人设立的,是以他们参加的高等汉语水平考试(HSK高等)的作文考试为语料来源,收集了1992年以来历年高等汉语水平考试的全部作文答卷,并随着汉语考试的不断进行,语料的不断增加,语料库不断得到充实。
语料库由原始语料库、考生信息库、字信息库、词信息库、句信息库、篇章信息库以及各种计算机辅助程序构成。
语料库1.0版收入语料10740篇,约400万字;语料库1.1版语料总数达到11569篇,共计424万字。
运用该语料库,可以进行多方面的研究,例如汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、汉语本体研究等等。
浅谈高速铁路英汉双语语料库建设项目1. 引言1.1 项目背景高速铁路英汉双语语料库建设项目的项目背景是由于中国高速铁路建设的快速发展和“一带一路”倡议的推动,越来越多的外国友人来中国参观交流。
由于语言障碍,很多外国友人在了解和体验中国高速铁路发展的过程中遇到了困难。
为了更好地促进中外友好交流,建设一个涵盖高速铁路相关信息的英汉双语语料库尤为重要。
目前,虽然已经存在一些高速铁路相关的英汉翻译资料和论文,但这些资料散落在各个领域,不够系统和全面。
建设一个高速铁路英汉双语语料库,将大大提升外国友人了解中国高速铁路的便利性和准确性。
通过这个项目,我们可以让外国友人更加直观深入地了解中国高速铁路的建设成就和发展态势,促进各国在高速铁路技术和运营管理方面的交流与合作。
这也为中国高速铁路行业的国际化发展提供了一定的支撑和参考。
1.2 项目目的项目目的是为了促进高速铁路英汉双语语料库的建设和完善,以提供给研究人员、教育机构和企业使用。
通过建立这样一个语料库,可以为高速铁路领域的英汉翻译提供更多可靠的语言材料,提高翻译质量和效率。
该项目旨在促进中英两国在高速铁路技术领域的合作与交流,促进技术创新和知识传播。
通过建设高速铁路英汉双语语料库,还可以促进高速铁路行业人才的培养和专业知识的传承,为高速铁路的发展做出贡献。
该项目的目的是促进中英两国在高速铁路领域的合作与交流,提高高速铁路领域的翻译质量和效率,促进技术创新和知识传播,同时也为高速铁路行业的发展和人才培养做出贡献。
1.3 研究意义高速铁路英汉双语语料库建设项目的研究意义主要体现在以下几个方面:建设这样一份英汉双语语料库可以为高速铁路相关领域的信息检索、翻译和语言教学提供重要支持。
在高速铁路建设的过程中,涉及到大量的技术规范、施工方案、安全管理等内容,这些内容需要在不同语言之间进行准确的传递和理解。
通过建设英汉双语语料库,可以帮助相关工作者更方便地获取到这些信息,提高工作效率。
语料库研究与综述语料库研究与应⽤综述⼀概述语料库通常指为语⾔研究收集的、⽤电⼦形式保存的语⾔材料,由⾃然出现的书⾯语或⼝语的样本汇集⽽成,⽤来代表特定的语⾔或语⾔变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语⾔的实际使⽤情况。
⼈们通过语料库观察和把握语⾔事实,分析和研究语⾔系统的规律。
语料库已经成为语⾔学理论研究、应⽤研究和语⾔⼯程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究⽬的和⽤途,这⼀点往往能够体现在语料采集的原则和⽅式上。
有⼈曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,⼴泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同⼀类内容的语料;(3)系统的(Systematic):根据预先确定的原则和⽐例收集语料,使语料具有平衡性和系统性,能够代表某⼀范围内的语⾔事实;(4)专⽤的(Specialized):只收集⽤于某⼀特定⽤途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。
按照语料的采集单位,语料库⼜可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平⾏(对齐)语料库和⽐较语料库,前者的语料构成译⽂关系,多⽤于机器翻译、双语词典编撰等应⽤领域,后者将表述同样内容的不同语⾔⽂本收集到⼀起,多⽤于语⾔对⽐研究。
语料库建设中涉及的主要问题包括:(1)设计和规划:主要考虑语料库的⽤途、类型、规模、实现⼿段、质量保证、可扩展性等。
(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、⽂本描述,以及各类语料的⽐例以保持平衡性等。
(3)语料的加⼯:包括标注项⽬(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加⼯⽅式。
(4)语料管理系统的建设:包括数据维护(语料录⼊、校对、存储、修改、删除及语料描述信息项⽬管理)、语料⾃动加⼯(分词、标注、⽂本分割、合并、标记处理等)、⽤户功能(查询、检索、统计、打印等)。
当代汉语文本语料库分词、词性标注工作报告项目名称:中文语料库建设子项名称:分词词性标注语料库承担单位:山西大学计算机科学系负责人:杨尔弘分词词性标注语料库是进行汉语信息处理的重要基础资源。
而语料库所采集的数据、分词词性标注的规范、加工过程的规范性以及相应的语料库管理系统从本质上决定了语料库的质量、代表性、复用性以及提供的信息的可靠性。
2002年10 月,我单位承担了中文语料库建设的子项目:分词与词性标注语料库的研制任务。
按照研究目标:建成带有完整词类标记的当代汉语通用语料库。
选取了2002年媒体上流通的文本,力求表现当代语言的最新面貌。
针对信息处理的特点,研究确定了本次加工的规范,按照规范采用人机结合的方法,加工完成了500万汉字语料的分词、标注任务,并对歧义切分、未登陆词语(专有名词与普通新词语)、兼类词进行了全面的检验。
经过近一年的工作,按计划完成了课题的任务。
我们主要进行了如下的研究工作:1.完成了500万语料的收集、整理、分类工作。
2.研究制定了符合信息处理用的汉语分词与词性标注规范。
3.按照加工规范,全面审核了支持自动分词和自动词性标注的词表。
4.开发了人工校对的辅助系统,对自动分词和词性标注的结果进行了全面的人工校对。
5.对语料库加工中的难点问题进行了收集、分析,确定了下一步的研究内容1.500万语料的收集、整理、分类工作我们首先进行了语料的收集、选择、分类、预处理。
1)语料选材原则·力求反映当代汉语的最新面貌。
·从主题、体裁、来源三个方面综合考虑·以自然段落为准,而不是以文章长度为准。
避免选取过长或过短的文章,但在选取文章后,随自然段截取样本。
这样作可以得到较完整的语言信息的内容。
2)语料来源语料来源于电子报刊、电子杂志以及杂志的电子版·文学网站·普通网站·特选专题3)抽样原则与方法·抽样原则时间性:2002年流通的文本普遍性:传播率较高,流通时间较长的文本完整性:2000字以下全篇采用,其余按比例、按自然段截取。