大数据背景下BCC语料库的研制_荀恩东
- 格式:pdf
- 大小:1.52 MB
- 文档页数:18
“HSK动态作文语料库”说明1“HSK动态作文语料库”是由北京语言大学崔希亮教授主持的一个国家汉办科研项目。
项目编号为:HBK01-05/023。
2“HSK 动态作文语料库”是母语非汉语的外国人参加高等汉语水平考试(HSK 高等)作文考试的答卷语料库,收集了1992-2005 年的部分外国考生的作文答卷。
语料库1.0 版收入语料10740 篇,约400 万字,于2006 年12 月下旬上网试运行。
经修改补充,语料库1.1 版语料总数达到11569 篇,共计424 万字。
3语料库提供给用户的作文语料有两种版本:标注语料和原始语料。
标注语料是把考生作文答卷人工录入电脑并经人工标注各种中介语偏误的语料,原始语料指的是考生原始作文的电子扫描语料。
4作文语料的加工处理包括下列内容:(1)字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、漏字标注、多字标注,以及各种用字错误统计,总的字频统计等。
(2)标点符号处理:包括错误标点标注、空缺标点标注、多余标点标注,以及各种相关统计。
(3)词处理:包括错词标注、缺词标注、多词标注、外文词标注、离合词错误标注,以及各种用词错误统计,总的词频统计等。
(4)句处理:包括句子成分残缺或多余的错误标注,各种特殊句式的错误标注,语序、动词重叠、句式杂糅、未完句等方面的错误标注,以及各种句子错误的数据统计。
(5)篇章处理:包括句间连接手段的错误标注,语义表达方面的错误标注,以及篇章错误的数据统计。
为了方便用户更充分地使用这些作文语料,语料库还提供了历次考试的时间、地点和作文题目,以及下列考生信息:考生国籍、性别、作文分数、口试分数、客观试卷中听力、阅读、综合表达各部分分数和参加高等汉语水平考试的总分分数、是否得到汉语水平证书以及证书等级。
5本语料库在建设过程中,特别注重语料的真实性与平衡性,标注的全面性与科学性,软件系统的方便性与快捷性。
6本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库。
对外汉语教师备课找例句:一站即可语料库是对外汉语教师必不可少的好帮手,可以帮老师筛选例句、进行词汇对比、查看学生偏误。
今天的教程就是教对外汉语的老师们如何用目前全球最大的汉语语料库BCC来备课。
教程包含两个部分,其一是介绍BCC,其二是介绍BCC用法。
什么是BCC一BCC(BLCU Chinese Corpus)北京语言大学现代汉语语料库,总字数约150 亿字,是目前最大的汉语语料库,没有之一,语料多得让人兴奋。
简单说说它的特点吧,用四字概括,大、多、久、强。
怎么有点老司机上路的感觉。
哈哈。
1. 大字数规模大,150亿字的容量可以全面反映当今社会语言生活。
2. 多涵盖语体多,不同于以书面语体为主的CCL,BCC涵盖报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料。
3. 久时间覆盖久,报刊中部分语料可以追溯至1945年。
4. 强搜索模式强,我在玩这些功能时,感觉自己摇身变成码农。
是不是已经被提起兴致来啦?想知道怎么用?跟着老司机走。
备课时怎么用BCC一网站入口:BCC在汉语教师备课时候,我觉得主要有5大功能,其他功能还有待大家开发,文章末尾有BCC提供的检索式示例。
1词语辨析在备课时,特别是中高级汉语课程,由于学生词汇量较多,他们常常会拿以前学过的词和新词做对比。
老师可以用“[ ]”这个符号进行语料搜集,“[ ]”的功能可以理解为“或者”。
比如想辨析“不料”和“竟然”,那么在搜索栏里添加[不料竟然]即可,注意“[ ]”是英文符号。
下图就是结果,有“不料”的语料,也有“竟然”的语料,老师即可通过语料去分析词语的差别。
点击大图查看2词语例句在备课时,词语是重要部分,要找适合学生水平的例句一点都不容易,但是有了BCC,so easy!比如想找“舍不得”+动词的例句,可以在搜索栏输入“舍不得v”,结果如下图:点击大图查看还有更牛的,点击界面中的“统计”按钮,就可以穷尽式地查找“舍不得”到底可以和哪些动词一起连用,数字表示出现频次。
bcc语料库学术语言
bcc语料库是一个开放的学术语料库,用于研究领域内的语言学问题。
它包含了来自不同学科领域和语言背景的文章、论文、报告等学术文献,提供了大量的语言数据供研究者进行语言分析和研究。
bcc 语料库的数据来源广泛,包括了学术期刊、会议论文、学位论文等,覆盖了多个学科领域,如自然科学、社会科学、人文学科等。
其中,各类文章的单篇词数以万计,是一个非常宝贵的研究资源。
在研究语言问题时,bcc语料库可以帮助研究者进行定量分析和实证研究。
其丰富的语言数据不仅可以用于分析词汇、句法结构、语用等方面的语言问题,还可以用于研究各种语言现象,如语域、语言变体等问题。
更重要的是,bcc语料库的数据可以从多个角度研究同一问题,帮助研究者更全面地理解语言现象和规律,丰富我们对语言的认识。
然而,bcc语料库并不仅仅是一个语言数据的仓库,还是研究者共同探讨学术问题的平台。
在bcc语料库的网站上,人们可以通过在线交流和讨论,分享自己对语言问题的研究成果、见解和经验,从而促进彼此之间的学术交流和合作。
这为学术研究者提供了一个非常重要的交流平台,可以极大地促进学术研究的发展和进步。
综上所述,bcc语料库是一个非常宝贵的学术资源,对于研究不同领域的语言问题有着非常重要的作用。
通过分析bcc语料库的语言数据,研究者可以更全面地认识语言问题,并通过交流平台获得更多的学术研究成果和经验分享。
《殷虚文字丙编》图版捌捌词法研究陈莹(福建广播电视大学宁德分校,福建宁德352000)摘要:《殷虚文字丙编》图版捌捌卜辞是一条综合性卜辞,由八片碎甲缀合而成&本文通过对其进行词法分析研究,了解其语言使用情况&此图版共有七种词类,即名词、动词、形容词、数词、代词、副词、介词&其中名词使用频率最高,动词次之,副词第三&此图版名词的语法功能最全,作主语、宾语、定语、中心语、状语及受数词或数量词组修饰&关键词:殷虚文字丙编图版捌捌词法《殷虚文字丙编》是由乙编及其编余的甲骨拼兑、复原,重新传拓、编辑,加以考释而成的。
《殷虚文字丙编》图版捌捌在《甲骨文合集》中的编号为00376正*此版卜辞是一条综合性卜辞,内容主要涉及梦魇吉凶、疾病、祭祀、收成、生育等方面,由八片碎甲缀合而成。
笔者查阅黄天树《甲骨拼合集》《甲骨拼合续集》等相关书籍,暂无发现新的缀合情况*一、释文及译文乙丑卜,贞:甲子向乙丑,王梦,不隹I?隹又?一贞:甲(子)向乙丑,王梦牧石麋??。
一二贞:[王电]梦./余?一二贞:王梦余?一贞:其疾-一二三四五王隹,?一,?一贞:今般取于尻,王用,若?一贞:我受黍年?一其受黍年?一二贞:左三羌于宜,不左,若?一贞:王左三羌于宜,不左,若?二翌乙齟?一乙其?一乙層?一二告庚子卜,,,?-贞:,不其?-贞:于乙雷?一勿于来乙巳?一乙卜,贞:疾,其龙?一乙卜,贞:[疾/身其/?一[二][三]四五王曰:凤其,* -?-庚申卜,贞:于,:吉!!-贞:于,? -贞入人?-二乙丑卜,贞人:从甲子到乙丑这段时间,王梦的,?的助吗?问:从甲子到乙丑这段时间,王梦见自己追捕石地区的,?的?在。
问:王做梦喊“我要医治骨伤”?问:王做梦不喊“我要(医治)骨”?:王骨生病吗?祭,会不顺利吗?王祭,会不顺利吗?问:现在师般到尻地收取者贡,用(般尻收取者)?:我子的好收成?子的收成吗?:左边,,左,会顺:左,,左,第二天乙亥日天?第二天乙亥日天?未来的第一个乙要举行祷祭?子卜,贞人(问:),会生男孩吗?问:,不会生?:在的第一个乙祭?要在未来的第一个乙巳日举行祷祭吗?乙巳日占卜,贞人问:生病了,是 ?乙卜,贞:生病了,是 ?卜兆以说:风神说,在发生。
bcc语料库的使用心得1.引言1.1 概述概述部分的内容:引言部分是任何一篇文章的开端,通过对主题进行概括性介绍,让读者对整篇文章有一个初步了解。
在本文中,我们将讨论关于BCC语料库的使用心得。
BCC语料库是一个广泛应用于自然语言处理和文本挖掘的中文语料库。
它包含了大量的中文文本数据,涵盖了多个领域和主题,如新闻报道、社交媒体、网站论坛等。
这些文本数据的覆盖面广泛,并且涵盖了不同语言特点和文化背景,因此对于研究中文文本分析和语言模型的人来说,BCC 语料库是一个宝贵的资源。
本文的目的是总结我们在使用BCC语料库过程中的心得体会和经验教训。
我们将介绍BCC语料库的组织结构和数据格式,并探讨如何有效地利用这一资源进行文本分析和语言模型的训练。
此外,我们还将分享我们在使用BCC语料库过程中遇到的一些挑战,并提供一些解决方案和技巧。
在接下来的章节中,我们将系统地讨论BCC语料库的各个方面。
首先,我们将介绍BCC语料库的基本信息,包括数据规模、收录时间范围、来源等。
接着,我们将详细介绍BCC语料库的组织结构和数据格式,比如文档级别和句子级别的标注信息、文本分类和命名实体识别等。
其次,我们将探讨如何进行有效的数据预处理和清洗,以及如何进行数据的采样和划分。
最后,我们将分享一些使用BCC语料库进行文本分析和语言模型训练的实践经验,包括特征提取、模型选择和评估等方面的内容。
通过本文的阅读,读者将能够了解BCC语料库的基本情况,掌握其使用方法和技巧,并能够将其应用到自己的实际问题中。
希望本文能够为对中文文本分析和语言模型研究感兴趣的读者提供一些有价值的参考和指导。
文章结构部分的内容如下:1.2 文章结构本文主要包括以下几个部分:1)引言:介绍文章的背景和目的。
在这部分,我们将概述BCC语料库以及为什么使用它作为研究工具,解释本文的结构与目标。
2)正文:详细讨论BCC语料库的使用心得与体会。
在这部分,将介绍如何获取BCC语料库,详细解释其主要特点和用途。
北京语言大学bcc语料库
北京语言大学BCC语料库是由北京语言大学所建立的一个大型语料库,为中国学术界和研究者提供高质量、有效的研究资源,秉承中国传统文化,以深化研究和发展中文言语文字文化为目标。
北京语言大学BCC语料库主要收集和处理中国言语文化的多种资料,其中主要包括汉语口语、书面语、视听语、新闻报刊、网络文本、书刊著作等。
其收录的资料也涵盖了中国语言研究、文字文化研究、以及数字语言学等多种领域。
其一级数据库拥有超过100万条汉语句子,能够为中国研究学者提供规模极其完整的历史档案、语料资料和信息检索体系,极大地改善了中国古代档案研究条件,为在教育、科学研究等方面的新的发现打开了有力的新窗口。
BCC语料库的建设也极大地鼓舞了中国高等教育的发展,为中国教师和学生提供了良好的探究空间,也为中国的研究学者提供了更多深入研究中国文化、历史和社会的资源支持。
至今,这一庞大的语料库已经为学术界提供了大量数据支持,也为中国学术界提供了重要的翻译参考资料。
经过多年的发展,BCC语料库已经成为中国学术界的重要研究基础,也是数字语言学研究最优质的资料和信息库。
正是凭借这一完善的高质量数据库,BCC语料库得以不断完善和发展,也为中国研究学者、教师和学生带来了丰富多彩的资源。
语言文学研究基于语料库"为难#和"难为#的偏误分析及教学策略穆国韬(陕西师范大学国际汉学院,陕西西安710062)摘要:“为难”和“难为”是极易混淆的一组同素异序词,为了使汉语学习者区分清楚两个词的意义和用法,通过检索语料库,总结出汉语学习者使用两个词时易产生的偏误,并对这些偏误进行分析,提出一些教学建议。
关键词:为难难为语料库偏误一、引言“为难”和“难为”无论在汉语口语交际还是书面写作中都是常用的一组词,它们是一组同素异序词,即构成这两个词的两个语素书写顺序不同,且在用法上也有差异,汉语学习者如不能掌握这两个词的意义和用法,则极易对二者产生混淆$为了更好地总结汉语学习者在学习和使用“为难”和“难为”这组同素异序词时的偏误类型,本文对HSK动态作文语料库和暨南大学中介语语料库中包含“为难”和“难为”的句子进行了分析,总结了偏误类型,了一些教学,能偏误的生,汉语学带来一定的启‘$二、“为难”和“难为”的意义和用法“为难”在《新HSK词汇大纲》中属于六级词,在《汉语水平词汇汉大纲》中属于词,在上述两个词汇大纲中,“难为”。
本文为,在对汉语学中,“为难”和“难为”这两个词的教学及辨析一般处于中$在《汉语词典(六版)》中,对“为难”和“难为”的释分为:为难:①形容词,感到难以应付;②动词,作对或刁难[11$,“为难”是一个词动词的类词$难为:动词,①使人为难;②(了不容易的事);③,用于[1]。
可见“难为”是一个动词,有个不同的义$在语言大学BCC语料库中回“为难”,在文学类语料库下搜索出2143条结果,经过抽样,发现“为难”常用于:表1“为难”筛选条件结果总数占比副词”为难62129.0%动词”为难34316.1%为难的”名词27412.0%使/令/让/叫”名词/代词”为难2129.0%可以看出,“为难”在做形容词时,常受程度副词的修饰,通过检索“副词+为难”,得出621条结果$经统计,“很为难”“有点为难”“非常为难”为出现频率最高的三组搭配,占如下:表2副词难'为难”结果占比很为难1很条22.0%有点为难61条9.0%非常为难31条 3.4%“为难”常跟在动词后面形成“动词+为难”的结构,通过检索“动词+为难”,343条结,中的“为难”99,“为难”21条;“为难”语词,如“为难的子”;“为难”做动词时,用在语语中,如“让儿女为难”“叫我们为难”“令为难”,且否词"不”的$在BCC文学类语料库中对“难为”进行检索,共得出1622条结$,本文动词“难为”的两个义项意义相似,用于“词+难为+名词/代词”这一结构中,其中尤以“太/真是/真+难为++了”,如“这件太难为你了”;一个义和动词“为难”的意义相近,用法上否词的,如“不难为你”“难为他了”;但“难为”不可用于“使/令//叫++难为”这一结构。
《语料库研究》篇一一、引言随着信息技术和人工智能的快速发展,语料库研究已经成为了语言学、文学和人类学等领域内的一项重要研究手段。
语料库(corpus)即大量的电子文本资料,为我们提供了探究语言使用模式、词汇搭配、句法结构、语言变迁等重要问题的强大工具。
本文将围绕语料库研究的理论背景、研究方法以及在语言与文化领域的应用进行详细阐述。
二、语料库研究的理论背景语料库研究基于大量真实的文本数据,通过对这些数据的分析,我们可以获取关于语言使用的大量信息。
这些信息对于研究语言结构、语言演变、语言教学以及跨文化交际等方面具有重要的价值。
此外,语料库的多样性使得我们能够从不同角度、不同层面探究语言现象,为语言学和其他相关学科的研究提供了丰富的资源。
三、语料库研究的方法1. 语料库的构建:首先需要收集大量的文本数据,并按照一定的规则和标准进行整理和分类,构建成一个可供研究的语料库。
2. 数据处理:对语料库中的数据进行清洗和预处理,以便进行后续的分析和研究。
3. 统计分析:运用统计学和计算机辅助技术对数据进行处理和分析,提取出有用的信息。
4. 结果解读:根据分析结果,结合语言学、文学和人类学等相关知识,对结果进行解读和解释。
四、语料库在语言与文化领域的应用1. 语言结构研究:通过语料库分析,我们可以了解语言的词汇搭配、句法结构等语言特征,从而揭示语言的内在规律。
2. 语言教学:语料库可以用于语言教学,帮助教师和学生了解真实语言环境中的语言使用情况,提高语言学习的效果。
3. 文化研究:通过分析不同语料库中的文本数据,我们可以探究不同文化背景下语言使用的差异,揭示文化对语言的影响。
五、结论语料库研究作为一项重要的研究手段,已经广泛应用于语言学、文学和人类学等领域。
通过对语料库的深入研究,我们可以更好地了解语言的内在规律,揭示文化对语言的影响,为相关领域的研究提供有力的支持。
然而,语料库研究仍面临一些挑战,如语料库的构建、数据的处理和分析等。
2019年第1期(总第102期)海外华文教育OVERSEAS CHINESE EDUCATION No.12019General Serial No.102收稿日期:2017-06-12作者简介:李代鹏,云南民族大学助教。
Email :1032294493@qq.com感谢《海外华文教育》匿名专家的宝贵审查意见,文中不妥之处概由本人负责。
基于数据挖掘技术的汉语教学语料库建构李代鹏(云南民族大学应用技术学院,中国昆明653102)摘要:随着语料库语言学的兴起和发展,基于语料库进行的第二语言教学受到第二语言教学界的高度重视。
而在对外汉语教学界,并没有建立一个适应于汉语教学与学习需求的汉语教学语料库。
特别是随着数据驱动学习模式的产生,加之语料大数据时代的到来,促使个性化、需求型的汉语教学与学习成为成大数据时代外语教学或第二语言教学的必然趋势。
面对这一趋势,文章提出建构“汉语教学语料库”的基本设想。
汉语教学语料库的建构以汉语本体语料库和汉语中介语语料库为基础,以数据挖掘技术和可视化技术为支撑。
通过汉语教学语料库的建构,对于实现真正意义上的需求型、个性化学习具有重要的实践意义。
关键词:汉语教学语料库;数据挖掘;可视化;对外汉语教学中图分类号:H195文献标志码:A 文章编号:2221-9056(2019)01-0115-10DOI 编码:10.14095/j.cnki.oce.2019.01.014一、引言随着大数据时代的到来,教育生态化,个性化,多模态化已成为当代二语教学的新常态,为了实现高度自适应的个性化学习,营造具备生态性质的教学内容,教学方法,教学环境,以多模态的教学理念触发学习者的多元智能。
许多具备上述特点的二语学习软件与平台不断得到开发,其中最醒目的就是人工智能在第二语言教学中的应用。
顺应这一趋势,智能型计算机辅助第二语言教学的概念顺势而生,究其根本,其目的都是为了提升第二语言的教学效果。
在汉语作为第二语言的教学中,为提升汉语教学的效果,帮助学习者发展自主学习能力,趋向于生态化与个性化的教学模式,语料库在汉语教学中的运用,则成为大数据背景之下的一个重要手段。