常见语料库使用入门

格式：ppt
大小：4.91 MB
文档页数：8

下载文档原格式

/ 8

语料库基础知识

/yingyong/courses/corpusbase.htm语料库研究与应用综述语料库研究与应用综述一概述语料库通常指为语言研究收集的、用电子形式保存的语言材料，由自然出现的书面语或口语的样本汇集而成，用来代表特定的语言或语言变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。

人们通过语料库观察和把握语言事实，分析和研究语言系统的规律。

语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。

有人曾经把语料库分成四种类型：（1）异质的（Heterogeneous ）：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的（Homogeneous ）：只收集同一类内容的语料；（3）系统的（Systematic ）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的（Specialized ）：只收集用于某一特定用途的语料。

除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual ）、双语的（Bilingual ）和多语的（Multilingual ）。

按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。

双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。

语料库建设中涉及的主要问题包括：（1）设计和规划：主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

（2）语料的采集：主要考虑语料获取、数据格式、字符编码、语料分类、文本描述，以及各类语料的比例以保持平衡性等。

（3）语料的加工：包括标注项目（词语单位、词性、句法、语义、语体、篇章结构等）标记集、标注规范和加工方式。

专业的语料库分析方法

专业的语料库分析方法语料库是语言学和计算语言学中非常重要的研究资源，它是一种大规模的语言数据集合，通过对其中的文本进行分析，可以揭示语言使用的规律和特点。

本文将介绍一些专业的语料库分析方法，以帮助读者更好地理解和利用语料库进行研究。

一、语料库获取与构建语料库的获取是进行语料库分析的第一步。

目前，常见的方式包括手动构建语料库和利用自然语言处理技术从互联网上抓取文本数据。

手动构建语料库需要多人合作，通过收集、整理和标注文本数据，构建一个具有代表性的语料库。

这种方式对数据质量要求较高，但可以获得更加精细和专业的语言资源。

另一种方式是利用自然语言处理技术从互联网上抓取文本数据构建语料库。

这种方式可以获取大规模的文本数据，但需要对数据进行清洗和预处理，以确保数据的准确性和一致性。

二、语料库标注与注释语料库中的文本数据需要进行标注和注释，以便后续的分析和研究。

常见的语料库标注方法包括词性标注、句法分析、命名实体识别等。

词性标注是将每个单词与其所属的词性进行对应，句法分析则是分析句子的结构和成分。

命名实体识别可以识别出文本中的人名、地名、机构名等实体。

通过标注和注释，可以使语料库的数据更加有结构和可利用，为后续的分析提供基础。

三、语料库查询与分析语料库的查询和分析是通过提出特定的问题或假设，从语料库中获取相关的语言数据，并进行统计分析和语言学研究。

常见的语料库查询方法包括关键词查询、语境查询和词汇共现分析。

关键词查询可以指定一个或多个关键词，从语料库中检索包含这些关键词的文本。

语境查询则可以指定一个词的上下文环境，寻找与该词相关的语言现象。

词汇共现分析可以通过统计某个词与其他词之间的共现频率，揭示词汇之间的语义关系。

通过语料库查询和分析，可以得出一些关于语言使用规律和特点的结论，为语言研究和自然语言处理技术的发展提供依据。

四、语料库分析的应用领域语料库分析方法在多个领域具有广泛的应用。

下面简单介绍几个主要的应用领域：1. 语言学研究：语料库分析为语言学提供了大量真实的语言数据，可以揭示不同语言现象的规律和特点，如词汇使用频率、句法结构、语义关系等。

语料库学习资料

Use corpus to improve EFL TG.
Find larger amount of examples for tg. points Find out sequence of tg. points in different level of textb. Identify important features of tg. points for demonstration Develop multi-moful data from 黄皮书语料免费下载网址： /download/gzenglish/yuliao.zip 《入门》书光盘 …4u\教材语料在线检索
Whole book download from:
…4u\corpus & grammar\natural grammar
Case demon: plain sailing
For detail: 何安平，2010，语料库的“教学加工”发展综述 [J] 中国外
语
Observe & analyze concordances(2)
Look for attitude or pragmatic selection Case of “CAUSE” in 《入门》\Data\chapt.4\cause&lead Categorize of collocates into pragmatic category Form a pattern like “CAUSE + unpleasant things” Reflection on EFL teaching and learning How to use concordance to distinguish confusing words or phrases LOOK，SEE & WATCH in J book How to highlight feature(s) of gram. item or vocab. item in real use PLACE in S book

美国当代英语语料库(COCA)使用介绍

• 2.3 搜索在子语料库内(或之间)出现的频率 (或比较)(不同语域中的用法)
• 如在Fiction和Newspaper子语料库中passionate 后面可以跟任何名词的词及频率，分别如两图 (2.3-1和2.3-2)。
图2.3-1
图2.3-2
COCA主要功能（三）
• 但是也可以之间对两者子语料库中它们出现频率的对比，操作：分别选择section 1&2,如下图(图 2.3-3)：
• 例1. 输入单词“mysterious” (图2.1.1-1)：得到相关结果(图2.1.1-2)：在各子库中的频率，每百万词使用的频率。 • 若对图2中的相应条块进行点击，那么就可以看到 KWIC，如图2.1.1-3 (以点Fiction的条块为例)：
图2.1.1-1
图2.1.1-2
使用CHART显示
COCA主要功能（二）
• 如:跟在 “smile前面的形容词” （图2.2-2）
规则：在words里输入: smile.[n*]，表示作为名词的smile；在collocates里输入: [aj*]表示其前后出现形容词的语境。
Confidence前使用的形容词图2.2-3
COCA主要功能（三）
COCA主要功能（四）
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如：近义形容词hot和warm后面所跟名词的区别（如图2.4.1）：
图2.4.1
规则：在words的方格里分别输入hot和warm，再在collocates 方框里输入[nn*],表示后面所跟任何名词。当然也可以比较在某个子语料库中出现的频率比较。
POS LIST

verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have

BNC语料库使用说明ppt课件

图2.4.3-3
37ቤተ መጻሕፍቲ ባይዱ
38
39
40
BYU-BNC词性附码的使用
1)查询多义词特定的词性，如for 2)某个词前/或者后面特定词性的若干搭配
词，如confidence 前的形容词 3)词性附码放置的位置 Words或者context处
41
将BNC KWIC制作成mini text
10
图2.1.2-1
•规则：输入名词的话用正则表达式: [n*]；动词: [v*]; 形容词: [aj*]; 副词: [av*]……
11
图2.1.2-2
White+名词的短语
12
2.1.3 输入通配符(wildcards)，如分别输入 un*ly和r?n*，结果如图2.1.3-1和.2.1.3-2
如在Fiction和Newspaper子数据库中 passionate后面可以跟任何名词的词及频率，分别如两图(2.3-1和2.3-2)
26
图2.3-1
图2.3-2
27
但是也可以之间对两者子语料库中它们出现频率的对比，操作：分别选择section 1&2,如下图(图2.3-3)：
28
34
2.4.3 搜索近义词如：搜索beautiful的所有近义词（如图
2.4.3-1）
规则：在words的方格里输入[=beautiful]，表示和beautiful语义相近的所有形容词。
35
再如：搜索动词clean的所有近义词，如下图：
图2.4.3-2
36
当然可以进一步搜索与clean语义相近的动词+the+名词的词组，[[=clean]].[v*] the [n*] 如下图：

常见语料库使用入门

8
公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC)：/ 03.美国当代英语语料库(COCA)：/ 04.美国近当代英语语料库(COHA)：/coha/ 05.英国国家语料库(BNC)：/bnc/ 06.柯林斯英语语料库(BOE)：/wordbanks/ 07.英国英语语料库(SEU)：http: ///english-usage/ 08.澳大利亚英语语料库（ACE）：http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC)：http: ///
词性标记句法标记词义标记篇章指代标记韵律标记 ……
材料/工具准备阶段
若只是要词频数据，则生语料库足够， word/wps或txt记事本都可以建立word/wps 的“查找替换”工具即可， txt记事本的“编辑-查找”工具也行。
生语料库加工标注
熟语料库
“宏”
39
个人语料库创建
生语语料库
熟语语料库
3
语料库及其分类
第二节公共语料库检索
4
公共语料库检索
统计频率
基于检索
查找例句
参数设置
带着问题
收集证据
验证分析
5
公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料：.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献：.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库：http://124.207.106.21:8080/ 04.国家语委现代汉语语料库：/retrieval/index.html 05.树图数据库：.tw/ 06.语料库语言学在线： 07.北京大学CCL语料库：/Yuliao_Contents.Asp

王陆语料库用法

王陆语料库用法
王陆语料库（Wanglu Corpus）是一个面向中文自然语言处理任务的大规模语料库，由复旦大学计算机科学技术学院王宇教授团队创建和维护。

该语料库包含了来自不同领域和来源的中文文本，可用于词法分析、句法分析、语义分析、情感分析等多种自然语言处理任务的研究和开发。

使用王陆语料库的一般步骤如下：
1. 下载语料库：可以通过复旦大学计算机科学技术学院王宇教授团队的官方网站或相关科研平台下载王陆语料库。

2. 数据预处理：根据具体任务的需求，对语料库进行预处理操作，如去除标点符号、转换为小写、分词等。

3. 数据划分：将语料库按照一定比例划分为训练集、验证集和测试集，以便进行模型训练和评估。

4. 特征提取：根据任务需要，从语料库中提取出合适的特征，如词频、词向量、句法结构等，作为模型输入。

5. 模型训练与评估：根据任务的不同，选择合适的机器学习或深度学习模型，并使用训练集进行模型训练和参数调优，然后使用验证集进行模型选择和调整，最后使用测试集评估模型的性能。

6. 应用与优化：将训练好的模型应用到实际场景中，根据具体应用需求进行优化和改进。

需要注意的是，王陆语料库是一个研究资源，使用时需遵守相应的使用协议和版权规定。

此外，根据任务的具体需求，还可以结合其
他的语料库和工具进行进一步的数据处理和模型开发。

语料库基本知识

.
6
计算语言学
◦ “计算语言学是研究用机器来处理自然语言的学科。它是由信息技
术和语言学交叉而成的”（CuS：1）。SLP没有直接提出计算语言学的确切定义。SLP的作者在开篇借用了Stanley Kubrick科幻片中的人物HAL，HAL是一个通晓英语的机器人。作者引入HAL的目的在于说明，为了构建这样一个可与人通过自然语言进行交流的机器人，需要哪些知识和技术：语言理解方面有语音识别和自然语言理解（包括唇读技术），表达方面需要自然语言生成和语音合成，另外HAL也需要信息检索、信息提取和推理方面的技能。而解决这些问题一般涉及以下学科：自然语言处理，计算语言学，语音识别和合成。SLP的作者将这三者合起来称为语音及语言处理，除了以上HAL所用的这些技能外，SLP也囊括了其他重要的语言处理领域，如：拼写校正、语法检查和机器翻译。
.
42
语言设定
.
43
.
44
(如逗号、句号等) 包括在内，但这一点有例外，如数字3.1415925 和整数的千分位分隔符(如100，000) 中的逗号等。
为了便于统计，对英语进行分词时通常在以上我们所说的“ 形符” 后加空格，使得他们与文本中的其他形符或符号分离开来。
.
11
类符(type)作为一个统计量，指语料库文本中任何一个独特的词形(word form)。换言之，在一个文本中，重复出现的形符只能记作一个类符。
◦ 都可以对语言学的语音、词汇、句法和语义等层面进行
统计和研究。
.
8
联系： ◦ 统计语言学和计量语言学都是利用统计方法来实现对语言成
分的统计，计量语言学以发现语言成分或语言成分间的数学规律为目标。而统计语言学以所统计的语言特征在统计学上显著和不显著为目标。

BNC语料库使用说明ppt课件

编辑课件
23
如跟在 “smile前面的形容词” （图2.2-2）
规则：在words里输入: smile.[n*]，表示作为名词的smile；在context里输入: [aj*]表示其前后出现形容词的语境。
编辑课件
24
Confidence前使用的行用词图2.2-3
编辑课件
25
2.3 搜索在子语料库(register)内(或之间) 出现的频率(或比较)(不同语域中的用法)
得到的结果都是white后面跟的名词短语 (图2.1.2-2)，检索表达式为：white [n*]
编辑课件
10
图2.1.2-1
•规则：输入名词的话用正则表达式: [n*]；动词: [v*]; 形容词: [aj*]; 副词: [av*]……
编辑课件
11
图2.1.2-2
White+名词的短语
编辑课件
如在Fiction和Newspaper子数据库中 passionate后面可以跟任何名词的词及频率，分别如两图(2.3-1和2.3-2)
编辑课件
26
图2.3-1
图2.3-2
编辑课件
27
但是也可以之间对两者子语料库中它们出现频率的对比，操作：分别选择section 1&2,如下图(图2.3-3)：
编辑课件
16
图2.1.4-1
规则：若要得到某个单词的所有单复数和时态形式，那么就要在输入时，在这个单词外加 [ ]。
编辑课件
17
图2.1.4-2
形容词early的圆形，比较级和最高级三种形式一次性检索出来检索
编辑课件
18
2.1.5 输入某种词性且部分带有某些字母的命令，如要得到以un-开头、-ed结尾的所有形容词的所有形式（见图 2.1.5-1 ）和得到动词 + 任何词 +ground的所有词组（见图2.1.5-2）:

国家语委语料库使用方法

吃+<10+(!大+<>)亏
表示查询任意词类的 “吃” 与任意词类的 “亏” 共现的例句，且两词之间距离小于 10 个词，同时 “亏” 前任意距离内不出现任意词类的 “大”；
就+<>+吃+<10+(!大+<>)亏
表示查询任意词类的 “就” 与任意词类的 “吃” 及任意词类的 “亏” 共现的例句，且 “就” “吃” 两词之间距离为任意距离，“吃” “亏”
动词词类的 “吃” 要在检索出的例句中出现，同时 “吃” 前 3 个词之内有副词词类的 “不” 的例句不包括在检索出的例句中。
ｃ．共现项(距离限制项+!共现项)；吃/ｖ(<3+!不/d)
ｄ．(!共现项+距离限制项)共现项(距离限制项+!共现项)； (!不/d+<3)吃/ｖ(<3+!不/d)
2. 查询表达式的组成
注意： ?表达式中没有空格； ?表达式结束处没有回车； ?表达式中所有的非汉字符号都是英文半角符号； ?请不要在表达式中随意插入空格或者换行符或使用全角英文符号；
注意：共现词之间必须有距离限制项，至少是 “<>”（表示不限制距离），如果不写距离限制项（如：“吃+亏”）将导致表达式书写错误，无法查询。
2. 查询表达式的组成
（４）简单表达式 : 由共现项和不共现项组成ａ．共现项；ｂ．(!共现项+距离限制项)共现项；ｃ．共现项(距离限制项+!共现项)；ｄ．(!共现项+距离限制项)共现项(距离限制项+!共现项)；

小绿鲸语料库使用方法

小绿鲸语料库使用方法1. 嘿，你知道吗？小绿鲸语料库的使用方法超简单的呀！就像你打开手机找联系人那么容易呢！比如说，你想找关于美食的语料，直接在搜索框里输入“美食”，哇塞，相关的各种精彩内容就都出来啦！是不是很神奇呀？2. 哎呀呀，小绿鲸语料库用起来可太方便啦！好比你在茫茫大海里找宝藏，一下子就找到你想要的啦！当你写文章卡壳的时候，去小绿鲸语料库里找找灵感，这不就跟口渴了马上能喝到水一样爽嘛！你还不赶紧试试呀？3. 哇哦，小绿鲸语料库的使用方法真的是傻瓜式操作呀！就像走路一样自然轻松。

比如说你要引用一些名言警句，进去一搜，嘿，全有了，这多牛啊！你想想，是不是能省好多事儿呢？4. 嘿哟，小绿鲸语料库呀，那简直是个大宝库！这就好比你有了一个万能钥匙，啥门都能打开。

你写作文找不到合适的词句，在小绿鲸里搜搜，我去，立马就有了呀，这也太赞了吧！5. 哇，小绿鲸语料库的厉害之处你可一定要知道呀！它就像你的贴心小助手一样。

举个例子，你想知道某个专业术语的解释，到小绿鲸里一查，得嘞，清楚明了，这多棒呀，你不会还没试过吧？6. 哈哈，小绿鲸语料库的用法可太有意思啦！就像在一个超级大的图书馆里找书一样。

当你需要一些具体的数据来支持你的观点，去小绿鲸里翻翻，嘿，这不就有啦，神奇不？7. 哎呀妈呀，小绿鲸语料库用起来真绝了！这就跟你找到宝藏地图一样。

比如说你参加一个演讲，需要一些精彩的开场白，去小绿鲸里搜搜呀，保证让你惊艳全场，是不是很心动呀？8. 哇噻，小绿鲸语料库，那可是个好东西呀！就好像有个魔法口袋，啥都能变出来。

你写故事不知道怎么编情节了，去小绿鲸里看看别人的创意，哇，灵感爆棚啦，赶紧去用用看呀！9. 总之呀，小绿鲸语料库真的超好用，使用方法也不难，就是这么直接简单！不试试可就亏大啦！它能给你的学习和工作带来超多便利和惊喜呢，一定要用起来哦！。

英语语料库

PRJ texb: (82, 75% are in) • Come on/in (26%) • COME + to/from + Splace (27%) • COME + and + do sth. (12%)
SRJ texb : (235, 61% are in) • COME + to (28%) – ~ to do sth.(32%) – Noun (68%) • ~ to +abstract N. (27%) – conclusion,end, life agreement, power, JRJ texb: (89, 63% are in) • COME + from +N phrase (13%) • COME + to (38%) • COME + Prep (20%) – ~ to splace (79%) – across, out, back, over,into – ~ to do sth (21%） ... • COME up with (idea) (14%) • COME + and do sth (11%) • COME + *ing (3)crowing, dashing...
Research Concordance by Antconc
• Setting search term（P23– Data: 同前， – Search Term: COME – Single item, multi item, item with *, item with _tag • come|comes|came|coming, • com*, come * a, came_v* *_vbg • Highlighting and observing results – Kwic Sort: level 1-3, ?R, ?L • highlight come’s 1R, 2R, 3R – Collocate list • List COME’s 1R wordlist – Cluster list • 4 word list wites of CL

COCA语料库操作演示.ppt详解

• 2.1.5 输入某种词性且部分带有某些字母的命令，如要得到以un-开头、-ed结尾的所有形容词的所有形式（见图 2.1.5-1 ）和得到动词 + 任何词 +ground的所有词组（见图2.1.5-2）:
• 规则：若要得到某种词性且词中带有部分带有某些字母的形式时，如要得到以un-开头、-ed结尾的所有形容词的所有形式，那么输入: un*ed.[aj*]；若要得到动词+任何词+ground的所有词组,那么输入: [vv*]*[ground]即可。前者用来研究词汇，后者用来查询特定词性的搭配。
• 2.1.4 输入lemma（即一个单词的单复数、时态等所有形式），若要得到sing这个单词的所有形式，可以如下图所示（图2.1.4-1）
Hale Waihona Puke 图2.1.4-1规则：若要得到某个单词的所有单复数和时态形式，那么就要在输入时，在这个单词外加 [ ]。
图2.1.4-2
形容词early的原形，比较级和最高级三种形式一次性检索出来检索
• 2.1.1 输入单词“mysterious” (图2.1.1-1)： • 得到相关结果(图2.1.1-2)：在各子库中的频
率，每百万词使用的频率
• 若对图2中的相应条块进行点击，那么就可以看到KWIC，如图2.1.1-3 (以点Fiction的条块为例)：
图2.1.1-1
图2.1.1-2
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出现频率的对比，操作：分别选择section 1&2,如下图(图2.3-3)：
图2.3-3
• 2.4 进行语义倾向比较

语料库入门

热烈欢迎来自全国各地的老师们！
语料库入门
OUTLINE
1.
基本概念 2. 著名网络语料库 3. 常用软件
Corpus(语料库，尸体): (pl. corpora or corpuses): a collection of text, now usually in machine-readable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation（标注）. 按照一定的采样标准采集而来的、能代表一种语言或者某语言的一种变体或文类的电子文本集。
在口语中，start更常用。
语料库的方法基于真实的语言
使用情况，事实胜于雄辩
我们通过对语料库的检索结果进行分析，可以找到很多问题的答案，例如： “学知识”在英语中是“study knowledge”吗？ “快速导航”翻译成“fast guide”对不对？ “只为点滴幸福”这句广告语，对应的英文翻译是“Little happiness matters.”吗？为何“The bad weather set in on Monday.”是正确的，但“The good weather set in on Monday.”却是错误的？
熟语语料库
语料库语言学常用术语
Types

of corpora
General corpus通用语料库 Annotated标注 corpus: a corpus enhanced with various types of linguistic information (or tagged corpus). An annotated corpus may be considered to be a repository of linguistic information, because the information which was implicit in the plain text has been made explicit through concrete annotation (“added value附加值”).

常用语料库软件的应用

用于辅助翻译，就可以采用句对齐。而要用于翻译研究，就需要考虑段落层面的语言使用信息，如衔接、话语标记等。对齐软件有很多，CAT类软件、Paraconc、专门软件。
双语语料的对齐: 方式和方法-2
• 初始对应: 源语、目标语文本段对齐，word下完成校对。这一步最重要。
• Paraconc可以考虑添加s标记。 • 对齐: 软件对齐。如aligner，paraconc；Trados，
OmegaT • Trados商业使用最为广泛 • Déjà vu易操作 • Omega T免费，更易操作，但只能单用不能基于
web
微型教学语料库的创建和使用
• 建库目的和内容
o 针对学生翻译习作 o 反映学生个体和总体特征 o 翻译技巧和翻译评估相结合 o 提取信息方便 o 易于操作
• 使用Excel基本满足此类要求
序的headadder，txtmarker。其实除噪是执行一些替换性的操作（see next slide）
语料文本的基本处理: 主要处理方式-4
• $line=~s/\s\n/\n/g; #matching and replacing all • $line=~s/(.)\n/$1 /g; #matching and replacing all • $line=~s/[\r\n]/##/g; #matching and replacing all • $line=~s/\*//g; #matching and replacing all • $line=~s/^\s*$//g; #matching and replacing all • $line=~s/\\s{0,}/\s/g; #matching and replacing all • $line=~s/\\s\n/\n/g; #matching and replacing all • $line=~s/\Z\n/##/g; #matching and replacing all • $line=~s/ +/ /g; #replace more whitespaces with just one • $line=~s/\s+(#{2,})/$1/g; #matching and replacing all

语料库的三大功能

我想有些亲可能并不是学英语的，需要处理中文的语料库，所以我就把Anthony的AntConc 的使用手册翻译了一下，没有全部，只是某些功能的使用步骤，版本是AntConc3.2.1w(windows)20071.索引工具（concordance)使用步骤1）从file菜单的open file 或open dir选择一个或多个要处理的文件，选出来的文件按顺序在主窗户的左边框里显示出来。

2）在左边search term下的输入框里输入一个搜索词3）使用右边"Search Window Size"的按钮条的增加和减少按钮来选择在搜索词两边显示的字符数。

4）按“Start”键开始产生索引行的检索结果。

检索过程中可按“stop"键随时停止检索。

5）使用Kwic Sort下的按钮条选择一个目标词来重排索引行，0是搜索词，1L，2L是搜索词左边的第一，第二个单词，1R，2R是搜索词右边第一，第二个单词。

注意，三级分类均可，软件刚启动时，二三级未选择。

6）按“Sort”键开始分类处理。

7）将指针移到其中一个索引行的突出的搜索词之上，系统默认为蓝色，与前一项分类得出的目标词不一致，是最开始的搜索词。

指针会转变成一个手形的图标。

点击突出的搜索词，可以使用户看到搜索词在原文中出现的情况。

见“File View"工具。

今天让我们来了解一下什么是语料库。

同样，为了让大家容易理解，我先不准备用专业术语。

可以这样理解，语料就是语言材料的集合。

学外语的同行通常少不了要给人翻译东西，有时候我们可能会碰到我们从来没有遇到过的东西，比如，广告或者说明书。

这时候，我们真希望有类似的用目的语写成的广告或者说明书在手头，我们可以参考，起码我们知道这种广告或者说明书该如何措辞，还有这种广告或者说明书的文本结构方面的特征。

我们可以把收集到的这些文本集合看做是简单的语料库。

所以，语料库本质上就是一文本集合。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

三点基本认识：
A.必须是实际使用中真实出现过的语言材料；
B.须以计算机为必要载体；
C.材料分析加工后才有用。
2021/3/7
CHENLI
4
2 语料库及其分类
语料库
按用途
按时效性
按语体
按语种
按是否母语
按是否被标注
通专用用语语料料库库
2021/3/7
共历时时语语料料库库
书口面语语语语料料库库
2021/3/7
CHENLI
11
8 公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC)：/ 03.美国当代英语语料库(COCA)：/ 04.美国近当代英语语料库(COHA)：/coha/ 05.英国国家语料库(BNC)：/bnc/ 06.柯林斯英语语料库(BOE)：/wordbanks/ 07.英国英语语料库(SEU)：http: ///english-usage/ 08.澳大利亚英语语料库（ACE）：http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC)：http: ///
2021/3/7
CHENLI
10
7 公共语料库检索
我国21个知名语料库
15.浙江师范大学的历史文献语库:/xueke/hyywzx/xkjj.htm 16.中科院计算所语料库：/corpus/query_process.php 17.中文语言资源联盟：/xyzy.htm 18.SKETCHENGINE多语言语料库： 19.LIVAC共时语料库：/ 20.红楼梦汉英平行语料库：/hongloumeng/ 21.北京语言大学BCC语料库：/
CHENLI
带着问题收集证据
8
5 公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料：.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献：.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库：http://124.207.106.21:8080/ 04.国家语委现代汉语语料库：/retrieval/index.html 05.树图数据库：.tw/ 06.语料库语言学在线： 07.北京大学CCL语料库：/Yuliao_Contents.Asp
PPT背景图片：/beijing/ PPT图表下载：/tubiao/
优秀PPT下载：www.1p pt.co m/ xiazai/
PPT教程： /powerpoint/
Word教程： /word/
Excel教程：www.1ppt.c om/excel/
主要部分
第一节
语料库及其分类
第二节
公共语料库检索
2021/3/7
第三节
个人语料库创建
CHENLI
2
2021/3/7
第一节语料库及其分类
CHENLI
3
1 语料库及其分类
语料库(corpus)：存放语言材料的仓库。
现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本的汇集。
单双多
语语语
语
/
语
料平料
库行库
语
料
库
CHENLI
母外语语语学料习库者
语料库
生熟语语语语料料库库

3 语料库及其分类
2021/3/7
CHENLI
6
2021/3/7
第二节公共语料库检索
CHENLI
7
4 公共语料库检索
基于检索
2021/3/7
统计频率
参
查找例句
数
设
置
验证分析
资料下载：www. 1ppt.co m/zilia o/
PPT课件下载：www.1p pt.co m/ kejian/
范文下载：www. 1ppt.co m/fan wen/
试卷下载：www.1ppt.c om/shiti /
教案下载：www. 1ppt.co m/jiao an/
PPT论坛：www.1ppt .cn
2021/3/7
CHENLI
9
6 公共语料库检索
我国21个知名语料库
08.北京大学《人民日报》标注语料库： 09.北京语言大学的语料库：/kych/H.htm 10.清华大学TH-ACorpus：/ainlp/source.htm 11.山西大学语料库：/homepage/cslab/sxuc1.htm 12.台湾南岛语典藏：.tw/Formosan/ 13.闽南语典藏：.tw/ 14.香港城市大学LIVAC共时语料库：/search.php
常见语料库使用入门
——语言研究中的小技能get√
华中师范大学语言研究所2015级秦志君
2021/3/7
CHENLI
1
0 PPT模板下载：/moban/ 行业PPT模板：/hangye/
节日PPT模板：www.1p pt.co m/ jieri/
PPT素材下载：/sucai/

常见语料库使用入门

合集下载

语料库基础知识

专业的语料库分析方法

语料库学习资料

美国当代英语语料库(COCA)使用介绍

BNC语料库使用说明ppt课件

常见语料库使用入门

王陆语料库用法

语料库基本知识

BNC语料库使用说明ppt课件

国家语委语料库使用方法

小绿鲸语料库使用方法

英语语料库

最新常用在线语料库使用简介PPT课件

COCA语料库操作演示.ppt详解

语料库入门

常用语料库软件的应用

语料库的三大功能

文档推荐

最新文档

常见语料库使用入门

合集下载

语料库基础知识

专业的语料库分析方法

语料库学习资料

美国当代英语语料库(COCA)使用介绍

BNC语料库使用说明ppt课件

常见语料库使用入门

王陆语料库用法

语料库基本知识

BNC语料库使用说明ppt课件

国家语委语料库使用方法

小绿鲸语料库使用方法

英语语料库

最新常用在线语料库使用简介PPT课件

COCA语料库操作演示.ppt详解

语料库 入门

常用语料库软件的应用

语料库的三大功能

文档推荐

最新文档

语料库入门