北京语料库检索使用说明
- 格式:doc
- 大小:51.50 KB
- 文档页数:9
一关于CCL语料库及其检索系统(如果时间紧张,可直接跳到最后的举例部分!)1.1 CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CCL不承担由此产生的一切后果。
1.2 本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实。
1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。
1.5 检索系统以汉字为基本单位。
1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
2.1 特殊符号查询表达式中可以使用的特殊符号包括8个:| $ # + - ~ !:这些符号分为四组:Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下:(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1) | 相当于逻辑中的“或”关系。
(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数小于或等于Number(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。
国家语言资源监测语料库介绍何婷婷杨尔弘侯敏华中师范大学计算机科学系国家语言资源监测与研究中心网络媒体语言分中心北京语言文化大学国家语言资源监测与研究中心平面媒体语言分中心中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心2005年,教育部语言文字信息管理司开始和国内若干高校陆续联合建设语言资源监测中心,其中包括与北京语言文化大学共建的平面媒体语言分中心、与中国传媒大学共建的有声媒体语言分中心、与华中师范大学共建的平面媒体语言分中心。
这三个分中心分别建设了平面媒体动态流通语料库、有声媒体监测语料库、网络媒体监测语料库,它们共同构成国家语言资源监测语料库。
语料库包括网页、纯文本,并采用中科院自动化所的自动分词工具做了自动分词。
欢迎各界同仁共同开发、建设使用该语料库。
1、语料库现状1.1 平面媒体动态流通语料库(DCC)平面媒体语言分中心自2001年以来,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸的内容,作为平面媒体动态流通语料库的语料采集内容,目前,已经形成了近30亿字的语料库。
语料进行了元数据的标注、自动分词标注,语料库提供了生语料、分词标注语料的检索功能,并能够历时地查询词语使用的情况。
网址/。
根据网页栏目的分类体系,所有语料进行了分类。
类别包括15类:娱乐,游戏,文艺,体育,时政新闻_社会,时政新闻_军事,时政新闻_国内,时政新闻_国际,生活男女,汽车,旅游,科技,经济,教育,房产。
为实现语料库中的文本分类,建立了60万个文本的训练语料,语料规模约6亿字次。
1.2有声媒体监测语料库有声媒体语言分中心自2001年开始语料库的建设。
到目前为止,已建起一个多功能的、跨媒体的汉语传媒有声语言语料库。
每年以收视率为基本条件,综合考虑了“传播媒介(广播、电视)、媒体级别(中央、地方)、播出时间(黄金时间、非黄金时间)、节目样态(独白、对话、综合)、文本现存(是否有转写好的文本)”五个因素,采集了电台、电视台播出的有声节目的录音或录像及由其转写成的文本语料。
语料库使用方法
一、语料库的使用方法
1.登录语料库
首先在网站上登录语料库,根据自己的需要进行搜索,找到自己需要的语料库,然后将语料库添加到自己的收藏夹中。
2.访问语料库
然后可以通过在网站上进行搜索的方式来访问语料库,例如可以通过关键字来定位资源,还可以根据文档格式进行筛选,以及根据语料库的主题类型来进行选择。
3.下载语料库
在访问到语料库之后,可以将其下载到本地,根据语料库的下载格式可以进行转换,以更方便使用。
4.分析语料库
最后,在下载完的语料库中,可以进行文本分析,例如可以进行词频统计,情感分析,句法分析等,以更好地挖掘语料库的宝贵信息。
Homework for Introduction parthttp://211.69.132.28/ 检索的库为:introduction 子语料库语料库使用练习目标一:熟悉语步与词汇的对应关系;目标二:学习以扩展意义单位为基础的新语义观(核心词、搭配、类联接、语义倾向、语义韵);目标三:掌握有语言问题后如何查找相应答案的技能。
提交的作业文件名为:姓名+introduction提交的内容: 1. 在三个introductions,标注:1)M1, M2, M3;2)每个move的内容要点(用汉语);3)每个语步的经典句型划线,4)红颜色标注:语步1中的评价性形容词、语步2的转折连词(引出现有研究的问题),语步3中代表弥补现有研究不足的表达(如研究目的等)2. 回答表格中基于语料库检索的8个问题。
提交时间:周二上课的班级提交时间为周一晚9:30:提交给刘琴同学的QQ邮箱周三上课的班级提交时间为周二晚9:30 ,提交到周颖同学的QQ邮箱Direction :1.Download 3 introduction parts from 3 journal articles in your own professional fields. Identify the 3 moves of the introduction part and mark them respectively by M1, M2, M3.and point out the main point of each move inChinese in barckets. Mark evaluative adj.in M1(评价性形容词), disjunctive conj.(转折连词)in M2, and the expressions implying filling gaps, such as research purpose in M3 in red.Move1 : statements about the subjects. (M1), (main points :problems, background information, definition, importance ,etc) , Move2 : review of relevant studies(M2) (description & comments , point out the weakness of existing researches)Move3: introduction of the present study(M3)(purposes to fill the gaps, research focuses, questions, hypothesis,etc.)2.Underline the representative sentence patterns in each move and summarize it in the bracket such as [importance]3.Answer the questions in the right column of the form based on the corpus data.(注意:如果你不会调节表格,请把答案写在表格外)Sample :The separation of mixtures of alkanes is an important activity in the petroleum and petrochemical industries. For example, the products from a catalytic催化isomerization reactor consist of a mixture of linear, mono-methyl and di-methyl alkanes. Of these, the di-branched molecules are the most desired ingredients in petrol because they have the highest octane number. It is therefore required to separate the di-methyl alkanes and recycle the linear and mono-methyl alkanes back to the isomerization reactor. In the detergent industry, the linear alkanes are the desired components and need to be separated from the alkanes mixture[M1: 通过现实需要突出研究的重要性与意义].Selective sorption on zeolites is often used for separation of alkanes mixture(1-7文献被省略). The choice of the zeolite depends on the specific separation task in hand. For example, small-pore Zeolite A are used for separation of linear alkanes using the molecular sieving principle. However, the branched molecules cannot enter the zeolite structure[M2:指出现有研究方法及方法中存在的问题]. This study aims to overcome this limitation. Both linear and branched molecules are allowed inside the medium-pore MFI matrix and the sorption hierarchy in MFI will be dictated both by the alkanes chain length and degree of branching.[M3:本研究目的和采用新方法的优势]Introduction的写作方法:说明论文特定主题与较为广泛的研究领域之间的关系,同时提供足够的背景资料。
北京语料库检索使用说明首页一关于CCL语料库及其检索系统二关于查询表达式2.1 特殊符号2.2 基本项2.3 简单项2.4 复杂项2.5 过滤项2.6 子旬2.7 查询表达式三关于查询结果四在结果中查找五举例一关于CCL语料库及其检索系统(1)CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CC口承担由此产生的一切后果。
(1)本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实(1)语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式(1)语料库中的中文文本未经分词处理。
(1)检索系统以汉字为基本单位。
(1)主要功能特色:支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);支持对标点符号的查询(比如查询”可以检索语料库中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序等);用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
特殊符号查询表达式中可以使用的特殊符号包括7个:|$#+-~!这些符号分为三组:Operator1:|Operator2:$#+-~Operaotr3:!符号的含义如下:(一)Operator1:Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)|相当于逻辑中的“或”关系。
(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)$表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
北京语料库检索使用说明首页一关于CCL语料库及其检索系统二关于查询表达式2.1 特殊符号2.2 基本项2.3 简单项2.4 复杂项2.5 过滤项2.6 子句2.7 查询表达式三关于查询结果四在结果中查找五举例一关于CCL语料库及其检索系统1.1 CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CCL不承担由此产生的一切后果。
1.2 本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实。
1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。
1.5 检索系统以汉字为基本单位。
1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
2.1 特殊符号查询表达式中可以使用的特殊符号包括7个:| $ # + - ~ !这些符号分为三组:Operator1: |Operator2: $ # + - ~Operaotr3: !符号的含义如下:(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1) | 相当于逻辑中的“或”关系。
(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数小于或等于Number(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。
两个“简单项”之间相隔字数小于或等于Number(4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数刚好等于Number(5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number 个字的范围内,-号右边的“简单项”不出现。
(6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number 个字的范围内,~号右边的“简单项”不出现。
(三)Operator3:Operator3是一元操作符。
(7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。
注意: Operator2后面的Number是必须的,不能省略。
Number=0表示相邻,Number=1表示间隔1个单位,其余依此类推。
2.2 基本项指不包含特殊符号和空格的连续字符串2.3 简单项简单项可以由以下三种形式的序列组成(1)基本项(2)基本项1 Operator1 基本项2 Operator1 ...(3) (基本项1 Operator1 基本项2 Operator1 ...)注意:在实际表达式中,Operator1 前后不能有空格2.4 复杂项复杂项可以由以下三种形式的序列组成(1)简单项(2)简单项1 Operator2 Number 简单项2(3)简单项1 Operator2 Number Operator3 简单项2其中第二种形式,等价于 Operator3 简单项1 Operator2 Number 简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。
注意:Number为0和正整数。
Operator2,Operator3前后均不能有空格2.5 过滤项过滤项可以包含以下表达式:(1)author:简单项(2)name:简单项(3)path:简单项(4)type:简单项(5)pattern:简单项(“author:简单项”的含义是指“author:”后面跟的表达式是上面2.3“简单项”所定义的字符串,其余类推)注意:通过指定过滤项中author(作者),name(篇名),path(文件路径),type (文章类型),用户可以缩小查询语料的范围。
其中过滤项pattern专门用于查询汉语中的各种模式,比如“AABB”这样的重叠形式,“AB不AB”这样的反复问形式,等等。
比如:想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;想查询唐代语料,在查询表达式中输入“path:08唐”即可(唐代语料均放在包含“08唐”目录下)。
想查询唐代语料中“给”的使用情况,可以在查询表达式中输入“path:唐给”。
(“path:唐”跟关键字“给”之间需有空格隔开)想查询“老舍”先生的文章中“A来A去”的用法,在查询表达式中输入“author:老舍 pattern:A来A去”即可。
各过滤项的具体取值,用户可以在“高级搜索”页面中查到(参见上文1.2)。
下面是古代汉语语料一级目录列表:01周02春秋03战国04西汉05东汉06六朝07隋08唐09五代10北宋11南宋12元13明14清15民国全元曲全唐诗全宋词大藏經诸子百家2.6 子句子句可以是以下两类表达式:(1)复杂项(2)过滤项2.7 查询表达式查询表达式可以是以下形式的序列:(1)子句(2)子句1 子句2 ...(子句和子句之间需要以空格隔开,表示逻辑“AND”关系)三关于查询结果1 每次查询,网页上最多列出5000条结果(分页列出,每页50条)。
2 用户可以将查询所得结果保存到自己本地计算机的磁盘上。
在查询结果显示网页上,用户可以根据需要指定下载结果的条数(缺省为500条),点击“下载”按钮,查询结果即以txt文件形式保存到本地磁盘上。
每句之后在【】内注明了该句的出处、作者、路径等信息。
(如果条数较多,文件会比较大,下载速度缓慢,请耐心等待,不要重复提交下载请求)。
3 查询结果以“句”为单位输出显示,用户可以指定查询结果的显示长度(左右n个字范围)。
小提示:如果想显示查询关键字所在的整句,可以通过指定足够大的显示长度(比如1000)来实现。
当用户指定的显示长度超过句长时,以句长为限显示结果。
4 关于查询结果的“标亮”和“定位”显示标亮词:在句子中以红颜色标出的词,可以有多个;中心词:是一个特殊的标亮词,显示查询结果的每个句子时,以“中心词”为网页中心位置对齐。
小提示:(1)查询表达式中的“复杂项”和“过滤项”中的pattern项目都可以作为“标亮词”。
这里“标亮词”是指跟“标亮词”匹配的句子片断。
(2)默认的中心词是第一个“标亮词”,即在用户没有用Operator2指定“中心词”的情况下,系统自动把第一个“标亮词”当作“中心词”。
如果用户用Operator2指定了“中心词”,那么该词为用户指定的“中心词”。
5 关于查询结果的“排序”用户可以指定按照“中心词”左边字符串排序,或按照“中心词”右边字符串排序。
排序方式为字符内码(GB码)降序。
四在结果中查找对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功能,逐次逼近检索目标。
比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样的否定词。
您可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和“也”,且二者相隔10字以内的句子,然后您再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。
五举例查询式例子 1:计算机硬件意思是: 查出所有包含“计算机硬件”的句子。
查询式例子 2:把被意思是: 查出所有包含“把”,同时也包含“被”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一句范围内。
查询式例子 3:把|被意思是: 查出含有“把”或“被”的句子,两个关键字只需有一个在句中出现,就作为查询结果输出。
查询式例子 4:把-4不意思是: 查出含有“把”,但在“把”右边4个字范围内不含“不”的句子。
注意:- 号属于opertaor2,其后必须有数字,且不能有空格。
查询式例子 5:给~4把意思是: 查出含有“给”,但在“给”左边4个字范围内不含“把”的句子。
注意:~ 号属于operator2,其后必须有数字,且不能有空格。
查询式例子 6:与其$10不如意思是: 查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,间隔10字以内。
查询式例子 7:能力#3大意思是: 查出同时含有“能力”和“大”的句子,且“能力”和“大”之间的间隔在3个字之内,二者的先后次序不受限制。
查询式例子 8:吃+3亏意思是: 查出同时含有“吃”和“亏”的句子,并且“吃”在先,“亏”在后出现,二者之间刚好间隔3个字。
查询式例子 9:被$10!给意思是: 查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。
显示查询结果时,以“给”为“中心词”,即“给”居中对齐。
查询式例子 10:(把|被)$10给意思是: 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。
或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。
查询式例子 11:(把|被)$10!给意思是: 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。
或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。
显示查询结果时,以“给”为“中心词”,即“给”居中对齐。
查询式例子 12:了$0(。
|?|,|!)意思是:查出“了”与标点符号“。
?,!”等紧邻出现的句子。
这实际上就部分地达到了查询“句尾了”(汉语学界一般所说的“了2”)的目的。
查询式例子 13:所以 path:13明|14清意思是:在古代汉语语料中查“明代”和“清代”文献中“所以”的用例。
2006.01。