常见语料库使用入门_图文
- 格式:ppt
- 大小:8.85 MB
- 文档页数:59
收藏中文公开聊天语料库及使用方法(附链接)
该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。
语料内容
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。
使用方法
下载语料
网盘链接:
https:///s/1szmNZQrw
h9y994uO8DFL_A 提取码:f2ex
将解压后的raw_chat_corpus文件夹放到当前目录下目录结构为:raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
执行命令即可
python main.py
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为tsv格式,每行是一个样本,先是query,再是answer
query \t answer
Github地址:。
1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。
用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。
别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。
把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。
用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。
把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。
把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。
把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。
把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。
每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。
把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。
例如:勤奋、[BC,]刻苦的精神。
[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。
第六章语料库詹卫东/doubtfire/提纲1 什么是语料库2 语料库的发展简史3 语料库的设计4 语料库的加工5 语料库的应用1 什么是语料库在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。
新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段,来评价一个语言模型的质量;此外,诸如困惑度之类的统计方法也可利用语料库来评估一个语法模型对语料的解释能力。
——Geoffrey Leech, The State of The Art inCorpus Linguistics, 1991, In Aijmar, K.and Altenberg, B. , eds. , English CorpusLinguistics: Studies in Honor of JanSvartvik, London:Longman, 1991.关于语料库的三点基本认识语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;语料库示例(一)北京大学计算语言所富士通人民日报标注语料库样例:历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t 。
/w……[中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。
/w语料库示例(二)London-Lund英语口语语料库样例^what a_bout a cigar\ette# ./*((4sylls))*/*I ^w\on't have one th/anks#* ---/^aren't you .going to sit d/own# -/^[/\m]# -/^have my _coffee in p=eace# ---/^quite a nice .room to !s\it in ((actually))#/*^\isn't* it#/*^y/\es#* ---/转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55,语料库与语言知识库语言知识库(Linguistic Database)语料库(corpora/corpus)2 语料库发展简史20世纪50年代Chomsky的影响 第一代(1970-80年代)第二代(1980-90年代)第三代(1990年代)?第四代(21世纪)UPenn Treebank美国Pennsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持1993年,完成了对近300万英语词的句子语法结构标注2000年发布中文树库(第一版)10万词,4185个句子,325data files(新华社语料)2004年发布中文树库4.0版404,156 words, 664,633Hanzi, 15,162 sentences, and 838 data files(大陆、香港、台湾语料)宾州大学中文树库示例他还提出一系列具体措施和政策要点。