常见语料库使用入门_图文
- 格式:ppt
- 大小:8.85 MB
- 文档页数:59
收藏中文公开聊天语料库及使用方法(附链接)
该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。
语料内容
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。
使用方法
下载语料
网盘链接:
https:///s/1szmNZQrw
h9y994uO8DFL_A 提取码:f2ex
将解压后的raw_chat_corpus文件夹放到当前目录下目录结构为:raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
执行命令即可
python main.py
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。
生成结果格式为tsv格式,每行是一个样本,先是query,再是answer
query \t answer
Github地址:。
1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。
用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。
别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。
把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。
用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。
把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。
把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。
把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。
把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。
每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。
把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。
例如:勤奋、[BC,]刻苦的精神。
[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。