当前位置：文档之家› 基于微博信息库和文本分词的人机对话模型设计

基于微博信息库和文本分词的人机对话模型设计

计算机与现代化

　２０１３年第１１期

ＪＩＳＵＡＮＪＩＹＵＸＩＡＮＤＡＩＨＵＡ

总第２１９期

文章编号：１００６－２４７５（２０１３）１１－０２０７－０３

收稿日期：２０１３－０７－０８

作者简介：施询之（１９９２－），男，四川合江人，上海大学悉尼工商学院本科生，研究方向：信息管理与信息系统；孙宁远（１９９２－），男，山东烟台人，本科生，研究方向：信息管理与信息系统；李骋罡（１９９１－），男，浙江宁波人，本科生，研究方向：信息管理与信息系统。

基于微博信息库和文本分词的人机对话模型设计

施询之，孙宁远，李骋罡

（上海大学悉尼工商学院，上海２０１８００）

摘要：ＳｉｍＳｉｍｉ是当前流行的智能聊天机器人，但是存在如回复需要用户训练、回复语句有限等问题。针对ＳｉｍＳｉｍｉ存在的问题，提出一种利用微博作为语料库和基于中文文本分词的改进模型，能够解决ＳｉｍＳｉｍｉ的部分问题，从理论上能给出质量更好的聊天效果。

关键词：智能聊天；文本分词；朴素贝叶斯分类；微博语料

中图分类号：ＴＰ３９１．９文献标识码：Ａｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００６－２４７５．２０１３．１１．０５２

ＤｅｓｉｇｎｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＣｏｎｖｅｒｓａｔｉｏｎＳｙｓｔｅｍＢａｓｅｄｏｎ

Ｍｉｃｒｏ－ｂｌｏｇｇｉｎｇＣｏｎｔｅｎｔａｎｄＴｅｘｔＳｅｇｍｅｎｔａｔｉｏｎ

ＳＨＩＸｕｎ－ｚｈｉ，ＳＵＮＮｉｎｇ－ｙｕａｎ，ＬＩＣｈｅｎｇ－ｇａｎｇ

（ＳｙｄｎｅｙＩｎｓｔｉｔｕｔｅｏｆＬａｎｇｕａｇｅ＆Ｃｏｍｍｅｒｃｅ，ＳｈａｎｇｈａｉＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２０１８００，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＳｉｍＳｉｍｉｉｓｎｏｗａｐｏｐｕｌａｒａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅｃｏｎｖｅｒｓａｔｉｏｎｒｏｂｏｔ．Ｈｏｗｅｖｅｒ，ｔｈｅｒｅａｒｅｓｏｍｅｐｒｏｂｌｅｍｓｗｉｔｈｉｔ，ｆｏｒｅｘ－

ａｍｐｌｅ，ｉｔｒｅｑｕｉｒｅｓｔｈｅｔｒａｉｎｉｎｇｏｆｕｓｅｒｓａｎｄｉｔｉｓｕｎａｂｌｅｔｏｍｅｅｔａｌｌｔｈｅｃｏｎｖｅｒｓａｔｉｏｎｎｅｅｄｓ．Ａｎｅｗｍｏｄｅｌｂａｓｅｄｏｎｔｅｘｔｓｅｇｍｅｎｔａ－ｔｉｏｎａｎｄｍｉｃｒｏ－ｂｌｏｇｇｉｎｇｃｏｎｔｅｎｔｉｓａｂｌｅｔｏｓｏｌｖｅｔｈｏｓｅｐｒｏｂｌｅｍｓｏｆＳｉｍＳｉｍｉ，ａｎｄｉｓｏｆａｔｈｅｏｒｅｔｉｃａｌｌｙｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅ．Ｋｅｙｗｏｒｄｓ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅｃｏｎｖｅｒｓａｔｉｏｎ；ｔｅｘｔｓｅｇｍｅｎｔａｔｉｏｎ；Ｎａ甭ｖｅＢａｙｅｓｉａｎｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｍｉｃｒｏ－ｂｌｏｇｇｉｎｇｃｏｎｔｅｎｔ

０　引　言

ＳｉｍＳｉｍｉ是一款韩国聊天机器人，能够实现智能聊天功能。但是ＳｉｍＳｉｍｉ需要大量用户提前进行训练，对话好坏的程度取决于用户的训练质量和数量，因此在处理未经训练或训练不充分的对话时，常常不能得到满意的结果。针对这一问题，本文对使用基于中文文本分词和微博信息库的人机对话系统进行改进。

１　中文文本分词综述

汉语是一种词根语，其独有的特征决定了针对其他语言处理的方法并不能完全适用于汉语信息处理，所以中文文本分词已经成为了中文信息处理任务的

一项基础研究课题［１］

。目前中文分词算法主要分为３大类：基于词典的方法、基于统计的方法和基于规

则的方法［２］

。

基于词典的方法包含词典和匹配算法２个要素［３］

。词典是词典法的核心，拥有２个难点：词典的完整性和匹配速度，协调好相互制约的２个因素是构

筑有效词典的关键［４］

。常用的匹配算法有“长词优

先法”和“短词优先法”［５］

，前者优势在于能够消除大多歧义，选择出更多专指名词，可是存在效率低和复杂的问题。

基于统计的分词算法，主要以词与词的联合作为

分词的信息［１］

，主要应用的计算模型包括：互信息、

Ｎ－ｇｒａｍ模型算法［６］

和期望最大值ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ

Ｍａｘｉｍｉｚａｔｉｏｎ）算法［７］

等。其中，互信息的概率统计算

法中互信息指不同字符串之间相关性的统计量［８］

，对于字符串Ａ和Ｂ，其互信息的计算公式为：

ＭＩ（ａ，ｂ）＝ｌｏｇ２

ｐ（ａ，ｂ）ｐ（ａ）ｐ（ｂ）

（１）

其中，ｐ（ａ，ｂ）为字符串Ａ和Ｂ共同出现的概率，ｐ（ａ）和ｐ（ｂ）分别表示字符串Ａ和Ｂ分别出现的概率。互信息ＭＩ（ａ，ｂ）反映字符串之间的紧密程度，若