计算机与现代化
2013年第11期
JISUANJIYUXIANDAIHUA
总第219期
文章编号:1006-2475(2013)11-0207-03
收稿日期:2013-07-08
作者简介:施询之(1992-),男,四川合江人,上海大学悉尼工商学院本科生,研究方向:信息管理与信息系统;孙宁远(1992-),男,山东烟台人,本科生,研究方向:信息管理与信息系统;李骋罡(1991-),男,浙江宁波人,本科生,研究方向:信息管理与信息系统。
基于微博信息库和文本分词的人机对话模型设计
施询之,孙宁远,李骋罡
(上海大学悉尼工商学院,上海201800)
摘要:SimSimi是当前流行的智能聊天机器人,但是存在如回复需要用户训练、回复语句有限等问题。针对SimSimi存在的问题,提出一种利用微博作为语料库和基于中文文本分词的改进模型,能够解决SimSimi的部分问题,从理论上能给出质量更好的聊天效果。
关键词:智能聊天;文本分词;朴素贝叶斯分类;微博语料
中图分类号:TP391.9 文献标识码:A doi:10.3969/j.issn.1006-2475.2013.11.052
DesignofArtificialIntelligenceConversationSystemBasedon
Micro-bloggingContentandTextSegmentation
SHIXun-zhi,SUNNing-yuan,LICheng-gang
(SydneyInstituteofLanguage&Commerce,ShanghaiUniversity,Shanghai201800,China)
Abstract:SimSimiisnowapopularartificialintelligenceconversationrobot.However,therearesomeproblemswithit,forex-
ample,itrequiresthetrainingofusersanditisunabletomeetalltheconversationneeds.Anewmodelbasedontextsegmenta-tionandmicro-bloggingcontentisabletosolvethoseproblemsofSimSimi,andisofatheoreticallybetterperformance.Keywords:artificialintelligenceconversation;textsegmentation;Na甭veBayesianclassification;micro-bloggingcontent
0 引 言
SimSimi是一款韩国聊天机器人,能够实现智能聊天功能。但是SimSimi需要大量用户提前进行训练,对话好坏的程度取决于用户的训练质量和数量,因此在处理未经训练或训练不充分的对话时,常常不能得到满意的结果。针对这一问题,本文对使用基于中文文本分词和微博信息库的人机对话系统进行改进。
1 中文文本分词综述
汉语是一种词根语,其独有的特征决定了针对其他语言处理的方法并不能完全适用于汉语信息处理,所以中文文本分词已经成为了中文信息处理任务的
一项基础研究课题[1]
。目前中文分词算法主要分为3大类:基于词典的方法、基于统计的方法和基于规
则的方法[2]
。
基于词典的方法包含词典和匹配算法2个要素[3]
。词典是词典法的核心,拥有2个难点:词典的完整性和匹配速度,协调好相互制约的2个因素是构
筑有效词典的关键[4]
。常用的匹配算法有“长词优
先法”和“短词优先法”[5]
,前者优势在于能够消除大多歧义,选择出更多专指名词,可是存在效率低和复杂的问题。
基于统计的分词算法,主要以词与词的联合作为
分词的信息[1]
,主要应用的计算模型包括:互信息、
N-gram模型算法[6]
和期望最大值EM(Expectation
Maximization)算法[7]
等。其中,互信息的概率统计算
法中互信息指不同字符串之间相关性的统计量[8]
,对于字符串A和B,其互信息的计算公式为:
MI(a,b)=log2
p(a,b)p(a)p(b)
(1)
其中,p(a,b)为字符串A和B共同出现的概率,p(a)和p(b)分别表示字符串A和B分别出现的概率。互信息MI(a,b)反映字符串之间的紧密程度,若