Class-based Ngram Ngram分词评价
能够处理大多数常用词带来的歧义问题 不能处理新词以及新词带来的歧义问题
解决之道:Class-based Ngram
在统一的框架下进行分词与新词识别 将词分为若干类
词典词:教师(词典处理) 仿词:2000年(规则处理) 新词:范路(基于类的新词识别) 形态词:高高兴兴(规则处理) 不同类型的词用不同处理方法,最后利用Ngram框架寻找全 局最优切分结果
P(C ) ≅ ∏P(ci | ci−2ci−1)
m 1 i=1
m
P (S1n | C1m ) = P (s1, s2 ,⋅ ⋅ ⋅, sn | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ P ([s1,⋅ ⋅ ⋅, sc1−end],⋅ ⋅ ⋅,[scm−start,⋅ ⋅ ⋅, sn ] | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ ∏ P ([scj −start,⋅ ⋅ ⋅, scj −end] | c j )
中文分词一席谈
suntian@
内容提要
中文分词概述 分词技术发展 国际分词评测 分词技术总结
中文分词概述
什么是分词? 什么是分词?
分词就是利用计算机识别出文本中词汇的过程。比如 句子“内塔尼亚胡说的确实在理”
中文分词概述(Cont.)
分词作用
互联网绝大多数应用都需要分词,典型应用实例 汉字处理:拼音 汉字处理:拼音输入法、手写识别、简繁转换 …告推荐、内容监控 … 语音处理: 语音处理:语音识别、语音合成 … …
w w
P (W | O ) = max ∏ P ( wt | wt −1 , ot )
w t =1
T
W:分词结果 O:待分词文本
生成式分词(Cont.)