三、中文分词和排序算法介绍
(一)中文分词:
中文本身存在着很大的歧义性,同样一句话,不同的断句,表达 的意思就不一样。这对于计算机去做机器分析,就带来了巨道你不知道我知道你不知道」
三、中文分词和排序算法介绍
(一)中文分词:
另外中文的具体含义,还必须放在具体的前后语言环境中去分析。 比如说:
如何判断那些词是新词,这就全部倚靠算法来实现。新词捕捉主要 来源于新闻和网络BBS论坛,主要机制是依靠统计程序,统计上升 速度最高的词。另外作为搜索引擎公司,对众多用户的搜索词进行 “用户行为”分析,也能提高其“新词补充”效果。
三、中文分词和排序算法介绍
(二) 排序算法:
搜索引擎的排序算法(ranking algorithm),决定了各个网页、图 片、MP3等数据的重要性排列顺序,也决定了最终用户查询到的数 据排序。搜索引擎的排序算法是人工智能的完满体现,它是对百亿 级数据进行重要性分析的数学实现。
• (二)排序算法: • GOOGLE的PageRank技术
• 可见, 一个网页的PageRank 值, 主要取决于以下三个因素: • (1) 该网页的链入数量; • (2) 该网页的链入网页本身的PageRank 值; • (3) 该网页的链入网页本身的链出数量。 • 显然, 根据以上公式, 一个网页的链入数量越多、这些链入网页的
数据的存储,当然会受硬件条件的影响,不能够把所有数据都存储 在内存中,部分数据还需存储在硬盘中,这其中就有个存储策略。 存储网页数据时,权值高的网页数据存储在内存,权值低的存储在 硬盘。
四、查询/存储技术、Cache Server介绍
(一) 查询/存储技术:
搜索引擎的数据存储主要分为两部分:
第一部分:网页数据,包含:网页编号、URL、标题、内容摘要、 网页大小等。