通元智能搜索引擎产品白皮书

  • 格式:doc
  • 大小:132.00 KB
  • 文档页数:7

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

通元智能搜索引擎(为中文打造的精准智能搜索引擎)产品白皮书

通元软件版权所有,2006

目录

1. 概述 (3)

1.1. 搜索引擎发展 (3)

1.2. 通元智能搜索引擎简介 (3)

1.3. 应用领域 (4)

2. 系统总体结构 (4)

3. 四大亮点 (5)

3.1. 精准的中文分词算法 (5)

3.2. 智能搜索 (5)

3.3. 100%查全率 (5)

3.4. 支持多种数据源 (5)

4. 七大特色 (5)

4.1. 极高的检索性能 (5)

4.2. 非结构化文档统一检索 (6)

4.3. 增量索引和自动索引 (6)

4.4. 可以任意排序 (6)

4.5. 全面支持Web服务 (6)

4.6. J2EE平台的检索引擎 (6)

4.7. 管理方便,使用简单 (6)

5. 系统环境要求 (7)

6. 成功案例 (7)

1.概述

1.1.搜索引擎发展

●通用搜索引擎

在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,信息资料随之爆炸增长,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。比如,搜索引擎的王者google,其数据库中存放的网页已达30亿之巨。中国1.2亿互联网用户,使用搜索引擎的用户数比例达70%以上。用户访问网站,最快捷的方式是搜索。搜索正成为我们互联网生活的重要组成部分。

●垂直搜索引擎

随着搜索的快速发展,目前垂直搜索引擎正在迅速发展。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

微软亚洲研究院负责搜索的一名技术专家说:75%的内容通用搜索引擎搜索不出来。这里面包含2层含义:

(1)网站结构不合理,网页对搜索引擎不友好;

(2)由于信息在互联网是海量的,非结构化的信息需要经过结构化的梳理后才能更好的展现。如果梳理者能提供搜索,那样会更好。而垂直门户网站就是行业信息最好的梳理者。垂直搜索引擎提供的主要内容不应该局限于普通的网页索引,而且包括商业信息的加工,结构化的信息。

●企业搜索引擎

在信息技术飞速发展的今天,以信息为基础的组织或知识型企业焕发勃勃生机,但企业往往迷失在海量的信息面前束手无策,一方面是海量的企业内数据白白占据存储空间得不到应用,一方面是为了寻找决策用数据,又投入大量资源,造成两方面的浪费。其实运用企业搜索引擎,找到企业需要的东西,是种解脱,也是种趋势。

1.2.通元智能搜索引擎简介

通元智能搜索引擎(Gpower SmartSearch),融合了高效的全文检索引擎和非结构化文档(Word、HTML、PDF等)分析技术,可轻松实现本地文件系统检索、数据库精准检索和一个(或多个)网站的站内搜索。所支持的数据源包括:文件系统、Internet网站、关系数据库、FTP服务器等。Gpower SmartSearch通过内嵌的Spider,能定期监控网站、数据库等信息变化情况,对发生变化的信息进行增量索引、差量索引。在检索时,不仅能够对数据源内容进行全文检索,而且还能对网页、office文档的各类属性进行特征检索。高级版本还支持拼音检查、相关词检索以及中英文单词拼写检查等高级功能。Gpower SmartSearch能为用户提供有价值的信息检索服务,是一个功能强大其稳定高效的企业级搜索引擎。

1.3.应用领域

●站内检索

大部分网民在第一次访问一个网站的时候,往往是首先进行站内搜索,如果搜索结果没有他们想要的,则有13%的消费者会马上离开,去别的网站寻找。Gpower Enterprise Search可为网站,建立一套站内搜索,方便用户在网站海量数据中快速查找信息。

●垂直搜索引擎

目前,垂直搜索引擎正成为互联网发展的下一个热点。比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索。

采用Gpower Enterprise Search,实时索引企业已有的资料库,并结合互联网信息抓取技术,成为构建垂直搜索引擎的基础。

●企业搜索

企业内部有各种文件、OA系统、客户关系管理系统等多种资料,采用Gpower Enterprise Search,为企业搭建统一的信息检索门户。

2.系统总体结构

一个好的搜索引擎,就是要精确、快速找到客户想要的信息,具体表现为

●极高的准确性

●查全率,能确保满足要求的每笔资料都能检索到

●智能性,能主动猜测用户的意图

●支持多种数据源,包括文件、网页、数据库

3.四大亮点

3.1.精准的中文分词算法

采用与清华大学合作开发的分词算法,支持对中文、英文、数字的混合分词。中文分词有效地消除中文歧义,中文单词识别准确率达到99%以上。智能识别中文人名单词,数量词,Email、URL等信息,为用户提供更精准的检索结果。

3.2.智能搜索

采用相关度分析技术,使相关度高的结果排在前面,低的排在后面。对检索单词进行智能提示:包括拼写检查、相关词建议等,有效的帮助用户找到想要的信息。拼音检索,方便客户的查询输入。二次检索,逐步缩小结果范围,锁定自己需要的结果。

3.3.100%查全率

结合智能分词技术和字词混合技术,确保查询结果无一漏掉。查询结果无论多少,都能检索到。Google只有前100页,baidu只有前76页。

3.4.支持多种数据源

系统除了支持文件系统、Internet网站,还能对主流的关系数据库(Oracle,SQL Server,DB2等)、FTP服务器等进行索引。其灵活的数据源接口可以扩展,如对邮件系统、知识库等进行检索。

4.七大特色

4.1.极高的检索性能

在G级数据集合上达到亚秒级检索速度

支持大量的并发用户检索

增量索引,确保索引速度快

索引空间膨胀率<0.5