新搜索引擎与问天搜索对比分析报告

  • 格式:doc
  • 大小:3.74 MB
  • 文档页数:20

下载文档原格式

  / 20
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1搜索环境

新搜索引擎:PC机,2G内存,数据量166万;

问天搜索:服务器,数据量500万

2搜索地址

问天搜索:

/ClassifyResults.aspx?vectors=58+59+60+61+62+&journals=&field=qk&star t=1&resultperpage=20&source=all&sortoption=relevancy&query=&xTitleIndex=42&select=58+

新搜索引擎:

http://192.168.0.172//zhishiku.aspx

3搜索结果对比表

4搜索结果截图(详见附表1)

5结论

搜索时间:

当数据量不是很大时,两个搜索引擎的搜索时间差距不是很大,而当数据量很大时,新搜索引擎的用时少。

搜索数量:

从结果对比表可以看出,问天搜索的结果数量较少,甚至搜索结果为0,而新搜索引擎的结果数量较多。

搜索相关度:

大多数情况下,问天搜索的相关度不是很理想,没有达到预期的效果,新搜索引擎的相关度则相对来说较好,满足了搜索的预期要求。

另外知识库的关键字是自定义的,所以关键字定义的越全面,新搜索引擎的搜索结果也更加全面更加准确。

1 搜索环境

新搜索引擎:PC机,2G内存,数据量166万;

问天搜索:服务器,数据量500万

2 搜索地址

问天搜索:

/SearchResults.aspx?lang=s&start=1&source=all&resultperpage=10&query= &sortoption=relevancy&field=all

新搜索引擎:

http://192.168.0.172//search.aspx

3 搜索结果对比表

4搜索结果截图(详见附表2)

5 结论:

搜索时间:

当数据量不是很大时,两个搜索引擎用时没有很大的差距,但数据量很大时,新搜索引擎的用时明显少。

搜索相关度:

问天搜索的结果中包含有很多如“的”、“而且”等一些需要过滤的停用词,而且位置都排在搜索结果的前面,严重的影响着搜索的相关度。

新搜索引擎启用了较全面的停用词库,很好的过滤掉了那些不需要的停用词,相对于问天搜索,相关度明显提高很多。

搜索数量:

问天搜索的搜索数量很少,而且停用词占了一部分,并且还存在搜索不出结果的情况,新搜索引擎的搜索数量比问天搜索的搜索数量高出很多。

附表1(知识库搜索截图)1、知识库:心理健康(专业导航)

问天搜索搜索结果如下:(用时:734ms 记录数:764 )

新搜索引擎搜索结果如下:(用时:725ms 记录数:59461)

问天搜索搜索结果如下:(用时:546ms 记录数:5 )

问天搜索搜索结果如下:(用时:531ms 记录数:5 )

4、知识库:心理健康(课程导航)->非智力因素

问天搜索搜索结果如下:(用时:406ms 记录数:0 )

新搜索引擎搜索结果如下:(用时:719ms 记录数:1371)

5、知识库:哲学类

问天搜索搜索结果如下:(用时:859ms 记录数:74233)

问天搜索搜索结果如下:(用时:625ms 记录数:7138)

7、知识库:经济学类

问天搜索搜索结果如下:(用时:406ms 记录数:0)

新搜索引擎搜索结果如下:(用时:711ms 记录数:75332)

8、知识库:经济学类->经济学

问天搜索搜索结果如下:(用时:296ms 记录数:0)

新搜索引擎搜索结果如下:(用时:749ms 记录数:48295)

返回

附表2 关键字搜索截图1、关键字:吉林市长

问天搜索搜索结果如下:(用时:218ms 记录数:600)

新搜索引擎搜索结果如下:(用时:851ms 记录数:730)

问天搜索搜索结果如下:(用时:2562ms 记录数:22866)

新搜索引擎搜索结果如下:(用时:939ms 记录数:61922)

问天搜索搜索结果如下:(用时:718ms 记录数:519)

新搜索引擎搜索结果如下:(用时:1067ms 记录数:1990)

问天搜索搜索结果如下:(用时:815ms 记录数:141)

新搜索引擎搜索结果如下:(用时:793ms 记录数:2774)

5、关键字:中国经济在将来将会有更快更好的发展

问天搜索搜索结果如下:(用时:1328ms 记录数:3)

新搜索引擎搜索结果如下:(用时:1047ms 记录数:403)

6、关键字:教育独生子女问题,这是很多家长要关心的问题问天搜索搜索结果如下:(用时:640ms 记录数:0)

新搜索引擎搜索结果如下:(用时:944ms 记录数:163)

返回

三、多表联合查询搜索

关系型数据库中,多表关联是很常见的事情。但是,目前使用的搜索引擎不具备多表连接搜索的功能,大大的限制了项目中搜索功能的强壮性。

新搜索引擎通过视图的方法对多表关联的情况建索引,从而解决了多表关联的全文搜索问题。通过视图创建表可以逻辑分割索引,这样用户就不需要专门建一个大表来解决多表关联时的全文索引问题,无论是在索引效率或者维护方便程度上都比建一个大表效果高出很多。查看地址:

http://192.168.0.172//multiTable.aspx

四、优缺点分析

优点分析:

1、缓存

如上图所示,新搜索引擎提供三种级别的缓存方案。

Index cache :索引级别缓存用于缓存倒排索引和单值索引。这种缓存为系统自动管理,不能关闭。索引级别缓存会自动监控数据的增删改,并进行相应修改。

Query cache :查询级别缓存对查询的条件进行缓存, 系统服务会将不同查询条件对应的文档ID(DocId)缓存下来,下次查询时直接从缓存中获取符合条件的文档ID,不再访问低级别缓存或索引。和索引级别缓存不同的是,当表的数据发生变化时,查询级别缓存将会失效,需要重新缓存。