后端技术学习路线之搜索引擎

  • 格式:pdf
  • 大小:52.66 KB
  • 文档页数:1

下载文档原格式

  / 1
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

后端技术学习路线之搜索引擎

全文搜索引擎

全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

结构化数据与非结构化数据

像数据库表这种的数据是结构化数据;而对于像HTML、XML、文档这样不定长度且无固定格式的数据我们称之为非结构化数据。非结构化数据也称为全文数据,对非结构化数据的搜索可以用全文检索的方式,

目前两大主流的全文搜索引擎「Solr」和「Elasticsearch」都是基于Lucene 建立。搜索引擎需要学习的内容:

•搜索引擎原理,搜索引擎利用倒排索引技术来实现对全文数据的高效检索。

•Lucene,Apache Lucene 是一个开源的全文搜索引擎工具包。

•Elasticsearch 原理与使用

•Solr 原理与使用