后端技术学习路线之搜索引擎
- 格式:pdf
- 大小:52.66 KB
- 文档页数:1
后端技术学习路线之搜索引擎
全文搜索引擎
全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。
结构化数据与非结构化数据
像数据库表这种的数据是结构化数据;而对于像HTML、XML、文档这样不定长度且无固定格式的数据我们称之为非结构化数据。非结构化数据也称为全文数据,对非结构化数据的搜索可以用全文检索的方式,
目前两大主流的全文搜索引擎「Solr」和「Elasticsearch」都是基于Lucene 建立。搜索引擎需要学习的内容:
•搜索引擎原理,搜索引擎利用倒排索引技术来实现对全文数据的高效检索。
•Lucene,Apache Lucene 是一个开源的全文搜索引擎工具包。
•Elasticsearch 原理与使用
•Solr 原理与使用