PHP开发搜索引擎技术全解析
- 格式:doc
- 大小:36.00 KB
- 文档页数:4
搜索引擎的工作原理搜索引擎是一种用于在互联网上查找信息的工具。
它通过采集、索引和排序互联网上的网页,以便用户能够快速、准确地找到所需的信息。
下面将详细介绍搜索引擎的工作原理。
一、网络爬虫搜索引擎的工作始于网络爬虫,也被称为蜘蛛或者机器人。
网络爬虫是一种自动化程序,它会按照预定的规则从互联网上下载网页。
爬虫从一个种子URL开始,然后通过解析网页中的链接,逐步扩展到其他网页。
爬虫会定期访问网页,以确保索引的内容是最新的。
二、网页索引爬虫下载的网页会被送往搜索引擎的索引程序进行处理。
索引程序会提取网页的关键信息,并创建一个包含这些信息的索引数据库。
这个数据库类似于一本巨大的目录,记录了互联网上的各个网页的关键词、标题、摘要和链接等信息。
索引程序还会对这些信息进行分析和处理,以提高搜索结果的质量。
三、关键词匹配当用户在搜索引擎中输入关键词进行搜索时,搜索引擎会将这些关键词与索引数据库中的内容进行匹配。
搜索引擎会根据关键词的相关性和网页的权威性来确定搜索结果的排序。
关键词的相关性是指关键词与网页内容的匹配程度。
搜索引擎会将关键词与网页的标题、正文和链接等进行比对,以确定网页与关键词的相关性。
通常情况下,如果一个网页中包含了用户搜索的关键词,并且关键词在网页中的位置较为靠前,那末这个网页就会被认为与关键词的相关性较高。
网页的权威性是指网页在互联网上的信誉和影响力。
搜索引擎会根据网页的外部链接数量和质量来评估网页的权威性。
如果一个网页被其他网页广泛引用,那末搜索引擎就会认为这个网页的权威性较高。
四、搜索结果页面当搜索引擎确定了搜索结果的排序后,它会将这些结果展示给用户。
搜索结果页面通常包含了多个搜索结果,每一个搜索结果都包括了网页的标题、摘要和链接等信息。
用户可以点击链接来访问他们感兴趣的网页。
搜索结果页面还可能包含一些相关的搜索建议、广告和其他相关信息。
搜索引擎会根据用户的搜索行为和个人资料来定制搜索结果页面,以提供更加个性化和实用的搜索结果。
elastic php分词Elasticsearch是一个开源的搜索引擎,它采用了分布式架构,建立在Apache Lucene搜索库之上。
Elasticsearch能够实现高效的全文搜索,聚合分析和实时数据处理功能,是现代企业级搜索应用的首选。
而PHP是一种流行的脚本语言,它主要是用于Web开发。
在Web 开发中,我们通常需要处理大量的文本数据,其中包括分词。
因此,结合Elasticsearch和PHP,就有了Elasticsearch PHP分词的应用。
本文将介绍Elasticsearch PHP分词的原理、实现以及相关操作。
一、什么是Elasticsearch PHP分词?Elasticsearch PHP分词即通过PHP应用程序,将文本数据进行分词处理,并存储在Elasticsearch中。
分词是指将一个整体的长字符串分解成一系列独立的、有意义的单元。
在搜索引擎中,分词是搜索结果正确性的关键。
二、Elasticsearch PHP分词的原理Elasticsearch使用Lucene分词器进行分词处理工作。
而对于PHP应用程序,则需要使用Elasticsearch PHP SDK进行操作。
以下是Elasticsearch PHP分词的基本原理:1. PHP应用程序将文本数据通过SDK传输给Elasticsearch。
2. Elasticsearch通过Lucene分词器对文本进行分词处理,将分词后的结果存储在Elasticsearch中。
3. PHP应用程序可以通过Elasticsearch查询语句获取分词后的文本数据,进行相关操作。
三、Elasticsearch PHP分词的实现下面,我们将介绍Elasticsearch PHP分词的具体实现方法:1. 安装和配置Elasticsearch PHP SDK在进行Elasticsearch PHP分词之前,我们需要安装和配置Elasticsearch PHP SDK。
2020年11月25日第4卷第22期现代信息科技Modern Information TechnologyNov.2020 Vol.4 No.22收稿日期:2020-10-15基金项目:江西省教育厅科学技术研究项目(GJJ207803);江西省高等学校教学改革研究课题(JXJG-19-77-2)站长工具平台“搜一搜”的设计与实现——基于Python+PHP+Elasticsearch 语言邱慧玲,王鹰汉(上饶职业技术学院,江西 上饶 334109)摘 要:个人站长是目前大学生创业的主流方法,使用站长工具是网站运营的必备技能。
文章着重探讨了站长工具平台——“搜一搜”的建设,在分析市面上已有站长工具缺点的基础上,对“搜一搜”平台进行了具体的系统分析,最终设计并建立了一个更加适合高校学生使用的新平台,旨在为新站长们节约学习成本,提供清晰的运营流程,明确适合个人网站的优化方向,助力大学生创业。
关键词:站长工具;Elasticsearch ;关键词;PHP中图分类号:TP393.092;TP391.3 文献标识码:A文章编号:2096-4706(2020)22-023-04Design and Implementation of Webmaster Tool Platform “Souyisou”——Based on Python + PHP + Elasticsearch LanguageQIU Huiling ,WANG Yinghan(Shangrao Vocational & Technical College ,Shangrao 334109,China )Abstract :Personal webmaster is the mainstream method for college students to start a business ,and the use of webmaster tool isa necessary skill for website operation. This paper focuses on the construction of the webmaster tool platform ——“souyisou ”,based onthe analysis of the shortcomings of the existing webmaster tools in the market ,a specific systematic analysis of the “souyisou ” platform is carried out ,a new platform which is more suitable for college students is designed and established ,which aims to save learning costs for new webmasters ,provide a clear operation process ,clarify the optimization direction for personal websites ,and help college students start their own businesses.Keywords :webmaster tool ;Elasticsearch ;keyword ;PHP0 引 言“大众创业、万众创新”的新时代开启以来,高校纷纷建立创业学院,为学生创新创业提供资金、场地、学业等多方位支持及优惠政策,极大激发了高校学生的创业积极性,并取得了一些成绩。
PHP+MYSQL+SCWS 做自己的站内搜索引擎天底下竟然有这么一种站内搜索引擎,它支持中文分词,支持全文搜索,无须任何扩展,不用对服务器进行任何设置,只要支持PHP和MYSQL就行,他操作简单,效率高,效果好.这就是PHP+MYSQL+SCWS 站内搜索引擎.事实上,无论大小,从新浪到爱卡汽车网,从日PV过亿的网站到我自己的个人博客,都需要站内搜索引擎.站内搜索引擎对于网站的作用,是不言而喻的.最直接的作用是让用户以最直接的方式,最快的速度在你的网站里找到他想要的东西.而不是再到百度谷歌去,搜索到别人的网站.(一) 最基本的站内搜素利用SQL的LIKE例如1 SELECT * FROM bbs_threads WHERE subject LIKE '%搜索引擎%' LIMIT 10优点:太容易了,是人都会缺点: 1. 每次执行LIKE语句都需要一次表遍历,用的是字符串比较,效率太低. 2. 不能分词,只能整句话搜索.如果搜索词较长,几乎搜索不出任何结果.如果加上分词功能,相当于一条语句里使用好几个LIKE,同1.(二) 谷歌自定义搜索利用谷歌搜索引擎API以及谷歌强大的搜索功能,建立自己的站内搜索. 演示: /search.html?cx=014724041144905348996:pf5fnahnzuw&cof=FORI D:11&ie=UTF-8&q=危机&sa=搜索&siteurl=/优点: 省心,没有比这个再省心的了.你啥都不用管.谷歌都是自家的了,人家的搜索算法,那怎么是咱们能比得了的呢.缺点: 1.需要使用IFRAME,或者直接打开谷歌的页面,或者用更复杂的API来实现. 2.只能按照文本搜索,只能全站搜索.我要想在某个频道下,搜索指定类型的文章等要求谷歌就不能实现了.一句话,就是不能自定义. 3.如果你的网站小,谷歌人家都不带收录你,啥也搜不出来你咋办?(三) lucene 全世界最好的开放源代码搜索引擎呃…没啥好介绍的,直接看优缺点吧优点: 完全开放源代码,完全可以自定义,完全…..缺点: java写的,哥不会.你会java?你改个试试(四) PHP+MYSQL+SCWS 做自己的站内搜索引擎千呼万唤始出来!MySQL支持全文索引和搜索。
搜索引擎的原理
搜索引擎是一种能够帮助用户在互联网上查找信息的工具,它的原理主要包括三个方面,爬虫抓取、索引建立和检索排序。
首先,搜索引擎通过爬虫抓取来获取互联网上的信息。
爬虫是一种自动程序,它会按照一定的规则在互联网上抓取网页,并将这些网页的内容下载到搜索引擎的服务器上。
爬虫会根据链接的深度和页面的重要性来确定抓取的优先顺序,从而保证搜索引擎能够覆盖尽可能多的网页。
其次,搜索引擎会对抓取到的网页进行索引建立。
索引是一种结构化的数据,它包含了对网页内容的关键词、链接、图片等信息的索引。
搜索引擎会对抓取到的网页进行分词处理,将其中的关键词提取出来,并建立倒排索引,以便用户在搜索时能够更快地找到相关的信息。
最后,当用户在搜索引擎中输入关键词进行检索时,搜索引擎会根据索引中的信息进行检索排序。
检索排序是根据用户的搜索意图和网页的相关性来确定搜索结果的排名。
搜索引擎会根据网页的关键词出现频率、链接的质量、网页的权威性等因素来对搜索结果进行排序,从而让用户能够更容易地找到自己需要的信息。
总的来说,搜索引擎的原理是通过爬虫抓取、索引建立和检索排序来帮助用户在互联网上查找信息。
这一原理的实现涉及到大量的技术和算法,包括网页抓取、分词处理、倒排索引、链接分析等方面的内容。
通过不断地优化和改进,搜索引擎能够更好地满足用户的信息检索需求,成为人们日常生活中不可或缺的工具。
SEO实战密码:搜索引擎工作原理三个阶段简介搜索引擎工作过程非常复杂,接下来的几节我们简单介绍搜索引擎是怎样实现网页排名的。
这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对SEO人员已经足够用了。
搜索引擎的工作过程大体上可以分成三个阶段。
(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。
(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
(3)排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
爬行和抓取爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。
1.蜘蛛搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。
搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。
蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。
搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。
蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。
如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。
和浏览器一样,搜索引擎蜘蛛也有标明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。
下面列出常见的搜索引擎蜘蛛名称:· Baiduspider+(+/search/spider.htm)百度蜘蛛· Mozilla/5.0 (compatible; Yahoo! Slurp China;/help.html)雅虎中国蜘蛛· Mozilla/5.0 (compatible; Yahoo! Slurp/3.0;/help/us/ysearch/slurp)英文雅虎蜘蛛· Mozilla/5.0 (compatible; Googlebot/2.1; +/bot.html)Google蜘蛛· msnbot/1.1 (+/msnbot.htm)微软 Bing蜘蛛· Sogou+web+robot+(+/docs/help/webmasters.htm#07)搜狗蜘蛛· Sosospider+(+/webspider.htm)搜搜蜘蛛· Mozilla/5.0 (compatible; YodaoBot/1.0;/help/webmaster/spider/; )有道蜘蛛2.跟踪链接为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。
搜索引擎技术原理搜索引擎已成为我们日常生活中获取信息的重要工具。
但是,你是否曾经想过搜索引擎是如何工作的?究竟是什么原理使得它们能够从海量的信息中准确地找到我们想要的答案呢?本文将介绍搜索引擎技术的原理和运行机制。
一、爬虫机制搜索引擎的第一步是通过爬虫机制来收集互联网上的网页。
爬虫是一种自动化程序,它依靠链接在不同网页之间进行跳转,并将这些网页的内容下载下来。
爬虫程序从一个种子URL(初始的网页链接)开始,通过解析网页上的链接,不断地深入抓取,并将抓取到的网页放入索引队列中。
二、索引机制索引是搜索引擎的核心组成部分。
一旦爬虫程序抓取到网页内容,它会将网页交给索引程序进行处理。
索引程序会解析网页的HTML源代码,提取出关键信息,如标题、正文、链接等。
然后,索引程序将这些信息存储在数据库中,以便后续的搜索操作。
为了提高搜索效率,索引程序会对网页进行分词和倒排索引的处理。
分词是将网页内容按照一定规则进行拆分,形成词语的序列。
倒排索引是将词语与包含该词语的网页进行关联,形成一个词典。
这样,当用户输入关键词进行搜索时,搜索引擎可以快速地找到含有这些关键词的网页。
三、查询匹配机制查询匹配是指将用户输入的查询语句与索引中存储的网页信息进行匹配,找到最相关的结果并进行排序。
当用户输入查询语句后,搜索引擎会对查询语句进行分词处理,并根据词语在倒排索引中的关联情况,找到包含这些词语的网页。
为了提高搜索结果的准确性,搜索引擎会使用一系列的算法和技术进行结果排名。
其中,最常用的是PageRank算法。
PageRank算法将网页的重要性视作一个数值,并根据网页之间的链接关系来计算这个数值。
具有更高PageRank值的网页在搜索结果中排名更靠前。
四、结果展示机制最后,搜索引擎将匹配到的搜索结果呈现给用户。
搜索结果页面常用的展示方式是将相关网页的标题、摘要和链接显示在结果列表中。
为了方便用户快速判断和点击,搜索引擎还会提供相关搜索建议、相关搜索词和翻页功能等。
搜索引擎技术
搜索引擎技术是一种用于从大型数据集合中找出与用户查
询相关的信息的技术。
它涉及到多个方面,包括索引技术、查询处理技术、排名算法等。
以下是一些搜索引擎技术的
关键组成部分:
1. 网页爬取:搜索引擎通过网络爬虫抓取互联网上的网页,并将这些网页存储到自己的数据库中。
2. 数据处理和索引:搜索引擎将爬取到的网页进行处理,
提取出其中的文本内容,并建立索引,以便能够快速地检
索相关的网页。
3. 查询处理:当用户输入查询关键词时,搜索引擎将通过
查询处理技术解析用户的查询,提取出其中的关键信息,
并根据索引进行检索,找出与查询相关的网页。
4. 排名算法:搜索引擎通过一系列的排名算法来确定搜索
结果的排序顺序。
这些算法根据不同的因素评估网页的相
关性和质量,例如关键词匹配度、网页的权威性和用户反
馈等。
5. 用户界面:搜索引擎还需要提供一个用户界面,以便用
户输入查询,并展示搜索结果。
用户界面通常包括搜索框、搜索按钮、分页和过滤等功能。
6. 垂直搜索和个性化搜索:搜索引擎可以根据用户的兴趣
和行为提供个性化的搜索结果,并针对特定的领域(如新闻、图片、视频等)提供专门的搜索服务。
综上所述,搜索引擎技术是一种复杂的技术体系,涉及到
多个方面的知识和技术,旨在为用户提供准确、全面、高
效的搜索结果。
《搜索引擎》讲义一、什么是搜索引擎在当今数字化的时代,搜索引擎已经成为我们获取信息不可或缺的工具。
那么,究竟什么是搜索引擎呢?简单来说,搜索引擎就是一种在互联网上帮助我们查找信息的软件系统。
它就像是一个超级智能的图书馆管理员,能够迅速地从海量的网页、文档、图片、视频等各种资源中,筛选出与我们输入的关键词或问题相关的内容,并按照一定的规则和算法将这些结果呈现给我们。
搜索引擎的工作原理可以大致分为三个主要步骤:抓取、索引和排名。
首先,搜索引擎的“爬虫”程序会在互联网上不断地浏览和收集网页信息。
这些“爬虫”就像勤劳的小蜜蜂,不知疲倦地在网络世界中穿梭,将它们找到的网页内容带回“数据库”。
然后,搜索引擎会对这些收集到的信息进行分析和处理,建立索引,以便能够快速地找到和检索相关内容。
最后,当我们输入搜索词时,搜索引擎会根据一系列复杂的算法对相关网页进行排名,将最相关、最有价值的结果排在前面展示给我们。
二、搜索引擎的发展历程搜索引擎的发展并非一蹴而就,而是经历了多个阶段的演变。
早期的搜索引擎技术相对简单,功能也比较有限。
它们主要依靠关键词匹配来查找网页,结果的准确性和相关性往往不尽如人意。
随着技术的不断进步,搜索引擎开始引入更复杂的算法和技术,如链接分析、内容相关性评估等,以提高搜索结果的质量。
其中,谷歌的出现是搜索引擎发展的一个重要里程碑。
谷歌凭借其先进的算法和强大的技术实力,迅速成为全球最受欢迎的搜索引擎之一。
此后,其他搜索引擎也在不断地创新和改进,以适应互联网的快速发展和用户不断变化的需求。
如今,搜索引擎已经变得越来越智能化和个性化。
它们不仅能够理解我们输入的文字,还能通过语音搜索、图像搜索等方式为我们提供服务。
同时,搜索引擎还会根据我们的搜索历史、地理位置、浏览习惯等因素,为我们提供个性化的搜索结果。
三、搜索引擎的工作机制要深入理解搜索引擎,就必须了解其工作机制。
1、抓取搜索引擎的“爬虫”程序会从一系列已知的网页开始,通过解析网页中的链接,不断地发现新的网页并进行抓取。
PHP开发搜索引擎技术全解析
谈到网页搜索引擎时,很多人都会想到雅虎。
的确,雅虎开创了一个互联网络的搜索时代。
然而,雅虎目前用于搜索网页的技术却并非该公司原先自己开发的。
2000年8月,雅虎采用了Google这家由斯坦福大学学生创建的公司的技术。
理由非常简单,Google的搜索引擎比雅虎先前使用的技术能更快、更准确搜索到所需要的信息。
让我们自己来设计、开发一个强劲、高效的搜索引擎和数据库恐怕短时间内在技术、资金等方面是不可能的,不过,既然雅虎都在使用别人的技术,那么我们是不是也可以使用别人现成的搜索引擎网站呢?
剖析编程思路
我们可以这样设想:模拟一个查询,向某个搜索引擎网站发出相应格式的搜索命令,然后传回搜索结果,对结果的HTML代码进行分析,剥离多余的字符和代码,最后按所需要的格式显示在我们自己的网站页面里。
这样,问题的关键就在于,我们要选定一个搜索信息准确(这样我们的搜索才会更有意义啊)、速度快(因为我们分析搜索结果并显示需要额外的时间),搜索结果简洁(便于进行HTML源代码分析和剥离)的搜索网站,由于新一代搜索引擎Google的各种优良特性,这里我们选择它为例,来看看用PHP怎样实现后台对Google搜索、前台个性化显示这一过程。
我们先来看看Google的查询命令的构成。
进入Google网站,在查询栏中输入“abcd”,点击查询按钮,我们可以发现浏览器的地址栏变成:
"/search?q=abcd&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr = ",可见,Google是通过表单的get方式来传递查询参数并递交查询命令的。
我们可以使用PHP中的file()函数来模拟这个查询过程。
了解File( ) 函数
语法: array file(string filename);
返回值为数组,将文件全部读入数组变量中。
这里的文件可以是本地的,也可以是远程的,远程文件必须指明所使用的协议。
例如:
result=file(“/search?q=a ... mp;hl=zh-CN&lr= ”),该语句将模拟我们在Google上查询单词“abcd”的过程,并将搜索结果以每行为元素,传回到数组变量result 中。
因为这里读取的文件是远程的,所以协议名“http://”不能缺少。
如果要让用户输入搜索字符进行任意搜索,我们可以做一个输入文本框和提交按钮,并将上文中的被搜索字符“abcd”用变量替换:
echo '
'; file://没有参数的form,默认提交方式为get,提交到本身
echo '; file://构造一个文本输入框
echo '; file://构造一个提交查询按钮
echo '
';
if (isset( keywords)) file://提交后PHP会生成变量kwywords,即要求下面的程序在提交后运行
{
urlencode( keywords); file://对用户输入内容进行URL编码
result=file("/search?q=".
keywords."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=");
file://对查询语句进行变量替换,将查询结果保存在数组变量result中
result_string=join(" ", result); file://将数组$result合并成字符串,各数组元素之间用空格粘和
... file://进一步处理
}
?﹥
上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量$result_string。
请注意要使用urlencode()函数将用户输入内容进行URL编码,才可以正常地对输入的汉字、空格以及其他特殊字符进行查询,这样做也是尽可能逼真地模拟Google 的查询命令,保证搜索结果的正确性。
对Google的分析
为了便于理解,现在假设我们所真正需要的东西是:搜索结果的标题。
网址和简介等,这是一个简洁而典型的需求。
这样,我们所要做的便是:去除Google搜索结果的台头和脚注,包括一个Google的标志、再次搜索的输入框和搜索结果说明等,并且在剩余的搜索结果各项条目中剥离原来的HTML格式标记,替换成我们想要的格式。
要做到这一点,我们必须仔细地分析Google搜索结果的HTML源码,找到其中的规律。
不难发现,在Google的搜索结果的正文总是包含在源码的第一个
标记和倒数第二个
标记之间,并且倒数第二个
标记后紧跟table字符,而且这个组合“
以下所有程序均依次接续在上文程序的“进一步处理”处。
result_string = strstr( result_string, " ");
file://取result_string从第一个开始后的字符串,以去除Google台头
position= strpos( result_string," table符号的位置
result_string= substr( result_string,0, position);//截取第一个table符号之前的字符串,以去除脚注
应用与实现
现在我们已经得到有用的HTML源码主干了,剩下的问题是如何自主地显示这些内容。
我们再分析一下这些搜索结果条目,发现每个条目之间也是很有规律的用分隔,也就是各成一个段落,按这个特点我们用explode()函数把每个条目切开:
语法:explode(string separator, string string);
返回一个数组,按separator切开后的各个小字串被保存在数组中。
于是:
result_array=explode(" ", result_string); file://用字串" "把结果切开
我们就得到一个数组result_array,其中每个元素都是一个搜索结果条目。
我们所要做的仅仅是研究每个条目及其HTML显示格式代码,然后按要求替换就行了。
下面用循环来处理result_array中的每个条目。
for( i=0; i {
... file://处理每个条目
}
对于每个条目,我们也很容易找到一些特点:每个条目都由标题、摘要、简介、类别、网址等组成,每个部分都换行,即包含标记,于是再次分割:(以下处理程序放在上文的循环中)
every_item=explode(" ", result_array[ i]);
这样我们得到一个数组every_item,其中every_item[0]就是标题,every_item[1]和every_item[2]两行为摘要,every_item[3]和every_item[4]等等的头部如果包含“简介:”、“< font size=-1 color=#6f6f6f>类别:< /font>”字符,则是简介或类别(因为有的结果条目没有该项),如果头部包含“< font color=green>”则肯定就是网址啦,这种对比判断我们常使用正则表达式(略),如果要替换也很方便,比如包含标题的$every_item[0],其本身是有链接的,我们希望修改这个链接属性,让它在新窗口打开链接:
echo eregi_replace(' {
... file://处理每个条目中除去第一项(第一项为标题,已经显示)的每一项
... file://更多格式修改
}
这样就修改了链接属性,其余很多显示格式的修改、剥离、替换都能用正则替换eregi_replace()来完成。
至此我们已经得到了每个搜索条目的每一项,并能任意修改每项的格式,甚至可以给他套上漂亮的表格。
然而一个好的程序应该能适应各种运行环境的,这里也不例外,我们其实还只是讨论了搜索结果的HTML剥离的一种框架方法,真正要做得完美,还要考虑很多内容,比如要显示一共搜索出多少结果,分成多少页等等,甚至还可以刨除与Google相关的那些“类别”、“简介”等代码,让客户根本看不到原始网站。
不过这些内容和要求我们都能通过分析HTML进行剥离得到。
现在大家完全能自己动手,做个极富个性化的搜索引擎。