个性化搜索引擎技术研究
- 格式:doc
- 大小:39.50 KB
- 文档页数:13
搜索引擎毕业论文搜索引擎毕业论文搜索引擎是当今信息时代的重要工具之一,它以其高效、准确的搜索结果,为人们提供了便捷的信息检索途径。
然而,搜索引擎的发展也面临着一些挑战和问题。
本文将探讨搜索引擎的发展历程、技术原理以及存在的问题,并提出一些改进的建议。
一、搜索引擎的发展历程搜索引擎的发展可以追溯到20世纪90年代,当时互联网开始迅速普及。
最早的搜索引擎主要是通过建立网页目录和分类索引的方式进行信息检索,但由于互联网信息的快速增长,这种方式无法满足用户的需求。
随着技术的进步,基于关键词的搜索引擎逐渐兴起,它通过对网页内容进行索引和排名,提供更加准确和全面的搜索结果。
二、搜索引擎的技术原理搜索引擎的核心技术是信息检索和网页排名。
信息检索是指根据用户输入的关键词,从海量的网页中筛选出与之相关的页面。
这一过程主要包括网页爬取、索引建立和查询处理等步骤。
网页爬取是指搜索引擎通过自动化程序(蜘蛛)访问互联网上的网页,并将其内容存储到数据库中。
索引建立是指将网页内容进行分词、词频统计等处理,生成索引文件以便后续查询。
查询处理是指根据用户输入的关键词,从索引文件中查找相关网页,并按照一定的算法进行排序和展示。
网页排名是指根据一定的算法,对搜索结果进行排序和展示。
搜索引擎的排名算法通常基于网页的相关性、权威性和用户体验等因素进行评估。
相关性是指网页与用户输入的关键词的匹配程度,权威性是指网页的信誉和影响力,用户体验是指用户对搜索结果的满意度。
搜索引擎通过对这些因素进行综合评估,为用户提供最符合其需求的搜索结果。
三、搜索引擎存在的问题尽管搜索引擎在信息检索方面取得了显著的成就,但仍然存在一些问题。
首先,搜索结果的准确性和可信度有待提高。
由于互联网上存在大量的垃圾信息和虚假信息,搜索引擎往往难以准确判断网页的质量和真实性。
其次,搜索引擎的个性化推荐功能存在一定的局限性。
虽然搜索引擎可以根据用户的搜索历史和兴趣偏好,为其提供个性化的搜索结果,但这种推荐往往容易陷入信息过滤的困境,导致用户接触到的信息变得单一和局限。
个性化搜索引擎关键技术及应用摘要:网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。
建立搜索引擎就是解决这个问题的最好方法。
本文首先介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器3个方面进行说明,并从个性化搜索引擎的“个性化”进行探讨。
关键词:搜索引擎;搜索器;索引器;个性化信息过滤0 引言搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
随着WWW 信息爆炸式生长和人们对搜索引擎关注点的转变(从如何找到更多的信息转移到如何找到准确、有用的信息),现有搜索引擎越来越不能满足人们的查询要求,搜索引擎技术面临着前所未有的挑战。
这就需要人们不断钻研新的快速、高效的搜索引擎。
搜索引擎一般由信息搜集系统、索引数据库、检索器和用户接口4个部分组成:①信息搜集系统:信息搜集系统又称为搜索器,即各种搜索引擎的蜘蛛、爬虫,其功能是在互联网中漫游,发现和搜集信息;②索引数据库有时称索引器,其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;③检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;④用户接口:用户接口即传统的搜索框,其作用是接纳用户查询、显示查询结果、提供个性化查询项。
1 搜索引擎的构成1.1 网络机器人网络机器人也称为“网络蜘蛛”(Spider),是一个功能很强的Web 扫描程序。
它可以在扫描Web页面的同时检索其内的超链接并加入扫描队列等待以后扫描。
蜘蛛的工作职责是发现新的网页并收集这些网页的快照,然后分析该网页。
蜘蛛以抓取页面为主,比如扫描网页,所有的搜索引擎都能够实现深层检索和快速检索。
在深层检索中,蜘蛛可以查找和扫描网页内的所有内容;在快速检索中,蜘蛛不遵循深层检索的规则,只搜索重要的关键词部分,而不检查和扫描网页里的所有内容。
面向搜索引擎的信息检索与分类算法研究随着互联网的普及和发展,信息量不断增加,如何快速、准确地获取所需信息成为人们关注的焦点。
搜索引擎是解决这一问题的重要工具,也是互联网上最繁荣的产业之一。
然而,随着信息质量的参差不齐和恶意操纵的出现,搜索引擎只能呈现信息,却无法保证其真实性和可信度,这就需要更为精确和高效的信息检索和分类算法来解决这些问题。
一、信息检索算法信息检索是指在大量的信息中,通过关键词、内容和结构等特征,查询并返回与用户需求相关的信息。
为了使用户能够快速准确地获取所需信息,信息检索算法应具有高效性和准确性。
目前,比较流行的信息检索算法有如下几种:1、全文检索算法全文检索是指将文本文件中的全部内容进行检索,根据关键字的出现频率将相关性较高的文件返回给用户。
全文检索算法通常使用倒排索引技术实现,即把每个单词对应出现该词的文档列表记录在一起,当用户输入关键词时,查询包含该词的所有文档,并返回相关性较高的文档。
2、向量空间模型算法向量空间模型是基于向量和矩阵运算的一种信息检索算法,将文本文件表示为向量,根据向量之间的余弦相似度计算文本的相关性。
与全文检索算法相比,向量空间模型算法不仅可以使用单词频率作为文本特征,还可以使用词汇出现位置、词性、语法等复杂特征,提高检索的准确性。
3、PageRank算法PageRank算法是指通过分析链接关系和网页质量,把网页按照相关度排序,从而为用户提供最优的搜索结果。
PageRank算法基于网页之间的链接数量和质量,以及被链接的网页的权重计算网页的权重,越权重的网页越容易显示在搜索结果的前面。
二、信息分类算法信息分类是指将大量的文本信息按照用户所设定的标准进行分类,并自动为用户归档。
信息分类不仅可以帮助用户快速找到所需信息,还可以根据用户的查询历史和兴趣偏好推荐相关信息。
目前,比较流行的信息分类算法有如下几种:1、朴素贝叶斯算法朴素贝叶斯算法是一种统计学算法,基于贝叶斯定理计算文本的类别概率。
面向高校学生的搜索引擎评价研究【摘要】本文针对面向高校学生的搜索引擎进行评价研究。
在介绍了该研究的背景和研究意义。
在分析了高校学生对搜索引擎的需求,调研了他们目前使用的搜索引擎情况,研究了面向高校学生的搜索引擎评价指标和评价方法。
在结论部分对研究结果进行总结,并展望了未来的研究方向。
通过本文的研究,可以更好地了解高校学生对搜索引擎的需求和使用情况,为改进和优化面向高校学生的搜索引擎提供参考和指导。
【关键词】搜索引擎、高校学生、评价研究、需求分析、调研、评价指标、评价方法、结果分析、总结、展望1. 引言1.1 背景介绍当今社会,随着互联网的普及和信息化水平的不断提高,搜索引擎已成为人们获取信息的重要工具。
尤其是对于高校学生群体来说,搜索引擎更是不可或缺的利器。
在日常学习、科研、社交等方面,高校学生需要频繁使用搜索引擎来获取各种信息。
随着搜索引擎的不断发展和更新,高校学生在选择使用搜索引擎时面临着诸多困惑和挑战。
如何评价一个搜索引擎的性能和适用性成为了亟待解决的问题。
传统的搜索引擎评价方法往往难以准确反映高校学生的特殊需求和使用场景。
本研究旨在针对面向高校学生的搜索引擎,进行深入评价研究,以期为高校学生提供更好的搜索体验。
在这一背景下,本文将从面向高校学生的搜索引擎需求分析、目前高校学生使用的搜索引擎情况调研、评价指标研究、评价方法探讨以及评价结果分析等方面展开讨论,旨在为高校学生选择和使用搜索引擎提供参考和指导。
1.2 研究意义在当今信息爆炸的时代,搜索引擎作为人们获取信息的主要途径,已经成为人们日常生活中不可或缺的工具。
而对于高校学生而言,搜索引擎更是他们学习和研究的重要工具。
高校学生需要在海量的信息中准确、快速地找到自己需要的内容,因此对搜索引擎的评价研究显得尤为重要。
本文旨在对面向高校学生的搜索引擎进行评价研究,通过对学生们的需求分析、使用情况调研以及评价指标的研究和评价方法的探讨,从而为提高高校学生信息检索效率和质量提供理论支持和实践指导。
搜索引擎实验实验报告网址:/以谷歌搜索引擎为例:一、搜索引擎简介搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
现在的搜索引擎有百度、谷歌、雅虎、搜狗、迅雷等等。
下面介绍下谷歌的工作原理:Google采用了两个重要的特性,因此而获取了准确的查询结果:第一,Google利用网页的链接结构计算出每个网页的等级排名,这就是所谓的PageRank;第二,Google利用了链接提供的信息进一步改善搜索结果。
Google使用两个探测器来抓取网站上的内容:Freshbot和Deepbot。
深度探测器(Deepbot)每月出击一次,受访内容在Google的主要索引之中。
刷新探测器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。
看起来,Google是发现了一个新的网页,之后再频繁地再访,来看看是否还有什么新的更新。
如果有,这个新网站就会被加入到刷新探测器的名单中进行访问。
刷新探测器取得的结果是汇总在一个单独的数据库里。
每一次刷新探测器进行新的一轮循环的时候都被重写。
刷新探测器和Google的主要索引是合在一起提供搜索结果的。
Google的操作模式收集---->采编/索引---->反馈的工作程序。
事实上,搜索引擎包括以下几个元素。
抓取状态:搜索引擎派出探测器到互联网上不知疲倦地搜集网页。
网页仓库:搜索来的网页要集中在一个地方存储,等候索引处理。
索引整理:将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原始网页资料被删除掉。
索引状态:将压缩后的网页编目在不同的索引之下。
问询状态:将用户问询所用的白话转换成搜索引擎读的懂的计算机语言,来咨询各个索引求得相关答案。
排名状态:搜索引擎将相关答案根据一定的标准以列表的形式排列给用户。
搜索引擎认为最好的答案被推荐在首位,较次的排列随后,以此类推。
搜索引擎技术
搜索引擎技术是一种用于从大型数据集合中找出与用户查
询相关的信息的技术。
它涉及到多个方面,包括索引技术、查询处理技术、排名算法等。
以下是一些搜索引擎技术的
关键组成部分:
1. 网页爬取:搜索引擎通过网络爬虫抓取互联网上的网页,并将这些网页存储到自己的数据库中。
2. 数据处理和索引:搜索引擎将爬取到的网页进行处理,
提取出其中的文本内容,并建立索引,以便能够快速地检
索相关的网页。
3. 查询处理:当用户输入查询关键词时,搜索引擎将通过
查询处理技术解析用户的查询,提取出其中的关键信息,
并根据索引进行检索,找出与查询相关的网页。
4. 排名算法:搜索引擎通过一系列的排名算法来确定搜索
结果的排序顺序。
这些算法根据不同的因素评估网页的相
关性和质量,例如关键词匹配度、网页的权威性和用户反
馈等。
5. 用户界面:搜索引擎还需要提供一个用户界面,以便用
户输入查询,并展示搜索结果。
用户界面通常包括搜索框、搜索按钮、分页和过滤等功能。
6. 垂直搜索和个性化搜索:搜索引擎可以根据用户的兴趣
和行为提供个性化的搜索结果,并针对特定的领域(如新闻、图片、视频等)提供专门的搜索服务。
综上所述,搜索引擎技术是一种复杂的技术体系,涉及到
多个方面的知识和技术,旨在为用户提供准确、全面、高
效的搜索结果。
681 搜索引擎发展历程搜索引擎是伴随互联网的发展而产生和发展的,搜索引擎大致经历了四代的发展:(1)第一代搜索引擎按人工分类存放网站的各种目录,用户通过多种方式寻找网站,现在也还有这种方式存在。
(2)第二代搜索引擎是利用关键字来查询,最其代表性的是Google,它建立在网页链接分析技术的基础上,使用关键字对网页搜索,能够覆益互联网的大量网页内容,该技术可以分析网页的重要性后将重要的结果呈现给用户。
(3)第三代搜索引擎更加注重个性化、专业化、智能化,使用自动聚类、分类等人工智能技术,采用区域智能识别及内容分析技术,利用人工介入,实现技术和人工的完美结合,增强了搜索引擎的查询能力。
从第三代开始,搜索引擎开始去预测用户的意图和习惯,在搜索结果中插入高亮信息,这些信息可以是搜索引擎认为更有效的资料,也可以是广告。
(4)第四代搜索引擎是基于移动互联网出现的用户中心时代,用户需要数据全面、更新及时、分类细致的面向主题搜索引擎,这种搜索引擎采用特征提取和文本智能化等策略,最大的特点就是搜索的私人化,依据对用户的了解,从搜索方式、搜索类型乃至搜索结果,都要往千人千面上靠[1]。
2 搜索引擎优化SEO(Search Engine Optimization),搜索引擎优化,它是利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名。
搜索引擎的核心痛点是什么?是效率。
搜索引擎的迭代其实就是效率迭代。
不同搜索引擎的抓取内容本来就不一样,两个主流搜索引擎之间至少有70%的抓取内容是不同的。
在达到一定数量级后,信息的多少已经不重要。
因为在搜索引擎上,同一个宽泛的用户需求,永远有无数同位替代品。
大家需要的是高效的、精准的、有用的东西,能精准、深度、有效地解决问题。
这才是搜索引擎在第四个时代里,真正的核心竞争力。
3 微信搜索2019年12月11日,作为一款月活用户多达11.51亿的国民级应用,微信官方宣布,微信搜索正式升级为“微信搜一搜”。
基于用户兴趣的个性化搜索引擎的分析与研究的开题报告一、选题背景与研究意义随着互联网的普及与发展,搜索引擎逐渐成为人们获取信息的主要途径之一。
然而,传统搜索引擎采用的是基于关键词的搜索方式,难以深入了解用户的兴趣和需求,从而无法对搜索结果进行个性化推荐。
因此,在信息爆炸的今天,如何利用数据分析技术和机器学习算法,结合用户行为和偏好,开发出基于用户兴趣的个性化搜索引擎,已成为当前研究的热点和难点之一。
本研究旨在通过对用户行为数据和模式识别算法的分析与应用,构建出基于用户兴趣的个性化搜索引擎。
其主要意义体现在以下几个方面:1. 提高搜索效率:采用个性化推荐策略,可以大大减少用户需要翻阅的搜索结果,提高搜索效率。
2. 提高搜索质量:基于用户兴趣的搜索引擎可以根据用户的搜索历史、点击习惯等信息,进行精准的个性化推荐,提高搜索结果的质量。
3. 改善用户体验:通过基于用户需求的搜索结果推荐,可以提高用户满意度,改善用户体验。
二、研究内容和方法本研究将针对基于用户兴趣的个性化搜索引擎的实现和优化进行研究,研究内容和方法如下:1. 数据收集和预处理:通过爬取互联网的网页数据和用户行为数据,对数据进行清洗和处理,以构建出合适的用户行为数据库。
2. 用户行为分析:对用户行为数据进行分析,包括搜索行为、浏览行为、点击行为等,从中提取出用户的搜索偏好、兴趣等信息。
3. 模式识别算法:采用机器学习算法,如决策树、神经网络等,对用户的搜索行为和偏好进行建模,在与用户相关的搜索词汇、网站等方面进行个性化推荐。
4. 实现与优化:以实现基于用户兴趣的搜索引擎为目标,利用数据挖掘、算法优化等技术手段,对系统进行开发和优化。
三、研究进度和时间安排本研究计划于2021年6月开始,预计耗时一年左右。
研究进度和时间安排如下:1. 第一阶段(6月~9月):完成相关文献资料的查阅和分析,确定研究方向和方法,完成数据收集和预处理。
2. 第二阶段(9月~12月):基于收集到的数据进行用户行为分析,通过机器学习算法对用户行为和偏好进行建模。
互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。
互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。
你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能。
而帮助你通过整个互联网快速查找到目标信息的就是越来越被重视的搜索引擎。
有关搜索引擎的技术资料网络上已经很多,关于搜索引擎经济的多方面报道各大媒体也都已经铺天盖地,因此在这里小编并不想过多的谈论这些方面的感受,只想在本次“中文搜索引擎技术揭密”系列文章全部完成之际来聊一下搜索引擎对小编的深远影响。
记得2000年左右网络上开始大量出现免费个人主页空间,当时的小编还只是一个刚刚进入IT圈的小朋友,看着这些空间那叫一个口水横流,于是乎立刻申请了一个。
又经过了一个多月的刻苦修炼和先后三次的改版,自己有生以来的第一个个人主页诞生了。
可看着每天寥寥无几的访问量,心里那叫一个难受,可一时间也想不到好办法解决问题。
突然有天发现一篇介绍如何在搜索引擎注册自己个人网站的文章,于是小编就照着文章所讲的分别在SOHU、网易等搜索引擎的相关分类目录下注册了自己的个人主页。
直至今日,小编才确切的知道了当时盛行的搜索引擎都属“目录搜索引擎”。
这实际上是小编第一次使用、认识搜索引擎,再后来通过每天个人主页不断上升的数字小编感觉到了搜索引擎的神奇。
其实正是由于搜索引擎,才使小编的个人主页被更多的人所熟识,以至于后来有多份工作都是因为这个个人主页所带来的机会。
其实这些经历或许很多人都有切身的体会,同样也有很多人因此去全身投入到互联网工作中。
这正像那句话讲的“世界真奇妙,不看不知道”,小编在此多加一句“到底怎么看,搜索引擎帮你忙!”前言互联网在近10年的得到飞速发展,互联网正在逐渐深入人们的生活,改变人们的生活。
个性化搜索引擎技术研究摘要:个性化搜索引擎是一种用户驱动网页排名结果的优化方式。
基于本体和语义网,用户建模可以作出准确的查询结果,它包括:限定搜索方式、过滤搜索结果,以及成为搜索过程等3种方式。
因此,个性化搜索引擎用户模型可被视为用户驱动个性化搜索服务的模型。
研究结论是整合前人研究并且提出“用户行为(用户兴趣、用户偏好、用户查询记录)-用户文档(用户行为与关键词组)-用户建模(相关性算法与排名算法)-个性化服务”的新模型,可作为数字图书馆发展个性化搜索引擎的指引。
关键词:信息检索;信息搜索;信息搜寻行为; 用户参与;个性化数字图书馆1 技术:优化搜索引擎的方法1.1 用户建模限定搜索方式一个简单(或直接的)实现个性化搜索引擎的方式,就是在用户搜索之前,预设它们的用户兴趣(interest)或用户偏好(preferences)。
当用户登入系统后,系统在用户先前所指定的主题领域内,或者文献类型内,或者文献/网页发布时间内等,有范围地进行检索。
这是一般数字图书馆信息检索系统所采用的个性化系统模式。
目前,这种方式在个性化搜索引擎系统中的应用不多,但是具有两个重要趋势,值得数字图书馆参考。
(1)整合用户兴趣的表单、用户偏好的设定以及网页排名算法,进行个性化搜索服务。
具体技术线路为:结合经典的平面排名名单和搜索引擎,让用户通过选择具有层次结构的文件夹标签(主题),以交互方式查询,在浏览过程中进行知识提取、查询优化和搜索结果个性化。
这种服务模式与个性化数字图书馆相似,但是更着重用户在浏览过程中的二次查询、根据结果进一步查询,以及结合其它情报分析系统的辅助查询等设计。
可说是个性化数字图书馆的进化版本。
(2)从用户行为中,建立用户文档,将用户文档与领域本体(关键词组的关联设定)结合,进行个性化搜索服务。
具体技术线路为:分析用户的点击记录、估计用户兴趣建立本体、利用本体替代用户当前查询的词汇。
当计算用户兴趣以优化查询过程时,需要能够有效地识别用户喜好以及为每个用户建立一个配置文件,一旦这样的配置文件是可用的,还需要在众多查询相匹配方案中确定用户兴趣集。
因此,这套模式的“用户行为”是指用户兴趣和用户偏好。
根据这套模式,可以发展出另一种类型的个性化数字图书馆。
如前所述,搜索引擎和数据库检索系统的先天条件和解决问题模式不同,目前的个性化数字图书馆系统和个性化搜索引擎也有所不同。
然而,以用户建模来限定搜索方式的个性化搜索引擎技术并不复杂,因为它的底层技术就是在用户检索式之前,加上系统预设的检索式,然后进行搜索。
由于搜索引擎的查询(query)多半不会要求用户输入检索公式,而只让用户输入关键词(keyword),所以用户仿佛感觉到这是一种个性化搜索,事实上,多数数字图书馆所采用的这一技术只是隐藏起部分数据库检索系统的条件式。
然而,在个性化搜索引擎当中,其底层技术是相同的,但是叠加技术却又千变万化,个性化数字图书馆可予以借鉴。
1.2 用户建模过滤搜索结果如果用户建模限定搜索结果中的用户兴趣和用户偏好交织成一张渔网,那么用户建模过滤搜索结果中的用户兴趣和用户偏好就是一个双层漏斗。
其原理是相同的,就是把搜索结果进行删选或过滤,前者发生在搜索之前,后者发生在搜索之后。
不过,后者的底层技术相对来说较为复杂。
目前,这种方式在个性化搜索引擎系统中的应用较多,具有两个重要趋势,值得数字图书馆参考。
(1)根据网页内容,进行数据元(文献或网页内容的最小单位,其概念与元数据不同,其“元meta”是指单位unit而非后设post-的概念)拆解与分析。
具体技术线路为:根据结构化网页记录(record)发展一项封包技术(wrapper),包括:以删选规则(filtering rules)过滤无关信息、以树状匹配算法(tree matching algorithm)将数据抽取提速、以频率算法检测数据元的数量和规模、以数据比对算法进行迭代和析取,以及用合并和分割数据法来解决数据元识别的问题。
这种模式可以强化元搜索引擎对大量网站数据的处理速度,同时让个性化搜索引擎跨越异构资源,在资源集成的状况下还能达到个性化服务功能。
(2)从文献内容中抽取关键词汇,并结合用户检索记录,建立用户文档以进行个性化服务。
具体技术线路为:从查询结果的网页片段去识别相关查询词汇,同时用凝聚聚类算法产生个性化查询集群,以增强个性化搜索引擎的聚类效果;或者,以自组织地图算法(self-organizing map algorithm,SOM)在用户检索后建立用户兴趣资料库,以文本挖掘的方法来优化个性化搜索的差异性结果,由搜索引擎提示语义相关的查询词汇的这种模式,可以使用户可以按照反映他们信息需求的建议选择搜索词汇。
简单比较,在用户建模限定搜索结果中,用户预先设定了检索式,而这个前段检索式被信息系统隐藏了起来,如果个性化搜索得不到用户所需信息,则要不用户承认自己原先的设定不完美,要不用户选择全部的“用户兴趣”和取消所有的“用户偏好”(形同放弃个性化搜索)则可获得相关信息。
这种模式下的个性化数字图书馆是让找不到信息的用户“哑巴吃黄莲,有苦说不出”。
但是在用户建模过滤搜索结果中,用户建模设定的是后段检索式,用户在检索后,系统自动再次检索,并隐藏起这部分的后段检索式,因此用户不会陷入“是否个性化”的选择,而是进入“已经为您个性化搜索了”的过程。
从某种意义上来说,这是一种“不作恶(Don’t be evil)”的作风,也就是个性化搜索系统愿意承担用户找不到信息的责任,而不是推卸给终端用户。
1.3 用户建模成为搜索过程用户建模可以成为搜索引擎的渔网和漏斗,在用户检索前后进行预先设定检索式和自动二次检索(及其相关性推荐)的功能。
用户建模也可成为魔方盒,在用户检索中进行多重检索结果的最优化匹配。
其底层技术较前两者更为复杂,虽然建立在前两者的搜索结果和技术方法上,但是其技术路线和前两者截然不同。
它具有两个重要趋势,是新一代个性化数字图书馆必需参考的对象。
(1)用户建模的技术来自人工智能的应用。
具体技术线路为:基于进化理论的遗传编程(genetic programming,GP)学习机技术,来优化文件在向量空间中的权重,达到从个人查询以至不同排名结果程度上的的网页搜索排名功能;或者,以模糊集与模糊逻辑(fuzzy sets and fuzzy logic)对用户满意度评分,来优化(工作)搜索。
无论是遗传算法还是模糊逻辑,其底层数据无非来自用户兴趣、用户偏好和用户查询。
根据用户行为进行用户建模,再转化为用户文档建立个性化服务,已是一项发展趋势。
(2)用户文档应用在信息检索系统和网页搜索引擎。
具体技术线路为:根据观察用户行为和行动,动态结构化用户文档(建立用户兴趣的相关词组),以运用在信息检索系统的延伸查询功能,可用来改变搜索引擎排名顺序。
这种技术线路的重点不是让用户建模删选和过滤搜索结果,而是改变搜索结果,在用户文档中的用户兴趣、用户偏好、用户查询记录和相关词组是不断改变的模式下,用户文档参与到网页排名和文献相关性排名。
用户建模成为搜索过程的方式很多,是未来研究个性化搜索引擎,乃至搜索引擎的一项最主要趋势。
其巨大潜力在于:非传统意义上的用户参与(User engagement),而它还未完全显现在搜索引擎服务中,乃至个性化数字图书馆中。
2 应用:优化数字图书馆的检索系统学者用500个词汇查询Google、Yahoo、Live和Ask等4个搜索引擎,在42,758笔结果的基础上分析搜索引擎的搜索结果,发现Google和Yahoo偏好引用自家服务(如YouTube和Yahoo Answers)。
数字图书馆并没有类似问题。
然而,传统的个性化数字图书馆只有3种个性化搜索引擎的其中一种技术,而且较多从数据库检索系统的角度,而非网页搜索引擎的角度来发挥个性化服务。
采用第2种角度,可以丰富数字图书馆的信息组织和检索。
例如,在医疗领域中的博客(blog)和微博客(Micro blogging)可否算是医疗资源,是否为数字图书馆的信息资源?有学者研究:病患和护士描述它们的生活,而医生则在博客上发布保健相关信息,这种内容差异可被搜索引擎进行排名改进,以利用户模型搜索适当的知识来源。
那么,支持医疗团队的信息服务就需要数字图书馆的个性化搜索引擎。
电子服务(E-Service)包括:合作、定制、集成和适应等4种模式,个性化服务的精神是个人可在协作环境下贡献、接收定制的或个性化的信息推荐、经过一个综合系统或过程,获得及时或或时间内的支援投入。
这要求数字图书馆的个性化搜索引擎能提供精确的搜索结果,以节省终端用户在信息搜寻行为(Information seeking behavior)所花费的时间,好节省这段时间做其它方面工作。
个性化服务从来就不止局限在个性化数字图书馆里的信息提供环节,而是终端用户的整个工作流程中。
学者研究显示:基础科学研究员通常利用关键词在数据库或网络搜索引擎进行搜索,而未见图书馆资源或服务整合到他们的工作中,建议:①图书馆资源应该可透过它们专业网站而获取;②培养与关键行政部门的人事关系;③集中并管理校园学术信息到机构知识库。
目前,人们已用各种方式来建立新的数字图书馆系统。
例如,采用手动编辑用户兴趣到文本分类训练器,个性化目录系统结合用户兴趣和分类目录,比目录系统(categorization system,CAT)和表单系统(list interface system,LIST)更快、更容易发现相关信息。
再如,以本体论建立阿拉伯语和英语的产品目录检索系统(其自然语言不同需要双语本体优化搜索引擎)。
又如,根据用户文档(user profile)建立模糊概念网络的档案检索系统,按照用户偏好提供个性化网页和相关文件等。
这些研究显示了用户模型对数字图书馆的重要性。
用户不一致的相关性判断、排名和相关性标准,会改变个性化搜索系统的评价,特别是对排名相似性和相关性标准随机性的测量和估计。
基于这个理论,进行“用户行为-用户文档-用户建模-个性化服务”的新模型就有其必要性。
当数字图书馆开发个性化搜索引擎时,首先,搜索引擎需要能够有效地识别用户的利益,也为个人用户建立一个配置文件;其次,一旦这样的配置文件是可用的,搜索引擎需要与排名的方式相匹配的一个给定用户的利益的结果。
然而,用户不会主动地提出个人嗜好,所以要充分利用用户的历史行为记录,来挖掘用户行为的可能规律以及建立用户配置文档;再次,根据他们过去的查询记录,即关键词语来建立可进行语义近似推理的本体论。
在这个过程中,用户文档(User profiling)是个性化应用的基础元素,许多用户文档建立在用户兴趣而不是“用户不感兴趣”的内容上。