我国搜索引擎评价研究的现状_问题及对策_马志杰
- 格式:pdf
- 大小:516.19 KB
- 文档页数:7
中外搜索引擎研究的现状与发展夏旭李健康(第一军医大学图书馆广州510515)摘要:以WWW网络搜索引擎的发展历程为基础,综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。
同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。
关键词:搜索引擎研究进展综述信息资源管理由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines),用于快速搜索WWW网络乃至因特上的有用信息,使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。
基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。
英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。
可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。
1 搜索引擎的定义、检索机制、检索规则和词表应用1.1 定义搜索引擎,Search engines,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具。
实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。
它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对WWW资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。
搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。
它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。
第1篇一、报告概述随着互联网技术的飞速发展,大数据分析在各个领域得到了广泛应用。
搜索热榜作为反映公众关注焦点的重要数据来源,其背后蕴含着丰富的社会现象和趋势。
本报告通过对搜索热榜大数据进行深入分析,旨在揭示当前社会热点、用户兴趣以及潜在的市场机会。
二、数据来源与方法1. 数据来源本报告数据来源于我国主流搜索引擎,包括百度、搜狗、360等。
通过对搜索引擎热榜数据的收集,分析公众关注的热点事件、话题和关键词。
2. 数据处理方法(1)数据清洗:对原始数据进行去重、过滤无效数据等处理,确保数据质量。
(2)数据可视化:运用图表、地图等可视化手段,直观展示数据分布和趋势。
(3)相关性分析:运用统计学方法,分析关键词之间的关联性。
(4)趋势预测:结合历史数据,预测未来热点事件和话题。
三、数据分析结果1. 热点事件分析(1)时事热点:近期,我国疫情防控取得显著成效,疫情相关话题热度逐渐下降。
与此同时,国际形势、经济、民生等方面的话题逐渐成为焦点。
(2)突发事件:突发事件往往迅速成为搜索热榜,如地震、火灾等自然灾害,以及重大安全事故等。
(3)社会热点:社会热点事件如教育、医疗、住房等民生问题,以及反腐倡廉、社会公平等话题,备受关注。
2. 用户兴趣分析(1)行业关注:互联网、科技、金融等行业发展迅速,成为用户关注的焦点。
(2)兴趣爱好:影视、娱乐、游戏等领域的话题热度较高,反映了用户多样化的兴趣爱好。
(3)生活消费:随着生活水平的提高,用户对美食、旅游、家居等方面的关注度逐渐增加。
3. 关键词分析(1)关键词热度:通过对关键词热度进行分析,可以发现当前社会关注的热点问题。
(2)关键词相关性:分析关键词之间的相关性,有助于了解公众关注话题之间的联系。
(3)关键词趋势:观察关键词趋势,可以预测未来可能的热点话题。
四、市场机会与建议1. 市场机会(1)热点事件营销:结合热点事件,进行有针对性的营销活动,提高品牌曝光度。
(2)行业发展趋势研究:关注行业发展趋势,为企业提供市场策略建议。
现有搜索引擎的缺陷及其未来十四种趋势-搜索引擎论文-图书档案学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——目前,人们把搜索引擎分成三代。
第一代是Yahoo的人工整理的目录方式,第二代是Google开创的由爬虫采集海量数据,用户通过关键字检索的机器搜索。
第三代是所谓的通过自然语言检索。
笔者认为真正意义上的搜索引擎,只有第一代和第二代,第三代搜索只是在技术上的提升。
现有的搜索引擎经过十几年的发展,虽说已贴近人们的需求,但也逐渐暴露出一些问题和不足。
在此,笔者对搜索引擎存在的缺陷及未来发展的趋势谈点个人体会,希望能为搜索引擎的开发提供一点帮助。
1现有搜索引擎的缺陷缺陷一:首先,搜索引擎的选择需根据经验来初步选定,目前尚未形成一套固定的选择原则和方法。
缺陷二:搜索引擎的信息覆盖率、查全率偏低。
美国科学期刊Nature上的一篇文章曾这样报道:即使最大的搜索引擎也只能覆盖现在网页资源16%,据美国NEC研究所两位博士的研究,目前的搜索引擎漏掉了84%左右的网页信息。
尤其是中文搜索引擎在信息规模、收录内容、标引深度等方面更是相距甚远。
中文信息资源以文化娱乐、商业信息为主体,学术信息匮乏。
目前,中文信息资源与西文相比只占5%左右。
因特网上有100多亿个网页,有着最大搜索量google目前也只能搜索33亿网页。
所以说,再大的搜索引擎都不可能有100%查全率,因此对用户来讲更多要求的是查准率。
的确是这样,当你没有选择到合适的引擎来查找你需要的内容时,你确实找不到。
缺陷三:专题性搜索引擎太少目前,大多搜索引擎都是综合型、通用的,使用者在搜索时不相关信息太多,找不到更深入的内容。
而可用的面向主题的引擎甚少,这对专业人士来说是非常不利的。
缺陷四:目录式搜索速度太慢,而机器人搜索的可用性又不尽如人意,相信每人都会有这样的感受,为了得到想要的结果,从搜索引擎返回的页面中细细检索,还常常需要更换关键字,最后也不一定能得到想要的答案。
我国搜索引擎评价研究的现状、问题及对策*马志杰
【摘要】从评价指标、评价方法、评价对象、评价主体四个方面对我国搜索引擎评价研究进行总结和分析,指出其存在研究团队薄弱;理论基础薄弱,缺乏创新性;实践活动薄弱,缺乏实证研究;绩效评价研究较少;综合评价方法不太成熟等问题。为促进该研究,应坚持定性与定量相结合的发展方向;坚持用户导向开展搜索引擎评价工作;坚持理论与实践相结合,加强实证研究与创新研究;建立权威的搜索引擎评价组织;加强绩效评价。【关键词】搜索引擎评价指标评价方法
Abstract:Thispapersummarizesandanalyzestheresearchtothefieldofsearchengineevaluationfromtheaspectsofevaluationindex,evaluationmethods,evaluationobjectsandevaluationsubjects.Andthenitpointsoutthemainproblemsinthecurrentsearchengineevaluationstudy,includingweakresearchteam;weaktheoreticalfoundation,lackofinnovation;weakpracticalactivities,thelackofempiricalresearch;lessstudyofperformanceevaluation;lessmaturecomprehensiveevaluationmethod.Topromotetheresearch,itshouldbetakentoadheretothecombinationofqualitativeandquantitativedevelopmentdirection,persistintheuser-orientedsearchengineevaluation,upholdthetheoryandpracticecombinetostrengthenempiricalresearchandinnovationresearch,establishtheauthoritativeevaluationorganization,andstrengthenperformanceevaluation.Keywords:searchengineevaluationindexevaluationmethod
随着互联网的迅速发展,搜索引擎已经成为互联网上访问全球信息资源的最重要的检索工具。搜索引擎的出现及其日益显著的重要性促进了关于搜索引擎的评价研究的发展。国内搜索引擎评价研究已经成为搜索引擎研究领域的一个热点问题,取得了一定的成果,然而也存在着一些不足。笔者现从评价的指标、方法、对象、主体4个方面就搜索引擎评价研究发展状况做出全面、系统的总结和分析,并在此基础上,深入探讨当前搜索引擎评价研究中存在的主要问题和发展策略。1搜索引擎评价研究发展状况1.1搜索引擎评价指标1995年开始,国内开始了对搜索引擎进行比较和评价,但是由于搜索引擎自身的功能和规模问题,以及缺少搜索引擎评价技术的支持,对搜索引擎的评价、比较绝大多数仍然以定性描述为主[1][2][3][4]。这种评价方法局限于对单个搜索引擎各因素的描述和某几个搜索引擎之间的比较,却不能从整体上评价各搜索引擎的优劣。随着搜索引擎评价研究的发展,国内出现了成套的整体性的搜索引擎体系评价研究。1997年,曾民族在综合国内外搜索引擎评价研究成果的基础上首次提出了一个综合性的搜索引擎评价指标体系,其中包括数据库规模和内容(覆盖范围、索引组成、更新周期)、索引方法(自动、人工索引,用户登录)、检索功能(布尔检索(含嵌套)、截词检索、字段检索、大小写有别、概念检索、词语加权、词语限定、特定字段限定、缺省值、中断退出、重复辨别、上下文关键词、查询集操作)、检索结果(相关性排序、显示内容、输出数量选择、显示格式选择)、用户界面(帮助文件、数据库和检索功能说明、查询举例)、查准率和响应时间7个方面的指标。这是国内最早的有关搜索
11RESEARCHONLIBRARYSCIENCE
*本文系国家社科基金青年项目“网络信息资源的绩效评估体系研究”(项目编号:09CTQ029)的研究成果之一。
DOI:10.15941/j.cnki.issn1001-0424.2013.04.007引擎的整体性体系评价研究[5]。此后,各种综合性指标体系不断出现,无论是深度还是广度都在不断加强。例如,张莉扬在国外研究的基础上,结合搜索引擎的新变化及新特点,提出了一整套对搜索引擎进行性能评价与比较的标准,其中创新性地提出了2个新的搜索引擎定量评价指标:重复率和互链接率。该指标体系包括索引数据库构成(标引深度、更新频率)、检索功能(布尔检索、邻近检索、截词检索、字段检索、加权检索、大小写敏感(英文)、概念检索、自然语言检索、多媒体检索、多语种检索、相关反馈、多内码处理(中文)、检索效果(响应时间、查全率、查准率、重复率、死链接率)、检索结果显示(结果显示格式的种类、每种显示格式的内容、检索结果排序依据)以及用户负担(用户界面、相关文献、信息过滤)5个方面[6]。陶跃华、孙茂松、王锡钢根据系统工程的基本思想,提出了包括索引构成(标引数量、标引范围、标引更新频率)、检索功能(基本检索、高级检索)、检索效果(查准率、检索时间)、检索结果(显示内容、显示结果数限制)、用户交互(用户界面、帮助信息、检索技巧)5部分的因特网搜索引擎评价指标体系[7]。凤元杰、刘正春、王坚毅建立了搜索引擎主要性能评价指标体系,其中创新性地提出了“相对查全率”和“相对查准率”的概念和计算方法。该指标体系包括索引数据库的构成(标引的文件种类、标引深度和更新频率)、检索功能(布尔检索、邻近检索、截词检索、字段检索、加权检索、区分大小写(英文)、模糊检索、概念检索、自然语言检索、多媒体检索、多语种检索、相关信息反馈检索、多内码处理(中文))、检索效果(相对查全率、相对查准率、检索时间)、搜索引擎的“亲和度”(个性化查询界面、检索帮助信息、相关性排列、格式转换、交叉语言检索与翻译、信息过滤、信息挖掘、信息推送、学习功能)[8]。金玉坚、刘焱提出了搜索引擎检索效果评价指标体系,分为索引数据库(标引数量、标引深度、标引范围、更新频率、索引组成)、检索功能(布尔检索、截词检索、邻近词检索、字段检索、区分大小写(英文)、加权检索、模糊检索、相关信息反馈检索、概念检索、自然语言检索、目录式浏览检索、多内码处理(中文)、多语种检索、多媒体检索)、检索结果(相对查全率、相对查准率、响应时间、相关性排序、重复率、死链接率、显示内容、输出数量选择、显示格式选择)和用户负担(个性化查询界面、帮助文件、查询举例、信息过滤、格式转换、交叉语言检索与翻译、信息挖掘、信息推送、学习功能和自然语言接口)4部分,同时还提出了网络时代新型查全率和查准率的算法[9]。王炼从选择搜索引擎(搜索引擎的大小和覆
盖范围、更新频率、新颖度和死链率)、使用搜索引擎(检索式的构造和检索功能)、认识搜索结果(响应时
间、查全率和查准率、输出结果的显示格式与内容、排序)和用户负担(帮助、后处理功能、信息过滤和辅助功能)等方面建立了搜索引擎评价指标体系[10]。
判断搜索引擎成功的标准是其用户量,搜索引擎技术的优势若不能被广大用户认可,其价值就难以体现。只有站在广大用户的角度,才能真正体现搜索引擎评价的价值所在。例如,蒋伟伟从用户的角度出发,引入了用户满意度的概念并以CCSI(ChineseCusto-merSatisfactionIndex,中国顾客满意度指数)为测
评理论模型,依据网络搜索引擎的具体情况基于CCSI模型进行改良,构建了一套网络搜索引擎评价体系,包括企业形象(品牌形象、企业实力、用户口碑)、预期质量(预期查找全面性、预期查找准确性、预期查找时间、预期服务效果)、感知质量(网页的全面性、检索方式、对网页的描述能力、更新速度、检索结果的相关性、响应时间、人性化服务、稳定性)、感知价值(质量级别评价、时间级别评价)、用户满意度(总体满意度、首选可能性)、用户抱怨(对产品的抱
怨、对服务的抱怨)、用户忠诚度(转移检索途径的可能性、继续使用的可能性)7个部分[11]。陈艳、廖文
杰从信息技术接受模型出发,探讨如何从用户的信息接受的效果来评价搜索引擎,构建了基于信息技术接受模型的搜索引擎评价体系,包括影响感知的有用性的指标(收录信息的质量、反馈信息的数量和质量、信息组织的有效性)和感知的易用性的指标(界面的人性化、检索的功能、帮助系统的完备性)[12]。宋迪、
吕英杰和李一军从用户角度出发,将传统指标体系中的技术相关指标从用户角度进行重新描述,整理出13个用户易于感知和衡量的评价指标,包括感知的全面性、感知的准确性、检索功能、响应时间、帮助信息、感知的死链接率、检索结果输出、感知的网页重复率、界面友好程度、常用信息服务、音乐服务、图片服务、贴吧服务,将用户按其特点进行分类,总结出不同用户对搜索引擎各个指标关注角度的差异,从而为搜索引擎的发展方向提供了指导意义[13]。
随着广大用户服务意识的逐渐提高,仅仅关注用户负担已经不能满足用户使用搜索引擎的需求,还需要注重用户体验。国内学者早期的搜索引擎评价研究
只是从系统角度评价,近年来一些学者已经开始关注用户的主观感受。搜索引擎用户体验评价是目前搜索引擎评价指标体系发展的一个新特点。宛玲、杨秀丹、杜晓静认为对搜索引擎的检索功能的评价主要应从收
21图书馆学研究2013.4