网络信息检索研究论文
- 格式:doc
- 大小:37.00 KB
- 文档页数:4
信息检索结课论文题目:基于网络的信息检索应用研究学院:计算机科学与工程学院专业:软件工程学生姓名:学号:授课教师:基于网络的信息检索应用研究王扬波(武汉大学计算机学院电子与通信工程)摘要:网络信息检索一般指因特网检索,是通过网络接口软件,用户可以在一终端查询各地上网的信息资源。
这一类检索系统都是基于互联网的分布式特点开发和应用的,即:数据分布式存储,大量的数据可以分散存储在不同的服务器上;用户分布式检索,任何地方的终端用户都可以访问存储数据;数据分布式处理,任何数据都可以在网上的任何地方进行处理。
本文对基于网络的信息检索应用进行研究,并分析了其局限。
关键词:信息检索;网络;分布式;Research on the application of information based on NetworkXX(xx)Abstract: network information retrieval generally refers to the Internet search, is through the network interface software, users can query the information resources in the Internet in a terminal. This kind of retrieval system is based on the Internet. That is, the data can be distributed and stored in different servers. Users can access the storage data. Data can be processed in any part of the Internet. In this paper, we study the application of information retrieval based on network, and analyze the development trend.Key words: information retrieval; network; distributed;1 网络信息检索简介随着信息技术的飞速发展,信息已成为全社会的重要资源,对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。
信息检索毕业论文信息检索毕业论文近年来,随着互联网技术的飞速发展,信息检索成为了人们日常生活中不可或缺的一部分。
无论是在学术研究、工作还是娱乐休闲方面,人们都需要从海量的信息中快速准确地获取所需内容。
因此,信息检索技术的研究和应用变得尤为重要。
信息检索是指通过计算机技术,根据用户输入的查询词,在海量的数据集中找到与之相关的信息并返回给用户。
而信息检索毕业论文则是对信息检索技术的研究和应用进行深入探讨的学术论文。
本文将从信息检索技术的发展历程、关键技术和应用领域三个方面,介绍信息检索毕业论文的主要内容。
一、信息检索技术的发展历程信息检索技术的发展经历了多个阶段。
最早期的信息检索系统是基于关键词匹配的,用户通过输入关键词,系统根据关键词在文本中的出现频率进行匹配,返回相关的文档。
然而,这种简单的匹配方式存在着诸多问题,如无法处理语义上的相似性,容易受到词义歧义的影响等。
随着自然语言处理技术的不断发展,信息检索技术也得到了极大的改进。
短语匹配、语义分析、主题模型等技术的引入,使得信息检索系统能够更准确地理解用户的查询意图,并返回更相关的结果。
此外,推荐系统的兴起也为信息检索技术注入了新的活力,通过分析用户的历史行为和兴趣,为用户提供个性化的搜索结果。
二、关键技术信息检索毕业论文通常会对关键技术进行深入研究。
其中,索引技术是信息检索的核心。
索引是对文本进行结构化和组织化的一种方式,以便于快速检索。
常见的索引技术包括倒排索引、正排索引等。
倒排索引是一种将文档中的关键词映射到文档的数据结构,能够快速找到包含关键词的文档。
正排索引则是将文档按照一定的顺序进行排列,以便于快速访问。
索引技术的优化是信息检索研究的一个重要方向,如压缩索引、分布式索引等。
另外,语义分析和自然语言处理技术也是信息检索的重要组成部分。
语义分析能够帮助系统理解用户的查询意图,通过分析查询词的上下文信息、词义关系等,提供更准确的搜索结果。
自然语言处理技术则可以对文本进行分词、词性标注、句法分析等处理,以便于系统更好地理解文本内容。
文献信息检索与利用论文(1)随着信息时代的快速发展,信息的数量和质量不断增加,我们在使用信息时面临的主要问题是检索和利用。
本文将探讨如何进行文献信息检索与利用。
1. 文献信息检索文献信息检索是将需要的信息从大量的文献资料中筛选出来的过程。
正确的文献检索方法能够大大提高检索效率和检索准确率。
以下是几种常见的文献检索方法:1.1. 主题词检索法主题词检索法是通过文献作者、时间、内容等关键词来检索相关文献的方法。
主题词检索法可以分为两种类型:一种是手工编纂主题词检索,另一种是自动生成主题词检索。
1.2. 关键词检索法关键词检索法是利用特定的关键词进行文献搜索和检索。
关键词检索法可以根据检索的内容特征,将关键词分为主题词和自由词两种类型。
1.3. 全文检索法全文检索法是利用计算机对大量文献进行全文检索,从而进行相关文献搜索的方法。
全文检索可以搜索出所有与特定关键词相关的文本。
2. 文献信息利用文献信息利用是指根据检索出来的文献信息,对其中的内容进行筛选、处理、整理和利用的过程。
以下是几种常见的文献信息利用方法:2.1. 文献综述文献综述是将文献信息进行综合、分析、归纳和总结,以解决某一特定问题或研究领域的方法。
文献综述可以帮助研究人员更好地了解某一特定问题或研究领域的研究动态和研究方向。
2.2. 文献分析文献分析是基于经验理论、方法学和逻辑学的原则对查找的文献进行分析,目的是解决特定问题或对特定领域进行理论建设和实证研究的方法。
2.3. 文献撰写文献撰写是根据文献信息编写相关的文章、报告等专业文献的方法。
在撰写文献时,需要遵循严格的规范和格式,同时也需要根据文献信息的要求进行相关的处理和利用。
综上所述,文献信息检索和利用是进行学术研究和专业工作时必不可少的环节。
正确的文献检索可以帮助我们高效地获取相关文献信息,而科学的文献信息利用也将对我们的学术研究和专业工作带来巨大的帮助。
信息检索教学在网络环境下的现状及改革建议的论文信息检索教学在网络环境下的现状及改革建议的论文在当前竞争日常激烈的信息化社会中,如何着手来加强现代化的信息教育,大力培养学生的创新意识,已经成为了当前教育的重要问题,高校的文献检索课程也正是为了更好满足这一需要而存在的。
文献检索能力可以有助于学生自学能力的培养,因为在文献检索的过程中,也可以培养学生的批判性思维和解决问题的能力。
随着互联网越来越发达,信息资源也就更加多载体化,这一切都迫切需要对目前的信息检索课程教学进行改革,以适应社会发展的要求。
1文献教学课程的改革目标文献检索课程本质上是一种较为重要的科学方法课程,其重点就在于传播文献检索的技巧技能,以及对图书馆资源进行有效利用方面的知识。
伴随着当前信息化浪潮的到来,文献检索课程迫切需要转变以往的教学方式,重点培养学生的创新思维能力,增强学生获取信息的能力,来满足社会对于高级检测人员的需求。
1.1加强学生的信息概念信息概念主要是指人们对于信息需求所产生的自我意识,本质上是人们要从信息的角度来观察、感受所有的行为状况,进而来有效地对信息进行利用的能力。
有意识地来培养学生的信息能力,可以帮助他们从各个方面来找到有价值的信息,提高他们的信息意识,帮助学生更加了解信息的内涵。
1.2增强学生的信息获取能力在当前的高校中,随着数字化图书馆的建设,学生已经可以在图书馆中获得海量的信息资源,学生也可以有针对性地选择各种不同的信息载体来制定有效的信息检索策略。
学生需要积极地把自身所学到的理论知识应用到实际的检索过程中,以便可以高效率地找到自己需要的信息,信息的获取需要学生具备完整的信息工具使用能力、筛选信息的能力、多线程同时处理各种信息的能力[1].2当前的信息检索教学现状2.1教学内容严重脱节当前使用的信息检索教材内容严重滞后于时代的发展,教材的主要内容仍旧处于数据库理论方面的旧知识,很少涉及目前迫切需要的信息安全意识、网络道德培养等方面的内容,这样的教材现状也就从根本上使得学生的信息意识不高、信息观念较为淡薄,这样的教材培养出来的学生自然也就达不到信息化社会的需要。
常见的信息检索技术与文献检索应用-文献检索论文-图书档案学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——引言检索技术的应用是在图书馆建设发展过程中对电子资源查询和整合的重要方式,也是提高学生信息素养和技能的必要手段。
因此,检索技术的应用是教育界十分关注的课题。
1 高校文献检索技术的发展情况从目前来看,我国多数高校图书馆电子资源建设及其文献检索教学处在一个相对基础的阶段,检索技术运用程度还很浅显,并不能全面满足用户的需求。
因此,非常有必要对当前几种重要的检索技术进行分析探讨,以此提升电子资源建设中检索技术运用的程度,从而让用户快速有效查询其所需要的信息,如果高校图书馆想实现这一目标,首先要对图书馆数字资源建设中存在的分布式异构存储问题进行解决。
唯有真正的解决了这个问题,才能够为用户提供一体化服务体验,从而全面满足用户的需求。
2 目前常见的信息检索技术2. 1 SFX 技术SFX 即通常所说的特效。
这是一种新型的数字资源聚合软件系统。
其最早是由比利时的H萨姆堡尔等人提出。
后随着更多学者的加入,才实现了该信息系统建设方面的进一步优化。
这种技术的诞生在行业内备受关注,同时也吸引了诸多数字图书馆的目光。
目前在全球来说,使用这种技术的用户已经达到了将近2 000家。
作为一种相对成熟的聚合技术,SFX 发展基于OpenURL 协议展开。
借助这个协议,可以实现将各种复杂的数据进行整合,从而将数据的检索方式统一化[1]. 用户在进行资源的使用和处理的过程中可以实现对资源的不同转化。
从一种资源转化到另外一种资源。
借助这种OpenURL 协议,用户只需要简单的几步处理就能够实现资源的搜索。
而OpenURL 协议的优势表现在以下几个方面:1)OpenURL 技术通过协议实现数字资源的无限扩大,任何资源都能够能够通过这种方式实现链接聚合;2)在进行检索的过程中,OpenURL 协议的使用可以更好的实现资源间的互补兼容,提升整个信息资源搜索的效率。
关于信息检索的论文信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。
下面我收集了有关信息检索的论文,供大家参考。
篇一:信息检索的论文导读:信息社会,人们把信息、物质与能量一起称为人类社会赖以生存发展的三大要素,信息是促进社会经济、科学技术以及人类生活向前发展的重要因素,一个国家的科技进步和社会发展起来越取决于对信息的开发与利用,谁能充分开发和有效地利用信息资源,社会的信息化环境使社会对人才的要求更高,信息素质成为现代化人才必备的基本素质之一,信息呈爆炸式增长,信息载体也发生了巨大的变化,除传统纸介质信息外,每天都有大量的磁载体信。
信息社会,人们把信息、物质与能量一起称为人类社会赖以生存发展的三大要素。
信息是促进社会经济、科学技术以及人类生活向前发展的重要因素。
一个国家的科技进步和社会发展起来越取决于对信息的开发与利用,谁能充分开发和有效地利用信息资源,谁就能抢占科学技术发展的制高点。
社会的信息化环境使社会对人才的要求更高,信息素质成为现代化人才必备的基本素质之一。
当今,信息呈爆炸式增长,不仅如此,信息载体也发生了巨大的变化,除传统纸介质信息外,每天都有大量的磁载体信息、电子版信息及各类网上信息涌现出来,这些浩如烟海的信息的多样性、离散性与无序性及其复杂的检索界面和使用方法,增加了信息利用的难度,极大地影响了人们获取信息的质量与效率。
信息检索方法是实现检索方案中的检索目标所采用的具体操作方法和手段的总称。
检索的方法很多,要检索过程中应根据检索系统的功能和检索者的实际需求,灵活运用各种检索方法,以达到满意的检索效果。
而检索方法大致有以下几种:1、顺查法,2、倒查法,3抽查法,4追溯法,5分段法,6浏览法。
顺查法:顺查法即根据课题所涉及的学科范围,从有关问题提出的最初年代入手,由远而近、逐年查找,直到查找的信息资料充足为止的方法。
这种方法适用于对某一课题的普查,能查找到相当长时期内国内外发表的全部相关文献资料,这种方法查得的信息资料比较全面,漏查的可能性小,查全率较高。
信息检索论文(完整版)网络信息检索工具研究摘要网络信息资源的迅猛增长,使人们获得有用信息越来越困难,网络检索工具应运而生,文章介绍了网络信息检索工具的类型和功能,提出了检索工具的发展趋势。
关键词因特网;网络检索;检索工具Abstract The quick increase of net in formation makes it more and more difficult for people to get useful information. Net search tools emerged as the times require. The paper introduce several kinds and functions of net search tools , put forward the development tendency of net search tools.Key words Internet ; net search ; search tool席卷而来的因特网正将全世界的丰富信息资源带到我们每一个人面前,已成为知识经济时代不可或缺的基本工具。
然而在这样无边无尽的信息世界,找寻所需要的信息却成为一个极大的难题。
网络信息检索工具由此产生并迅速繁荣发展,毫无疑问地成为这一信息海洋的航标与灯塔。
了解网络信息检索工具,熟悉其功能,将大大提高我们的检索效率。
1 网络信息检索工具的类型网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。
按检索资源的类型,可分为两大类:即非web 资源检索工具和web资源检索工具。
1.1非web资源检索工具非web 资源检索工具是以FTP、Telnet、Gopher等为检索对象。
(1)FTP类的检索工具这是一种实时的联机检索工具,用户首先要登陆到对方的计算机,登陆后即可以进行文献搜索及文献传输有关的操作。
大数据的概念、技术与挑战学院:信息科学与技术学院专业名称:计算机应用技术学号:姓名:指导教师:时间:大数据的概念、技术与挑战【摘要】计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来.数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据已经成为普遍关注的话题.大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生.对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比.在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析.最后归纳总结大数据时代所面临的新挑战.【关键词】大数据,技术,挑战,数据分析,云计算近年来,伴随着物联网、云计算、移动互联网等新技术的迅猛发展,数据正以前所未有的速度不断增长和积累,大数据时代已经到来,这引起了产业界学术界科技界和政府机构的广泛关注。
大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度炒作的危险.大数据的基本概念、关键技术以及对其利用上均存在很多的疑问和争议。
一、大数据的基本概念及大数据时代产生的必然数据是云计算技术的延伸,更是社会进步和发展的必然结果,大数据时代的到来引领了未来IT技术发展的战略走向。
在信息和网络技术飞速发展的今天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,数据量也随之快速增长。
同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂贵的大规模数据存储和处理变得十分经济,也使得大数据的存在成为可能。
传感器数据也是大数据的主要来源之一。
在物联网时代,成万上亿计的网络传感器嵌入在数量不断增长的智能电表、移动电话、汽车等物理设备中,不断感知、生成并传输超大规模的有关地理位置、振动、温度、湿度等新型数据。
二、大数据的特点及关键技术分析1.大数据的特点大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点大数据具有以下4个特点,即4个V:( 1) 数据体量( V olumes) 巨大大型数据集,从TB级别,跃升到PB级别;( 2) 数据类别( V ariety) 繁多数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;( 3) 价值( V alue) 密度低以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟;( 4) 处理速度( V elocity) 快包含大量在线或实时数据分析处理的需求,1秒定律。
重庆大学硕士学位论文中文摘要摘要问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。
目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。
本文正是对中文问答技术研究的一个探索。
基于自然语言处理的中文问答系统包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ模块五个子系统。
信息检索模块是自动问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响,同时它也是智能咨询系统、机器对话等研究的重要方面。
本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。
我们不但要尽量检索相似度高的文档,而且还希望检索出来的文档的质量尽可能的好,而传统的信息检索中常用的四种数学模型:布尔模型、模糊逻辑模型、向量模型和概率模型以及基于语言模型的信息检索模型在计算相似度的时候都没有考虑到问题的质量。
本文通过最大熵方法用困惑度、序列模型、词的搭配作为特征来评估文档的质量,最后利用翻译模型把问题质量成功的集成到检索模型中。
最后,我们从社区问答系统中抽取问答对作为语料进行测试,试验结果表明引入文档质量到检索模型中比传统的检索模型能取得更好的试验结果。
关键词:问答系统,信息检索,文档质量,语言模型,最大熵我本沉默ELIZA扮演一个心理学专家的角色,采用启发式的心理疗法,通过反问应对精神病人的提问,诱导病人不停地说话,从而达到对病人进行心理治疗的目的。
1971年,Winograd利用MACLISP语言开发了SHRDLU问答系统。
SHRDLU包括解析器、英语语法识别器、语义分析器、一般问题解答器等。
该系统主要是用于儿童积木话题,并且取得了较好的效果。
计算机文献检索论文电子计算机文献检索系统是指广泛利用电子计算机和现代化通讯技术,进行文献加工、检索和远距离传递的自动化系统。
下面是店铺为大家整理的计算机文献检索论文,供大家参考。
计算机文献检索论文篇一专利文献计算机检索技术的最新发展[摘要]通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。
机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍,而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。
[关键词]专利文献计算机检索语义检索图像检索[分类号]G3521 前言近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展,专利文献的计算机检索技术正成为情报检索领域研究的热点。
下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。
2 多语言混合检索专利文献是由各国、各地区专利局或世界知识产权局出版的官方文献,因此一般以各局官方语言出版。
虽然大部分专利文献是英语文献,但是仍然存在大量日文、中文、德文、法文及其他语种的文献。
出版语言的多样性给专利文献的检索和利用带来了极大的障碍,要实现多语言混合检索,机器翻译是必不可少的技术。
目前一些专利局在其官方网站上推出了机器翻译系统,例如我国国家知识产权局提供有汉英机器翻译,日本特许厅提供有日英机器翻译,韩国知识产权局提供有韩英机器翻译等,上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用。
随着计算机技术的发展,机器翻译的技术也迅速发展,从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等。
尤其是近年来语言学和人工智能技术的发展,以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点。
网络信息检索研究论文
[摘要]搜索引擎是人们使用Internet信息资源的重要工具。
本文对目前的中文搜索引擎进行了简要的分析,指出了其存在的缺陷和发展的方向。
[关键词]信息检索中文搜索引擎存在的问题发展方向
随着Internet信息资源的迅速增长,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了迫切需要解决的问题,从1995年开始出现的信息检索工具——搜索引擎很好地解决了这一问题。
然而各种搜索引擎,特别是尚处于发展初期的中文搜索引擎还存在着很多的缺陷有待改进,本文旨在分析目前中文搜索引擎存在的主要问题,并为解决此类问题提出一些建议和方法。
一、搜索引擎的概念和及类型
搜索引擎又称检索引擎,是指运行在Internet上,以信息资源为对象,以信息检索的方式为用户提供所需数据的服务系统,主要包括信息存取、信息管理和信息检索三大部分。
目前,中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎(又称全文搜索引擎)和元搜索引擎。
1.目录式搜索引擎。
目录式搜索引擎是以人工或半人工方式收集信息,建立数据库,由编辑人员在访问了某个web站点后,对该站点进行描述,并根据站点的内容和性质将其归为一个预先分好的类别。
由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度较高,导航质量也不错。
但因其人工的介入,维护量大,信息量少,信息更新不及时都使得人们利用它的程度有限。
国内著名的新浪、搜狐、中文雅虎都属于这种类型。
2.机器人搜索引擎。
这是一种目前运用较广泛的搜索引擎。
国内以百度,google、天网为代表。
它是使用自动采集软件Robot,搜集和发现信息,并下载到本地文档库,再对文档内容进行自动分析并建立索引。
对于用户提出的检索要求,通过检索模块检索索引,找出匹配文档返回给用户。
机器人搜索引擎具有庞大的全文索引数据库。
其优点是信息量大,范围广,较适用于检索难以查找的信息或一些较模糊的主题。
缺点是缺乏清晰的层次结构,检索结果重复较多,需要用户自己进行筛选。
3.元搜索引擎。
元搜索引擎是一种调用其他搜索引擎的引擎。
它是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索。
中文元搜索引擎开发较少,较成熟的则更少,万纬搜索是目前有一定影响的中文元搜索引擎。
二、现阶段中文搜索引擎存在的主要问题
1.信息覆盖面有限。
现阶段搜索引擎所覆盖的数据库的规模是非常有限的,据美国科学期刊Natures一篇报告中称,全球最大的搜索引擎也只能覆盖现有网页的16%。
中文搜索引擎因起步慢、中文信息所占互联网全部信息的比例小(只占全部网络信息的5%)等原因在这方面尤为突出。
2.查全率不高。
查全率是指检索出的相关信息量与存储在检索系统中的全部相关信息量的百分比,是判断检索系统质量的度量之一。
国内绝大多数的网站组织的信息大多都是通过浏览方式获得内容。
即使是经过精心组织、编排非常合理的网站,也会有70%~80%的网页不能被搜索引擎检索到。
中文目录式搜索引擎因需人工介入、维护量大,在这方面表现较明显。
3.查准率较低。
查准率更是判断检索系统质量的重要尺度。
是指系统所检索到的真正与查询内容相关的文档占检索出的所有文档数的百分比。
造成查准率低的原因是,部分搜索引擎的分类体系与科学知识体系之间缺乏内在联系;类目之间逻辑关系模糊,导致检索路径与搜索引擎类目错位;信息加工深度不够;检索功能单一;检索词的专指性较差;大部分的检索结果是题录式而非全文式,其内容简单等等。
机器人搜索引擎的分类和索引缺乏人工的参与,其查准率不如目录式搜索引擎,且检索结果中还含有大量的重复、虚假的信息。
4.专业性的搜索引擎发展迟缓。
专业性的搜索引擎是为专门收录某一行业,某一主题的信息而建立,能够提供专题信息查询服务的搜索引擎。
目前中文搜索引擎大多是综合性的,能同时收录各行业、各学科的多种信息,但在反映某一行业或某一专题的信息方面很难做到全面、精确,不能给用户提供特定的信息服务。
这就使得专业人员,特别是某一领域的学者、专家不愿意利用中文搜索引擎去查询资料。
5.检索功能方面存在缺陷。
一是检索中符合布尔逻辑运算符的搜索引擎极为有限;二是关键词检索输出的结果相关度排序方式杂乱,不能根据用户需要来选
择信息输出的方式;三是多数的搜索引擎是面向主题搜索不是面向用户搜索,不能重复利用用户检索过的成果,更不能对特定的用户进行定题跟踪服务;四是检索网站的主页不规范,有些太简,有些又太繁,而且广告内容太多,无法进行有效检索。
三、中文搜索引擎的发展方向
1.提高查全率。
首先是需要开发分布式的系统。
这种系统可以把各个接点当作是新的信息资源,扩大数据库的规模,正在兴起的元搜索引擎属于这种系统,它在接受了用户的查询命令后,可同时用多个搜索引擎进行查询;二是把专业数据库资源纳入自己的检索范围。
除了Web信息资源外,网上还有大量的非Web信息资源,如联机检索系统、光盘检索系统、专业数据库系统。
如中文搜索引擎能把这些Web和非Web资源结合起来使用,即使有的只能查到题录、文摘等内容,也大大扩展了检索范围,能为用户提供较全面的检索需求。
2.提高查准率。
需解决以下几个难关:首先需提高搜索引擎的信息过滤功能。
在对网络信息进行集中的搜集之后,搜索引擎还需对这些信息进行鉴别和过滤,即剔除大量的无用信息,而把有效的信息提炼出来并加以聚集;第二则是需对专家过滤后的信息进行一定的检索标引,并给予相关的标识符号,如关键词、分类号、主题词等各种标识,其关键是利用智能检索技术,提高准确性;把检索的结果存储在相应的数据库中,并由URL与Internet建立链接供用户使用;还需注意信息定期更新,以保证信息的新颖性和链接的可靠性。
3.建立垂直化专业领域的搜索引擎。
网络用户所从事的职业千差万别,不同的用户对信息搜索往往有不同的要求。
综合性的搜索引擎收录的范围太广、太大无法满足某一特定的需求。
垂直化专业搜索引擎则可解决这一难题。
它只面向某一特定的领域,专注于自己的特长和核心技术,能保证对该领域的信息的收录齐全与更新迅速。
在提供专业信息方面有着大型综合搜索引擎无法比拟的优势,所采用的技术都是些较成熟的技术。
中文垂直化专业搜索引擎的发展已取得了一定的成功,如新浪的新闻搜索,博客搜索、雅虎的个性化旅行路线搜索、百度的MP3搜索、Google的学术搜索,航班搜索等都为用户提供了较好的搜索功能,为今后的继续发展奠定了基础。
4.搜索引擎的智能化发展。
智能搜索引擎是未来搜索引擎的发展趋势。
可以通过自然语言与用户交互,最大限度地了解用户的需求。
智能检索一是表现在搜
索引擎技术的智能化,研究重点放在自然语言处理技术和人工智能技术的研究上;另一表现是体现在搜索引擎面向检索者的智能化,它致力于通过分析检索者的检索和浏览行为来学习检索者的需求,利用搜索引擎现有的服务有选择地为检索者提供个性化的服务。
5.加强搜索引擎的检索功能。
首先需强化全文检索功能。
利用Robot实现对站点页面文字内容的全面检索技术。
比起目录检索,全文检索提供了全新的检索功能,可以直接根据文献资料的内容进行检索,支持多角度、多侧面地综合利用信息资源,全面、准确、快速是衡量全文检索系统的关键指标;同时改善用户检索界面,设计简洁、明白的界面引导用户进入检索状态;更方便、实用的检索技巧的利用,中文搜索引擎需简化和统一语法规则,如布尔逻辑检索符号的利用:空格或“*”代替“与”、“+”代替“或”、“-”代替“非”,规范语法符号,节省用户的检索时间;还需研发查询图像、声音、图片和电影的搜索引擎。
6.完善元搜索引擎。
元搜索引擎弥补了独立搜索引擎不全的特点,提高了检索的全面性。
现开发出的中文元搜索引擎的数目很少,还有诸多缺陷,需在各方面进一步改进。
元搜索引擎要对各独立的信息特色进行较细致的调查,以确定自己要收录的范围;在对目标搜索引擎的组织中突出独立搜索引擎的检索特色,并设计各搜索引擎之间的检索方式的转换算法,提高用户检索行为的针对性;建立更为灵活的,面向用户的信息检索服务。
检索界面要统一和友好,检索方法的设置要提供给用户更多的自由空间,使用户可以按照自己的意愿合理的组织检索式;在检索结果的显示中要开发出一个有效的检索结果去重、选择、排序和优化算法,这是中文搜索引擎开发中的一个重点和难点。
参考文献:
[1]孙建军成颖:信息检索技术[M].北京:科学出版社,2004
[2]王丰:国内中文搜索引擎研究[J].网络通讯与安全,2007,(8)。