当前位置:文档之家› 中文信息检索

中文信息检索

中文信息检索
中文信息检索

浅析《红楼梦》中的“哭态”

班级:10级汉语言文学(1)班姓名:胡圣凤学号:51003011028

一.课题分析

1.知识背景

我的中文信息检索的课题名称是《浅析<红楼梦>中的“哭态”》,主要研究的是在鸿篇巨著《红楼梦》中人物的各种不同的“哭态”,以及其所体现的性格特征。该课题的学科范畴是属于文学类。

作为一部经典巨著,《红楼梦》可谓一部百科全书,具有极高的欣赏价值和研究价值。《红楼梦》中有言道:“满纸荒唐言,一把辛酸泪。都云作者痴,谁解其中味?”品红楼之味,尽在这一“言”一“泪”之中。研究《红楼梦》却忽视曹雪芹的“泪”,不可能更好地理解作家及其作品。用“一把辛酸泪”哭成此书的曹雪芹十分重视人物“哭态”的描写,故书中人物的哭态描写,出现频繁,表现细腻,具有重要的艺术价值。然而,相对于红学研究的其他领域,对《红楼梦》中人物“哭态”的研究少之又少,且不够系统和深入,是红学研究中尚待探讨的重要课题。异彩纷呈的情态,是人物内心的情绪、情感的外部流露,作者以“哭态”从不同侧面、不同层次上反映了人物的性别、年龄、身份、地位和文化修养。而读者则可从这些不同的情态中去认识、理解人物的个性,乃至对他们命运及其结局的关怀。

2.概念分析和扩展

主要检索词为:《红楼梦》;哭态

可以进一步拓展为:《红楼梦》;哭态;人物性格

二.检索过程

1.构建检索策略

1).首先确定要检索的没内容,核定正确的检索词:《红楼梦》中的“哭态”。

2).输入合理的计算机检索式:《红楼梦》并含“哭态”或含人物性格

3).确定本课题的学科范围是文学类学科。

4).熟知各种检索工具的特点,选择恰当的检索工具。

5).选择合适的检索途径,恰当运用检索方法。

6).检查检索结果是否符合本课题研究的需要。

7).根据需要调整检索策略,在检索中获取所需要的信息。记录检索信息。

2.具体检索记录

1).全文数据库

中国知网(1)张晓娟.浅谈《红楼梦》中的“哭”.山西财经大学学报,2009,01

(2)刘泽权,赵烨.《红楼梦》人物“哭态”探析.河北学刊2005,03

(3)陈家生.《红楼梦》中的“哭”.泉州师范学院学报,2003,03

(4)张娟娟.《红楼梦》中哭的情感表达.山西煤炭管理干部学院学报,2013,

01

(5)常辅相,常铁砚,王中秋.浅析《红楼梦》展现的“哭态”学术交流,1999,03

万方数据库(1)肖燕立.泪雨悲风中的艺术天地—谈曹雪芹写哭.红楼梦学刊,1985,02

(2)王启忠.喜哭怒骂总关性情—论《红楼梦》人物情态描写.学术交流,

1986,01

(3)吴明东.“欲天下人共来哭此‘情’字”—谈脂砚斋对《红楼梦》

情的主题揭示.齐齐哈尔大学学报,2010,02

(4)哭与笑的艺术辩证法—《红楼梦》艺术辩证法浅探.[J]赣南师范学院学报,

1984,01

(5)张淑媛.千红一哭,万艳同悲——从《红楼梦》中的诗歌浅析

人物命运.[J]文学界,2010,05

维普(1)吴宝成.隔帘消息风吹透捧心西子“泪”为魂——林黛玉之哭浅析芜湖职业技术学院学报-2009年4期

(2)张国荣.千人一哭万艳同悲─—从《红楼梦》看中国人的悲剧意识.[J]

广西右江民族师专学报,1998,04

2).图书

国家图书馆:(1)俞平伯《红楼梦研究》[M]上海古籍出版社2005年

(2)周邵良《红楼梦研究论集》[M]陕西人民出版社1983年

3).有关核心期刊(1)韩进廉.千红一哭万艳同悲——试论“金陵十二钗”的典型意义河

北大学学报1984年02期

(2)金蓓蓓.析宝钗的哭红楼梦学刊1992年02期

4).网络学术信息资源:(1)高小康.领悟悲剧——王国维《红楼梦评论》研究论文网

(2)梁归智.《红楼梦》研究的意义——世纪之交检讨“红学”

论文网

(3)王蒙.《红楼梦》的研究方法—中国化的一门学问.论文网

三.总结报告

通过对《红楼梦》中“哭态”检索,只发现为数不多的鉴赏性研究。研究《红楼梦》却忽视曹雪芹的“泪”,不可能更好地理解作家及其作品。用“一把辛酸泪”哭成此书的曹雪芹十分重视人物“哭态”的描写,故书中人物的哭态描写,出现频繁,表现细腻,具有重要的艺术价值。然而,相对于红学研究的其他领域,对《红楼梦》中人物“哭态”的研究少之又少,且不够系统和深入,是红学研究中尚待探讨的重要课题。

异彩纷呈的情态,是人物内心的情绪、情感的外部流露,曲沐从林黛玉的“葬花词”入手,对林黛玉的“哭”作了欣赏性评价,揭示了人物性格,但该研究并没有引起学人的关注。胡

文彬评析了黛玉的“哭态”,重点分析了黛玉“哭”的原因。陈家生对《红楼梦》中人物的“哭态”作了总体比较,遗憾的是他仅仅从修辞的角度举了几个例证,泛泛地谈了曹雪芹对“哭态”描写的艺术表现技巧,未得出规律性的发现。马云娟认为,《红楼梦》的“哭”透视了人物的爱情、亲情和友情等。以上对《红楼梦》中人物“哭态”的研究,皆为定性分析和论述,定量数据论证很少。《红楼梦》长达一百二十回,多达七十余万字,共描述了四百四十八个有形有肉的人物的各种“哭态”。如果只是去图书馆通过手阅来完成对“哭态”数量的统计是很困难的,但是通过计算机网络搜索就会达到事半功倍的效果。

笑,有各种各样的表现形式。法国学者让诺安写了一部《笑的历史》,专门研究“笑”这种情态。哭,也是一样,情态各异,饶有滋味。据统计,曹雪芹描写《红楼梦》中人物的“哭态”多达六百余次。面对作者洋洋大观的“哭态”描写,如何进行分类,这是一个首要的问题。《现代汉语分类词典》将“哭”归属于“感觉、情感”类,又细分为“哭类”、“号类”、“流泪类”和“泣类”。“哭类”一般指“出声地哭或者大声地哭喊”,而“号类”更是大声地哭喊;“流泪类”,区别于出声地大哭,而是描绘泪流的各异情态;“泣类”,一般指“小声或无声地哭”,“抽噎”、“哽咽”、“呜咽”等词汇都属于此类,一般是指极度悲伤而致。基于此,我们将同为“出声哭喊”的“哭类”和“号类”合并为“哭号类”,把《红楼梦》中的“哭态”归纳分类为“哭号类”、“流泪类”和“泣类”三类,并

分别统计如下表:

分类频数典型例证

哭号类182大哭;啼哭;痛哭;干哭;号哭;哭个死去活来;哭声遥山振岳;狼嚎

鬼叫;泼哭泼闹

流泪类165洒泪;含泪;堕泪;落泪;抹泪;垂泪;滴泪;滚泪;潸然泪下;满面

泪痕;泪如雨下;暗自垂泪;临风洒泪

泣类35悲泣;掩面涕泣;自叹自泣;呜咽对泣;悲悲切切的呜咽;哽咽难言;

哽咽难鸣;呜呜咽咽

以上是分别以“哭”、“号”、“泪”、“泣”等关键词进行二次检索,归纳总结得出的三类“哭态”及其出现的次数。从表中可以看出,曹雪芹用了丰富的词汇分别表达不同的哭状,在

“哭号类”中多为出声或者大声地哭,甚至“哭声摇山振岳”。作者表达“流泪”的动词千变万化,有“洒”泪、“含”泪、“堕”泪、“落”泪、“垂”泪、“滚”泪等,而流泪动词的微妙变化也使哭者伤心流泪的场面跃然纸上。“呜呜咽咽”、“哽咽难言”等“泣类”词汇,声形并茂地描绘了哭者极度伤心的哭态。通过对《红楼梦》中“哭态”用词的统计,我们注意到,曹雪芹描写人物“哭态”用到“哭号类”的词汇频数与“流泪类”的频数基本持平,而“泣类”的使用量微小,只有上述前两类的五分之一左右。

哭是一种情感宣泄的方式,通过这次的课题检索使我对《红楼梦》中的“哭态”

有了全面的把握,更加的了解了其中人物的性格和形象。

四.心得体会

通过对这次课题的检索,我发现中文信息检索这门课程并不是自己想像中的那么容易,在检索过程中总是会遇到这样或那样的问题。比如我的检索课题是浅析《红楼梦》中的“哭态”,刚开始的时候把匹配控制设为精确,却只搜到三篇相关的结果,后来经过分析。调整搜索策略,才使得检索成功。

信息虽然给我们提供了很多方便,但是想要熟练地使用它还是要进行认真学习的,因为我们在查找有用信息的同时还要摒弃那些无用的信息。经过了这次课题检索,我认识到利用检索信息是要了解很多具体内容的。要知道各个数据库都有自己的那些特点,要抓准关键词,主题,文献时间,作者信息等等。其中关键词是最重要的,因为输入不同的关键词检索出来的文献会相差很大,关键词选正确会大大提高检索的速度和质量,因此要快速而准确地找到自己想要的文献就一定要选好关键词,所以选好关键词是使用数据库首先应该学会的。

我通过对课题的检索了解到不同的数据库具有不同的特点,在中文检索中,维普中文数据库范围要小一些,主要就是期刊;万方数据库中的论文质量都比较高,检索结果也十分详细,包括:论文题目、作者、专业、导师、单位、分类号、关键词、文摘等等;超星图书馆非常有用,很多经典的图书,在其上找到;三大索引分别为SCI、EI、ISTP,它们分别收录了国际上基础科学与应用科学领域科技期刊、工程领域期刊及会议、国际会议上发表的论文。中国期刊网,即中国知网,它的最大特色就是可以直接获取原文,其针对性地获取全文,检索效果好,速度快。

当今时代是一个科学技术高速发展的信息时代,也是一个竞争、充满挑战的知识经济时代,大学生如何立足于信息社会,在激烈的社会竞争中处于优势地位,除了应该具有广博的人文素质、深厚的科技素质、理性的思维和创新素质、健康向上的思想政治素质和身体素质

外,还必须具有一定的信息素养,这是大学生拥有高水平综合素质的基本要求,也是信息化社会的迫切要求。所以学好信息检索这们课,对于以后走入社会都会让我们更具有实力和竞争力

在黎老师的指导下学习这门课程,在提高信息意识的基础上,我培养和提高了自己的信息素养能力,提高了获取信息资源的能力,锻炼解决具体问题的能力,推进专业信息素养的能力和培养采用新型学习方式的能力。具体到实际学习中,可以独自检索所需文献、信息和知识,受益匪浅。

简易信息检索系统

课程设计报告 ( 2013—2014 年度第一学期) 课程:微机原理及应用 题目:简易信息检索系统 院系:动力工程系 班级:自动化11K2 学号: 指导教师:李冰刘恒涛 设计周数:一周 成绩: 日期:2014年1 月2 日

《微机原理及应用》课程设计 任务书 一、目的与要求 1.通过对微机系统分析和具体设计,使学生加深对所学课程的理解。 2.掌握汇编语言程序设计的基本方法和典型接口电路的基本设计方法。 3.培养学生分析问题、解决问题的能力。 4.培养学生对微型计算机应用系统的基本设计能力。 5.提高学生的实践动手能力和创新能力。 二、主要内容 设计题目:简易信息检索系统。 1.针对所选择的设计题目进行硬件设计,合理选用所需元器件,绘制系统结构框图、硬件接线图,并在实验系统上完成电路的连接和调试。 2.根据所选题目的要求对微机系统进行程序设计,绘制程序总体流程图并编写源程序上机调试。 3.写出课程设计报告,对整个设计过程进行归纳和综合,对设计中所存在的问题和不足进行分析和总结,提出解决的方法、措施、建议和对这次设计实践的认识和收获。 三、进度计划 四、设计成果要求 1.系统硬件设计合理,软件编程达到设计要求。 2.系统硬件结构图和软件流程图绘制清楚规范。 3.设计报告完整规范。 五、考核方式 根据设计任务的完成情况、课程设计报告撰写情况及演示答辩情况采用五级记分制评定成绩。 学生姓名: 指导教师:李冰刘恒涛

一、课程设计目的与要求 1.通过对微机系统分析和具体设计,使学生加深对所学课程的理解。 2.掌握汇编语言程序设计的基本方法和典型接口电路的基本设计方法。 3.培养学生分析问题、解决问题的能力。 4.培养学生对微型计算机应用系统的基本设计能力。 5.提高学生的实践动手能力和创新能力 二、课程设计正文 1.程序正文 stack segment stack db 256 dup(0) stack ends data segment msg0 db '0. 0$' msg1 db '1. 1$' msg2 db '2. 2$' msg3 db '3. 3$' msg4 db '4. 4' msg5 db '5. 5$' msg6 db '6. 6$' msg7 db '7. 7$' msg8 db '8. 8$' msg9 db '9. 9$' index dw msg0,msg1,msg2,msg3,msg4,msg5,msg6,msg7,msg8,msg9 msg db 'Input a number please.',13,10,36 data ends

期刊信息检索作业

期刊信息检索作业 1.使用CNKI或维普的期刊导航,查找你所在专业的2种核心期刊,写出刊名、主办单位、ISSN号和CN号。 1)刊名:财会月刊:会计版;主办单位:武汉出版社;ISSN号:1004-0094;CN号:42-1290/F 2)刊名:财务与会计;主办单位:国家财政部;ISSN号:1003-286X;CN号:11-1177/F 2.查找《计算机集成制造系统》的主办单位、出版地、出版周期、ISSN号。 主办单位:兵器工业集团公司、出版地:北京、出版周期:月刊、ISSN号:1006-5911 3.请判断《外国文学研究》是否为SCI的来源刊?如果是,请查找出该刊的主办单位、刊期及出版地。是;主办单位:华中师范大学;刊期:双月刊;出版地:湖北 4. 请在CNKI中国学术期刊网络出版总库中利用高级检索查找本专业任一篇相关文献,并写出它的参考文献、共引文献、相似文献以及同行关注文献的第一条记录。 《烟台万华全面预算管理信息化的实施与启示》 参考文献:《完善团场全面预算管理体制的探讨》 共引文献:《基于Hyperion系统的企业全面预算管理体系构建》 相似文献:无 同行关注文献:无 5.利用中国期刊全文数据库的期刊导航功能,检索出你所在专业的核心期刊,写出2本期刊的刊名。《会计·信息·文化》、《中国企业环境会计信息披露模式研究》 6.检索作者为“马费成”的文章有多少篇,匹配方式选择“精确”,查询范围选择“图书情报与数字图书馆”,并在此检索结果中检索主题为“信息经济”的文献有多少篇。 有63篇;主题为“信息经济”的文献有9篇

7. 检索主题为“高层建筑”的文献有多少?并在此检索结果中利用二次检索查找作者单位为“中国矿业 大学”的文献有多少? 题为“高层建筑”的文献有50842;作者单位为“中国矿业大学”的文献有44 8.检索作者为“马海群”,并且主题中含有“著作权”的文献有多少篇。 文献有:33篇 9. 如果希望得到的文献是国内较高水平的研究成果,通过《中国期刊全文数据库》的“基金项目字段”进行检索可能是较好的选择。请检索2006年以来国家社会科学基金项目的有关经济与管理类的所有论文,并在结果中以刊名《管理世界》进行检索,写出检索记录数。(可利用分类目录联合检索) 进行检索可能是较好的选择。请检索2006年以来国家社会科学基金项目的有关经济与管理类的所有论文,并在结果中以刊名《管理世界》进行检索,写出检索记录数。(可利用分类目录联合检索)检索记录数:17 10.请利用《中国期刊全文数据库》,检索2000—2009年我校教师发表在核心期刊上的论文数量。 论文数量:33 11.请利用《中国期刊全文数据库》,在“电子技术及信息科学辑”类目中检索2003至2004年间来自核心期刊的“篇名”中含有“Web信息检索技术”、“作者”是“黄崑”的所有文献。抄录论文篇名及论文出处(中文刊名)并下载保存,利用OCR文字识别功能将摘要复制到下面。】 文篇名:《Web信息检索技术及研究进展》; 论文出处:现代图书情报技术 【摘要】介绍了Web信息检索发展的背景,并结合相应的技术,综述了Web信息检索主要技术及研究进展,最后总结了其未来的发展趋势。 12.你所在的院系是_________________________,请通过《中国期刊全文数据库》检索自己学院的教师2008-2012年发表的一篇专业论文,请从细览窗口拷贝出这篇论文的篇名、作者、作者单位、刊名和年份,复制到下面。 篇名:《浅谈开放教育数学教学改革》;作者: 黄志坚;作者单位: 广州市广播电视大学花都分校;刊名: 广州广播电视大学学报;年份: 2010年 05期

中文数据库的检索实验报告

实验报告 课程名称计算机信息检索 实验项目名称 班级与班级代码 实验室名称(或课室) 专业 任课教师 学号: 姓名: 实验日期:

姓名实验报告成绩评语: 指导教师(签名)

年月日说明:指导教师评分后,学年论文交院(系)办公室保存。

实验一 一、实验目的 掌握常见中文数据库的检索方式。利用所学理论知识,结合实验分析不同数据库在信息组织、检索分式等方面的特点。 二、实验内容: 用一专题在六个中文数据库、检索结果主要也目录和摘要为主。 检索专题自选。 1、中国期刊网 2、维普中文科技期刊数据库 3、万方数据资源系统 4、国研网 5、中宏数据库 6、人大复印资料 7、高校财经数据库 三、实验环境 CPU:Intel(R) core?2 CPU 内存:1G 软件: IE 资源:互联网 四、实验步骤 1.进入广东商学院图书馆网页,点击数字资源,进入中国期刊数据库。 2. 根据自己检索课题的要求,采用分类检索与主题检索在加上 3.鉴于以上检索的结果记录数较多,而且与需求的相关性低,采用以下缩减手段:

(1)在检索导航中更改默认分类:只选择“经济与管理”类 (2)更改更新时间(2005~2009),得到结果; (3)把模糊匹配改为精确匹配得到结果; 4. 通过亲自查看其摘要,全文的方式,剔除一些不相关的文献,并归纳出剔除文章的原则。 5. 将最后的所得的与主题密切相关的文献题录信息拷贝下来,保存在作业文件夹中。并在实验报告中体现出来。 6. 把最后所得的期刊论文的全文都一一拷贝下来。保存在自己的移动硬盘中。作为后期撰写文献综述的依据之一。 7. 登陆到学校的重庆维普数据库、人大报刊索引全文数据库,万方全文数据库期刊、国研网子系统,重复2,3,4,5,6,将所得检索结果拷贝下来,放在作业文件夹 五、试验结果 实验步骤3(2)(3)的结果如下,其它数据库结果类似 六、实验分析 期刊网的主页上免费的资源有:学术研究、工具书检索、党和国家大事、文化与生活、学习教育、行业知识仓库等,在相应领域的信息检索中起着重要作用。

一种基于Lucene的中文全文检索系统

—94— 一种基于Lucene 的中文全文检索系统 苏潭英1,郭宪勇2,金 鑫3 (1. 解放军信息工程大学电子技术学院,郑州 450004;2. 北京飞燕技术公司,北京 100072;3. 解放军通信指挥学院,武汉 430010)摘 要:在开源全文索引引擎Lucene 的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。 关键词:全文检索;Lucene ;倒排索引 Chinese Full-text Retrieval System Based on Lucene SU Tan-ying 1, GUO Xian-yong 2, JIN Xin 3 (1. Institute of Electronic Technology, PLA Information Engineering University, Zhengzhou 450004; 2. Technology Company of Beijing Feiyan, Beijing 100072; 3. Institute of PLA Communication Command, Wuhan 430010) 【Abstract 】This paper proposes a model of Chinese full-text retrieval system based on Lucene which is an open source full-text retrieval engine,and expatiates its frame. This model is composed of seven modules, among which the index module and the search module are the core parts. It designs them concretely, and improves the search efficiency of the full-text retrieval system with index technology and search technology. The system model concludes an encryption module to encrypt the index and increases the system security. 【Key words 】full-text retrieval; Lucene; inverse index 计 算 机 工 程Computer Engineering 第33卷 第23期 Vol.33 No.23 2007年12月 December 2007 ·软件技术与数据库· 文章编号:1000—3428(2007)23—0094—03 文献标识码:A 中图分类号:TP391 1 中文全文检索系统 全文检索技术是一个最普遍的信息查询应用,人们每天在网上使用Google 、百度等搜索引擎查找自己所需的信息,这些搜索引擎的核心技术之一就是全文检索。随着文档处理电子化、无纸化的发展,图书馆、新闻出版、企业甚至个人的电子数据激增,如何建立数据库、管理好自己的数据,是亟待解决的问题,而全文检索是其中一个非常实用的功能。全文检索产品实际上是一个内嵌该项技术的数据库产品[1]。 西文的全文检索已有许多成熟的理论与方法,其中,开放源代码的全文检索引擎Lucene 是Apache 软件基金会Jakarta 项目组的一个子项目,它的目的是为软件开发人员提供一个简单易用的工具包,方便在目标系统中实现全文检索的功能。很多项目使用了Lucene 作为其后台的全文索引引擎,比较著名的有: (1)Jive :Web 论坛系统; (2)Cocoon :基于XML 的Web 发布框架,全文检索部分使用了Lucene ; (3)Eclipse :基于Java 的开放开发平台,帮助部分的全文索引使用了Lucene 。 Lucene 不支持中文,但可以通过扩充它的语言分析器实现对中文的检索。本文在深入学习研究Lucene 的前提下,设计了一个中文的全文检索系统,对其核心的索引模块和检索模块进行了阐释,并添加了加密模块对索引信息加密,增强了系统的安全性。 2 系统的总体结构 本模型总体上采用了Lucene 的架构。Lucene 的体系结构如表1所示,它的源代码程序由7个模块组成。 表1 Lucene 的组成结构 模块名 功能 org.apache.Lucene.search 搜索入口 org.apache.Lucene.index 索引入口 org.apache.Lucene.analysis 语言分析器 org.apache.Lucene.queryParser 查询分析器 org.apache.Lucene.document 存储结构 org.apache.Lucene.store 底层IO/存储结构 org.apache.Lucene.util 一些公用的数据结构 本文通过扩充Lucene 系统来完成中文的全文检索系统,Lucene 包含了大量的抽象类、接口、文档类型等,需要根据具体应用来定义实现,本文对其作了如下扩充修改: (1)按照中文的词法结构来构建相应的语言分析器。Lucene 的语言分析器提供了抽象的接口,因此,语言分析(analyser)是可以定制的。Lucene 缺省提供了2个比较通用的分析器SimpleAnalyser 和StandardAnalyser ,但这2个分析器缺省都不支持中文,因此,要加入对中文语言的切分规则,需要对其进行修改。 (2)按照被索引的文件的格式对不同类型的文档进行解析,进而建立全文索引。例如HTML 文件,通常需要把其中的内容分类加入索引,这就需要从org.apache.lucene.子document 中定义的类Document 继承,定义自己的HTMLDocument 类,然后将之交给org. apache.lucene.index 模块写入索引文件。Lucene 没有规定数据源的格式,只提供 作者简介:苏潭英(1981-),女,硕士研究生,主研方向:数据库全文检索;郭宪勇,高级工程师;金 鑫,硕士研究生 收稿日期:2007-01-10 E-mail :sutanyingwendy@https://www.doczj.com/doc/162385399.html,

个性化智能信息检索系统研究

个性化智能信息检索系统研究 随着网络应用的普及,网上信息量以惊人的速度增长,并且更新频繁。人们面对的问题不再是缺乏有用信息,而是如何找到自己所需要的信息。传统信息检索技术满足了人们的一定需要,但仍然面临低检准率和低检全率问题。 多数商业搜索引擎提供的信息检索服务,由于其通用的性质,不能满足不同背景、不同目的和不同时期的查询请求。基于这种现状,作者设计并实现了个性化智能信息检索系统,旨在提高信息的检准率。作者在广泛研究了国内外信息检索技术发展现状之后,掌握了目前信息检索系统的不足和发展趋势。 本文针对目前检索系统的缺点,进行了个性化智能信息检索系统研究。本系统是一个结合人工智能领域Agent技术、机器学习技术、聚类技术与现有信息检索系统为一体的个性化智能信息检索系统。本文给出了本系统的总体设计思想和系统体系结构。 详细阐述了本系统个性化智能化的实现方法,对其中应用到的关键性技术和算法进行了详细描述。本系统通过观察用户在与系统交互时的行为,学习用户的兴趣,基于用户个人兴趣对检索结果做个性化过滤处理。经过过滤处理后的文档,其精度显著提高,更加贴近用户的兴趣。 其中Agent模块是本系统的核心模块,它负责获取用户的喜好;创建并及时更新用户兴趣模型;基于用户兴趣模型对文档做个性化过滤。为了实现信息检索的个性化智能化,作者提出使用个人兴趣档案模型来描述用户的兴趣,其中基于主题分类的个人兴趣词库是该模型中体现个人兴趣的关键部分。本文提出应用强化学习方法对个人兴趣模型进行自主更新,应用聚类技术于相关文档的个性化过滤。

经实验验证,这些技术取得了良好的效果。作者在信息检索的个性化智能化领域,进行了有益的探索,并取得一定成果。

中文数据库信息检索

实验5中文数据库信息检索(万方学位论文数据库) 【实验目的】 熟悉万方学位论文数据库的基本情况;掌握其信息检索系统的检索方法以及检索结果的处理;掌握提高查全率和查准率的方法。 学时安排:2 学时 【实验内容】 1、查阅该数据库的检索方式及其检索流程。 2、根据自选检索课题,从上次实验本组检索获取的10篇相关论文中的作者(至少8人)出发,使用作者途径(不限定年份)利用万方数字化期刊全文数据库检索本组课题内容。分别统计每位作者的发表论文分 检索,要求写出:检索课题名称、检索分类序列、检索结果数、5—10条检索命中记录的题录信息(题名、作者、文献出处)。 【实验报告】 1、进入武汉工业学院图书馆主页,点击〖常用数据库〗中的〖万方数据资源系统〗,即可进入图5-1,然后点击〖万方学位论文数据库〗,即可开始检索历程。

2、自选检索课题,如:数据加密技术,使用万方学位论文数据库检索。 图5-2 万方学位论文数据库分类检索页 实验6外文数据库信息检索(EBSCO期刊全文数据库) 【实验目的】 熟悉EBSCO期刊全文数据库信息检索系统的基本情况,掌握外文数据库信息检索系统的检索方法以及检索结果的处理。 学时安排:2 学时

【实验准备】 1、根据在实验3、4、5中的自我选题的查询情况,选择相应的主题检索词并将其翻译成英文(至少3~5个),可以通过阅读已查中文文献中的英文摘要、英文关键词的形式获得。 2、EBSCO期刊全文数据库 (1)访问地址:https://www.doczj.com/doc/162385399.html,/ 或https://www.doczj.com/doc/162385399.html, (2)使用方法:此服务器不计国际流量,只对我校合法的IP地址开放。(3)内容介绍: 我馆情况:已经购买了其中的ASP(Academic Search Premier)和BSP 包。 学术期刊集成全文数据库(Academic Search Premier,简称ASP):ASP是当今全世界最大的多学科学术期刊全文数据库。包括有关生物科学、工商经济、资讯科技、通讯传播、工程、教育、艺术、文学、医药学等领域的7876种期刊的文摘和索引;3990种学术期刊的全文,全文最早回溯到1990年,索引和文摘最早回溯到1984年。数据每日更新。商业资源集成全文数据库(Business Source Premier,简称BSP):BSP 收录了3048种学术性商业类全文期刊,文摘和索引的收藏更超过3851种期刊。较著名的有华尔街日报(The Walls Street Journal)、哈佛商业评论(Harvard Business Review)、每周商务(Business Week)、财富(Fortune)、American Banker、Forbes、The Economist等,涉及的主题范围有国际商务、经济学、经济管理、金融、会计、劳动人事、银行等。适合高等院校经济学、工商管理、金融银行、劳动人事管理等专业使用。全文最早回溯至1990年。数据每日更新。 3、世界科学出版社全文电子期刊数据库 (1)访问地址:https://www.doczj.com/doc/162385399.html, (2)内容介绍: 资源特点:WorldSciNet为新加坡世界科学出版社(World Scientific Publishing Co.)电子期刊发行网站,该出版社委托EBSCO/MetaPress 公司在清华大学图书馆建立了世界科学出版社全文电子期刊镜像站。WorldSciNet目前提供58种全文电子期刊,涵盖数学、物理、化学、生物、医学、材料、环境、计算机、工程、经济、社会科学等领域。我馆情况:从2002年开始订阅。 资源状态:为网络资源,我校用户直接连接在清华的镜像站点使用。4、德国施普林格全文电子期刊数据库 (1)访问地址:https://www.doczj.com/doc/162385399.html, (2)使用方法:为网络资源,拥有我校合法IP的用户,直接连接施普林格在清华的镜像站点使用。 (3)内容介绍: 资源特点:德国施普林格(Springer-Verlag)是世界上著名的科技出版集团, 通过Springer LINK系统提供学术期刊及电子图书的在线服务。目前Springer LINK所提供的全文电子期刊共包含439种学术期刊(其中近400种为英文期刊),是科研人员的重要信息源。我馆情况:从2002年开始订阅。 【实验内容】

全文检索功能

在应用中加入全文检索功能 ——基于java的全文索引引擎lucene简介 作者:车东 email: https://www.doczj.com/doc/162385399.html,/https://www.doczj.com/doc/162385399.html, 写于:2002/08 最后更新: 版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明 https://www.doczj.com/doc/162385399.html,/tech/lucene.html 关键词:lucene java full-text search engine chinese word segment 内容摘要: lucene是一个基于java的全文索引工具包。 1.基于java的全文索引引擎lucene简介:关于作者和lucene的历史 2.全文检索的实现:luene全文索引和数据库索引的比较 3.中文切分词机制简介:基于词库和自动切分词算法的比较 4.具体的安装和使用简介:系统结构介绍和演示 5.hacking lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展 6.从lucene我们还可以学到什么 基于java的全文索引/检索引擎——lucene lucene不是一个完整的全文索引应用,而是是一个用java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。 lucene的作者:lucene的贡献者doug cutting是一位资深全文索引/检索专家,曾经是v-twin搜索引擎(apple的copland操作系统的成就之一)的主要开发者,后在excite担任高级系统架构设计师,目前从事于一些internet底层架构的研究。他贡献出的lucene的目标是为各种中小型应用程序加入全文检索功能。 lucene的发展历程:早先发布在作者自己的https://www.doczj.com/doc/162385399.html,,后来发布在sourceforge,2001年年底成为apache基金会jakarta的一个子项目:https://www.doczj.com/doc/162385399.html,/lucene/ 已经有很多java项目都使用了lucene作为其后台的全文索引引擎,比较著名的有: ?jive:web论坛系统; ?eyebrows:邮件列表html归档/浏览/查询系统,本文的主要参考文档“thelucene search engine: powerful, flexible, and free”作者就是eyebrows系统的主要开发者之一,而eyebrows已 经成为目前apache项目的主要邮件列表归档系统。 ?cocoon:基于xml的web发布框架,全文检索部分使用了lucene ?eclipse:基于java的开放开发平台,帮助部分的全文索引使用了lucene

信息检索考试题汇总(附答案)

一、单项选择题(从下列各题四个备选答案中选出一个正确答案,并将其代号写在答题纸相应位置处。每题2分,共30分) C 1. _是题录型检索工具 A. CABI B.中国学术期刊文摘 C.全国报刊索引(自然版) D.经济纵横 D 2. 浏览超星数字图书馆,应首先安装______. A. Apabi Reader B. Adobe Reader C. CAJ Viewer D. SSReader A 3. 世界上第一大联机检索系统是__。 A.DIALOG系统 B.OBRIT系统 C.OCLC系统 D.STN 系统 B 4. 利用baidu搜索信息时,要将检索范围限制在网页标题中,应该使用的语法是_________。 A.site: B.intitle: C. inurl: https://www.doczj.com/doc/162385399.html,: A 5.国际农业和生物科学中心英文名称的简称为_ 。 A.CABI B. AGRINDEX C. BA D.B of A C 6.信息检索根据检索对象不同,一般分为_____________。A. 二次检索、高级检索 B.分类检索、主题检索 C.数据检索、事实检索、文献检索 D.计算机检索、手工检索 A 7. 国际上评价期刊最有影响力的一个指标是 _______。 A. 影响因子 B.读者统计数据 C.引文量 D.价格 C 8. 二次检索指的是:_____________。 A.第二次检索 B.检索了一次之后,结果不满意,再检索一次C.在检索结果中运用“与、或、非”进行再限制检索 D.以上都不是 A 9.国际连续出版物编号____________。 A.ISSN B.OCLC C.ISBN D. CSSCI B 10.下列搜索引擎具有书名号检索功能的有_____________。A.Google B.百度 C.中搜 D.AltaVista B 11.《中文核心期刊要目总览》2004 版的“农业经济”类核心期刊有___ 种。 A.20 B.19 C.17 D.15 B 12.通过追溯检索获得的相关文献与原文献相比在发表时间上____。 A.早 B.晚 C. 相同 D. 不确定 B 13.在维普中文期刊全文数据库中“在检索结果中”检索相当于。 A.逻辑“非” B.逻辑“与” C.逻辑“或” D.逻辑“加” D 14.检索语言中,是自然语言。 A.标题词 B.主题词 C.单元词 D.关键词 A 15.在baidu搜索引擎中,要实现字段的精确检索,可以用来限定。 A.“”(双引号) B.()(括号) C.+ (加号) D.-(减号) 二、判断正误(在正确答案后面划√,在错误答案后面划×,每小题2分,共10 分) 1.专利文献根据发明创造的性质可以分为发明、实用新型和外观设计专利。(√) 2. CNKI检索系统可以检索博硕士论文。(√) 3. Google不具有学术搜索功能。(×)4.国际标准书号的英文简称ISBN,新版国际标准书号2007年正式实施,国际标准书号由10位升至13位。(√) 5.检索效果的评价指标主要有查全率和漏检率。(×) 1.NSTL是(国家科技图书文献中心)的简称。 2.(信息检索系统)是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。 3.体系分类表通常由(类目表、标记符号、说明和注释、类目索引)4个部分组成。 4. 正式出版的中文期刊在检索工具和数据库中一般著录有国际标准刊号(ISSN)和国内统一刊号(CN)。 5. 缩写刊名“J.Anal.Chem.”还原成原刊名为(Journal of Analytical Chemistry)。 6. CASHL是指(中国高校人文社会科学文献中心),其英文全称是China Academic Social Sciences and Humanities Library,是全国性的、唯一的人文社科外文期刊收藏和服务中心。2002年开始规划建设,2004年3月15日正式启动 7. 电子期刊,指以(数字或称电子)形式出版发行的期刊,英文为(electronic Journal),简称e-journal. 8. 国家知识基础设施(National Knowledge Infrastructure,NKI)的概念,由世界银行提出于1998年。CNKI是指(中国基础知识设施工程),它是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于(1999)年6月。 https://www.doczj.com/doc/162385399.html,KI平台的检索方式有(单库检索)、(跨库检索)、(数据库导航),在单库和跨库检索中有(初级)、(高级)、(专业)三种检索方式。 10.(报告号)是识别科技报告的显著标志。 11. 专利文献著录中,除了和专利有关的(专利名称)、(发明人)和(专利权人)等之外,还著录有(专利公布号)、(国际专利分类号)、(优先权号),有的还有申请号和申请日期、公布日期等。 13. 分类检索语言又称分类法,是用(分类号)和(类名)来表达信息的主题概念,并且按照知识门类的逻辑次序将信息系统地组织和划分的语言。 14. 对于刊名缩写,国际标准化组织ISO在1972年和1974年分别发布了两个相关标准,规则要点有: 1)刊名中的(前置词、冠词、连词)均省略; 2)刊名必须有(两个)词以上才可用缩写; 3)单词的缩写大多数采用(减少音节)的方法,如“Chemistry”缩写成(chem),只有极少数常用单词用首字母表示,如“Journal”缩写成(J); 4)刊名缩写时,刊名第一个单词的首字母一定要(大写)。 15、完整的信息检索系统是由( 检索 )和( 存贮 )两部分构成。 16、文献内容特征的检索途径主要有( 主题 )和 ( 分类 )。 17、文献检索方法分为( 常用法)、(追溯法)和(循环法)。 18、写出下列各国国家标准代号:中国(GB ) 、美国 (ANSI) 、英国 (BSI ) 、日本(JIS)

自然语言处理技术在中文全文检索中的应用

3本文为国家社会科学基金项目“基于中文X ML 文档的全文检索研究”的成果之一,项目编号:04CT Q005。 ●熊回香,夏立新(华中师范大学 信息管理系,湖北 武汉 430079) 自然语言处理技术在中文全文检索中的应用 3 摘 要:自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全 文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。 关键词:自然语言处理;全文检索;智能检索 Abstract:Natural language p r ocessing technol ogy is the basis of Chinese full 2text retrieval .This paper firstly intr oduces the full 2text retrieval technol ogy and natural language p r ocessing technol ogy .Then,it gives a detailed 2descri p ti on of the app licati on of natural language p r ocessing technol ogy in Chinese full 2text retrieval .The p resent li m itati ons of the Chinese full 2text retrieval system based on natural language p r ocessing technol ogy is als o ana 2lyzed .Finally,the paper exp l ores the devel opment trend of Chinese full 2text retrieval technol ogy in future . Keywords:natural language p r ocessing;full text retrieval;intelligent retrieval 随着社会网络化、信息化程度的日益提高,网上信息呈指数级剧增,人们越来越强烈地希望用自然语言同计算机交流,并能方便、快捷、准确地从互联网上获得有价值的信息,因此,自然语言处理技术和中文全文检索技术成为当今计算机科界、语言学界、情报学界共同关注的课题,并共同致力于将自然语言处理技术的研究成果充分运用到全文检索中,从而促进了全文检索技术的发展。 1 全文检索技术 全文检索是一种面向全文和提供全文的检索技术,其核心技术是将文档中所有基本元素的出现信息记录到索引库中,检索时允许用户采用自然语言表达其检索需求,并借助截词、邻词等匹配方法直接查阅文献原文信息,最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础,它以特定的结构存储了数据资源的全文信息,从而为全文检索系统提供可检索的数据对象。在中文全文检索系统中,建立索引库的前提是运用自然语言处理技术对中文信息进行基于词(字)、句、段落等更深层次的处理。 2 自然语言处理技术 自然语言是指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参 考文献中的具有一定实质意义的词语[1]。自然语言处理 (Natural Language Pr ocessing,NLP )是语言信息处理的一 个重要分支,在我国就是中文信息处理。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,具体来说就是用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理[2]。由于自然语言处理侧重于词、句子、篇章,因而词法分析、句法分析、语义分析、语用分析、语境分析便构成了自然语言处理研究内容的基础部分。 211 词法分析 词法分析包括词形和词汇两个层次,其中词形主要是对各种词形和词的可识别部分的处理。如前缀、后缀及复合词的分析;词汇的重点在于复合对词操作和词汇系统的控制。其主要目的是有助于确认词性以及做到部分理解词与词、词与文档之间的关系,提高检索的效率。由于计算机内部存储的中文信息没有明显的词与词之间的分隔符,因此,在中文全文检索系统中,词法分析首要任务之一是对文本信息进行词语切分,即汉语自动分词,汉语自动分词是中文信息处理中的关键技术,也是中文全文检索的瓶颈,只有对汉语词进行正确的切分后,才能准确地提取文献的特征信息,对文献进行正确标引,才能正确分析用户的查询意图,为用户提供准确的信息服务。 212 句法分析 句法分析是对句子中词汇短语进行分析以便揭示句子的语法结构。目的是通过对句型结构的分析,自动抽取复

文献检索试题

1.Lexiscom中没有收录以下哪个国家(地区)的案例?() A.澳大利亚 B. 中国香港 C.墨西哥 D.俄罗斯 2.下列关于CSSCI说法不正确的是() a.全称是:中文社会科学引文索引; b.是从文献之间相互引证的关系上,揭示科学文献间的内在联系的索引数据库; c.是我国人文社会科学主要文献信息查询与评价的重要工具; d.是由北京大学研制成功的; e.被引文献的检索途径有:被引文献、作者、篇名、刊名、出版年代、被引文献细节等。 3.以下哪种关于影响因子的说法是正确的?() A.期刊前两年发表文献被引次数与该刊总被引次数之比。 B.期刊被引次数与所发文献数量之比。 C.以近两年为统计期,期刊所发文献被引次数与发文数量之比。 D.期刊前两年发表的被引文献数量与发文数量之比。 4.《法学》的出版周期是()

A、周刊 B、半月刊 C、月刊 D、季刊 5.以下与复旦大学陈思和老师合作频次最高的学者是哪位?() A刘志荣,复旦大学 B栾梅健,复旦大学 C张新颖,复旦大学 D严锋,复旦大学 6.下列哪种文献属于三次文献() A、标准文献 B、学位论文 C、综述 D、文摘 7.《图书情报知识》是中国知网与武汉大学传播与信息学院签订了( )协议的期刊,该刊的复合影响因子为() A 独家授权1.3280 B 优先出版1.3280 C 独家授权和优先出版1.7880 D 独家授权1.7880 8.查找华东政法大学刘宪权教授的论文,简单的逻辑提问式() A.华东政法大学或者刘宪权

B.华东政法大学并且刘宪权 C.华东政法大学包含刘宪权 D.华东政法大学不包含刘宪权 9.北大法律信息网的独创功能是() A、法律法规 B、司法案例 C、法学期刊 D、法宝联想 10.案例“江苏高院判决邳州信用社诉富伟公司等借款合同纠纷案”的审结日期是() A、2015.1.24 B、2015.1.26 C、2015.1.25 D、2015.1.30 11.使用蔚秀报告厅可以做什么?() A、检索文章 B、观看视频 C、查找数目 D、下载电子书 12.提供法规主题浏览数据库有() A 北大法意 B 北大法宝 C 万律

《信息检索系统》方案

HX-2055信息检索系统方案

目录 一项目意义 (2) 二系统设计 (3) 2.1技术原理 (3) 2.2系统构架 (5) 三系统功能 (6) 3.1信息采集 (6) 3.2中文自然语言处理 (6) 3.3全文检索功能 (7) 3.4格式文件检索 (8) 3.5性能指标 (8)

一项目意义 随着互联网的快速发展,每天有数千万条信息生成,包括文字信息、图片信息、视频信息、语音信息等,通过百度、谷歌等大型商业搜索引擎可以找到自己想要的信息,但是也存在很多弊端。 百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫(Spider)在世界各地百万台服务器上爬取网页数据,然后存储到数据库之后展现给查询用户,随着网站数量以及网络上信息更新的快速化,这些网络爬虫不能保证把所有的信息都抓到,尤其是特殊行业的行业信息,即便是抓到了也不一定能够在众多数据中展现出来。所以,对于一个部门来讲,有必要存在一款互联网信息检索系统来检索某一个行业的信息,每天自动在各大行业网站、政府网站等数据库中检索最新信息,通过自建的网络爬虫进行目标数据的抓取、存贮、归类、展现。 通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各地、各个部门都发生了什么,有哪些新的政策,方便管理层在最新的信息数据下快速做出正确的决定。 据统计,内部网上的信息每年以200%的速度增长,其中发布到互联网上的信息只占到信息量的1%-2%,而98%以上的信息是发布在内部网上的。内部网上的信息既有网页形式的,也包含其他Word、PDF、XML等多种格式的数据。因此,面对内部网中海量异构的信息资源,如何帮助用户快速找到他们所需要的信息是一个主要的技术挑战。 搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满足高效的同时,更重要的是保证了较高的查全率和查准率,能提供智能化的概念扩展搜索,极大的提高工作效率。内部网搜索引擎将组织中分散管理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现组织内容利用的最优目标。 搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资源进行爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对其快速地访问,通过准确的分词建立索引,从而实现高质量的搜索查询。搜索引擎的主要目标包括:

利用中文数据库进行文献信息检索作业及答案

1.检索课题名称:工程机械非线性动力学特性的实验研究 2.课题分析:“工程机械”属于本课题的主体词,“非线性”是工程机械的适用范围,“动 力学特性”是工程机械的研究领域,“实验研究”不作为课题检索胡关键词使用。由此得出的检索关键词如下: 中文关键词:(1)工程机械(2)非线性(3)动力学特性 英文关键词:(1)Engineering mechanical(2)Nonlinearity(3)Dynamic characteristic 3.选择检索工具: (1)万方数据库(中国学术会议论文) (2)维普资讯(中国科技期刊数据库) (3)CNKI(中国知网期刊数据库) 4.构建检索策略:“工程机械”是课题主体词,应当优先检索,“非线性”是其次检索研 究课题的使用范围,“动力学特性”属于检索课题的领域。故制定以下检索策略:检索算法:(工程机械)*(非线性)*(动力学特性) 时间范围:2005-2014 文献范围:期刊论文、专著、会议论文等 5.简述检索策略调整的过程: (1)万方数据库(中国学术会议论文) a.使用策略“(工程机械)*(非线性)*(动力学特性)”检索式,检索范 围:题名或关键字,限定年代2005-2014年之间,检索文献类型:期刊论 文、会议论文。检索出两条内容。 (2)维普资讯(中国科技期刊数据库) a.使用原策略“(工程机械)*(非线性)*(动力学特性)”(((题名或关 键字=工程机械)*( 题名或关键字=非线性))*( 题名或关键字=动力学特 性)*全部期刊*年=2005-2014)进行检索,检索范围选择:所有专辑和全 文,日期范围选择:2005-2014,检索出1条记录。 (3)CNKI(中国知网期刊数据库) a.使用策略“(工程机械)*(非线性)*(动力学特性)”检索式,高级 检索,检索内容条件:(关键词=工程机械)*(关键词=非线性)*(关 键词=动力学特性)*(发表时间:2005-01-01—今天)*(学科领域: 基础科学、工程科技Ⅰ辑、工程科技Ⅱ辑)*(跨库搜索:期刊,国 内会议,专利)进行检索,检索出0条记录。 b.仍使用策略“(工程机械)*(非线性)*(动力学特性)”检索式,这 次使用专业检索,((TI(题名)=工程机械AND KY(关键字)=非 线性AND KY(关键字)=动力学)),并扩大了检索时间:200-01-01 —今天,学科领域原则了全选,跨库搜索也选择了全选进行检索,检 索出1条记录。 6.整理检索结果: (1)万方数据库(中文学术会议论文)检索结果(其中择优选一条): 【篇名】旋转机械系统多自由度非线性动力学数值分析 【作者】裘春航李伟东吕和祥 【中文刊名】计算力学学报 【英文刊名】CHINESE JOURNAL OF COMPUTATIONAL MECHANICS 【年、期】2005年,22(4)期 【中文关键词】转子系统、非线性油膜力、数值稳定性、非线性动力学特性

全文检索工具

通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。 尤其是中文全文检索技术的研究始于1987年左右,已经有一些商品化的软件。Internet 的普及使得全文检索技术日益成熟起来,其应用已突破传统的情报部门和信息中心的局限性,使该技术的最广大用户变成互联网的用户和桌面用户,而不再仅局限于情报检索专家。 全文检索技术以各类数据如文本、声音、图像等为对象,提供按数据的内容而不是外在特征来进行的信息检索,其特点是能对海量的数据进行有效管理和快速检索。它是搜索引擎的核心技术,同时也是电子商务网站的支撑技术。全文检索技术可应用于企业信息网站、媒体网站、政府站点、商业网站、数字图书馆和搜索引擎中。我们知道,企业信息化是电子商务的基础,企业建立自己的商务站点,构建企业内部信息发布平台,并与其他网站间建立安全的信息发布通道和交换通道,建立电子商务的应用并以数据为中心建立应用平台等方面都离不开全文检索。该检索技术可跨越所有的数据源,支持多种数据和信息格式,对检索结果可按商业分类规则进行排列,也能满足用户特定的知识检索请求,将所有不同信息查询中的命中结果按相关性或分类排列,提供不同格式的信息浏览功能。 [1] 从搜索结果来源的角度,全文搜索工具又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如Google、Fast/AllThe Web、AltaVista、Inktomi、Teoma、WiseNut、百度等;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 “网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到

相关主题
文本预览
相关文档 最新文档