中文信息检索
- 格式:pdf
- 大小:197.64 KB
- 文档页数:6
文献检索实验报告(一)实验名称中文数据库信息检索实验姓名实验日期学号专业班级实验地点指导老师评分一.实验目的:1.熟悉与专业有关的中文数据库信息检索系统的基本情况;2.熟悉相应中文数据库信息检索系统的浏览器使用;3.掌握常用中文数据库信息检索系统的检索方法以及检索结果的处理;4.掌握提高查全率和查准率的方法。
二.实验环境:连接到因特网的实验室局域网环境,并能通过学院图书馆入口访问以下数据库系统:1.万方数据资源系统2.维普信息资源系统3.中国知网数据库4.人大《复印报刊资料全文数据库》5.超星数字图书馆6.试用数据库三.实验要求:先选检索课题:1.分析课题主题,写出课题所属领域、背景、拟解决的技术问题、采用的技术方案等相关技术内容。
(限200字左右)2.给出中外文检索词(包括主题词、关键词、同义词、缩写及全称等,限15个以上)及检索式,按要求检索数据库,写出检索过程,并按题录形式选择给出相关文献2-3篇。
3.中文数据库4种类型8个库:任选两个馆藏目录、联合目录、中文期刊数据库、事实与数值数据库进行检索。
4.外文数据库2个:5.学位论文库2个:万方学位论文库、中国知网。
6.会议论文库2个:万方学术会议库、中国知网。
7.标准、专利、注:结果页面截图:(用键盘Pr Scrn SysRq键截图,要求显示检索条件窗口)四.实验内容:1.从图书馆网站上安装CNKI阅览器和PDF格式全文阅览器。
从CNKI(即中国期刊网)的“进入总库平台”中的“中国学术期刊网络出版总库”检索2005年出版、EI来源期刊、篇名中包含“信息管理”的文献,任意下载一篇检索出的论文,分别下载CAJ格式和PDF格式,体验两种阅览器的各自功能。
2.利用中国知网的“中国博士学位论文全文数据库”检索,文献题名中包含“机群”的华中科技大学的博士学位论文。
记录结果数,并记录其中一篇的论文题名、作者、导师姓名及学科专业名称。
3.利用读秀的“报纸全文数据库”检索今年内关于“亚太经合组织”的新闻报道,共有记录多少条,记录时间最新一篇的新闻标题、刊登报纸、报纸日期、版号、分类号。
基于搜索引擎的网络中文信息检索工具评价搜索引擎是我们日常生活中经常用到的网络工具,它是一种能够从海量信息中快速检索出用户想要的内容的软件系统。
当我们在搜索引擎中输入关键词进行搜索时,搜索引擎就会根据搜索算法对网络上的信息进行匹配和排序,最终呈现出来的搜索结果就是用户所需的信息。
而基于搜索引擎的网络中文信息检索工具,就是一种利用搜索引擎的搜索算法开发的中文信息检索工具。
这种工具可以帮助用户从海量的网络中文信息中快速、准确地检索出自己需要的信息。
基于搜索引擎的网络中文信息检索工具具有以下优点:首先,它能够快速地检索出用户需要的信息。
由于搜索引擎能够将海量的网络信息进行分类、排序,因此基于搜索引擎的网络中文信息检索工具可以更加快速地从大量信息中检索出用户所需的信息,同时还能够自动为用户推荐相关内容。
其次,它可以提供准确的搜索结果。
搜索引擎本身已经具备信息过滤和自动分类的功能,因此基于搜索引擎开发的工具天生具备比较准确的搜索结果。
用户只需要输入正确的关键词,就能够快速地找到所需的信息。
再次,它具有可定制性。
基于搜索引擎的网络中文信息检索工具可以根据用户的需求进行个性化调整和优化,例如用户可以针对某个特定领域进行搜索,或者在搜索过程中加入自己的优先排序策略。
然而,基于搜索引擎的网络中文信息检索工具也存在一些缺点。
最大的缺点就是受搜索引擎本身的限制。
由于搜索引擎系统的蒸蒸日上,竞争也越来越激烈,这导致搜索引擎的广告化越来越严重,影响了信息的检索质量,因此基于搜索引擎的网络中文信息检索工具的准确性也受到一定的影响。
除此之外,基于搜索引擎的网络中文信息检索工具还存在着一些信息安全的隐患。
例如,搜索引擎会将用户的搜索历史、数据、位置信息等进行收集和汇总,这也可能暴露用户的隐私。
总的来说,基于搜索引擎的网络中文信息检索工具在大部分情况下都是十分实用的,可以帮助大家更加快速、准确地检索出所需的信息,同时还支持个性化调整和优化。
中文信息检索实习报告一、实习目的和意义随着互联网的迅速发展,中文信息检索已经成为信息时代不可或缺的一项技术。
本次实习旨在让实习生了解中文信息检索的基本原理和方法,掌握相关技术和工具的使用,提高中文信息处理和检索的能力。
通过实习,我们可以更好地了解中文信息检索在实际应用中的重要性,为未来的学习和工作打下坚实的基础。
二、实习内容和过程1. 实习前的准备在实习开始前,我们首先学习了中文信息检索的基本原理和相关概念,了解了中文分词、词性标注、索引构建等基本技术。
同时,我们还学习了使用一些常用的中文信息检索工具,如搜索引擎、中文数据库等。
2. 实习过程在实习过程中,我们主要进行了两个任务:中文分词和索引构建。
(1)中文分词中文分词是将中文文本切分成有意义的词语序列的过程。
我们在实习中使用了基于规则的分词方法和基于统计的分词方法。
通过对比实验,我们发现基于统计的方法在处理大规模文本数据时具有更好的性能。
(2)索引构建索引构建是信息检索系统的核心部分,它将文本转换为可以快速检索的数据结构。
在实习中,我们学习了倒排索引的概念和构建方法。
我们使用Python编写代码,实现了倒排索引的构建和查询功能。
通过实验,我们了解到倒排索引在查询速度和准确性方面具有较好的表现。
3. 实习成果通过实习,我们成功地构建了一个简单的中文信息检索系统,可以实现对给定文本的搜索功能。
我们使用一些实际的数据进行了测试,发现该系统在处理中文文本方面具有一定的准确性和效率。
三、实习收获和体会通过本次实习,我们对中文信息检索的基本原理和技术有了更深入的了解,掌握了相关工具的使用方法。
同时,我们也意识到中文信息检索在实际应用中的重要性,以及在处理中文文本时面临的挑战。
在实习过程中,我们学会了如何将理论知识应用到实际问题中,提高了动手能力和解决问题的能力。
同时,我们也学会了如何进行团队合作,共同完成实习任务。
总之,本次实习让我们对中文信息检索有了更全面的了解,为我们未来的学习和工作打下了坚实的基础。
中文信息检索的挑战和机遇在哪里在当今信息爆炸的时代,中文信息检索成为了人们获取所需知识和信息的重要手段。
然而,随着信息量的不断增长和用户需求的日益多样化,中文信息检索面临着诸多挑战,但同时也蕴含着巨大的机遇。
中文信息检索所面临的挑战是多方面的。
首先,中文语言的复杂性就是一个显著的难题。
中文有着丰富的词汇、多样的语法结构以及大量的同音字、多音字和形近字,这使得中文文本的理解和处理变得相当困难。
例如,“意思”这个词在不同的语境中可能有完全不同的含义,“这篇文章的意思很明确”和“你真有意思”中的“意思”就截然不同。
其次,中文信息的语义理解存在很大的挑战。
与英文等语言相比,中文的语序和虚词的使用在很大程度上影响着语义的表达,但这种影响往往较为微妙和复杂,难以通过简单的规则和算法来准确把握。
比如,“中国队大胜美国队”和“中国队大败美国队”,虽然表述不同,但意思却是一样的。
再者,信息的海量和冗余也是中文信息检索的一大障碍。
互联网上充斥着大量重复、相似甚至错误的中文信息,如何从这些繁杂的信息中准确筛选出有价值、高质量的内容,对于信息检索系统来说是一个艰巨的任务。
另外,用户需求的模糊性和不确定性也给中文信息检索带来了困扰。
很多时候,用户自己可能都不太清楚自己真正想要的是什么,他们的搜索表述可能不够准确、全面,这就要求检索系统能够具备一定的智能理解和推测能力。
然而,挑战往往与机遇并存。
在面对这些挑战的过程中,中文信息检索也迎来了许多发展的机遇。
技术的不断进步为中文信息检索提供了强大的支持。
随着人工智能、机器学习、自然语言处理等技术的迅速发展,中文信息检索系统能够更加智能地理解和处理中文文本。
例如,通过深度学习算法,可以对大规模的中文语料进行训练,从而提高对中文语义的理解能力。
移动互联网的普及也为中文信息检索带来了新的机遇。
如今,人们越来越多地通过手机等移动设备进行信息检索,这就要求检索系统能够适应移动设备的特点,提供更加便捷、个性化的服务。
1)信息检索(information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
所以,它的全称又叫信息存储与检索(information storage and retrieval), 这是广义的信息检索。
狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。
相当于我们所说的信息查询(information search)。
2)零次文献:也叫灰色文献,未经公开发表或未交流于社会的文献。
如私人笔记,设计草图、实验记录、文章草稿、会议记录、书信文书、以及档案等。
其主要特点是内容新颖,但不成熟,不公开交流,难以获得。
3)一次文献(Primary Document): 以著者本人的研究或研制成果为依据而创作或撰写的文献,习惯上称做原始文献。
如期刊论文、科技报告、专利说明书、会议论文、学位论文等。
体现创作性。
其主要特点是内容新颖丰富,叙述具体详尽,参考价值大,但数量庞大、分散。
4)二次文献(Secondary Document):就是检索工具。
是将大量分散的无组织的一次文献经浓缩,整序的加工整理,编辑成目录、题录、文摘、索引等检索工具或数据库。
如文摘,目录、索引等。
它有存贮、检索、报道的功能。
体现高度的浓缩性。
其主要功能是检索、通报、控制一次文献,帮助人们在较少时间内获得较多的文献信息。
二次文献具有汇集性、工具性、综合性、交流性等特点。
5)三次文献(Tertiary Document):在一、二次文献的基础上,经过综合分析而编写出来的文献,如专题述评、动态综述、学科年度总结,进展报告以及数据手册、百科全书等参考工具书。
三次文献是情报研究的产物和成果。
具有很强的的综合性。
总之,一次文献(创造性),二次文献(有序化),三次文献(高度浓缩,提炼,再创造)。
6)以上四个级别的文献中,零次文献由于没有进入出版、发行和流通这些渠道,收集利用十分困难,一般不作为我们利用的文献类型。
浅析《红楼梦》中的“哭态”班级:10级汉语言文学(1)班姓名:胡圣凤学号:51003011028一.课题分析1.知识背景我的中文信息检索的课题名称是《浅析<红楼梦>中的“哭态”》,主要研究的是在鸿篇巨著《红楼梦》中人物的各种不同的“哭态”,以及其所体现的性格特征。
该课题的学科范畴是属于文学类。
作为一部经典巨著,《红楼梦》可谓一部百科全书,具有极高的欣赏价值和研究价值。
《红楼梦》中有言道:“满纸荒唐言,一把辛酸泪。
都云作者痴,谁解其中味?”品红楼之味,尽在这一“言”一“泪”之中。
研究《红楼梦》却忽视曹雪芹的“泪”,不可能更好地理解作家及其作品。
用“一把辛酸泪”哭成此书的曹雪芹十分重视人物“哭态”的描写,故书中人物的哭态描写,出现频繁,表现细腻,具有重要的艺术价值。
然而,相对于红学研究的其他领域,对《红楼梦》中人物“哭态”的研究少之又少,且不够系统和深入,是红学研究中尚待探讨的重要课题。
异彩纷呈的情态,是人物内心的情绪、情感的外部流露,作者以“哭态”从不同侧面、不同层次上反映了人物的性别、年龄、身份、地位和文化修养。
而读者则可从这些不同的情态中去认识、理解人物的个性,乃至对他们命运及其结局的关怀。
2.概念分析和扩展主要检索词为:《红楼梦》;哭态可以进一步拓展为:《红楼梦》;哭态;人物性格二.检索过程1.构建检索策略1).首先确定要检索的没内容,核定正确的检索词:《红楼梦》中的“哭态”。
2).输入合理的计算机检索式:《红楼梦》并含“哭态”或含人物性格3).确定本课题的学科范围是文学类学科。
4).熟知各种检索工具的特点,选择恰当的检索工具。
5).选择合适的检索途径,恰当运用检索方法。
6).检查检索结果是否符合本课题研究的需要。
7).根据需要调整检索策略,在检索中获取所需要的信息。
记录检索信息。
2.具体检索记录1).全文数据库中国知网(1)张晓娟.浅谈《红楼梦》中的“哭”.山西财经大学学报,2009,01(2)刘泽权,赵烨.《红楼梦》人物“哭态”探析.河北学刊2005,03(3)陈家生.《红楼梦》中的“哭”.泉州师范学院学报,2003,03(4)张娟娟.《红楼梦》中哭的情感表达.山西煤炭管理干部学院学报,2013,01(5)常辅相,常铁砚,王中秋.浅析《红楼梦》展现的“哭态”学术交流,1999,03万方数据库(1)肖燕立.泪雨悲风中的艺术天地—谈曹雪芹写哭.红楼梦学刊,1985,02(2)王启忠.喜哭怒骂总关性情—论《红楼梦》人物情态描写.学术交流,1986,01(3)吴明东.“欲天下人共来哭此‘情’字”—谈脂砚斋对《红楼梦》情的主题揭示.齐齐哈尔大学学报,2010,02(4)哭与笑的艺术辩证法—《红楼梦》艺术辩证法浅探.[J]赣南师范学院学报,1984,01(5)张淑媛.千红一哭,万艳同悲——从《红楼梦》中的诗歌浅析人物命运.[J]文学界,2010,05维普(1)吴宝成.隔帘消息风吹透捧心西子“泪”为魂——林黛玉之哭浅析芜湖职业技术学院学报-2009年4期(2)张国荣.千人一哭万艳同悲─—从《红楼梦》看中国人的悲剧意识.[J]广西右江民族师专学报,1998,042).图书国家图书馆:(1)俞平伯《红楼梦研究》[M]上海古籍出版社2005年(2)周邵良《红楼梦研究论集》[M]陕西人民出版社1983年3).有关核心期刊(1)韩进廉.千红一哭万艳同悲——试论“金陵十二钗”的典型意义河北大学学报1984年02期(2)金蓓蓓.析宝钗的哭红楼梦学刊1992年02期4).网络学术信息资源:(1)高小康.领悟悲剧——王国维《红楼梦评论》研究论文网(2)梁归智.《红楼梦》研究的意义——世纪之交检讨“红学”论文网(3)王蒙.《红楼梦》的研究方法—中国化的一门学问.论文网三.总结报告通过对《红楼梦》中“哭态”检索,只发现为数不多的鉴赏性研究。
研究《红楼梦》却忽视曹雪芹的“泪”,不可能更好地理解作家及其作品。
用“一把辛酸泪”哭成此书的曹雪芹十分重视人物“哭态”的描写,故书中人物的哭态描写,出现频繁,表现细腻,具有重要的艺术价值。
然而,相对于红学研究的其他领域,对《红楼梦》中人物“哭态”的研究少之又少,且不够系统和深入,是红学研究中尚待探讨的重要课题。
异彩纷呈的情态,是人物内心的情绪、情感的外部流露,曲沐从林黛玉的“葬花词”入手,对林黛玉的“哭”作了欣赏性评价,揭示了人物性格,但该研究并没有引起学人的关注。
胡文彬评析了黛玉的“哭态”,重点分析了黛玉“哭”的原因。
陈家生对《红楼梦》中人物的“哭态”作了总体比较,遗憾的是他仅仅从修辞的角度举了几个例证,泛泛地谈了曹雪芹对“哭态”描写的艺术表现技巧,未得出规律性的发现。
马云娟认为,《红楼梦》的“哭”透视了人物的爱情、亲情和友情等。
以上对《红楼梦》中人物“哭态”的研究,皆为定性分析和论述,定量数据论证很少。
《红楼梦》长达一百二十回,多达七十余万字,共描述了四百四十八个有形有肉的人物的各种“哭态”。
如果只是去图书馆通过手阅来完成对“哭态”数量的统计是很困难的,但是通过计算机网络搜索就会达到事半功倍的效果。
笑,有各种各样的表现形式。
法国学者让诺安写了一部《笑的历史》,专门研究“笑”这种情态。
哭,也是一样,情态各异,饶有滋味。
据统计,曹雪芹描写《红楼梦》中人物的“哭态”多达六百余次。
面对作者洋洋大观的“哭态”描写,如何进行分类,这是一个首要的问题。
《现代汉语分类词典》将“哭”归属于“感觉、情感”类,又细分为“哭类”、“号类”、“流泪类”和“泣类”。
“哭类”一般指“出声地哭或者大声地哭喊”,而“号类”更是大声地哭喊;“流泪类”,区别于出声地大哭,而是描绘泪流的各异情态;“泣类”,一般指“小声或无声地哭”,“抽噎”、“哽咽”、“呜咽”等词汇都属于此类,一般是指极度悲伤而致。
基于此,我们将同为“出声哭喊”的“哭类”和“号类”合并为“哭号类”,把《红楼梦》中的“哭态”归纳分类为“哭号类”、“流泪类”和“泣类”三类,并分别统计如下表:分类频数典型例证哭号类182大哭;啼哭;痛哭;干哭;号哭;哭个死去活来;哭声遥山振岳;狼嚎鬼叫;泼哭泼闹流泪类165洒泪;含泪;堕泪;落泪;抹泪;垂泪;滴泪;滚泪;潸然泪下;满面泪痕;泪如雨下;暗自垂泪;临风洒泪泣类35悲泣;掩面涕泣;自叹自泣;呜咽对泣;悲悲切切的呜咽;哽咽难言;哽咽难鸣;呜呜咽咽以上是分别以“哭”、“号”、“泪”、“泣”等关键词进行二次检索,归纳总结得出的三类“哭态”及其出现的次数。
从表中可以看出,曹雪芹用了丰富的词汇分别表达不同的哭状,在“哭号类”中多为出声或者大声地哭,甚至“哭声摇山振岳”。
作者表达“流泪”的动词千变万化,有“洒”泪、“含”泪、“堕”泪、“落”泪、“垂”泪、“滚”泪等,而流泪动词的微妙变化也使哭者伤心流泪的场面跃然纸上。
“呜呜咽咽”、“哽咽难言”等“泣类”词汇,声形并茂地描绘了哭者极度伤心的哭态。
通过对《红楼梦》中“哭态”用词的统计,我们注意到,曹雪芹描写人物“哭态”用到“哭号类”的词汇频数与“流泪类”的频数基本持平,而“泣类”的使用量微小,只有上述前两类的五分之一左右。
哭是一种情感宣泄的方式,通过这次的课题检索使我对《红楼梦》中的“哭态”有了全面的把握,更加的了解了其中人物的性格和形象。
四.心得体会通过对这次课题的检索,我发现中文信息检索这门课程并不是自己想像中的那么容易,在检索过程中总是会遇到这样或那样的问题。
比如我的检索课题是浅析《红楼梦》中的“哭态”,刚开始的时候把匹配控制设为精确,却只搜到三篇相关的结果,后来经过分析。
调整搜索策略,才使得检索成功。
信息虽然给我们提供了很多方便,但是想要熟练地使用它还是要进行认真学习的,因为我们在查找有用信息的同时还要摒弃那些无用的信息。
经过了这次课题检索,我认识到利用检索信息是要了解很多具体内容的。
要知道各个数据库都有自己的那些特点,要抓准关键词,主题,文献时间,作者信息等等。
其中关键词是最重要的,因为输入不同的关键词检索出来的文献会相差很大,关键词选正确会大大提高检索的速度和质量,因此要快速而准确地找到自己想要的文献就一定要选好关键词,所以选好关键词是使用数据库首先应该学会的。
我通过对课题的检索了解到不同的数据库具有不同的特点,在中文检索中,维普中文数据库范围要小一些,主要就是期刊;万方数据库中的论文质量都比较高,检索结果也十分详细,包括:论文题目、作者、专业、导师、单位、分类号、关键词、文摘等等;超星图书馆非常有用,很多经典的图书,在其上找到;三大索引分别为SCI、EI、ISTP,它们分别收录了国际上基础科学与应用科学领域科技期刊、工程领域期刊及会议、国际会议上发表的论文。
中国期刊网,即中国知网,它的最大特色就是可以直接获取原文,其针对性地获取全文,检索效果好,速度快。
当今时代是一个科学技术高速发展的信息时代,也是一个竞争、充满挑战的知识经济时代,大学生如何立足于信息社会,在激烈的社会竞争中处于优势地位,除了应该具有广博的人文素质、深厚的科技素质、理性的思维和创新素质、健康向上的思想政治素质和身体素质外,还必须具有一定的信息素养,这是大学生拥有高水平综合素质的基本要求,也是信息化社会的迫切要求。
所以学好信息检索这们课,对于以后走入社会都会让我们更具有实力和竞争力在黎老师的指导下学习这门课程,在提高信息意识的基础上,我培养和提高了自己的信息素养能力,提高了获取信息资源的能力,锻炼解决具体问题的能力,推进专业信息素养的能力和培养采用新型学习方式的能力。
具体到实际学习中,可以独自检索所需文献、信息和知识,受益匪浅。