本体信息检索情境下相关性理论研究_郝斌
- 格式:pdf
- 大小:166.52 KB
- 文档页数:5
基于本体论的信息检索技术研究随着互联网的快速发展,信息检索成为人们获取信息的主要方式之一。
然而,传统的文本搜索技术在处理信息检索过程中存在一些问题,如结果精度低、关键词表述不全面等。
因此,人们开始探索新的信息检索技术,其中基于本体论的信息检索技术引起了广泛关注。
什么是本体论?本体论是一种描述知识、概念之间关系的形式化语言,用于描述知识组成的领域,并以图形化方式展示出这些实体之间的关系。
本体论是人工智能领域的一部分,主要应用于知识表示、信息集成、语义网等方面。
基于本体论的信息检索技术是什么?基于本体论的信息检索技术主要是通过构建本体来优化文本检索的过程。
在传统的文本搜索技术中,检索结果是基于词频和文档相似度来确定的,而在基于本体论的信息检索技术中,检索结果不仅仅基于关键词匹配,还考虑了实体之间的语义关系和关键词的上下文含义等。
基于本体论的信息检索技术如何实现?基于本体论的信息检索技术主要包括以下几个步骤:一、构建本体构建本体是基于本体论的信息检索技术的第一步。
在本体的构建过程中,需要将领域内的实体描述清楚,并定义它们之间的概念、属性和关系等。
构建本体的目的是将领域内的知识体系化,以实现对文本信息的更准确的表示和检索。
二、语义标注语义标注指的是在文本中标注实体、概念和属性等信息,以便计算机能够识别文本中实体之间的语义关系。
语义标注技术可分为基于规则和基于机器学习的方法。
三、概念扩展概念扩展是指将与搜索关键词相关的实体和概念扩展到领域本体中。
这个过程是基于本体的,可以通过本体中定义的属性和关系来进行实体的扩展。
四、查询扩展查询扩展是指用检索系统自动生成的语义关联词条来扩展查询词。
通过查询扩展,可以从查询感兴趣的实体或者名称扩展到它们的近义词、关联词,准确地提取相关文本信息。
五、检索结果排序在基于本体论的信息检索技术中,检索结果的排序是根据查询词和扩展后的查询词与领域本体中实体或者概念之间的相关度来进行的,从而提高了搜索结果的准确性。
基于本体的语义信息检索研究共3篇基于本体的语义信息检索研究1随着互联网规模的不断扩大和人们对信息获取的需求不断增加,信息检索技术的研究和发展日益受到重视。
传统的文本检索方法主要关注于词汇的匹配,然而,随着语义网络的不断发展,人们更加关注语义信息检索。
基于本体的语义信息检索即是基于本体技术实现的语义信息检索。
本体是描述认识领域概念、属性和关系的模型,常常用于知识表示和语义信息的处理和检索。
基于本体的语义信息检索有别于传统的文本检索方法,它采用了语义计算技术将词汇转换为概念,然后利用本体进行语义匹配,从而实现精准的检索结果。
与传统的文本检索方法相比,基于本体的语义信息检索具有一些显著的优点:第一,实现了概念级别的检索。
传统的文本检索方法是基于关键字的匹配,而基于本体的语义信息检索是基于概念的匹配,搜索面更加广泛,可以进行满足需求的细粒度检索。
第二,提高了检索结果的准确性。
基于本体的语义信息检索不仅可以检索到与查询意图高度相关的信息,还可以同时检索到与查询意图相关但表述方式不同的信息,大大提高了检索结果的准确性。
第三,自动化程度高,能够自动地对查询语句进行语义分析和语义推理。
这一点在处理语言表述多样化的查询时尤为重要,规避了传统文本检索方法因语言多样化而给检索过程带来的不便。
基于本体的语义信息检索技术已经在多个领域得到了广泛的应用,如谷歌、百度等搜索引擎遵循这种检索模式,通过本体挖掘信息的关联性和语义,实现了搜索引擎的智能化。
此外,基于本体的语义信息检索还被应用于知识管理、智能问答系统、智能推荐等多个领域。
尽管基于本体的语义信息检索在理论和实践中取得了许多进展,但它仍面临着一些挑战:第一,本体的建立需要大量的领域知识和专业技能,光靠静态地建立本体往往难以适应快速变化的环境。
为此,研究者可以动态调整本体,将人工干预和自动学习相结合。
第二,理解查询语句需要具备高度的自然语言处理能力,而现有自然语言处理技术的表现通常无法让人满意。
基于本体的语义搜索研究综述基于本体的语义搜索研究综述随着网络信息的不断增长,传统的文本检索技术已经无法满足人们对更高效、精准的信息获取需求。
因此,语义搜索技术应运而生。
基于本体的语义搜索是一种利用先进的语义分析和本体技术实现的全新搜索方式,它能够更加全面、精准地搜索出用户所需的信息。
本文将对基于本体的语义搜索技术进行详细介绍,并对其发展现状和未来趋势进行分析。
一、基于本体的语义搜索技术简介本体(Boxies)是一个构建和维护共享概念结构的框架,它可以为不同应用程序的数据集提供定义和数据交互的通用概念模型。
本体可以看作是一个概念网络,由节点(类别)、属性和关系组成,并且可以通过Web技术进行分布式创建、访问和维护。
而基于本体的语义搜索,就是利用本体技术支持语义解析,实现更加准确、全面的搜索。
基于本体的语义搜索技术的实现过程:首先,通过本体技术建立领域本体模型,将领域的相关知识、数据和概念的定义集成到本体模型中;然后,用户查询信息时,对用户输入的查询语句进行语义解析,将其转换为本体的语义表示;最后,使用本体语义数据对信息进行检索和排名,并返回查询结果。
二、基于本体的语义搜索技术的实现方法目前,基于本体的语义搜索技术主要有三种实现方法:基于本体的全文搜索、基于表达式树的搜索和基于查询扩展的搜索。
1、基于本体的全文搜索基于本体的全文搜索是通过对文本进行语义解析并生成语义三元组的方式实现的。
通过把搜索问题转化为合理的Formal Query和SPARQL脚本,可以利用本体数据之间的关联性以及它们在语义空间中的分布来提高搜索的准确性。
例如,有一个本体模型包含汽车、发动机、轮胎等术语,用户想要搜索汽车的类型,可以输入“明年年底上市的SUV”,搜索引擎可以将其解释为“基于本体的SUV类型的搜索”,然后使用本体数据对信息进行检索和排名,并返回查询结果。
2、基于表达式树的搜索基于表达式树的搜索是通过将用户查询语句转化为一个表达式树,利用表达式树结构对本体数据进行语义匹配实现的。
哈尔滨工业大学硕士学位论文信息检索的索引和检索技术的研究与实现姓名:包刚申请学位级别:硕士专业:计算机科学与技术指导教师:关毅20050601难尔滨工业大学工学钡{‘学位论文摘要在当今社会里,信息的爆炸式增长已经成为人们必须面对的问题了,人们每天都不得不从这信息的海洋中如同大海捞针般找到对自己有用的信息,以便加以利用;同时,随着计算机技术和存储技术的不断发展,将海量信息保存在计算机存储设备中已经成为现实。
因此关于借助计算机在海量信息中找到人们所需的有用信息的研究越来越受到人们的关注,而信息检索技术就足为了解决上述问题而提出的。
本文首先简要回顾了信息检索技术的发展历程,并且由此引出信息检索的定义以及当前信息检索系统存在的‘些问题。
接着,本文重点对中文信息检索系统的相关技术做了以下儿方面的研究:l、信息检索系统的组成以及各组成部分在整个系统中所起的作用。
索引、中文分词、文本自动分类以及相关度计算等中文信息检索中的一些关键技术;2、信息检索的索引分类、索引项的组织,介绍了B—Tree、哈希等关键词的组织查找方式以及常用的处理哈希冲突的方法;3、基于Cover级别的中文信息检索技术。
本文分析了众多信息检索系统的检索特点,并且为了解决查询准确定位问题而采用基于Cover级别的中文信息检索技术,提出了基于Cover级别的中文信息检索技术的相似度亡f算方法以及信息检索的评价方法。
同时,分析了基于CGver级别的信息检索技术中存在的不足,并加以改进。
最后,本文给出了基于Cover级别的中文信息检索系统的设计和实现。
关键词信息检索;相关度计算;基于Cover级别:::::::::::::堕垒鎏三些奎兰三兰竺圭茎篓篁兰:::::::::AbstractInnowadays,therapidincreaseofinformationisbecomingaproblemthatpeoplemustbefacedwith;peoplehavetOfindusefulthingsfromlargeamountofinformationeveryday,meanwhile,withthedevelopmentofcomputerscienceandstoragetechnology,itbecomestruethatpeoplestorelargeamountofinformationincomputer.Sotheresearchtofindingusefulthingsthatpeopleneedwiththehelpofcomputerismoreandmoreimportant,andtheinformationretrievaltechnologyisputforwardfortheproblemabove.Thispaperreviewsthedevelopmentofinformationretrievaltechnologybriefly,givesthedefinitionofinformationretrievalandsomedisadvantagesofcurrentinformationretrievalsystem.Thispaperfocusesonthefollowingtechnologyofinformationretrieval:1.Thecomposingofinformationretrievalsystemandthefunctionofeachpart.Indexing,Chinesewordssegment,textclassificationandsimilaritycalculating.2.Introducingtheclassificationofindexing,theformofindexitems,B—TreeandHashingmethodsandhowtohandlethecollisionofhashfunction.3.ThecoverbasedChineseinformationretrievaltechnology.Thispaperanalysesseveralinformationretrievalsystem,andusethecoverbasedtechnologyfortheorientationofuser’squery.PutforwardthemethodofsinfilaritycalculatingforcoverbasedChineseinformationretrievalandtheevaluationtoinformationretrievalsystem.Atthesametime,thispaperanalysesthedisadvantageofcoverbasedtechnologyandimprovesit.Atlast,thispapergivesthedesignandimplementationofcoverbasedChineseinformationretrievalsystem.Keywordsinformationretrieval;similaritycalculating;coverbased窒尘堡三些尘兰!兰竺.!兰兰兰兰1.1课题背景第1章绪论随着计算机技术的飞速发展和信息存取方式的重大改变,人们已经打破了先前完全依赖手工劳动来储存获取知识和信息的方式,转而利用计算机技术帮助我们完成先前的手工劳动。
基于本体语义检索技术研究
李勇;张志刚
【期刊名称】《计算机工程与科学》
【年(卷),期】2008(030)004
【摘要】网络信息的激增和多样化给有效的信息检索带来了种种困难,目前的检索工具仅提供了基于关键字的检索,而忽视了关键字本身所含的语义内容.本文提出的图书信息检索系统利用本体论中概念规范、语义丰富的特点将用户的检索要求扩充成语义集,并且将检索到的文档通过文档分析器进一步过滤,使用户最终得到与检索要求内容匹配度较高的文档.
【总页数】4页(P17-19,94)
【作者】李勇;张志刚
【作者单位】大连海事大学计算机科学与技术学院,辽宁,大连,116026;大连海事大学计算机科学与技术学院,辽宁,大连,116026
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于本体的语义检索技术研究 [J], 张继芳
2.基于本体语义检索技术研究 [J], 刘超;李伟
3.基于领域本体的语义检索关键技术研究 [J], 王璐;于超;董亚则;彭馨仪
4.基于本体的语义检索技术研究 [J], 孙成国;孟晓伟
5.基于本体的语义网检索模型技术研究 [J], 李琼
因版权原因,仅展示原文概要,查看原文内容请购买。
信息检索报告2012年12月17日姓名*** 学号*** 成绩检索课题课题名称多媒体通信技术的应用与发展课题分析随着全球信息化时代的到来,多媒体通信技术已成为当今世界科技领域中最有活力、发展最快的高新信息技术,已广泛应用于社会的各个行业,各个领域,影响着人类的生活方式和生活质量。
多媒体通信技术是多媒体计算机技术与通信技术相结合,其综合了多种媒体信息间的通信,它是通过现有的各种通讯网来传输、转储和接收多媒体信息的通讯方式,几乎覆盖了信息技术领域的所有范畴,包括数据、音频和视频的综合处理和应用技术。
如果说19世纪是电报的时代,20世纪是电话的时代,那么,21世纪将是多媒体通信的时代。
多媒体通信技术的应用非常广泛,可以提供VOD视频点播、远程教学、远程办公、远程医疗、多媒体电子邮件、可视电话、桌面视频会议、数字图书馆、电子百科书等多种多样的业务。
自选课题旨在多媒体通信技术范畴内,研究多媒体通信技术的应用及发展方向,例如:多媒体会议系统、远程教育和医疗、居家办公等问题。
其所属的学科专业包括电子科学与技术、电子信息工程、计算机科学与技术等。
根据对于自选课题的主题类型与结构分析,对检索范围和要求做限定:⑴资源语种:根据选题分析以及馆藏信息资源特点,选择中文信息资源。
⑵资源年限:来自于检索主题分析提示,检索重点时限距现在5~8年。
⑶资源类型:重点检索图书(电子图书)、期刊论文、学位论文,检视检索结果,可以选择适当时机扩大检索范围到会议论文、报纸文献等。
⑷检索系统:对于信息检索系统的选择一般不超过本馆信息资源保障体系范畴,只有某些特例出现时,方可求助于馆际信息资源帮助。
①纸质图书(期刊)使用西昌学院图书馆OPAC系统全面掌控馆藏纸质书刊的收藏,结合入馆面查获取文献原文;②电子图书使用馆藏电子图书全文数据库进行检索利用;③数字化期刊使用馆藏数字化期刊全文数据库进行检索利用;④学位论文使用馆藏数字化学位论文全文库;⑤馆际信息资源只有当馆藏纸质书刊、电子资源不能全部满足自己的信息需要时启用使用流程。
领域本体在信息检索中的应用研究本体在信息检索中的应用研究是一个越来越重要的议题。
随着信息检索行业的快速发展,本体的应用也变得越来越重要。
利用本体,可以更好地建立两个信息检索系统之间的映射关系,以及从多个知识域中收集和提取信息。
在一个信息检索系统中,一个常见的本体应用是语义网,它可以检测句子中的语义错误,并且可以使检索系统更加准确。
领域本体在信息检索中的应用领域本体是一种结构化的知识表示形式,它用于描述知识领域的概念,关系和规则。
因此它可以用于信息检索。
领域本体可以描述语义信息,并可以提供更准确的搜索结果。
它可以推断搜索引擎中包含的新概念或未明确提取的信息。
此外,领域本体还可以为信息检索系统提供一致性和准确性。
本体构建本体构建是本体在信息检索中应用的一个重要组成部分,它可以帮助信息检索系统获得更准确的搜索结果,也可以帮助系统更好地解释信息。
本体构建一般包括定义本体类,定义本体实体,以及定义本体关系,这些构成本体结构的元素可以描述知识领域中的概念,规则和关系。
此外,本体还可以实现体系结构的拓展,可以使本体更好地适应变化的信息检索需求。
本体学习本体学习是一种从数据中构建本体的机器学习方法。
它可以帮助信息检索系统从大量的数据中自动构建本体,并从中提取相关的语义信息。
它还可以推断搜索引擎中潜在的概念,从而更好地支持用户的搜索任务。
本体学习方法有很多种,比如基于规划的方法和基于模型的方法。
本体评估本体评估是一种重要的应用,主要是用来确定本体在信息检索中的性能,以及它是否能够提供有效和准确的搜索结果。
本体评估分为两种:定性评估和定量评估。
定性评估主要通过人为判断的方式,比较不同的本体,确定它们的优劣,以及它们是否能够满足搜索任务的需求。
定量评估则是采用一系列的标准,来衡量不同的本体的性能,比如准确度,召回率和吞吐量等。
结论领域本体在信息检索中的应用是一个重要的议题,它可以提供准确和可靠的搜索结果,并可以推断搜索引擎中潜在的概念,从而更好地支持用户的搜索任务。
基于本体论的信息检索研究随着互联网的迅速发展,信息已经成为了现代社会的重要组成部分,每个人日常需要从海量信息中寻找自己所需的有效信息。
而信息检索技术的出现,为快速、准确地获取信息提供了可能。
本文将从本体论角度切入,探讨基于本体论的信息检索研究。
一、本体论基础本体论是知识组织的一个重要分支,着重研究事物之间的概念、关系以及它们之间的逻辑和语义联系。
本体是一种形式化的模型,用于描述特定领域的概念、关系和属性等元素。
它可以为搜索引擎、推荐系统等提供语义支持,并允许语义表示的可重用性。
本体的构建需要考虑领域知识的包容性以及可扩展性。
二、基于本体论的信息检索技术随着本体论的普及,基于本体的信息检索技术也越来越被广泛研究和应用。
常见的基于本体论的信息检索技术包括本体建模、本体匹配和本体映射等。
1. 本体建模本体建模是将特定领域的概念、关系和属性等元素进行形式化描述的过程。
本体建模需要考虑领域知识的包容性和可扩展性,同时需要保证本体的规范性和语义准确性。
通过本体建模,可以方便地将专业术语、相似概念、语义关系等相关信息进行组织和管理,为信息检索提供语义支持。
2. 本体匹配本体匹配是将不同本体间的相似性进行比较和匹配的过程。
在跨领域信息检索中,通常需要将不同领域的本体进行匹配,以便在不同领域之间进行有效信息的互通。
本体匹配可以基于本体之间的语义关系进行匹配,比如同义词、反义词、上下位词等。
本体匹配可以为信息检索提供跨领域信息共享的桥梁。
3. 本体映射本体映射是将同一领域内不同本体间的相似性进行比较和匹配的过程。
在同一领域内,由于不同本体的构建方式和重点不同,因此需要将不同本体进行映射以方便信息检索。
本体映射可以基于相似的本体结构和语义关系进行匹配,以便将不同本体间的信息进行整合和共享。
三、基于本体论的信息检索技术应用现状目前,基于本体论的信息检索技术已经被广泛应用于各个领域。
例如,在医疗领域中,通过构建疾病本体和症状本体,可以帮助医生快速准确地进行疾病诊断和治疗;在电子商务领域中,通过构建产品本体和购买行为本体,可以实现智能推荐和个性化服务;在智能交通领域中,通过构建道路本体和交通信号灯本体,可以实现交通指挥和智能驾驶等功能。
领域本体在信息检索中的应用研究近些年随着社会经济的发展,人们愈加关注信息检索的研究,本体在信息检索中的应用也受到了越来越多的重视。
本体是一种面向概念描述的建模技术,它为信息检索提供了一种新的、高效的方式。
它能够为信息检索提供一种基于概念的描述,以便更好的识别文本的真实内容和更加有效的检索相关信息。
领域本体是一种知识表示技术,它能够更容易地理解和表示用户查询意图,让文本检索变得更加准确和有效。
领域本体技术包括本体计算、本体记录、本体推理、本体构建等基本技术。
本体技术能够为文本检索提供准确和有效的检索,亦可以提供复杂的信息检索功能,如信息细分和文本表示。
本体技术的应用主要有:本体的结构模型化、本体的概念描述等,这将有助于系统建立查询模型,以及有效的管理和检索信息。
在信息检索中,本体技术可以提升知识的管理效率,灵活性和精度。
首先,本体技术可以通过建立本体模型将信息结构化,有效地实现知识的细分和重新组织,有助于提高文本检索的精度;其次,本体技术可以通过概念索引,有效地组织和检索信息,改善文本检索的效率,并且能够有效地实现关联检索;第三,本体技术可以通过信息语义分析技术来提升文本检索的灵活性和准确性,有助于提高查询的精度和质量。
本体技术在信息检索方面也有一些不足之处。
本体技术虽然能够提高文本检索的准确性和灵活性,但是会增加存储和检索的复杂性,这也是本体技术应用的主要瓶颈。
此外,由于本体技术只能按照预定的框架检索和管理信息,因此无法完全反映信息的复杂性和变化。
为了克服上述不足,在近年来也出现了一些新的解决方案。
例如,引入本体的混合技术,使用混合技术可以改善文本检索的准确性和灵活性,并且表示能够更好地模拟文本信息的复杂性和变化,以便实现更好的信息检索效果。
此外,还有将机器学习技术和本体技术结合起来的方案,这将有助于在文本中更好地查找用户需要的信息。
因此,本体在信息检索中的应用研究有着非常重要的意义。
它不仅能够改善传统的文本检索方法,而且可以为用户提供更加准确、更加灵活的信息检索功能,从而达到更好地支持文本检索的目的。
基于领域本体的知识整合浅析
徐德斌
【期刊名称】《现代情报》
【年(卷),期】2011(031)012
【摘要】本文对领域本体及知识整合的相关理论及实践应用进行了简要的介绍与
分析,并对领域本体引入知识整合中做了必要性及可行性研究.同时笔者还构建了基
于领域本体的知识整合模型,以期对相关领域的理论研究有所贡献.
【总页数】4页(P27-29,33)
【作者】徐德斌
【作者单位】长春大学理学院,吉林长春130022
【正文语种】中文
【中图分类】G250.73
【相关文献】
1.基于领域本体知识库的专业搜索引擎查询推荐算法研究--以盐湖化工领域为例1)[J], 洪婕;张健;胡亮
2.基于领域本体对专利情报知识挖掘的浅析 [J], 陶然;李晓菲
3.构建基于知识本体的教育领域知识库 [J], 李树文
4.基于领域知识重用的虚拟领域本体构造 [J], 陈刚;陆汝钤;金芝
5.构建基于知识本体的教育领域知识库初探 [J], 江河
因版权原因,仅展示原文概要,查看原文内容请购买。
信息检索相关性评价及其改善策略研究
成全;司辉
【期刊名称】《情报杂志》
【年(卷),期】2008(027)002
【摘要】相关性是衡量信息检索系统性能的重要指标之一,对信息检索相关性进行深入分析对于信息检索系统的有效开发具有重要的理论指导意义.从系统、用户以及当前的网络环境信息检索三个方面分析了信息检索相关性的评价方法及改善策略.【总页数】5页(P129-133)
【作者】成全;司辉
【作者单位】武汉大学信息资源研究中心,武汉,430072;福州大学公共管理学院,福州,350002;武汉大学信息资源研究中心,武汉,430072
【正文语种】中文
【中图分类】G35
【相关文献】
1.浅析信息检索评价中"相关性"问题的内涵 [J], 夏咏梅
2.信息检索中的相关性判断和系统评价述评 [J], 秦喜艳;陆伟;姜捷璞
3.信息检索系统中的相关性评价问题 [J], 侯震宇
4.网络信息检索评价中相关性问题研究 [J], 张秋霞
5.信息检索相关性及其发展策略研究 [J], 陈洁
因版权原因,仅展示原文概要,查看原文内容请购买。
本体论视域下的图书馆学研究内容和研究方法:兼与工具论比
较
傅荣贤
【期刊名称】《图书馆》
【年(卷),期】2010(000)001
【摘要】图书馆兼具本体性和工具性.在图书馆的本体性日益为工具性所遮蔽的今天,强调和重视图书馆的本体性内涵,能够为图书馆学研究敞开一个全新领域,思考诸如"图书馆是如何必然地反作用于它所依归的文化的"、"图书馆反作用于文化的可能路径是什么"等问题.研究内容的变化必将导致研究方法的相应性转型,理性逻辑将不再是图书馆学研究中唯一性的独白话语.共时性的结构规律也将被基于现实主体(馆员和用户)之文献表达和文化理解的鲜活的历时领域所取代.
【总页数】5页(P1-5)
【作者】傅荣贤
【作者单位】黑龙江大学信息资源管理研究中心,黑龙江哈尔滨,150080
【正文语种】中文
【中图分类】G250
【相关文献】
1.论图书馆学“核心论域”的当代内涵及创新意义——兼评《当代图书馆学基础理论的客观知识本体论转向》 [J], 许亮
2.图书馆学基础理论研究应有自己的核心论域——兼评《当代图书馆学基础理论的
客观知识本体论转向》 [J], 许亮
3.“核心论域”的探索与当代图书馆学的发展——兼评《当代图书馆学基础理论的客观知识本体论转向》的理论创新 [J], 储流杰
4.图书馆学专门方法研究内容的拓展与研究方法创新 [J], 杨淑萍
5.图书馆学论文研究方法利用情况调查——兼纪念乔好勤《试论图书馆学研究中的方法论问题》发表20周年 [J], 任全娥
因版权原因,仅展示原文概要,查看原文内容请购买。
基于内容冗余的Web信息抽取
陈夫桂;胡文江;高永兵;郝斌
【期刊名称】《中国新技术新产品》
【年(卷),期】2012(000)006
【摘要】提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。
该算法从一些原始网站提取记录来填充种子数据库。
然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。
同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。
另外借助SOGOU
和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。
【总页数】1页(P32-32)
【作者】陈夫桂;胡文江;高永兵;郝斌
【作者单位】内蒙古科技大学信息工程学院,内蒙古包头014010;内蒙古科技大学
信息工程学院,内蒙古包头014010;内蒙古科技大学信息工程学院,内蒙古包头014010;内蒙古科技大学信息工程学院,内蒙古包头014010
【正文语种】中文
【中图分类】TP31
【相关文献】
1.基于节点属性与正文内容的海量Web信息抽取方法
2.一种内容中心网络传输内容冗余的消除方法
3.基于R语言的web信息抽取及可视化应用
4.基于深度学习的Web信息抽取模型研究与应用
5.基于开始定界符的自动Web信息抽取
因版权原因,仅展示原文概要,查看原文内容请购买。
地质资料数据挖掘系统研究与实现作者:郝珊彭薇来源:《科技资讯》2024年第12期摘要:国内的地质资料管理多存在保管分散、协同性差、“信息孤岛”问题,很难实现其信息共享,而且难以从海量地质资料中及时获取有用的信息。
数据挖掘等新兴技术应用于地质资料管理中,有助于提高地质资料服务水平。
然而,目前地质资料数据挖掘多基于目录元数据库,难以发现地质资料全文间的相关性。
为此,采用文本聚类分析方法提高推荐资料间的相关性,并从资料文本中提取指定关键信息,以此提高地质资料的利用效率。
关键词:地质资料数据挖掘聚类分析信息提取Research and Implementation of the Data Mining System of Geological Data Mining SystemHAO ShanPENG Wei(Geological Survey Institute of Hunan Provinciale, Changsha,Hunan Province, 414000 China)Abstract:The management of geological data in China often faces the problems such asof scattered storage, poor collaboration, and "information islandssilos", making it difficult toachieve information sharing and obtain useful information from massive geological data in time. The application of emerging technologies such as data mining to geological data management is helpful to improve the service level of geological data, but thecurrent data mining of at present,geological data mining is mostly based on catalog metadatabases, and itmaking it is difficult to find the correlation betweenamong the full text of geological data. Therefore, the text clustering analysis method is used to improve the correlation betweenamong the recommended data, and the specified key information is extracted from the data text, so as to improve the utilization efficiency of geological data.KeyWords:Geological data;Data mining;Cluster analysis;Information extraction地質资料是地学工作的重要载体,同时也是反映国家地质环境的重要数据。