当前位置:文档之家› TRS全文检索系统文档

TRS全文检索系统文档

TRS全文检索系统文档
TRS全文检索系统文档

1.1.1 全文检索系统结构

根据全文检索技术和实现方法,结合需求,检索系统由以下三个部分组成:TRS全文数据库系统(TRS Database Server)

TRS 全文检索网关(TRS Gateway)

TRS信息发布应用服务器系统(TRS W AS)

TRS全文数据库系统(TRS Database Server)采用TRS具有国际领先水平的信息检索和中文自然语言处理研究成果,具有傲视群雄的检索效果和查询性能,核心功能是对结构化和非结构化信息提供全文检索功能。

主要特点包括:

●异构海量数据统一管理,非结构化和结构化数据联合检索

●Native XML内核,实现全息检索

●智能辅助检索,支持知识挖掘

●精确计算,检索速度和准确性共达最优

●动态索引实时更新,面向事务处理

●支持Unicode编码,提供多语种查询引擎

●多级机制保障,信息采集和检索高度安全

●集群检索,保证高可靠性,随需轻松扩展规模

TRS全文数据库系统(TRS Database Server)通过TRS全文检索网关,可以实现对关系数据库中文本对象字段的全文检索。

TRS内容分发服务器系统提供将数据库中的信息动态发布到Web服务器上,以为平台用户检索使用。

全文检索系统架构图如下所示:

TRS信息发布应用

服务器系统

全文检索系统架构图

1.1.2 全文检索网关

TRS 全文检索系统采用开放的三层体系架构设计,整个系统基于主流的操作系统。

数据层主要为关系型数据库和TRS全文数据库,关系型数据库主要进行存储和管理,而全文数据库实现检索,利用TRS Gateway可以将关系型数据库的数据在TRS全文数据库中建立全文索引,以实现结构化和非结构化数据的全文检索。TRS全文数据库是TRS 公司自主研发的具有知识产权的产品,为了能够更好的提供全文检索和智能检索等应用功能,它其中包括多种词典支持:分词词典、主题词典、停用词典等。

应用层主要依据TRS全文数据库提供的全文检索功能实现平台所需的检索

需求,并为表现层提供检索服务。这层可以根据具体需求利用TRS提供的丰富开发接口实现全文检索应用。

表现层主要为平台管理人员和最终用户提供数据库检索和网页检索等。

北京市技术标准在线服务平台的大部分业务应用都是基于关系数据库,关系数据库(RDBMS)擅长于结构化数据的事务处理和关系运算,但是对长文本以及非结构化大对象文本缺乏有效的检索手段,而TRS全文数据库对非结构化文本对象具有出色的管理和检索功能。为了实现对关系数据库中信息的高效全面检索,针对这部分数据,需要将其进行统一采集和统一的检索服务。这种方式的采集不需人工干预,完全采用自动化采集方式。

为了真正、全面的实现结构化和非结构化信息的全文检索,在全文检索设计中,采用TRS全文检索网关(TRS Gateway)实现关系型数据库数据全文检索功能。

TRS全文检索网关(TRS Gateway)是由北京拓尔思信息技术有限公司和五大关系型数据库厂商Oracle、Sybase、IBM、Informix、Microsoft鼎力合作,共同推出的实现TRS数据与主流关系型数据库SQL Server、Oracle、Sybase、DB2、Informix数据之间进行数据迁移的工具。该工具实现了RDBMS与TRS全文数据库之间数据共享,使用户在享有RDBMS卓越的数据处理功能的同时,拥有TRS 优秀的全文检索功能。

系统特点:

TRS Gateway采用可视化的管理与配置工具使系统简单易用,轻松实现信息管理。用户只需要按步跟随“任务创建向导”的提示就可以创建更新任务,智能化定时运行工具,全面实现工作的无人监管:

应用向导配置连接关系数据库及TRS数据库

可设置的定时执行任务:对创建好的任务,用户可以设置其自动定时执行。如:用户可以设置一个增量更新任务每隔30分钟执行一次,意即每隔30分钟将用户对RDBMS数据库表中数据的修改向TRS全文数据库中进行一次索引的更新。高度自动化的定时执行功能使用户不必手动进行数据索引的更新操作,只需启动TRS*Agent即可自动定时执行。

实时查看和修改任务的各种属性:对任何一个创建好的任务,用户可以查看其属性,并可修改属性。

应用向导配置源表和目标表以及字段对应关系关系数据库与TRS全文数据库之间的数据更新方式支持:

●完全更新

执行任务时,先将指定的目标数据库表中的内容清空,然后将源数据库表中所有符合条件的数据迁移到目标数据库中。适用第一次迁移数据。

?数据追加

执行任务时,直接将源数据库表中所有符合条件的数据迁移到目标数据库中,并不将目标数据库表中的内容清空。适用一段时间向目标数据库追加一批数据时。

?增量更新

执行任务时,将所有源数据库表中符合条件的更新了的数据(指进行了删除、添加或修改的数据)迁移到目标数据库中。可以通过设定定时方式由系统自动执行,适用每天有数据更新情况。

1.1.3

TRS Web Application Server(TRS W AS)主要由管理控制台及应用端两部分组成,它主要有以下特点:

●完全基于Web的管理方式

管理控制台完全基于Web方式,使管理更加的灵活,真正实现了远程管理。应用端部分同样是完全基于Web方式实现。这种架构可以灵活的满足用户的需求,特别是ASP供应商。

●跨平台的支持

由于TRS W AS4.0完全采用了基于Java的技术实现,也就完全继承了Java跨平台的特性,一套代码可以在多个平台上运行,省除了跨操作系统平台可能带来的代码移植问题。

●灵活性及安全性的提高

TRS W AS4.0的开发是完全基于TRS TagLib基础上的。在开发的过程中,遵循了业务逻辑与显示风格控制分开显示的原则(CVM方式),将所有的业务逻辑封装在Servlet中,完成请求的处理后,将请求转发到包含了TRS TagLib的JSP模板页面中,由此页面完成最终内容的格式化显示。

这种开发方式最大的优点就是灵活性。在页面表现方面,最终页面的表现控制由TRS TagLib完成,表现为在JSP页面中插入TRS置标,修改起来十分的方便,并且业务代码不包含在其中,只需要美工人员就可以很好的完成,大大的减少了维护工作量;而当业务逻辑发生改变时,只需要对涉及到的Servlet进行逻辑代码的修改,完全屏蔽了显示层,工作量也大幅度的减少,保证了项目快速灵活的实施。

●支持对TRS数据库记录的增、删、改操作

TRS W AS4.0实现了在Web上对TRS数据库中记录信息的增、删、改功能。目前修改TRS数据库记录只适用于非二进制字段,增加及删除则没有这方面的限制。

●支持记录间相关性的连接,实现相关新闻的功能

TRS W AS4.0实现了相关新闻的功能,通过相关字段,实现了在细览记录时获得与此记录相关联的记录,并显示这些关联记录的连接。

●支持对记录被阅读次数的记录,实现热门新闻的功能

实现了对记录阅读次数的记录功能,当记录被细览一次时,自动将其的阅读次数字段加1,通过对阅读次数字段的排序,可以实现当前最热门记录的功能。

●提供TRS T agLib二次开发接口,保证项目快速灵活的实现

提供一套TRS TagLib置标,以此为开发接口,可以很迅速灵活的开发其他应用程序,在开发过程中,显示部分由嵌入了TRS TagLib的JSP模板文件来完成,而业务逻辑部分可以单独进行开发,这样既减少了开发的复杂程度,保证任务的顺利完成,又同时确保了客户各种灵活性的需求得到了保证,最终的开发及维护工作量都将得到很好的控制。

1.1.4 TRS全文检索系统特点

TRS全文检索以TRS全文数据库系统(TRS Database Server)为核心,提供功能全面、智能、高性能的全文检索服务保证。

在当今信息爆炸时代,正确的决策依赖于及时、准确和有效的信息,TRS全文数据库系统突破了传统全文检索和网页搜索引擎的种种局限,是真正基于知识的智能内容检索系统。

TRS全文数据库系统主要特点如下:

●大型数据的存储和管理功能

支持中文(简、繁体)、英文和中英文混合数据;

支持多种索引策略,包括按词、按字、按用户自定义关键词等索引策略,能够根据文档对象的结构属性建立不同的索引结构以实现面向不同结构文档的检索要求;

同时支持结构化数据和非结构化数据,支持多种数据类型(如日期、字符串、短语、文档和二进制多媒体类型);

支持常用格式文件的入库和检索,如TEXT、HTML、RTF、MS Office、PDF、S2/PS2/PS、MARC、ISO2709等);

支持多媒体数据的管理;

支持多种形式的数据存放方式,如集中存放、分散存放或URL方式存放,并且数据还可以存放在其他数据库或应用系统中;

高效的数据和索引压缩,实现了低空间膨胀率(-0.2~~1.0);

支持字段的唯一(Unique)特性;

支持数据库纪录的增删改操作;

不同操作系统平台之间,库结构自由拷贝,方便管理员操作;

管理员可设置“定时优化”的时间,降低系统管理的成本;

修改记录时,保存记录号的移动轨迹,能够使用移动前的记录号读取记录,确保数据维护的正确和安全;

可以方便地对各种词典进行管理和维护;

在32位系统中使用64位文件系统以支持超大规模的数据库;

方便的数据备份和恢复功能;

多种格式的数据导出功能,可以导出XML,TRS等数据类型文件。

●体系结构

分布式体系结构,可以建立多个TRS Database Server的集群结构,并在应

用层实现透明访问;

支持数据库一对多的单向镜像;

多线程设计,支持SMP体系结构,支持大量并发用户访问;

支持三层结构(Data Server、Application Server和Web Server)应用,每一层均可扩展。

●跨平台支持

支持多种硬件平台:如大型机/小型机/服务器/PC机;

支持多种操作系统:如64位和32位的Unix、Linux 、Windows NT/2000;

客户机可以运行在 Windows 9X、Windows NT、Windows 2000、主流Web浏览器上;

应用层接口和系统支持EJB,采用Java技术开发,同一套代码可以运行在异构的设备和操作系统环境中。

●对标准化和开放性的支持

同时支持Client/Server结构和Web Browser/Web Server结构;

支持ANSI 主题词典结构标准;

支持ISO2709、XML数据格式的输入、输出;

支持Apache Server、Netscape Enterprise Server和Microsoft IIS 等主流Web服务器;

支持J2EE/EJB,Web应用服务器支持主流中间件产品,如IBM Websphere、BEA Weblogic、Oracle Application Server、Tomcat等;

支持Netscape Navigator 和 Microsoft Internet Explorer等主流浏览器;

支持和主流的五大关系型数据库管理系统无缝集成,提供分布式和跨平台的灵活配置方案,支持对关系型数据库的文本数据和大对象类型数据的检索能力;

支持多语种:简体(GBK、GB2312、GB18030)、繁体(BIG5)、西文(ASCII)、国际统一码(Unicode);

●实时性支持

系统能支持对数据的增量更新,支持实时的数据添加、修改和删除。

●中文自然语言处理

内嵌汉语自动分词系统,并统计建立了大量歧义排除规则,有效提高了分词

准确性。

支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求;

●全文检索功能

同时支持Client/Server和Web Browser/Web Server两种检索方式;

支持中英文混合检索;

允许使用文中的任意字、词、句和片段进行检索;

全方位检索手段:提供了多达48种检索运算符。包括外部特征与正文内容的各种逻辑组合检索(与、或、非、异或)、位置检索(同段、同句、相差几个字以及前后次序有关等)、二次检索、渐进检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性和重要性程度排序等,支持分类查询,针对不同的栏目和子栏目,允许用户在指定的栏目下查询,以便获得更准确的检索结果;

对数值、日期等特征字段可以进行比较和范围检索;

支持任意一致的通配符检索(模糊检索);

基于成本优化的查询算法(索引分区技术、多线程并行运算技术、 Bigram 技术等),使得G级数据库查询速度达到亚秒级;

完善的Cache技术(包括检索词、短语、表达式的一级、二级缓存技术),从而支持更多的并发用户访问,并大大提高综合查询速度;

支持跨库和跨服务器的检索;

LIFO:后进先出的快速排序;

支持对检索结果的各种排序;

可以对检索结果进行浏览、存贮、打印、报表输出以及电子邮件发送等操作,浏览时具有命中点定位和高亮度显示功能;

可以限制每个用户一次存取检索结果的信息量;

●智能检索功能

TRS 独创的智能检索技术,在查全和查准方面比一般检索系统高得多。TRS 智能检索技术包括智能中文分词、广义同义词检索、主题词典控制检索、禁用词典、英文词根检索等。

智能中文分词:TRS采用先进的自动分词系统,根据大量的语料统计和分析,

建立了上万条的歧义排除规则,因此检索“华人”不会把仅仅包含“中华人民共和国”的文章检索出来。

广义同义词检索:TRS独创的广义同义词检索技术能够大大提高检索系统的查全率,比如检索“中央电视台”,TRS能够自动把包含“中央电视台”、“央视”、“CCTV”等文章全部检索出来,检索“电脑”会把包含“计算机”,“Computer”的文章全部检索出来。在TRS系统中同义词库是用户自己可以维护的。

主题词典控制:TRS支持ANSI标准和汉语主题词表标准,比如在主题词典中,有一个主题词为“民间工艺”,它的下位词有“编织”、“惠山泥人”、“剪纸”、“麦杆剪贴”、“民间石雕”、“木偶”等,因此为了达到提高查全率的目的,检索“民间工艺”时,系统可以自动扩展检索到包含它的下位词的所有文章;相反,在检索“木偶”时,如果我们发现检索结果很少时,可以通过扩展上位词检索到更多的文章。

●用户管理

多用户系统,具有独立于操作系统的用户管理机制;

系统提供多种权限级别的用户管理:系统管理员、全域管理员、组管理员、资源用户、登录用户;

服务器的日志文件可以任意配置,即决定哪些操作要日志,可以帮助收集用户访问的统计信息;

支持用户组的概念,以及Group DBA的概念,适应大型应用中复杂的系统管理和应用;

支持唯一登录功能,可以确保同一账号的用户同时只能登录一次,不能重复登录。

●安全性

安全性好:具有系统级、数据库级、记录级和字段级四级安全控制机制;

除了可对数据库进行个别单独备份外,还提供系统所有信息的备份;

检索实例的唯一化,妥善处理无用请求,提高系统资源利用率,也可以防止对检索系统的恶意攻击;

用户访问数据库授权机制;

对记录(文献)存取密级控制、存取数量控制;

完善的日志监督管理,可以根据需要灵活配置;

检索服务应用系统与数据库服务器分离,所有的访问都通过应用服务器,可以大大提高数据和系统的安全性。

法规标准库及全文检索系统

法规标准库及全文检索系统 一、产品研发背景 为了使电力企业相关人员更方便的查询到国家、行业发布的各种法律、法规及行业标准,避免企业自己搜索各种文件时,不能保证文件信息、版本的正确性和及时性,提高工作效率。开发法规标准库及全文检索系统。 二、产品特点 内容齐全 由中电方大上传和管理软件数据库中文件,上传文件包括电力行业的法律、法规、行业标准和各企业集团规定,还包含一些对这些法律、法规解读的文章或论文,对法律、法规进行更深层次的挖掘理解。企业在生产、培训时使用该软件可以更方便的查询到需要的文件。 文件实时更新 系统中的文件由中电方大进行管理,对每一个文件的过期或作废等,中电方大都保持实时更新,保持系统的与时俱进,保证文件为实时适用的最新版本。 文件查询方便 文件的查询搜索功能,即能输入文件名或关键字在数据库中全部搜索,又能按照法律、法规、标准或是生效年份等不同条件进行查询搜索。 全文所搜功能 此功能是系统的一大亮点。为了便于查询文件及对应文件内容的搜索,系统支持全文搜索功能。如在搜索界面输入“压力容器”,在结果列表中即会显示相关文件的名称,也会显示部分带有关键字的内容。

三、产品功能 系统支持相关法律法规的全面搜索及预览功能。 四、产品解决问题 系统解决了企业在需要获取相关法规文件时不能确定文件的准确性、最新性等问题。 五、提供的产品服务 ◆提供本产品终身更新服务 ◆提供功能个性化开发服务 六、产品适用范围 产品适用于各类企业 七、公司简介 北京中电方大科技股份有限公司,成立于2004年,新三板挂牌上市公司(证券代码430411,简称:中电方大)。 本公司是处于软件和信息技术服务业的安全与应急服务提供商,为电力企业用户提供安全与应急管理及信息化及对应的整体解决方案。公司于2012年获得国家电监会(现国家能源局)颁发的电力安全生产标准化一级评审机构资质,从事发电企业、电力建设企业的安全生产标准化评审业务。于2014年获得国家能源局指定的电力安全培训机构资质,为发电企业、电网企业相关负责人和安全生

英文数据库,全文检索 文档

四)利用英文全文数据库——Elsevier,Springer,EBSCO(BSP/ASP) 1、检索课题名称:探析公益广告中的商业元素 2、课题分析: 中文关键词为:公益广告,商业元素 英文关键词为:PSAs Commercial elements Business Elements 3、选择检索工具:Elsevier 数据库,Springer数据库,EBSCO(BSP/ASP)数据库。 4、构建检索策略:Commercial elements and the public service ads 5、简述检索过程: ①,选定在Elsevier 中期刊、图书、文摘数据库等全部文献资源中检索2000 年以后的关于公益广告中的商业元素的文献 利用确定的检索策略(Commercial elements and the public service ads ),文献全文(含文献题目、摘要、关键词)中检索,检到184 篇相关文献。 ②,选定在Springer 中期刊、图书、文摘数据库等全部文献资源中检索2000 年以后的关于公益广告中的商业元素的文献 利用确定的检索策略(Commercial elements and the public service ads ),文献全文(含文献题目、摘要、关键词)中检索,检到64篇相关文献。③,选定在EBSCO(BSP/ASP)中期刊、图书、文摘数据库等全部文献资源中检索2000 年以后的关于公益广告中的商业元素的文献 利用确定的检索策略(Commercial elements and the public service ads ),文献全文(含文献题目、摘要、关键词)中检索,检到381篇相关文献。 6、整理检索结果: 从以上文献中选择出3 条切题文献 ①、Constructing female identities through feminine hygiene TV commercials M a Milagros Del Saz-Rubio a, , and Barry Pennock-Speck b, [Author vitae] a Universidad Politécnica de Valencia, Camino de Vera s/n 46022, Valencia, Spain b Universitat de València, Avenida Blasco Ibá?ez 32, 46010, València, Spain Received 9 July 2008; revised 10 January 2009; accepted 18 April 2009. Available online 3 June 2009. In this paper we report the results of a qualitative multimodal analysis of a corpus of Spanish and British TV ads featuring female hygiene products such as tampons, liners and sanitary towels/pads. We contend that advertisers of menstruation-related products employ a wide range of strategies to convey both overt information about the products advertised, as well as to –and more importantly –indirectly transmit stereotypical beliefs of women which inevitably helps reproduce and sometimes perpetuate a gender-biased type of discourse (Holmes and Marra, 2005). Crook's (2004) distinction between the product-claim and the reward dimension in ads has been taken as the starting point for our analysis. Within the product-claim dimension we have focused on what information is transmitted through the application of some of Brown and Levinson's (1987) generic positive and off-record politeness strategies. On the other hand, within the reward dimension attention is shifted to how information surfaces the language in an indirect fashion through attention to different format types, visual imagery, voices and music. Results indicate that ads either tend

NC65全文检索配置方法说明文档

全文检索(NC65版本) NC65全文检索的配置和使用需要3步,具体如下: 一.在第一次启动环境,或要改变服务器结构,比如从单机改为集群,在服务停止时需要删除Nchome下anteindex文件夹。如果没有这个文件夹,不需要进行这一步。如果搜索不能正常工作,也可以通过在停服务时删除这个文件夹,重启集群服务器,尝试解决搜索的出现的相关问题。在其他正常情况下,服务器的停止和重启,不需要删除anteindex文件夹。 二.数据源配置。搜索需要在配置界面中,指定可以进行搜索服务的数据源。 点击Nchome\bin\sysconfig.bat,会出现以下界面。 在NC63中,我们使用的是档案索引这个页签的配置,到了NC65,配置移到了搜索引擎下。如上图所示,在【搜索引擎】的【搜索源分组】页签下,选择要提供搜索的表,比如bd_material_table物料表,点击设置数据源按钮,在弹框中勾选要提供服务的数据源,点击确定。每一张要提供搜索服务的表都需要设置数据源,如果客户不知道哪些要用哪些不要用,就请为每一张表都配置数据源。数据源配置完成后点击保存按钮。 搜索的数据源配置只需要进行一次。如果要更改数据源,就需要重新配置。 三.建立索引。

在第一次使用搜索服务,或者因为上文提到的某种原因删除anteindex后,需要手动一键重建索引。 一键手动重建索引需要在服务器完全启动后,也就是说客户端可以正常登录的时候,才能进行。(删anteindex文件夹需要在停服务时进行,一键重建索引需要在服务器完全启动时进行)。如下图所示: 在【搜索引擎】的【搜索管理】页签,在服务器完全启动后点击重爬全部按钮,只需要点一次,一两分钟后,搜索服务就可以正常使用了,也不需要点击保存按钮。如果不是第一次使用搜索服务,或者没有删除anteindex 文件夹,正常的服务停止和重启不需要再点击重爬全部按钮。 图中大红框选中的是,可以为每一张表设置更新的频率,比如一天更新一次,又或者每隔一段时间周期性的更新。这是索引更新的补偿机制,用户在前台操作的时候,对数据进行增添删改,索引会实时自动更新。所以这个补偿机制也可以不进行关注。 全文检索不能生效的常见问题解答? a、检查数据源配置的是否正确。项目上出现过配置为其他数据源或者修改数据源名称后,没有同步修改此处的数据源的现象。后续这一块有望实现自动配置正确的数据源。

全文检索需求及选型

全文检索需求 档案管理系统 需求整理 1、一个文档有多个附件; 2、文档支持格式:pdf,CEB,txt,html,office(world、excel)、wps 文档,tf、tff; Ceb格式,目前在档案系统已经存在一个对应的txt文件; 现在有两种方案来处理ceb格式:一是把档案系统中的ceb对应的txt文件,迁移过来;二是ceb文件重新转换一次。 3、权限管理,权限有个人、角色、部门分类; 4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询;可以分多个字段查询(比如:档案类型、查询年份) 5、准确显示摘要和高亮显示; 6、矩阵分析(智能分析相似文档,数据挖掘的一部分); 档案的现在方案 a)使用lucene2.x 版本; b)系统是二级部署;

c)每个网点比如福建,按地市创建索引文件。每个地市的索引文 件的大小在800M左右,这样单个档案系统的一个网点的索引 总大小应该在10G左右(目前的大小)。 d)每个地市只可以单独查询,目前没有实现合并查询。 e)新建索引和增量索引是分开处理的。 f)权限控制,目前是用户在请求单个文档的时候才验证权限;在 索引和检索两个层次上没有做控制。 其他特点 知识管理系统 需求整理 1、目前是一个文档对应一个附件,但以后有可能支持多个附件; 文档支持格式:知识管理中各种文档都会存在,尽量支持大部分数据格式。 2、支持的格式可以灵活扩展。 3、权限管理,权限有个人、角色、组织、部门等层次; 4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询; 5、准确显示摘要和高亮显示; 6、智能分析(相似文档,数据挖掘的一部分);

全文检索系统整体方案设计

1全文检索系统方案 1.1全文检索需求 1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检 索、跨库检索等多种检索途径; 2)支持字索引和词索引; 3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复 合式布尔逻辑运算查询,并且可以配合多组左括号"("与右括号")"作关 键词查询优先级的设置; 4)提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检 索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询 结果集; 5)能够支持对以上文件中的中文(简体/繁体)、英文、日语、韩语内容实 现关键字检索; 6)支持对Word、TXT、PDF等多种主流文档格式全文检索,并提供开发接 口以支持特殊文档格式的全文检索; 7)在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为 最新,即支持增量索引机制; 8)用户可自行设定时间,让系统自动定时进行更新索引; 9)对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得 超过10秒; 10)提供跨数据源、数据格式的搜索; 11)同过相关性搜索,能够把和搜索条件相关联的信息搜索出来; 12)不但能够对图片的描述信息进行搜索,还能对图片内容的检索; 13)提供COM与SOAP的搜索接口(Interface) 可让其它应用程序或查询网 页能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏 览器访问全文检索服务器,提交查询条件,可在浏览器中查看检索结果; 14)查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符 合关键词出现的内容片断; 15)在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文 字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的 位置; 16)查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条 件进行排序; 17)可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索 时,不在标记过的文件中进行查询; 1.2全文检索系统总体方案 系统将采用以下全文检索流程。

文档全文检索方法

文档全文检索方法 利用索引服务(Indexing Service)和ASP建立面向整个网站OFFICE文档全文搜索程序, 配置Index Server 在执行Web服务器上的搜索之前,首先必须创建至少一个索引,并遵循以下步骤完成这项工作。 ⒈启动Windows 2000 Server服务器上的索引。 缺省情况下选择图标位于管理工具组中的计算机管理。窗口的右边提供关于当前在服务器上存在的索引信息。默认有两个索引:System和Web。 ⒉要创建新的索引,用鼠标右键单击索引服务或右边的面板,选定新建编录。 显示添加编录对话框,指定索引的名称并用浏览按钮选取位置。索引服务不会立即开始索引,此时将弹出一条消息框,单 击确定继续。为了达到最佳的性能,索引服务可以放在和Web服务器隔离开的硬盘上。 ⒊指定索引的目录,用右键单击新建的编录名,从弹出选单中选定属性,将出现如图2所示的对话框。 第一个选项卡常规显示刚刚输入的内容,在第二个选项卡跟踪中的WWW服务器下拉列表中选取你要索引的Web网站。 ⒋有了创建的编录,现在可以挑选你想在索引中包括的目录。 这个强大的特性使你能创建几个用不同方式搜索内容的索引。例如,你可能想快速浏览从完整的文本中所引出的章节,这 个特性使你能在Index Server内执行这项任务。要添加一个目录,用右键单击右边的面板,选定新建目录。在出现的对话 框中通过浏览按钮选择目录并指定别名。如果必须登录到服务器才能得到需要的内容,则可以提供将使用的用户名和密 码,以便得到需要的内容。如果想检查受保护的内容,则更要维护内容的安全性,这一特性非常有用,这样只有被授权的 用户(也许是那些为此付钱的人)才能得到完整的内容。 还可以使用这个工具排除Web站点中不想索引的子目录。例如,检索Scripts/CGI目录就不会对用户有什么用。为此,只要 双击该目录,将包括在索引中选定为否即可,见图3。 ⒌在已经为站点包括/排除了所有目录后,用右键单击右面板,从弹出选单中选定启动,重新启动Index Server服务。

全文检索原理

全?文检索 我们?生活中的数据总体分为两种:结构化数据和?非结构化数据。 ?结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据 等。 ??非结构化数据:指不定长或?无固定格式的数据,如邮件,word?文档等。当然有的地?方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯?文本按?非结构化数据来处理。 ?非结构化数据又?一种叫法叫全?文数据。 按照数据的分类,搜索也分为两种: ?对结构化数据的搜索:如对数据库的搜索,?用SQL语句。再如对元数据 的搜索,如利?用windows搜索对?文件名,类型,修改时间进?行搜索等。 ?对?非结构化数据的搜索:如利?用windows的搜索也可以搜索?文件内容,Linux下的grep命令,再如?用Google和百度可以搜索?大量内容数据。 对?非结构化数据也即对全?文数据的搜索主要有两种?方法: ?一种是顺序扫描法(Serial Scanning):所谓顺序扫描,?比如要找内容包含某?一个字符串的?文件,就是?一个?文档?一个?文档的看,对于每?一个?文档,从头看到尾,如果此?文档包含此字符串,则此?文档为我们要找的?文件,接着看下?一个?文件,直到扫描完所有的?文件。如利?用windows的搜索也可以搜索?文件内容,只是相当的慢。如果你有?一个80G硬盘,如果想在上?面找到?一个内容包含某字符串的?文件,不花他?几个?小时,怕是做不到。Linux下的grep命令也是这?一种?方式。?大家可能觉得这种?方法?比较原始,但对于?小数据量的?文件,这种?方法还是最直接,最?方便的。但是对于?大量的?文件,这种?方法就很慢了。 有?人可能会说,对?非结构化数据顺序扫描很慢,对结构化数据的搜索却相对较快(由于结构化数据有?一定的结构可以采取?一定的搜索算法加快速度),那么把我们的?非结构化数据想办法弄得有?一定结构不就?行了吗? 这种想法很天然,却构成了全?文检索的基本思路,也即将?非结构化数据中的?一部分信息提取出来,重新组织,使其变得有?一定结构,然后对此有?一定结构的数据进?行搜索,从?而达到搜索相对较快的?目的。 这部分从?非结构化数据中提取出的然后重新组织的信息,我们称之索引。 这种说法?比较抽象,举?几个例?子就很容易明?白,?比如字典,字典的拼?音表和部?首检字表就相当于字典的索引,对每?一个字的解释是?非结构化的,如果字典没有?音节表和部?首检字表,在茫茫辞海中找?一个字只能顺序扫描。然?而字的某些信息可以提取出来进?行结构化处理,?比如读?音,就?比较结构化,分声母和韵母,分别只有?几种可以?一?一列举,于是将读?音拿出来按?一定的顺序排列,每?一项读?音都指向此字的详细解释的页数。我们搜索时按结构化的拼?音搜到读?音,然后按其指向的页数,便可找到我们的?非结构化数据——也即对字的解释。

TRS全文检索系统文档

1.1.1 全文检索系统结构 根据全文检索技术和实现方法,结合需求,检索系统由以下三个部分组成:TRS全文数据库系统(TRS Database Server) TRS 全文检索网关(TRS Gateway) TRS信息发布应用服务器系统(TRS W AS) TRS全文数据库系统(TRS Database Server)采用TRS具有国际领先水平的信息检索和中文自然语言处理研究成果,具有傲视群雄的检索效果和查询性能,核心功能是对结构化和非结构化信息提供全文检索功能。 主要特点包括: ●异构海量数据统一管理,非结构化和结构化数据联合检索 ●Native XML内核,实现全息检索 ●智能辅助检索,支持知识挖掘 ●精确计算,检索速度和准确性共达最优 ●动态索引实时更新,面向事务处理 ●支持Unicode编码,提供多语种查询引擎 ●多级机制保障,信息采集和检索高度安全 ●集群检索,保证高可靠性,随需轻松扩展规模 TRS全文数据库系统(TRS Database Server)通过TRS全文检索网关,可以实现对关系数据库中文本对象字段的全文检索。 TRS内容分发服务器系统提供将数据库中的信息动态发布到Web服务器上,以为平台用户检索使用。 全文检索系统架构图如下所示:

TRS信息发布应用 服务器系统 全文检索系统架构图 1.1.2 全文检索网关 TRS 全文检索系统采用开放的三层体系架构设计,整个系统基于主流的操作系统。 数据层主要为关系型数据库和TRS全文数据库,关系型数据库主要进行存储和管理,而全文数据库实现检索,利用TRS Gateway可以将关系型数据库的数据在TRS全文数据库中建立全文索引,以实现结构化和非结构化数据的全文检索。TRS全文数据库是TRS 公司自主研发的具有知识产权的产品,为了能够更好的提供全文检索和智能检索等应用功能,它其中包括多种词典支持:分词词典、主题词典、停用词典等。 应用层主要依据TRS全文数据库提供的全文检索功能实现平台所需的检索

全文检索使用说明文档

Solr4.7使用说明文档 一:使用流程 1.Solr 是一种可供企业使用的、基于Lucene 的搜索服务器. 2.apache官方网站下载solr并解压,包括Solr工程例子.解压文件如下图1.按说明配置 仓库名称. 3.创建Solr工程,在WEB/IF下的config.properties文件中配置访问本地磁盘 中Solr仓库的访问路径: (eg:documentSolrUrl=http://localhost:8066/SENATOR-Sol r/document/) 4.在Solr工程web.xml配置过滤器等. 在src目录下创建service接口.实现类(在该类中编写创建,搜索和删除索引逻辑代码),以及hessian接口实现类. 5作为后台被其他系统调用,配置hessian配置文件. 5.在其他系统中如果用到全文检索 (1).配置前台hessian配置文件,保证调用到Solr工程中方法. (2).在上传文件时添加对应索引至仓库.修改时删除原有文件索引,添加新 的索引.删除文件时按照ID删除索引. 6.前台工程中配置Hessian文件.调用Solr工程中查询方法按关键字检索, 6.Solr配置 在本地磁盘新建Solr配置文件夹,比如D:/solr_config。此文件夹目录结构如图 core0文件夹相当于数据库,用来存储索引。dic extract文件夹存放Solr配置jar包,不用更改。core0/conf目录下有两个配置文件如图 schema.xml文件用来配置要存储的索引字段,solrconfig.xml是索引查询配置solr.xml用来引入要使用的索引数据库,结构如图

oracle全文检索

全文检索(oracle text) Oracle Text使Oracle9i具备了强大的文本检索能力和智能化的文本管理能力,Oracle Text是Oracle9i采用的新名称,在oracle8/8i中被称为oracle intermedia text,oracle8以前是oracle context cartridge。Oracle Text的索引和查找功能并不局限于存储在数据库中的数据。它可以对存储于文件系统中的文档进行检索和查找,并可检索超过150种文档类型,包括Microsoft Word、PDF和XML。Oracle Text查找功能包括模糊查找、词干查找(搜索mice 和查找mouse)、通配符、相近性等查找方式,以及结果分级和关键词突出显示等。你甚至可以增加一个词典,以查找搭配词,并找出包含该搭配词的文档。 Oracle text 需要为可检索的数据项建立索引,用户才能够通过搜索查找内容,索引进程是根据管道建模的,在这个管道中,数据经过一系列的转换后,将其关键字会添加到索引中。该索引进程分为多个阶段,如下图 1.数据检索(Datastore):只是将数据从数据存储(例如web页面、数据库大型对象或本地文件系统)中取出,然后作为数据流传送到下一个阶段。 2. 过滤(Filter):过滤器负责将各种文件格式的数据转换为纯文本格式,索引管道中的其他组件只能处理纯文本数据,不能识别 Ms word 或 excel 等文件格式。 3. 分段(Sectioner):分段器添加关于原始数据项结构的元数据。 4. 词法分析(Lexer):根据数据项的语言将字符流分为几个字词。 5. 索引(Index):最后一个阶段将关键字添加到实际索引中。 测试环境: Linux AS release 4 (Nahant Update 3), oracle10g(10.2.0.2.0) 内容简介: 本文档主要以实验为主,文档中包含了大量的实验例子,部分测试用例来自document,部分来自网友的测试,所有的例子都在oracle10g中测试通过。

相关主题
文本预览
相关文档 最新文档