TRS全文检索系统文档
- 格式:doc
- 大小:3.74 MB
- 文档页数:11
智能中文信息管理系统I-Search Pro For Windows9X/NT中软英特信息技术有限责任公司软件产品说明书版权声明智能中文信息管理系统I-Search Pro软件(源代码和目标代码)及所有相关的文档、手册著作权属于中软英特信息技术有限责任公司(简称“中软英特”)所有,受中华人民共和国著作权法、计算机软件保护条例等相关法律的保护。
未经中软英特书面授权,任何单位和个人不得以任何形式对本系统中的任何部分出租、拷贝(除出于备份目的而复制本软件)、修改(包括对源代码及目标代码的修改、解密)、实施逆向工程(反编译、反汇编、注释)、全部或部分地抄袭有关文档,否则中软英特将保留追究其民事及经济法律责任的权力。
目录目录- - - - - - - - - - - - - - - - - - - - - - - - - - -3前言- - - - - - - - - - - - - - - - - - - - - - - - - - -6软件功能及特点简介- - - - - - - - - - - - - - - - - - - - - - -7第一章全文检索知识简介1.1何谓全文检索- - - - - - - - - - - - - - - - - - - - - - - - - -111.2全文检索的意义和作用- - - - - - - - - - - - - - - - - - - - - -111.3全文检索与情报检索- - - - - - - - - - - - - - - - - - - - - - -111.4全文检索得以发展的原因- - - - - - - - - - - - - - - - - - - - 121.5衡量全文检索系统性能的基本指标- - - - - - - - - - - - - - - - -12 1.6中文全文检索与英文全文检索- - - - - - - - - - - - - - - - - - -13 第二章系统简介和系统安装、运行2.1系统简介----------------------------152.2软件安装--------------------------172.3软件启动---------------------------17第三章检索子系统3.1系统界面概述--------------------------193.2基本使用----------------------------213.3系统检索功能3.3.1字符串检索- - - - - - - - - - - - - - - - - - - - - - - - -233.3.2词检索- - - - - - - - - - - - - - - - - - - - - - - - - - -243.3.3字包含检索- - - - - - - - - - - - - - - - - - - - - - - - -253.3.4联想检索- - - - - - - - - - - - - - - - - - - - - - - - - -253.3.5智能检索- - - - - - - - - - - - - - - - - - - - - - - - - 263.3.6限制检索范围- - - - - - - - - - - - - - - - - - - - - - - 263.3.7对检索结果集进行运算或操作- - - - - - - - - - - - - - - - -283.3.8其它检索功能- - - - - - - - - - - - - - - - - - - - - - - -29第四章检索子系统使用详细说明4.1菜单体系结构及功能4.1.1菜单- - - - - - - - - - - - - - - - - - - - - - - - - - - -304.1.2工具条- - - - - - - - - - - - - - - - - - - - - - - - - - 334.1.3检索库及分类显示窗口- - - - - - - - - - - - - - - - - - - 344.1.4检索结果集显示窗口- - - - - - - - - - - - - - - - - - - - -364.1.5标题显示窗口- - - - - - - - - - - - - - - - - - - - - - - 374.1.6窗口快速切换条- - - - - - - - - - - - - - - - - - - - - - 384.1.7正文显示区- - - - - - - - - - - - - - - - - - - - - - - - 384.2关键对话框描述4.2.1检索对话框- - - - - - - - - - - - - - - - - - - - - - - - -384.2.2检索串列表对话框- - - - - - - - - - - - - - - - - - - - - -394.2.3高级检索对话框- - - - - - - - - - - - - - - - - - - - - - -414.2.4显示选项对话框- - - - - - - - - - - - - - - - - - - - - - 434.2.5其它标准对话框- - - - - - - - - - - - - - - - - - - - - - 45第五章I-S EARCH P RO数据管理系统5.1操作菜单体系结构及功能5.1.1菜单- - - - - - - - - - - - - - - - - - - - - -- - - - - - -465.1.2工具条- - - - - - - - - - - - - - - - - - - - - -- - - - - -475.1.3 系统界面介绍- - - - - - - - - - - - - - - - - - - - - - 475.2利用菜单完成数据管理5.2.1 使用菜单建立数据库- - - - - - - - - - - - - - - - - - - - 48 5.3 利用菜单进行库操作5.3.1 删除库- - - - - - - - - - - - - - - - - - - - - - - - - 495.3.2 删除库中全部文章- - - - - - - - - - - - - - - - - - - - - 495.3.3 更改库名- - - - - - - - - - - - - - - - - - - - - - - - - 505.3.4 在库中增加文章- - - - - - - - - - - - - - - - - - - - - - 505.3.5增加格式化文章- - - - - - - - - - - - - - - - - - - - - - 505.3.6 加载DOC文件- - - - - - - - - - - - - - - - - - - - - - -535.3.7加载PDF文件- - - - - - - - - - - - - - - - - - - - - -535.3.8库的备份- - - - - - - - - - - - - - - - - - - - - - - --535.3.9库的恢复- - - - - - - - - - - - - - - - - - - - - - - --535.3.10库的优化- - - - - - - - - - - - - - - - - - - - - - - -545.4 利用菜单进行各级分类操作5.4.1 增加子分类- - - - - - - - - - - - - - - - - - - - - - - 545.4.2 分类改名- - - - - - - - - - - - - - - - - - - - - - - -565.4.3删除当前分类- - - - - - - - - - - - - - - - - - - - - -565.4.4在各级分类中加入文章- - - - - - - - -- - - - - - - - - -56 5.5联想词管理5.5.1 增加联想词- - - - - - - - - - - - - - - - - - - - - - - 575.5.2 删除联想词- - - - - - - - - - - - - - - - - - - - - - - 575.5.3 浏览联想词- - - - - - - - - - - - - - - - - - - - - - - 585.5.4 清除全部联想词- - - - - - - - - - - - - - - - - - - - - 585.6 选项- - - - - - - - - - - - - - - - - - - - - -- - - - - - - -595.7 利用鼠标快捷方式完成各项操作- - - - - - - - - - - - - - - -59附录:I-Search Pro展示- - - - - - - - - - - - - - - - - - - - -- - 60前言二十世纪八十年代以来,随着科技文化的发展和经济的腾飞,我国步入了信息时代。
软件产品说明(Software Product Description)产品名称(中文)TRS全文检索网关产品名称(英文)TRS Gateway for RDBMS产品编号参见相关文件版本Version 4.6发布日期2010年8月27日一、产品描述关系数据库(RDBMS)对于存储在“大对象”中的数据的内容进行检索和分析的效率低下,而在实际应用中往往需要对这些数据进行高效的检索和分析。
TRS全文检索数据库是一种完备的文本型数据库系统,适合对各种结构化和非结构化的信息进行管理和查询,特别是在海量文本集合上实现了高效的全文检索功能。
关系数据库中的大对象字段中的内容,使用TRS全文检索数据库可以实现高效检索和分析。
TRS全文检索网关(TRS Gateway for RDBMS)是由拓尔思信息技术有限公司为实现关系型数据库的全文检索而推出的软件产品,该产品实现了关系型数据库与TRS全文数据库之间的数据自动迁移和同步更新,利用TRS全文检索数据库解决了关系数据库大对象的检索和分析效率问题,而上层应用则可以构架在由关系数据库和TRS全文数据库共同组成的数据库平台之上。
一直以来,虽然关系数据库厂商也宣称或推出了具有全文检索的产品,但内容检索是和本地语言密切相关的,TRS领先的全文检索功能融合了中文自然语言处理的最新成果,包括中文按词索引、字索引的BI-GRAM、基于语义辞典等语言学知识的智能检索,以及中文自动分类和自动摘要等领先技术,是中文全文检索的最佳选择,因此主流数据库厂商都选择TRS作为中文全文检索解决方案。
利用TRS全文检索网关软件,用户可以经过简单的配置操作,在关系数据库与TRS全文检索数据库之间建立映射关系,系统就可自动将关系型数据库中的数据导入TRS全文检索数据库,并自动保持同步更新,使用户在享有关系型数据库卓越的数据处理功能的同时,拥有TRS全文检索功能。
TRS 全文检索网关软件经过了千万量级文本数据的实际应用检验,具有良好的可靠性和稳定性。
1.1.1 全文检索系统结构根据全文检索技术和实现方法,结合需求,检索系统由以下三个部分组成:TRS全文数据库系统(TRS Database Server)TRS 全文检索网关(TRS Gateway)TRS信息发布应用服务器系统(TRS WAS)TRS全文数据库系统(TRS Database Server)采用TRS具有国际领先水平的信息检索和中文自然语言处理研究成果,具有傲视群雄的检索效果和查询性能,核心功能是对结构化和非结构化信息提供全文检索功能。
主要特点包括:●异构海量数据统一管理,非结构化和结构化数据联合检索●Native XML内核,实现全息检索●智能辅助检索,支持知识挖掘●精确计算,检索速度和准确性共达最优●动态索引实时更新,面向事务处理●支持Unicode编码,提供多语种查询引擎●多级机制保障,信息采集和检索高度安全●集群检索,保证高可靠性,随需轻松扩展规模TRS全文数据库系统(TRS Database Server)通过TRS全文检索网关,可以实现对关系数据库中文本对象字段的全文检索。
TRS内容分发服务器系统提供将数据库中的信息动态发布到Web服务器上,以为平台用户检索使用。
全文检索系统架构图如下所示:TRS信息发布应用服务器系统全文检索系统架构图1.1.2 全文检索网关TRS 全文检索系统采用开放的三层体系架构设计,整个系统基于主流的操作系统。
数据层主要为关系型数据库和TRS全文数据库,关系型数据库主要进行存储和管理,而全文数据库实现检索,利用TRS Gateway可以将关系型数据库的数据在TRS全文数据库中建立全文索引,以实现结构化和非结构化数据的全文检索。
TRS全文数据库是TRS 公司自主研发的具有知识产权的产品,为了能够更好的提供全文检索和智能检索等应用功能,它其中包括多种词典支持:分词词典、主题词典、停用词典等。
应用层主要依据TRS全文数据库提供的全文检索功能实现平台所需的检索需求,并为表现层提供检索服务。
这层可以根据具体需求利用TRS提供的丰富开发接口实现全文检索应用。
表现层主要为平台管理人员和最终用户提供数据库检索和网页检索等。
北京市技术标准在线服务平台的大部分业务应用都是基于关系数据库,关系数据库(RDBMS)擅长于结构化数据的事务处理和关系运算,但是对长文本以及非结构化大对象文本缺乏有效的检索手段,而TRS全文数据库对非结构化文本对象具有出色的管理和检索功能。
为了实现对关系数据库中信息的高效全面检索,针对这部分数据,需要将其进行统一采集和统一的检索服务。
这种方式的采集不需人工干预,完全采用自动化采集方式。
为了真正、全面的实现结构化和非结构化信息的全文检索,在全文检索设计中,采用TRS全文检索网关(TRS Gateway)实现关系型数据库数据全文检索功能。
TRS全文检索网关(TRS Gateway)是由北京拓尔思信息技术有限公司和五大关系型数据库厂商Oracle、Sybase、IBM、Informix、Microsoft鼎力合作,共同推出的实现TRS数据与主流关系型数据库SQL Server、Oracle、Sybase、DB2、Informix数据之间进行数据迁移的工具。
该工具实现了RDBMS与TRS全文数据库之间数据共享,使用户在享有RDBMS卓越的数据处理功能的同时,拥有TRS 优秀的全文检索功能。
系统特点:TRS Gateway采用可视化的管理与配置工具使系统简单易用,轻松实现信息管理。
用户只需要按步跟随“任务创建向导”的提示就可以创建更新任务,智能化定时运行工具,全面实现工作的无人监管:应用向导配置连接关系数据库及TRS数据库可设置的定时执行任务:对创建好的任务,用户可以设置其自动定时执行。
如:用户可以设置一个增量更新任务每隔30分钟执行一次,意即每隔30分钟将用户对RDBMS数据库表中数据的修改向TRS全文数据库中进行一次索引的更新。
高度自动化的定时执行功能使用户不必手动进行数据索引的更新操作,只需启动TRS*Agent即可自动定时执行。
实时查看和修改任务的各种属性:对任何一个创建好的任务,用户可以查看其属性,并可修改属性。
应用向导配置源表和目标表以及字段对应关系关系数据库与TRS全文数据库之间的数据更新方式支持:●完全更新执行任务时,先将指定的目标数据库表中的内容清空,然后将源数据库表中所有符合条件的数据迁移到目标数据库中。
适用第一次迁移数据。
⏹数据追加执行任务时,直接将源数据库表中所有符合条件的数据迁移到目标数据库中,并不将目标数据库表中的内容清空。
适用一段时间向目标数据库追加一批数据时。
⏹增量更新执行任务时,将所有源数据库表中符合条件的更新了的数据(指进行了删除、添加或修改的数据)迁移到目标数据库中。
可以通过设定定时方式由系统自动执行,适用每天有数据更新情况。
1.1.3TRS Web Application Server(TRS W AS)主要由管理控制台及应用端两部分组成,它主要有以下特点:●完全基于Web的管理方式管理控制台完全基于Web方式,使管理更加的灵活,真正实现了远程管理。
应用端部分同样是完全基于Web方式实现。
这种架构可以灵活的满足用户的需求,特别是ASP供应商。
●跨平台的支持由于TRS W AS4.0完全采用了基于Java的技术实现,也就完全继承了Java跨平台的特性,一套代码可以在多个平台上运行,省除了跨操作系统平台可能带来的代码移植问题。
●灵活性及安全性的提高TRS WAS4.0的开发是完全基于TRS TagLib基础上的。
在开发的过程中,遵循了业务逻辑与显示风格控制分开显示的原则(CVM方式),将所有的业务逻辑封装在Servlet中,完成请求的处理后,将请求转发到包含了TRS TagLib的JSP模板页面中,由此页面完成最终内容的格式化显示。
这种开发方式最大的优点就是灵活性。
在页面表现方面,最终页面的表现控制由TRS TagLib完成,表现为在JSP页面中插入TRS置标,修改起来十分的方便,并且业务代码不包含在其中,只需要美工人员就可以很好的完成,大大的减少了维护工作量;而当业务逻辑发生改变时,只需要对涉及到的Servlet进行逻辑代码的修改,完全屏蔽了显示层,工作量也大幅度的减少,保证了项目快速灵活的实施。
●支持对TRS数据库记录的增、删、改操作TRS W AS4.0实现了在Web上对TRS数据库中记录信息的增、删、改功能。
目前修改TRS数据库记录只适用于非二进制字段,增加及删除则没有这方面的限制。
●支持记录间相关性的连接,实现相关新闻的功能TRS WAS4.0实现了相关新闻的功能,通过相关字段,实现了在细览记录时获得与此记录相关联的记录,并显示这些关联记录的连接。
●支持对记录被阅读次数的记录,实现热门新闻的功能实现了对记录阅读次数的记录功能,当记录被细览一次时,自动将其的阅读次数字段加1,通过对阅读次数字段的排序,可以实现当前最热门记录的功能。
●提供TRS TagLib二次开发接口,保证项目快速灵活的实现提供一套TRS TagLib置标,以此为开发接口,可以很迅速灵活的开发其他应用程序,在开发过程中,显示部分由嵌入了TRS TagLib的JSP模板文件来完成,而业务逻辑部分可以单独进行开发,这样既减少了开发的复杂程度,保证任务的顺利完成,又同时确保了客户各种灵活性的需求得到了保证,最终的开发及维护工作量都将得到很好的控制。
1.1.4 TRS全文检索系统特点TRS全文检索以TRS全文数据库系统(TRS Database Server)为核心,提供功能全面、智能、高性能的全文检索服务保证。
在当今信息爆炸时代,正确的决策依赖于及时、准确和有效的信息,TRS全文数据库系统突破了传统全文检索和网页搜索引擎的种种局限,是真正基于知识的智能内容检索系统。
TRS全文数据库系统主要特点如下:●大型数据的存储和管理功能支持中文(简、繁体)、英文和中英文混合数据;支持多种索引策略,包括按词、按字、按用户自定义关键词等索引策略,能够根据文档对象的结构属性建立不同的索引结构以实现面向不同结构文档的检索要求;同时支持结构化数据和非结构化数据,支持多种数据类型(如日期、字符串、短语、文档和二进制多媒体类型);支持常用格式文件的入库和检索,如TEXT、HTML、RTF、MS Office、PDF、S2/PS2/PS、MARC、ISO2709等);支持多媒体数据的管理;支持多种形式的数据存放方式,如集中存放、分散存放或URL方式存放,并且数据还可以存放在其他数据库或应用系统中;高效的数据和索引压缩,实现了低空间膨胀率(-0.2~~1.0);支持字段的唯一(Unique)特性;支持数据库纪录的增删改操作;不同操作系统平台之间,库结构自由拷贝,方便管理员操作;管理员可设置“定时优化”的时间,降低系统管理的成本;修改记录时,保存记录号的移动轨迹,能够使用移动前的记录号读取记录,确保数据维护的正确和安全;可以方便地对各种词典进行管理和维护;在32位系统中使用64位文件系统以支持超大规模的数据库;方便的数据备份和恢复功能;多种格式的数据导出功能,可以导出XML,TRS等数据类型文件。
●体系结构分布式体系结构,可以建立多个TRS Database Server的集群结构,并在应用层实现透明访问;支持数据库一对多的单向镜像;多线程设计,支持SMP体系结构,支持大量并发用户访问;支持三层结构(Data Server、Application Server和Web Server)应用,每一层均可扩展。
●跨平台支持支持多种硬件平台:如大型机/小型机/服务器/PC机;支持多种操作系统:如64位和32位的Unix、Linux 、Windows NT/2000;客户机可以运行在 Windows 9X、Windows NT、Windows 2000、主流Web浏览器上;应用层接口和系统支持EJB,采用Java技术开发,同一套代码可以运行在异构的设备和操作系统环境中。
●对标准化和开放性的支持同时支持Client/Server结构和Web Browser/Web Server结构;支持ANSI 主题词典结构标准;支持ISO2709、XML数据格式的输入、输出;支持Apache Server、Netscape Enterprise Server和Microsoft IIS 等主流Web服务器;支持J2EE/EJB,Web应用服务器支持主流中间件产品,如IBM Websphere、BEA Weblogic、Oracle Application Server、Tomcat等;支持Netscape Navigator 和 Microsoft Internet Explorer等主流浏览器;支持和主流的五大关系型数据库管理系统无缝集成,提供分布式和跨平台的灵活配置方案,支持对关系型数据库的文本数据和大对象类型数据的检索能力;支持多语种:简体(GBK、GB2312、GB18030)、繁体(BIG5)、西文(ASCII)、国际统一码(Unicode);●实时性支持系统能支持对数据的增量更新,支持实时的数据添加、修改和删除。