TRS全文检索参数
- 格式:doc
- 大小:51.50 KB
- 文档页数:5
TRS公司介绍编制单位:北京拓尔思信息技术股份有限公司编制时间:2015年一.公司简介北京拓尔思信息技术股份有限公司是国家规划布局内重点软件企业,公司注册资本2.04亿元,2011年6月在创业板上市,股票代码300229。
公司秉承“搜索信息、整合内容、发现知识”的技术理念,专注于海量非结构化信息处理为核心的软件研发、销售和技术服务,目标是成为大数据时代中国软件和专业互联网服务领域的领导厂商。
公司现有员工600名,总部设在北京,并已在全国主要中心城市设立了分公司或办事处。
公司自主研发的TRS系列产品和服务已被国内外4000多家企业级机构客户广泛使用,在中国非结构化中文信息智能应用软件市场的占有率位居第一。
二.理念战略愿景让信息创造价值。
使命聚焦大数据时代客户的需求和挑战,提供自主研发的一流软件和服务,持续为客户创造最大价值。
核心价值观公司的核心价值观是我们的信念,是我们前进的内在动力,也是对用户及员工的承诺。
专注:是建立核心竞争力的关键,在公司发展的每个阶段必须专注于既定的目标创新:IT产业一日千里,不创新就被淘汰,拓尔思认为创新是做百年企业的必备基因坚持:是一种品质、一种精神,在困难和挑战面前,只有坚持才能取得最后的胜利诚信:是公司最重要的无形资产,是我们赢得客户信任的基础共赢:实现用户、合作伙伴、员工和公司的多赢,多赢才能持久研发战略和方向拓尔思把研发作为公司的立身之本,公司每年投入的研发费用占当年营业收入的10%以上三.核心技术技术理念搜索信息整合内容发现知识四.基础研究和政府项目TRS把技术创新作为公司核心竞争力,以自主创新和自主知识产权的软件产品为国民经济信息化服务。
在中文信息处理、信息检索、内容管理和数据挖掘等方面具有世界级的先进技术,多年来承担了国家863计划项目、国家自然科学基金项目等众多国家级项目。
公司的研究队伍和北京信息科技大学中文信息处理研究中心、TRS软件开放实验室密切合作。
1.检索例子1package com.trs.client.tests;import com.trs.client.*;public class SearchTest1{public static void main(String[] args) throws Exception{String sHost = "127.0.0.1";String sPort = "8888";String sUserName = "system";String sPassWord = "manager";TRSConnection trscon = null;TRSResultSet trsrs = null;try{// 建立连接trscon = new TRSConnection();trscon.connect(sHost, sPort, sUserName, sPassWord);// 从demo3中检索标题中含有"中国"的记录trsrs = trscon.executeSelect("demo3", "标题=中国", "", "", "正文", 0, TRSConstant.TCE_OFFSET, false);// 输出记录数System.out.println("记录数:" +trsrs.getRecordCount());// 设置概览/细览字段, 提高记录的读取效率trsrs.setReadOptions("日期;版次;作者;标题", "正文", ";", TRSConstant.TCE_OFFSET, 0);// 输出前20条记录for (int i = 0; i < 20 && i <trsrs.getRecordCount(); i++){trsrs.moveTo(0, i);System.out.println("第" + i + "条记录");System.out.println(trsrs.getString("日期"));System.out.println(trsrs.getString("版次"));System.out.println(trsrs.getString("作者"));System.out.println(trsrs.getString("标题", "red"));}}catch (TRSException ex){// 输出错误信息System.out.println(ex.getErrorCode() + ":" + ex.getErrorString());ex.printStackTrace();}finally{// 关闭结果集if (trsrs != null) trsrs.close();trsrs = null;// 关闭连接if (trscon != null) trscon.close();trscon = null;}}}2.检索例子2package com.trs.client.tests;import com.trs.client.*;public class SearchTest2{public static void main(String[] args) throws Exception{String sHost = "127.0.0.1";String sPort = "8888";String sUserName = "system";String sPassWord = "manager";String sLicenseCode = null;TRSConnection trscon = null;TRSResultSet trsrs = null;try{// 建立连接trscon = new TRSConnection();trscon.connect(sHost, sPort, sUserName, sPassWord);// 从demo3中检索正文中含有"中国"的记录trsrs = trscon.executeSelect("demo3", "正文=中国", "", "", "正文", 0, TRSConstant.TCE_OFFSET, false);// 输出记录数System.out.println("记录数:" +trsrs.getRecordCount());// 获取许可证sLicenseCode = trscon.getLicenceCode();//关闭结果集,断开连接trsrs.close();trscon.clean();// 重新连接(可能抛出异常)trscon.reconnect(sHost, sPort, sLicenseCode);// 引用上次结果集(可能抛出异常)trsrs = trscon.executeSelect("@0", "", "", "", "正文", 0, TRSConstant.TCE_OFFSET, false);// 设置概览/细览字段, 提高记录的读取效率trsrs.setReadOptions("日期;版次;作者;标题;正文", "", ";", TRSConstant.TCE_OFFSET, 0);// 输出最后20条记录int iNewNo = (int)(trsrs.getRecordCount() - 20);if (iNewNo < 0) iNewNo = 0;for (int i = iNewNo; i < trsrs.getRecordCount(); i++){trsrs.moveTo(0, i);System.out.println("第" + i + "条记录");System.out.println(trsrs.getString("日期"));System.out.println(trsrs.getString("版次"));System.out.println(trsrs.getString("作者"));System.out.println(trsrs.getString("标题", "red"));System.out.println(trsrs.getStringWithCutsize("正文", 256, "red"));System.out.println(trsrs.getString("正文", "red"));}}catch (TRSException ex){// 输出错误信息System.out.println(ex.getErrorCode() + ":" + ex.getErrorString());ex.printStackTrace();}finally{// 关闭结果集if (trsrs != null) trsrs.close();trsrs = null;// 断开连接if (trscon != null) trscon.clean();trscon = null;}}}3.视图例子package com.trs.client.tests;import com.trs.client.*;public class ViewTest1{public static void main(String[] args){TRSConnection conn = null;try{conn = new TRSConnection();conn.connect("127.0.0.1", "8888", "system", "manager");// 检查数据库是否存在TRSDataBase[] dbs = conn.getDataBases("demo4");if (dbs == null || dbs.length == 0){// 创建数据库,字段类型分别为NUMBER, CHAR, PHRASE, DOCUMENTTRSDataBase base = new TRSDataBase(conn, "Demo4");TRSDataBaseColumn cols[] = new TRSDataBaseColumn[4];cols[0] = new TRSDataBaseColumn("Demo4", "col0");cols[0].setIntProperty("TYPE", TRSConstant.TCE_NUMBER);cols[1] = new TRSDataBaseColumn("Demo4", "col1");cols[1].setIntProperty("TYPE", TRSConstant.TCE_CHAR);cols[2] = new TRSDataBaseColumn("Demo4", "col2");cols[2].setIntProperty("TYPE", TRSConstant.TCE_PHRASE);cols[3] = new TRSDataBaseColumn("Demo4", "col3");cols[3].setIntProperty("TYPE", TRSConstant.TCE_DOCUMENT);base.addColumn(cols);base.create();// 将新数据库添加到视图TRSView views[] = conn.getViews("View4");if (views != null && views.length != 0){// 修改视图字段,添加新数据库的对应字段TRSViewColumn[] vcols =views[0].getColumns();for (int j = 0; j < vcols.length; j++){String srccols =vcols[j].getProperty("BASECOLS");vcols[j].setProperty("BASECOLS", srccols + ";" + "Demo4.col" + j);}// 修改视图,添加新数据库String srcbases =views[0].getProperty("DATABASES");views[0].setProperty("DATABASES", srcbases + ";Demo4");views[0].alterColumn(vcols);views[0].updateAlter();}}}catch(TRSException e){System.out.println("ErrorCode: " + e.getErrorCode()); System.out.println("ErrorString: " +e.getErrorString());}finally{if (conn != null) conn.close();conn = null;}}}。
软件产品说明(Software Product Description)产品名称(中文)TRS全文检索网关产品名称(英文)TRS Gateway for RDBMS产品编号参见相关文件版本Version 4.6发布日期2010年8月27日一、产品描述关系数据库(RDBMS)对于存储在“大对象”中的数据的内容进行检索和分析的效率低下,而在实际应用中往往需要对这些数据进行高效的检索和分析。
TRS全文检索数据库是一种完备的文本型数据库系统,适合对各种结构化和非结构化的信息进行管理和查询,特别是在海量文本集合上实现了高效的全文检索功能。
关系数据库中的大对象字段中的内容,使用TRS全文检索数据库可以实现高效检索和分析。
TRS全文检索网关(TRS Gateway for RDBMS)是由拓尔思信息技术有限公司为实现关系型数据库的全文检索而推出的软件产品,该产品实现了关系型数据库与TRS全文数据库之间的数据自动迁移和同步更新,利用TRS全文检索数据库解决了关系数据库大对象的检索和分析效率问题,而上层应用则可以构架在由关系数据库和TRS全文数据库共同组成的数据库平台之上。
一直以来,虽然关系数据库厂商也宣称或推出了具有全文检索的产品,但内容检索是和本地语言密切相关的,TRS领先的全文检索功能融合了中文自然语言处理的最新成果,包括中文按词索引、字索引的BI-GRAM、基于语义辞典等语言学知识的智能检索,以及中文自动分类和自动摘要等领先技术,是中文全文检索的最佳选择,因此主流数据库厂商都选择TRS作为中文全文检索解决方案。
利用TRS全文检索网关软件,用户可以经过简单的配置操作,在关系数据库与TRS全文检索数据库之间建立映射关系,系统就可自动将关系型数据库中的数据导入TRS全文检索数据库,并自动保持同步更新,使用户在享有关系型数据库卓越的数据处理功能的同时,拥有TRS全文检索功能。
TRS 全文检索网关软件经过了千万量级文本数据的实际应用检验,具有良好的可靠性和稳定性。
内容协作平台TRS WCM 6.5TRSServer检索配置手册北京拓尔思信息技术股份有限公司Beijing TRS Information Technology Co. Ltd.版版权权说说明明本手册由北京拓尔思信息技术股份有限公司(以下简称TRS 公司)出版,版权属TRS 公司所有。
未经出版者正式书面许可,不得以任何方式复制本文档的部分或全部内容。
©北京拓尔思信息技术股份有限公司 版权所有。
保留所有权利。
是北京拓尔思信息技术股份有限公司的注册商标。
TRSServer检索配置手册1概述本文档讲述WCM实现TRSServer检索所需的相关配置工作,包括如何将wcmdocument 表数据导入到GateWay,如何修改WCM自身配置项,如何安装TRSBean等。
由于目前文档查询列表也用到了相关wcmchnldoc表的字段,所以需要在导入数据到GateWay时执行必要的函数和视图以同步相关wcmchnldoc的字段到文档表,目前是同步了recid,modal,docorderpri,docstatus如有需要可按照类似方法添加。
2SQLServer配置说明2.1 建立源数据库视图注:执行完脚本,需注意检查并确保函数、视图已创建成功。
2.2 创建GateWay导表数据任务2.2.1新建RDBMS到TRS任务2.2.2设置任务名设置任务名(任务名可以随便设置,唯一即可),填写源数据库(需要检索的库)用户名密码,选择字符集GB18030。
2.2.3设置源数据库选择相应库,操作对象选择视图,源视图选择刚刚建立的V_WCMDocument,源表选择wcmdocument。
2.2.4指定主键视图主键和表列名均选择DOCID。
2.2.5设置目标数据库点击手工配置,左侧栏上配置目标数据库的相关信息,连接成功后,在右侧的数据库列表可创建目标表(要选择表,如果已创建可直接选择)。
2.2.6创建目标表设置数据库名,数据库属性选择表,在字段对应时注意要将可能会存在重复的字段调整下命名,如将DOCID的对应字段调整为DOCID2。
TRS公司与AUTONOMY公司及两公司全文检索产品的比较一、从公司的规模、产品线等方面进行总体的比较:TRS Autonomy公司简介中文全文检索的创始者,在企业和互联网搜索、内容管理和信息挖掘等领域具有领先的技术和产品,是国内最大的搜索和内容管理技术提供者,是非结构化信息处理技术领域的创新者和领导者。
Autonomy是世界上技术领先,产品优秀的不规整信息智能处理软件公司,在美国和欧洲纳斯达克高科技股票市场,伦敦股票市场都已上市数年。
作为一家国际软件公司,提供全面完整的智能软件结构,自动化地处理,操作和应用不规整的信息。
公司规模公司总部在北京,现有员工200多人,已在全国主要城市建立了分公司、办事处或合作伙伴网络,为当地客户提供高水平的本地化服务。
Autonomy总部设于英国剑桥和美国旧金山,作为一家国际性软件公司,拥有遍布世界各地的分公司。
包括伦敦,罗马,慕尼黑,纽约,芝加哥,悉尼,新加坡,北京等20多个分公司和办事处。
产品体系结构TRS不但提供企业搜索服务,还提供完善的内容管理服务,且拥有大量的应用产品。
Autonomy由动态推理引擎、用户服务器和分类服务器组成的核心架构。
外围缺少可直接应用的企业级产品市场占有率在大中华地区有2000家企业级用户全球有1600家客户,在大中华地区客户不超过20家公司发展公司成立十余年来,销售收入和利润始终保持持续的增长,自1996年以来连续10年盈利,是中国从事自主核心技术和软件产品研发的典范企业之一。
在国际上发展比较快,保持增长。
在中国,由于已知的原因,发展刚刚起步,可持续发展有待验证。
小结1、两家公司都提供全文检索的解决方案,Autonomy公司更擅长多语言,TRS公司更擅长中文处理。
2、两家公司技术能力都非常强,都是该领域的领头羊。
3、TRS公司是自主研发的中文处理技术,Autonomy公司外购中文分词等技术,对于中文处理没有基础性技术的储备和经验。
TRS 内容分发服务器(TRS CDS)解决方案_基础信息化_终端和服务器需求场景信息服务模式的变化互连网和IT技术的发展,使得信息服务模式发生了根本性的变化,传统以纸质和电子介质服务的模式,逐步被网络环境下集成服务、虚拟门户和搜索引擎等服务模式所代替。
信息资源内容的变化•全文内容的迅速增长网络环境下,信息资源的内容也发生了很大的变化,全文数据库所占比例已经由八十年代的4%发展到现在的60%;同时我也看到电子期刊迅速增长,电子图书迅速蔓延;网络资源成为信息资源的重要组成部分。
•资源整合的迫切性在当前海量信息的环境下,各种资源的孤立性被打破,不同资源之间的关联性增强。
由于信息资源的来源、载体和格式各不相同,各种不同类型、形式的信息资源整合服务已经成为信息服务中面临的一大问题。
信息服务方式的变化•用户需求的趋向海量信息环境下,信息需求向纵深发展,用户使用信息资源的行为更注重信息的效用;用户更加关注内容定位、内容特色和内容深度。
•需求决定服务用户需求决定信息服务方式,个性化、增值服务等以人为本的服务方式成为信息服务中不可缺少的一部分。
TRS CDS给您带来的价值TRS CDS 是当今网络环境下,构建新型信息服务模式、整合信息资源内容、提供以人为本信息服务方式的支持平台。
TRS CDS 可以广泛的应用于组织内外部信息资源服务平台的建设,特别适用于媒体单位、信息咨询机构、图书馆和科研机构等对外网络信息服务门户的建设。
产品概述TRS Content Delivery Server (简称TRS CDS )产品,是北京拓尔思信息技术有限公司内容管理平台中的一个重要组成部分。
TRS CDS 定位于实现内容的分发及后续阶段的评估反馈,主要包括:内容发布、检索、推送、评估、再利用和增值等。
产品功能整合异构信息资源,实现信息内容服务的工程化管理内容范围不断的扩展,内容存储的方式涉及关系数据库(RDBMS)、非关系数据库(如TRS数据库等文档数据库)到文件系统(XML、多媒体等),如何将如此多样的内容有效的整合在一起?TRS CDS通过统一数据源访问技术——UDSA(Unified Data Source Access),对多种数据源中的内容进行统一定义,并通过频道对内容进行统一组织,屏蔽了内容来源之间的差异性,实现了不同格式信息资源的整合。