当前位置:文档之家› 搜索与门户集成建设建议实施方案-XX电网技术建议书

搜索与门户集成建设建议实施方案-XX电网技术建议书

目录

第1章系统综述 (3)

1.1建设背景 (3)

1.2建设原则 (4)

1.3建设目标 (4)

第2章国家电网统一搜索系统建设方案 (6)

2.1全网总体建设策略 (6)

2.1.1软件应用逻辑架构 (7)

2.1.2 二级分布式部署架构 (9)

2.2国网总部建设架构 (9)

2.2.1 软件架构 (10)

2.2.2 硬件架构 (12)

2.3网省公司建设架构 (14)

2.3.1已有搜索引擎的集成方案 (14)

2.3.2 新建搜索引擎的建设方案 (16)

2.3.3 引用总部搜索平台的建设方案 (20)

2.4外网信息搜索的解决建议 (21)

2.4.1总体逻辑架构 (22)

2.4.2采集构建流程 (23)

2.4.3实施要点说明 (23)

2.5 目录服务整合策略 (25)

2.6 建设功能分析 (27)

2.6.1 数据采集策略 (31)

2.6.2 访问控制策略 (37)

2.6.3 安全控制策略 (38)

第3章建设实施方案 (46)

3.1 实施策略 (46)

3.1.1 基础建设内容 (46)

3.1.2 扩展建设内容 (50)

3.1.3 基于统一搜索平台进行应用开发的建设内容 (51)

3.2 投入估算 (52)

3.2.1 硬件投入估算 (52)

3.2.2 软件投入估算 (53)

3.2.3 开发投入估算 (54)

3.3 实施建议与培训计划 (55)

3.3.1 实施建议 (55)

3.3.2 培训计划 (55)

第1章系统综述

1.1建设背景

国家电网公司依据公司“十一五”信息发展规划,决定实施公司信息化建设工程(“SG186工程”),即在国家电网公司系统构筑由信息网络、数据交换、数据中心、应用集成、企业门户五个部分组成的一体化企业级信息集成平台;建设由财务(资金)管理、营销管理、安全生产管理、协同办公、人力资源管理、物资管理、项目管理和综合管理八大业务应用;建立健全信息化安全防护、标准规范、管理调控、评价考核、技术研究、人才队伍六个保障体系。

实施“SG186工程”,重点建设“一个系统、二级中心、三层应用”。一个系统就是构筑一体化企业级信息系统,实现信息纵向贯通、横向集成,支撑集团化运作;二级中心就是建设公司总部、网省公司两级数据中心,共享数据资源,促进集约化发展;三层应用就是部署公司总部、网省公司、地市县公司三层业务应用,优化业务流程,实现精细化管理。

在SG186工程建设过程中,必然会积累各类海量数据,其中即包括结构化数据,也包括非结构化数据,这些信息以各种不同的存在形式分布于各个独立的应用系统中。同时由于历史性等因素,这些应用系统存在着系统功能不全、系统之间相对独立、信息不能共享、信息化优势没有充分发挥、缺乏统一规范、可拓展性差等问题,导致系统无法满足用户对各类海量数据进行快速、高效检索的需求。

同时,作为SG186工程重点的协同办公系统将拥有大量的用户,整合大量的办公流转文件。在数据文件数量巨大的情况下,如何让使用者更便捷地找到需要的文档文件,成为协同办公系统需要面对的一个挑战。虽然协同办公系统中集成有搜索功能,但是经过2007年的实践验证,原有搜索功能简单,处理速度慢,不能满足大型企业的需求,也无法作为统一搜索平台提供给其他应用系统使用。因此,从协同办公系统中的海量数据中快速、准确地查找有效信息,已经成为SG186工程信息化建设所面临的新课题。

另外,为了安全性起见,国家电网公司将内部信息网络与外部互联网隔离,因此如何从外部互联网获取安全、准确的有用信息提供给内部员工使用也是建设

中将要面对的问题。

为了应对以上的需求挑战,必须在应用系统内部引入完善成熟的信息检索功能,通过此检索功能,以实现对公司总部、网省公司的应用系统中信息数据和外部互联网信息的方便查找及调阅。本文正是在这种背景下,提出国家电网统一搜索平台的建设建议实施方案,并对方案进行对比分析。

1.2建设原则

考虑到SG186工程需要构筑一体化企业级信息系统,实现信息纵向贯通、横向集成,支撑集团化运作;同时公司总部、网省公司建设两级数据中心,共享数据资源,促进集约化发展;以及目前国家电网多种资源的分布以及海量数据的容灾备份,性能优化;因此,国家电网智能内容搜索服务平台实际上是一个大的分布式架构,整个国家电网智能内容搜索服务平台采用两层体系架构,包含国家电网中心节点和省级公司子节点。两层搜索体系架构不仅具备多极搜索体系的全部功能;从实现意义上,作为原型系统,两层搜索体系架构具有更大的可行性;从应用推广意义上,两层搜索体系架构具有更灵活的可操作性。依据这样实际情况,我们统一搜索平台的建设将遵循如下原则:

●总体上首先要遵循国家电网公司一体化企业级信息集成平台的总体建设原

则,统一领导,统一规划,统一标准,统一实施。

●遵循数据安全性原则,严格控制用户对搜索结果的访问权限。

●率先建成国网公司总部根搜索,为基层单位提供根搜索服务,为各网省建设

打下基础。

●资源利用最大化,在信息系统建设中,在满足功能要求和既定目前的前提下,

对各网省公司的原有资源进行最大程度的投资保护。

●按照实际需求分步建设各网省节点搜索服务。

●针对业务系统中的搜索需求,由业务应用开发组负责开发,搜索平台提供服

务。

1.3建设目标

国家电网统一搜索平台的建设目标是建设企业级统一搜索平台,并利用统一

搜索平台将国家电网SG186应用系统中的数据进行有效整合,加大共享,横向集成,提供更加丰富的应用功能,包括智能检索、分类、聚类、信息关联、个性推送等,充分发掘现有信息资产的价值。在满足公司总部、网省公司、地市县公司数据分析,管理,搜索需求的同时,为国家电网“SG186工程”的建设重点“一个系统、二级中心、三层应用”奠定基础。其建设目标具体描述如下:

●建立统一搜索平台

●运用非结构化信息处理技术为SG186工程提供一种全网信息整合服务

●在国网公司总部建立全网根搜索服务,实现全网公开信息的资源共享

●对协同办公、成熟套装软件等专业应用系统提供安全可控的检索技术手段●对分布在各业务应用中的搜索功能进行整合

●为各业务应用提供可二次开发的搜索平台。

第2章国家电网统一搜索系统建设方案

2.1全网总体建设策略

在“SG186”工程中,国家电网统一搜索平台是围绕一个中心,二层架构的建设思想进行规划和实施的。国网总部搜索系统承担着外网和电力内网信息共享服务的中心任务,同时,国网总部和各网省搜索系统也承担本地信息的搜索服务,包括本地的办公系统、知识管理系统、内容管理系统等。鉴于总部和网省搜索系统在整个电力内网搜索平台中所处的不同层次和发挥的不同作用,我们将统一搜索平台建设策略归为:

●国网公司提供电力信息全网公开权限网页数据的根搜索服务。

●国网公司提供外网网页数据的根搜索服务。

●国网总服务器只索引各网省公司开放型网页数据。

●国网总部办公系统数据,知识管理系统数据只面向国网总部内部使用。

●各网省办公系统数据,知识管理系统数据只面向各网省内部使用。

基于这样的建设策略,国家电网公司统一搜索平台将采用二级分布式部署。国家电网公司本部搭建根搜索引擎,各网省电力公司搭建各自独立的搜索引擎。国家电网公司本部根搜索引擎采集索引总部的私有信息,包括办公系统、知识管理系统等。此外,国家电网公司本部的根搜索引擎对互联网网页资源进行定向采集和统一同步索引,对总部及各网省公开的网站网页资源进行采集和索引。各网省搜索引擎仅仅对本地的私有信息进行采集和索引,包括办公系统、知识管理系统、内容管理系统等。这样,在国家电网公司本部可以维护一个综合本部本地信息以及各网省公开网站信息、外网定向网站信息的索引库,国家电网公司本部的根搜索引擎为各网省提供电力内网公开信息的根搜索服务,各网省调用总部的根搜索服务接口,和网省本地的搜索引擎一同与本地企业门户进行集成,根据用户自定义范围搜索所需要内容。建成后的整体框架如下图所示:

2.1.1软件应用逻辑架构

针对国家电网信息系统现状,我们将搜索平台的软件架构从逻辑上分为四层

进行部署:数据源层,连接器层,智能数据操作层,和应用系统层:

数据源层:主要是外网和电力内网网页资源,办公系统、知识管理系统和知识管理系统等各类数据资源。

数据采集层:主要通过数据连接器完成对各种原始数据源的数据采集和整合。数据连接层具有很强的扩展能力,能够直接对网站、内容管理、知识管理、ERP 、CRM 、数据库、Mail 等系统数据源进行数据采集和整合。针对本次统一搜索平台具体需求,将主要涉及到网络抓取器HttpFetch 、数据库连接器Oracle Fetch 、Notes 办公系统连接器Notes Fetch 和知识管理系统连接器Documentum Fetch 等几种数据采集器。

智能数据操作层:主要的数据处理环节。经由数据连接层采集来的数据,在数据处理层能够实现自动排重、信息过滤、自动分类、聚类分析、模版定制、权限控制和用户管理等功能。同时提供统一的HTTP/XML 开放编程接口和C/C++/JA VA/COM/COM+等API ,能够灵活的完成与应用系统的集成整合。

应用系统层:也称表现层,可以根据国电总部和网省具体需求,开发定制适应不同应用系统的搜索前台。 动态推理引擎分类服务器用户服务器Oracle Fetch Http Fetch

Documentum Fetch 网页资源数据库办公系统分布式访问服务器 DIH 分布式索引服务器

层 动态推理引擎分布式管理服务器知识管理Notes Fetch

2.1.2 二级分布式部署架构

国家电网公司统一搜索平台将采用二级分布式部署,在各个省网分别建立和维护本省索引库,国网本部建立根索引库。在授权的基础上,国网本部能够通过分布式访问对各网省的索引库进行访问,网省公司也可以通过分布式访问引用国网本部的信息,并可以通过国网本部的索引信息访问其他网省信息,形成各省以及国家电网公司总部之间的信息共享。搜索在统一的门户界面上进行,执行效率高。

2.2国网总部建设架构

在两级搜索体系架构中,国网总部统一搜索平台承担着外网和电力内网信息共享服务的中心任务,同时承担包括本地的办公系统、知识管理系统、内容管理系统等本地信息的搜索服务工作,我们将国网总部统一搜索平台的建设方案归结为:

国网总部架设Autonomy根搜索平台,包括数据采集索引接口、搜索引擎和

搜索调用功能接口。

●国网总部获取总部办公系统、知识管理系统和网页的信息,以及各网省公开

权限网页信息。

●国网总部对总部办公系统、知识管理系统和门户系统提供搜索功能,同时为

各网省提供根搜索功能调用。

2.2.1 软件架构

根据国网总部的搜索需求,参照Autonomy软件结构,在总部的搜索平台中所采用的Autonomy功能模块包括如下:

下图为国网总部搜索模块的软件架构图,整个搜索模块部署结构灵活,整体结构分为四层:数据源层,连接器层,智能数据操作层和应用系统层。

数据源层:主要是外网网页资源和包括网省公司在内的全部电力内网网页资源,国网总部的办公系统、知识管理系统和知识管理系统等各类数据资源。

数据采集层:针对国网总部情况,部署网络抓取器HttpFetch、数据库连接器Oracle Fetch、Notes办公系统连接器Notes Fetch和知识管理系统连接器Documentum Fetch等几种数据采集器。

智能数据操作层:主要的数据处理环节。处理由数据连接层采集来的数据,通过分布式索引控制器完成负载均衡的功能,实现诸如自动排重、信息过滤、自动分类、聚类分析、模版定制、权限控制和用户管理等功能,并完成用户管理和安全与权限管理。

应用系统层:也称表现层,可以根据国电总部和网省具体需求,通过智能数据操作层提供的HTTP/XML/C/C++等开放的编程接口,在门户上展现统一搜索、自动推送、知识社区等模块。

2.2.2 硬件架构

总体硬件部署图如下,搜索系统包括两种类型服务器,分别是数据采集服务器、搜索引擎(动态推理引擎DRE)服务器。

数据采集服务器共2台,部署在外网的数据采集服务器上将安装配置网络抓取器HttpFetch,负责采集外网中的网页信息;另一台部署在电力信息内网的

数据采集服务器上将根据实际应用系统的情况安装配置网络抓取器HttpFetch、数据库连接器Oracle Fetch、Notes办公系统连接器Notes Fetch和知识管理系统连接器Documentum Fetch等,负责采集全网内网网页信息、办公系统信息和知识管理系统信息等。另外,2台数据采集服务器上都会安装部署分布式索引控制器DIH,负责将生成的索引文件同时索引到2台搜索引擎中。

两台搜索引擎服务器采用镜像的方式互为备份,同样安装配置监控处理管理模块DiSH,用户管理模块UA Server,自动分类聚类分析模块Classification Server,核心存储索引搜索引擎DRE以及实现负载均衡和容灾备份的分布式访问控制器DAH。其中每台搜索服务器中的DAH都将配置连接两台搜索服务器上的核心引擎DRE,将两套搜索引擎虚拟在一起,实现软件上的负载均衡和容灾备份。另外,在总部的2套分布式访问控制器DAH上,都将配置有相应网省的搜索引擎地址等信息,以期实现全网的信息共享。

负载均衡交换机将完成负载均衡和容灾备份的功能,用户的搜索请求将根据负载情况分配到2台搜索引擎服务器中某一台服务器的DAH上,通过虚拟引擎进行搜索,相应返回结果通过负载均衡交换机返回给用户。

各模块之间的通信采用Http/XML方式进行数据交换和功能调用。

2.3网省公司建设架构

在两级搜索体系架构中,网省公司搜索平台承担包括本地的办公系统、知识管理系统、内容管理系统等本地信息的搜索服务工作。由于各网省公司实际情况不一,采用的应用系统也是千差万别,因此我们根据现有情况给出了三种不同的网省搜索平台建议建设方案。

2.3.1已有搜索引擎的集成方案

对于已架设过Autonomy搜索引擎的网省公司,我们提供如下图所示的搜索引擎集成方案:

●国网总部和网省公司分别架设有搜索引擎。

●网省公司采集本地数据;国网总部获取网省公开信息,并提供根搜索功能调

用。

●网省公司通过分布式服务调用国网总部中的全网公开信息,与本地信息整合

后得到统一搜索结果。

此方案的配置过程简单易行,仅需在国网总部的搜索服务器及网省公司的搜索服务器上分别安装分布式访问控制器DAH。国网总部的DAH中需配置国网总部本地搜索引擎信息和网省公司搜索引擎信息,网省公司的DAH中同样需配置网省公司本地搜索引擎信息和国网总部搜索引擎信息。这样通过分布式访问,可以实现全网信息共享。

对于已经采用其他类型搜索引擎的网省公司,我们提供如下所示的集成现有搜索引擎的方案:

●国网总部架设Autonomy根搜索平台,网省公司保留原有搜索功能,并架设

联合检索服务器。

●国网总部获取网省公开信息,并提供根搜索功能调用。

●网省公司通过联合检索服务获取国网总部中的全网公开信息和本地信息,整

此方案的软硬件方案简单,硬件上仅需在网省公司架设一台服务器。在此服务器上需要安装联合检索服务软件Federator,通过配置相应的Federator工作器,连接并调用如SAP的搜索服务、国网总部的IDOL搜索服务等搜索服务,将返回的搜索结果做统一整合,并提供页面形式的查询结果。

2.3.2 新建搜索引擎的建设方案

对于没有架设过搜索引擎的网省公司,我们提供如下图所示的搜索引擎新建方案:

●国网总部和网省公司分别架设搜索引擎。

●网省公司采集本地数据;国网总部获取网省公开信息,并提供根搜索功能调

用。

●网省公司通过分布式服务调用国网总部中的全网公开信息,与本地信息整合

下图为新建Autonomy搜索引擎的网省公司的软件架构图,整体结构同样分为数据源层,连接器层,智能数据操作层和应用系统层。

数据源层:主要是网省公司本地办公系统、知识管理系统和知识管理系统等各类数据资源。

数据采集层:针对网省公司具体情况,部署数据库连接器Oracle Fetch、Notes 办公系统连接器Notes Fetch和知识管理系统连接器Documentum Fetch等几种数据采集器。

智能数据操作层:主要的数据处理环节。处理由数据连接层采集来的数据,通过分布式索引控制器完成负载均衡的功能,实现诸如自动排重、信息过滤、自动分类、聚类分析、模版定制、权限控制和用户管理等功能,并完成用户管理和安全与权限管理。

应用系统层:也称表现层,可以根据网省具体需求,通过智能数据操作层提供的

HTTP/XML/C/C++等开放的编程接口,在门户上展现统一搜索、自动推送、知识

社区等模块。

对新建搜索引擎的网省公司而言,当搜索应用多的情况下,可以因袭国网总部的硬件方案;初次部署或是文档量较少的情况下,我们提供如下图所示的低配硬件方案。

在此搜索引擎构建方案中,安装配置2台服务器。根据实际应用系统的情况选取的网络抓取器HttpFetch、数据库连接器Oracle Fetch、Notes办公系统连

接器Notes Fetch和知识管理系统连接器Documentum Fetch等连接器将部署在其中一台搜索服务器上。同时,此台搜索服务器上也将安装部署分布式索引控制器DIH,负责将生成的索引文件同时索引到2台服务器上的搜索引擎中;以及配置监控处理管理模块DiSH,负责监控全部的模块。

在两台服务器上同时安装的有:用户管理模块UA Server,自动分类聚类分析模块Classification Server,核心存储索引搜索引擎DRE以及实现负载均衡和容灾备份的分布式访问控制器DAH。两台搜索引擎服务器采用镜像的方式互为备份,其中每台搜索服务器中的DAH都将配置连接两台搜索服务器上的核心引擎DRE,将两套虚拟引擎虚拟在一起,实现软件上的负载均衡和容灾备份。另外,与国网总部类似,网省公司的2套DAH中都将配置国网总部搜索引擎地址等信息,以期通过分布式访问实现全网信息共享。

负载均衡交换机将完成负载均衡和容灾备份的功能,用户的搜索请求将根据负载情况分配到2台搜索引擎服务器中某一台服务器的DAH上,通过虚拟引擎进行搜索,相应返回结果通过负载均衡交换机返回给用户。

各模块之间的通信采用Http/XML方式进行数据交换和功能调用。

2.3.3 引用总部搜索平台的建设方案

对于没有架设过搜索引擎且不独立架设搜索引擎的网省公司,我们提供如下图所示的引用总部方案:

●国网总部架设Autonomy根搜索平台,网省公司不架设搜索引擎。

●网总部直接采集并索引网省公司的公开网页信息,网省公司仅提供公开数据

源地址等必要信息。

●搜索指令直接发送到国网总部的根搜索引擎,统一返回全网搜索结果。

相关主题
文本预览
相关文档 最新文档