某电力公司非结构化数据管理系统设计PPT(19张)
- 格式:ppt
- 大小:1.88 MB
- 文档页数:19
非结构化数据治理系统范围本标准规定了非结构化数据治理系统的功能性要求和质量要求.本标准适用于非结构化数据治理系统产品的研制、开发和测试.2符合性对于非结构化数据治理系统是否符合本标准的规定如下:a〕非结构化数据治理系统假设满足本标准根本要求中的所有要求,那么称其满足本标准的根本要求;b〕非结构化数据治理系统在满足所有根本要求的前提下,假设满足某局部扩展要求,那么称其满足本标准的根本要求和该局部扩展要求;c〕非结构化数据治理系统假设满足本标准根本要求和扩展要求中的所有要求,那么称其满足本标准的所有要求.3标准性引用文件以下文件对于本文件的应用是必不可少的.但凡注日期的引用文件,仅注日期的版本适用于本文件. 但凡不注日期的引用文件,其最新版本〔包括所有的修改单〕适用于本文件.GB 18030—2005信息技术中文编码字符集GB/T AAAAA-AAAA非结构化数据访问接口标准4术语和定义以下术语和定义适用于本文件.4.1非结构化数据unstructured data没有明确结构约束的数据,如文本、图像、音频、视频等.4.2非结构化数据治理系统unstructured data management system对非结构化数据进行治理、操作的大型根底软件,提供非结构化数据存储、特征抽取、索引、查询等治理功能.5缩略语以下缩略语适用于本文件.IDF:逆向文件频率〔Inverse Document Frequency〕MFCC:梅尔频率倒谱系数〔Mel Frequency Cepstrum Coefficient〕PB:千万亿字节〔Peta Byte〕SIFT:尺度不变特征转换〔Scale-invariant Feature Transform〕TF:词频〔Term Frequency〕6功能性要求6.1总体要求非结构化数据治理系统的总体要求如下:a〕应包括存储与计算设施、存储治理、特征抽取、索引治理、查询处理、访问接口、治理工具七个根本组成局部;b〕宜包括转换加载、分析挖掘、可视展现三个扩展组成局部.6.2存储与计算设施6.2.1根本要求存储与计算设施根本要求如下:a〕应支持磁盘、磁盘阵列、内存存储、键值存储、关系型存储、分布式文件系统等一种或多种存储设施;b〕应支持单机、并行计算集群、分布式计算集群等一种或多种计算设施.6.2.2扩展要求无.6.3存储治理6.3.1根本要求存储治理根本要求如下:a〕应提供涵盖原始数据、根本属性、底层特征、语义特征的概念层存储建模功能;b〕应提供逻辑层的存储建模功能;c〕支持整型、浮点型、布尔型、字符串、日期、日期时间、二进制块等根本数据类型;d〕支持向量、矩阵、关联等数据类型;e〕应支持根据建好的逻辑层存储模型创立存储实例;f〕应支持在创立好的存储实例上插入、修改、删除非结构化数据;g〕应支持删除存储实例;h〕应支持非结构化数据操作的原子性.6.3.2扩展要求存储治理扩展要求如下:a〕应支持全局事务的定义并保证事务的原子性、一致性、隔离性和持久性;b〕应支持数据类型的多值结构和层次结构;c〕应支持在不同的存储设施上创立存储实例并实现自动映射;d〕应支持PB级数据存储.6.4特征抽取6.4.1根本要求6.4.1.1特征抽取总体要求特征抽取根本要求的总体要求如下:a〕应支持从非结构化数据中抽取名称、类型、创立者和创立时间等根本属性;b〕应支持文本、图像、音频、视频中至少一种非结构化数据特征的抽取.6.4.1.2文本特征抽取文本特征抽取根本要求如下:a〕应支持从文本中抽取词;b〕应支持从文本中抽取停用词;c〕应支持从文本中抽取TF-IDF特征;d〕应支持从文本中抽取关键词.6.4.1.3图像特征抽取图像特征抽取根本要求如下:a〕应支持从图像中抽取颜色空间、主导颜色、色彩内容、颜色结构、颜色布局等颜色特征;b〕应支持从图像中抽取均匀纹理、边缘直方图等纹理特征;c〕应支持从图像中抽取区域形状、轮廓形状等形状特征.6.4.1.4音频特征抽取音频特征抽取根本要求如下:a〕应支持从音频中按静音抽取片段;b〕应支持从音频中抽取音频波谱特征;c〕应支持从音频中抽取MFCC特征.6.4.1.5视频特征抽取视频特征抽取根本要求如下:a〕应支持从视频中按镜头抽取片段;b〕应支持从视频中抽取关键帧.6.4.2扩展要求6.4.2.1特征抽取总体要求应支持文本、图像、音频、视频中两种及以上非结构化数据特征的抽取.6.4.2.2文本特征抽取文本特征抽取扩展要求如下:a〕应支持从文本中抽取人名、地名、机构名、时间等内容;b〕应支持从文本中抽取主题词;c〕应支持从文本中抽取摘要;d〕应支持从文本中抽取语义特征.6.4.2.3图像特征抽取图像特征抽取扩展要求如下:a〕应支持从图像中抽取SIFT局部区域描述特征;b〕应支持从图像中抽取语义特征.6.4.2.4音频特征抽取音频特征抽取扩展要求如下:a〕应支持从音频中抽取音频指纹特征;b〕应支持从音频中抽取旋律特征;c〕应支持从音频中抽取音色和响度特征;d〕应支持从音频中抽取语义特征.6.4.2.5视频特征抽取视频特征抽取扩展要求如下:a〕应支持从视频中抽取运动特征;b〕应支持从视频中抽取语义特征.6.5索引治理6.5.1根本要求应提供索引建立、维护和删除功能.6.5.2扩展要求索引治理扩展要求如下:a〕应支持B+树索引、倒排索引、全文索引和高维索引多种索引类型;b〕应支持PB级数据索引.6.6查询处理6.6.1根本要求查询处理根本要求如下:a〕应支持范围查询、全文查询、样例查询、语义查询和跨媒体查询多种查询方式;b〕应提供查询结果排序和批量返回功能.6.6.2扩展要求查询处理扩展要求如下:a〕应提供查询相关性反应功能;b〕应支持PB级数据查询.6.7访问接口6.7.1根本要求访问接口根本要求如下:a〕应依从GB/T AAAAA-AAAA中第4章规定的查询语言访问接口要求;b〕应依从GB/T AAAAA-AAAA中第5章规定的应用程序访问接口要求.6.7.2扩展要求应依从GB/T AAAAA-AAAA中第6章规定的Web效劳访问接口要求.6.8治理工具6.8.1根本要求治理工具根本要求如下:a〕应提供安装部署工具;b〕应提供逻辑层模型定义工具;c〕应提供查询分析工具.6.8.2扩展要求应提供任务治理工具.6.9转换加载6.9.1根本要求转换加载根本要求如下:a〕应支持常用格式的文本数据转换加载;b〕应支持常用格式的图像数据转换加载;c〕应支持常用格式的音频数据转换加载;d〕应支持常用格式的视频数据转换加载.6.9.2扩展要求应提供面向医疗、工业限制、金融等特定应用领域的非结构化数据转换加载工具集.6.10分析挖掘6.10.1根本要求分析挖掘根本要求如下:a〕应支持分析模型定义;b〕应支持分析模型执行;c〕应支持挖掘模型定义;d〕应支持挖掘模型执行.6.10.2扩展要求应提供数据挖掘工具集.6.11可视展现6.11.1根本要求可视展现根本要求如下:a〕应支持文本数据展现;b〕应支持图像数据展现;c〕应支持音频数据展现;d〕应支持视频数据展现;e〕应提供柱状图可视化方法;f〕应提供折线图可视化方法;g〕应提供饼图可视化方法.6.11.2扩展要求可视展现扩展要求如下:a〕应提供标签云可视化方法;b〕应提供关系图可视化方法;c〕应提供基于地图的可视化方法.6.12统计信息6.12.1时间统计信息6.12.1.1根本要求应提供系统平均数据插入时间的统计信息.6.12.1.2扩展要求应提供系统平均查询响应时间的统计信息.6.12.2容量统计信息6.12.2.1根本要求应提供系统可支持的数据量的统计信息.6.12.2.2扩展要求应提供系统可支持的并发用户数的统计信息. 7质量要求7.1信息平安性7.1.1根本要求信息平安性根本要求如下:a〕应支持创立、删除用户;b〕应支持用户设置密码;c〕应支持创立、删除角色;d〕应支持用户角色的授予、收回、查看;e〕应提供权限体系;f〕应支持用户和角色权限的授予、收回、查看;g〕应支持数据加密.7.1.2扩展要求应支持用户审计.7.2易用性7.2.1根本要求易用性根本要求如下:a〕应提供完整的用户手册;b〕应提供联机帮助;c〕应提供图形化治理界面;d〕应提供模型定义和数据操作的交互工具.7.2.2扩展要求应提供向导工具.7.3维护性7.3.1根本要求维护性根本要求如下:a〕应支持非结构化数据的导入与导出;a〕应支持数据多副本;b〕应支持日志机制;c〕应支持存储实例的备份与恢复;d〕应提供故障恢复工具.7.3.2扩展要求应支持系统模块的热插拔.7.4兼容性7.4.1根本要求兼容性根本要求如下:a〕应支持多种操作系统运行环境;b〕应支持GB 18030的强制局部.c〕应支持C++或Java主流编程语言.7.4.2扩展要求无.。
1.1 企业非结构化信息管理现状数据的有效利用是每个企业高效运作的基础。
提到信息管理,最典型的处理受到是数据库应用,但实际上数据库技术只擅长管理并操作结构化数据。
有统计表明,企业数据每年以200% 的速度增长,其中80%的数据以文件、邮件、图片等非结构化数据存放在企业内计算机系统中的各个角落,这些非常宝贵的信息资源亟待被有效管理并循环利用。
而数据库只解决了20%的结构化数据管理问题,因此,企业或机构中80%的非结构化信息的管理是企业信息资源管理的核心。
如何方便,快捷,安全地管理企业内部的信息内容就将涉及到企业搜索引擎领域的应用。
企业搜索就是为企业内外部各类非结构化数据处理提供的一个综合应用平台层,将各类数据信息与用户的需求直接连接,而无须用户了解其间的任何过程信息。
对于用户来说,使用企业搜索就如同看电视一样简单,只要告诉它你想看什么,它即会立即返回你需要的任何内容,以你最希望看到的方式展示出来。
企业搜索引擎除了与互联网搜索工具一样能完成采集、检索等基本功能外,企业搜索对相关核心技术的要求更高,如采集的效率更快,全面性更强,深度更深,而且能够定向定量采集;检索则更加注重个性化检索,以信息内容为核心的相关度排序方式、个性化推送,甚至还包括自动分类、聚类、语义分析等对信息的组织和有序化技术。
企业搜索并不是简单的将互联网搜索技术拿到企业内部来用,而是对企业内外部数据的高效获取和有效组织的技术和过程,它不仅仅包括互联网搜索的相关技术,还包括一系列对于非结构化数据的组织、分析和安全管理技术等。
业界提出了不少方法以实现这些功能,例如:关键字搜索、标签解决方案、交叉过滤和语言方法等等。
通过这些方法可以在一定程度上提高计算机对非结构化信息的处理能力,但由于这些方法都需要一定程度的人工干预。
事实上,为了保证各类业务的成功运营,真正需要做的是使计算机能够自动、实时和智能地处理业务运营所必需的各类信息,这就需要计算机系统可以理解当今存储的非结构化信息究竟是什么,理解当前进行处理的信息究竟代表什么含义。
管理信息系统的系统设计.ppt 幻灯片 1:管理信息系统的系统设计制作人姓名幻灯片 2:目录一、系统设计的目标与任务二、系统总体结构设计三、代码设计四、数据库设计五、输入输出设计六、处理流程设计七、系统设计的原则与评价幻灯片 3:系统设计的目标与任务系统设计的目标是在系统分析提出的逻辑模型的基础上,科学合理地进行物理模型的设计,以满足新系统的功能需求。
其主要任务包括:1、总体设计,将系统划分成若干个子系统,并确定各子系统的功能和相互关系。
2、详细设计,包括代码设计、数据库设计、输入输出设计、处理流程设计等。
幻灯片 4:系统总体结构设计系统总体结构设计是根据系统分析的结果,对整个系统的划分、设备的配置、数据的存储以及整个系统实现的可能性等进行初步的设计。
1、子系统的划分按业务处理功能划分按业务先后顺序划分按数据拟合程度划分按业务处理过程划分2、系统设备的配置硬件设备的选择软件设备的选择幻灯片 5:子系统划分示例以一个企业的管理信息系统为例,可将其划分为生产管理子系统、销售管理子系统、财务管理子系统、人力资源管理子系统等。
生产管理子系统负责产品的生产计划、生产过程控制等;销售管理子系统负责销售订单处理、客户管理等;财务管理子系统负责财务核算、资金管理等;人力资源管理子系统负责员工的招聘、培训、绩效考核等。
幻灯片 6:代码设计代码是代表事物名称、属性、状态等的符号。
1、代码的作用便于数据的存储和检索提高处理的效率和精度提高数据的一致性和准确性2、代码的类型顺序码区间码助记码幻灯片 7:顺序码示例比如员工编号 001、002、003 等,按照顺序依次排列。
幻灯片 8:区间码示例身份证号码的前六位代表地区,就是一种区间码。
幻灯片 9:助记码示例用 TVB 代表电视机,用 CMB 代表招商银行,便于记忆和理解。
幻灯片 10:数据库设计数据库设计是指在给定的应用环境中,通过合理的逻辑设计和有效的物理设计,构建较优的数据库模式,建立数据库及其应用系统,使之能够有效地存储和管理数据,满足用户的各种应用需求。