数据分级存储及访问方式设计方案研究随记

  • 格式:doc
  • 大小:74.00 KB
  • 文档页数:10

下载文档原格式

  / 10
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据分级存储及访问方式设计方案

研究随记

认知问题的过程:what(什么)?→why(为什么)?→how(怎么做)?每一个需要研究的主题,我大都会按照这样的顺序重点在这三个问题上展开讨论和研究。

1. 数据分级存储的设计方案

1.1 什么是分级存储

分级存储是指根据数据不同的重要性、可用性、访问频次、存储成本等指标,分别存放在相应的存储设备上。其工作原理是基于数据访问的局部性,通过将不经常访问的数据自动移到存储层次中较低的层次,大大减少非重要性数据在一级磁盘所占用的空间,释放出较高成本的存储空间给更频繁访问的数据,从而加快整个系统的存储性能,获得更好的总体性价比。在分级存储系统中,一般分为在线存储、近线存储和离线存储三级存储方式。

1.2 为什么要分级存储

应用系统在线处理大量的数据,随着数据量的不断加大,如果都采用传统的在线存储方式,就需要大容量本地一级硬盘。这样一来一

方面投资会相当较大,而且管理起来也相对较复杂;另一方面由于磁盘中存储的大部分数据访问率并不高,但仍然占据硬盘空间,会导致存取速度下降。在这种情况下,数据分级存储的方式,可以在性能和价格间作出最好的平衡。

1.3 怎么实现分级存储架构

1.3.1 标准的三级数据分级存储架构

在线存储又称工作级的存储,是指将数据存放在高速的磁盘存储设备上(如FC 磁盘、SCSI 或光纤接口的磁盘阵列),其最大特征是存储设备和所存储的数据时刻保持“在线”状态,可随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求。在线存储适合存储那些需要经常和快速访问的程序和文件,其存取速度快,性能好,存储价格相对昂贵。例如:用于应用的数据库和短近期(通常6个月-12个月)的数据的存储,需要满足大容量、高性能、高可靠性等特征。

近线存储是指将那些并不是经常用到或者访问量并不大的数据存放在性能较低、单位存储价格较便宜的存储设备上(通常是采用数据迁移技术自动将在线存储中不常用的数据迁移到近线存储设备上)。近线存储外延比较广泛,定位于用户在线存储和离线存储之间的应用,包括一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备,如SATA 磁盘阵列、IDE磁盘阵列、DVD-RAM 光盘塔和光盘库、磁带库、NAS等。近线存储对性能总体要求相对不高,但

要求能确保数据共享、可靠、传输稳定、适应一般的数据访问负荷。

离线存储主要是用于对在线存储或近线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储,需要人工操作设备了。离线海量存储的典型产品就是磁带或磁带库,价格相对低廉,但是访问速度慢、效率低。当然,仍然要保证设备可靠性、安全性好,大容量、成本低且管理方便。

1.3.2分级存储管理

分级存储管理(Hierarchical Storage Management,HSM)是指将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中不常用的数据按指定的策略自动迁移到次级大容量的存储设备上;需要使用这些数据时,分级存储系统会自动将这些数据从次级存储设备回迁到一级存储上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问速度上略有些慢,而在逻辑磁盘的容量上却明显感觉提高了。分级存储管理可实现数据在各级存储设备之间的自动迁移。

1.3.3数据迁移的触发条件

分级存储管理系统需要实时监控在线存储的磁盘剩余空间,根据剩余空间占磁盘总空间大小比例的变化、设定的迁移阀值、参照阀值对数据进行相应的迁入、迁出操作。例如,设定剩余空间的阀值范围是30%—10%,数据迁入、迁出的情况如下表:

1.3.4 数据的价值级别

数据并非生而平等,某一些数据可能更为重要,其访问的性能要求、安全保护级别比其他数据要求高。即使是同一数据,通常它的价值也会随着时间的推移而逐渐降低。

判定数据价值级别的一个有效方法是对数据进行信息生命周期管理(Information Lifecycle Management,ILM)。信息的生命周期可以划分为6 个阶段:创建、保护、存取、访问、归档和回收。

系统在数据创建时就应当获得数据的类型、数据产生时间、数据有效期限、数据对业务的重要性、数据访问的性能要求、数据安全保护级别等相关信息。对数据进行分类,划分价值级别,依照数据价值级别设定数据的存储级别,分配最优化、最具成本效益的存储资源。分级存储管理系统对数据价值级别进行定期的扫描监测,在时间点、数据价值级别、存储层次三者之间建立对应关系。一旦经过某个时间点数据的价值级别发生变化,即可触发数据的迁移,自动将数据转移到合适的存储平台之上。

1.3.5 人为制定的条件

为了更好地辅助数据的管理,通常有人为制定的规章制度对数据存储以及服务提出相应的要求。其中最常见一类是根据数据的时间特性来制定的规则,例如,商业银行一般向客户提供最近6 个月交易详单的网上查询服务。针对这种服务规定,可以对超过这个时间段的交易详单数据设定相应的策略,自动从在线存储迁移到次级存储。

2. 近线、在线、离线数据的访问方式

2.1 银行数据中心的特点

银行数据中心是公认的数据产生量最高,数据安全性要求最高的数据中心。当在建设银行数据中心的时候一定要遵循数据生命周期管理的相关内容走。数据生命周期管理是一项复杂的系统工程,其存储架构的建立比较简单,最大的难题是现有应用系统中的数据是否可以按照生命周期实施分离和,以及满足当年数据、历史数据查询使用的具体要求。

早期的银行业务主要还是以经营性业务为主,其特点是业务处理运算量大,但数据量相对较少,处理对象主要是当前数据或短期之内的数据,数据时间跨度小,这就意味着处理的数据规模相对固定可控。近年来,以几大国有商业银行为代表的国内银行不约而同地走上了数据大集中的道路,数据集中统一处理造成数据量的急剧膨胀。随着国内银行业竞争的加剧,各家银行不断深化以客户为中心、以优质业务