金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

农发行“两地三中心”灾备系统解决方案

2012-12-05 15:27:15作者:中国农业发展银行 游建培 苟飞编辑:
为防范和化解数据大集中带来的高风险,建立与银行信息系统规模相适应的信息安全体系,农发行于2009年启动了灾备系统的建设工程。

数据大集中提升了业务经营、管理和决策水平,便于统一维护、升级和管理,同时也带来了风险的高度集中。无论如何完善,系统仍然难免来自内部运营、自然环境、社会环境、公共基础设施等风险,其连锁效应也将造成巨大的经济损失和严重的社会影响,因此更要“持续加强信息科技风险防范,着力降低信息系统的脆弱性”。为防范和化解数据大集中带来的高风险,建立与银行信息系统规模相适应的信息安全体系,农发行于2009年启动了灾备系统的建设工程。

一、灾备系统的建设目标
        农发行核心业务、国际业务等重要系统,按照灾难恢复等级5级以上的标准建设灾备系统。农发行的“两地三中心”灾备系统由总行月坛生产中心、北京天坛同城灾备中心、珠海异地灾备中心构成。“三中心”按应用级灾备目标建设,各中心保留完整的历史数据,均可独自承担灾备业务系统运行。同城灾备中心RTO为2小时、RPO为0,异地灾备中心的RTO为4小时、RPO为15分钟。

二、“两地三中心”灾备系统建设方案
        1.生产系统的现状
        首期灾备的核心业务系统、国际业务系统、债券核算系统、大小额支付系统、综合前置以及SWIFT等应用系统都是基于UNIX开放平台,大部分主机采用HP服务器,Oracle数据库和Weblogic中间件,所有业务数据都保存在EMC的DMX一4存储上,配备有NAS和带库保存历史数据。

        2.容灾技术方案的选择
        目前,数据容灾主要为基于存储、数据库、主机和应用等的几种模式。根据农发行应用系统的特点和具体实际,经反复论证,采用先进的基于存储数据的复制技术构建农发行的“两地三中心”灾备系统。

        EMC的SRDF/star(Symmetrix Remote Data Facilitv)是业界领先的三点数据复制和容灾解决方案,它采用SRDF/S复制技术将生产数据同步复制到同城灾备中心(200km以内),实现到同城数据零丢失;通过SRDF/A复制技术将生产数据异步复制到几乎不受距离限制的远程灾备中心,实现到远程数据的少量丢失。SRDF/star三中心容灾的解决方案所示。

        3.数据复制模式的选择
        EMC SRDF/star有“cascade”和“concurrent”两种数据复制模式实现三点数据容灾。“cascade”模式是先将数据由生产中心复制到同城,同时南同城将数据复制到异地。异地的数据复制依赖于同城灾备中心,存在单点故障的风险。而“ccrecurTent”模式将生产数据同时复制到同城和异地,当任意中心出现故障时,其余两中心仍能正常工作,至少保证两点容灾,维持灾备系统的高可用性。因此,“两地三中心”灾备系统采用“concurTent”模式实现系统容灾,必要时也可以切换到“cascade”模式。

        4.数据复制链路带宽的设计
        为了实现数据零丢失目标,保证两点数据完全一致,每次写操作都要等待两点写成功。若链路闪断,存储主机将会等待一定时间,直到收到同城写成功或超时断开为止。所以数据同步复制对链路的带宽和质量要求很高,一般采用裸光纤:生产中心到远程的异步复制,不需等待远程站点写成功返回信息,它将需要写入信息写入缓存,再异步复制到远程站点,会消耗生产存储上部分缓存。

        生产中心与同城(距离约20km)间采用两条10Gb的DWDM光纤线路,两条光纤来自不同的运营商,互为备份。经测试可达到800MB/S以上传输速率。生产中心到异地之间采用155MB的ATM专线,通过FCIP交换机的数据压缩技术,最高可达到60MB/S以上的数据传输速率。ATM线路质量稳定,且随着业务发展,可平滑扩展带宽。

        在SRDF/star容灾解决方案中,还有一条同城到异地的数据复制备用链路,一是用于生产中心发生灾难,且由同城灾备中心承担生产任务时,同城到异地的数据复制;二是当155M的ATM专线故障时,数据需由同城复制到异地灾备中心;三是传输数据库的归档日志文件。为此,在同城与异地灾备中心间设计了一条100MB的MSTP专线作为备份线路。

        5.存储性能分析及配置
        采用SRDF/star实现三点容灾对存储主机资源如cache和SRDF端口数量等有一定的要求。收集生产存储的性能数据,分析其10负载情况,了解各个模块的使用情况,据此估算cache容量,SRDF端口数量,远程链路带宽等等,作为容灾方案设计的重要依据。

        生产存储上DMX4的使用率较低,负载较小。在日终批处理期间,写10吞吐量可达到60MB/S,write IOPS为1500左右。60MB/S的数据与l0Gb DWDM链路传输速率相比较低,2个SRDF/S端口以及2条DWDM链路完全满足SRDF/s同步复制要求。2个SRDF端口可满足SRDF/A数据复制要求,但在负载高峰时段会占用生产存储的一定缓存。经对系统上线运行两年多来的监控,采用压缩技术和适当的增大生产存储缓存的配置,对生产系统性能没有明显的影响。根据以上分析,生产中心存储配置为192GB的cache,两个灾备中心配备为144GB的cache。

        6.灾备系统的广域网设计
        省级行新增一条2M MS3、P专线到珠海异地灾备中心,用于当灾备演练、或灾难发生将生产系统真正切换到珠海时,各营业网点可访问异地灾备系统。为降低运营成本,省分行不单独租用到同城灾备中心的数字专线。当需要将生产系统切换到同城灾备中心时,各营业网点可通过3种途径访问同城生产系统:若月坛生产中心网络运行正常,各网点通过月坛生产中心,再经DWDM专线到同城;通过网络营运商将现有到月坛的专线直接切换到同城;各网点先到珠海,由珠海到同城:

        7.灾备系统的切换
        基于存储的容灾,在系统切换时则主要是存储的切换:各营业网点通过IP地址访问生产服务器,若切换后生产服务器IP地址不变,则各营业网点不需任何变动就可恢复营业,大大缩短恢复生产的时间.减少因更改配置而带来的混乱。因此,在设计灾备系统网络时,两个灾备中心的每台主机均配有两个IP地址,一个是与生产一致的IP地址,平时不对外发布;另一个本地IP地址用于日常维护和补丁升级。当灾备系统启用时,发布该中心的生产IP地址,并发布路由,同时关闭生产中心的路由发布。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章