• 快捷搜索
  • 全站搜索

“两地三中心”多活系统规划设计

2016-03-04 16:18:26作者:恒丰银行科技部总经理   张晓丹编辑:金融咨询网
2000年开始,我国商业银行IT系统大多经历了从分散数据中心到集中式数据中心的第一阶段建设,在享受数据集中带来的管理和运维收益的同时,又开启了以同城或异地灾备系统为核心内容的第二阶段建设。

2000年开始,我国商业银行IT系统大多经历了从分散数据中心到集中式数据中心的第一阶段建设,在享受数据集中带来的管理和运维收益的同时,各银行也意识到数据集中带来的业务连续性问题,因此,开启了以同城或异地灾备系统为核心内容的第二阶段建设。

图片1.jpg

  近年来,随着互联网的崛起,以阿里、腾讯、百度等为代表的互联网公司在广泛使用开源技术的基础上,建设了高效、灵活的全新的IT系统架构,以及同城多活、异地多活的数据中心架构。互联网浪潮中云计算、分布式、多活等技术潮流也在冲击着银行IT系统的建设思路。

  恒丰银行作为12家全国性股份制商业银行之一,近年来在盈利能力和资产质量实现跨越式发展的同时,在IT系统建设方面明确了科技引领、跨越式发展的战略方向,学习和吸收互联网和开源技术思路,以服务水平管理为目标,完成了新一代“两地三中心”多活系统规划设计和建设,以期全面提升IT系统连续性和可用性水平,为全行业务快速创新发展提供有力支撑。本文就恒丰银行“两地三中心”多活系统建设的策略和方案进行介绍。

一、基于IT成本控制和服务水平管理的规划设计策略

  在进行“两地三中心”架构规划设计之前,恒丰银行组织业内专家进行了充分的分析讨论。分析、明确了影响“两地三中心”设计的主要问题,包括连续性、可用性、安全性、容量性能、建设和运维成本等,以及传统数据复制技术和应用多活设计局限性等。

  恒丰银行明确IT财务成本控制和IT服务水平管理为新一代“两地三中心”多活系统规划设计总体目标和指导原则。通过对IT基础设施的服务对象——银行应用系统进行服务水平(连续性、可用性、容量、服务时间等)分级管理,在产品技术选型和规划设计方案的源头,为不同级别应用配备不同可靠性的产品设备、不同标准的冗余备份设计,不同比例的多中心容量配置,以及不同级别的自动化运维设计,以控制IT基础设施建设成本和运维成本。

  1.连续性

  从狭义方面讲,连续性是指园区级、城市级灾难发生后,IT系统能够尽快恢复并继续提供服务的能力。主要解决和应对火灾、长时间停电停水、地震、战争等灾难事件对IT系统的破坏。衡量连续性水平的主要指标是恢复时间目标(RTO)和恢复点目标(RPO)。

  通常使用磁盘和数据库同异步数据复制、磁带等数据全量和增量备份恢复、应用和网络多点接入、应用补账或业务补账、应用系统多写等技术手段,达到不同级别的RPO和RTO连续性指标要求。参照人民银行和银监会的灾备等级指标,我们将应用系统划分为5+级、5级、4级和2级四个连续性等级,分别使用不同的连续性技术产品和设计方案(如表1所示)。

图片2.jpg

  2.可用性

  可用性是非灾难的局部故障情况下,能继续访问应用的能力,需要从基础设施、存储、服务器、操作系统、数据库、中间件、应用系统、运维流程和应急方案等多个层面进行设计。如在基础设施层面对电力、空调、消防、抗震等进行冗余设计;在存储层面采用两套或多套存储阵列构建全冗余架构,任意存储设备出现故障时,其余存储阵列能够继续提供完整的数据服务;在运维流程和应急层面建立与高可用技术架构配套的运维体系、制度和应急方案,定期演练,从而使高可用架构发挥实际的效用。依照可用率指标可将应用系统划分为A、B、C、D四个可用性等级,并在上述的各个层面实施差异化的配置(见表2)。

图片3.jpg

  之所以将连续性和可用性分别进行分级管理,一方面是因为连续性设计时,受同城中心和异地中心之间距离因素的影响,进行传统的磁盘和数据库实时数据复制会较大地影响应用系统的访问性能和容量配备。距离越远应用访问性能影响越大,需要更大容量的资源弥补访问时延。另一方面传统的磁盘和数据库同步技术,使得多个中心之间的网络、磁盘和数据库系统紧密耦合,任何一个中心的网络、磁盘和数据库出现问题,都会影响应用系统的整体可用性。

  为此,恒丰银行在进行新一代“两地三中心”规划设计过程中,引入了以下设计思路。

  一是依据云数据中心设计过程中的AZ(可用域/故障域)概念,禁止多中心之间的网络系统的二层互连,多中心磁盘系统不进行最大保护模式的数据同步,多中心迁移过程中IP地址不会迁移到其他中心。使每个中心成为一个相对独立的AZ,任何一个中心的故障不会影响其他中心的可用性。

  二是针对可用性级别很高的应用系统(A/B类),分别考虑其高可用性设计和连续性设计。对于这些应用的数据库系统,我们重点在生产中心本地层面加强数据库高可用性冗余设计,确保数据库日常故障主要在生产中心本地解决。在同城数据中心之间采用最大可用模式的数据同步复制机制,一旦同城连接发生异常,及时自动中断数据同步保障主生产中心的可用性。

  对于这些应用的WEB/APP系统,则利用全球负载均衡、DNS改造、应用多点接入等技术统一实现可用性和连续性设计。使得每个中心不再配备额外冗余的资源,出现本地故障或灾难问题,统一自动切换到另外一个中心。

  三是对于可用性要求不是很高的应用系统(C/D类),其Web、APP、DB系统可以在同城数据中心之间进行统一设计,生产中心本地不配置冗余备份,出现日常故障和灾难统一自动切换到另外一个中心。对于其中交易响应时间要求较高、连续性等级不高的应用,数据库可以采用最大性能模式进行异步复制,以避免对生产中心数据库性能和容量配置的影响。

  3.容量性能

  IT系统容量性能配置决定了IT建设运维成本,合理的规划生产、同城、异地站点之间的容量配比,是平衡IT投入与产出的重要依据。为此,我们基于以上连续性和可用性规划设计思路,对多个数据中心的IT系统进行了统一的容量规划,合理配备不同的基础设施、硬件、软件、运维管理资源。同时,通过将一些低等级系统的主用系统在同城、异地之间交叉部署,使研发测试系统复用异地灾备资源等设计,最大限度地提高多数据中心之间资源的整体使用率,以节约和控制IT成本(容量配比规划见表3)。

图片4.jpg

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章