• 快捷搜索
  • 全站搜索

构建多活和主备模式相结合的灾备体系

2016-02-01 14:50:33作者:中国建设银行北京数据中心主任 沈秋翔编辑:金融咨询网
建设银行于2010 年明确信息技术“两地三中心” 总体布局策略,确定在北京稻香湖建设新数据中心,在武汉南湖建设异地数据中心,将北京洋桥数据中心作为同城数据中心。

建设银行于2010 年明确信息技术“两地三中心” 总体布局策略,确定在北京稻香湖建设新数据中心,在武汉南湖建设异地数据中心,将北京洋桥数据中心作为同城数据中心。同时,建设并部署北京稻香湖和武汉南湖两个总控中心。武汉南湖数据中心已于2014 年11 月正式投产,北京稻香湖数据中心也正在加紧建设中,预计2017 年建成投产。未来北京稻香湖数据中心作为主生产中心,北京洋桥数据中心作为同城中心,武汉南湖数据中心作为异地中心,形成“两地三中心”布局。与之对应的,在北京和武汉分别建设企业控制中心(ECC), 并形成ECC 间的互备能力,实现同城加异地的多重保护格局。

图片2.jpg

一、灾备体系规划

  在建设银行的灾备体系规划中,明确了包括董事会、高管层、业务连续性管理委员会、各业务部门、综合管理部门、关键资源部门和审计部门的组织架构及职责分工。全行业务连续性管理工作围绕信息系统、基础设施及关键资源、安全保卫设施等三大关键资源分类开展实施,由信息技术部门、行长办公室(总务)、安全保卫部三大关键资源管理部门牵头负责各类关键资源的业务连续性管理体系建设,各业务部门负责制定和执行本部门或所辖业务条线业务连续性计划,确保重要业务持续正常运营。

  建设银行根据业务连续性的要求,整体考虑灾备体系的建设和管理,包括灾备模式、人员、系统等。

  1. 灾备模式

  在“两地三中心”布局的基础上,建设银行于2011 年启动了新一代核心系统建设工作,以“满足客户任何时候、任何地点、任何方式服务需求”为宗旨,以一套业务模型、一套IT 架构、一套实施工艺、一套管理流程“四个一”为基本特征,实现核心业务系统企业级建模、组件化设计、一体化运维,信息科技全面支持建设银行向“综合化经营、多功能服务、集约化发展、创新型银行和智慧型银行”转型。

  在灾备模式的选择上,建设银行充分考虑新一代核心系统的特点,结合“两地三中心”的物理距离和当前主流灾备技术特点,制定了多活和主备模式相结合的部署策略。建设银行的新一代核心业务系统建设是一个战略转型项目,系统技术架构是一个面向服务的架构(SOA),遵循层次化、组件化的原则,采用云计算等核心技术,通过组件拼装和组合为云服务实现资源共享,达到灵活响应和快速创新的目的。架构上分为7 层,自上而下分别是渠道整合层、客户服务整合层、应用集成层、外联集成层、产品服务层、数据集成层和管理分析层。

  渠道整合层、客户服务整合层、应用集成层和外联集成层采用三活方式部署(A-A-A 模式),三中心均对外提供服务。多活模式的高可用性最高,灾难发生时能够实现无缝切换,支持快速业务引流,客户体验最好。

  产品服务层在北京稻香湖、北京洋桥、武汉南湖三中心采用A-Q-S 部署方式。由于存在海量数据,且生产性能要求很高,受限于现有的技术,产品服务层无法实现理想的双活或多活部署,因此以北京稻香湖中心为主生产中心,处理大部分联机交易和批量业务,武汉南湖中心作为异地灾备中心。目前建设银行的业务量非常大,仅核心系统日交易量就已经突破5.24 亿笔,峰值TPM 达到61.47 万笔/ 分钟,IBM 大机的性能已经接近极限,因此在产品服务层引入Q 模式(查询模式),通过在北京洋桥数据中心同城部署查询和报表处理能力, 降低对主生产中心的压力。

  数据集成层和管理分析层在武汉南湖、北京稻香湖两中心采用主备部署方式(A-S 模式)。主备模式技术成熟,在满足灾难恢复指标的前提下,可充分保障数据的一致性,降低数据丢失风险。

  通过上述规划部署,北京稻香湖作为主生产中心, 承担核心业务生产负载以及管理分析类的灾备功能;北京洋桥同城中心提供查询、报表等服务功能,降低主生产中心的压力;武汉南湖异地中心承担管理分析类生产负载,以及总分行、子公司的灾备功能。同时与之对应的,在北京稻香湖中心和武汉南湖中心分别建设企业控制中心(ECC),并形成ECC 间的互备能力,平时两个ECC 共同承担工作任务,灾难发生时单个ECC 独立承担全部工作任务。在信息系统灾备方面,对不同的系统组件,通过进行业务影响分析,进一步明确信息系统的灾备等级,确定信息系统的恢复时间目标(RTO)和恢复点目标(RPO)。

  2. 灾备资源复用

  为了降低成本,提高计算资源的利用率,建设银行一直着力研究灾备资源复用的方案。主机平台灾备与测试资源的复用已经实施了多年,计算资源平时主要用于测试环境。除此之外,灾备环境还用于满足审计、模拟演练等需求,资源使用率非常高。

  新一代业务系统建设大量采用了虚拟化与资源池技术,因此具备资源动态分配与快速供给的技术特性,这为灾备资源的有效利用提供了更方便的条件。目前建设银行正在制定开放平台计算资源的复用方案,综合考虑灾备、准生产和测试环境的资源需求和使用特点,利用虚拟化和云平台技术,实现资源的按需分配和灵活供给。

  3. 人员能力灾备

  建设银行从2011 年开始提出大运行的概念,在数据中心内部实施了零线、一线、二线人员分离,实现运维人员专业化分工,满足不同层级的人员灾备要求。

  零线人员作为7x24 现场监控人员,负责集中监控平台告警的响应,其人员分布在北京和武汉两地,实现全局监控。当发生灾备切换时,某地的ECC 零线人员能够接管全部监控工作。

  一线人员侧重标准化、常规化运维工作,横向发展, 实现集约化,用最少的人看管最多的系统,并借助于工具平台实现自动化。一线人员以同一个团队的形式分布在两个ECC,灾难发生时作为现场人员执行灾备切换相关动作。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章