• 快捷搜索
  • 全站搜索

交通银行灾备体系建设及创新实践

2016-01-29 16:48:25作者:交通银行数据中心副总经理 郑仕辉编辑:金融咨询网
在过去的十年中,国内商业银行相继建立了同城和异地灾备中心,“两地三中心”成为商业银行普遍采用的灾备建设模式。在灾备建设过程中,交通银行针对存在的问题进行了深入探索和实践,通过自主创新,建立了完善的灾难备份体系。

商业银行信息系统的安全、稳定运行关系着国家金融安全和社会稳定,为了防范灾难和风险,保障业务连续性,在过去的十年中,国内商业银行相继建立了同城和异地灾备中心,“两地三中心”成为商业银行普遍采用的灾备建设模式。

图片2.jpg

        灾备系统建设投资巨大,商业银行的灾备系统建设普遍面临如下问题:

        一是由于大规模、关联复杂的IT系统灾备切换技术复杂、风险极高,商业银行的灾备系统往往处于“有备份、无切换”的状态,灾备系统的有效性没有经过真实切换的验证;

        二是生产系统环境不断变化,灾备系统的维护成本高,可用性难以保障;

        三是灾备中心用于备份的服务器往往处于空闲状态,虽然一些银行将灾备系统同时用于开发测试,但其资源仍没有得到充分有效的利用,尤其是采用大型机运行核心或贷记卡系统的商业银行,其灾备大机的资源十分昂贵。

        交通银行2006 年完成了数据大集中,在上海张江建立了数据中心,于2007年将海外分行系统从香港迁移到张江数据中心运行,实现了境内外一体化的数据中心运行。

        为保障业务连续性,交通银行于2007年在上海浦西漕河泾建立了同城备份中心,2008年在武汉建立了异地灾备中心,形成了“两地三中心”的灾难备份体系。

        在灾备建设过程中,交通银行针对前述问题进行了深入探索和实践,通过自主创新,建立了完善的灾难备份体系。

一、交通银行“两地三中心”建设规划

        为了指导灾备体系建设,在实现大集中之后交通银行就制定了“两地三中心”的发展规划,确定了灾备建设“统筹规划、分步实施;控制成本、保障有效;面向业务、分级灾备;平战结合、资源共享”的指导方针。

        首先,对“两地三中心”建设的目标、灾备等级、技术路线等进行总体规划,在灾备的建设次序上,采取“先同城、后异地”的策略。

        其次,在确保灾备系统有效性的基础上,采取各种技术和管理手段,尽可能降低灾备系统的投资成本。

        再次,对业务系统进行分级,根据业务的重要程度,采用不同的灾备模式,达到不同的灾备等级。

        最后,对于大机系统和规模较大的开放平台系统,采用同城双中心运行的方式,使得备份中心的服务器资源也可以用于分流生产负载,实现资源共享。

        规划明确了“两地三中心”的功能定位,即张江数据中心作为生产的主中心,承担全行所有集中式业务的生产运行;

        漕河泾中心作为生产副中心和同城备份中心,用于防范水灾、火灾、电力中断等区域性灾难,并可应对生产容量不足、局部故障等紧急情况,同时具备在日常分流部分关键业务的生产负载和在张江数据中心出现大面积的系统瘫痪时接管生产系统运行的能力;

        武汉中心作为异地灾备中心和云计算多活中心,用于防范地震、海啸、战争等城市级的灾难。在张江数据中心和漕河泾中心均不能对外提供服务时接管生产业务,同时要兼顾部分生产系统异地多活云计算部署的需求。

        规划还对各业务系统进行了分级,对各级业务系统的同城和异地灾备建设等级、RPO和RTO指标、技术实现方式等进行了规定,为业务系统的灾备建设提供了指南。

二、灾备建设历程及创新成果

        经过数年的建设和发展,目前,交通银行漕河泾中心已建立了完备的同城备份系统,实现了所有业务系统的数据级灾备,重点业务系统的系统级灾备(在灾备中心有备份服务器)及关键业务系统的双活运行。

        灾备的等级达到国家标准的最高级第6级(对应国际标准第7级)。武汉异地灾备中心已建立了关键业务的系统级灾备和重要业务的数据级灾备,灾备等级达到国家标准的第5级。

        从2008年至今,交通银行在充分借鉴和吸收国内外先进技术的基础上,进行了大胆的技术创新,研发了多项具有自主知识产权的关键技术,在灾备系统建设上多次实现了“零”的突破,在国内同业中创造了多个“第一”。

        2008年7月,交通银行在国内大行中首次实现生产系统同城灾备系统切换运行和回切。

        2009年8月, 在国际同业中首次实现70千米距离的大型机系统同城双活运行,使得核心、贷记卡系统可以在相距70千米的两个中心之间平滑分流业务。

        2011年11月,在国内首次实现生产系统分钟级的同城灾备切换运行及回切。

        2012年12月,在国际同业中首次实现70千米距离的开放平台DB2系统同城双活试点运行。

        1.同城灾备切换运行与回切

        在交通银行建立漕河泾同城灾备中心后,为了验证同城灾备系统的有效性,经过充分的准备和演练,交通银行于2008年7月19日成功地将关键业务系统(包括核心账务、贷记卡、CPS、网上银行、电话银行等)从张江数据中心切换到漕河泾中心,对外运行一天之后,又回切到张江中心。

        此次切换和回切均在100分钟之内完成,实现了零数据丢失,充分验证了同城灾备系统的有效性。

        为了缩短切换时间,减少切换对人工的依赖, 交通银行自主开发了大规模灾备自动化切换控制技术。整个切换过程,从关闭操作系统、灾备切换到数据比对及检查等,全部实现了自动化,大大提高了灾备切换任务的并行处理效率,缩短了灾备切换的时间,也避免了人工误操作的风险。

        2. 大机系统同城双活

        为了降低灾备建设的投资成本,提高生产系统的可用性,交通银行在同城灾备体系建设方面进行了深入的创新实践,实现了大机系统的同城双活运行。在交通银行实施双活之前,IBM已经提供了大机系统的同城双活的解决方案GDPS Multi-Site,但是由于数据传输延迟对联机交易性能的负面影响,IBM标准方案要求两个中心之间的(光纤)距离不能超过20千米,其灾备效果大打折扣。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章