金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

创新灾备体系 保障业务连续性

2015-12-28 16:24:43作者:交通银行数据中心副总经理 郑仕辉编辑:金融咨询网
交通银行的同城双活一体化建设,不仅仅是技术的创新,更是理念的革新,把传统意义上的灾备中心转化成了可以用于分流生产业务的副中心,在保障高可用、提高业务连续性方面取得了丰硕的成果。

随着互联网的普及,来自电子渠道的交易已经占到商业银行交易总量的80%以上,金融服务已经无处不在,现代化的商业银行IT系统需要提供7×24小时、365天不间断的运行。与此同时,面对来自外部的诸多灾难威胁,如何保护用户信息安全和金融服务的永续经营,是商业银行经营管理者们共同关心的课题。

图片6.jpg

一、业务连续性重要性日趋凸显

        当今银行的日常业务运营高度依赖于信息系统,信息系统的故障极易影响到银行的正常运转。在世界范围内,金融领域重大灾害事故屡见不鲜,造成了重大社会影响,突发灾难或恶意攻击一直是威胁金融服务的洪水猛兽。

        灾害发生时,首要保障的就是用户金融数据的安全和金融服务的延续,信息系统的容灾能力从未显得如此至关重要。据美国明尼苏达大学对灾害所造成的影响分析显示,发生突发灾难后,如两星期无法恢复信息系统,75%的公司业务将停顿,43%的公司将无法再开展业务;没有实施灾难备份的公司,将在灾后2~3年破产。

        在此情形下,业务连续性应运而生。业务连续性指的是企业在遭到意外突发情况下,快速恢复业务运行的能力,它来源于灾备恢复技术的发展,更是灾难恢复的最终目的。商业银行重视业务连续性,既是保障客户资产安全、提供不间断金融服务的需要,也是满足监管要求的需要。

        与此同时,业务连续性也是激励商业银行IT科技创新和发展的动力之一。近十年来,灾备体系建设始终是国内商业银行信息化建设中的重大课题之一,但是,商业银行的灾备建设也存在着诸多难题。

        首先,大型商业银行的IT系统通常采用大型机和开放平台的混合架构,系统规模庞大,技术复杂,大规模的系统切换没有成熟的解决方案。其次,灾备体系建设投资巨大,但是备份中心的IT资源,尤其是投资占比最大的大机资源,主要用于开发测试或处于闲置状态,没有得到充分的利用。第三,灾备建设的有效性需要通过生产系统的真实切换进行验证,而生产系统的灾备切换运行及回切风险极高,商业银行的灾备系统往往处于“有备无换”的状态,其有效性没有经过真实切换的验证。

  如何破局?路在何方?经过大胆的假设和反复测试验证,交通银行的同城双中心主机、开放一体化解决方案为上述问题提供了答案。

二、灾备创新——同城双中心

        2006年交通银行完成了数据大集中,在上海浦东张江建立了数据中心,2007年将海外分行系统从香港迁移到张江数据中心,实现了境内外一体化的数据中心运行。为保障业务连续性,交通银行于2007年在上海浦西漕河泾建立了同城备份中心,2008年在武汉建立了异地灾备中心,形成了“两地三中心”的灾难备份体系。

        从2008年至今,交通银行在同城灾备及双活体系建设方面连续取得了突破性的进展,在国内创造了多个“第一”。2008年7月,交通银行在国内大行中首次实现生产系统同城灾备系统切换运行和回切。2009年8月,在国际同业中首次实现70千米距离的大型机系统同城双活运行,使得贷记卡系统可以在70千米距离的两个中心之间平滑分流业务。2011年11月,在国内首次实现生产系统分钟级的同城灾备切换运行及回切。2012年12月,在国际同业中首次实现70千米距离的开放平台DB2系统同城双活试点运行。

        1.同城灾备切换运行与回切

        在建立漕河泾同城灾备中心后,为了验证同城灾备系统的有效性,经过充分的准备和演练,交通银行于2008年7月19日成功地将关键业务系统,包括核心账务、贷记卡、CPS、网上银行、电话银行等从张江数据中心切换到漕河泾中心,对外运行一天之后,又回切到张江中心。此次切换和回切均在100分钟之内完成,实现了零数据丢失,充分验证了同城灾备系统的有效性。

        为了缩短切换时间,减少切换对人工的依赖,交通银行自主开发了大规模灾备自动化切换控制技术,通过集中控制机集中式管理所有生产分区的切换脚本,协调调度相应脚本在生产分区上的执行。整个切换过程,从关闭操作系统、灾备切换到数据比对及检查等,全部实现了自动化,大规模集中控制切换技术大大提高了灾备切换任务的并行处理效率,缩短了灾备切换的时间,也避免了人工误操作的风险。

        2.大机系统同城双活

        为了降低灾备建设的投资成本,提高生产系统的可用性,交通银行在同城灾备体系建设方面进行了深入的创新实践,实现了大机系统的同城双活运行。

        在交通银行实施双活之前,IBM已经提供了大机系统的同城双活的解决方案,称为GDPSMulti-Site,但是由于光纤传输延迟会对联机交易性能造成极大的影响,
GDPSMulti-Site要求两个中心之间的(光纤)距离不能超过20千米,其灾备的效果大打折扣。国际上知名的商业银行,如汇丰和瑞士银行均采用了GDPSMulti-Site的解决方案,两个中心之间的距离均不到10千米,而交通银行的张江和漕河泾中心之间的光纤距离达70千米,Multi-Site技术不能直接应用。

        为了突破IBMGDPSMulti-Site技术的限制,交通银行在对大机SYSPLEX数据共享原理的深入研究和大量的性能测试的基础上,提出了一种新的大机系统双活运行架构FDAA(Far-DistanceActiveActive),通过自主研发的交易自动映射识别技术,于2009年8月实现了大机系统在光纤距离70千米的张江和漕河泾中心之间的同步运行,漕河泾中心可分流的交易达到核心、贷记卡系统交易总量的60%,CPU利用率下降40%。同城双活的成功实施解决了大型机应用领域的重要难题,也使得传统意义上的同城备份中心转变为生产的副中心,开创了同城灾备体系建设的新模式。

        3.开放系统同城双活

        2011年,IBM推出了开放平台跨站点的DB2集群技术,将其称为GDPC(GeographicallyDispersedpureScaleCluster),和GDPCMulti-Site相似,GDPC要求两个中心之间的(光纤)距离不能超过20千米。交通银行随即启动了开放平台远距离的同城双活技术的研制工作。

        2012年,在经过大量了性能分时测试之后,交通银行将FDAA架构迁移到开放平台,并通过自主研发的交易智能路由器BJD(BOCOMJDBCDriver),以收富通宝应用为试点,成功实现了70千米距离的开放平台数据库系统同城双活运行。2013~2014年,又进一步将开放平台同城双活架构推广到二代支付、个人网银、手机银行等关键业务系统。

        4.分钟级灾备切换运行

        在大机系统双活运行和大规模灾备切换技术的基础上,交通银行于2011年利用海外行业务系统实现了分钟级灾备切换。参与切换的海外分行生产业务系统包括:海外行核心业务系统(GEMS)、卡交换系统(GCPS)、网上银行系统和企业客户信息系统(ECIF)等。其中GEMS系统和ECIF系统的数据库运行在大型机上,其余的业务系统的应用服务器端均运行在开放平台上。

  双活架构下的灾备切换达到了预期目标,计划内切换和回切分别用时13分钟和12分钟,切换过程对业务完全透明,没有交易失败或中断的现象;计划外的灾备切换用时5分钟,切换过程主机核心系统交易中断4分钟,开放平台系统的业务影响则不到2分钟。无论计划内还是计划外切换,RPO均为零,切换过程实现了高度的自动化,有效控制了切换的时间。分钟级灾备切换的成功,充分验证了同城双活的有效性。
  
三、自主创新,保障高可用

        交通银行的同城双活一体化建设,不仅仅是技术的创新,更是理念的革新,把传统意义上的灾备中心转化成了可以用于分流生产业务的副中心,在保障高可用、提高业务连续性方面取得了丰硕的成果。

        交通银行在灾备体系建设的过程中,屡屡创下多项国际国内的“第一”,在业界产生了重要的影响。2008年交通银行实现同城灾备切换运行,新华社内参报道认为,该事件“改变了长期困扰我国金融行业灾备体系建设有备无换的局面,标志着国内商业银行的灾备体系建设跨入国际先进行业”。

        在交通银行实现70千米距离的大机系统同城双活之后,IBM美国实验室的多位专家,包括GDPSMulti-Site的架构师、存储实验室主任等,先后到交通银行调研交流,对交通银行的双中心运行给予了高度的评价。IBM公司出具的评价认为,交通银行解决了交易性能随距离下降的难题,实现了大机系统远距离双中心运行的突破,在国际上处于领先地位。

        2010年8月,时任银监会主席的刘明康亲临交通银行数据中心观摩了大机生产系统双中心切换运行,对交通银行双中心运行的成果给予了充分的肯定和认可。

        值得一提的是,以上在主机、开放同城双活和大规模自动切换控制领域的关键技术,均为交通银行自主研发,拥有完全的知识产权,目前,相关创新的技术已经申请了10项专利(其中两项为美国专利),目前已经获得3项中国国家专利授权和1项美国国家专利授权,其余申请也在受理和公开之中。

        同城双活的创新实践为商业银行降本增效,充分利用备份中心的闲置资源分流业务提供了可供参考的范例,推动了行业的进步和发展,取得了显著的社会经济效益。

        在实现大机系统双中心运行之前,交通银行几乎每年都要进行大机系统CPU容量的扩充。在实施双中心之后,可以充分利用漕河泾副中心的大机资源来分流生产业务,累计节省的CPU升级扩容费用超过4亿元。关键业务系统的双中心运行提高了生产系统的弹性扩展能力和可用性,使得交通银行能够从容应对元旦、春节、淘宝双十一等业务高峰,对于维护银行的声誉和业务的发展具有重要意义。

        分钟级灾备切换的实施有效提升了交通银行的业务连续性,使得交通银行同城备份中心的灾难恢复等级达到国际和国家标准的最高等级,对于交通银行的拓展业务、提高服务水平、提升综合竞争力具有重要意义。

(文章来源:中国金融电脑杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章