• 快捷搜索
  • 全站搜索

浅谈互联网时代运维保障体系建设

2018-01-16 16:12:14作者:中国农业银行数据中心 张家文编辑:金融咨询网
目前,国内银行为应对互联网冲击,普遍提出了全面建设信息化银行的目标。然而,在具体措施上,主要集中在互联网金融业务创新和技术架构转变上,对于如何提升运维保障能力的研究,各行还处于探索阶段。本文结合农业银行数据中心运维管理实践,系统阐述了应对互联网金融挑战的运维保障关键之策。

近年来,以移动互联网、云计算、大数据为代表的现代互联网技术,对人类生产生活带来巨大改变。对于商业银行来说,基于互联网的金融业务蓬勃发展,在给传统银行业务带来了新的发展机遇的同时,也带来巨大压力和挑战。其中,信息系统安全生产方面面临的冲击最大,安全风险挑战尤为突出。作为商业银行“跳动的心脏”的数据中心,如何准确识别互联网时代的生产交易特征变化,合理调整运维保障策略,保障安全生产平稳,是摆在各银行面前的重要课题。

  目前,国内银行为应对互联网冲击,普遍提出了全面建设信息化银行的目标。然而,在具体措施上,主要集中在互联网金融业务创新和技术架构转变上,对于如何提升运维保障能力的研究,各行还处于探索阶段。本文结合农业银行数据中心运维管理实践,系统阐述了应对互联网金融挑战的运维保障关键之策。

一、互联网时代的运维保障新形势

  1.现代互联网技术的影响

  以移动互联网、大数据和云计算为代表的现代互联网技术对现代生产生活带来的影响可以概括为三个方面:云计算让技术边界逐步消失,让计算“民主化”;大数据带来新的技术智慧,数据成为生产资源;移动互联改变人们的连接方式,让一切在线。互联网的文化基因,“人人参与”、“端到端透明”的设计原则,其天然具备的全球化、开放、平等、透明等特性,正逐渐改变工业时代以来建立的商业运作模式,建立起信息时代的商业模式。

  2.商业银行生产运行工作面临的新挑战

  我国商业银行普遍经历了从“网点时代”向“网银时代”的转变,如今互联网金融的发展唤醒了人们全方位的金融需求,商业银行正在步入“移动互联时代”(如图1所示)。银行业内外部环境发生深刻变化,生产交易特征明显改变,客户、市场和监管要求愈加严格,数据中心生产运行服务面临前所未有的压力和挑战。

  一是交易特征显著变化。基于互联网的电子渠道业务快速发展对银行提出7x24小时不间断的服务需求,金融服务向全球化、全天候发展,给IT生产运行带来巨大压力。在新型商业模式推升下,银行业务特征发生急剧变化小额高频业务占据主流,交易量“潮涨潮落”日益频繁。电商促销、电子红包等新业务的发展、移动支付等新渠道的兴起,造成传统的低频交易时段与区域频现爆发式交易增长,对数据中心并发处理能力带来巨大挑战。

  二是交易形态多样化。随着银行产品的多样化,信息系统的交易形态呈现联机实时交易、周期性批处理交易、即时性批处理交易等多样化,增大了生产运行作业的复杂性。一方面,产品投产、生产变更的数量连年增长,时间要求紧、技术复杂的重点项目不断增加。另一方面,为保障国家和社会重大活动、重要时段的服务水平,特保要求越来越高。银行科技部门能够比较从容地对信息系统进行维护、变更、升级的可用时间窗口很少,给生产运行调度排程管理带来很大难度。

  三是数据信息安全面临空前考验。近年来,全球重大网络安全事件持续高发,各国银行网络均遭遇过攻击致使服务中断与信息泄露,包括病毒传播、黑客攻击、信息窃密等,已成为银行数据中心的重要安全威胁。商业银行必须不断完善金融信息安全保密机制和应急处理机制,提升数据中心信息系统的检测、预警、防范、应急处理和自我恢复能力,最大限度降低数据安全风险,保护客户数据安全,保障业务持续稳定运行。

二、互联网时代的运维保障策略

  农业银行作为城乡一体化的国际金融企业,又肩负着服务“三农”的社会和历史使命,在应对互联网时代激烈的市场竞争过程中,从全行战略高度审视,将信息系统安全稳定运行作为信息科技工作最重要的基础,主动适应交易新特征和运维新形势,建立了以“两个第一”,即“安全生产第一”和“第一时间恢复业务服务”为核心的一整套运维保障机制,从技术和管理上双重发力,不断夯实安全生产基础。

  1.强化规范化管理,提升信息安全管控水平

  近年来,全行从制度、流程、规范三个层面,狠抓运维基础管理工作。先后引入ISO20000,ISO27001国际标准,成为国内首家通过“双认证”的总行级数据中心。经过7年多时间的实践和持续改进,生产运行管理水平明显提升,保障安全生产的效果十分明显。今年,全行正大力开展生产运行质量管理体系建设,推动ISO20000体系与分行运维工作有效融合与持续改进,年内完成分行运维流程的落地,实现总分行运行流程对接、标准统一、操作风险可控。

  2.狠抓产品投产变更管理

  投产变更是最易引发数据中心运维风险和安全事件的因素之一。互联网时代业务需求日益攀升,投产变更时间要求紧、任务急,风险防控难度大。为此,农业银行将变更风险防控作为投产变更管理重点来抓。

  3.持续优化系统架构,提升信息系统高可用能力

  以BoEing系统建设为契机,农业银行对核心业务系统和相关的120多个外围系统进行了整体升级改造,大力推进系统基础架构优化,从根本上提升安全生产水平。

  一是创新主机通信接入模式。在行业内首次将基于主机的三层架构简化为两层架构,在主机上直接采用TCP/IP短连接接入方式,去除了主机接入中间层,形成一种扁平化的架构。这种架构构建了一个弹性好、可扩展强的基础平台。

  二是优化应用负载接入模式。采用应用层负载均衡设备作为桥梁,这道桥梁隔离了数以万计的前台终端设备对后台的直接冲击,可以动态调配交易负载。对于主机系统单个逻辑分区(LPAR)或单个交易中间件分区(CICS)可能发生的异常,通过负载均衡设备可自动侦测和规避,从而显著提升系统的整体可用性。

  三是推进开放平台高可用改造。针对开放平台系统多、运行环境复杂的特点,广泛引入虚拟化、负载均衡、大数据等新技术,开展了重要系统“双活”或集群架构改造,建立可动态管理的“资源池”,提高设备资源利用率,因系统缺陷导致的服务异常减少87%

  4.构建高效稳定的基础运行环境

  在机房基础环境和设备运维上,大力倡导“集约、高效、节能”的理念,提升基础环境和设施设备的稳定性。

  5.实现全行一体化应急管理

  互联网时代全天候化的交易特征,要求运维管理中必须建立一套切实可行的应急体系。围绕“第一时间恢复生产”的应急总目标,全行建立了以“快速响应、快速定位、快速处置”为核心的“三快”应急体系,应急处置效率明显提升,最大程度保障了业务服务连续性。

  一是统一应急调度。以集中调度为主线,全行执行统一的应急标准和规范,横向到边,纵向到底,总行数据中心作为全行安全生产第一责任部门,统一响应全行信息系统突发事件,统一调度应急处置的人、财、物资源,确保快速响应和指挥。

  二是完善应急预案体系。建立全行统一的应急场景库,共收集应急场景329个,覆盖生产运行各环节。高度关注演练的场景和效果,重点开展突发性、实战性应急演练,以及应急情况下科技与业务部门的信息通报和联动,确保突发情况下应急预案可行。近三年演练的场景覆盖率达100%。

  三是组建重要应用系统应急团队。针对业务敏感、交易实时性高的重要信息系统,组建跨专业的应急保障团队14个,进一步提升重要业务应急保障能力。

  四是打造高效顺畅的第三方应急联动。在强化内部应急管理的同时,农业银行与外部技术厂商以及供电、通信、消防、公安等相关单位都建立了顺畅的应急联动机制,如同供电公司签汀“用电安全保障协议”,与上海城市火灾自动报警信息系统(FAS)联网等。在突发情况下,能够及时实现全方位、多角度的应急联动。

  6.加强灾备建设,提高应对重大灾难事件的能力

  灾备系统是安全生产的最后一道防线,农业银行的灾备体系分为总行、一级分行和网点三个层面。

  一是总行层面积极推进“两地三中心”建设,按照京沪两地发生极端灾难时,全行主要业务数据不丢失、主要业务系统实现分钟级“一键切换”、异地运行的要求,做好北京数据中心新园区投入使用的各项技术实施工作。

  二是针对局部地区自然灾害、极端天气频发的情况,将分行和网点灾备建设作为重点来抓。2012年,集中式一级分行灾备中心建成投产,实现应用级实时灾备。网点层面采用一对多的主备模式。灾难发生后,通过3G无线接入,完成故障网络恢复。

  目前,3G无线灾备模式已覆盖所有二级分行,网点级灾备演练已经常态化。三是在全面完成36家分行灾备系统建设的基础上,加强灾备能力建设,推进灾备演练向实战转型。

  7.推行准军事化管理,加强全行生产运行统一管理

  一是按照“流程化管理、专业化分工”的总体要求,加强全行生产系统运行的集中管理,防范运行风险,实现京沪两地运行作业环境、生产调度和技术的统一管理,全行停机维护窗口统一安排。

  二是建立了全行生产运行日例会、月例会机制。日例会、月例会,使总分行生产运行高度祸合一体,及时沟通生产运行情况,解决生产运维中的各类问题,使信息透明化。

  三是建立了农业银行生产运维指令单机制。对于一些重大问题,比如两会时期、“双十一”时期,下发指令单,实行准军事化管理,令行禁止。

  四是推行全行统一的生产运维操作规范,统一分行生产运维操作的基本要求,防范操作风险。五是建立运维案例机制。针对日常运行中的典型事例或主动性维护经验,编制运维案例,全行统一汇编入库,目前共收录案例2fi8篇。编写完成后,组织开展全行宣讲,分行普遍反映效果明显,具有很强的借鉴意义。

  8.持续提升数据中心运维自动化水平

  从运行监控、运维操作、流程管理三大维度,积极推动数据中心运维自动化工作。

  一是监控方面,通过基础架构、应用监控、网络旁路监听三种方式对总分行运行情况实时监控,建立了涵盖主机、开放平台、应用、网络、环境等各专业领域的集中监控系统,实现监控告警信息集中接入、统一展示和统一处理。

  二是运维操作方面,数据中心各类操作均纳入作业操作统一调度平台,计划今年主要应用系统操作自动化率达90%。

  三是流程管理方面,建设了IT服务管理平台和生产运维管理平台,实现对事件、问题、变更、配置、容量等日常运维管理流程自动化管理。

三、新时期运维工作展望

  安全生产是一项长期而艰巨的工作任务,必须建立常态化的工作机制,全员参与,不断完善,持续改进。面对互联网改变一切的浪潮,数据中心必须紧跟业务发展新趋势,把握行业监管新要求,主动应对成本快速增加、资源管理日益复杂、信息安全、能源危机等问题,打造“高效率、低能耗,高整合、低占空,高可用、低风险”的色数据中心。在实践中,以下几个问题是互联网时代运维管理的重点研究课题。

  一是妥善应对业务快速发展与IT资源有限的矛盾。经济新常态下,商业银行面临较大的成本收入比压力,包括IT投入在内的各个方面都要精打细算,IT资源的投入增长相对不足,业务快速发展与IT资源紧张的矛盾凸显。过去单纯依靠资源投入、规模扩张的粗放式发展方式已不可持续。通过技术转型、架构更新和资源灵活调配,实现IT资源循环利用,已成为当务之急。

  二是全面提升运维自动化水平。“工欲善其事,必先利其器”,为有效应对互联网时代日益增长的运维需求,必须大力开展运维自动化建设,推进开发与运维融合(DevOps),提升运维管理智能化水平。具体到运维上,应全面提升“监管控”自动化水平,在监控上围绕应用性能监控,整合各专业监控信息,提升运行监控发现率在操作上建立作业和操作自动调度平台,提升操作自动化覆盖率;在运维管理上围绕流程管控、运维分析和配置管控,打造自动化处理平台,减少人工干预。

  三是发挥数据挖掘作用。客户与经营数据是互联网时代难以复制的核心竞争力,也是经营风险分析和客户定制化服务的基础。对数据资源的利用和管理,已成为银行实施业务转型、提升经营效率的重要突破口。作为资金流和数据流物理载体的数据中心,在保障运行安全的基础上,应高度重视自有数据资源挖掘,搭建运行、交易和资源容量数据的智能分析模型,将零散的市场和客户数据高效转化为精准营销、客户管理、风险管控等决策支持数据,重新发现海量数据价值,助推银行业务。

(文章来源:中国金融电脑杂志) 

扫码即可手机
阅读转发此文

本文评论

相关文章