• 快捷搜索
  • 全站搜索

农行:构建精细化IT运营中心

2019-02-26 16:47:18作者:中国农业银行数据中心副总经理 赵连强编辑:金融咨询网
现代化数据中心伴随着金融科技的发展,正逐渐向精细化管理、自动化和智能化运维方式转变,数据中心从IT运维向IT运营转型,关注运维过程中的体验和效率,为全行经营转型和改革发展提供更强有力的科技支撑。

近年来,互联网金融的蓬勃发展驱动传统银行向信息化银行转型,这场“技术为王”的行业革命带给银行一系列基础性、制度性和颠覆性的冲击,银行业商业模式、经营模式和组织模式正发生着深层次变革,对银行数据中心稳定运维提出了更高要求。

图片3.jpg
中国农业银行数据中心副总经理 赵连强

  随着农业银行“两地三中心”工程建设的全面开展,数据中心部署的应用系统、服务器等设备数量日益增长,各种互联网业务和技术不断投产,传统的人肉运维模式、固化的运维理念、欠灵活的运维流程等工作模式已经无法适应数据中心快速发展的要求。现代化数据中心伴随着金融科技的发展,正逐渐向精细化管理、自动化和智能化运维方式转变,数据中心从IT运维向IT运营转型,关注运维过程中的体验和效率,为全行经营转型和改革发展提供更强有力的科技支撑。

  为适应新形势,农业银行数据中心2015年底成立专职开发部门,负责生产运行自动化规划和研发。经过两年半的摸索,农业银行数据中心逐渐从理念、组织架构和工作方式上形成了开发驱动运维的工作模式,现将转型过程中的经验进行分享。

传统运维痛点

  1.被动运维与经验运维效率低下。数据中心传统运维模式下,运维工作主要依赖系统管理员人工操作,“救火队员”的运维人员以问题、事件为驱动,工作被动且效率低,全局运维视图的缺失以及其他专业领域知识的盲区让主动运维逐渐成为口号,效果甚微。传统运维依赖运维人员经验,虽然运维人员能够按照ISO20000要求在运维文档、应急文档等方面形成完整材料,但异常事件千变万化,很难完全与应急手册契合。这种经验式运维方式造成运维人员水平参差不齐,问题排查和恢复更多依赖经验丰富的技术骨干,年轻运维人员很难在短时间内得到提升。在这种被动运维和经验运维模式下,运维人员花费大量人力和时间进行重复性机械劳动,看起来每个人都很忙,但又没有体现出重要价值,运维质量也因人员水平层次不齐而难以得到保障。

  2.部门自研、外包采购式信息系统建设造成信息孤岛。数据中心早期建设时,尚未形成统一的自动化规划。各部门根据自身需求自研或者外包开发采购,各系统相对独立,表现为纵向紧耦合,横向无关联的烟囱式建设特点,信息孤岛效应明显。这种复杂的IT架构难以适应当前迅速发展的运维模式,随着系统和应用增加,推倒重来不现实,保留原样又难以满足新需求,呈现进退两难的局面。

  长期以来,数据中心自动化工具依赖专业部门自研或者外包开发采购产品,专业处室结合自身需求开发各种独立小工具,但囿于精力,以自动化脚本或简单运维工具为主,难以形成体系。在这种情况下,数据中心自动化水平基本内部运维人员兼职或者依赖外部厂商,开发进度不能自由掌控,功能需求不能快速得以满足,存在明显的滞后性和严重的短期效应,无法做到长期规划和通盘考虑。

  在这种碎片式工具使用模式下,运维人员要不断学习并熟练使用各类系统,使得系统一体化、定制化、灵活配置、方便使用、系统互联互通等需求愈发迫切。

  3.稳定与创新难以平衡。数据中心的安全稳定压倒一切。从内部来看,运维管理模式已经成熟,在风险防控上也形成了完整的制度和流程。从外部来看,各类监管、审计日趋频繁和深入。这种趋势下,数据中心在管理理念、组织架构、工作方式上容易造成一种固化模式。一方面,要对原有IT基础架构运维提供稳定的支撑;另一方面,要面对新运维变化提供敏捷的应对方法。数据中心在稳定和创新中寻找平衡点,迫切需要打破传统运维模式,快速适应新变化并作出应对,运维转型迫在眉睫。

  上述三点可以看出,数据中心应牢牢把握生产运行主动权,从被动运维转向主动运维,从依赖经验转向依赖系统,从使用分散工具到使用统一工具,从监控、流程、操作等运维基本功能各自为政到三位一体,做到统一规划、统一管理。为实现这一转型,关键核心是掌握生产运行自动化开发主动权,以开发促进运维一体化建设,促进运维稳定性,建成组织架构、开发模式、系统架构、流程管控与自动化系统一体化体系。

从运维理念转型到开发模式转型

  1.运维理念转型。数据中心要成功运维转型,首要在理念上摒弃传统的人肉运维模式,杜绝人海战术、避免被动运维。具体来说分为三个层面。

  上层领导者要确立生产运行自动化建设指导性战略,以3~5年为目标,自上而下推动数据中心自动化建设。树立“统一规划、统一立项、统一开发、统一运维、统一管理”的原则,避免出现系统重复建设、各自为政的问题,打破专业运维部门之间的界限,力促专业处室通过开发形成合力,共同推进中心自动化建设。

  中层管理者要积极适应开发和运维带来的新变化,思想上不能对开发产生排斥,比如认为开发工作占用运维人力和时间,传统运维管理运转稳定,不需要额外投入来维护目前不需要的信息或流程。这种认识源于就事论事的固化运维理念,新的开发促进运维模式势必会加大人员投入。长远来看,一体化、自动化运维将把一线运维人员从繁琐操作中解放出来,形成自动化统一的开发式运维格局。

  下层执行者要主动跳出自身舒适区,在统一的自动化规划下积极思考自动化运维需求,将日常繁琐、高风险、人工检查和操作融入自动化系统中,从监控、流程、操作、资源管理、安全审计、统计分析等多个角度统一思考,学习编程技术,在统一框架下实现自动化需求。

  2.组织架构转型。开发促进运维转型的第二步是成立一支专职研发队伍。农行数据中心确立了联邦制开发组织架构,成立自动化运行部,负责全中心生产运行自动化规划和集中研发,对外提供开发框架和基础功能模块。主机系统支持部、开放系统支持部等技术处室成立自动化开发组,以联邦制形式对各专业需求进行个性化开发。

  联邦制开发包括合作开发和独立开发两类。自动化开发初期,以合作开发为主,即自动化运行部指派项目经理和开发人员,专业处室指派开发人员参与开发。随着各专业处室开发技能的提升,开发模式转为独立开发,在整体自动化规划的基础上,使用共同开发框架和基础模块接口,遵循技术规范,各处室独立开发实现自动化需求。

  3.开发模式转型。传统开发模式迭代周期长,最终产品能满足使用需求,但从“能用”到“好用”之间存在较大差距。在以开发促进运维转型上,需要积极探索业界先进软件开发模式与经验,引入敏捷项目开发模式,结合精益管理相关经验,形成符合部门开发现状的敏捷开发模式。

  快速迭代。针对项目开发前期需求不明确、变化频繁、开发测试周期长等问题,在风险可控的前提下,引入小版本快速迭代开发方式,以2~4周为一个迭代周期,分解项目复杂度,降低开发风险。小版本快速迭代方法可以快速将需求转化为实际系统,应对项目初期需求的调整,防止因项目长期进展慢影响团队开发士气。

  全程参与。针对需求、开发、测试脱节的情况,运维需求部门指派专人全程参与开发。从需求分析阶段开始,需求人员、开发人员和测试人员一起讨论,根据优先级制订版本开发计划,开展高效协作。开发过程中遇到的问题随时与运维需求方沟通,小版本开发完毕后快速开展测试,将功能测试与业务测试的结果快速在下一版本中优化,在需求、开发和测试三个环形成正向反馈闭环,需求边界在一次次交流中得到确认,尽早修复代码缺陷,确保代码开发质量和开发效率。

  精益看板与站会。针对项目进度把控困难的问题,引入精益看板机制,以迭代版本为基础划分功能点,通过便签粘贴在看板上。针对项目成员沟通不畅的问题,引入站会机制,团队成员围在看板周围,分述上日工作情况、遇到困难和当日工作计划。通过站会机制,项目成员快速汇报工作成果,遇到问题时相互启发,共同在会后解决;项目经理实时了解成员工作进展,及时更新看板,对后续工作开展部署。

  4.系统架构转型。系统架构转型最重要的是连接起系统之间的信息孤岛,打破传统的部门各自为政的建设方式,以统一的规划、框架、管控、接口实现系统互联互通。

  架构转型中最困难的是处理新建系统与存量系统之间的关系。各专业部门或多或少存在采购或自研系统,这些系统目前仍服务于生产一线,短时间内无法被替代。数据中心在处理存量系统时,秉承“谨慎废除存量系统,避免推倒重来”基本原则,因此新旧系统在较长时间内并存,但最终新系统会替代分散的系统。

  为实现上述目标,系统架构设计时需考虑系统互联管控问题,采用“分布-集中”管理模式。新系统提供统一存储方案,存量系统对各自信息进行分别存储,通过互联管控,新旧系统实现信息共享、操作交互和安全控制,并通过统一门户进行展示。

  解决新旧系统集成后,数据中心生产运行自动化将顺着信息化、自动化、智能化的方向进行发展。在发展过程中,一个重要的理念是如何创建软件系统来代替人工操作和人工经验,降低操作风险,提高处置效率。这种理念也将推动系统架构升级,在运维实践中不断进行修正,最终形成开发与运维相结合的闭环,推动整个数据中心朝着自动化、智能化运维方向不断前进。

  5.运维模式转型。数据中心转变运维理念后,“以开发促进运维”的观念深入人心,经过组织架构转型,专业处室开发人数保持在10%~20%,并不断扩大;经过系统架构转型,各处室在统一框架、统一接口下实现新旧系统互联互通,在自动化领域形成合力。目前,小步快跑、快速迭代的项目管理模式成为主流,在提高开发效率的同时保证了开发质量。

  经过上述五方面转型,数据中心逐渐掌握了生产运行自动化系统的开发主动权,形成了一整套适合自身的开发框架和基础运维组件。在自主开发的促进下,运维模式逐渐发生转型,从事后运维转变成系统辅助下的主动运维,最明显的特征就是运维前移。需求阶段,运维与开发团队紧密结合,确保设计出的系统符合运维需求。开发阶段,运维人员参与开发工作,在监控、操作等领域发挥专业特长,以往的人肉运维理念转变为利用自身能力开发设计自动化系统辅助运维。

总结与展望

  在新的运维模式下,开发成为运维不可或缺的一部分,开发与运维相辅相成,共同促进数据中心从运维中心向运营中心转型。数据中心从粗放型管理向追求稳定、效率、体验、自动、智能的精细化管理转型。在转型过程中,提出生产运行自动化三年规划,在资源配置、流程、监控、操作、统计分析与决策支持、信息安全六大领域开展自动化建设。通过自主研发,农业银行数据中心生产运行自动化运维模式正在发生着变化。

  新一代运维系统将孤立的信息系统紧密联系起来,资源配置管理覆盖生产运行整个生命周期,通过关联分析引擎自动分析配置项关联关系,构建系统架构全局运维视图,通过可视化引擎进行展示,辅助运维人员进行故障排查。流程管理与监控、操作、配置紧密结合,IT服务台从前台走向后台,运维人员不再需要额外登录页面进行流程控制,所有流程控制将与应用场景无缝对接。监控作为安全生产排头兵,与数据分析模块紧耦合,通过算法切实提高监控覆盖率、首次发现率和监控有效性。操作管理提供场景化的任务列表,异常故障发生时,通过监控分析结果、全局运维视图辅助定位异常,通过场景化的操作列表做到异常故障即刻处置。统计分析与决策支持作为生产运行自动化平台的大脑,对平台各类数据进行分析与挖掘,将运维人员的人工经验转换为机器知识,进而辅助运维人员进行决策。信息安全管理对整个运维过程进行安全审计。

  上述新变化,体现了自主研发在运维转型之路上发挥的积极作用,数据中心自上而下统一运维理念,主动思考、主动担当、主动作为,形成了开发与运维相结合的新模式,为打造精细化数据中心不断前行。

(文章来源:金融电子化杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章