• 快捷搜索
  • 全站搜索

借助大数据、机器学习构建一体化运维

2019-12-18 18:29:24作者:北京银行系统运营部副总经理 杨春光编辑:金融咨询网
北京银行经过多年的发展,已经基本建立了以ITIL为核心的规范化、流程化的运维体系,以保障业务可用性与运维服务管理。传统运维方式明确划分运维、开发的职责,建立了相应的监控管理、配置管理、流程管理等工具,同时逐步在多业务系统间试点运维自动化。

随着业务的快速发展,传统人工为主的运维方式已经完全无法适应当前管理的需要,北京银行在落实IT基础设施监控、自动化运维的基础上,通过构建基于大数据技术的一体化监控平台和自动化运维平台,进一步夯实运维基础,提升运维管理水平,保障业务安全稳定。

  北京银行经过多年的发展,已经基本建立了以ITIL为核心的规范化、流程化的运维体系,以保障业务可用性与运维服务管理。传统运维方式明确划分运维、开发的职责,建立了相应的监控管理、配置管理、流程管理等工具,同时逐步在多业务系统间试点运维自动化。

  随着业务的快速发展以及业务模式逐步由网点向电子渠道的转化,金融行业的IT资产、业务系统、辅助系统急速膨胀,系统的复杂性及维护这些系统带来的工作量也都同步增长,维护系统的可靠稳定运行仅仅靠增加人力其边际递减效应愈加明显。运维模式层面上,DevOps理念快速推广,业务系统快速更新迭代,运维模式的变化也给运维部门在管理、组织、流程、技术、工具等方面全新变化,传统人工为主的运维方式已经完全无法适应当前管理的需要,更迫切地需要向自动化、智能化运维转变。

  面对新形势下一系列的机遇和挑战,为推进IT运维的适应性发展,北京银行在落实IT基础设施监控、自动化运维的基础上,通过构建基于大数据技术的一体化监控平台和自动化运维平台,进一步向智能运维进行探索。本文将围绕以下几个关键点的转变与同业分享系统建设的心得。

一、一体化监控平台建设

  1.由故障解决处理中心转变为运维实时指标数据中心

  建设一体化监控平台,首先从运维思维上要进行转变,运维部门要从传统的“故障解决中心”转变为“运维实时指标数据中心”。IT基础设施的监控分布于各个监控平台,数据不集中,必然导致在全面运维分析层面上的不足。尽管各种集中管理平台层出不穷,但并没有哪个厂商能够实现全部节点的监控,并且术业有专攻,与其建设一个大而全的集中监控平台,不如发挥各自平台的优势实现各自领域的监控,将数据集中的工作交给一体化监控平台去做。

  一体化监控平台不是要替代某一个监控产品,也不是简单地把运维平台的数据集中管理起来,它是通过数据接口将监控数据集中起来,通过ETL过程将数据进行规范化,为后面的分析打下夯实的数据基础。在具体的实践中,我们将多监控平台指标数据、事件数据、状态数据、交易数据以及业务系统、中间件日志等数据进行集中的管理,我们将日志数据存储于Elasticsearch集群中,指标类数据和从日志中提取的相关指标存储于时序数据库中。

  一体化监控平台把加工处理后的数据输出到Kafka集群平台,供给下游业务系统进行消费。多业务系统之间松耦合,整个运维体系平台的建设不单独依赖或受制于任何一个厂商或开源产品的性能,在相关产品不适应运维建设发展需要时,可以随时进行单一模块的替换。一体化监控平台运行如图1所示。

图片4.jpg

  在拥有全部业务的监控指标数据后,我们对业务系统的分析和监测将更加全面和准确。此外,与大数据分析平台不同,我们可以提供更实时的相关指标数据,从而提升了数据时效性。

  2.借助机器学习相关技术实现分钟级故障根因分析

  一体化监控平台在数据的存储上使用了Elasticsearch、时序数据库等技术,在数据的分析上使用了Spark相关技术。在拥有高质量的数据基础上,我们可以借助机器学习技术,逐步解决在运维过程中遇到的问题。

  例如,我们在收集到全面的事件数据、指标数据后,通过二叉决策树算法进行推理,从而完成事件数据的合并、告警的收敛工作。随着推理模块的逐步完善最终实现事件根因分析。

  图2展示了我们在使用二叉决策树机器学习算法完成事件压制和根因分析的演进路线。

图片5.jpg

二、自动化运维平台建设

  1.自动化运维平台建设的必要性

  随着信息化技术的不断发展以及信息化建设的投入不断加大,新的技术和系统将会不断地投入使用,导致所需维护的系统和对象将会不断增加。北京银行业务的快速转型发展,对信息系统的运维管理提出了更高的要求,也进一步加大了运维人员的工作压力。同时,为了维护应用系统的持续稳定运行,确保客户日常业务行为不因系统故障受到影响,也要求减少运维人员误操作带来的风险。

  自动化运维能将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转变为自动化操作。自动化运维是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来发展的趋势。

  因此,借助自动化运维技术建设运维平台可以实现上述目标,代替运维人员承担运维工作中重复性、标准化的工作,增强运维的能力,提升运维管理的效率,降低运维工作的成本。

  2.自动化运维平台的建设效益

  (1)统一准确的IT资产管理平台

  平台通过全网扫描与自动化采集,实现配置数据的深度自动发现和采集,减少人工维护的工作量,提高配置项维护的自动化程度。

  配置自动发现能力能够提高异构、多数据源环境下资源管理的精准识别,节省大量的人工资产盘点工作,实现对信息化资源的快速维护。

  配置管理库能够辅助运维管理人员准确找到相关实体资源,当发生故障时能够快速定位故障来源及影响范围,从而迅速解决各种隐患。同时,利用图形化展现的配置项之间的关系,实现变更影响分析和风险定级。

  (2)灵活高效的自动化平台

  银行IT应用系统规模庞大,对数据中心日常调度、运行、检修工作的平稳有序开展带来较大挑战。信息中心应需开展运维自动化统筹规划,建设自动部署、自动图2二叉决策树机器学习算法完成事件压制和根因分析的演进路线发布、自动巡检、自动作业等工具,提升运维检修规范化水平,提高故障处置效率,推动整体运维能力和水平的持续提升。

  自动化工具满足应用上线、巡检作业、应急处置、运营分析、精细管理五方面运维管理场景,提供灵活的自动化编排能力,能够实现复杂场景的自动化运维。以配置标准化、部署自动化、发布自动化、巡检自动化、作业自动化五条主线,推动信息中心运维管理由软硬件应用系统维护向IT服务运营进行转变,推动运管范围内系统应急抢修向故障隔离进行转变,最终建成“管理集约、运行精益、作业智能、服务敏捷”的信息系统运维自动化体系,提升信息系统运维水平,为信息化发展提供坚实有力的运行技术支撑。

  自动化工具以“安全可靠”为基准,提供安全的运维操作管理,支持包括网络设备,各类UNIX、Linux和Windows操作系统在内的管理对象上的自动化操作,同时提供大量开箱即用的自动化操作脚本,并支持自定义的自动化操作脚本,大幅度提升运维效率,确保信息系统运维过程中信息安全可控、在控、能控。

        利用自动化操作功能,提升每个运维人员的巡检和操作管理的效率,降低运维人员的人力投入成本,发掘运维人员技术潜力。

(文章来源:中国金融电脑杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章