• 快捷搜索
  • 全站搜索

外汇交易中心集中统一监控平台建设

2020-01-08 15:06:46作者:中国外汇交易中心工程运行部总经理 姜才康编辑:金融咨询网
集中统一监控平台自建成以来,系统运行稳定,平均每天发现并通知300起告警信息,监控的覆盖率和准确率都达到了99%以上。促进了业务连续性的保障工作;且集中统一监控平台的可配置性、可扩展性、可调整性有效支撑了业务发展的步伐。

中国外汇交易中心暨全国银行间同业拆借中心(以下简称交易中心)实现“全球人民币及相关产品交易主平台和定价中心”的战略目标,持续进行交易系统的全新改造,计划向全球金融机构提供7×24的交易及信息服务。去年交易中心通过采用“微部件—微服务—微数据”分布式架构,完成了新一代外汇系统的全新改造。今年正紧锣密鼓地进行新一代本币系统的建设。分布式架构的引入必然导致相应配套基础设施的数量呈几何级数的增加,如何保障系统稳定运行,迅速处理各类突发状况是交易中心运维团队所要面临的巨大挑战。

  近几年我们结合自身特点,对监控平台实施了标准化、集成化、自动化及智能化的建设改造之路,完成了对交易中心包括基础设施、应用系统和业务服务的全面监控,覆盖监控告警的全生命周期,并实现了部分监控策略的自愈甚至预警等智能化功能,同时也提供了如变更维护期设置、监控策略一键化批量安装、监控流程图形化配置等个性化运维需求。

监控标准化

  建设一个高度集成化自动化的监控平台的重要前提是需要有一个标准化的监控体系,为此,我们对监控策略配置管理、监控代理部署方式等进行了标准化及规范化。

  1.监控策略配置标准化

  监控策略的提交、配置、维护等工作一直是监控工作中最核心的一环。与其他金融机构类似,交易中心的监控种类多种多样,监控策略一直存在数量大、配置杂、管理困难等特点。监控策略配置颗粒度大小也一直是较难界定并掌握的难点,颗粒度设置过细,会产生大量告警使人麻木,过粗又可能会漏报重要告警,造成生产事故。不仅如此,原先监控策略的配置内容主要以文本方式描述,需求提出方和监控团队通常需要花费额外时间进行策略的配置确认,沟通成本较高。为简化监控策略部署方式,交易中心遵循PDCA模型,从硬件监控、系统监控、应用监控、网络监控、日志监控、安全监控、API监控、性能监控、业务监控等多个维度对监控策略进行分类以及模板化配置;通过在模拟及生产环境进行多轮部署验证及持续改进,最终实现了监控策略配置的标准化建设工作,极大降低了监控策略维护的复杂程度及沟通成本,提高了监控策略配置的准确性。

  2.监控代理配置步骤标准化

  监控代理配置步骤标准化的梳理工作,也是建设集中统一监控平台的一项重要前提,原先各监控系统监控代理的安装主要以人力部署为主,不仅存在操作风险,且大批量监控代理安装相当耗时。我们针对不同类型的监控系统代理安装,统一安装步骤,撰写配置模板及配置脚本,通过运行简单脚本的方式就能完成各类监控代理的安装配置,在降低学习成本、减少操作风险、提升工作效率的同时,也为后续监控系统代理的批量自动化部署打下了基础。

监控集成化

  在完成监控标准化后,我们开始着手进行监控工具及功能梳理、事件集中管理平台建设、监控系统定制开发集成等工作,旨在集中整合监控资源,打造一个统一的集中监控平台,平台的上线不仅极大降低监控系统的运行维护成本,也使运维团队能有更多精力和资源投入到监控系统的自动化及智能化建设中去,从而更进一步提高运维监控水平。

  1.梳理监控工具,明确监控建设原则

  交易中心的监控工作原先主要是通过使用第三方商业监控工具、免费闭源的监控软件以及人工监控等方式来实现的。由于交易中心需监控的资源多样,依赖单一监控工具无法覆盖对操作系统、数据库、中间件、日志、服务器、存储、网络、动能环境、数据流等指标的全面监控,因此,监控平台建设过程也是各种第三方监控工具及产品的引入过程,并且对于现有工具无法满足的个性化监控需求,只能通过人工监控加以弥补。随着监控规模的日渐扩大,各种监控工具的增多,弊端也越发凸显:各监控工具存在功能重复、监控资源利用率不高、监控数据分散及挖掘深度不够、报警事件缺乏整合、个性化监控需求无法满足、费用成本越来越高等。为进一步提高监控的有效性与精准性,朝着广度、深度、精度方向迈进,我们开展了监控工具的梳理与整合。

  首先,针对各类监控工具使用情况进行梳理,对监控工具可实现的各类监控功能进行分类整理,从易用性、扩展性、监控功能不可替代性、监控范围覆盖率等方面对监控工具进行全面打分,逐步下线得分较低的监控工具或产品,对于计划下线的监控工具所独有的监控功能,使用自主开发的方式进行替代。

  其次,对于商业监控工具,如果存在比较成熟、有同行成功实施经验且功能上基本可替代的开源监控软件,逐步对该商业监控工具进行下线处理,同步上线开源监控软件。选择开源监控软件不仅仅因为在软件花费成本上具有天然优势,更因为开放软件灵活可定制的特性便于实现个性化监控需求,也便于未来实现监控系统内外部间的整合。在新一代外汇系统中,我们已经用Zabbix替代Tivoli,用ELK替代Splunk;对于暂时还无法替换但是又不存在开放接口的商业或免费闭源的监控工具,逐步使用能提供同类功能接口更加开放的第三方监控系统进行替代。

  最后,对于无法通过现有工具实现的个性化监控需求,我们通过自主研发进行实现,逐步减少人工监控的场景。

  2.开发事件管理平台,集中管理报警事件

  通过监控工具的梳理,了解到各监控工具的报警信息独立、缺乏关联(如服务器主板异常如何影响操作系统、数据库乃至应用系统)、值班人员需要同时关注多个监控工具、存在疏漏事件点检风险等问题,我们建设了用于对事件进行集中管理和关联分析的事件管理平台,通过将各类工具及系统的报警事件汇聚到事件平台,并和配置管理库CMDB中被影响的应用系统和对应业务进行关联,使事件报警信息内容更加丰富,比如某服务器电源异常告警信息,除了包括告警时间、告警级别、服务器信息等基本告警信息外,还会列示出受影响的应用系统及相关业务。

  为解决系统在短期内同一事件多次发生告警,导致技术人员即使已经在处理该类事件时,仍然会收到大量重复报警问题,我们在事件平台中开发了事件降噪功能,通过对相关事件进行关联及归类,有效平衡了告警频率和告警有效性的问题。如某日志文件发生大量关键字告警,经事件降噪后,在第一条日志告警触发第一次告警后,之后将每隔10分钟会另行通知本段时间内该类事件又触发了多少次,直到事件报警冷却时间结束后,重新进行告警。

  3.整合监控资源,打造统一监控平台

  为进一步降低运维成本,提升监控水平,在完成监控工具梳理和事件平台的建设后,着手开展监控资源整合也即集中监控平台的建设工作,目标就是打造一个可以对监控相关工作提供统一入口进行综合管理的平台。

  集中统一监控平台架构自顶向下可分为展现层、汇聚层、监控应用层以及数据采集层:数据采集层通过自主研发及使用第三方监控代理的方式对机房动环、服务器、网络设备、存储、操作系统、应用中间件、消息中间件、数据库以及应用系统等各类运行数据进行全面采集,供上层监控应用层进行监控及分析;监控应用层向下负责基于数据采集层的数据对应用系统从基础设施到业务功能进行全方位监控,向上负责将各类报警事件汇聚至汇聚层进行集中管理;汇聚层通过对下层监控应用层的监控事件进行集中管理,对外实现事件报警、事件报警信息查询、事件降噪等功能。展现层通过基于汇聚层的事件信息,对终端用户提供可对报警事件、系统异常时上下文信息、监控策略等各类监控信息进行综合管理的统一入口,避免原先运维人员需要到多个监控系统查询报警信息并登录到各个服务器通过查询日志获取系统异常信息等繁琐操作。

  集中统一监控平台各层之间模块功能独立,耦合度低,具有良好的伸缩形和扩展性,通过自主研发实现了平台内各模块的统一封装,对外均提供相关API接口,便于周边运维系统调用监控数据。集中统一监控平台也通过调用周边运维系统API接口,实现自动开单、报警自愈、监控预警等自动化智能化监控功能。并且通过与大数据分析平台结合,关联基础设施与业务数据,深度挖掘数据价值,实现以业务视角分析问题,为业务部门的运营决策提供支持,最终实现由“基础设施运维”向“业务运维”的转型。

监控自动化

  1.变更维护期设置

  通常情况下,监控系统无法识别出系统停止运行是因为发生异常还是系统处于变更维护期内。在系统变更时,系统管理员通常会收到大量无效报警,除了产生不必要的信息咨询费用外,还可能会让系统管理员忽略真正的报警。针对此问题,我们开发了变更维护期模块,可以让用户通过指定系统的变更或维护时间段,达到在该时间段内监控系统不再报警的目的。该功能可屏蔽系统在变更时期正常停止时的告警,同时,维护期功能可按照“IP(或主机名)+事件类型”精度进行设置,降噪告警的同时也规避了只针对IP级别维护期可能丢弃有效告警的隐患。维护期模块使得监控平台拥有了无效事件丢弃能力,目前每月维护期策略提出约有1000余条,屏蔽无效告警信息约3万条。

  2.监控代理安装及监控配置自动化

  如前所述,随着交易中心业务规模的迅速发展,应用系统数量及服务器规模增长迅速,新系统上线的监控代理部署及升级的工作量日益增大,需要投入大量人力。为此,我们根据监控代理部署流程规范,借助作业平台的远程作业执行接口,在集中统一监控平台中实行了监控代理一键安装等自动化功能,仅需2~3分钟即可完成。且支持并行部署及非业务交易时间的定时无人值守安装。在新一代外汇系统建设过程中,根据外汇日志特点进行了监控策略批量配置功能的自动化定制开发,仅用了3天时间完成原本约需50人天手工配置的近15000条的日志监控策略的配置任务。

  3.监控策略配置自服务

  在集中统一监控平台建成之前,各监控工具的监控策略配置方式大相径庭,监控团队通常需要将应用管理员提出的各类监控需求逐条转换成对应监控工具的配置文件,运行相关脚本,才可以完成监控策略的配置。不仅耗时耗力,且应用管理员也无法实时查看监控策略的配置进展情况,无法查看应用系统或者基础设施的已有监控策略。

  为此,我们自主研发了监控策略配置自服务模块。通过对不同监控工具的各类监控策略模板进行统一封装,提供给应用运维人员更易理解的统一输入界面,使了解应用系统的应用管理员可以进行监控策略的自行配置管理,有效减少应用管理人员和监控配置人员间的沟通成本,释放监控配置人力,让监控团队更专注于集中统一监控平台的建设和改进工作,形成良性循环。

监控智能化

  交易中心在大力开展监控自动化建设过程的同时,也已经在积极探索把机器学习、大数据挖掘等理论应用到监控领域中,并已经实现了部分监控功能的智能化。在监控策略配置自服务的基础上,依托底层作业平台,将针对操作系统、数据库及中间件等操作封装为标准指令执行模块,前端提供用户以画流程图的可视化方式进行监控流程的配置,该功能让运维人员轻松实现灵活配置监控策略的同时,可以实现自愈等智能化监控功能;通过对报警内容的语义分析,实现对同类报警事件的归类,结合调用流程管理平台的接口,实现了对告警事件进行自动合并和事件开单的功能;实现了“磁盘空间报警时删除首先指定目录下的归档日志文件,进行空间释放”的自愈功能。当然,目前还是需要预先清晰地定义自愈规则,以后将通过机器学习的方式实现自愈功能。此外,基于机器学习相关理论,集中统一监控平台也已经初步实现了基础设施资源使用率预测功能。即基于历史性能数据,计算连续时间段内的动态阈值,通过综合实时性能数据和动态阈值判断,预测基础设施资源的使用趋势是否在安全界限内。

总结与展望

  集中统一监控平台自建成以来,系统运行稳定,平均每天发现并通知300起告警信息,监控的覆盖率和准确率都达到了99%以上。对交易中心的各类基础设施、应用系统和业务服务进行实时监控,能够及时准确告警,协助快速定位问题,在故障的萌芽阶段予以消除,促进了业务连续性的保障工作;且集中统一监控平台的可配置性、可扩展性、可调整性有效支撑了业务发展的步伐。

  监控可以形象地比喻为数据中心的“眼睛”,不仅要使“监控”这只眼睛能看得广、看得远、看得透,还要保护好“眼睛”,所以说交易中心集中统一监控平台的建设及维护工作还任重道远。对于远程终端和虚拟终端的监控,基于业务视角和面向用户体验的监控,以及提前预警和自愈的智能监控,是下阶段的重点工作方向。我们将不断加强集中统一监控平台的建设工作,更好地助力交易中心战略目标的实现。

(文章来源:金融电子化杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章