金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

大数据助力领跑IT运维管理

2016-06-30 16:06:27作者:深圳农村商业银行信息技术部软件开发中心 陈荣标编辑:金融咨询网
运用基于大数据的挖掘技术,实现系统的精细化告警,通过业务返回码即可有效发现高风险事件,及时触发告警,这是一般基于统计数值的工具无法实现的。可以有效提高故障诊断效率,实现快速故障定位。

深圳农村商业银行作为国内中小商业银行的代表之一,秉承“科技兴行”的发展战略,着力推动信息化建设,以技术升级推进服务升级和管理升级。随着新一代业务系统的顺利上线运行,业务服务能力和管理水平得到了有效提升,进一步巩固了“技术先进型银行”的市场形象。

  随着业务的快速发展,银行各项新系统的相继接入,生产运维的挑战随之增加。为实现无盲点监控的目的,我行引进了一系列监控产品,希望从整体上对所有系统进行监控,实时展现各个系统的运行情况,并能串联各个业务系统,展现交易执行路径中每一个系统或模块的运行情况。

关键技术方案的选择与问题解决

  为更好地满足业务连续性要求,我行提出建立集应用、网络监控于一身的监控平台的需求,希望此平台能实时展现各个系统的交易指标,宏观展现各个业务系统的健康状况;提供对微观交易执行情况的分析,并能将预设的告警信息推送给运维人员。我行同时启动了名为“应用网络数据监控”的项目,项目监控范围覆盖了包括渠道整合、电子平台、企业服务总线、核心前置和ATM前置等在内的多个业务系统。

  上述应用基本涵盖了银行的主要业务。因此,选型时考虑的第一要素是保证现有业务系统的稳定性,应用网络数据监控系统应该是非侵入性的;其次,为满足系统内部一些私有协议,相关产品应具有良好的可定制性;系统同时需考虑监控系统的自身稳定性。综合上述三点,我们在项目建设过程中秉承了Gartner公司提出的APM五大维度理念。

1-1.jpg
图 APM的五大功能维度

  如果从上图中的维度来对常规APM方法进行考量,我们会发现传统APM只能覆盖到5大维度中少量的几个。传统APM方法可通过安装agent的方式,收集应用系统的性能指标,并评估最终用户的体验指标。但该方式难以保证APM的agent可以部署到分布式环境的每一个组件上,如果要实现全范围监控,则需要结合其他的解决方案来实现。而当遇到用户自定义开发的各种组件时,譬如在核心系统大部分都是自主研发的银行业中,传统APM几乎无法落地。另一方面,传统的APM只为应用部门所用,运维孤岛依然存在。

  在此次项目中,我们采用了基于网络的APM实践新思路。和常规APM不同,它不需要agent,而是通过旁路捕获、分析业务系统每个组件之间的网络通讯报文,实现业务系统性能的监控和评估。

  1.最终用户体验监控。采用非入侵的方式(无性能损耗)在异构环境中跟踪最终用户真实体验,在不直接访问应用程序的情况下,准确了解应用程序运行状态并从最终用户的角度来看关键交易路径性能。通过利用旁路捕获网络数据包的交互,实现响应时间计算。通过对数据报文的解析,挖掘出业务操作的成功率、响应率等用户体验信息。这种实时的监控指标直接和业务关联起来。

  2.应用架构发现与建模展示。快速识别复杂IT应用组件和自动映射交易路径显示交易拓扑结构,加速故障定位与修复。在执行用户自定义事务处理的时候,应用组件发现与建模能发现哪些软件和硬件组件被使用,以及在支持用户自定义事务执行路径时组件的彼此调用关系。不使用Agent,监控的实现和应用组件所使用的平台无关,监控数据全部来源于网络。这使得通过同一个解决方案实现业务系统全范围监控成为可能,并规避了基于log的方法所要面对的先天难题。

  3.用户自定义事务处理分析。来自交换机SPAN端口或TAP的输出端口的原始数据包被基于网络的APM捕获后,会首先根据TCP标准协议进行解析,可获得源/目标IP、端口、传输延迟、响应时间等信息。结合客户私有业务系统的接口规范,还可从数据包的应用层载荷中有选择性地灵活提取信息。

  4.应用组件深度监控。用于诊断和修复应用程序的性能问题,帮助确定性能问题的根本原因,然后加速修复过程,尽量减少对业务的影响。深入组建内部,监控应用组件内的性能,如SQL执行性能、业务请求响应性能等。

  5.关联分析。在这个维度,核心要求是将前4个维度的数据、指标进行综合关联分析。

实践结果与总结

  五维度应用性能管理模型对应用性能管理的要点和方向给出了完备的定义和指导,基于这些定义,结合我行应用系统运维需求,应用性能管理方案达到如下目标:一是实时观测用户对应用的真实感受,重点关注业务响应时间、业务成功率;二是实时对业务处理逻辑的各环节实时监测,及时发现各处理环节出现的性能问题,重点关注各业务环节的处理效率、处理量、处理成功失败率;三是自动发现应用拓扑发现应用组件,以及应用组件之间的依赖关系,将应用拓扑、应用组件的事件、性能数据统一集成为一个整体管理;四是面向实际的运行环境,按照一定的频率采集的用户实际体验、业务交易与应用组件的性能数据,预测应用问题发生,实现主动式管理,并能够为管理人员提供短期和长期应用运行报告,进行趋势分析和容量规划;五是在统一的视图中展现业务、应用组件的性能,可以直观、快速地从监控检测出应用性能问题;六是在生产环境中7×24小时安全运行,及时发现可能引起应用性能问题的各类事件,并应用组件的映射关系,用于快速判断问题的影响程度和问题的根源分析定位。

  在实施过程中,与华青融天构建了一套全局应用性能管理系统,通过统一视角实时监控业务系统健康状况。不仅实现了预期的全局应用监控,且可以细颗粒地深入每一个应用组件;对现有应用进行了部分改造,最终实现通过全局流水号实现单笔交易全局交易追踪。

  运用基于大数据的挖掘技术,实现系统的精细化告警,通过业务返回码即可有效发现高风险事件,及时触发告警,这是一般基于统计数值的工具无法实现的。有效提高故障诊断效率,实现快速故障定位。未来,我行将进一步扩大业务和应用的监控范围,提升监控系统的智能化程度,实现在运维管理的道路上业务转型和提升。

(文章来源:《金融电子化》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章

科技金融大数据
大数据助力领跑IT运维管理

运用基于大数据的挖掘技术,实现系统的精细化告警,通过业务返回码即可有效发现高风险事件,及时触发告警,这是一般基于统计数值