- 快捷搜索
- 全站搜索
三、证券业IT系统问题解决方法研究
现阶段,行业内应对证券系统问题都是被动、局部着眼的解决方式,即问题的出现后再处理,没有从系统整体及整个IT管理体系去思考。因此,以至于很多问题总是日复一日地出现,不论数量还是问题类型,本质上都类似,没有从根本上解决问题。想要有效解决IT系统故障问题,首先要把此项工作作为专项工作展开,列入运维整体工作计划;其次,管理层要对系统问题高度重视,制订整体规划,主动防控,应用监控新技术并引入新运维理念,快速定位、及时处理。
1.变被动为主动
(1)主动发现并解决问题
针对最常见问题类型,成立专项小组,包括一般警示信息、软件故障、硬件故障处理小组,小组成员由各系统运维技术人员组成,成员相对松散,在不影响原有工作的情况下,各小组要定期梳理所有系统问题,制订处理计划并实施落实。
此项措施已在某证券公司应用,实施过程中,一般报警信息问题处理小组分析发现两方面问题主要影响了报警信息数量。一是各系统没有统一的运维监控标准,尤其是在报警信息显示门限设计标准上没有统一规范,导致一般报警信息增加,也就是说一般报警信息中有一些报警是次要且不影响系统运行的;二是关联报警,即重复报警问题,一个网元的故障也可能引起其它网元出现问题,但由于监控报警关联方式处理不好,往往一个故障可能引起一系列的报警响应,真正原因可能参杂在众多的一般报警信息中,影响了问题的定位。在IT系统运维监控技术领域有不少关联处理软件,但效果都不理想,主要原因是网元关联点梳理不彻底或关联模型有问题,没有明确的关联界线或标准。降低上述两个方面的影响就要梳理好IT系统,分阶段一个一个系统梳理,进一步制订整个系统网元关联点运维监控规范。
软件故障问题处理小组和其他小组一样,通过对相关问题的细化分析发现,行业内大部分软件问题都是客户办理业务时出现的。系统结构或应用技术本身等较大软件问题几乎没有,都是系统在设计开发阶段对业务考虑不周以及后期运维过程中系统补丁不及时所致。因此.系统要加强在上线前的业务客户化考虑和测试,对建好的系统分门别类地与原开发人员研究整改和优化方案,分问题类别整体化处理。
硬件问题处理小组定期检查硬件问题,尤其是重要的服务器、存储器等,发现了不少超期、超负荷以及过保修期没有续保且正在工作的硬件设备。要制订一系列的硬件排查整改计划,并逐步落实。
(2)全局性、整体性考虑问题
常规运维没有从整体上思考IT系统故障问题,就是出现一个问题就考虑这个问题的局部技术缺点然后解决,大都是技术人员的个人行为,极少站在整个系统甚至是整个IT体系角度去思考系统问题。然而系统网元出现问题的可能原因很多,且具有不确定性,着眼局部的处理问题方式不能从整体上减少系统问题的出现。因此,要从整体上去思考,有针对性地优化整改相关业务系统,全面提升整个体系的工作效率。而成立问题处理小组目的之一就是可以从整体上对某一大类IT故障问题进行思考,找出解决办法。不仅是着眼具体问题的解决技能,也要提出应对相关类别系统问题的解决方案,并从中总结经验,逐步形成整体方案。
2.引入新理念应用新技术快速定位系统问题
除了从管理上促进解决系统问题,也要引入运维理念应用新技术手段,全面监控、快速定位,提高处理系统问题的能力。IT故障不纯粹是一个技术问题,涉及到业务、IT管理及IT治理等,把新技术糅合入新的IT运维理念之中才能更有效地解决IT问题。在常规的IT系统监控的基础上还需要做到如下3点。
(1)端到端监控分析,解决业务异常问题
监控不仅要关注网元的物理特性,也要关注其业务特性。只有掌握了网元业务信息,才能懂得IT问题的轻重缓急,才能做到有的放矢,确保业务的连续性。
实施基于业务探针的全路径端到端监控分析,主要通过部署应用性能管理系统对交易业务所涉及的所有服务器进行监控,包括通讯平台服务器、应用服务器、报盘服务器、三方存管服务器等。通过对交易全路径的监控,可以从网络层面观察到交易系统各环节的运行状态,对于服务器响应变慢、连接数异常、网络超时等故障可以马上定位。在应用中出现故障征兆时告警,避免故障扩大。
(2)建立二维矩阵故障定位监控模型
IT监控体系主要是对网络设备中相关网元的监控,主要关注的是设备系统的工作状态。而二维矩阵故障定位模型则是在对网元节点(物理设备)监控的同时,对业务实现节点追踪、监控和分析,突破单纯基于应用或单纯基于网络等传统监控方法的局限。不仅能及时监控处理网元故障问题,也能真正做到对业务异常的快速定位和处理,确保业务连续性,实现从网络管理到IT服务的跨越。如紧密跟踪单笔交易的全路径数据交换过程;按照交易类型和返回代码进行直用层面的追踪分析,可以列出每种交易在不同网元之间的延迟.一目了然得知某笔交易的时延出现在哪段等。
(3)建立集中监控体系,发现并快速定位故障
集中IT管理系统的监控内容包括网络、服务器、数据库、中间件和应用。通过集中监控系统及时发现系统故障,减少故障处理时间。正确和及时地了解系统运行状态,发现影响整体系统运行的瓶颈,帮助系统人员进行必要的系统优化和配置变更,为系统的升级和扩容提供依据。并且,展现了券商最核心、最重要的交易系统及其相关组件,并提供与业务相关的一些探测和处置方法,更贴近券商需求,解决实际问题。
(文章来源:金融电子化)
推进行业多应用是金融IC卡发展的重点也是一大难题,宁波地区开展的金融IC卡
IT蓝图是对中行应用系统的全面替换和升级,包括应用架构、基础设施、信息安