金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

构建基于SAAS理念设计的机房巡检系统

2016-03-25 16:16:06作者:兴业银行信息科技部数据中心 才智 宋宏编辑:金融咨询网
本文针对银行机构机房巡检管理工作现状和管理工作面临的挑战,并根据日常运维实践,就如何构建基于SAAS理念,设计覆盖全行的机房移动电子化巡检系统和完善配套体系,形成有效的机房管理、预警、服务支持解决方案提供了借鉴和探讨。

作为银行IT基础设施,机房基础设施安全稳定运行是各级信息科技部门IT运维工作的重中之重。随着基础设施自动化预警系统建设的持续深入,构建一套功能完备、灵活易用的电子化机房巡检系统,作为可靠的机房预警管理体系的一个重要组成部分。笔者针对银行机构机房巡检管理工作现状和管理工作面临的挑战,并根据日常运维实践,就如何构建基于SAAS理念,设计覆盖全行的机房移动电子化巡检系统和完善配套体系,形成有效的机房管理、预警、服务支持解决方案提供了借鉴和探讨。
  
一、需求提出
  
  1、银行机房巡检管理工作现状分析
  
  近年来,随着业务规模持续扩张和信息化程度的不断推进,各家银行相继在全国各地建立了多个总行级数据中心和众多分支机构机房,大量机房已成为银行业务连续性的重要载体,承担着业务稳定运行、科技创新的重任。为保障机房安全稳定的运行,各级机房管理单位均已采取人工巡检与智能监控相结合的方式,对机房内IT设备进行不间断监控,以及时发现问题、排除故障,为业务的稳定运行和发展提供支持保障。
  
  2、银行机房巡检管理工作面临的挑战
  
  (1) 随着技术的普及和发展,IT硬件设备数量与日剧增,作为各种服务器、存储、网络和安全硬件设备稳定可靠运行的载体,机房已经成为各单位业务持续开展的基础。尤其对于银行、证券等需要实时交换数据的单位,机房稳定运行更是极为重要,一旦发生重大故障,造成的经济损失将不可估量。如今,各银行虽已采取全天候专人值班和定期现场巡检等方式弥补自动监控手段无法侦测的风险盲区,但均面临着巡检如何按时、保质保量、有效留痕、人为判断故障失误、巡检数据无法复用以及巡检记录产生的大量纸质文档导致的管理成本增加和纸资源浪费等困扰。
  
  (2) 由于总行各区域、分支机构机房广泛分布于各地,管理方式和技术力量不尽相同,各地机房之间营运管理信息资源未实现完全共享,大大制约了总行对各机房运维情况的了解,尤其是机房巡检管理信息无法有效掌控,极大地削弱了总行对各区域、各分支机构机房的垂直服务支撑能力和监管力度。
  
  3、机房巡检管理系统需求分析
  
  基于上述挑战,银行迫切需要建设一套机房巡检管理系统,用于强化对各级机房巡检有效监管,提高巡检效率及精确性,进而提高全行机房运行可靠性和稳定性,以实现机房的工具化科学管理。因此就系统构建提出如下需求。
  
  (1)支持移动巡检
  
  系统应支持移动终端设备的巡检方式,将巡检工作流程延伸至前端手持式终端,工作人员按照移动终端上部署的巡检策略提示对巡检项逐一检查,有效约束工作人员按规则巡检和记录巡检数据,确保工作人员确实巡检到位;系统应提供人性化的巡检提示信息,实现批量操作和记录,有效提高工作人员巡检效率;系统还应支持通过手持终端进行故障拍照记录以及语音通话预警和录音功能,用于支持二线人员进行故障处理分析和巡检工作事后监督。
  
  (2) 运用物联网技术引入机房巡检电子标志
  
  系统应充分运用主流物联网技术,使用NFC电子标签作为巡检对象集合以及巡检路径跟踪点,提示巡检路径和下一巡检点,有效记录和跟踪巡检过程,快速调阅巡检项目、指南、参照标准和关联设备资源等信息,确保巡检到位,提高巡检效率和准确性。
  
  (3) 系统应具有完备巡检对象库和基础资源库,巡检对象库源于配置管理数据库(configuration Management Database,CMDB)并保持同步更新
  
  系统巡检应支持从数据中心CMDB同步巡检对象数据库,确保巡检库保持自动更新,与IT资源配置库保持一致;系统应内置与巡检关联的资源配置模型,基于资源模型,系统可快速构建出机房、楼层、机柜组、机柜、设备、设备配置、巡检配置项、巡检参照项、巡检方案、巡检路径、巡检跟踪点,建立资源的关联关系,有效定义机房的组织和活动,形成支撑巡检活动的基础资源库。
  
  (4) 系统作为IT预警体系的重要组成,应支持与现有运维服务体系支撑系统关联协作
  
  首先,系统应通过与全行“统一身份认证系统”关联,实现认证登录系统使用统一的用户名和密码;其次,系统应支持与运维服务管理系统交互,巡检发现故障交由运维服务管理系统“事件管理”流程处理考核;再次,系统应支持自数据中心统一调度平台“运维调度管理系统”获取值班表及人员联系方式,并支持系统通过数据中心运维“短信平台”向值班人员和机房管理者等角色发送机房巡检相关预警信息。
  
二、功能设计
  
  1、巡检监控管理
  
  集中展现来自各项功能和子系统的关键数据的同时,将巡检人员、巡检设备和巡检工作有机结合,充分利用有效巡检资源,避免错检、漏检。
  
  (1) 监控仪表盘:基于图形、仪表盘等表现方式,提供面向用户的个性化巡检监控视图,直观明了展示各地机房巡检活动关键指标,使监控人员陕速掌握巡检故障和异常巡检事件。
  
  (2)管理/巡检工作台:面向值班经理、机房管理人员的工作调度分发平台,可直观了解各级机房巡检工作,跟踪巡检任务进展;也是机房巡检人员接受巡检任务、开展巡检工作和记录巡检结果的工作台。
  
  2、巡检事件管理
  
  有效记录巡检过程中发现的故障,并跟踪处理过程和处理结果,实现不同班次巡检、值班人员的无缝跟踪处理,并通过事件积累形成巡检知识库,为今后处理类似故障提供重要参考。
  
  (1) 巡检故障记录:确保所有巡检发现的事件有效记录,并为设备运行绩效报告及巡检知识库提供重要数据依据。
  
  (2) 巡检故障处理:支持机房管理人员手工处理和通过既定格式形成事件处理单推送至数据中心运维服务管理系统处理。
  
  (3) 巡检故障跟踪:基于跟踪表、最新故障栏、主动通知服务等,用户可快速定位并了解巡检已发现事件的最新处理进展或处理结果。
  
  (4) 巡检知识库:按设备类型或设备编码快速检索相同或类似故障记录,寻求故障处理方法,作为解决面临故障的重要参考。
  
  3、巡检值班管理
  
  为巡检人员的值班工作进行统一有效的排班调度并形成值班表,派发值班任务书,形成交接班报告和值班日志,为值班绩效提供查询依据,并为下一班工作人员提供未解决故障等交接事项说明,有利于巡检的备忘以及巡检事件的持续跟踪和解决。
  
  (1) 排班管理:面向值班经理或机房管理人员,按照实际工作安排对系统进行排班配置,生成值班表,并主动通知相关人员相应值班安排情况。
  
  (2) 值班工作任务书:是机房值班、巡检人员每日接受值班、巡检工作任务的详细描述,接受值班工作任务书标志本日(次)巡检任务正式开始:
  
  (3) 值班日志:提供在线按模板填写并自动生成值班日志功能。通过值班日志,相关人员可了解值班过程中的一切工作内容,查询历史值班日志可了解到过往的值班情况。
  
  (4) 交接班管理:管理和记录当前上下班次值班员工作交接的过程,实现交接班的过程规范化、电子化、留痕化。
  
  4.巡检过程管理
  
  监督巡检是否按计划开展,通过技术手段确保人工巡检到位,确保巡检质量。验证巡检是否按照巡检标准进行,记录巡检的时间、时长、人员等巡检活动数据,支持手持巡检终端记录巡检数据。形成巡检报告,为巡检工作事后审计及设备故障分析提供相关依据。
  
  (1) 移动巡检终端:基于巡检设备定点分布信息,通过预先设定的巡检跟踪点,有效保障巡检工作人员确实到位并按既定规则巡检。系统可自动记录巡检活动跟踪数据并在巡检过程提供人性化的提示信息,巡检人员可以调阅巡检关联的基础和资源数据,实现批量操作和记录,快速记录巡检发现的故障和故障设备,并可拍照留档。
  
  (2) 数据记录和同步:为适应机房限制无线网络的管理要求,系统支持离线移动巡检,并通过配套数据同步子系统,实现巡检前数据下载和巡检后记录上传,使手持终端与巡检数据库服务器的数据同步一致。
  
  5.巡检报告
  
  巡检绩效报告提供按任意时间段的统计分析报告,包括巡检管理考核报表等,支持实时查询和定期发布,支持报表的打印和导出,支持灵活条件的选择,是以往机房巡检工作情况的集中展现。
  
  (1) 设备运行报告:以被管理资源为视角,对每日巡检故障记录分析、对比或趋势统计分析机房各项设备的运行故障描述、处理结果等设备运行绩效数据。
  
  (2) 巡检工作报告:对巡检工作的准确率、按时率等巡检能力数据进行报告,分析各机房及工作人员的效率变化、工作量,探求巡检可优化工作。
  
   6.巡检及系统配置
  
   巡检配置主要是对设备、运维数据、机房的关联、定义机房巡检的基础数据进行配置;系统配置主要实现设置系统访问权限、更改用户密码、系统参数配置、数据字典定义、数据备份归档、操作日志和运行日志等功能。
  
三、系统设计架构
  
  1.逻辑架构设计
  
  机房巡检管理系统逻辑架构由机房巡检管理、巡检监控管理、巡检报告、巡检配置和系统配置管理组成,形成总行、分行和支行一体化的监督控制、数据汇总、查阅分析的管理体系,系统逻辑架构如图1所示。

构建基于SAAS理念设计的机房巡检管理系统-图1.jpg

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章