• 快捷搜索
  • 全站搜索

农村金融机构数据仓库的应用分析

2016-11-17 14:48:17作者:青海省农村信用社联合社课题组编辑:金融咨询网
面对竞争、变化、客户的三大影响,如何从现有系统数据中提取有用数据,进行挖掘分析,获取数据价值,为提高产品服务水平、产品创新提供支撑,对青海省农村信用社来说是重要课题。

青海省农村信用社自成立以来,以信息科技作为第一生产力,推动了各项业务高速发展。截至2013年末,已建成以综合业务系统为基础的共30多个系统;全辖日间业务交易总量从成立之初的2万笔,增长到每日30万笔,业务数据量增长到60G以上。但当前,各类业务系统不断增加、数据量飞速扩展,以及各系统之间的数据依赖程度不断提高。同时,面对竞争、变化、客户的三大影响,如何从现有系统数据中提取有用数据,进行挖掘分析,获取数据价值,为提高产品服务水平、产品创新提供支撑,是重要课题。

需求及设计

  1.数据仓库业务需求。青海农信核心系统处在更新换代阶段,新核心系统不提供T-1日报表,累计T-1日报表。已投产的7个上报统计类应用系统都是在老核心系统基础上实现数据抽取和指标计算的,更换核心后,数据抽取分析、指标计算等都需重新处理,需要数据仓库统一抽取、处理,整合数据,完成上报统计类应用系统与新核心系统的对接。所以,数据仓库架构设计应遵循可扩展性、可管理性、高可用性、安全性、可重用性、高性能性6个原则。

  2.建设目标。在完成以上需求的同时,青海农信数据仓库必须实现这些目标:整合全社各系统的业务数据,形成统一的数据标准;为管理分析类应用集市提供基础数据或共性加工数据;数据模型的设计既要考虑屏蔽源系统数据结构的变化影响数据仓库数据模型,保持数据仓库模型的稳定性,又要考虑新增的源系统业务数据便于扩充到数据仓库数据模型,允许数据仓库模型有较强的灵活性。

  3.数据仓库设计。基于上述需求、目标、原则,青海农信数据仓库数据模型的架构如图1所示。

图片1.jpg
图1 数据存储和备份系统技术架构图

  抽取的源系统范围为:核心、信贷、财管、ATMP、银联、银行卡、二代支付、总账、综合前置等系统。

  按照已上线的7个监管上报类应用系统数据接口提供数据,同时,数据仓库提供统一的数据接口规范,保证今后的监管上报类应用系统按照统一接口规范获取数据,确保数据仓库对外提供的数据口径一致。

  ★企业级数据仓库:采用成熟的数据仓库模型进行构建,其中数据按照数据模型分主题进行组织和存放,细粒度地保存原子数据,既屏蔽数据源的多样性,又可为BI应用提供数据支持。

  ★统一调度管理平台:主要功能有调度流程管理、动态资源分配、调度处理、可拖拉的图形化配置、动态负载均衡、动态并行控制、系统运行状态监控、作业日志监控、作业失败重做、系统管理功能。

  ★数据质量管理:通过与元数据管理平台的结合,对各种数据处理系统进行统一的数据质量监控;系统通过规则驱动数据质量的提升;为数据质量相关人员提供协助平台。

  ★元数据管理:充分考虑数据的复杂性,清楚了解系统每个应用的转换逻辑和数据含义,在数据指标等环节有变动时,能迅速反馈变动产生的影响,完成数据血缘分析。

  ★数据生命周期管理:提供一套完整的实施方法和控制流程。定期对过期数据进行转储归档。

数据仓库建设及数据挖掘应用

  1.数据仓库建设分类。结合现有青海农信社的实际案例和业界报表平台的开发,根据报表的数据加工情况、展现形式和应用场景,数据仓库建设主要分为四类。

  ★经营分析类:其特点是完全依据业务数据,几乎不做任何加工;在展现形式上要求美观、灵活,支持传统报表样式、OLAP分析,提供灵活查询,实现仪表盘、驾驶舱、关联分析、血缘分析、地图式展现等。

  ★绩效考核类:其特点是依据业务数据,需要在此基础上加工,一方面要导入考核计划、各类成本等外部数据,还需要依据设定的考核模型或考核方案,通过基础的业务数据生成考核指标数据;在展现形式上一般要求不高,只需能查看、导出考核报表,以较灵活的方式查询考核指标即可。

  ★监管上报类:其特点是以业务数据为基础,并在此基础上根据监管要求修改数据。这是由于监管机构的特定数据要求、业务系统的不完善、临时性的数据要求等因素,需基于业务数据生成一份满足监管要求的、从明细到汇总一致的数据;在展现形式上,有固定的格式要求,一般为报文、xml、exceI等,内部监管多为监管报表,一般对格式要求不高。

  ★风险管理类:其特点是以业务数据为基础,并依据风险管理模型设置或导入控制参数或模型相关的辅助数据,还可能会根据模型生成预警数据;在展现形式上,以报表、查询等形式显示监控和分析的结果,特定管理模型以特殊形式显示,但总体来讲此类应用侧重于数据,对展现形式要求较低。

  2.数据仓库平台架构。如图2所示,架构包括以下几层。

图片2.jpg
图2 青海农信数据仓库应用平台架构

  ★第一层为数据服务层。在数据服务层,应采用数据服务的架构。数据服务的基础是数据存放时能够分库存放,即未来的数据仓库和应用平台应支持多库结构,便于数据内容和数据量增加时数据的管理和维护。

  数据服务按主题或模型进行,这样才能把数据服务做到位。对于各个应用,需要获取某个主题或模型的数据,只需访问对应的服务即可,而数据服务的管理信息可以通过统一的模型元数据进行管理。

  实现数据服务需要借助ETL统一调度服务,即通过统一的调度管理,实现各个服务器上数据的处理。

  ★数据服务的上层为计算引擎。计算引擎对特定业务需求实现的高性能计算组件,提供快速供数。

  ★计算引擎的上层为报表引擎。报表引擎独立的好处是实现引擎的共享,在此平台下,不再是一个系统一套独立的工具,而是整个平台使用一套工具,性能容量不够,可以通过扩充集群的方式增加计算能力。

  此架构可以实现报表引擎的更新换代。报表引擎使用量增大,可以增加集群的服务器,扩充容量;使用量减少,可以减少集群的服务器;某个引擎已经不使用了,可以从平台中清除;当业务需要增加新的报表引擎,可以直接加入到平台中,并可以为其他业务需求制作报表。

  ★报表引擎的上层是报表平台门户。报表引擎可替代的功能是在报表平台门户上实现的,即所有报表引擎制作的报表都要注册到报表平台门户中,可作为门户中的一个资源,由报表平台门户统一管理。报表平台门户的另一个功能是可以根据业务需要将不同的功能组织在一起,形成虚拟的“系统”,在每个“系统”中,可以使用不同的布局和界面风格。

  3.数据挖掘应用。青海农信当前数据仓库数据挖掘功能及应用除了包括预测、分类、聚类,还包括以下部分。

  ★关联规则和序列模式的发现:可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天调整利率,明天存贷款结构变化。

  ★偏差检测:对分析对象的少数的、极端的、特例的描述,揭示内在原因。例如:在100万笔交易中有500例欺诈行为,为了稳健经营,就要发现这500例的内在因素。

  课题组组长:韩英 课题组成员:王益兴,刘德(执笔人)

(文章来源:《金融电子化》杂志)

扫码即可手机
阅读转发此文

本文评论

相关文章