- 快捷搜索
- 全站搜索
近年来,国内各商业银行纷纷启动数据仓库系统建设,搭建整合的数据仓库成为各商业银行科技领域的共识和行动。基于此数据平台,建设功能丰富、稳定可靠的BI应用成为可能,管理和开发蕴藏无限商机的数据资产也成为了可能。
数据仓库实质上是一个支持管理决策的数据集合,它必须既能够满足多种来源和结构数据的存储要求,又要能够实现数据分析支持决策的功能需求。因此,对整个数据仓库的建设来说,在基础数据平台中,一般考虑使用3NF实现基础数据层,藉此来完成原子级数据的存储任务;而专门为特定应用服务的、包含各种不同程度汇总的事实表,则是更多地出现在数据仓库系统的BI应用中。本文主要探讨的,是基础数据平台范围内的基础逻辑数据模型设计(以下简称模型设计)。
模型设计的必要性和目标
数据仓库本质上是一个庞大复杂的数据集合。表面上看,大干世界,纷繁复杂、无序多变;实质上,万事万物都遵循其自有的发展法则。数据仓库也一样,尽管其所涵盖的数据表现出来源广泛、结构多样、变化频繁、粒度不一等等特征,但模型则恰好体现了对这一数据集合的归纳,是对数据的内在实质和流转法则的提炼。因此,使用数据模型这一抽象描述现实世界的工具和方法,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系,就能准确地抓住数据仓库中海量数据集合的本质规律和内在联系。
数据仓库之父Bill Inmon所描述的数据仓库应包括面向主题、集成、反映时间变化和非易失等四个特征。数据仓库要想最终成功地体现这四个特征,就离不开最初良好的模型设计成果。因此,模型设计能力也是各数据仓库厂商竞争力中不可忽视的要素。
目前业界较为主流的数据仓库厂商主要是IBM和Teraclata,这两家公司除了能够提供较为强大的数据仓库平台之外,也有各自的针对细分行业的数据模型产品。在银行业,IBM有自己的BDVVM(Bankinq Data Wa r‘ehO LJsemodel);而Teradata则有自己的FS—LDM(Financial Services-Loglcal Data Model)模型。无论是BIVI的9大概念还是Teractata的10大主题,都是对金融行业业务特质要素的理解和提炼,如客户、协议、产品、事件、地址等,抓住了这些金融行业业务运转和管理决策的过程中所必然要涉及到的主要概念或主题,就抓住了金融行业业务发展变化的主线,从而达到利用数据来反映整个业务全貌和实际情况的目的。一个稳定、健壮、长期、可靠的数据仓库解决方案必然包含有成熟稳定的、支持灵活扩展的模型设计。
商业银行建设数据仓库之初,一般把整合数据作为首要目标,要实现组织管理好海量数据集合的功能。因此,模型设计一般应实现以下目标:
• 灵活,可扩展。模型设计应支持存放最详尽的历史数据,业务发生变化时,模型易于扩展,可适应复杂多变的买际业务情况:
• 稳定,经得起考验。能够在长时间内保持稳定性,回答不断产生、不断变化且无法预先定义的业务问题,保证建于其之上的各种分析型应用有相对稳宅的数据基础。
• 支持业务使用。与OLTP系统的数据库设计不同,数据仓库的模型设计并非只是在系统数据库设计过程中发挥作用。作为一个技术和业务共同搭建和重用的系统,还要求模型设计要实现规范、易懂的目标,在模型设计过程中使用业务语言;数据仓库建成以后模型还应当易于业务人员的理解和使用,支持IT和业务部门人员进行沟通,支持业务人员充分利用数据仓库系统的数据,最终实现业务价值的创造。
存在的误区及应对策略
根据笔者在商业银行数据仓库的实操经验,总结了在数据仓库模型设计的过程中容易存在的误区,同时还有相应的策略:
第一,设计思想飘忽不定。
与商业银行一般业务系统的建设模式不同,数据仓库的建设周期更长,实施范围更广;另一方面,即使在同一时间,也会有多人参与到模型设计的过程中。反映在模型设计上,对数据属性的判断和处理可能因人而异,因事而异,因时而异。业务用户很难抓住模型产品的设计思想,对模型设计理念形成持续一致的认识。后来的模型设计人员和业务用户很可能发现,经过多人设计后,某一类业务数据可能分散存放在一个主题下的多个类似实体中,甚至可能在多个主题之下。
因此,需要统一设计思想,以保证最终模型产品的概念一致性。在数据仓库建设初期,确立了模型设计的目标以后,首先要做的就是明确统一的模型设计思想和设计规范,并且建立维护和检查机制。同时,逐步建立和完善模型管理工作机制,保证有规范也有执行,从而最终实现对模型设计思想的一贯执行,且不至因时间、人员发生变化而出现偏离偏差。对所有模型设计人员和业务用户而言,明确的设计思想是模型产品成功和获得认可的基础。
第二,求大求全。
在模型设计之初,面对海量的数据,有了成熟的模型产品作为依托,是否就意味着,模型设计人员可以将这些海量数据蕴藏的业务规则一网打尽,设计出反映业务全貌的模型来呢?答案是否定的。从范围上来看,银行业务林林总总,有核心产品,也有一般业务;有特色业务,也有传统产品等等。业务用户对各种产品数据的关注程度是有区别的,从时间上来说,作为数据源的各业务系统同时也处于持续维护或升级的状态,以满足在随时变化的业务需求中,用以试图处理未知或不清晰的业务规则。
因此,在模型设计策略上,稳妥有效的策略是“想大做小”,即模型设计人员依托已有产品,结合商业银行实际情况和未来发展的规划,在对全行数据全貌有了基本的了解和认识后,搭建高度概括的概念层模型,选择数据源稳定可靠、业务规则成熟清晰、业务决策关注度高的若干主题作为突破口,丰富主题或主题的某个部分的模型后,再启动下一步工作,不必急于求大求全。在具体做法上,可以考虑分类设计,以区别处理不同的数据源。一般我们将模型设计分为三类:重点设计、简单设计和自主设计。
应用数据仓库技术加强对公吝户的信用风险管理,为贷款管理决策及风险评估提供依据,有利于提高银行信贷资产质量,对于商业银行科
数据仓库的数据管理只靠新技术或高性能设备是不够的。数据仓库是一项系统工程,做好数据管理需要各个环节的密切配合,特别是技术
东京之星银行将部署Teradata数据仓库专用平台,强化针对零售客户的产品开发、销售和客户服务能力。
计量分析师或数据科学家兼备了技术和商业头脑,因此建议客户应迅速采取行动,争取获得这一新兴阶层创造的业务优势。
Teradata ADW私有云为数据驱动型公司带来更高资源利用率和自助服务
目前Hadoop/HBase广泛应用于各类具有大数据需求的企业,尤其是互联网企业,
工商银行启动业务集中处理改革,研发了具有自主知识产权的业务集中处理平台