• 快捷搜索
  • 全站搜索

保险数据仓库建模浅析

2013-12-04 16:20:43作者:中国太平洋保险集团股份有限公司信息技术中心 杨进玉编辑:金融咨询网
保险业务模型的建立,能够帮助险企对保险业务进行全面的梳理。一方面,使得IT人员和管理人员对业务架构图和整个业务的运行情况有了全面的理解,有利于将不同业务按照特定的规律进行分门别类和程序化,另一方面,能够帮助险企进一步地改进业务流程,提高业务效率,以便于更好地指导和管理业务部门的生产。

        如果将星型模式扩展,就会得到雪花模式。当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,这些被分解的表都连接到主维度表而不是事实表。它的优点是通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花型结构去除了数据冗余,有些统计就需要通过表的联接才能产生,所以效率不一定有星型模型高。正规化也是一种比较复杂的过程,相应的数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率。

        2.3通用数据建模

        通用数据建模(Universal Data Model)的概念在1998年由Silverston最先提出,其要点是一种一般性的(Generic)或模板化(Template)的数据模型;能够作为结构基件(Building Block)来快速启动(Jump-start)建模活动。Silverston于2001年则全面论述了通用数据建模的思想并总结了典型的通用模型结构的规格与内容。现代的主题域数据模型的核心结构就是所谓PAE(Party-Agreement-Event,当事人-协议-事件)范型,是对现在业务进一步的抽象和概括,由此具有更前的通用性。比如对协议的处理,亦即当事人之间(如客户与险企之间)为运用/提供某种产品或服务而达成的一种契约关系,这种契约关系的确立及其对相关责权利的约束定义对任何保险机构展业都是必需的,也是任何一种业务系统在设计实现过程中必须加以考虑的,由此作为其外在表现的业务数据也是同质的。

        通用数据建模的思想至少在两个方面迎合了数据仓库的设计理念,其一是作为一种基础性的以分析支撑为目的的数据平台,数据仓库需要这种稳健的数据及其关系的骨架,这种数据逻辑结构的稳定性源于对业务数据的抽象而不是对业务活动过程的抽象;其二是由抽象概括所获的数据逻辑结构必然是高度集成的且面向主题的,这与数据仓库数据的内在要求是吻合的。

        通用数据模型一般都需要一个客户化的过程,其基本内容是对特定的业务逻辑进行分析梳理以便融合到即存的通用结构之中,并对特定的业务数据进行分析梳理以便覆盖住更全面的数据要素。尽管通用数据模型已经能够对骨干的逻辑结构和关系提供了保障且提供了足够的细节数据结构关系处理的范例,但在具体实践中逻辑模型的客户化工作仍是一个相当具有挑战性的工作,包括从设计理念的认同、业务逻辑与业务过程的分析到业务系统的分析、细节数据的辨析等多个层面的问题。

3.数据仓库建模阶段

        对于数据建模工程师来说,对业务的深刻理解是首要任务,因为数据仓库建模分为业务模型设计、概念模型设计、逻辑模型设计和物理模型设计3个阶段,一般按照自顶向下的顺序依次对模型进行设计。业务建模阶段其实是一次和业务人员梳理业务的过程,在这个过程中,不仅能帮助技术人员更好的理解业务,而且能够发现业务流程中的一些不合理的环节,加以改善和改进。概念模型主要是模型设计人员对业务规则的理解,是最高层次的数据模型,几乎涵盖了业务所有的核心概念和重要的主题,为以后逻辑模型的建设打下了基础。逻辑模型是对概念模型的分解、细化,将数据主题划分成一个个的实体和实体关系,一般将第三范式作为设计的模板。物理模型在逻辑模型的基础上对模型实体进行细节性的描述,包括字段类型、长度、索引等因素,最后转化成数据库存储的物理表。

        3.1概念建模阶段

        信息世界中的基本概念有:①实体(Entity),客观存在的并可以相互区别的事物,可以是具体的人、事、物或抽象的概念;②属性(Attribute),实体所具有的某一特性成为属性,一个实体可以有若干个属性来刻画;③码(key),唯一标识实体的属性集称为码;④域(Domain),属性的取值范围称为该属性的域;⑤联系(Relationship),实体内部的联系和实体间的联系,实体间联系有:一对一联系(1:1)、一对多联系(1:n)、多对多联系(m:n)

        在数据仓库概念建模阶段有3种基本的系统方法:数据驱动的方法、需求驱动的方法和混合方法。它们的区别在于源数据库分析和终端用户需求分析阶段所占的比重。方法的选择将极大地影响概念设计的方式。数据驱动方法包括:基于实体-关系模式的设计、基于关系模式的设计、基于XML模式的设计。概念型实体-关系模式比关系型逻辑模式更具表达力,因此通常认为前者是更好的设计源。但实际情况是客户无法提供精确完整的实体-关系模式,那么就只能根据数据库的逻辑模式来做。

        实际项目的实施过程中,概念建模阶段,是对用户需求的归纳,需要综合考虑业务划分和用户组织两方面的问题,在明确需求的基础上进行概念数据模型的设计。主要有三个步骤:①客户交流、②理解需求、③形成主题域、实体和关系。这也是一个迭代的过程。在数据仓库概念建模阶段,只需要关注主题域(subject areas)、实体(entities)和关系(relationship)即可,不必关注主题域下任何实体和关系的实现细节。在这个阶段并不是把实体的具体表结构,索引,约束都设计好。概念建模,最主要的目的是要梳理清楚主题域下的实体和关系。具体点儿就是,针对某个特定的主题域,在理解业务需求的基础上,确定出能够基本满足业务需求的实体对象以及这些实体之间的关系。因此概念对数据仓库的概念建模有三个目标:①确定数据仓库的主要主题及相互关系;②明确各主题域的实体和关系;③明确各个实体的基本属性。

        实体间的关系,通常有决定关系(Identifying Relationship)、非决定关系(None-Identifying Relationship)和多对多(Many-To-Many Relationship)关系。非决定关系是虚线(涉及纯粹外键),决定关系是实线(涉及混合外键)。概念模型的意义在于体现用户的需求和基本的数据组织结构。概念模型的表示方法主要是ERM(实体关系模型)。ERM是面向遵循数据间的关联而非汇总数据的查询的,有足够的表达力来表示数据仓库建模必需的大多数概念。然而,基本的ERM不足以准确地突出多维模型的显著特征。

        维度与相关的行业领域是有一定的关联性的,在取值范围和约束规则上具有较强的行业特性,但在行业内是通用的,与具体的业务活动无关,可以跨越不同细分领域,强调在记录事实型和约束型结构中主要元素之间的一些通用的、固有关系的结构,所建立的是领域的概念数据模型。维度表的建立是概念筛选和细化的过程,首先对领域中的核心对象进行提炼和抽取,筛选出能够代表领域特征的业务对象和业务概念,例如险种、账户等。然后需要进行对象的通用化设计,设计原则有两点: 求同去异、兼容并包,二者相辅相成、又相互制约。求同去异就是保留共性的、一般化的信息,放弃专有的、不确定的信息,然而并非所有不确定的信息都必须抛弃,这样无法涵盖领域的全貌,无法保证模型的完整性,因此需要以兼容并包的思想建立扩展性机制,通过可定制、可描述的方式建立概念模型。由于概念模型对业务模型起到约束作用,因此最后还需要建立取值关系、约束条件和边界信息等。

        代码是对维度表的进一步提炼,抽取出可以用简单的形式如数字、字符表示的单一信息,进行归类汇总后形成的。代码表明确反映的是取值的内容,取值关系是单一的信息内容,而维度表则可能是一组取值信息或只是取值的范围规则,而非明确数值。同时,相对于维度表,代码表与具体行业领域的相关性较弱,很多信息代码是跨行业、跨领域的。

        3.2逻辑建模阶段

        逻辑建模阶段的任务,就是把概念建模阶段建立的基本E-R图,按选定的管理系统软件支持的数据模型(层次、网状、关系),转换成相应的逻辑模型。这种转换要符合关系数据模型的原则。E-R图向关系模型的转换是要解决如何将实体和实体间的联系转换为关系,并确定这些关系的属性和码。

        逻辑数据模型的核心地位是由统一、集中的中央数据仓库的特征所决定的。重回到Inmon所给出数据仓库的经典定义,不难发现,其所谓的面向主题的(Subject-oriented)、集成的(Integrated)、相对稳定的(Non-volatile)、反映历史变化的(Time-variant)等对数据仓库特性的定义无一例外都是对数据逻辑特性/结构的要求。

        逻辑数据建模思想与数据仓库的架构设计密切相关:从长期数据迁移的经验来看,数据迁移相关技术工作有赖于逻辑数据模型:逻辑数据模型的直接派生物就是所谓物理数据模型,尽管存在非范式化(De-Normalization)的处理技巧,逻辑模型与物理模型之间仍然存在相当紧密的联系,从而影响到数据抽取、转换、加载等技术环节的内容与规格。①逻辑数据模型与前端分析型应用相关技术密切相关。从逻辑结构上看,各类前端分析型应用所需的数据模型应该与数据仓库的逻辑数据模型保持某种一致性与合作性。②逻辑数据模型也与元数据管理、数据质量管理等领域技术密切相关。

        对实体进行细化,细化成具体的表,同时丰富表结构。这个阶段的产物是,可以在数据库中生成的具体表及其他数据库对象(包括,主键,外键,属性列,索引,约束甚至是视图以及存储过程)。比如在保险业务数据仓库中,保单协议主题域中,逻辑建模示意如图1所示。根据需求确定了从业务系统要进入数据仓库系统的这些表,并进一步丰富每个表的属性,这期间会涉及到主键的选取、使用代理键、表之间的关联、约束的设置等细节。在这个阶段,将每个表的属性确定下来就不错了,因为随着数据仓项目的实施,很多表的属性都会有相应的改动。逻辑模型通过定义必要的数据表、表间关系及其元组数目而澄清了应用程序的实现领域。在逻辑设计阶段要定义每一表列的属性,比如是否接受空值、默认值、规则以及各类检查和约束等。

首页 上一页 1 2 3 4 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章

频道最近更新

频道热门文章