• 快捷搜索
  • 全站搜索

保险数据仓库建模浅析

2013-12-04 16:20:43作者:中国太平洋保险集团股份有限公司信息技术中心 杨进玉编辑:金融咨询网
保险业务模型的建立,能够帮助险企对保险业务进行全面的梳理。一方面,使得IT人员和管理人员对业务架构图和整个业务的运行情况有了全面的理解,有利于将不同业务按照特定的规律进行分门别类和程序化,另一方面,能够帮助险企进一步地改进业务流程,提高业务效率,以便于更好地指导和管理业务部门的生产。

保险数据仓库建模浅析-图1.jpg

        基于业务表单进行数据模型的分析和设计是重要的数据库设计思想,其核心是从横向和纵向两个角度对数据对象和数据项进行划分和设计。其中横向分析面向领域的通用性和一般性,形成数据结构中的维度表(通用关系型库结构类)和代码表(代码/单元素库结构类),是对领域的概括和抽象; 横向分析针对行业领域内的共性的、通用的信息数据,进行提炼和组织,概括了行业内的对象、实体、概念等的属性和对象的取值关系,既反映了取值的事实内容,也反映了约束和边界。纵向分析则针对具体的业务内容,形成事实表(记录事实型库结构类)和约束表(约束型库结构类),反映了领域中的具体和依赖。

        3.3物理建模阶段

        数据仓库的物理模型就是数据仓库的逻辑模型在物理系统中的实现模式。包括逻辑模型中各种实体表的具体化,例如表的数据结构类型、索引策略、数据存放位置、数据存储分配等。在进行物理模型设计时,要考虑的因素有:I/O存取时间、空间利用率及维护的代价。为确定数据仓库的物理模型,首先要全面了解、所选用的数据库管理系统,特别是存储结构和存取方法;其次了解数据环境、数据的使用频率、使用方式、数据规模及相应时间要求等。这些都是对时间、空间效率进行优化和平衡的重要依据;最后还需要了解外部存储设备的特征,只有这样才能在数据的存储需求和外部存储设备条件之间获得平衡。

        在物理设计时,经常要按照数据的重要性,使用频率,及对反应时间的要求进行分类,并将不同类型的数据分别存储在不同的存储设备中,重要性高、频繁存取、时间相应要求高的数据存放在高速存储设备上。由于数据仓库的数据量很大且很少更新,通常需要对各个数据存储建立专用的索引和复杂的索引,以获取较高的存取效率。数据仓库中的表,通常比OLTP系统的表建立更多的索引,但是索引越多,数据的加载时间就会延长。因此索引的建立需要综合考虑,通常只对主关键字和外部关键字来建立索引。

        物理建模阶段,是将逻辑建模阶段创建的各种数据库对象,生成相应的SQL代码(大多数的建模工具都可以生成DDL的SQL代码),在数据仓库运行这些代码,创建相应的数据仓库对象。在这个阶段,当然也要考虑数据拆分和集群的事情。物理数据模型的准确描述首先要保证每个数据元素命名的规范和准确,数据仓库的设计中,字段名、表名以及其他相关元素的名称都需要以词根为基础,结合业务内容,按一定的规则进行命名。

        面向主题的分析是数据仓库物理模型设计的重点,也是设计思路得以体现的部分。数据模型需要体现领域中的业务活动的相关信息,反映业务事实、业务过程和业务规则,因此主要包含事实表、维度表、约束表、关系映射表等等。事实表反映了领域中的业务数据模型,事实表单是一个包含了大量实体对象的聚合体,因此需要对这些对象进行分解和精化,进行维度展开。属性的划分需要从“空间”和“时间”两个主线逐层展开。空间主线反映的是在某一特定时期或特定状态下,各实体、对象的属性和取值的状况,可以理解为领域信息的静态展现。而时间主线则反映各业务活动的进展过程,主要体现时间信息和变化信息,可以理解为领域内容的动态展现。

        在寿险中,保单明细信息和承保业务过程是最为典型的业务事实,相关数据模型的建立过程充分体现了基于表单的建模方法。约束表反映的是业务对象和业务过程必须遵循的业务规范,以及为满足业务规范所需的活动,是领域中的业务控制模型。约束表包含两类,一种是对事实表单之间或表单中元素之间关系的描述,这些关系往往不是简单的静态数据的类型约束或取值范围(这是维度表的职能),而是一组较为复杂的业务规则,反映了在业务过程中的行为准则,是对动态过程中各数据进行演化的约束和控制,例如承保事实中的投保规则。另一种是,约束表包含对于业务控制过程的描述,在业务内容中,本身包含对业务事实进行控制和约束的过程,例如承保事实中的核保过程,这些起控制作用的业务过程在数据模型中的体现属于约束表的范畴。

        以保单明细信息部分的数据模型,和相关的约束表、维度表和代码表的为例。保单表作为保单组合体的对应表,包含了保单自身具备的属性和各组合对象的共通的属性,投保人表、被保人表和险种表是组合保单信息的主要对象对应的表,包含了对应在投保人、被保人和险种层面的相关属性信息。其中投保人、被保人是以客户信息表的数据为基础的,反映了在具体的保单层面,不同身份的相同客户所具有的不同的信息,如地址、客户账户等,客户信息表作为代码表,从个人基本资料层面约束了客户信息的取值关系。险种既是保单的组合元素,同时也是一个聚合体,在数据模型设计时需要从线分类的角度进行细化,险种是责任对象的聚合,责任又是保费对象和保障对象的组合体。

        从时间主线看,保单信息模型中的各对象中都包含与生命周期相关的演化信息,例如保单的核保结论、签发时间(承保时间)、险种的有效期、缴费的起止日期和缴至日期、给付保障的领取期间、领取间隔等。在保单承保业务过程中,必须遵循投保规则和核保规则,相对应地存在这两种约束型表单,因此投保规则表和核保规则表是根据这两个表单建立的约束表,其中通过算法定义和参数化体系,建立可扩展的约束规则描述体系。此外,对于核保业务过程和核保信息,如特约、免责、问题件等,这些都是对保单事实的约束,也是承保业务事实过程中的约束表。

4.结束语

        保险数据仓库应该支持企业的各种业务,比如对财产保险行业应该考虑财产险、货物运输险、工程险、责任险等不同业务的特点;不同的业务部门对信息的需求各有不同,应考虑业务、市场、财务、管理等各个部门的需要;不同层次的组织所关心的信息不同,数据模型应支持地支公司、分公司和总公司的信息需求;数据仓库必须支持所有相关智能型员工的信息需求,包括高层领导、基层领导和普通员工。另外,数据粒度和查询效率从来都是矛盾的,细小的数据粒度可以保证信息访问的灵活性,但同时却降低了查询的效率并占用大量的存储空间,数据模型的设计必须在这矛盾的两者中取得平衡。最后,数据仓库系统是一个与企业同步发展的有机体,数据模型作为数据仓库的灵魂必须提供可扩展的能力,在进行数据模型设计时必须考虑未来的发展,更多的非核心业务数据如人事数据、市场数据、竞争对手数据等必须可以方便的加入到数据仓库,而不需要对数据仓库中原有的系统数据进行大规模的修改。
 

首页 上一页 2 3 4

扫码即可手机
阅读转发此文

本文评论

相关文章

频道最近更新

频道热门文章