• 快捷搜索
  • 全站搜索

太保数据集中的架构和策略

2013-10-30 13:53:23作者:中国太平洋保险集团股份有限公司信息技术中心 杨进玉编辑:金融咨询网
险企数据大集中已是一条必经之路。而数据的集中不是简单的物理集中,而应考虑整个企业的应用系统的架构,考虑在应用系统和业务系统间复杂的数据流的最佳ETL实现方式,以及在这个数据大集中实施的前提下,其他因需求而不断接入的应用系统该怎么建设。

        在寿险IDS平台各数据供应方系统每天提交规格的增量数据文件到IDS文件服务器,IDS的ETL数据处理平台把这些数据转换并加载到IDS数据库,然后根据各个需方系统的数据需求供出每日增量数据文件并同步查询用库中的数据。各数据需求方系统下载IDS输出的增量文件并导入到自己的数据库中,这样就完成了数据从供方到需方的过程。由于部分系统自己缺少存储机制不能保存所需的全部数据,所以提供查询用库,给其他系统查询使用,而IDS正式数据库不直接对外提供数据查询服务。目前IDS数据供方系统包括:寿险核心系统、综意险、两核系统,寿险单证系统、寿险费用管理系统、寿险机构系统、寿险人力资源系统、销售人员及渠道管理系统等等。

        数据供方系统提供的日增量数据文件,不允许出现业务含义相同的两条记录即某源文件中相同业务主健的记录只能有一条。约定为,如果存在对数据主健字段的修改就必须提供一条删除的记录同时提供一条新增的记录。数据分公司间相对独立,不存在依赖关系。IDS系统与供方系统约定供方接口规格、与需方系统约定需方接口规格,供、需方文件接口规格存在较大差异。IDS的ETL处理平台主要完成将供方接口文件转换为需方系统文件的功能。主要包含3个阶段:(1)文件合并拆分阶段(combining,spliting),即将供方接口文件转换到中间规格数据;(2)数据转换加载阶段,中间规格数据处理成IDS规格并加载到IDS数据库;(3)IDS数据库输出文本文件阶段。其ETL数据处理流程示意如图2所示。而需方系统获得IDS输出的文本文件后,通常还需要按照相应的Mapping映射规则进行数据预处理(清洗、去重复、转换、编码等操作),之后加载到需方系统的数据库中。

太保数据集中的架构和策略-图2.jpg

        寿险IDS系统正常情况一天会运行一个新的批次,如果运行过程中存在异常中断,再重启系统直到运行完成也属于同一个批次。如果存在系统数据修复,则用新的批次来运行。ODS系统支持多服务器并行加载不同分公司的数据,在数据加载时每台服务器都使用不同的批次号来运行。系统运行引入checkpoint概念,即ETL处理中一组相互关联的作业操作组成的一个处理单元。每个处理阶段都有各自划分checkpoint的原则。IDS系统所有配置文件均维护在数据库表中,每批次日初时候会将配置表卸载到配置文件以供程序调用。其ETL处理过程中运行状态都会实时记录到数据库日志表中,包括每个checkpoint和每个job的状态变化。

        2.2 产险IDS系统

        产险IDS系统主要是提供一个集中的方式处理操作性数据。IDS将加载各个产险源系统数据进行数据整合形成IDS基础平台,并在此基础上提供各种数据服务。系统架构示意图如图3所示。IDS系统的各个应用功能模块的需求简述如下:(1)运营报表,以IDS数据为数据源建立运营型报表,有日报、月报、各类清单、稽核类报表等。(2)报账,以IDS数据为数据源,生成综合统计类指标往P07系统报账。(3)计算数据提取,以IDS数据为数据源,按照精算系统需要的格式生成精算系统需要的准备数据(4)数据综合查询服务,以IDS数据为数据源,设计向核心业务系统提供数据查询服务的服务框架。IDS的综合查询应用从Service Hub上接收来自业务系统的查询请求完成查询,并将查询结果通过Service Hub交给业务系统。(5)保监会稽核接口程序,根据保监会的监管要求,太保各家分公司需要依据稽核数据模型将稽核数据上报给各地保监局。基于稽核接口具有以下几个特点,程序将部署在分公司IDS系统中。

太保数据集中的架构和策略-图3.jpg

        其中,P11系统是集团规范的消息交换和文件传输平台,IDS系统接受各个源系统的增量数据以及IDS往外提供的数据都通过P11的文件传输平台来实现传送的。Service Hub,这是产险核心系统的服务总线,IDS的综合查询应用通过Service Hub发布。各个业务系统,包含新收付、管理员、CIBS、车险理赔、人意险、综合统计,这些系统都是IDS的数据源。其中新收付系统的增量数据通过ETL工具抽取进入IDS系统,其他系统的增量数据都通过P11传送入IDS。新车险系统、车险理赔系统与IDS的数据经过P11通道进行双向传送,比如新车险往IDS传送车险的增量数据文件,IDS也将赔付率、黑名单等整合过的数据经过P11传送给新车险系统。精算系统、P07财务系统是IDS数据的接受方,IDS将精算系统、P07系统需要的相关数据整合好通过P11传送。此外,IDS还将数据下发到分公司IDS并且为P05报表集市和EDW提供产险部分的数据来源。

        从架构的角度看,IDS是操作性数据的集合。加载了多个应用系统的数据并进行整合、支持运营型报表,对分公司分发数据。提供了跨系统类复杂的查询,接受查询请求后,IDS通过Service Hub将查询结果实时或者异步返回。IDS也将作为集团数据仓库(P05-EDW)以及产险报表集市的数据源。

3.IDS系统数据模型

        由于IDS并不属于特定的系统,因此其数据模型的设计应为主题导向式(subject-oriented),实现方法与数据仓库并无太大差异。为求快速建置以及呈现来源系统数据,实际上许多企业采取的做法是直接将来源系统的数据以类似复制的方式供应给应用系统,将它视为来源数据的复本,这样其实并没有进行真正的数据集成,后期的数据的应用价值也很有限。

        首先必须要坚持需求驱动的原则,总的来说,需方比供方更重要,要基于需方,平衡供方和需方模型之间的关系。最终目的是降低ETL Mapping的复杂度、减少ETL开发工作量。在ETL开发工作中注重数据质量管理,由数据质量来决定清洗规则及模型的容错性和通融性。IDS系统的逻辑模型将参考IAA(Insurance Application Architecture)架构所提供的模型,结合太保实际业务需求,有的放矢,借鉴性地参考IAA模型。要注意的是,如果完全采用IAA模型,将导致ETL Mapping复杂、ETL开发工作量增加、数据在ETL各个阶段中容易转换失真或出错、项目风险加大。并且由于IAA模型遵循严格的三范式,关系表非常多、数据分散存储将导致ETL在数据装载与卸数阶段性能不理想。

        IAA是IBM推出的保险应用体系架构。它兼容了ACORD等欧美众多市场通行的保险业务模型和保险业务标准,成功帮助了世界众多顶级保险行业和金融机构客户创建新的业务流程,形成新的核心运用和数据标准。IAA不是一套成型的行业应用软件,它不包含任何可直接实现的代码,不可以等同于保险核心业务系统或者其他一些应用软件。IAA是一套参考标准,它试图为保险行业所有的系统开发过程提供一个基础。IAA 2002包括以下几部分:需求模型;业务模型(数据和流程模型);组件、接口和消息设计模型等等。

首页 上一页 1 2 3 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章

频道最近更新

频道热门文章