• 快捷搜索
  • 全站搜索

企业级数据仓库构建过程

2015-08-19 15:42:34作者:杨进玉编辑:金融咨询网 徐仲雅
数据仓库应用是为了提供企业级的管理和决策信息,它的需求分析本身是一个探索的过程,要建造一个成功的数据仓库系统,必须要整理出完善的需求。企业要想真正走向数据仓库应用成功之路,只有也必须从国外的模型框框中突破出来,制定、裁剪、勇敢改造或者设计出符合中国企业特点的数据仓库模型。

一、企业级数据仓库构建目标及功能

        数据仓库的基本特征为:面向主题的、集成的、稳定的、反应历史变化的、用于支持管理决策。数据仓库的基本功能有:(1)利用利用集成整合的操作性数据做出最明智的商业决策;(2)实现数据的多维分析;(3)分析和预测,数据挖掘实施,发现有价值的信息。

        1、企业范围内的信息共享。面向整个企业和最终用户,针对分析需要按照主题重组。形成一套全局的数据视图,并准确一致地保留历史。

        2、数据的多维度分析。能够进行快速访问,精确灵活分析,随心所欲的访问数据。直观、明显、简单、易用、切割、合并、下钻、上卷。

        3、内外部数据的有效集成,一致的展现数据(相对于原来从多个系统中出来的报表不一致)。适应性、扩展性、可维护性。使分散的、不一致的操作数据转换成集成的、统一的信息,最终为企业的各管理层提供决策的数据依据。

        4 、数据仓库是数据挖掘技术的关键和基础。利用数据挖掘技术在帮助用户理解现有信息,从当前和历史数据的分析中,获得简单的趋势分析,假设分析,预测分析等,对未来的企业状况做出完整、合理、准确的分析和预测。

二、数据仓库的规划分析

        首先要确定数据仓库项目开发的目标。从用户角度分析,为用户提供哪些决策分析内容和功能。从技术角度分析,在确认划分的各个主题中需要哪些业务源数据,确定使用那种ETL工具去获取、清洗、转换、加载数据。使用什么样的工具来构建数据仓库的模型,确定数据仓库的实施范围。然后制定数据仓库项目目标和实施计划。

        数据仓库的规划从分析操作型数据源开始,反映了企业业务处理的基本特征。研究和分析操作型数据源,是企业进行数据仓库设计的必要准备和先行步骤。分析源系统,并特别注意其对数据仓库有影响的数据项,对数据仓库的建设有这重要的意义。比如,源系统中的一些配置表可以作为数据仓库维表的原型;源系统中的一些报表也可以作为联机分析时的重要参照。源系统的很多对象在数据仓库设计时候都可以借鉴,但忌讳照搬,因为这样会对数据仓库的设计产生不良的影响。业界比较公认的一点是,数据仓库中存在的某些明显的继承性的缺点,往往是从源系统带过来的。

        其次,对实施数据仓库项目开发的所有预算进行有效评估,编写详细的项目开发说明书,说明该数据仓库系统对企业发展的作用。内容包括:对工作概况的说明,重点支持该项目的业务部门和设计开发的工作计划等。EDW/BI的项目提供了由核心业务过程产生的关键绩效度量。业务边界的确定,需要将关注点聚焦在单独的业务过程。因为单独的业务过程常常是由单个主要的源系统模块支持的,所以集中关注单个业务过程有助于设计和开发迭代确定一个更易于处理的范围。较为合理的做法是仅从单个源系统中提取和转换数据,而不能一开始就试图从由多个源系统支持的多业务过程中提取和集成信息。

        再次,开展概念模型设计工组,内容包括用户需求调研、模型的分析和需求定义等内容。先明确用户的需求,然后在理解用户需求的基础上,进行数据仓库概念模型的设计。包括撰写详细的用户需求分析调查表和针对概念模型的评审报告。

        最后,在概念模型的基础上进行逻辑模型的分析和设计。所要分析的主题域有哪些,各个主题域中包含了哪些主题和实体,以及实体粒度层级的定义等。制定逻辑模型的评审报告和初步设计数据仓库ETL流程。

三、数据仓库项目的设计与实施

        数据仓库项目的建设,最初可以围绕一个数据仓库核心项目进行设计,随着时间推移,逐步补充添加更多的项目,最后这个小的数据仓库就会增长为企业级数据仓库,掌控起公司所有的业务数据。最终,数据仓库需要支持整个或一大部分业务的需求,跨部门和业务线(line of business)具有较高的数据访问和使用率。在整个企业中,业务范围的数据仓库在物理上可以是集中式的,也可以是分布式的。数据仓库建设受如下因素的影响:当前IT基础设施、可用资源、所选架构、实现范围、对于跨部门进行的更大业务范围的数据访问的需求、投资回报率(return-on-investment)。

        自顶向下的方法就是在单个项目阶段中实现数据仓库。自顶向下的实现需要在项目开始时完成更多计划和设计工作。这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的相关决策一般需要在真正的实现开始之前就完成。

        自底向上的实现包含数据仓库的计划和设计,无需等待安置好更大业务范围的数据仓库设计(这并不意味着不会开发更大业务范围的数据仓库设计)。随着初始数据仓库实现的扩展,将逐渐增加对它的构建。现在,该方法得到了比自顶向下方法更广泛的接受,因为数据仓库的直接结果可以实现,并可以用作扩展更大业务范围实现的证明。每种实现方法都有利弊。在许多情况下,最好的方法可能是某两种的组合。该方法的关键之一就是确定业务范围的架构需要用于支持集成的计划和设计的程度,因为数据仓库是用自底向上的方法进行构建。

        在使用自底向上或阶段性数据仓库项目模型来构建业务范围架构中的一系列数据集市时,可以一个接一个地集成不同业务主题领域中的数据集市,从而形成设计良好的业务数据仓库。这样的方法可以极好地适用于业务。每个数据集市都可以处理可识别的业务问题或主题领域,从而可以计算ROI。

QQ截图20150819152227.jpg

        1、数据仓库的主题

        数据仓库是一个对企业和组织决策支持系统的集成办法,开发团队必须与用户沟通,密切关注客户需求,理解企业业务分析需求和企业运作的关键指标,在此基础上进行分析,并确定数据仓库的主题。数据仓库的设计中,在错综复杂的数据大集合面前,掌握住主题并不容易,如果使得主题落空,即使采用最好的技术也达不到预期的目的。

        面向主题是指数据仓库中的数据是按照一定的主题域进行组织。主题是对业务数据的一种抽象,是在较高层次上对企业信息系统中的数据进行归纳、整理、综合、归类和分析利用的一个抽象概念。面向主题的数据组织和存储包含两个方面:根据源系统业务数据的特点进行主题数据的抽取和确定每个主题所包含的数据内容。一个主题通常与多个操作型信息系统相关,每一个主题基本对应一个宏观的分析领域,在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。分析主题是指用户使用数据仓库进行决策时所关心的重点方面,是对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。数据仓库在数据模型定义之前确定企业的主要主题域。例如典型的主题包括客户主题、产品主题、财务主题等。而客户主题包含:客户基本信息、客户信用信息、客户资产信息等。在构建数据仓库的时候,一般的方法是先确定几个基本而核心的主题,然后再将范围扩大,再逐步求精。

        主题域是对某个主题进行分析后确定的主题的边界。分析主题域,确定要装载到数据仓库的主题是信息打包技术的第一步。而在进行数据仓库设计时,一般是一次先建立一个主题或企业全部主题中的一部分,因此在大多数数据仓库的设计过程中都有一个主题域的选择过程。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。

        确定主题边界实际上需要进一步理解业务关系,因此在确定整个分析主题后,还需要对这些主题进行初步的细化才便于获取每一个主题应该具有的边界。主题虽然在信息包图中只占据标题的位置,但是却是信息打包方法中最重要的部分,当主题定义好之后,数据仓库中的逻辑模型也就基本成形了。此时,需要在主题的逻辑关系模式中包含所有的属性及与系统相关的行为。数据仓库中的数据存储结构也需要在逻辑模型的设计阶段完成定义,需要向里面增加所需要的信息以及能充分代表主题的属性组。数据仓库的设计是一个螺旋发展的过程,在设计初始,没必要在数据仓库的数据库中体现所有的主题,选择最重要的主题作为数据仓库设计的试金石是很有必要的。

        2、数据仓库逻辑层次

        业务环境是在快速变化的,而业务数据的类型也是如此。一个成功的数据仓库解决方案的基础就是合理而兼容性高的架构以及灵活可而扩张的设计。这种架构和设计可以适应不断变化的业务数据。数据仓库的架构和仓库数据的建模设计是仓库设计中的核心任务。数据仓库的架构设计遵循商业智能体系的基本逻辑设计层次。通常,自下而上分为操作型数据层、数据缓冲过渡层、数据仓库层、数据集市层、数据应用分析层、数据可视化展示层。

        1、操作型数据层,一般是ODS、操作型数据库。

        2、数据缓冲过渡层,数据从ODS或者操作型数据库中被采集、清洗、转换加载至数据仓库的临时数据缓冲和过渡,增量加载机制在该层实现,判断数据的新增异动,控制数据的历史和版本。

        3、数据仓库层,以原子层的粒度、按照主题的规划和数据存储。不面向特定应用,提炼多种应用的需求共性面向主题设计相对通用的实体对象,主数据高度集成,交易明细的数据轻度聚合,业务含义赋予维度分解为原始明细粒度的数据。降范式、预连接、适当冗余反三范式的设计。

        4、数据集市层,集市层满足特定业务的需求,在基础数据层建设的基础上按应用需求粒度轻度汇总。数据集市的模型,主要是事实表和维度表的设计,最终为形式各异各自独立的星型模型。

        5、数据应用分析层,是数据仓库辅助决策支持的最高层次,一般都是使用专业的商业智能工具来实现的。实施多维分析,方便用户从多主题、多角度计算汇总数据,增强了数据处理分析的灵活性和便捷性,通过对持续性数据的分析,提供数据对比分析(comparison)、趋势预测(trends)、假设分析(Assumption)、关系分析(ralationship)、核心KPI、信息及知识共享等。

        6、数据可视化展示层,利用数据可视化工具:cognos、QlikView、Tableau等丰富的展现方式,实现数据展现的多维度要求。

 1 2 3 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章

频道最近更新

频道热门文章