金融咨询网近期会进行系统维护,短暂的等待是为了更稳定的服务,感谢您的支持。
  • 快捷搜索
  • 全站搜索

数据治理:从量变到质变的进化

2014-12-25 17:55:51作者:上海新致软件有限公司保险事业部 杨进玉 张波涛编辑:金融咨询网
国内大多数企业的数据治理工作仍然偏重于技术,主要工作还停留在现有业务环节的数据问题等方面,包括现有数据的清理、查重、映射、标准化等内容;而对更深层次的数据治理体系,例如涵盖企业业务数据总线的数据管控体系设计、数据规划设计、数据中心等方面还未有更多进展。

        数据质量评估是数据治理的一个源头性问题。尽管对数据质量的涵义有不同的看法,但一般认为数据质量是一个层次分类(category)的概念,每个质量类最终分解成具体的数据质量维度。数据质量评估的核心在于如何具体地评估各个维度,目前方法主要分成两类:定性的策略和定量的策略。对各个维度从定性的角度来分析其“好”或“坏”,这是目前数据质量评估方法的主流。

        数据质量的改善和提高是建立在数据质量的评估基础之上,通常对数据质量的评估都需要通过以下几个维度衡量。①完整性(Completeness):完整性用于度量数据是否丢失或者是否可用。②规范性(Conformity):规范性用于度量数据的存储格式是否规范。③一致性(Consistency):一致性用于度量信息数据的值在不同的业务系统中是否存在冲突。④准确性(Accuracy):准确性用于度量数据的正确性和时效性。⑤唯一性(Uniqueness):唯一性用于度量数据的重复性和属性的重复性。⑥关联性(Integration):关联性用于度量数据的可关联性。⑦及时性(timeliness):及时性用于度量交易数据是否延时和有效。

        数据质量的评估内容包括关联性、增值能力、时效性、完整性与数据量。关联性是指数据与数据使用者的目标之间应该是相关的。数据质量越高,数据的增值能力就越强;同时,数据的增值能力越强,数据的质量也就相应地越高。时效性也是数据质量的一个非常重要的指标。比如,企业利用顾客的历史数据开展交叉销售,及时的数据才能反映顾客当前的经济状况和需求。数据的完整性对数据的可用程度也是一个非常重要的指标,就信用评级而言,如果数据不完整,信用评级模型的就不能完全反映顾客的真实状况。最后,数据量影响着数据的可代表性和完整性,因此,数据量也是数据质量的重要指标。

        从理论的角度对数据质量从若干个维度进行分析和评估比较常见,但很少有文献和技术探讨和实现具体的维度评估方法。从宏观而言,通过数据整体统计分析、数据局部细节探查、数据的关联性分析等操作,获得表象的数据质量问题汇总报告,再进一步对数据库中主数据、敏感数据、数据库对象等作深入分析,并借助人工探索或者智能探索(数据质量检查软件等)将数据质量问题作深入的剖析,由表到里,由浅至深,发现数据质量所导致的根源问题。而对于生产环境,我们通常无法直接在生产库上做一系列数据质量评估的操作。通用的流程如图4所示,自下而上,自左至右,源系统卸载接口文件,在通信服务器进行文件级和记录级别的检查。在数据准备区进行键值及关联性检查;在数据整合区,接收数据质量评估维度的检查(包括完整性、规范性、一致性等),数据质量评估各个维度的检查是数据质量评估的重要环节。最后,在数据集市层进行业务指标的校验。这一系列的检查校验结果均和数据质量评估体系进行交互并最终汇总,从而形成全面而深刻的数据质量评估报告。

图片4.jpg
图4 数据质量质量评估流程示意图

        3.数据质量改善

        数据质量的改善由数据质量评估(DQA)作为开始,数据质量改进的方法并不单一,目前主要涉及实例和模式两个层面。数据清洗(data cleansing, data scrubbing ) 是数据质量改善技术研究的主要内容,它主要关注于数据实例层面的问题,集中在重复对象检测、缺失数据处理、异常数据检测、逻辑错误检测、不一致数据处理等几个方面。具有代表性的是在线数据清洗方法,它是在有干净参照表的条件下进行数据清洗的方法,其基本思路是首先对干净的参照表数据建立一个 ETI(error tolerance index)索引,每一个在线输入的数据根据这个索引迅速找到与之最匹配的干净记录, 然后用它来取代, 从而完成对输入数据的在线清洗。

        XML数据作为具有代表性的半结构化数据,已成为网上数据传输和交换的标准,相比于传统的关系数据库数据,识别层次状的XML数据中的重复元素时,要面临着两个挑战性的问题:结构的多样性、复杂的元素和子元素间的依赖关系。为了解决XML文件的多样性问题,有研究者采用 XQuery 语言将具有不同子树结构的XML元素变换成统一的结构,并将同层次的XML元素的内容合并为一个元素来处理。但这种方法由于混淆了具有不同标签(元素名)的数据进行相似性计算,会损失精度。

        图5从数据质量评估报告作为出发点,通过数据质量问题的深入调查,设计数据标准化规则,在对问题数据进行解析和标准化处理后,匹配相似的记录并基于预设的标准执行消除和整合,最终实现问题数据的重新生成。数据标准化-数据匹配-数据重新生成也被称为数据的重构。

图片5.jpg
图5 数据质量改善示意图

        4.数据质量监控

        要建立一定的监控机制,以确保数据治理过程被合理地实施,同时及时查找问题,发现问题,解决问题,减少损失,提高数据质量和实施数据质量改进工程的效果是数据质量监控的主要目的。数据质量持续监控,一方面确保为将来提供准确、一致和及时数据,使数据始终符合数据质量业务规则,确保企业数据始终保持最高的质量并防止随时间推移导致数据质量下降;另一方面基于企业对数据质量问题处理的要求合理制定数据质量监控处理流程,方便问题数据的处理和清洗。快速定位数据质量问题影响范围,通过元数据关联关系分析,可定位问题数据出错的源头和受影响的范围,及时通知关联方,降低由数据问题带来的影响。

        图6描述了数据质量监控的示意图,以数据质量监控为核心,一方面元数据管理(元数据存储库)结合由数据质量管理所配置起来的一系列数据质量检查规则,形成数据质量检查知识库;另一方面数据集成平台持续不断地为数据质量监控平台服务,提供问题和劣质数据,数据质量监控平台经过一系列的检查和校验不断更新和新增数据质量检查知识库。这样,数据质量评估报告会更加全面和准确,同时可以对数据监控策略做相应的修正,形成良性交互。

图片6.jpg
图6 数据质量监控示意图

三、结束语

        数据治理作为信息化过程中的必经之路,需要长期稳定、持续不懈的推进,企业高层决策者的战略支持和持续的资源投入是获得数据治理成效的重要保障。目前,国内大多数企业的数据治理工作仍然偏重于技术,主要工作还停留在现有业务环节的数据问题等方面,包括现有数据的清理、查重、映射、标准化等内容;而对更深层次的数据治理体系,例如涵盖企业业务数据总线的数据管控体系设计、数据规划设计、数据中心等方面还未有更多进展。期望国内企业会借鉴国外先进企业的数据集成、数据服务、数据管理的经验和优秀的数据治理构架策略,从组织、标准、流程、质量、运营等方面构建企业全生命周期的数据治理体系,不断探索建立数据治理机制的有效方式,切实提升企业信息化的应用水平,获得持续的核心竞争力。

 

首页 上一页 1 2 3

扫码即可手机
阅读转发此文

本文评论

相关文章