商业银行融合式数据分析架构探讨_金融大数据

银行业作为社会经济活动重要参与者，也需要不断革新，顺应数字化浪潮，实现业务转型升级。在银行业的数据分析业务领域，正呈现数据类型多样化、数据处理实时化、数据来源多源化、分析层次提升化、数据分析关联化五大趋势。

背景：随着智能手机、社交媒体、视频监控、物联网等技术的不断普及，人类生活日益数字化，2016年中国数字经济规模已达22.6万元，总量占GDP比重达30.3%。

　　机遇：银行业作为社会经济活动重要参与者，也需要不断革新，顺应数字化浪潮，实现业务转型升级。在银行业的数据分析业务领域，正呈现数据类型多样化、数据处理实时化、数据来源多源化、分析层次提升化、数据分析关联化五大趋势。　　

银行业数据分析五大趋势

　　1.数据类型多样化。随着交易线上化和业务电子化的不断推进，银行业的数据分析类型已经从传统的交易、账务类等结构化数据向业务日志、票据影像等半结构化和非结构化数据类型扩展。银行业使用的大数据分析的产品，也从过去的关系型的Teradata、Greenplum等数据库向非关系型的Hadoop、Spark等框架扩充。近年来针对银行理财和代销产品销售违规行为多发、“飞单”案件频出的情况，银监会已经出台监管新规。银行推销理财产品须录音录像，2017年底之前，在全国主要的商业银行已全面推开‘双录’机制。未来半结构化和非结构化数据规模占比将进一步扩大。统计预测到2020年，全球数据总量中90%都是非结构化类型。

　　2. 数据处理实时化。商业银行传统的数据分析方法是一种离线式模式，该模式虽然在海量数据处理（PB级）和模型稳定度（FS-LDM模型）方面具有优势，但是存在数据分析响应时间过长的不足（一般为T+1天），不能满足行业决策和风险管理日益实时化的要求。为了在激烈的竞争中获得时效性优势，商业银行需参照互联网行业的经验，打造流式数据分析架构。此类框架具有模型轻量化、时间毫秒化、计算去持久化（内存迭代计算）、高扩展性等优势，可以实现高吞吐率的实时数据分析，已经在商品推荐、新闻推送等领域得到成功的应用。

　　3. 数据来源多源化。目前技术脱媒现象加剧，用户的第三方支付等数据不断在互联网金融企业沉淀。支付数据缺失和交易离柜率高企双重因素作用，使得商业银行对客户的精准分析和精准营销就成为无源之水。为应对这些问题，金融企业必需与互联网企业合作，进行外部数据的引入，从而更好地获取客户、分析客户、推销产品。截至2016年6月，央行征信中心覆盖8.8亿人群，信贷人群仅3.8亿，个人征信体系覆盖率仅为28%，远低于美国征信体系对人口85%的覆盖率。阿里巴巴等公司通过对天猫、支付宝等积累的大量网络经济下用户和商户的数据进行挖掘分析，建立了芝麻信用等互联网征信体系，是对央行征信“盲点”的必要补充。商业银行可与第三方征信公司合作，提高金融服务覆盖人群、挖掘信贷潜力（互联网信贷产品借贷年化利率普遍接近20%，银行有巨大的利率优势）、落实普惠金融。

　　4.分析层次提升化。以往商业银行的数据分析主要产出物是报表和仪表盘，是一种“定型化”的基于解释型的事后数据分析方法，主要为公司日常运营及外部监管报送服务，具有滞后性和封闭性的特征。现今，为应对金融衍生品估值瞬息变化、量化交易方兴未艾的新情况，商业银行的数据分析层次需要提升至数据科学级别，通过数据自动化的设计产品、发现机遇、预测风险，实现数据即产品、数据即服务。

　　5.数据分析关联化。商业银行的数据分析已不再单单是自有业务系统的关系型数据的集成分析处理，而是关系型、非关系型和第三方数据的一体化集成处理。只有对数据进行多维度关联分析，商业银行才能在移动互联网的时代构建从客户身份识别、交易验证、争议解决、风险控制、欺诈识别一整套的数据链。数据显示，全球银行业营业额0.5%～3%的损失来自欺诈，传统的反欺诈过程，主要是基于自有数据，通过异常检测、交易阻断、黑名单库建立，规则固化一系列流程实现，但如今欺诈份子的手段和技术不断迭代更新，传统方法已经垂垂老矣，难以应对新挑战。商业银行只有将自有交易数据、生物特征数据、与互联网数据结合，根据用户消费习惯、指纹声纹、地理位置、商户标签等做多维度关联分析，才能在移动支付时代更好地识别交易欺诈，降低运营损失。

数据分析架构革新

　　1. 整体路线规划。商业银行对现有离线式结构化的数据分析架构进行革新，主要应包含如下方面：在数据类型上，实现对结构化、半结构化及非结构化数据的支持；在时效性上，实现对实时和离线式数据分析的支持；在数据来源上，实现对内部数据、外部采购数据和网络爬虫数据的覆盖；在数据分析的层次化上，实现基于各类数据的聚合分析挖掘及预测。

　　按照数据分析处理的先后层次，该架构可以划分为：数据采集层、数据计算层、前端应用层和聚合分析及挖掘区（如图1所示）。

图片2.jpg
图1 融合式数据分析架构

　　2. 数据采集层。数据采集层的作用是基于数据处理时效性的不同需求，实现对结构化、半结构化及非结构化数据的采集。

　　对于流式的结构化数据的采集，商业银行可以根据源系统的数据库产品类型，采用Ogg（与Oracle数据库适配）或是Canal（与Mysql数据库适配）。此类工具可以实现异构环境下数据的实时捕捉、变换及投递；对于流式的半结构化、非结构化数据的采集，可以采用Flume等工具，该类工具具有高可用、高可靠、分布式的特点，并且可指定数据的发送方和接收方。对于收集的各类流式数据的集中存储，开发人员可以使用Kafka组件，该组件是一种高吞吐量的分布式发布订阅消息系统，可以支持百万级别的数据在生产者和消费者之间传递，并且可以支持消息按照话题分区、支持多语言。

　　对于离线式的半结构化及非结构化的数据的采集，商业银行可以将文件在NAS上进行汇集。在此需要注意的是，大量的小文件会对Hadoop的Namenode节点内存造成巨大压力，在数据进入计算层之前，开发人员可以考虑使用Archive组件，其本身是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件打包成一个HAR文件，这样在减少Namenode内存使用的同时，仍然允许对文件进行透明的访问,从而减少Namenode内存使用。

　　对于离线式的结构化数据的采集，开发人员可以沿用以往的标准处理流程，采用上游业务系统定时进行批处理卸数的方式，将数据文件下发到NAS上进行汇集。

　　在此特别需要注意的是，开发人员可以根据下发数据自身质量结合数据后续计算路径的差异，选择性地对NAS上存放的数据进行检核操作，从源头上做好数据质量的把控工作。

　　3. 数据计算层。数据计算层的作用是针对数据处理时效性和数据类型两个维度的综合要求，采用针对性的产品，进行指标计算，在架构中承担着数据再组织的工作。

　　针对流式的结构化及半结构化数据的计算，可以采用Spark-streaming、Storm及Flink等工具进行，三类产品的计算时效性和并发支持度方便各有侧重，可以根据需求综合选取。针对流式的非结构化数据的计算，开发人员可以使用人工智能识别技术提取非结构化数据中的信息，再将信息插入Kafka队列中以备后续处理。

　　针对离线式半结构化数据的计算，开发人员可以采取Hadoop标准的Map/Reduce计算框架，将数据转换成Key-value的键值对的形式，再结合业务查询的特点，将数据插入Hive表或是HBase表。Hive适合批量数据的查询，Hbase适合主键查询。针对离线式非结构化数据的计算，跟流式非结构化数据处理方式类似，先调用人工智能程序识别出价值信息，再依据数据量和业务时效性两方面的需求，将数据插入到Hbase表数据或是进入Map/Reduce计算逻辑进行集中处理。

　　针对离线式结构化数据的处理，商业银行可以沿用过去的加工处理流程，先将数据文件在贴源数据区还原成数据表，下一步按照合约、法人、位置等主题域将数据进行再组织，后续再进行各指标分量的计算。对结构化数据的处理，目前商业银行常用的计算平台是Teradata和Greenplum，两个产品各有侧重，开发人员可以根据数据加载效率、计算规模、企业财力等方面综合考虑进行选取。

　　4. 前端应用层。前端应用层的主要作用是对计算层的结果数据进行可视化展示，从而实现对商业智能的支持。

　　针对HBase及Hive表的数据展示，开发人员可以考虑使用Hue组件，它是基于Python Web框架Django实现的。通过该组件,开发人员可以在浏览器端的Web控制台上与Hadoop集群进行交互式的数据展示。

　　针对关系型数据的展示，开发人员可以考虑沿用Cognos等BI组件，该类组件可以提供无缝密合的报表、分析、记分卡、仪表盘等解决方案，还可以支持自助报表。

　　5. 聚合分析及挖掘区。虽然银行业现有的商业智能架构可以解决数据的准确性和可用性问题，但是难以满足数学挖掘业务对数据的灵活性和敏捷性的要求，所以需要建设专门的聚合分析及挖掘区。聚合分析及挖掘区的主要作用是实现对结构化、半结构化数据的汇聚分析，并支持数据挖掘预测。商业银行可以根据自身管理要求及财力，在仓库内部使用分析沙盘或是采用独立的物理集群构建聚合分析及挖掘区。

　　为实现结构化和半结构化的聚合分析，开发人员首先要解决两类数据之间的交换问题。Sqoop组件可以实现Hadoop框架和关系型数据库之间海量数据的互相迁移。

　　常见的数据挖掘算法有：聚类、关联规则、回归及时间序列分析等。数据挖掘人员可以根据业务特性选取合适的方法进行探索性研究。

　　如果在关系型数据库中进行挖掘工作，开发人员可以选用Mablib库，其针对结构化和半结构化数据提供了数学、统计和机器学习方法，也可以考虑使用SAS等功能强大的商用软件；如果在非关系型数据库中进行挖掘工作，开发人员可以考虑选用IPython+Jupyter Notebook +Scikit-learn组合形式。其中IPython是是一个加强版的交互式 Shell，Jupyter Notebook 的本质是一个 Web 应用程序，便于创建和共享程序文档，支持实时代码、数学方程、可视化，Scikit-learn是一个功能强大的python包。在数据量不是过大的情况下，该组合可以解决大部分问题。如果数据量达到一定规模，开发人员可以考虑IPython+Tensorflow组合形式。

（作者是建信财产保险有限公司严政、中国建设银行北京开发中心姜兆龙）

（文章来源：金融电子化杂志）

扫码即可手机
阅读转发此文

本文评论

频道最近更新

商业银行如何构建大数据生态系统

2013年下半年，余额宝看似“暴发户”式的成功造成了银行领域的极大震动，大

频道热门文章

大数据时代如何构建数据服务体系

数据是未来银行的核心竞争力之一，大数据对银行的数据驾驭能力提出了新的挑

商业银行融合式数据分析架构探讨

本文评论

相关文章

频道最近更新

频道热门文章