江苏银行大数据技术平台选型分析_金融大数据

江苏银行大数据平台建设起步于2014年底，2015年年中初见成效。目前江苏银行利用大数据技术开发了一系列具有一定社会影响的大数据应用产品。

江苏银行大数据平台建设起步于2014年底，2015年年中初见成效。目前江苏银行利用大数据技术开发了一系列具有一定社会影响的大数据应用产品：如“e融”品牌下的“税e融”、“享e融”等线上贷款产品、基于内外部数据整合建模的对公资信服务报告、以实时风险预警为导向的在线交易反欺诈应用、基于柜员交易画面等半结构化数据的柜面交易行为检核系统等。

图片2.jpg
江苏银行股份有限公司信息科技部总经理葛仁余

大数据应用的本质是对客户需求的认识和释放，应用效果取决于银行的综合运营服务意识，而选择一个合适的技术平台也是大数据成功应用的不可或缺的重要因素之一。江苏银行在大数据技术平台建设方面进行了大量探索和思考，本文重点介绍其大数据技术平台选型思路，以期与同业共同交流、分享、探讨大数据技术在银行业的应用实践。

一、为什么要建设大数据技术平台

截至2015年6月，江苏银行资产规模达到1.2万亿元，一方面，成立8年来，江苏银行积累了大量的内部数据，以往受限于高性能存储的成本和数据并行化处理能力，占总存储量80%以上的数据是“死”在系统里的。以对私客户的活期账户为例，一张拉链表的数据量就达数百GB，运行在IBMP6系列小型机上的Oracle数据库统计一下表的行数就要3个小时，若需要全量回算历史数据，为避免影响生产，需要将数据导出到另外的数据库上，花费几天时间。又如，诸如“柜员操作记录”这样的半结构化数据每天产生的数据量达几个GB，生产环境只能保留最近几天的数据，其他数据存储在磁带库上，使用时需花费大量的人力将数据从带库中导出。

另一方面，为减少贷前审查的录入成本，开发纯线上贷款产品等，江苏银行陆续引入税务、法院、工商、黑名单等外部数据。随着内外部数据量的快速增长，大规模数据处理和实时响应的需求使得传统的数据处理平台遭遇瓶颈，江苏银行急需探索新的数据架构，采用新的数据处理技术。

当前，银行业面临的挑战主要来自两个方面：利率市场化和互联网金融。利率市场化拉近了传统银行与实体经济的横向联系，要求银行快速提升数据洞察能力;互联网金融使得银行的数据应用不能局限于传统的查询统计分析应用，还需提供高效精准的营销，并具备实时风险防控能力。相较于大型商业银行，城商行的竞争更加激烈，传统的数据产品和应用服务已无法满足新形势下城商行应对市场竞争的需要。

二、大数据技术平台架构分析

经过对主要大数据处理平台的深入研究，江苏银行将关注点聚焦在两个方面：一是选择MPP还是Hadoop;二是选择开源版Hadoop还是发布版Hadoop。为此，江苏银行更近一步从数据容量和数据处理能力的线性关系分析传统数据平台、MPP和Hadoop的关系(如图1所示)。

图片3.jpg

传统观点认为，MPP的适用范围为1TB~100TB数据量，数据量超过100TB，Hadoop更具优势。当前，大中型城商行的数据量普遍在10TB级别，因此一些城商行选择MPP作为大数据处理平台。

然而，近年来随着Hadoop开源社区的不断发展，特别是Spark2.0的发布让Hadoop焕发了新的活力。Spark2.0具有RDD(ResilientDistributedDatasets)和DAG(有向无环图)两项核心技术，基于内存计算优化了任务流程，具有更低的框架开销，使得Hadoop在MPP擅长的100TB以下数据量的处理性能也大为改善。以目前的Hadoop技术，100GB以上的数据量处理性能不弱于传统关系型数据库和MPP，10TB以上性能优势更为明显。因此，图1所示混合架构的大数据处理平台模式逐渐淡出，形成如图2所示的新型应用模式。

图片4.jpg

江苏银行从经济成本和未来数据的非线性增长趋势的角度分析认为，传统的交易系统运用关系型数据库处理OLTP事务操作，产生的交易数据通过异构数据的批量复制方式或消息队列的准实时方式更新至Hadoop平台，Hadoop平台进行大体量数据的分析和挖掘，并提供基于大数据的应用系统实时检索的模式，与城市商业银行目前的数据架构相适应，决定选择Hadoop平台。

选择开源版本的Hadoop还是产品化的发布版Hadoop?众所周知，Hadoop的优势是没有额外的产品费用，技术更新快，开放程度高，应用服务集成商多。国内很多知名互联网企业在开源版本的Hadoop基础上优化形成了自己的大数据产品。为此，江苏银行考虑基于Hadoop开源框架自建大数据平台，但测试后发现此方法可行性不高，原因有三：

一是城商行科技力量有限，大部分力量投入在应用研发领域，在基础软件的研究和开发方面的专业能力远远比不上IT公司，即使只从事集成组件的工作也不一定能达到预估的效果;

二是深入研究平台技术需要一定的时间，城商行在起步阶段已经落后于互联网企业，来自互联网金融的激烈竞争留给城商行的时间远远不够;

三是行业监管机构对商业银行应用系统的安全性、稳定性和连续运营有着严格要求，开源产品一旦出现重大问题没有及时修复的保障。

1 2 下一页尾页