- 快捷搜索
- 全站搜索
去“IOE”的概念最早由阿里巴巴集团(以下简称“阿里”)于2009年提出,经过四年多时问,在2013年阿里宣布成功完成去“IOE”。所谓的“IOE”,是指IBM,Oracle,EMC的首字母缩写,去“IOE”中的“I”,是指不再使用IBM小型机,即将集中式技术架构改为开放式x86硬件平台的分布式技术架构提供数据服务;去掉“O”,是指以开源数据库产品替代以Oracle为代表的商业数据库产品;去掉“E”,是指不再使用EMC等公司提供的中高档存储设备,改为使用开放通用的x86主机的本地存储。
IBM小型机、Oracle数据库及EMC存储设备,构成了从软件到硬件的完整商用IT系统架构,可以说是同类产品中的最佳组合。阿里在去“IOE”后,从IBM小型机+Oracle数据库+EMC存储设备(即“IOE”体系)迁移到x86服务器的模式+MySQL数据库,并最终切换到自主研发的飞天云计算平台上的ODPS(0pen Data Processing Service,开放数据处理服务)。换言之,阿里在硬件上,以廉价并符合工业标准的x86服务器替代了IBM小型机和EMC存储设备,解决性能快速扩展和软硬件投资的压力;在软件上,将Oracle数据库以开源的MySQL和Hadoop替代,将Oracle RAC(Real Application Cluster,实时应用集群,用于提供高可靠性)以Hadoop集群替代。阿里成功实施去“IOE”工程后,资金成本显著降低,计算能力大幅提高,业务架构轻便、灵活,最主要的是降低了对厂商,尤其是国外IT巨头的依赖程度,技术把控能力显著提高。
而面对当前日趋严重的国内外信息安全形势,作为“IOE”设备被大量应用的金融行业,如何进一步加大国产设备的使用,着力提升信息安全水平成为其当前需要思考的问题。
一、去“IOE”的起因
阿里是一家巨型互联网电子商务集团公司,从根本上来说,阿里提出去“IOE”战略是因为原有“IOE”的技术体系架构已经不能适应海量数据、大规模并发访问下的业务增长。阿里实施去“IOE”,是为了提高业务的可扩展性,是技术、业务以及资金成本等多种因素共同作用的结果。
1.技术体系的瓶颈
(1)“IOE”技术架构的制约
“IOE”技术体系是当前被普遍采用的IT架构,具有强大的处理能力,通过负载均衡、失效转移等多种技术手段保障整个体系的稳定性,依靠大型高端设备来提供高处理能力和拓展性,可以说,“IOE”体系是集中处理架构的典型代表。随着系统规模的扩大和复杂度的提高,其管理和维护都面临极大的困难,比如在处理海量数据的并发访问时,“IOE”体系就像是一个强大的单点,在这种情况下,任何偶然出现的小概率事件(比如网络抖动、服务器异常、光纤或空渊故障等)都会对所有用户产生非常大的影响。以淘宝为例,把几个亿用户的应用都放在这种体系的一个库里面,就好比把所有鸡蛋都放在一个篮子里,风险显而易见。例如,2013年“双十一”促销节一天,阿里实现总交易额350.19亿元,较2012年提升了75%,支付宝成交笔数1.88亿,其中淘宝仅用了55秒交易额便突破l亿元,原有集中式的“IOE”技术体系已远不能满足阿里爆炸式增长的业务需求。
(2)技术把控力降低
对于商用产品的用户而言,当IT系统出现任何底层问题无法通过自身技术能力解决时,最后一定需要依靠设备厂商协助解决,因为一方面厂商最熟悉自己的产品,另一方面,厂商在技术实力、专业性和人员等方面有着相对优势,但需付出一定的时间成本,因为厂商不可能搭建与实际用户一样的环境来复制出现的问题,于是少数极端问题仅凭单个厂商根本无法解决,比如像阿里这样大规模、高并发的互联网电子商务场景。商用设备在交付用户后,更多的是为用户做使用和维护培训,设备对用户来说更像一个“黑盒”,在遇到底层问题时,就需要厂商拿着用户的数据,回去搭建环境模拟问题出现的现象,进而找到原因和解决方案,这中间的周期往往很长。以淘宝为例,在2013年“双十一”凌晨期间,淘宝交易额突破l亿元只用了55秒,达到10亿元用了6分7秒,达到50亿元用了38分钟,可以想象,如果前面30分钟出现任何问题都需要借助厂商力量解决的话,那么由此所带来的时问、成本以及损失和影响等都是巨大的,而且一旦发生突发事件任何措施都将于事无补。同时,“双十一”的零晨30分钟往往是优惠力度最大的时候,也是用户并发访问最多的时候,依赖“IOE”体系,也意味着将有可能面临系统失控的风险。
2.业务拓展受限
对于互联网企业,尤其是电商企业而言,业务创新是提升自身竞争力的一个重要砝码,而业务创新在很大程度上也是对IT平台灵活性、稳定性和拓展性的考验。很多应用场景(如促销、团购等)可能只是临时的一个决定,而基于“IOE”的技术体系为了推广一次促销活动,从采购设备到开发、测试、部署、上线推广至少需要半年的时间,如果不能够满足要求还需要进行硬件扩容,经过反复测试、验证等,才能完成IT系统扩容的过程,而很可能半年过后这项业务已经不存在了。尤其是像历年“双十一”这样的业务暴增时点,很难预估交易量,也很难推算需要多少服务器等资源才能保障不宕机,如果一次性投入太多服务器、数据库和网络资源又等于浪费,而买少了又无法保障业务,很难在两者之间估算出一个平衡点。此外,从决定到实施过程做到快速响应是对规模型电商企业的要求,而依靠“IOE”体系承载则往往需要较长的周期,缺乏一定的适应性和灵活性,无法满足阿里快速应对业务变化的需求。
3.成本因素
搭建“IOE”系统往往意味着高成本。比如,从淘宝应用角度来看,在发展之初淘宝将所有应用都放在几个集中库当中,并以应用作维度进行区分,如商品库、用户库、店铺库等,每个库基本上是以“IOE”来支撑,但这些库发展速度非常快,如商品库以每年翻一番的速度增长,于是开始尝试垂直拆分,第一年一拆二,第二年二拆四,再往后每年再翻一番。据了解,一台IBM P系列小型机在通常几百万元人民币的数量级,一个节点Oracle软件在数千万人民币的数量级,抛开新设备的购买成本不算,仅是软硬件设备的维护费用就需相当大的支出,因此,在业务爆炸式增长的情况下,如何有效地控制IT软硬件成本,是摆在阿里面前无法忽视的问题。
二、去“IOE”的过程
阿里去“IOE”,基本是按照先去“I”,再去“E”,最后去“O”的顺序来开展的。从2006年开始,阿里的部分业务开始呈现几何级数式的增长,这直接导致其面临数据库过大的问题。2008年,阿里已经成为全亚洲最大的数据库用户。以当时的技术能力而言,数据库已经几乎不具备扩展可能。2009年,Oracle产品构建的RAC集群成为国内最大的数据仓库,淘宝构建第一个分布式计算系统Hadoop集群。2010年起淘宝不再购买小型机,尝试使用MySQL+自研数据库(OceanBase)替代Oracle,并不再使用高端存储。从用Oracle处理数据,到用Hadoop集群,到发展成业内单个机群节点数最多的Hadoop机群,再到用自主研发的飞天平台上的ODPS,阿里最终把核心业务都搬到了云端。2009年,作为阿里旗下两块核心业务之一的淘宝成为第一个吃螃蟹者,从积累问题较多的商品库开始去“IOE”,随着淘宝项目的成功推进,以及示范效应的出现,作为阿里另一块核心业务的支付宝,以及B2B也陆续进入。到2012年底,淘宝系成功完成去“IOE”,2013年5月,阿里最后一台IBM小型机在支付宝下线,EMC存储设备在2013年中全部下线。
纵观阿里去“IOE”的过程,也是其技术体系不断摸索、认识和深化的过程。早在电商平台刚刚起步的时期,基础计算和技术积累还不够,通过采用典型的“IOE”架构以付费方式换取时间,用商业软硬件解决发展的问题;当业务发展到一定程度的时候,高昂的软件无法支撑业务快速发展的需要,开始尝试开源技术的应用;在开源技术应用的过程中,团队的技术实力不断增强,当软件开发达到一定程度的时候又开始逐步摆脱对高性能硬件品牌设备的依赖,最终形成自主技术和云计算构成的综合技术服务能力,将各种核心应用搬上云端,在满足自身业务拓展需求的同时具备对外输出云计算的能力。
三、去“IOE”的事后评价
阿里开展的去“IOE”是一项庞大的战略性系统工程,无经验可循,且风险高、收益高。作为巨型的互联网电子商务企业,阿里的去“IOE”一方面解决了由于海量数据、高并发访问下的业务增长所带来的各种问题;另一方面,其工程的实施,也从技术上、人员上、组织上等各个方面为后来人积累了宝贵经验。
1.完备的技术准备和正确的路径选择
完善的技术基础和正确的技术路径选择是阿里成功去“IOE”的前提。阿里的去“IOE”工程,从根本上讲,就是软硬件层面上两种体系的较量。硬件架构上是Scale一Out(横向扩张存储系统架构)与传统Scale-Up(纵向扩张存储系统架构)的较量;软件层面上则是分布式应用与传统大型系统应用的较量,“IOE”是传统技术体系的代表,在去“IOE”的过程中,阿里从最开始对“IOE”技术的掌握,到对开源技术的积累,再到对分布式技术的应用以及云技术平台的实施,阿里始终把掌握核心技术作为工程开展的前提。与此同时,作为规模型的互联网企业,阿里最终选择了云技术平台作为去“IOE”的技术路径,充分利用云计算特性解决海量数据、高并发访问、高增长等具有互联网特性的业务难题,不但从根本上解决了业务扩展的问题,还通过构建阿里云对外输出其计算和服务能力,为大数据等应用奠定了坚实基础。
2.雄厚技术实力的人员
成功实施去“IOE”工程的另一个前提是以技术为引导的阿里拥有大量的开发人员,足以针对这些底层代码进行维护,不需要依赖相应商用产品的服务。去“IOE”的过程中,最难的部分在于人,每一次技术路径的转换,都是技术人员在革自己的命,技术的重新选择让阿里最核心的一批技术人才,要随时面临熟练的技术突然没有用的情况。2011年,阿里还将旗下运维团队、平台技术部、大淘宝运维团队、云计算运维团队等整合到一起,成立了集团统一的IT技术保障部,集中了技术人员的优势,也为后期阿里云对外提供服务打下了很好的基础。在去“IOE”的过程中,提升和锻炼团队的能力、协调好运维和开发团队间的工作也是成功去“IOE”的关键。
3.坚定的企业战略决心
阿里坚定的去“IOE”战略决心不是一句空谈。2013年阿里集团年成交总额达1.5万亿元,季度活跃用户数超2亿(数字来自招股说明书),对于这样一个巨型的互联网公司,在不影响日常业务的情况下,如果没有坚定的去“IOE”战略决心,是不可能完成这样一个前无古人、毫无经验可循的大型工程。此外,去“IOE”的过程,也是对阿里组织、战略、人员和技术的多重考验,没有坚定的决心,强大的组织和后勤保障,是不可能完成这样一项复杂而艰巨的任务。
纵观中国银行业所经历的转型与发展,目前所实现的业务模式创新仍具备“以点
直销银行即使作为传统银行的渠道价值存在,金融互联网化的趋势和直销银行在