商业银行IT系统性能预测模型研究_软件应用

CPU使用率、联机交易业务量、 CFS特征选择算法

如何建立和形成银行IT系统业务容量与基础硬件资源的关系模型，进而合理估算当前系统的最大业务承载能力，对于银行IT生产运维部门是一个亟待解决的课题。本文正是以银行数据和信息为基础，结合统计学的方法，研究和建立相关的数学模型，从而形成业务容量与某一种或某几种硬件资源配置的关联关系，最终用于硬件资源的有效预测。

随着金融业务的发展和移动互联技术的使用，银行IT系统在确保7×24小时不间断运行的同时，还要应对移动互联网业务的突发性和不确定性冲击，为应对这种可能的业务风险，业内普遍做法是采用硬件资源的冗余配置，而当前IT技术突飞猛进，冗余设备快速贬值，且生产线上冗余设备在多数时间处于空闲状态，致使设备使用率低下、投资浪费。当前国际上比较通行的方法是通过TPCC或者SPEC基准测试获得的数据进行硬件资源的推算。但无论是TPCC还是SPEC，被测应用都是基准应用，而不是实际应用系统，基准应用和实际应用的差别会导致推算结果出现严重误差，且其所需要的测试成本高昂，较难掌握和使用。

如何建立和形成银行IT系统业务容量与基础硬件资源的关系模型，进而合理估算当前系统的最大业务承载能力，以及随着业务量的增长如何有效测算硬件资源升级扩容配置，从而最大程度地保护投资，对于银行IT生产运维部门是一个亟待解决的课题。

一、确定研究依据和方法

对于银行重点和关键IT系统，光大银行积累了较长期且较为丰富的生产运行容量、性能和资源使用等监控数据，其中记录了上线运行以来逐年增长的业务量、每次升级扩容的硬件资源信息和相应的系统运行性能数据，同时在历次进行性能测试的过程中，也积累了相应系统在多种硬件资源配置下的极限和容量数据。本文正是以这些数据和信息为基础，结合统计学的方法，研究和建立相关的数学模型，从而形成业务容量与某一种或某几种硬件资源配置的关联关系，最终用于硬件资源的有效预测。

在研究过程中，可将复杂问题拆解，由单一系统、典型业务类型(日间联机交易类)入手，分为数据预处理、关键因子选择、模型建立、模型校验和修正四个步骤开展，在具备一定可行性之后，依此方法复制到如批量处理等更多的业务特征类型以及更多的系统中进行应用。

二、数据预处理

通过系统历年来的运行监控数据，获取系统各硬件资源使用率数据(如表l所示)。该数据通常是每隔五分钟采集一次。

结合统计学方法的银行IT系统性能预测模型研究-表1.jpg

其中，监控时间点为名词性数据，批量时间时段为字符串，其他的字段均为数字型数据。获取数据后，还需要进行缺失数据补充和无效数据的剔除，特别是非关注时段的数据剔除。

三、关键影响因子选择

基于数据预处理得到的大量数据，分别采用回归分析理论和CFS理论，从内存使用率、磁盘IO使用率、CPU使用率三个维度进行分析，以确定最主要的影响因子。

1．回归分析

在回归分析中，将联机交易业务量定义为因变量(用y表示)，分别将内存使用率、磁盘IO使用率、CPU使用率定义为自变量(用x表示)，借助散点图寻找y与x的关系函数及相关系数，判断两个变量间的线性关系强弱，即相关系数R。∣R∣值越大越接近于1，误差值越小，变量之间的线性相关程度越高；∣R∣值越接近于0，误差值越大，变量之间的线性相关程度越低。

利用统计学软件，计算出内存使用率、磁盘IO、CPU使用率分别与联机交易量之间的关系(如图1、图2、图3所示)。

结合统计学方法的银行IT系统性能预测模型研究-图1、2、3.jpg

从图3可以看出CPU使用率和联机交易量之间明显存在着关系，且两个变量相关系数的平方为0.7753，接近1，也说明存在线性关系。

2．CFS特征选择

CFS特征选择算法使用一种嵌入在函数内容中的搜索算法去评估特征子集的优劣，它基于这样的假设：好的特征子集与预测变量高度相关，而它们自身的相关度却很低。如下公式就是基于这个思想而设立的。

图片4.jpg

其中，k是在特征子集中属性的数量；是每一个属性与类变量相关系数的均值；是属性间自相关系数的均值。根据上述假设思想，这个等式的取值越大就表示选取的变量集合越好。

算法的运行过程在此略去，运算结果显示最优的特征集合内只包含CPU一个属性。

结论：根据回归分析和CFS特征选择两种方法的计算结果，可以认为CPU与联机交易业务量的关联性最高，是多种资源因子中最主要的关键影响因子，最终将只保留CPU作为唯一变量，来构建与联机交易业务量的模型函数。

四、模型建立

在确定关键影响因子(CPU)后，采用线性回归模型和非线性回归模型等多种方法进行研究和计算，并在之后采用神经网络模型进行学习、优化，最后通过模型对比评估确定最有效简便的模型。

1．线性回归模型

构建回归模型过程中，需要配合回归值与残差的散点图来检验模型是否合适。采用最小二乘的方法模拟一元一次至八次回归，从图像模拟曲线来看(如图4～图12所示)，随着线性回归次数的增加，相关系数∣R∣值越来越接近于l，标准化残差(残差散点图)也越来越收敛于[一2，2]之间，说明相关性逐步提高。八次回归得到的结果最好，曲线比较符合实际的情况，但在应用中也存在缺点，如函数式比较复杂、计算量比较大，且从图像上来说很难预测将来的图像形状，CPU较大时的图像可能与实际相差较大。

图片5.jpg

2．非线性回归一对数函数模型

考虑到函数的曲线可能在一段上升比较快，之后一段上升比较平缓，可采用非线性的回归模型一对数函数模型。

对数函数模型为：

对数函数在本质上可以将其看成线性模型，它具有线性模型的性质，即参数是线性的。可把这种可以通过适当的变换转换为线性模型的非线性模型称为内在线性的。内在线性模型的求解可以参考线性模型的求解方法来求得。用统计软件来求解这个对数模型，得到的结果如下。

图片7.jpg

由运行结果可以分析，精确度***说明计算结果极为显著，对应两个系数的P值<2e-16非常显著，说明其通过了t检验。F检验的P-值<2.2e-16，也可以通过F检验，Multiple R—squared为0.8113，比较接近1，也通过相关系数的检验，且其值与一元回归模型相比，更为接近l。更进一步的是，其标准残差与一元回归模型相比要更小。

1 2 下一页尾页

扫码即可手机
阅读转发此文

本文评论

频道最近更新

银行历史数据集中系统的大数据技术实践

目前Hadoop/HBase广泛应用于各类具有大数据需求的企业，尤其是互联网企业，

频道热门文章

工商银行自主研发业务集中处理平台实践

工商银行启动业务集中处理改革，研发了具有自主知识产权的业务集中处理平台

商业银行IT系统性能预测模型研究

本文评论

相关文章

频道最近更新

频道热门文章