• 快捷搜索
  • 全站搜索

银行数据分析建模的研究

2017-10-09 20:24:54作者: 华夏银行科技开发中心 王亚喆 缪翔编辑:金融咨询网
为加强预测的科学性、框定信息系统建设目标、提升信息系统建设质量,本文在传统模式基础上,尝试依托系统历史生产运行数据进行分析和建模,完成点或面的预测,推导出信息系统未来业务规模、运行能力、资源使用情况。

在传统模式下,银行信息系统未来业务量和用户规模等业务需求的提出、系统处理能力和资源使用容量的规划、系统非功能测试指标预估等主要依赖业务人员、设计开发人员和测试人员的工作经验或借助帕累托等业界一般规则推导得出。这种基于经验的评估方式,预估值准确性较低,与实际可能存在较大偏差,在信息系统建设中的指导意义有限。

        为加强预测的科学性、框定信息系统建设目标、提升信息系统建设质量,本文在上述传统模式基础上,尝试依托系统历史生产运行数据进行分析和建模,完成点或面的预测,推导出信息系统未来业务规模、运行能力、资源使用情况。温故而知新,通过该方法获取系统未来预期,引导业务人员评估业务发展趋势,提出科学有效的业务需求,从而指导系统建设和运维人员有的放矢地进行后续系统容量规划、限流阀值设置、应急预案制订及其相应的系统升级改造。同时,也为测试人员进行系统投产前的非功能测试指标设定提供合理依据。

模型简介

        系统中某一变化的观测值按时间顺序(时间间隔相同)排列成一个数值序列,展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律。它是系统中某一变量受其他各种因素影响的总结果。许多经济、金融、商业等方面的数据都是时间序列数据。

        时间序列的预测和评估技术相对完善,其预测情景相对明确。尤其关注预测目标可用数据的数量和质量,即时间序列的长度和预测的频率。时间序列模型主要分为指数平滑模型和ARIMA模型两大类。指数平滑模型只适用于呈水平发展的序列且对上升的数据预测总偏低,下降的数据预测总偏高,不适用于业务量快速发展的银行信息系统。时间序列预测类型分为点预测、区间预测、密度预测等多种预测方式,并遵从以下原则。

        惯性原则。在一定条件下,被预测事物的过去变化趋势存在着某些信息会依照规律延续,可以利用历史数据解释与预测时间序列的未来。即该预测为历史规律的未来预测,如未来发生突发或不可控变化则不在预测评估范围内。

        近大远小原则。时间越近的数据影响力越大。即对未来的预测评估,时间越近越准确,历史数据越充足越准确。

模型建立

        完整预测模型的建立包含数据序列建立、数据序列验证、模型选取、参数设定、模型验证、预测分析等若干步骤。

        数据序列建立。根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其季节性变化规律,对序列的平稳性进行识别。一般来讲,大部分经济运行的时间序列都不是平稳序列。

        数据序列验证。对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降趋势,则需要对数据进行差分处理。如果数据存在异方差,则需对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。

        模型选取。根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。

        参数设定。进行参数估计,检验选取参数是否具有统计意义,预测值是否具有参考性。

        模型验证。进行假设检验,诊断残差序列是否为白噪声,曲线拟合程度是否较高。

        预测分析。利用已通过检验的模型进行预测分析。

建模例证分析

        下面以华夏银行某信息系统未来业务量趋势预测建模为例进行表述。

        数据序列建立。数据序列取自2015~2016年某信息系统连续日交易量的704个样本数据制作散点图。并用直线连接,发现该系统交易量随时间进展变化,呈现一种比较缓慢而长期的持续上升,个别为随机变动,整体呈统计规律,符合时间数值序列相关特征,见图1。

无标题.jpg
图1 日交易量散点图

        数据序列验证。时间序列建模首先需检验时间序列样本的平稳性、正态性、周期性、零均值,如序列不满足则需进行必要的数据处理变换。根据数据序列计算标准差和均值,发现数据序列标准差不为1、均值不为0,需精确计算序列ACF(自相关系数)及PACF(偏自相关系数)来判定数据序列是否需要平稳化转换。随着滞后数(lag)的增大ACF呈拖尾衰减趋势,PACF按周期性迅速逐渐衰减至可置信区间内,且在在某一固定水平线附近摆动,当lag=3后几乎衰减为0,经判定该序列为平稳序列。见图2、图3。

tu2.jpg
图2 ACF(自相关系数)

tu3.jpg
图3 PACF(偏自相关系数)

        模型选取。ARIMA模型分为自回归AR(p)模型、移动平均MA(q)模型、自回归移动平均ARMA(p,q)模型三个大类。根据数据序列ACF值拖尾,PACF值在lag=3后骤减的特征,判定某信息系统日交易量数据序列适用于AR(p)类模型。

        参数设定。AR(p)类模型共有两个参数分别为p、d,即AR(p,d)。由于为平稳序列所以差分值d为0,参数p分别根据周、月、季、半年、9个月、1年取值,获取模型拟合情况。

        模型验证。模型AR(p),取值周、月、季时拟合预测图中未来预测值全部或几乎呈线性增长,与实际不符。初步判断这3个模型预测不够准确,不能作为交易量预测模型,需根据模型适合度变量求值结果再次判断。由于受AR模型本身自回归算法的限制(当前值和p个过去值有关),模型AR(p)按半年、9个月、1年取值时,随着自回归模型中阶数P的增长,前期现存数据的拟合度较差,无法判断后期序列预测的准确性。根据模型适合度变量值(平穩 R 平方、RMSE、MaxAPE、MaxAE),可以得出当P取值为225,d取值为0时,平稳R方趋于平稳近似于1,拟合误差最小,预测最为准确。所以适用于某信息系统交易量预测非季节模型为AR(225,0)。

        分析预测。通过计算可知704个样本数据的拟合值中只有12天超出UCL(置信上限)值,模型整体拟合较好。使用模型AR(225,0)预测某信息系统半年后日交易量。

        取建模完成后实际发生的日交易量共180个样本进行数据验证,预测值基本覆盖实际发生验证数据,预测的系统日交易量只有8个日交易量超出UCL。图4为某信息系统日交易量拟合、预测、数据验证情况。

tu4.jpg
图4 日交易量拟合、预测、验证散点图

模型应用

        时间序列分析建模是经济领域应用最广的工具之一,该方法使用相应的模型描述历史数据随时间变化的规律,并依此规律推演出未来趋势。除未来业务量、处理能力、资源使用情况等基础场景的应用,通过时间序列分析建模并结合回归分析、基准测试和基于实际负载的评估,我们还可以将时间序列应用在以下多个场景中。

        业务需求应用场景。通过对不同类型业务历史数据推演,预测出该项业务活动的未来趋势,为银行业管理层制订业务发展战略、编制计划以及日常管理决策提供有效技术支持;同时根据不同系统业务量、支持同时并发的峰值交易量、不同类型用户数量变化,准确定义银行信息系统业务非功能需求,包括业务在今后3~5年的发展规划、用户在今后3~5年的发展趋势等。

        信息系统应用场景。信息系统容量局限于硬件配置及系统应用,需根据业务变化动态调整。硬件资源方面,通过系统资源历史数据对未来资源利用变化趋势提前评估,既可避免资源紧缺、资源浪费等现象,又可满足业务需求,提高容量管理效率。应用层方面,当现有信息系统架构无法满足业务高速发展,实施应用改造时目标设定尤为重要。以历史业务数据为依托进行预测的改造可按照信息化发展规划准确制订,包括应用系统数据存储结构,应用是否采用集群架构,是否将系统底层虚拟化接入云平台统一管理等。

        非功能测试应用场景。一是系统安全阈值预判。银行信息系统间交易互通,为确保交易路径上的每个系统、每个结点、每个环节可提供安全稳定的服务,相互之间减少耦合且不受路径外系统影响而设定系统限流阀值。当信息系统某个指标达到预先设定的阈值时,系统通过自动干预的方式拒绝新的请求。通过评估系统未来峰值业务量及高峰期系统资源利用情况,为系统设置限流阀值。该阀值的取值是否合理有效则依赖于对系统容量的评定和未来交易量的准确预测,且该阀值应随着交易量的变化动态调整。二是性能测试指标评定。依托系统历史TPS值(系统每秒能够处理的事务数量,是衡量系统处理能力的重要性能指标),推演出未来系统运行性能指标区间以提升信息系统性能指标制订的科学性。一般为保证性能测试结果可真实反映系统在生产环境的表现,要求性能测试环境与生产环境保持一致,该前提需配置大量高配硬件资源。但在实际工作中,为避免资源浪费,大部分性能测试环境与生产环境硬件配置存在差异。为使测试结果更为精准反应系统性能表现和非功能缺陷,可通过对生产环境业务量及资源数据进行分析建模,并对性能测试环境测试结果进行分析评估,寻找性能测试环境与生产环境之间系统容量的关系,来推算测试结果对生产上线的指导意义。

        目前华夏银行已将该模型初步应用于性能测试指标评定、系统安全阀值预判等系统非功能测试领域。通过系统未来TPS和交易量预测设定系统性能测试指标;通过系统容量的评定和未来交易量预测结合基于实际负载的评估预判系统安全阀值;通过历史测试结果和历史生产运行数据对比分析,寻找性能测试环境与生产环境之间系统容量的关系,来推算测试结果对生产上线的指导意义。同时随着历史数据的更新,定期对模型和参数进行纠偏。该应用对保障系统稳定运行、提升系统整体测试质量起到了积极作用。后续我们将基于不同业务和系统差异化定制该模型,借助大数据和专业数学模型不断提升信息化系统建设过程中需求定义、系统配置和测试管理等重要环节的质量,使之成为制订容量规划的依据之一,提高精细化测试的手段之一,提升系统稳定运行水平的途径之一。

(文章来源:金融电子化杂志) 

扫码即可手机
阅读转发此文

本文评论

相关文章