
- 快捷搜索
- 全站搜索
当前问题:保险公司在业务办理和处理中所用的各类资料多以图片形式存在(一般通过纸质扫描或移动端拍照采集获得),需要人工介入对大量图片进行质量审核和内容录入,占用较多的业务处理时间,影响高效快速响应客户。
应对措施:借助OCR技术,有望替代人工实现图片的自动审核和录入,帮助业务实现全流程自动化处理。
OCR识别技术
OCR识别的核心技术包括文本区域检测及文字切分、文字特征提取以及文字内容识别。区域检测及文字切分常用的方法包括投影法、边界轮廓检测法、CNN卷积神经网络法等;文字特征提取常用的方法包括结构法和统计法,前者利用单字的构成基元及拓扑结构作为特征,后者利用单字的图像像素空间向量作为特征,各有利弊,因此经常混合使用。文字内容识别常用的方法包括K-近邻法、SVM支持向量机法、神经网络法等,用待识别文字的特征与字典库进行匹配,字典库内容包含所有欲识别文字的字符集,通过匹配选择最适合的分类结果作为识别结果。衡量一个OCR系统好坏的主要指标有:识别率、拒识率、误识率、识别速度等。
对于OCR识别应用,一般处理流程包括6个步骤,如图1所示。
图1 OCR识别应用处理流程
6个步骤中,专业的OCR引擎可完成步骤3~5的处理,其他步骤根据识别对象的具体特点通过应用程序开发实现。
单证OCR识别的应用方法和流程
本文以保单正本页为例,对OCR识别单证的一般应用方法、流程及算法进行探索研究,总结经验方法。整个研究过程选用Tesseract 4.0 作为OCR识别引擎,该工具是当前主流的OCR开源工具,最初由HP公司开发,后来由Google维护,支持包括中文在内的60多种语言,以字符的线段特征和原型特征作为识别特征,采用基于KNN的自适应分类器,最新的4.0版本还引入了LSTM神经网络算法。应用开发语言选用了主流的数据科学语言Python语言。研究中选取了保单上的关键要素信息进行识别(如图2虚线框表示部分),按照要素在保单上的排序顺序输出结果,整体流程方法如下。
图2 识别内容区域
01.预处理保单正本页图片
输入的图片格式采用tif或jpeg格式,关键的处理方法包括:对图片进行灰度化处理,将三通道RGB图片转换为单通道的灰度图片;提升分辨率,一般图片分辨率为72DPI,Tesseract对图片分辨率的要求是至少300DPI,需要进行转换调整;统一图片大小,方便后续图片切割,对图片进行归一化处理保持统一尺寸;去掉图片噪音,使用低通滤波算法降低图片干扰。
02.分析保单正本页版面特征
分析待识别内容在保单正本页上的坐标分布,供下一步图片切割使用。首先,使用低通滤波、形态学中的膨胀腐蚀及边缘检测处理技术,检测图片各保单要素信息所在的区域轮廓(如图3所示),其中边缘检测分别使用Prewitt算子、Laplace算子、Sobel算子进行测试,Sobel算子表现效果最好并确定选用该算子。其次,在轮廓检测后,由于轮廓顺序混乱无法确定哪个轮廓对应哪个保单要素,为此需要定位轮廓所处位置,利用轮廓坐标以及保单要素自身的宽度特征信息等,确定轮廓间的前后上下顺序,计算轮廓所处行和位置编号,然后对照原始图片上各要素的位置,确定轮廓与保单要素的对应关系,进而得到各保单要素的坐标位置信息。
图3 待识别保单要素区域轮廓
03.切割正本页图片并二次处理
使用上一步产生的保单要素坐标位置信息,自动从正本页图片上切割分离出每个待识别要素的子图片,供识别使用。分割出的子图片详见图4所示。
图4 切割后的保单要素
另外,根据Tesseract特点,其识别率与图片大小相关,在实践中发现调整保单要素图片大小可获得不同的识别率,因此逐一对各要素图片进行调试并最终确定每个要素图片的缩放比率,在45%到110%之间不等,按此对切割后的图片进行二次缩放处理。
04.识别子图片内容
使用python中的Tesseract算法函数进行识别,Tesseract提供了对行文字切分、特征提取和分类识别的能力,将各保单要素子图片作为输入,输出为识别结果。
05.识别结果后处理
修正错误识别的内容。有些识别错误具有一定的规律性,比如Tesseract在识别保单号和投保单号时,容易将‘0’识别成‘C’,‘7’识别成‘/’,‘9’识别成‘%’等,可以进行排查替换。另外,针对一些专业词汇,比如险种名称、交费方式,可以建立词汇字典,将识别结果与字典内容进行相似度匹配检查,用最佳匹配结果替换降低错误率。相似度检查方法可使用difflib库中的get_close_matches函数算法,实现最佳内容查找匹配。
通过上述方法,完成对保单正本页的识别。在评价识别准确率方面,采用了如下公式规则:将保单正本页上每个信息要素做为一个识别对象,如合同号、投保单号各是一个识别对象,计算公式为:准确率=(正确识别的对象个数)/(识别对象总数)。按此公式计算,使用Tesseract进行识别的准确率达80%左右。
结束语
OCR技术在单证识别领域的应用还有很多难点有待进一步深入研究解决,包括图片存在噪声、模糊、光线变化、形变、复杂背景干扰等问题,单证票据存在虚线干扰、版面缺失、文字溢出表格、文字与表格线交叉等情况,对定位和识别文字形成巨大挑战。人工智能机器学习的发展将为这些问题的突破带来机遇,在文字区域检测方面,R-CNN、Faster R-CNN、R-FCN等目标检测算法通过训练样本获取图片上各要素的轮廓位置特征,克服了传统图像处理方法受到的图片问题干扰,具有比传统方法更加准确的位置定位;在文字识别方面,CNN、RNN、CTC、LSTM等算法通过训练学习自动提取字符特征,降低了传统特征提取方法的复杂度,并提升了分类识别的准确率。总之,基于深度学习的目标检测和识别训练正在成为OCR识别技术的新趋势,将是下一步研究应用的方向。
(文章来源:金融电子化杂志)
作为支撑比特币发展的底层技术,区块链的出现预示着互联网的用途可能从传统
商业银行发展互联网金融,其实对既有的技术体系规划和设计提出了新的要求。