互联网大数据采集与处理的关键技术研究_金融大数据

互联网网页数据具有分布广、格式多样、非结构化等大数据的典型特点，我们需要有针对性地对互联网网页数据进行采集、转换、加工和存储，尤其在网页数据的采集和处理方面，存在亟须突破的若干关键技术。

随着社交网络、电子商务、移动互联网等信息通信技术的快速普及使用，基于新兴信息技术的商务应用和金融服务创新（如网上支付、移动支付、第三方支付等）也呈现出爆发式增长趋势。据中国互联网信息中心（CNNIC）于2014年7月21日发布的《第34次中国互联网络发展状况统计报告》显示，截至2014年6月，我国使用网上支付的用户规模达到2.92亿，较2013年底增加3208万人，半年度增长率为12.3％。根据易观国际的一项研究表明，2014年第二季度中国第三方互联网支付市场交易规模达18406.6亿元，同比增长了64.1％。

在互联网新兴技术普及应用的过程中，越来越多的用户数据产生、散布在互联网的各个角落，产生了大体量（Volume）、多样化（Variety）、高速度（Velocity）和低价值（Value）等大数据概念（big data），并渗透到每一个行业和业务职能领域，为下一步商业和金融服务创新浪潮奠定了数据基础。

传统的数据挖掘、分析处理方法和工具，在非结构化、高速化的大数据处理要求面前显得过于乏力，需要创新开发适应新型大数据处理需求的数据挖掘和数据处理方法。

互联网网页数据是大数据领域的一个重要组成部分，是互联网公司和金融机构获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径，为互联网和金融服务创新提供了丰富的数据基础，因此，对互联网网页的大数据处理流程和技术进行探索具有重要意义。

一、网页大数据采集和处理的基本流程

互联网网页数据采集就是获取互联网中相关网页内容的过程，并从中抽取出用户所需要的属性内容。互联网网页数据处理，就是对抽取出来的网页数据进行内容和格式上的处理，进行转换和加工，使之能够适应用户的需求，并将之存储下来，以供后用。

互联网的网页大数据采集和处理的整体过程如图1所示，包含四个主要模块：web爬虫（Spider）、数据处理（Data Process）、爬取URL队列（URL Queue）和数据。这四个主要模块的功能如下。

互联网大数据采集与处理的关键技术研究-图1.jpg

爬虫（Spider）：从Internet上抓取网页内容，并抽取出需要的属性内容。

数据处理（Dp—data Process）：对爬虫抓取的内容进行处理。

URL队列（URL Queue）：为爬虫提供需要抓取数据网站的URL。

数据（Data）包含三方面：①Site URL，需要抓取数据网站的URL信息；②Spider Data，爬虫从网页中抽取出来的数据；③Dp Data，经过dp处理之后的数据。

整个web数据采集和处理的基本步骤如下：

        （1）将需要抓取数据的网站的URL信息（Site URL）写入URL Queue；
        （2）爬虫从URL队列中获取需要抓取数据的网站的Site URL信息；
        （3）爬虫从Internet抓取与Site URL对应的网页内容，并抽取出网页特定属性的内容值；
        （4）爬虫将从网页中抽取出的数据（Spider Data）写入数据库；
        （5）dp读取Spider Data，并进行处理；
        （6）dp将处理之后的数据（Dp Data）写入数据库。

二、数据采集的基本流程与关键技术

1．数据采集的整体框架

Web爬虫的整个抓取过程如图2所示，主要包括六个模块：网站页面（Site Page），链接抽取（URL Extractor），链接过滤（URL Filter。），内容抽取（（Content Extractor），爬取URL队列（Site URL Frontier）和数据。

互联网大数据采集与处理的关键技术研究-图2.jpg

这六个模块的主要功能如下。

        网站页面（Site Page）：获取网站的网页内容。
        链接抽取（URL Extractor）：从网页内容中抽取出该网站正文内容的链接地址。
        链接过滤（URL：Filter）：判断该链接地址的网页内容是否已经被抓取过。
        内容抽取（Content Extractor）：从网页内容中抽取所需属性的内容值。
        URL队列（URL Queue）：为爬虫提供需要抓取数据网站的URL。

数据（：Data）包含三方面：Site URL，需要抓取数据网站的URL信息；Spider URL，已经抓取过数据的网页URL；Spider Content，经过抽取的网页内容。

2．数据采集的基本流程

整个数据采集过程的基本步骤如下：

        （1）将需要抓取数据的网站的URL信息（Site URL）写入URL Queue；
        （2）爬虫从URL队列中获取需要抓取数据的网站的Site URL信息；
        （3）获取某个具体网站的网页内容；
        （4）从网页内容中抽取出该网站正文页内容的链接地址；
        （5）从数据库中读取已经抓取过内容的网页地址（Spider URL）；
        （6）过滤URL。将当前的URL和已经抓取过的URL进行比较；
        （7）如果该网页地址没有被抓取过，则将该地址写入（Spider URL）数据库；如果该地址已经被抓取过，则放置对这个地址的抓取操作；
        （8）获取该地址的网页内容，并抽取出所需属性的内容值；
        （9）将抽取的网页内容写入数据库。

3．数据采集的关键技术——链接过滤

链接过滤的实质就是判断一个链接（当前链接）是不是在一个链接集合（已经抓取过的链接）里面。在对网页大数据的采集中，可以采用布隆过滤器来实现对链接的过滤。

1 2 下一页尾页

扫码即可手机
阅读转发此文

本文评论

频道最近更新

商业银行如何构建大数据生态系统

2013年下半年，余额宝看似“暴发户”式的成功造成了银行领域的极大震动，大

频道热门文章

大数据时代：打造银行的数据化能力

商业银行只有从打造数据化能力做起，让数据转化为对业务产生洞察的信息，才

互联网大数据采集与处理的关键技术研究

本文评论

相关文章

频道最近更新

频道热门文章