• 快捷搜索
  • 全站搜索

互联网大数据采集与处理的关键技术研究

2015-03-04 16:27:42作者:中国工商银行股份有限公司数据中心(北京) 金雯婷 张松编辑:金融咨询网
互联网网页数据具有分布广、格式多样、非结构化等大数据的典型特点,我们需要有针对性地对互联网网页数据进行采集、转换、加工和存储,尤其在网页数据的采集和处理方面,存在亟须突破的若干关键技术。

随着社交网络、电子商务、移动互联网等信息通信技术的快速普及使用,基于新兴信息技术的商务应用和金融服务创新(如网上支付、移动支付、第三方支付等)也呈现出爆发式增长趋势。据中国互联网信息中心(CNNIC)于2014年7月21日发布的《第34次中国互联网络发展状况统计报告》显示,截至2014年6月,我国使用网上支付的用户规模达到2.92亿,较2013年底增加3208万人,半年度增长率为12.3%。根据易观国际的一项研究表明,2014年第二季度中国第三方互联网支付市场交易规模达18406.6亿元,同比增长了64.1%。

        在互联网新兴技术普及应用的过程中,越来越多的用户数据产生、散布在互联网的各个角落,产生了大体量(Volume)、多样化(Variety)、高速度(Velocity)和低价值(Value)等大数据概念(big data),并渗透到每一个行业和业务职能领域,为下一步商业和金融服务创新浪潮奠定了数据基础。

        传统的数据挖掘、分析处理方法和工具,在非结构化、高速化的大数据处理要求面前显得过于乏力,需要创新开发适应新型大数据处理需求的数据挖掘和数据处理方法。

        互联网网页数据是大数据领域的一个重要组成部分,是互联网公司和金融机构获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为互联网和金融服务创新提供了丰富的数据基础,因此,对互联网网页的大数据处理流程和技术进行探索具有重要意义。

        互联网网页数据具有分布广、格式多样、非结构化等大数据的典型特点,我们需要有针对性地对互联网网页数据进行采集、转换、加工和存储,尤其在网页数据的采集和处理方面,存在亟须突破的若干关键技术。

一、网页大数据采集和处理的基本流程

        互联网网页数据采集就是获取互联网中相关网页内容的过程,并从中抽取出用户所需要的属性内容。互联网网页数据处理,就是对抽取出来的网页数据进行内容和格式上的处理,进行转换和加工,使之能够适应用户的需求,并将之存储下来,以供后用。

        互联网的网页大数据采集和处理的整体过程如图1所示,包含四个主要模块:web爬虫(Spider)、数据处理(Data Process)、爬取URL队列(URL Queue)和数据。这四个主要模块的功能如下。

互联网大数据采集与处理的关键技术研究-图1.jpg

        爬虫(Spider):从Internet上抓取网页内容,并抽取出需要的属性内容。

        数据处理(Dp—data Process):对爬虫抓取的内容进行处理。

        URL队列(URL Queue):为爬虫提供需要抓取数据网站的URL。

        数据(Data)包含三方面:①Site URL,需要抓取数据网站的URL信息;②Spider Data,爬虫从网页中抽取出来的数据;③Dp Data,经过dp处理之后的数据。

        整个web数据采集和处理的基本步骤如下:

        (1)将需要抓取数据的网站的URL信息(Site URL)写入URL Queue;
        (2)爬虫从URL队列中获取需要抓取数据的网站的Site URL信息;
        (3)爬虫从Internet抓取与Site URL对应的网页内容,并抽取出网页特定属性的内容值;
        (4)爬虫将从网页中抽取出的数据(Spider Data)写入数据库;
        (5)dp读取Spider Data,并进行处理;
        (6)dp将处理之后的数据(Dp Data)写入数据库。

二、数据采集的基本流程与关键技术

        1.数据采集的整体框架

        Web爬虫的整个抓取过程如图2所示,主要包括六个模块:网站页面(Site Page),链接抽取(URL Extractor),链接过滤(URL Filter。),内容抽取((Content Extractor),爬取URL队列(Site URL Frontier)和数据。

互联网大数据采集与处理的关键技术研究-图2.jpg

        这六个模块的主要功能如下。

        网站页面(Site Page):获取网站的网页内容。
        链接抽取(URL Extractor):从网页内容中抽取出该网站正文内容的链接地址。
        链接过滤(URL:Filter):判断该链接地址的网页内容是否已经被抓取过。
        内容抽取(Content Extractor):从网页内容中抽取所需属性的内容值。
        URL队列(URL Queue):为爬虫提供需要抓取数据网站的URL。

        数据(:Data)包含三方面:Site URL,需要抓取数据网站的URL信息;Spider URL,已经抓取过数据的网页URL;Spider Content,经过抽取的网页内容。

        2.数据采集的基本流程

        整个数据采集过程的基本步骤如下:

        (1)将需要抓取数据的网站的URL信息(Site URL)写入URL Queue;
        (2)爬虫从URL队列中获取需要抓取数据的网站的Site URL信息;
        (3)获取某个具体网站的网页内容;
        (4)从网页内容中抽取出该网站正文页内容的链接地址;
        (5)从数据库中读取已经抓取过内容的网页地址(Spider URL);
        (6)过滤URL。将当前的URL和已经抓取过的URL进行比较;
        (7)如果该网页地址没有被抓取过,则将该地址写入(Spider URL)数据库;如果该地址已经被抓取过,则放置对这个地址的抓取操作;
        (8)获取该地址的网页内容,并抽取出所需属性的内容值;
        (9)将抽取的网页内容写入数据库。

        3.数据采集的关键技术——链接过滤

        链接过滤的实质就是判断一个链接(当前链接)是不是在一个链接集合(已经抓取过的链接)里面。在对网页大数据的采集中,可以采用布隆过滤器来实现对链接的过滤。

 1 2 下一页 尾页

扫码即可手机
阅读转发此文

本文评论

相关文章