• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 15
    • 下载费用:30 金币  

    重庆时时彩贴吧: 社交网络用户关系采集系统及方法.pdf

    关 键 词:
    社交 网络 用户 关系 采集 系统 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201610823149.9

    申请日:

    2016.09.14

    公开号:

    CN106384292A

    公开日:

    2017.02.08

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06Q 50/00申请日:20160914|||公开
    IPC分类号: G06Q50/00(2012.01)I; G06F17/30 主分类号: G06Q50/00
    申请人: 哈尔滨工业大学(威海)
    发明人: 卢佳星; 刘扬; 陈彬; 何清刚; 辛国栋
    地址: 264200 山东省威海市文化西路2号
    优先权:
    专利代理机构: 北京君恒知识产权代理事务所(普通合伙) 11466 代理人: 黄启行;张璐
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610823149.9

    授权公告号:

    |||

    法律状态公告日:

    2017.03.08|||2017.02.08

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种社交网络用户关系采集系统与方法,该系统包括:分布式爬虫??橛肴挝穸恿心??。其中,任务队列??榘廊∮畔燃兑来卧黾拥腟uper队列、Normal队列、Big队列。分布式爬虫??橛糜诮没D按照关系网规模从小到大的顺序分别存放在Normal队列、Big队列、Super队列,并按照所述爬取优先级爬取用户关系数据。本发明根据关系网规模将任务进行等级划分,不同等级的任务按照不同的执行优先级爬取,这样不仅具有控制爬取层数的功能,还可以保证关系网爬取时能够快速收敛。

    权利要求书

    1.一种社交网络用户关系采集系统,其特征在于,包括:分布式爬虫??橛肴挝穸恿心?br />块;其中,
    任务队列??榘廊∮畔燃兑来卧黾拥腟uper队列、Normal队列、Big队列;
    分布式爬虫??橛糜诮没D按照关系网规模从小到大的顺序分别存放在Normal队
    列、Big队列、Super队列,并按照所述爬取优先级爬取用户关系数据。
    2.如权利要求1所述的系统,分布式爬虫??榘ㄖ骺亟岬阌胧莼袢〗岬?;任务队列
    ??榛拱琁nfo队列;以及所述将用户ID按照关系网规模从小到大的顺序分别存放在
    Normal队列、Big队列、Super队列,具体为:
    主控结点将用户ID存放在Info队列,控制数据获取结点爬取各用户的粉丝数与关注
    数;将粉丝数小于第一粉丝阈值的用户ID存放在第一Normal队列,将粉丝数大于第二粉丝
    阈值的用户ID存放在第一Super队列,将粉丝数介于第一粉丝阈值、第二粉丝阈值之间的用
    户ID存放在第一Big队列;将关注数小于第一关注阈值的用户ID存放在第二Normal队列,将
    关注数大于第二关注阈值的用户ID存放在第二Super队列,将关注数介于第一关注阈值、第
    二关注阈值之间的用户ID存放在第二Big队列。
    3.如权利要求2所述的系统,所述按照所述爬取优先级爬取用户关系数据具体为:主控
    结点读取各队列中的用户ID并分发于数据获取结点进行爬?。?br />
    首先从第一Big队列中读取,当第一Big队列为空时从第一Normal队列中读取,当第一
    Normal队列为空时从第一Super队列中读??;和/或
    首先从第二Big队列中读取,当第二Big队列为空时从第二Normal队列中读取,当第二
    Normal队列为空时从第二Super队列中读取。
    4.如权利要求3所述的系统,所述数据获取结点包括:用于爬取用户粉丝ID的第一结
    点、用于爬取用户粉丝信息的第二结点、用于爬取用户关注人ID的第三结点、用于爬取用户
    关注人信息的第四结点、用于爬取用户信息的第五结点;以及
    所述系统还包括:用户关系数据库,用于存储分布式爬虫??榕廊〉挠没畔?、用户粉
    丝ID、用户粉丝信息、用户关注人ID、用户关注人信息;其中,用户粉丝ID与用户粉丝信息组
    成用户的粉丝列表,用户关注人ID与用户关注人信息组成用户的关注列表。
    5.如权利要求4所述的系统,分布式爬虫??榛褂糜谠谟没Ч叵凳菘庵信卸嫌没в?br />其粉丝列表中的粉丝ID是否仍存在关系,若否,则将该粉丝ID移出粉丝列表,并获取用户最
    新增加的预设数量的粉丝ID,将其加入所述粉丝列表,同时更新所述预设数量的粉丝ID的
    关注列表;在用户关系数据库中判断用户与其关注列表中的关注人ID是否仍存在关系,若
    否,则将该关注人ID移出关注列表,并获取用户最新增加的预设数量的关注人ID,将其加入
    所述关注列表,同时更新所述预设数量的关注人ID的粉丝列表。
    6.如权利要求2-5任一所述的系统,数据获取结点通过调用API服务器提供的相应API
    接口爬取数据;以及所述系统还包括:
    数据备份???,用于存储每次调用API接口的返回结果,作为爬取的原始数据的备份。
    7.一种社交网络用户关系采集方法,其特征在于,包括步骤:
    S1.将用户ID按照关系网规模从小到大的顺序分别存放在Normal队列、Big队列及
    Super队列;
    S2.按照预设优先级策略爬取用户关系数据;其中,预设优先级策略为:Super队列、
    Normal队列、Big队列的优先级依次增加。
    8.如权利要求7所述的方法,步骤S1具体为:
    爬取各用户ID的粉丝数与关注数;
    将粉丝数小于第一粉丝阈值的用户ID存放在第一Normal队列,将粉丝数大于第二粉丝
    阈值的用户ID存放在第一Super队列,将粉丝数介于第一粉丝阈值、第二粉丝阈值之间的用
    户ID存放在第一Big队列;
    将关注数小于第一关注阈值的用户ID存放在第二Normal队列,将关注数大于第二关注
    阈值的用户ID存放在第二Super队列,将关注数介于第一关注阈值、第二关注阈值之间的用
    户ID存放在第二Big队列;以及
    步骤S2具体为:读取各队列中的用户ID并进行爬?。?br />首先从第一Big队列中读取,当第一Big队列为空时从第一Normal队列中读取,当第一
    Normal队列为空时从第一Super队列中读??;和/或
    首先从第二Big队列中读取,当第二Big队列为空时从第二Normal队列中读取,当第二
    Normal队列为空时从第二Super队列中读取。
    9.如权利要求7或8所述的方法,在步骤S2之后,所述方法还包括:将所述用户关系数据
    保存;其中,所述用户关系数据包括:用户信息、用户粉丝ID、用户粉丝信息、用户关注人ID、
    用户关注人信息;以及
    用户粉丝ID与用户粉丝信息组成用户的粉丝列表,用户关注人ID与用户关注人信息组
    成用户的关注列表。
    10.如权利要求9所述的方法,在将所述用户关系数据保存之后,所述方法还包括:
    判断用户与其粉丝列表中的粉丝ID是否仍存在关系;若否,则将该粉丝ID移出粉丝列
    表,并获取用户最新增加的预设数量的粉丝ID,将其加入所述粉丝列表,同时更新所述预设
    数量的粉丝ID的关注列表;和/或
    判断用户与其关注列表中的关注人ID是否仍存在关系;若否,则将该关注人ID移出关
    注列表,并获取用户最新增加的预设数量的关注人ID,将其加入所述关注列表,同时更新所
    述预设数量的关注人ID的粉丝列表;以及
    所述方法还包括:调用API接口爬取数据;存储每次调用API接口的返回结果,作为爬取
    的原始数据的备份。

    说明书

    社交网络用户关系采集系统及方法

    技术领域

    本发明涉及社交网络服务SNS领域,尤其涉及一种社交网络用户关系采集系统及
    方法。

    背景技术

    社交网络是一种通过关注机制分享实时消息的广播式平台,如微博、twitter等,
    它是目前最受欢迎的网络交流平台之一,由于其易操作、传播快等特点,受到广大网民用户
    的喜爱,人们通过它能够了解世界各地的讯息。它以网络为载体,致力于促进人与人之间的
    交流,拓宽人们的交际关系圈。

    越来越多的研究人员想要快速获取用户间的网络连接关系,以此来挖掘网络水
    军、恶意用户以及利用网络拓扑特征进行性别、年龄的预测。有些数据研究任务只需要获取
    部分关系网数据,通过广度优先遍历方法采集社交网络用户关系网,随时控制遍历层数,获
    取需要的数据集。由于众多的数据分析工作都需要建立在社交网络用户关系网的基础上,
    所以设计一种快速采集社交网络用户关系网的方法至关重要。

    目前,对于社交网络用户关系网的采集方法主要是基于广度优先遍历的采集方
    法,采用该方法,可以控制社交网络用户关系网的爬取层数。但由于某些用户关系网数量巨
    大,如新闻媒体、企业公众号、社会名人等,他们的粉丝数数以万计,直接采用广度优先遍历
    方法进行关系网的爬取时,速度将非?;郝?。如某明星的新浪微博粉丝数为2030万,若某一
    普通用户关注了该明星,则在爬取该普通用户关系网时,该明星就成了制约爬取速度的主
    要因素,这将直接导致爬取关系网时不能快速收敛。

    因此,亟需一种能够快速收敛的社交网络用户关系网采集方法来解决以上问题。

    发明内容

    本发明提供一种社交网络用户关系采集系统及方法,根据关系网规模将任务进行
    等级划分,不同等级的任务按照不同的执行优先级爬取,这样不仅具有控制爬取层数的功
    能,还可以保证关系网爬取时能够快速收敛。

    本发明一方面提供一种社交网络用户关系采集系统,包括:分布式爬虫??橛肴?br />务队列???;其中,任务队列??榘廊∮畔燃兑来卧黾拥腟uper队列、Normal队列、Big
    队列;分布式爬虫??橛糜诮没D按照关系网规模从小到大的顺序分别存放在Normal队
    列、Big队列、Super队列,并按照所述爬取优先级爬取用户关系数据。

    优选的,分布式爬虫??榘ㄖ骺亟岬阌胧莼袢〗岬?;任务队列??榛拱?br />Info队列;以及所述将用户ID按照关系网规模从小到大的顺序分别存放在Normal队列、Big
    队列、Super队列,具体为:主控结点将用户ID存放在Info队列,控制数据获取结点爬取各用
    户的粉丝数与关注数;将粉丝数小于第一粉丝阈值的用户ID存放在第一Normal队列,将粉
    丝数大于第二粉丝阈值的用户ID存放在第一Super队列,将粉丝数介于第一粉丝阈值、第二
    粉丝阈值之间的用户ID存放在第一Big队列;将关注数小于第一关注阈值的用户ID存放在
    第二Normal队列,将关注数大于第二关注阈值的用户ID存放在第二Super队列,将关注数介
    于第一关注阈值、第二关注阈值之间的用户ID存放在第二Big队列。

    优选的,所述按照所述爬取优先级爬取用户关系数据具体为:主控结点读取各队
    列中的用户ID并分发于数据获取结点进行爬?。菏紫却拥谝籅ig队列中读取,当第一Big队
    列为空时从第一Normal队列中读取,当第一Normal队列为空时从第一Super队列中读??;
    和/或首先从第二Big队列中读取,当第二Big队列为空时从第二Normal队列中读取,当第二
    Normal队列为空时从第二Super队列中读取。

    优选的,所述数据获取结点包括:用于爬取用户粉丝ID的第一结点、用于爬取用户
    粉丝信息的第二结点、用于爬取用户关注人ID的第三结点、用于爬取用户关注人信息的第
    四结点、用于爬取用户信息的第五结点;以及所述系统还包括:用户关系数据库,用于存储
    分布式爬虫??榕廊〉挠没畔?、用户粉丝ID、用户粉丝信息、用户关注人ID、用户关注人
    信息;其中,用户粉丝ID与用户粉丝信息组成用户的粉丝列表,用户关注人ID与用户关注人
    信息组成用户的关注列表。

    优选的,分布式爬虫??榛褂糜谠谟没Ч叵凳菘庵信卸嫌没в肫浞鬯苛斜碇械?br />粉丝ID是否仍存在关系,若否,则将该粉丝ID移出粉丝列表,并获取用户最新增加的预设数
    量的粉丝ID,将其加入所述粉丝列表,同时更新所述预设数量的粉丝ID的关注列表;在用户
    关系数据库中判断用户与其关注列表中的关注人ID是否仍存在关系,若否,则将该关注人
    ID移出关注列表,并获取用户最新增加的预设数量的关注人ID,将其加入所述关注列表,同
    时更新所述预设数量的关注人ID的粉丝列表。

    优选的,数据获取结点通过调用API服务器提供的相应API接口爬取数据;以及所
    述系统还包括:数据备份???,用于存储每次调用API接口的返回结果,作为爬取的原始数
    据的备份。

    本发明另一方面提供一种社交网络用户关系采集方法,包括步骤:

    S1.将用户ID按照关系网规模从小到大的顺序分别存放在Normal队列、Big队列及
    Super队列;

    S2.按照预设优先级策略爬取用户关系数据;其中,预设优先级策略为:Super队
    列、Normal队列、Big队列的优先级依次增加。

    优选的,步骤S1具体为:爬取各用户ID的粉丝数与关注数;将粉丝数小于第一粉丝
    阈值的用户ID存放在第一Normal队列,将粉丝数大于第二粉丝阈值的用户ID存放在第一
    Super队列,将粉丝数介于第一粉丝阈值、第二粉丝阈值之间的用户ID存放在第一Big队列;
    将关注数小于第一关注阈值的用户ID存放在第二Normal队列,将关注数大于第二关注阈值
    的用户ID存放在第二Super队列,将关注数介于第一关注阈值、第二关注阈值之间的用户ID
    存放在第二Big队列;以及步骤S2具体为:读取各队列中的用户ID并进行爬?。菏紫却拥谝?br />Big队列中读取,当第一Big队列为空时从第一Normal队列中读取,当第一Normal队列为空
    时从第一Super队列中读??;和/或首先从第二Big队列中读取,当第二Big队列为空时从第
    二Normal队列中读取,当第二Normal队列为空时从第二Super队列中读取。

    优选的,在步骤S2之后,所述方法还包括:将所述用户关系数据保存;其中,所述用
    户关系数据包括:用户信息、用户粉丝ID、用户粉丝信息、用户关注人ID、用户关注人信息;
    以及用户粉丝ID与用户粉丝信息组成用户的粉丝列表,用户关注人ID与用户关注人信息组
    成用户的关注列表。

    优选的,在将所述用户关系数据保存之后,所述方法还包括:判断用户与其粉丝列
    表中的粉丝ID是否仍存在关系;若否,则将该粉丝ID移出粉丝列表,并获取用户最新增加的
    预设数量的粉丝ID,将其加入所述粉丝列表,同时更新所述预设数量的粉丝ID的关注列表;
    和/或判断用户与其关注列表中的关注人ID是否仍存在关系;若否,则将该关注人ID移出关
    注列表,并获取用户最新增加的预设数量的关注人ID,将其加入所述关注列表,同时更新所
    述预设数量的关注人ID的粉丝列表;以及所述方法还包括:调用API接口爬取数据;存储每
    次调用API接口的返回结果,作为爬取的原始数据的备份。

    由以上技术方案可知,本发明对用户关系网采集时采用执行优先级不同的分布式
    爬取方法,能够避开关系网规模极大的用户,如新闻媒体、企业公众号、社会名人等,实现采
    集系统的快速收敛。同时,对获得的用户关系数据即时存储并更新,对采集的原始数据进行
    备份,为后期的数据分析提供有力支持。

    附图说明

    图1是本发明实施例的社交网络用户关系采集系统的第一结构示意图;

    图2是本发明实施例的社交网络用户关系采集系统的第二结构示意图;

    图3是本发明实施例的关系网抽取??槭疽馔?;

    图4是本发明实施例的关系网更新??槭疽馔?;

    图5是本发明实施例的社交网络用户关系采集系统部署图;

    图6是本发明实施例的社交网络用户关系采集方法示意图。

    具体实施方式

    为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实
    施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为
    了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以
    实现本发明的这些方面。

    本发明的发明人考虑到,采用广度优先遍历方法进行关系网的爬取时,由于某些
    用户关系网规模巨大,如新闻媒体、企业公众号、社会名人等,其粉丝数以万计,对其进行爬
    取时速度非?;郝?,导致系统无法快速收敛。

    于是,本发明的发明人针对性地开发了关系网抽取算法,根据关系网规模大小将
    任务存入执行优先级不同的任务队列。爬取时,新闻媒体、企业公众号等用户处于优先级较
    低的队列而被避开,由此实现了系统的快速收敛。同时,本发明的发明人开发相应算法实现
    了爬取数据的即时存储更新及原始采集数据的备份,为后期的数据分析与挖掘提供有力支
    持。

    可以理解,本发明所使用的术语“第一”、“第二”等在本文中用于描述各种元件,但
    这些元件不受上述术语限制。上述术语仅用于将一个元件与另一个元件区分。举例而言,在
    不脱离本发明范围的情况下,可以将第一结点称为第二结点,也可以将第二结点称为第一
    结点,第一结点与第二结点都是结点,但二者不是同一结点。

    图1示出了本发明的社交网络用户关系采集系统的结构,参见图1,本系统包括分
    布式爬虫???与任务队列???。

    具体而言,任务队列???用于将任务缓存在各队列供分布式爬虫???爬取,其
    包含Super队列、Normal队列、Big队列。爬取数据时,Big队列的执行优先级高于Normal队
    列,Normal队列的执行优先级高于Super队列。

    分布式爬虫???采用主从模式的分布式网络爬虫架构,包括用于控制与管理的
    主控结点11、用于爬取数据的数据获取结点12,分布式爬虫???用于将通过客户端Web浏
    览器上传的用户ID列表文件中的各用户ID按照关系网规模从小到大的顺序分别存放在
    Normal队列、Big队列、Super队列,并按照上述爬取优先级爬取用户关系数据。

    实际应用中,分布式爬虫???存放任务的具体过程如下:

    主控结点11将用户ID存放在任务队列???的Info队列,控制数据获取结点12从
    API服务器调用API接口爬取各用户的粉丝数与关注数,分别根据粉丝数与关注数大小将用
    户ID存放在不同队列:

    将粉丝数小于第一粉丝阈值,如一百,的用户ID存放在第一Normal队列,将粉丝数
    大于第二粉丝阈值,如一万,的用户ID存放在第一Super队列,将粉丝数介于第一粉丝阈值、
    第二粉丝阈值之间,即大于等于第一粉丝阈值、小于等于第二粉丝阈值,的用户ID存放在第
    一Big队列。

    将关注数小于第一关注阈值的用户ID存放在第二Normal队列,将关注数大于第二
    关注阈值的用户ID存放在第二Super队列,将关注数介于第一关注阈值、第二关注阈值之
    间,即大于等于第一关注阈值、小于等于第二关注阈值,的用户ID存放在第二Big队列。

    这样进行任务存放的原因是:现有技术中,新闻媒体、企业公众号、社会名人等用
    户的粉丝数以万计,对其进行爬取时速度非?;郝?,导致系统无法快速收敛??悸堑酱?,本
    发明根据用户的粉丝数或关注数对用户进行分类,将新闻媒体、社会名人等用户存入到
    Super队列中,同时考虑到这些用户对某些数据分析,比如网络水军识别,没有利用价值,所
    以将Super队列的爬取优先级调为最低。垃圾用户、普通用户等关系网规模较小,对数据分
    析挖掘有一定贡献,将其存入Normal队列中,优先级为次低。而对于具有小范围影响力的用
    户,其关系网规模比新闻媒体、社会名人的关系网规模小,但比普通用户的关系网规模大,
    其对于数据分析的价值较大,故将其存入Big队列中,优先级为最高。

    通过上述优先级爬取用户数据的具体过程如下:

    如果需要爬取用户的粉丝ID或用户的粉丝信息,主控结点11首先从第一Big队列
    中读取,当第一Big队列为空时从第一Normal队列中读取,当第一Normal队列为空时从第一
    Super队列中读取。主控结点11读取任务之后分发于数据获取结点12进行爬取,这样能够避
    开粉丝数较大的用户,提高爬取效率。

    如果需要读取用户的关注人ID或用户的关注人信息,主控结点11首先从第二Big
    队列中读取,当第二Big队列为空时从第二Normal队列中读取,当第二Normal队列为空时从
    第二Super队列中读取。主控结点11读取任务之后分发于数据获取结点12进行爬取,如此能
    够避开关注数较大的用户,缩短任务运行时间。

    通过上述方法,本发明在用户关系采集过程中采用执行优先级不同的分布式爬取
    方法,避开关系网规模较大的用户,实现采集系统的快速收敛。

    在本发明优选实施例中,数据获取结点12包括:用于爬取用户粉丝ID的第一结点、
    用于爬取用户粉丝信息的第二结点、用于爬取用户关注人ID的第三结点、用于爬取用户关
    注人信息的第四结点、用于爬取用户信息的第五结点,上述五种数据获取结点通过调用API
    服务器提供的相应API接口爬取与该API对应类型的数据。特别地,第一结点与第三结点还
    用于指定用户时间轴中所有推文。

    实际应用中,需要对分布式爬虫???获取的数据进行存储以供后续的数据分析
    与数据挖掘,因此,爬取数据完成后,数据获取结点12将数据提交于主控结点11,主控结点
    11将其存储在用户关系数据库3。上述数据包括用户信息、用户粉丝ID、用户粉丝信息、用户
    关注人ID、用户关注人信息。一般的,用户粉丝ID与用户粉丝信息组成用户的粉丝列表,用
    户关注人ID与用户关注人信息组成用户的关注列表。

    具体地,用户关系数据库3为MongoDB数据库,存储的具体过程为:主控结点11对
    API返回结果处理成json格式后进行去重,在去重后提取有效字段存储到MongoDB中。当关
    系网更新时,覆盖之前的数据,保证MongoDB中存储用户最新的数据且唯一。

    这样,本发明实现了采集的用户关系数据的即时存储,为进一步的数据分析提供
    支持。

    特别地,由于用户之间的关注关系经常改变,用户关系数据库3存储的用户关系数
    据很难保持准确,因此需要对其进行更新。在本发明优选实施例中,更新的具体过程如下:

    更新粉丝列表时,分布式爬虫???判断用户关系数据库3中的用户与其粉丝列表
    中的粉丝ID是否仍存在关注关系。如果已不存在关系,则将该粉丝ID移出粉丝列表。另外获
    取用户最新增加的预设数量,如一百,的粉丝ID,将其加入粉丝列表,同时更新增加的各粉
    丝ID的关注列表。上述更新增加的各粉丝ID的关注列表指的是将上述用户关系数据库3中
    的用户加入各粉丝ID的关注列表。

    更新关注列表时,分布式爬虫???判断用户关系数据库3中的用户与其关注列表
    中的关注人ID是否仍存在关注关系,如果已不存在关系,则将该关注人ID移出关注列表。另
    外获取用户最新增加的预设数量的关注人ID,将其加入关注列表,同时更新增加的各关注
    人ID的粉丝列表。上述更新增加的各关注人ID的关注列表指的是将上述用户关系数据库3
    中的用户加入各关注人ID的粉丝列表。

    一般地,用户关系数据库3的更新可以选择定期更新方式或即时更新方式。

    由此,本发明实现了用户关系数据库的更新,确保存储数据的准确。

    较佳地,为了备份原始数据,社交网络用户关系采集系统设置数据备份???,用
    于存储每次调用API接口的返回结果,作为爬取的原始数据的备份。

    作为一个优选方案,数据备份???为分布式文件系统HDFS,其存储的具体过程
    为:主控结点11将每次调用API的返回结果以json文件的格式存储到HDFS中,作为爬取的原
    始数据备份。

    这样,本发明实现了数据即时存储与原始存储,兼顾了数据的准确性与完整性,有
    利于后期的数据分析。

    图2示出了本发明的社交网络用户关系采集系统的另一结构,如图2所示,爬虫结
    点即为分布式爬虫???,关系网抽取??橛牍叵低履?槲植际脚莱婺?榈墓δ苣?br />块,分别实现上述任务存放、读取、爬取功能与数据库更新功能。分布式爬虫??榛雇ü?br />权??橛階PI服务器交互获取授权。

    图3是本发明的关系网抽取??槭疽馔?,参见图3,关系网抽取??樵诵泄倘缦拢?br />

    首先,从用户ID开始爬取其关系网,获取粉丝数、关注数。若上次意外终止,则从断
    点继续生成。

    之后,将获取数据发送到主控结点去重,根据用户的粉丝数、关注数大小,将用户
    ID存入Super、Big或Normal队列中。

    最后,优先从Big任务队列中读取任务,进行用户关系网的爬取,并将爬取数据存
    储在用户关系数据库。

    图4以粉丝列表为例示出了本发明的关系网更新??樵?,参见图4,关系网更新
    ??樵诵泄倘缦拢?br />

    首先,从用户关系数据库中取出待更新的用户列表,对列表中每个用户的粉丝列
    表中的粉丝ID,调用API接口判断该粉丝ID是否与当前用户仍存在关系,若不存在则将该粉
    丝ID移出当前用户的粉丝列表。

    之后,对列表中每个用户调用API接口获得其最新增加的100名粉丝,更新当前用
    户的粉丝列表以及粉丝ID的关注列表。

    最后,对更新的数据进行去重,并存储到用户关系数据库中。

    图5示出了本发明的社交网络用户关系采集系统部署,如图5所示,上方为分布式
    爬虫???,下方左侧为任务队列???,中部为用户关系数据库,右侧为数据备份???,任务
    队列??椴捎肕ySQL架构。

    图6示出了本发明的社交网络用户关系采集方法,参见图6,此方法按照如下步骤
    执行:

    步骤S1,将用户ID按照关系网规模从小到大的顺序分别存放在Normal队列、Big队
    列及Super队列。

    在本发明优选实施例中,上述步骤具体为:

    爬取各用户ID的粉丝数与关注数。

    将粉丝数小于第一粉丝阈值的用户ID存放在第一Normal队列,将粉丝数大于第二
    粉丝阈值的用户ID存放在第一Super队列,将粉丝数介于第一粉丝阈值、第二粉丝阈值之间
    的用户ID存放在第一Big队列。

    将关注数小于第一关注阈值的用户ID存放在第二Normal队列,将关注数大于第二
    关注阈值的用户ID存放在第二Super队列,将关注数介于第一关注阈值、第二关注阈值之间
    的用户ID存放在第二Big队列。

    通过上述步骤,本发明实现了任务的分类存放。

    步骤S2,按照预设优先级策略爬取用户关系数据。其中,预设优先级策略为:Super
    队列、Normal队列、Big队列的优先级依次增加。

    实际应用中,上述步骤具体为:

    读取各队列中的用户ID并进行爬?。?br />

    首先从第一Big队列中读取,当第一Big队列为空时从第一Normal队列中读取,当
    第一Normal队列为空时从第一Super队列中读取。

    或者首先从第二Big队列中读取,当第二Big队列为空时从第二Normal队列中读
    取,当第二Normal队列为空时从第二Super队列中读取。

    通过上述步骤,本发明实现了任务的有序读取、分发及爬取,避免了关系网规模较
    大用户对爬取效率造成的影响,保证了系统的快速收敛。

    步骤S3,将用户关系数据保存。用户关系数据包括:用户信息、用户粉丝ID、用户粉
    丝信息、用户关注人ID、用户关注人信息。上述用户粉丝ID与用户粉丝信息组成用户的粉丝
    列表,用户关注人ID与用户关注人信息组成用户的关注列表。

    这样,本发明实现了爬取数据的即时存储,便于后续的数据分析。

    在本发明优选实施例中,在将用户关系数据保存之后,此方法还包括:

    判断用户与其粉丝列表中的粉丝ID是否仍存在关系;若否,则将该粉丝ID移出粉
    丝列表,并获取用户最新增加的预设数量的粉丝ID,将其加入粉丝列表,同时更新上述预设
    数量的粉丝ID的关注列表。

    或者判断用户与其关注列表中的关注人ID是否仍存在关系;若否,则将该关注人
    ID移出关注列表,并获取用户最新增加的预设数量的关注人ID,将其加入关注列表,同时更
    新上述预设数量的关注人ID的粉丝列表。

    由此,本发明实现了用户关系数据的更新,确保其准确性。

    实际应用中,此方法还包括:调用API接口爬取数据,以及存储每次调用API接口的
    返回结果,作为爬取的原始数据的备份便于后期的数据分析与数据挖掘。

    本发明的应用范围包括微博、Twitter、Facebook等一切具有链接关系的社交网络
    平台,应用前景广泛。

    本发明提供的社交网络用户关系采集系统及方法,对传统的广度优先遍历采集方
    法进行改进,通过优化任务选取方法,加快关系网采集的收敛速度,缩短任务运行时间,提
    高采集效率。同时对采集数据进行即时存储与更新,对原始采集数据进行备份,为后期的数
    据分析提供有力支持。

    本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以
    通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:
    ROM/RAM、磁碟、光盘等。

    以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人
    员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应
    视为本发明的?;し段?。

    关于本文
    本文标题:社交网络用户关系采集系统及方法.pdf
    链接地址://www.4mum.com.cn/p-6013923.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • pk10赛车345678计划 365彩票app手机版下载 功夫时时彩计划软件官网 江苏时时诈骗 时时彩五星定位胆稳赚技巧 特围领袖 36码特围 重庆时时生肖彩三星走势图 安装大公鸡七星彩 刘伯温六肖精选资料 手机软件pk10直播开奖赛车网站 大乐透走势图表 怎样买极速快3 极速时时官方开奖网站 一分快三在线稳赚计划 彩票计划哪个准 pk10全天人工计划群