• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    重庆时时彩开奖号码下: 一种基于异构网络的微博时序排名方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201410737709.X

    申请日:

    2014.12.05

    公开号:

    CN104765757A

    公开日:

    2015.07.08

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情: 发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20150708|||实质审查的生效IPC(主分类):G06F 17/30申请日:20141205|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 华中科技大学
    发明人: 金海; 余辰; 李瑞丹; 姚德中
    地址: 430074湖北省武汉市洪山区珞喻路1037号
    优先权:
    专利代理机构: 华中科技大学专利中心42201 代理人: 曹葆青
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410737709.X

    授权公告号:

    ||||||

    法律状态公告日:

    2018.06.19|||2015.08.05|||2015.07.08

    法律状态类型:

    发明专利申请公布后的视为撤回|||实质审查的生效|||公开

    摘要

    本发明针对于现有微博排名中没有学习其他节点类型的知识而导致排名节点单一及对时间特征考虑不周全存在的问题,提出了一套基于异构网络的微博时序排名的方法,它采用与微博信息相关的网页文档的跨类型链接,在排名的过程中利用不同类型主体之间的相互增强的关系从而获得比仅靠微博信息网络本身更高的排序质量。另外在排名的过程中也研究了时序信息对排名结果的影响,利用微博时序生命周期特性提高排名的准确性。

    权利要求书

    权利要求书
    1.  一种基于异构网络的微博时序排名方法,其特征在于,所述方法包括以下步骤:
    (1)根据四种过滤原则对微博数据内容进行噪音过滤,其中四种过滤原则包括:内容过于简短并且不包含完整的URL、微博内容以第一人称为开始、微博内容中包含的俗语及表情符号、微博内容中提到和转发的常规格式;
    (2)对所有的过滤后的微博内容进行词划分,根据划分结果统计微博数据集中涉及到的微博关键词,并根据热门关键词检索网页文档;
    (3)初始化微博排名矩阵Rw及网页排名矩阵Rd,计算网页-网页文本相似矩阵Md以及微博-微博文本相似矩阵Mw,根据文本相似矩阵Md、Mw中网页与网页、微博与微博之间的关系采用DivRank算法对网页和微博进行排名权重赋值;
    (4)初始化用户排名矩阵Ru;采用用户之间的关注关系矩阵Muf及用户可信度矩阵Muc,构建用户-用户邻接矩阵Mu;根据用户-用户邻接矩阵Mu中用户和用户之间的关系,采用DivRank算法初始化用户排名权重矩阵Ru;
    (5)根据微博的转发量分析微博的时序特征,采用sigmoid曲线拟合微博时序权重即微博生命周期,并依据微博的时序权重更新微博排名权重Rw;
    (6)计算网页-微博关联矩阵Mdw以及微博-用户关联矩阵Mwu,构建网页-微博-用户异构信息网络;对于网页-微博关联矩阵Mdw,采用文本内容的相似度使得微博与网页相互关联;对于微博-用户关联矩阵Mwu则采用用户在一段时间内发布微博与该微博的文本相似度关联;
    (7)利用网络中不同类型节点信息的不平衡性,使节点之间的信息流 动传播从而互补增强;首先通过微博到网页、用户的信息流动来更新网页的排名Rd及用户的排名Ru;再根据网页、用户到微博的信息流动使得微博的排名Rw得以更新;
    (8)得出异构网络微博的排名结果,结束。

    2.  如权利要求1所述的方法,其特征在于,所述步骤(2)具体包括:
    (2-1)对微博内容进行词划分,并统计微博数据集中前m的微博热门关键词,其中m为预设值;
    (2-2)对排名前m的微博热门关键词采用Google Search API检索相应的网页文档,从而搜集网页文档数据集。

    3.  如权利要求1或2所述的方法,其特征在于,所述步骤(3)具体包括:
    (3-1)对网页、微博内容均采用短文本的方式进行词划分,并进行俗语过滤,对于微博或网页wi和微博或网页wj内容的词向量采用文本余弦相似性分别计算出网页-网页、微博-微博的文本相似矩阵Md、Mw,其中对于任一文本相似矩阵Md、Mw,有;
    Mij=sim(wi,wj)Σksim(wi,wk),sim(wi,wj)=w→i·w→j||w→i||·||w→j||]]>
    (3-2)对网页-网页文本相似矩阵Md、微博-微博文本相似矩阵Mw分别采用随机游走DivRank算法初始化网页排名矩阵Rd及微博排名矩阵Rw;具体地,微博排名矩阵Rzw=α·[Mzw]T·Rz-1w+1-α|Vw|E,]]>其中Mzw=α·Mz-1w·Rz-1w+1-α|Vw|E,]]>网页排名矩阵Rzd=α·[Mzd]T·Rz-1d+1-α|Vd|E,]]>其中Mzd=α·Mz-1d·Rz-1d+1-α|Vd|E,]]>α是固定跳转因子,是的转置,是的转置,E是一个具有|Vw|个元素的矩阵,每个元素值都为1,Vw表示网络中所有的微博集合,Vd表示网络中所有的网页集合,z表示第z次迭代。

    4.  如权利要求1或2所述的方法,其特征在于,所述步骤(4)具体包括:
    (4-1)根据用户之间的关注关系建立用户-用户关注关系矩阵Muf,即当用户ui关注用户uj,则添加一条连接关系(ui,uj)到关系函数f(·),将用户ui和uj的关系函数f(ui,uj)及用户uj入度Σkf(uk,uj)作为输入,从而对关注关系矩阵Muf中的入口进行赋值,
    Mijuf=f(ui,uj)Σkf(uk,uj),f(ui,uj)=1,(ui,uj)∈Eu0,(ui,uj)∉Eu]]>
    (4-2)用户可信度矩阵Muc依据微博中用户之间的互动次数来计算,用户之间的互动包含有三种:提到(mention)、转发(repost)和评论(reply),即actions∈{mention,repost,reply};用户ui和uj的互动次数包含有两种类型:一是由用户ui产生并且与用户uj有关的互动次数actions_from_ui,二是网络中所有用户对与用户uj产生的互动次数actions_of_uj;并将这两种互动次数的比例作为用户可信度矩阵Muc的入口;
    Mijuc=actions_form_uiactions_of_uj,actions∈{mention,repost,reply}]]>
    (4-3)综合用户关注关系矩阵Muf及用户可信度矩阵Muc得到用户-用户邻接矩阵Mu,即Mu=Muc·Muf;对于用户-用户邻接矩阵Mu中用户之间的关联信息,采用DivRank算法初始化用户排名矩阵Ru,用户排名矩阵Rzu=α·[Mzu]T·Rz-1u+1-α|Vu|E,]]>其中Mzu=α·Mz-1u·Rz-1u+1-α|Vu|E,]]>α是固定跳转因子,是的转置,E是一个具有|Vw|个元素的矩阵,每个元素值都为1,Vu表示网络中所有的用户集合,z表示第z次迭代。

    5.  如权利要求1或2所述的方法,其特征在于,所述步骤(5)具体包括:
    (5-1)根据微博转发数据统计所有微博在其发布后的每小时转发量, 并依据转发量及转发时间间隔做微博生命周期分布图;
    (5-2)将所有微博相同时间间隔的转发量求和,分析生命周期曲线变换趋势,并采用sigmoid曲线拟合出微博的生命变化规律;自定义参数a、d和c用于控制曲线水平位置,参数b调整曲线增长平缓的速度;在微博发布t小时后微博的时序权重计算方式如下:
    Mtlife=a-b·expc-b·t]]>
    (5-3)根据不同时间段微博的动态时序权重,从而不断的调整微博的排序权重矩阵Rw,即Rw=Rw·Mlife。

    6.  如权利要求1或2所述的方法,其特征在于,所述步骤(6)具体包括:
    (6-1)计算网页-微博关联矩阵Mdw:首先计算微博内容词向量wj和网页文本词向量di计算向量之间的余弦相似性sim(di,wj);再判断余弦相似性sim(di,wj)是否大于给定的阈值δ;大于则微博wj和网页di之间的关联度为sim(di,wj),否则为0;具体公式如下:
    Mijdw=sim(di,wj),ifsim(di,wj)>δ0,others]]>
    (6-2)计算微博-用户关联矩阵Mwu:统计用户uj在最近的一段时间内发布的微博内容集合{posted_by_uj};然后取集合{posted_by_uj}中与微博wi内容的余弦相似度最大值max;并判断该最大值max是否大于给定的阈值δ。大于则用户uj和微博wi的关联度为max,否则为0;具体公式如下:
    Mijwu=maxsim(wi,wk)wk∈{posted_by_uj},ifmaxsim(wi,wk)>δ0,others.]]>

    7.  如权利要求1或2所述的方法,其特征在于,所述步骤(7)具体包括:
    (7-1)通过微博到网页、用户的信息流动来更新网页的排名Rd及用户 的排名Ru,自定义参数λd∈[0,1]、λu∈[0,1]用以平衡微博初始排名值与网页、用户信息流动对排名结果的影响值;网页-微博关联矩阵Mdw、微博-用户关联矩阵Mwu及网页初始排名权重Rd、微博初始排名Rw和用户初始排名权重Ru作为输入,在第k次采用信息流动的方式,具体矩阵形式化表达如:
    Rdid(k+1)=(1-λd)Rdid(k)+λdΣwj∈VwMijdwRwjw(k)]]>
    Ruiu(k+1)=(1-λu)Ruiu(k)+λuΣwj∈VwMijuwRwjw(k)]]>
    (7-2)利用网页、用户到微博的信息流动来调整微博的排名值Rw;并在算法相邻两次迭代过程中,计算任意两个相邻微博节点的排名结果的差值都小于某个给定的阈值μ时,小于则算法迭代停止。否则判断达到最大迭代次数θ,到达则算法迭代停止。
    Rwjw(k+1)=(1-λd-λu)Rwjw(k)+λdΣdi∈VdMjiwdRdid(k)+λuΣui∈VuMjlwuRulu(k)]]>

    8.  如权利要求1或2所述的方法,其特征在于,所述步骤(2)中的m取值为10。

    说明书

    说明书一种基于异构网络的微博时序排名方法
    技术领域
    本发明属于网络应用技术领域,更具体地,涉及一种基于异构网络的微博时序排名方法。
    背景技术
    近年来,随着互联网规模的快速发展及广泛的应用,彻底改变了人们的发现、分享信息的方式,随之而来的是用户产生的数据量的指数式增长。然而对于这些大量的数据用户想要有效利用互联网数据的造成极大不便,使得排名问题等具有对网络分析的技术如搜索引擎等应运而生为互联网带来了新的生机和新的运营模式。排名作为最基本的网络分析技术之一逐渐成为分析互联网和学术界的热门话题。排序最根本的目的是根据用户对信息喜好的期望进行排序。常用的排名方法是基于图的排名例如PageRank等,这些方法大部分都着重于假设整个网络中所有的节点类型是相同的即只存在一种节点类型,然而现实生活中的网络都是包含多种节点类型的,例如DBLP网络中包含有作者、论文、会议、关键词。网络的社会性使得其中包含大量而丰富的异构网络资源。相比于只使用一种类型的结点信息,异构网络可带来更丰富的信息,同时也带来了更多的挑战:对于异构类型结点之间的可见性和复杂性存在差异,如何利用他们之间的联系,将原本同构网络中的排序模型适应并准确地应用在异构网络环境中其他类型的结点和任务上。另外时间是衡量排名准确度的重要标准,现有的方法大都假定整个过程中用户的关注和喜好是静态的并不随着网络的变化而变化,或者仅仅提取最近关注过的信息,这些方法虽然能够掩盖时序的变化趋势提供信息然而不能满足对实时信息、时间归纳的需求。
    对微博内容信息排名根本目的是从用户分享的这些大量的信息中提取过滤详实、可靠的大众关注的信息。新浪微博,作为目前最流行的在线短消息交流平台之一,每天提供大量的新鲜资讯包括实时资讯、评论、聊天、个人感慨及广告等。在用户分享的这些信息中有部分是用户在事发现场、附近或者起来来源从而提供的第一手的可靠信息,但是更大部分的信息是出于用户对事件的关注兴趣从而发表的个人看法。因此微博内容本身所具有广泛、实时等优点,但同时也具备杂乱、不详实可靠性。
    基于以上的分析,如何利用异构网络中不同类型节点信息的不平衡性,将原本同构网络中的排序模型迁移到异构环境中其他类型的任务上的需求,并结合异构网络节点的时序特征,研究时序对排名结果的影响的需求。从而挖掘出异构网络中节点上的关键信息,提高排序的精度。
    发明内容
    本发明的目的在于提供一种基于异构网络的微博时序排名方法,该方法利用微博的转发量模拟微博的生命周期,从而获取可信的微博时序特征的权重,并且根据微博与网页内容的相似性使得微博和网页相互关联,再利用异构网络中不同类型节点即网页、微博和用户之间信息的不平衡性,采用信息流动的方式使节点之间的信息流动传播从而互补增强,使得排名获得详实可靠的、实时准确的微博信息。
    本发明提供的基于异构网络的微博时序排名方法,包含以下步骤:
    微博异构信息网络G=(V,E),其中V={Vd∪Vw∪Vu}表示网络中所有的节点集合包含有网页集合Vd、微博集合Vw和用户集合Vu,E={(vi,vj)|vi,vj∈V}表示网络中所有节点之间关系链接集合。
    (1)根据四种过滤原则对微博数据内容进行噪音过滤,其中四种过滤原则包括:内容过于简短并且不包含完整的URL、微博内容以第一人称为开始、微博内容中包含的俗语及表情符号、微博内容中提到和转发的常规格 式;
    (2)对所有的过滤后的微博内容进行词划分,根据划分结果统计微博数据集中涉及到的微博关键词,并根据热门关键词检索网页文档;
    (3)初始化微博排名矩阵Rw及网页排名矩阵Rd,计算网页-网页文本相似矩阵Md以及微博-微博文本相似矩阵Mw,根据文本相似矩阵Md、Mw中网页与网页、微博与微博之间的关系采用DivRank算法对网页和微博进行排名权重赋值;
    (4)初始化用户排名矩阵Ru;采用用户之间的关注关系矩阵Muf及用户可信度矩阵Muc,构建用户-用户邻接矩阵Mu;根据用户-用户邻接矩阵Mu中用户和用户之间的关系,采用DivRank算法初始化用户排名权重矩阵Ru;
    (5)根据微博的转发量分析微博的时序特征,采用sigmoid曲线拟合微博时序权重即微博生命周期,并依据微博的时序权重更新微博排名权重Rw;
    (6)计算网页-微博关联矩阵Mdw以及微博-用户关联矩阵Mwu,构建网页-微博-用户异构信息网络;对于网页-微博关联矩阵Mdw,采用文本内容的相似度使得微博与网页相互关联;对于微博-用户关联矩阵Mwu则采用用户在一段时间内发布微博与该微博的文本相似度关联;
    (7)利用网络中不同类型节点信息的不平衡性,使节点之间的信息流动传播从而互补增强;首先通过微博到网页、用户的信息流动来更新网页的排名Rd及用户的排名Ru;再根据网页、用户到微博的信息流动使得微博的排名Rw得以更新;
    (8)得出异构网络微博的排名结果,结束。
    通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
    (1)高精确性:采用步骤(2)中搜集网页数据集,并在步骤(6)中根据文本的相似性使得微博与网页相互关联。从而充分利用网页文档的可靠性及高精确性来挖掘微博节点上的关键信息,使得排名结果的准确度得以提高。
    (2)实时性:在步骤(5)中根据微博在不同时间段的转发量全面的分析了微博的时序权重,并拟合出微博的时序权重。使得排名结果充分结合异构网络中微博节点的时序特征,并根据微博时序权重动态的调整微博排名结果。
    (3)信息平衡性:通过采用步骤(7)中网页、用户和微博之间的信息流动,从而平衡异构网络中不同类型节点信息,并且将原本同构网络中的排序模型迁移到异构环境中其他类型的任务上。
    附图说明
    图1是本发明异构网络微博时序排名方法的框架流程图;
    图2(1)是随机选取的40条微博发布后不同时间段内转发量与时间的分布关系;
    图2(2)是根据微博在不同时间段的转发量拟合微博时序权重。
    具体实施方式
    为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
    本发明针对于现有微博排名中节点间信息不完整而导致排名后节点集合单一及对时间特征考虑不周全存在的问题,提出了一套基于异构网络的微博时序排名的方法,它采用与微博信息相关的网页文档的跨类型链接,在排名的过程中利用不同类型主体之间的相互增强的关系从而获得比仅靠 微博信息网络本身更高的排序质量。另外在排名的过程中根据时序信息对排名结果的影响,利用微博时序生命周期特性提高排名的准确性。
    异构网络是指:网络中主体类型多种或者主体的关系类型多种。例如:商品推荐网络主体类型有用户、商品等,主体关系类型有用户购买商品、商品被用户购买等;DBLP网络中主体类型有作者、会议、论文、关键词,而主体的关系类型有作者发表论文、论文被会议录用、论文中包含有关键词等。
    本发明提供的基于异构网络的微博时序排名的方法流程框架如图1所示,并结合附图和具体实施方式对本发明做进一步说明如图1所示。具体步骤主要如下:
    微博异构信息网络G=(V,E),其中V={Vd∪Vw∪Vu}表示网络中所有的节点集合包含有网页集合Vd、微博集合Vw和用户集合Vu,E={(vi,vj)|vi,vj∈V}表示网络中所有节点之间关系链接集合。
    (1)对微博内容信息量进行排名,首先根据四种过滤原则如内容过于简短并且不包含完整的URL、微博内容以第一人称为开始、微博内容中包含的俗语及表情符号、微博内容中提到和转发的常规格式,对微博数据内容进行噪音过滤。
    (2)对所有的过滤后的微博内容进行词划分,根据划分结果统计微博数据集中涉及到的微博关键词。并根据热门关键词检索网页文档。
    (2-1)对微博内容进行词划分,并统计微博数据集中前m(m为预设值,在本发明实施例中取m=10)的微博热门关键词。
    (2-2)对排名前m的微博热门关键词采用Google Search API检索相应的网页文档,从而搜集网页文档数据集。
    (3)初始化微博排名矩阵Rw及网页排名矩阵Rd。首先计算网页-网页、微博-微博文本相似矩阵Md、Mw。根据文本相似矩阵Md、Mw中网页与网 页、微博与微博之间的关系采用DivRank算法对网页和微博进行排名权重赋值。
    (3-1)对网页、微博内容均采用短文本的方式进行词划分,并进行俗语过滤,对于微博或网页wi和微博或网页wj内容的词向量采用文本余弦相似性分别计算出网页-网页、微博-微博的文本相似矩阵Md、Mw,其中对于任一文本相似矩阵Md、Mw,有;
    Mij=sim(wi,wj)Σksim(wi,wk),sim(wi,wj)=w→i·w→j||w→i||·||w→j||]]>
    (3-2)对网页-网页文本相似矩阵Md、微博-微博文本相似矩阵Mw分别采用随机游走DivRank算法初始化网页排名矩阵Rd及微博排名矩阵Rw。对于微博采用DivRank赋值排名,α是固定跳转因子,则对每一步跳转而言,或者是以α的概率做持续的随机游走,或者是以(1-α)的概率随机跳到任意一个结点。DivRank综合考虑到数据的重要性和多样性,因此在每次的迭代过程中引入一个动态的转移矩阵经过z次迭代以后,转移矩阵不再是静态的,而是:
    Mzw=α·Mz-1w·Rz-1w+1-α|Vw|E]]>
    微博排名矩阵Rw包含网络中所有微博节点的排名权重结果。是 的转置。E是一个具有|Vw|个元素的矩阵,每个元素值都为1,Vw表示网络中所有的微博集合。而微博排名矩阵Rw的计算式为:
    Rzw=α·[Mzw]T·Rz-1w+1-α|Vw|E]]>
    对于网页排名矩阵其中 Vd表示网络中所有的网页集合。
    (4)初始化用户排名矩阵Ru。采用用户之间的关注关系矩阵Muf及用 户可信度矩阵Muc,构建用户-用户邻接矩阵Mu。根据用户-用户邻接矩阵Mu中用户和用户之间的关系,采用DivRank算法初始化用户排名权重矩阵Ru。
    (4-1)根据用户之间的关注关系建立用户-用户关注关系矩阵Muf。即当用户ui关注用户uj,则添加一条连接关系(ui,uj)到关系函数f(·)。将用户ui和uj的关系函数f(ui,uj)及用户uj入度∑kf(uk,uj)作为输入,从而对关注关系矩阵Muf中的入口进行赋值。
    Mijuf=f(ui,uj)Σkf(uk,uj),f(ui,uj)=1,(ui,uj)∈Eu0,(ui,uj)∉Eu]]>
    (4-2)为了提高用户排名的准确性,考虑到用户可信度问题。而用户可信度矩阵Muc是依据微博中用户之间的互动次数来计算。本专利中用户之间的互动(actions)包含有三种如提到(mention)、转发(repost)和评论(reply),即actions∈{mention,repost,reply}。用户ui和uj的互动次数包含有两种类型:一是由用户ui产生并且与用户uj有关的互动次数actions_from_ui。二是网络中所有用户对与用户uj产生的互动次数actions_of_uj。并将这两种互动次数的比例作为用户可信度矩阵Muc的入口。
    Mijuc=arctions_from_uiactions_of_uj,actions∈{mention,repost,reply}]]>
    (4-3)综合用户关注关系矩阵Muf及用户可信度矩阵Muc得到用户-用户邻接矩阵Mu,即Mu=Muc·Muf。对于用户-用户邻接矩阵Mu中用户之间的关联信息,采用DivRank算法初始化用户排名Ru。
    Rzu=α·[Mzu]T·Rz-1u+1-α|Vu|E]]>
    其中α是固定跳转因子,是的转置,E是一个具有|Vw|个元素的矩阵,每个元素值都为1,Vu表示网络中所有的 用户集合,z表示第z次迭代。
    (5)根据微博的转发量分析微博的时序特征。采用sigmoid曲线拟合微博时序权重即微博生命周期。并依据微博的时序权重更新微博排名权重Rw。
    (5-1)根据微博转发数据统计所有微博在其发布后的每小时转发量,并依据转发量及转发时间间隔做微博生命周期分布图,图2(1)中描绘了随机选择的40条微博在不同时间段间隔的统计转发量。
    (5-2)将所有微博相同时间间隔的转发量求和,分析生命周期曲线变换趋势,并采用sigmoid曲线拟合出微博的生命变化规律。图2(2)中根据微博转发量模拟微博的生命周期。自定义参数a、d和c用于控制曲线水平位置,参数b调整曲线增长平缓的速度。在微博发布t小时后微博的时序权重计算方式如下:
    Mtlife=a-d·expc-b·t]]>
    (5-3)根据不同时间段微博的动态时序权重,从而不断的调整微博的排序权重矩阵Rw,即Rw=Rw·Mlife。
    (6)计算网页-微博、微博-用户关联矩阵Mdw、Mwu,构建网页-微博-用户异构信息网络。对于网页-微博关联矩阵Mdw,采用文本内容的相似度使得微博与网页相互关联。对于微博-用户关联矩阵Mwu则采用用户在一段时间内发布微博与该微博的文本相似度关联。
    (6-1)计算网页-微博关联矩阵Mdw。首先计算微博内容词向量wj和网页文本词向量di计算向量之间的余弦相似性sim(di,wj)。再判断余弦相似性sim(di,wj)是否大于给定的阈值δ。大于则微博wj和网页di之间的关联度为sim(di,wj),否则为0。具体公式如下。
    Mijdw=sim(di,wj),if sim(di,wj)>δ0,others]]>
    (6-2)计算微博-用户关联矩阵Mwu。统计用户uj在最近的一段时间内发布的微博内容集合{posted_by_uj}。然后取集合{posted_by_uj}中与微博wi内容的余弦相似度最大值max。并判断该最大值max是否大于给定的阈值δ。大于则用户uj和微博wi的关联度为max,否则为0。
    Mijwu=maxsim(wi,wk)wk∈{posted_by_uj},ifmaxsim(wi,wk)>δ0,others]]>
    (7)利用网络中不同类型节点信息的不平衡性,使节点之间的信息流动传播从而互补增强。首先通过微博到网页及用户的信息流动来更新网页的排名Rd及用户的排名Ru。再根据网页和用户到微博的信息流动使得微博的排名Rw得以更新。
    (7-1)通过微博到网页、用户的信息流动来更新网页的排名Rd及用户的排名Ru。自定义参数λd∈[0,1]、λu∈[0,1]用以平衡微博初始排名值与网页、用户信息流动对排名结果的影响值。网页-微博关联矩阵Mdw、微博-用户关联矩阵Mwu及网页初始排名矩阵Rd、微博初始排名矩阵Rw和用户初始排名矩阵Ru作为输入,在第k次采用信息流动的方式,具体矩阵形式化表达如:
    Rdid(k+1)=(1-λd)Rdid(k)+λdΣwj∈VwMijdwRwjw(k)]]>
    Ruiu(k+1)=(1-λu)Ruiu(k)+λuΣwj∈VwMljuwRwjw(k)]]>
    (7-2)利用网页、用户到微博的信息流动来调整微博的排名值Rw。并在算法相邻两次迭代过程中,计算任意两个相邻微博节点的排名权重结果的差值都小于某个给定的阈值μ时,小于则算法迭代停止。否则判断达到最大迭代次数θ,达到最大迭代次数则算法停止。
    Rwjw(k+1)=(1-λd-λu)Rwjw(k)+λdΣdi∈VdMjiwdRdid(k)+λuΣui∈VuMjlwuRulu(k)]]>
    (8)得出异构网络微博的排名结果,结束。
    本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的?;し段е?。

    关 键 词:
    一种 基于 网络 时序 排名 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种基于异构网络的微博时序排名方法.pdf
    链接地址://www.4mum.com.cn/p-5894853.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03