• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 15
    • 下载费用:20 金币  

    重庆时时彩走势图十分钟: 高频页面内容聚类方法和系统.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210581457.7

    申请日:

    2012.12.28

    公开号:

    CN103902596A

    公开日:

    2014.07.02

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121228|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 中国电信股份有限公司
    发明人: 甘玉珏; 郝颖; 杨杰; 王爱宝
    地址: 100033 北京市西城区金融大街31号
    优先权:
    专利代理机构: 中国国际贸易促进委员会专利商标事务所 11038 代理人: 孙宝海
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210581457.7

    授权公告号:

    ||||||

    法律状态公告日:

    2017.10.20|||2014.12.03|||2014.07.02

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种高频页面内容聚类方法和系统,涉及移动互联网页面处理技术领域。针对现有基于手机的热点发掘技术只能分析出热点网站网址,没有自动通过文本提取算法获知该页面内所包含热点事件的内容等问题,提出了通过对所有待分析页面根据页面的不同访问特征,将页面集合划分为多个子集合,然后文本提取和词频分析,得出页面关键词,再基于关键词对页面聚类,发现存在于多个相关联页面间的热点事件,并根据系统中设置的特征偏好设置信息,如地域、用户爱好、消费人群等,整合热点事件的相关信息,可扩展性强。同时,算法对距离的定义简单实用,聚类过程计算复杂度低。

    权利要求书

    权利要求书
    1.  一种高频页面内容聚类方法,其特征在于,包括:
    获取用户访问日志内的页面,根据页面的访问特征划分为多个特征页面集合;
    通过对每一个特征页面集合进行词频分析获得各个特征页面集合出现频率最高的特征高频词汇,获得特征高频词汇集合;
    在特征页面集合内检索包含特征高频词汇集合中任意一个或多个特征高频词汇的页面,得到所有这些页面组成的高频词汇页面集合;
    在高频词汇页面集合中,选择用户访问量最高的页面定义为热点锚页面,以热点锚页面为基准对高频词汇页面集合进行聚类得到热点页面集合;每一个热点页面集合对应一个热点事件,热点事件的标题和正文分别用热点页面集合对应的热点锚页面的标题和正文来表示;
    将高频词汇页面集合中的所有页面都进行分类,得到每一个特征页面集合的热点事件集合,直到高频词汇页面集合内页面都被分类为止。

    2.  根据权利要求1所述的方法,其特征在于,还包括:
    将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合;
    或者
    将所有特征页面集合的热点事件集合进行合并得到合并后的热点集合。

    3.  根据权利要求2所述的方法,其特征在于,所述将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合包括:
    将两个或者多个特征页面集合的热点事件进行合并,记为H={H1,H2,...Hm},H1,H2,...Hm表示各个特征页面集合的热点集合;
    判断H中重复的热点事件,如果热点集合Ha和Hb满足ma=mb或ma∈Hb或mb∈Ha,则确定热点集合Ha和Hb是重复的;
    将重复热点集合Ha和Hb合并为新热点集合Hc,其中Hc={p|p∈Ha或p∈Hb},其对应的热点锚页面mc为Hc中访问次数最多的页 面。

    4.  根据权利要求1所述的方法,其特征在于,所述在高频词汇页面集合中选择用户访问量最高的页面定义为热点锚页面、以热点锚页面为基准对高频词汇页面集合进行聚类得到热点页面集合包括:
    i.记高频词汇页面集合为P0,记特征高频词汇集合为C,对P0进行聚类:定义页面a与页面b之间的距离D(a,b)为:
    D(a,b)=Σi∈C|fia-fib|]]>
    其中代表特征高频词汇i出现在页面a中的次数,代表特征高频词汇i出现在页面b中的次数;设n=0,进行下面的处理:
    ii.取Pn中用户访问次数最多的页面,定义该页面为第n个热点锚页”,记为mn;
    iii.找到与mn距离小于经验值d的热点页面集合Hn:
    Hn={p|D(mn,p)<d,p∈pn};
    iv.获得剩余高频词汇页面集合Pn+1=Pn-Hn。
    v.判断剩余高频词汇页面集合pn+1是否为空,如果剩余高频词汇页面集合Pn+1不为空,n=n+1,重复步骤ii和步骤iv的工作;
    如果剩余高频词汇页面集合Pn+1为空,则终止聚类过程,得到n个热点事件及其热点锚页面。

    5.  根据权利要求1所述的方法,其特征在于,所述页面的访问特征包括:时间段、地理位置、消费水平、和/或手机类型。

    6.  一种高频页面内容聚类系统,其特征在于,包括:
    特征页面划分???,用于获取用户访问日志内的页面,根据页面的访问特征划分为多个特征页面集合;
    高频词汇获得???,用于通过对每一个特征页面集合进行词频分析获得各个特征页面集合出现频率最高的特征高频词汇,获得特征高频词汇集合;
    词汇页面获得???,用于在特征页面集合内检索包含特征高频词汇集合中任意一个或多个特征高频词汇的页面,得到所有这些页面组成的 高频词汇页面集合;
    热点页面获得???,用于在高频词汇页面集合中,选择用户访问量最高的页面定义为热点锚页面,以热点锚页面为基准对高频词汇页面集合进行聚类得到热点页面集合;每一个热点页面集合对应一个热点事件,热点事件的标题和正文分别用热点页面集合对应的热点锚页面的标题和正文来表示;将高频词汇页面集合中的所有页面都进行分类,得到每一个特征页面集合的热点事件集合,直到高频词汇页面集合内页面都被分类为止。

    7.  根据权利要求6所述的系统,其特征在于,还包括:
    热点页面合并???,用于将两个或者多个特征页面集合的热点事件集合进行合并得到合并后的热点集合;或者将所有特征页面集合的热点事件集合进行合并得到合并后的热点集合。

    8.  根据权利要求7所述的系统,其特征在于,所述热点页面合并??榻礁龌蛘叨喔鎏卣饕趁婕系娜鹊闶录泻喜?,记为H={H1,H2,...Hm},H1,H2,...Hm表示各个特征页面集合的热点集合;判断H中重复的热点事件,如果热点集合Ha和Hb满足ma=mb或ma∈Hb或mb∈Ha,则确定热点集合Ha和Hb是重复的;将重复热点集合Ha和Hb合并为新热点集合Hc,其中Hc={p|p∈Ha或p∈Hb},其对应的热点锚页面mc为Hc中访问次数最多的页面。

    9.  根据权利要求6所述的系统,其特征在于,所述热点页面获得??橹葱腥缦虏僮鳎?BR>i.记高频词汇页面集合为P0,记特征高频词汇集合为C,对P0进行聚类:定义页面a与页面b之间的距离D(a,b)为:
    D(a,b)=Σi∈C|fia-fib|]]>
    其中代表特征高频词汇i出现在页面a中的次数,代表特征高频词汇i出现在页面b中的次数;设n=0,进行下面的处理:
    ii.取Pn中用户访问次数最多的页面,定义该页面为第n个热点锚页”,记为mn;
    iii.找到与mn距离小于经验值d的热点页面集合Hn:
    Hn={p|D(mn,p)<d,p∈pn};
    iv.获得剩余高频词汇页面集合Pn+1=Pn-Hn。
    v.判断剩余高频词汇页面集合pn+1是否为空,如果剩余高频词汇页面集合Pn+1不为空,n=n+1,重复步骤ii和步骤iv的工作;
    如果剩余高频词汇页面集合Pn+1为空,则终止聚类过程,得到n个热点事件及其热点锚页面。

    10.  根据权利要求6所述的系统,其特征在于,所述页面的访问特征包括:时间段、地理位置、消费水平、和/或手机类型。

    关 键 词:
    高频 页面 内容 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:高频页面内容聚类方法和系统.pdf
    链接地址://www.4mum.com.cn/p-6134273.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03