• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 19
    • 下载费用:20 金币  

    重庆时时彩鑫乐平台: 获取信息的方法和装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210509047.1

    申请日:

    2012.12.03

    公开号:

    CN103853763A

    公开日:

    2014.06.11

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121203|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 腾讯科技(深圳)有限公司
    发明人: 程刚; 潘璇; 庄子明; 李鹤; 王谷丹; 周霄骁; 刘新鸣; 芦方
    地址: 518000 广东省深圳市福田区振兴路赛格科技园2栋东403室
    优先权:
    专利代理机构: 北京三高永信知识产权代理有限责任公司 11138 代理人: 罗振安
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210509047.1

    授权公告号:

    ||||||

    法律状态公告日:

    2018.03.02|||2015.06.24|||2014.06.11

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种获取信息的方法和装置,属于信息技术领域。所述方法包括:获取指定用户在当前时间段内的相关信息,并对所述相关信息进行预处理,得到所述相关信息的相关词,其中所述相关信息包括:所述指定用户发表的或是转发的相关信息;确定所述相关信息的相关词的关注值;根据所述相关词的关注值得到所述相关信息中的关键词;根据所述得到的所述指定用户的相关信息中的关键词,获取所述指定用户关注的信息。

    权利要求书

    权利要求书
    1.  一种获取信息的方法,其特征在于,所述方法包括:
    获取指定用户在当前时间段内的相关信息,并对所述相关信息进行预处理,得到所述相关信息的相关词,其中,所述相关信息包括:所述指定用户发表的或是转发的相关信息;
    确定所述相关信息的相关词的关注值;
    根据所述相关词的关注值得到所述相关信息中的关键词;
    根据所述得到的关键词,获取所述指定用户关注的信息。

    2.  根据权利要求1所述的方法,其特征在于,所述对所述相关信息进行预处理,得到所述相关信息的相关词,包括:
    对所述相关信息进行预处理,以去除所述相关信息中的标点符号、不可见字符和显示乱码的字符;
    将所述预处理后的相关信息进行分词处理;
    将所述分词后的相关信息与预设的词表进行匹配,过滤掉所述分词后的相关信息中的指定词语,得到所述相关信息的相关词。

    3.  根据权利要求1所述的方法,其特征在于,所述确定所述相关信息的相关词的关注值,包括:
    分别确定所述相关词在所述当前时间段内的出现频率和所述相关词的历史出现频率;
    根据所述相关词在所述当前时间段内的出现频率和所述相关词的历史出现频率,得到所述相关词的相对变化率;
    根据所述相关词的相对变化率得到所述相关词的关注值。

    4.  根据权利要求3所述的方法,其特征在于,所述确定所述相关词的历史出现频率,包括:
    分别确定所述相关词的第一出现频率、第二出现频率和第三出现频率,其中,所述第一出现频率是指所述相关词在所述当前时间段之前的预设时间段内 且与所述当前时间段相同小时区间内出现的频率,所述第二出现频率是指所述相关词在所述预设时间段内与所述当前时间段相差七天的日期且与所述当前时间段相同小时区间内的出现频率,所述第三出现频率是指所述相关词在所述预设时间段内全天出现的频率;
    根据所述第一出现频率、所述第二出现频率和所述第三出现频率得到所述相关词的历史出现频率。

    5.  根据权利要求3所述的方法,其特征在于,所述根据所述相关词的相对变化率得到所述相关词的关注值,包括:
    根据所述相关词的相对变化率分别得到所述相关词在历史上不是关键词的历史频率和所述相关词在历史上是关键词的历史频率;
    根据所述相关词的相对变化率、所述相关词在历史上不是关键词的历史频率和所述相关词在历史上是关键词的历史频率,得到所述相关词的关注值。

    6.  根据权利要求3所述的方法,其特征在于,所述根据所述相关词的相对变化率得到所述相关词的关注值,包括:
    根据神经元的非线性作用函数sigmoid对所述相关词的相对变化率进行二项区分,得到所述相关词的关注值。

    7.  根据权利要求1所述的方法,其特征在于,根据所述相关词的关注值得到所述相关信息中的关键词,包括:
    将所述相关词的关注值与第一预设阈值进行比较,将所述相关词的关注值大于所述第一预设阈值的相关词作为关键词。

    8.  根据权利要求1所述的方法,其特征在于,所述根据所述得到的关键词,获取所述指定用户关注的信息,包括:
    将所述关键词与预设话题进行匹配,找到能够与所述预设话题匹配的关键词;
    根据所述能够与所述预设话题匹配的关键词的关注值确定所述关键词中能够与所述预设话题相匹配的关键词与所述预设话题的分值;
    根据所述关键词中能够与所述预设话题相匹配的关键词与所述预设话题的分值得到所述指定用户关注的信息。

    9.  根据权利要求1所述的方法,其特征在于,所述根据所述得到的关键词,获取所述指定用户关注的信息,包括:
    根据所述关键词对所述指定用户的微博的相关信息进行聚类,将所述微博的相关信息中关键词相似度高的划为同一类;
    确定所述聚类后的微博的相关信息的公共子集,其中,所述公共子集包含所述关键词且所述公共子集的长度小于或等于第二预设阈值;
    根据所述关键词的关注值确定所述公共子集的分数;
    根据所述公共子集的分数得到所述指定用户关注的信息。

    10.  根据权利要求1所述的方法,其特征在于,所述根据所述得到的关键词,获取所述指定用户关注的信息之后,还包括:
    根据所述指定用户关注的信息中包含的关键词的关注值的由高到低,对所述指定用户关注的信息进行排序并输出所述排序后的指定用户关注的信息。

    11.  根据权利要求10所述的方法,其特征在于,所述根据所述指定用户关注的信息中包含的关键词的关注值的由高到低,对所述指定用户关注的信息进行排序之前,还包括:
    确定所述指定用户关注的信息的语义相似度,以删除所述指定用户关注的信息中产生偏移的话题及所述偏移的话题与相关信息的对应关系。

    12.  根据权利要求11所述的方法,其特征在于,所述确定所述指定用户关注的信息的语义相似度,以删除所述指定用户关注的信息中产生偏移的话题及对应关系,包括:
    将所述指定用户关注的信息按顺序进行剪裁,得到所述指定用户关注的信息的多个子集;
    将所述指定用户关注的信息的多个子集分别与所述指定用户关注的信息所在的相关信息进行匹配,保存所述能够包含在所述指定用户关注的信息所在的 相关信息的子集,删除所述不能够包含在所述指定用户关注的信息所在的相关信息的子集;或,
    将所述指定用户关注的信息拆分成有序的单词序列,将所述单词序列作为所述指定用户关注的信息的描述向量和所述指定用户关注的信息所在的相关信息进行相似度计算,以删除所述指定用户关注的信息中产生偏移的话题及对应关系。

    13.  一种获取信息的装置,其特征在于,所述装置包括:
    预处理???,用于获取指定用户在当前时间段内的相关信息,并对所述相关信息进行预处理,得到所述相关信息的相关词,其中,所述相关信息包括:所述指定用户发表的或是转发的相关信息;
    确定???,用于确定所述相关信息的相关词的关注值;
    第一获取???,用于根据所述相关词的关注值得到所述相关信息中的关键词;
    第二获取???,用于根据所述得到的关键词,获取所述指定用户关注的信息。

    14.  根据权利要求13所述的装置,其特征在于,所述预处理???,包括:
    删除单元,用于对所述相关信息进行预处理,以去除所述相关信息中的标点符号、不可见字符和显示乱码的字符;
    分词单元,用于将所述预处理后的相关信息进行分词处理;
    过虑单元,用于将所述分词后的相关信息与预设的词表进行匹配,过滤掉所述分词后的相关信息中的指定词语,得到所述相关信息的相关词。

    15.  根据权利要求13所述的装置,其特征在于,所述确定???,包括:
    确定单元,用于分别确定所述相关词在所述当前时间段内的出现频率和所述相关词的历史出现频率;
    第一获取单元,用于根据所述相关词在所述当前时间段内的出现频率和所述相关词的历史出现频率,得到所述相关词的相对变化率;
    第二获取单元,用于根据所述相关词的相对变化率得到所述相关词的关注 值。

    16.  根据权利要求15所述的装置,其特征在于,所述确定单元,包括:
    确定子单元,用于分别确定所述相关词的第一出现频率、第二出现频率和第三出现频率,其中,所述第一出现频率是指所述相关词在所述当前时间段之前的预设时间段内且与所述当前时间段相同小时区间内出现的频率,所述第二出现频率是指所述相关词在所述预设时间段内与所述当前时间段相差七天的日期且与所述当前时间段相同小时区间内的出现频率,所述第三出现频率是指所述相关词在所述预设时间段内全天出现的频率;根据所述第一出现频率、所述第二出现频率和所述第三出现频率得到所述相关词的历史出现频率。

    17.  根据权利要求15所述的装置,其特征在于,所述第一获取单元,包括:
    第一获取子单元,用于根据所述相关词的相对变化率分别得到所述相关词在历史上不是关键词的历史频率和所述相关词在历史上是关键词的历史频率;根据所述相关词的相对变化率、所述相关词在历史上不是关键词的历史频率和所述相关词在历史上是关键词的历史频率,得到所述相关词的关注值。

    18.  根据权利要求15所述的装置,其特征在于,所述第一获取单元,包括:
    第二获取子单元,用于根据神经元的非线性作用函数sigmoid对所述相关词的相对变化率进行二项区分,得到所述相关词的关注值。

    19.  根据权利要求13所述的装置,其特征在于,第一获取??榫咛逵糜冢?BR>将所述相关词的关注值与第一预设阈值进行比较,将所述相关词的关注值大于所述第一预设阈值的相关词作为关键词。

    20.  根据权利要求13所述的装置,其特征在于,所述第二获取???,包括:
    匹配单元,用于将所述关键词与预设话题进行匹配,找到能够与所述预设话题匹配的关键词;
    第一确定单元,用于根据所述能够与所述预设话题匹配的关键词的关注值确定所述关键词中能够与所述预设话题相匹配的关键词与所述预设话题的分 值;
    第一获取单元,用于根据所述关键词中能够与所述预设话题相匹配的关键词与所述预设话题的分值得到所述指定用户关注的信息。

    21.  根据权利要求13所述的装置,其特征在于,所述第二获取???,包括:
    聚类单元,用于根据所述关键词对所述指定用户的微博的相关信息进行聚类,将所述微博中关键词相似度高的划为同一类;
    第二确定单元,用于确定所述聚类后的微博的相关信息的公共子集,其中,所述公共子集包含所述关键词且所述公共子集的长度小于或等于第二预设阈值;
    第三确定单元,用于根据所述关键词的关注值确定所述公共子集的分数;
    第二获取单元,用于根据所述公共子集的分数得到所述指定用户关注的信息。

    22.  根据权利要求13所述的装置,其特征在于,所述装置还包括:
    输出???,用于在所述第二获取??榛袢∷鲋付ㄓ没Ч刈⒌男畔⒅?,根据所述指定用户关注的信息中包含的关键词的关注值的由高到低,对所述指定用户关注的信息进行排序并输出所述排序后的指定用户关注的信息。

    23.  根据权利要求22所述的装置,其特征在于,所述装置还包括:
    语义回归???,用于在所述输出??槎运鲋付ㄓ没Ч刈⒌男畔⒔信判蛑?,确定所述指定用户关注的信息的语义相似度,以删除所述指定用户关注的信息中产生偏移的话题及所述偏移的话题与相关信息的对应关系。

    24.  根据权利要求23所述的装置,其特征在于,所述语义回归???,包括:
    第一处理单元,用于将所述指定用户关注的信息按顺序进行剪裁,得到所述指定用户关注的信息的多个子集;将所述指定用户关注的信息的多个子集分别与所述指定用户关注的信息所在的相关信息进行匹配,保存所述能够包含在所述指定用户关注的信息所在的相关信息的子集,删除所述不能够包含在所述指定用户关注的信息所在的相关信息的子集;或,
    第二处理单元,用于将所述指定用户关注的信息拆分成有序的单词序列,将所述单词序列作为所述指定用户关注的信息的描述向量和所述指定用户关注的信息所在的相关信息进行相似度计算,以删除所述指定用户关注的信息中产生偏移的话题及对应关系。

    关 键 词:
    获取 信息 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:获取信息的方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6147971.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03