• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    360重庆时时彩网站: 确定给定文本的主题分布的方法和装置.pdf

    关 键 词:
    确定 给定 文本 主题 分布 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410083451.6

    申请日:

    2014.03.07

    公开号:

    CN103870563A

    公开日:

    2014.06.18

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140307|||公开
    IPC分类号: G06F17/30; G06F17/27 主分类号: G06F17/30
    申请人: 北京奇虎科技有限公司; 奇智软件(北京)有限公司
    发明人: 胡德勇
    地址: 100088 北京市西城区新街口外大街28号D座112室(德胜园区)
    优先权:
    专利代理机构: 北京国昊天诚知识产权代理有限公司 11315 代理人: 许志勇
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410083451.6

    授权公告号:

    ||||||

    法律状态公告日:

    2017.03.29|||2014.07.16|||2014.06.18

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种确定给定文本的主题分布的方法和装置,包括:确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,所述特定单词属于训练样本包含的单词集合;根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。采用本发明的技术方案,能够提升文本主题分布提取的效率,并且,能够降低在文本主题分布的提取过程中由于引入较多中间变量而造成的内存、CPU等系统资源的额外开销。

    权利要求书

    权利要求书
    1.  一种确定给定文本的主题分布的方法,其特征在于,包括:
    确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,所述特定单词属于训练样本包含的单词集合;
    根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;
    根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

    2.  根据权利要求1所述的方法,其中,所述给定文本的主题分布包括:所述训练样本包含的每个主题在所述给定文本下出现的概率。

    3.  根据权利要求1或2所述的方法,其特征在于,所述特定单词的主题分布包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

    4.  根据权利要求3所述的方法,其特征在于,根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布,进一步包括:
    从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果;
    根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

    5.  根据权利要求4所述的方法,其特征在于,
    所述训练样本的原始训练数据包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数;
    所述训练结果包括:所述训练样本中每个文本及单词下的主题分布。

    6.  一种确定给定文本的主题分布的装置,其特征在于,包括:
    第一确定???,用于确定在给定文本中出现的特定单词以及所述特定单 词在所述给定文本中出现的次数,所述特定单词属于训练样本包含的单词集合;
    获取???,用于根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;
    第二确定???,用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

    7.  根据权利要求6所述的装置,其中,所述给定文本的主题分布包括:所述训练样本包含的每个主题在所述给定文本下出现的概率。

    8.  根据权利要求6或7所述的装置,其特征在于,所述特定单词的主题分布包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

    9.  根据权利要求8所述的装置,其特征在于,所述获取???,进一步包括:
    获取子???,用于从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果;
    确定子???,用于根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

    10.  根据权利要求9所述的装置,其特征在于,
    所述训练样本的原始训练数据包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数;
    所述训练结果包括:所述训练样本中每个文本及单词下的主题分布。

    说明书

    说明书确定给定文本的主题分布的方法和装置
    技术领域
    本发明涉及互联网技术领域,具体涉及一种确定给定文本的主题分布的方法和装置。
    背景技术
    主题模型(Topic Model)是用来在一系列文本中发现抽象主题的一种统计模型。一个文本通??赡馨嘀种魈?,而且,每个主题所占比例各不相同。一个主题模型试图用数学框架来体现文本的主题分布特点。主题模型能够自动分析每个文本,统计文本内的词语,根据统计的信息来判断当前文本包含哪些主题,以及每个主题所占的比例各为多少。
    主题模型不仅是机器学习和数据挖掘领域的一个热门研究对象,而且目前也已经被实际应用到很多领域中,例如,在搜索引擎领域,查询词(Query)和网页的相关性就涉及到文本主题分布的提取,同时搜索领域的大数据量和快速响应等特点,导致如何高效地进行文本的主题分布提取成为一个关键。现有方案关于文本主题分布提取的速度仍然有较大的提升空间。
    为了提升文本主题分布的提取速度,本发明提出一种确定给定文本的主题分布的方案。
    发明内容
    鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定给定文本的主题分布的装置和相应的确定给定文本的主题分布的方法。
    根据本发明的一个方面,提供了一种确定给定文本的主题分布的方法,包括:确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本 中出现的次数,所述特定单词属于训练样本包含的单词集合;根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
    其中,所述给定文本的主题分布包括:所述训练样本包含的每个主题在所述给定文本下出现的概率。
    其中,所述特定单词的主题分布包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
    其中,根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布,进一步包括:从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果;根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
    其中,所述训练样本的原始训练数据包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数;所述训练结果包括:所述训练样本中每个文本及单词下的主题分布。
    根据本发明的另一方面,提供了一种确定给定文本的主题分布的装置,包括:第一确定???,用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,所述特定单词属于训练样本包含的单词集合;获取???,用于根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;第二确定???,用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。其中,所述给定文本的主题分布包括:所述训练样本包含的每个主题在所述给定文本下出现的概率。
    其中,所述特定单词的主题分布包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
    其中,所述获取???,进一步包括:获取子???,用于从所述训练样本 的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果;确定子???,用于根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
    其中,所述训练样本的原始训练数据包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数;所述训练结果包括:所述训练样本中每个文本及单词下的主题分布。
    与现有技术相比,根据本发明的技术方案存在以下有益效果:
    (1)根据本发明的技术方案,基于已经得到的文本主题模型训练的训练结果对给定文本的主题分布进行计算,不需要进行多次迭代计算,能够提升文本主题分布提取的效率。
    (2)根据本发明的技术方案,在文本主题分布的计算过程中能够降低由于引入较多中间变量造成的内存、CPU等系统资源的额外开销。
    上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
    附图说明
    通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
    图1示出了根据本发明一个实施例的确定给定文本的主题分布的方法的流程图;
    图2示出了根据本发明一个实施例的根据对训练样本进行主题模型训练的训练结果,获取给定文本包含的特定单词的主题分布的流程图;以及
    图3示出了根据本发明一个实施例的确定给定文本的主题分布的装置的结构图。
    具体实施方式
    下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
    现有技术中,文本主题分布的提取一般采用期望最大化(EM,Expectation-maximization)方法:
    训练样本包括文本D1、D2、…、Dn、…,首先,通过文本主题模型训练可以得到:
    训练样本中包含单词w1、w2、…、wj、…,主题z1、z2、…、zi、…;以及
    p(w|z)——特定主题z下的单词分布,即,训练样本中每个主题下每个单词出现的概率;
    p(z|D)——特定文本D下的主题分布,即,训练样本中每个文本下每个主题出现的概率;
    p(z|w,D)——特定文本D、单词w下的主题分布,即,训练样本中每个文本及单词下,每个主题出现的概率;
    利用得到的文本主题模型训练结果,通过EM算法对给定文本进行主题分布的提取,即,确定每一个主题zt在给定文本D中出现的概率:
    E阶段,即期望阶段:
    p(zt|w,D)=p(w|zt)p(zt|D)Σip(w|zi)p(zi|D)---(1)]]>
    M阶段,即最大化阶段:
    p(zt|D)=Σwc(w,D)p(zt|w,D)ΣiΣwc(w,D)p(zi|w,D)---(2)]]>
    在上述的方法中,以主题模型训练的输出结果p(w|zt)(主题zt下每个单 词出现的概率)以及随机初始化的p(zt|D)(每个文本下主题zt出现的概率p(zt|D)的估计值)为输入数据,整个过程需要进行反复执行E步和M步,直至达到预定迭代次数或者预定精度后,停止迭代,输出主题zt在给定文本D中出现的概率p(zt|D)。
    EM方法存在以下不足:
    (1)EM算法中引入了中间变量因素p(zt|w,D),未能利用模型的训练结果数据p(z|w,D),导致在实现上需要占用额外的存储空间存储大量的中间数据,增加系统负荷。
    (2)EM算法的效率依赖于随机初始化的p(zt|D),并且,实际中执行迭代次数一般至少在30次以上,导致文本主题分布提取的效率较低。
    下面将参考附图,详细描述本发明改进的技术方案。
    本发明的主要思想在于,根据对训练样本进行主题模型训练得到的训练结果数据以及原始训练数据对给定文本进行主题分布的提取。给定文本的主题分布可以包括:训练样本包含的每个主题在所述给定文本下出现的概率。
    如图1所示,图1是根据本发明一实施例的确定给定文本的主题分布方法的流程图。
    在步骤S110处,确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数。
    其中,所述特定单词属于训练样本包含的单词集合。通过对训练样本进行主题模型训练,可以得到训练样本中包含的单词集合,即,训练样本中包含的一个或多个单词。
    具体地,可以通过对给定文本进行分词处理,得到给定文本中包含的一个或多个单词,其中,属于训练样本包含的单词集合一个或多个单词为特定单词,并确定该给定文本中出现的特定单词中的每个单词在该给定文本中出现的次数,设给定文本为Dx,Dx中包含特定单词w1、w2、…、wt、…、wN,用c(w,Dx)表示在给定文本Dx中任意的特定单词w出现的次数。
    在步骤S120处,根据对训练样本进行主题模型训练的训练结果,获取所 述特定单词的主题分布。
    其中,所述特定单词的主题分布可以包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率,因此,获取所述特定单词的主题分布,也就是获取所述训练样本包含的每个主题在特定单词中的每个单词下出现的概率。
    如图2所示,图2是根据本发明一实施例的根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布(步骤S120)的流程图。
    在步骤S210处,从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果。
    其中,所述训练样本的原始训练数据可以包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数,用c(w,D)表示任意单词w在文本D中出现的次数。对所述训练样本进行主题模型训练的训练结果包括:所述训练样本中每个文本及单词下的主题分布,即,训练样本中每个文本及单词下每个主题出现的概率,在本实施例中,用p(zi|w,D)表示训练样本中任意文本D及任意单词w下,主题zi出现的概率。
    根据给定文本包含的特定单词,可以从训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与特定单词中的每个单词相关的原始训练数据和训练结果,即,从训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数c(w,D)中,获取与特定单词相关的c(w,D),即,特定单词中每个单词在训练样本包含的每个文本中出现的次数c(w,D),从训练样本中每个文本及单词下每个主题出现的概率p(zi|w,D)中,获取与特定单词相关的p(zi|w,D),即,获取训练样本中包含特定单词的每个文本(训练样本中包含特定单词中的任意一个或多个单词的文本)及每个特定单词下的每个主题出现的概率p(zi|w,D)。
    在步骤S220处,根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
    具体地,可以根据公式(3)对所述训练样本包含的每个主题在所述特定 单词中的每个单词下出现的概率进行近似计算,进而得到特定单词中每个单词的主题分布,即,特定单词中每个单词下每个主题出现的概率,用p(zi|w)表示任意的特定单词w下主题zi出现的概率,p(zt|w)表示当前计算的主题zt在特定单词w下出现的概率,应注意,可能会出现一个或多个单词下一个或多个主题出现的概率为零的情况,即,p(zt|w)=0。
    p(zt|w)≈ΣDc(w,D)p(zt|w,D)ΣiΣDc(w,D)p(zi|w,D)---(3)]]>
    公式(3)中,p(zt|w)表示任意主题zt在特定单词中任意单词w下出现的概率,针对主题zt,公式(3)的分子部分∑Dc(w,D)p(zt|w,D)表示,对特定单词w在训练样本的每个文本中出现的次数与该文本及该特定单词w下主题zt出现的概率的乘积进行求和运算。公式(3)的分母部分的∑i∑Dc(w,D)p(zi|w,D)表示对训练样本包含的所有主题,先对特定单词w在训练样本的每个文本中出现的次数与该文本及该特定单词w下主题zi出现的概率的乘积进行求和运算,再将对训练样本包含的所有主题zi进行上述求和运算得到的结果进行求和运算,在公式(3)中,在训练样本包含的文本范围内进行的求和运算,实际上就是将训练样本包含的所有文本看做一个文本。当根据公式(3)计算得到单词w下每个主题出现的概率,就得到了单词w的主题分布。
    根据本申请的一个实施例,获取特定单词的主题分布的方式不限于此,例如,还可以先根据训练样本的原始训练数据和对训练样本进行主题模型训练的训练结果计算出训练样本包含的每个单词w的主题分布,再从其中获取特定单词中的每个单词的主题分布,即,根据训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数c(w,D)和训练样本中每个文本D及单词w下每个主题出现的概率p(zi|w,D)确定所述训练样本中每个单词下的每个主题出现的概率,再从中获取每个特定单词w下的每个主题zi出现的概率 p(zi|w)。
    在步骤S130处,根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
    具体地,可以根据上述得到的特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布,利用公式(4)对给定文本的主题分布进行近似计算。
    p(zt|Dx)≈Σwc(w,Dx)p(zt|w)ΣiΣwc(w,Dx)p(zi|w)---(4)]]>
    公式(4)中,p(zt|Dx)表示:针对特定主题zt,在给定文本Dx中主题zt出现的概率;分子部分的∑wc(w,Dx)p(zt|w)表示:针对主题zt,对给定文本Dx包含的特定单词中的每个单词w在该给定文本Dx中出现的次数c(w,Dx)与主题zt在该特定单词w下出现的概率p(zt|w)的乘积进行求和运算;∑i∑wc(w,D)p(zi|w)表示在训练样本包含的所有主题中,先针对每个主题zi,对每个特定单词w在给定文本Dx中出现的次数c(w,D)与主题zi在该特定单词w下出现的概率p(zi|w)的乘积进行求和运算,再将对训练样本包含的所有主题进行上述求和运算得到的结果进行求和运算。计算每个主题zt在Dx中出现的概率p(zt|Dx),得到的所有不为零的p(zt|Dx)的集合,就是该给定文本Dx的主题分布。
    下面以一个具体示例详细描述本发明对给定文本进行主题分布提取的步骤:
    假设训练样本包含文本D1、D2,单词w1、w2、w3、w4,每个单词在每个文本中出现的次数分别为:
    c(w1,D1)=2、c(w2,D1)=3、c(w3,D1)=1;
    c(w1,D2)=1、c(w3,D2)=2、c(w4,D2)=3;
    对训练样本进行主题模型训练的得到每个文本及单词下每个主题出现的概率p(zi|w,D)分别为:
    w1,D1下,p(z1|w1,D1)=0.6、p(z2|w1,D1)=0.4;
    w2,D1下,p(z1|w2,D1)=0.1、p(z2|w2,D1)=0.9;
    w3,D1下,p(z2|w3,D1)=1;
    w1,D2下,p(z1|w1,D2)=1;
    w3,D2下,p(z1|w3,D2)=0.4、p(z2|w3,D2)=0.6;
    w4,D2下,p(z1|w4,D2)=0.7、p(z2|w4,D2)=0.3;
    给定文本为Dx,
    在步骤S110中,确定在给定文本Dx中出现的特定单词以及每个特定单词在给定文本Dx中出现的次数。
    对Dx进行分词处理,得到Dx中出现的特定单词为w1、w3、w4,并得到每个单词在文本Dx中出现的次数分别为:w1出现3次、w3出现1次、w4出现1次,即,c(w1,Dx)=3、c(w3,Dx)=1、c(w4,Dx)=1。
    在步骤S120中,根据对训练样本进行主题模型训练的训练结果,获取特定单词w1、w3、w4的主题分布。
    首先,在步骤S210处,从训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与特定单词w1、w3、w4相关的原始训练数据和训练结果。
    与w1、w3、w4相关的原始训练数据和训练结果为:
    c(w1,D1)=2、c(w3,D1)=1、c(w1,D2)=1、c(w3,D2)=2、c(w4,D2)=3;
    w1,D1下,p(z1|w1,D1)=0.6、p(z2|w1,D1)=0.4;
    w3,D1下,p(z2|w3,D1)=1;
    w1,D2下,p(z1|w1,D2)=1;
    w3,D2下,p(z1|w3,D2)=0.4、p(z2|w3,D2)=0.6;
    w4,D2下,p(z1|w4,D2)=0.7、p(z2|w4,D2)=0.3;
    然后,在步骤S220处,根据与w1、w3、w4相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在特定单词w1、w3、w4中出现的概率。
    根据公式(3)计算可以得到特定单词w1、w3、w4的主题分布分别为:
    w1的主题分布:p(z1|w1)=0.73、p(z2|w1)=0.27;
    w3的主题分布:p(z1|w3)=0.27、p(z2|w3)=0.73;
    w4的主题分布:p(z1|w4)=0.7、p(z2|w4)=0.3。
    或者,可以先根据训练样本的原始训练数据和训练结果利用公式(3)计算出训练样本中包含的每个单词的主题分布,得到:
    w1的主题分布:p(z1|w1)=0.73、p(z2|w1)=0.27;
    w2的主题分布:p(z1|w2)=0.1、p(z2|w2)=0.9;
    w3的主题分布:p(z1|w3)=0.27、p(z2|w3)=0.73;
    w4的主题分布:p(z1|w4)=0.7、p(z2|w4)=0.3;
    再从中获取特定单词w1、w3、w4的主题分布。
    步骤S130,根据在步骤S110处得到的特定单词w1、w3、w4在给定文本Dx中出现的次数以及在步骤S120处得到的特定单词w1、w3、w4的主题分布确定给定文本Dx的主题分布。
    根据特定单词为w1、w3、w4在文本Dx中出现的次数:
    c(w1,Dx)=3、c(w3,Dx)=1、c(w4,Dx)=1;
    以及特定单词w1、w3、w4的主题分布确定给定文本Dx的主题分布:
    w1的主题分布:p(z1|w1)=0.73、p(z2|w1)=0.27;
    w3的主题分布:p(z1|w3)=0.27、p(z2|w3)=0.73;
    w4的主题分布:p(z1|w4)=0.7、p(z2|w4)=0.3。
    利用公式(4)计算得到给定文本Dx的主题分布为:
    p(z1|Dx)=0.63,p(z2|Dx)=0.37;
    也就是说,给定文本Dx中,主题z1出现的概率是0.63,主题z2出现的概率是0.37。
    本发明还提供了一种确定给定文本的主题分布的装置。如图3所示,图3是根据本发明一实施例的确定给定文本的主题分布的装置300的结构框图。装置300可以包括:第一确定???10、获取???20以及第二确定???30。
    第一确定???10可以用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,其中,所述特定单词属于训练样本包含的单词集合。
    获取???20可以用于根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布。
    第二确定???30可以用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
    根据本申请的一个实施例,所述给定文本的主题分布可以包括:所述训练样本包含的每个主题在所述给定文本下出现的概率。
    根据本申请的一个实施例,所述特定单词的主题分布可以包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
    根据本申请的一个实施例,所述获取???20可以进一步包括:获取子??楹腿范ㄗ幽??。
    其中,获取子??榭梢杂糜诖铀鲅盗费镜脑佳盗肥莺投运鲅盗费窘兄魈饽P脱盗返难盗方峁谢袢∮胨鎏囟ǖゴ氏喙氐脑佳盗肥莺脱盗方峁?。
    确定子??榭梢杂糜诟萦胨鎏囟ǖゴ氏喙氐脑佳盗肥莺脱盗方峁范ㄋ鲅盗费景拿扛鲋魈庠谒鎏囟ǖゴ手械拿扛龅ゴ氏鲁鱿值母怕?。
    所述训练样本的原始训练数据可以包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数。所述训练结果可以包括所述 训练样本中每个文本及单词下的主题分布。
    以上描述的确定给定文本的主题分布的装置与之前描述的确定给定文本的主题分布的方法的处理是对应的,因此,关于更详细的技术细节,可以参见之前描述的方法。
    在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
    在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
    类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求?;さ谋痉⒚饕蟊仍诿扛鋈ɡ笾兴魅芳窃氐奶卣鞲嗟奶卣?。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
    本领域那些技术人员可以理解,可以对实施例中的设备中的??榻凶允视π缘馗谋洳⑶野阉巧柚迷谟敫檬凳├煌囊桓龌蚨喔錾璞钢???梢园咽凳├械哪?榛虻ピ蜃榧楹铣梢桓瞿?榛虻ピ蜃榧?,以及此外可以把它们分成多个子??榛蜃拥ピ蜃幼榧?。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相 似目的的替代特征来代替。
    此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求?;さ氖凳├娜我庵欢伎梢砸匀我獾淖楹戏绞嚼词褂?。
    本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件??槭迪?,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定给定文本的主题分布的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
    应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序??山庑┑ゴ式馐臀?。

    关于本文
    本文标题:确定给定文本的主题分布的方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6126217.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 貂蝉双色球杀蓝球汇总 重庆幸运农场春节休市 创盈彩票游戏 澳洲幸运5开奖信息 雷速体育篮球比分 哈尔滨麻将胡牌公式 二分彩规律 辽宁体彩网 篮彩让分胜负二窜一 陕西十一选五开奖查询 足彩胜负彩奖金结果 内蒙古快三在线 北京赛车最实用的方法 中国澳客彩票官网 老快3遗漏号36o 新11选5是什么东西