• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 14
    • 下载费用:30 金币  

    重庆时时彩电脑彩票: 一种提取领域关键词的方法及装置.pdf

    关 键 词:
    一种 提取 领域 关键词 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410101751.2

    申请日:

    2014.03.19

    公开号:

    CN103870575A

    公开日:

    2014.06.18

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140319|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 北京百度网讯科技有限公司
    发明人: 石磊
    地址: 100085 北京市海淀区上地十街10号百度大厦2层
    优先权:
    专利代理机构: 北京品源专利代理有限公司 11332 代理人: 胡彬;邓猛烈
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410101751.2

    授权公告号:

    ||||||

    法律状态公告日:

    2017.10.27|||2014.07.16|||2014.06.18

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种提取领域关键词的方法及装置,该方法包括:生成由各领域描述文本分词的词频组成的领域词频矩阵;按照设定算法,将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。本发明提出的技术方案能够基于各领域文本中的分词在所有领域文本中出现频次的分布来进行领域关键词提取,可以准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词。

    权利要求书

    权利要求书
    1.  一种提取领域关键词的方法,其特征在于,包括:
    生成由各领域描述文本分词的词频组成的领域词频矩阵;
    按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
    根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。

    2.  根据权利要求1所述的提取领域关键词的方法,其特征在于,所述生成由各领域描述文本分词的词频组成的领域词频矩阵,包括:
    将各领域描述文本进行分词;
    对所得到的各分词进行实词过滤处理;
    统计经处理后的各分词在各领域描述文本中的词频,得到领域词频矩阵。

    3.  根据权利要求1所述的提取领域关键词的方法,其特征在于,所述按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和,包括:
    将领域词频矩阵构建为低秩的第一词频矩阵和稀疏的第二词频矩阵的加和模型;
    构造所述领域词频矩阵与所述加和相差最小的目标函数,其中所述目标函数的限制条件为:所述第一词频矩阵为低秩矩阵和所述第二词频矩阵为稀疏矩阵,以形成限制性优化问题;
    将所述限制性优化问题转换为拉格朗日松弛形式下的非限制性优化问题;
    采用预设的优化算法,对所述非限制性优化问题进行迭代优化,将满足预设迭代条件时的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词 词频矩阵。

    4.  根据权利要求3所述的提取领域关键词的方法,其特征在于,所述目标函数为:minL,S||D-L-S||F2;]]>
    所述拉格朗日松弛形式下的非限制性优化问题为:μ(||L||*+λ|S|1);]]>
    其中,D为所述领域词频矩阵,L为所述第一词频矩阵,S为所述第二词频矩阵,μ和λ为拉格朗日乘子,表示矩阵DDLLS的Frobenius范数,||L||*表示所述第一词频矩阵L的nuclear范数,|S|1表示所述第二词频矩阵S的L1范数。

    5.  根据权利要求4所述的提取领域关键词的方法,其特征在于,所述优化算法为近端梯度法。

    6.  根据权利要求1所述的提取领域关键词的方法,其特征在于,所述根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词,包括:将所述各领域描述文本分词中,在解耦得到的关键词词频矩阵中满足设定条件的词频对应的分词作为相应领域的关键词。

    7.  根据权利要求6所述的提取领域关键词的方法,其特征在于,所述满足设定条件的词频为解耦得到的关键词词频矩阵中大于等于设定阈值的词频。

    8.  一种提取领域关键词的装置,其特征在于,包括:
    领域词频矩阵生成???,用于生成由各领域描述文本分词的词频组成的领域词频矩阵;
    领域词频矩阵解耦???,用于按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
    领域关键词提取???,用于根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。

    9.  根据权利要求8所述的提取领域关键词的装置,其特征在于,所述领域词频矩阵生成???,包括:
    分词单元,用于将各领域描述文本进行分词;
    过滤单元,用于对所得到的各分词进行实词过滤处理;
    矩阵生成单元,用于统计经处理后的各分词在各领域描述文本中的词频,得到领域词频矩阵。

    10.  根据权利要求8所述的提取领域关键词的装置,其特征在于,所述领域词频矩阵解耦???,包括:
    模型构建单元,用于将领域词频矩阵构建为低秩的第一词频矩阵和稀疏的第二词频矩阵的加和模型;
    限制性优化问题形成单元,用于构造所述领域词频矩阵与所述加和相差最小的目标函数,其中所述目标函数的限制条件为:所述第一词频矩阵为低秩矩阵和所述第二词频矩阵为稀疏矩阵,以形成限制性优化问题;
    非限制性优化问题形成单元,用于将所述限制性优化问题转换为拉格朗日松弛形式下的非限制性优化问题;
    迭代优化单元,用于采用预设的优化算法,对所述非限制性优化问题进行迭代优化,将满足预设迭代条件时的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词词频矩阵。

    11.  根据权利要求10所述的提取领域关键词的装置,其特征在于,所述目标函数为:minL,S||D-L-S||F2;]]>
    所述拉格朗日松弛形式下的非限制性优化问题为:μ(||L||*+λ|S|1);]]>
    其中,D为所述领域词频矩阵,L为所述第一词频矩阵,S为所述第二词频矩阵,μ和λ为拉格朗日乘子,表示矩阵D-L-S的Frobenius范数,||L||*表示所述第一词频矩阵L的nuclear范数,|S|1表示所述第二词频矩阵S的L1范数。

    12.  根据权利要求10所述的提取领域关键词的装置,其特征在于,所述优化算法为近端梯度法。

    13.  根据权利要求8所述的提取领域关键词的装置,其特征在于,所述领域关键词提取??榫咛逵糜冢航龈髁煊蛎枋鑫谋痉执手?,在解耦得到的关键词词频矩阵中满足设定条件的词频对应的分词作为相应领域的关键词。

    14.  根据权利要求13所述的提取领域关键词的装置,其特征在于,所述满足设定条件的词频为解耦得到的关键词词频矩阵中大于等于设定阈值的词频。

    说明书

    说明书一种提取领域关键词的方法及装置
    技术领域
    本发明实施例涉及互联网技术领域,尤其涉及一种提取领域关键词的方法及装置。
    背景技术
    目前,在一些应用场景下,当用户通过终端设备上的浏览器输入检索词进行资讯检索后,相应的资讯网站服务器会先根据预先设定好的领域关键词,识别出该检索词所属的领域,然后将该领域内的海量的文本描述内容发送至终端设备,以便为用户提供资讯服务。所谓领域关键词,指的是一个领域的多个文本中所共现的、最能够代表该领域的、且与其它领域的区分度很高的关键词。领域关键词在文本自动分类、聚类、资源智能服务等方面有着广泛的应用,因此如何能够从大量的领域文本中合理的提取领域关键词,对后续的领域识别和检索至关重要。
    在现有的技术中,基于TF-IDF(Term Frequency–Inverse Document Frequency,词频–逆向文件频率)的领域关键词提取算法,采用TF-IDF评估领域文本中每个分词对该领域的重要程度,再通过一定的阈值过滤分词,从而筛选出领域关键词;基于主题模型的领域关键词提取算法,则是认为每个领域文本拥有一个在多个潜在主题上的分布,进而每个主题拥有一个在所有分词上的分布,根据所述分布来提取领域关键词。
    然而,由于TF-IDF本身是一种试图抑制噪音的简单加权,并不能有效地反 映关键词的重要程度和关键词的分布情况,所以在很多场景中TF-IDF的精度并不是很高,而且很多场景下要给出效果较好的IDF本身就是一件较困难的事情;基于主题模型的领域关键词提取算法只能抽取出主题层面的关键词,却无法有效提取出每个领域文本中有代表性、有区分度的关键词。
    发明内容
    本发明实施例提供一种提取领域关键词的方法及装置,以能够准确有效的提取各领域内有代表性、区分度的关键词。
    第一方面,本发明实施例提供了一种提取领域关键词的方法,该方法包括:
    生成由各领域描述文本分词的词频组成的领域词频矩阵;
    按照设定算法,将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
    根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
    第二方面,本发明实施例还提供了一种提取领域关键词的装置,该装置包括:
    领域词频矩阵生成???,用于生成由各领域描述文本分词的词频组成的领域词频矩阵;
    领域词频矩阵解耦???,用于按照设定算法,将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
    领域关键词提取???,用于根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
    本发明实施例提出的技术方案通过将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,根据所述背景词词频矩阵来提取各领域的关键词,能够基于各领域文本中的分词在所有领域文本中出现频次的分布来进行领域关键词提取,可以准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词。
    附图说明
    图1是本发明实施例一提供的一种提取领域关键词的方法的流程示意图;
    图2是本发明实施例二提供的一种提取领域关键词的方法的流程示意图;
    图3是本发明实施例三提供的一种提取领域关键词的装置的结构示意图;
    图4是本发明实施例四提供的一种提取领域关键词的装置的结构示意图。
    具体实施方式
    下面结合附图和实施例对本发明作进一步的详细说明??梢岳斫獾氖?,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
    实施例一
    图1为本发明实施例一提供的一种提取领域关键词的方法的流程示意图,本实施例可适用于当用户通过终端上的浏览器输入检索词进行资讯检索后,相应的资讯网站服务器提取领域文本中的领域关键词以识别该检索词所属的领域 时的情况,该方法可以由资讯网站服务器等具有领域关键词提取功能的计算机设备来执行。参见图1,所述方法具体包括如下步骤101-103:
    步骤101、生成由各领域描述文本分词的词频组成的领域词频矩阵。
    资讯网站服务器可首先获取本地存储的各领域描述文本或者通过网页爬取方式获取得到的各领域描述文本。在本实施例中,各领域描述文本可为相应网页中所包含的文本,例如各领域描述文本为该网站内所有注册用户的求职简历文本,各领域可以是基于用户求职行业进行划分的,可包括计算机、生物、建筑、金融、销售等领域。
    然后,资讯网站服务器将所获取的各领域描述文本进行分词,统计各分词在各领域描述文本中的词频,进而生成领域词频矩阵在本实施例中,假设所得到的领域词频矩阵为M行N列的矩阵,则第i行j列的矩阵元素可表示为第i分词在第j领域描述文本中的词频,其中M和N均为大于等于1的整数、11iiM、11jjN。第j列元素组成的向量表示第j领域的词频向量。所谓第i分词在第j领域描述文本中的词频,指的是在第j领域描述文本中第i分词的个数或者是第i分词的个数与该领域描述文本中所有分词的总个数的比值。当然,本领域的普通技术人员应理解,领域词频矩阵的形式还可以是其它形式,例如第i行j列的矩阵元素可表示为第j个分词在第i个领域描述文本中的词频。
    为了提高领域关键词的精确度,在本实施例的一个优选的实施方式中,资讯网站服务器在将所获取的各领域描述文本进行分词后,还可对所得到的各分词进行实词过滤处理,滤掉如语气助词、副词等没有代表性和区分度的分词,而后统计经处理后的各分词在各领域描述文本中的词频,得到领域词频矩阵。
    步骤102、按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩 阵和稀疏的关键词词频矩阵的加和。
    由于现有技术只考虑各分词在各领域描述文本中的词频,并不联合考虑各分词在所有领域描述文本中词频的分布,进而提取的领域关键词并不精确。例如,资讯网站服务器将各用户的求职简历文本分类为计算机、生物、建筑、金融、销售四个领域,由于分词“高度的责任心”在“计算机”领域、“生物”领域、“建筑”领域、“金融”领域、“销售”领域文本中均有较高的词频,现有技术提出的技术方案会将该分词作为领域关键词,其区分度显然很差。
    基于上述考虑,本实施例针对所生成的领域词频矩阵进行建模,假设该矩阵由一个背景词词频矩阵和一个关键词词频矩阵相加产生。其中,背景词词频矩阵是用于描述分词在所有领域文本中出现词频分布相似的部分,考虑到每一领域的关键词应是本领域内最具代表性和区分度的分词,而非具有相似性的分词,因此需让该背景词词频矩阵中各领域的词频向量尽量相关,即使该矩阵低秩;关键词词频矩阵是用于描述分词在所有领域文本中出现词频分布相异的部分,考虑到每一领域的关键词的数量应是少量的,即使该矩阵稀疏。
    资讯网站服务器在生成领域词频矩阵后,按着预先设定好的算法将所生成的领域词频矩阵解耦为背景词词频矩阵和关键词词频矩阵,其中背景词词频矩阵为低秩的矩阵,关键词词频矩阵为稀疏的矩阵。其中,预先设定好的算法可以是通过构造领域词频矩阵与上述建模过程中所述的背景词词频矩阵和关键词词频矩阵之和相差最小的目标函数,以形成限制性优化问题,并对该问题进行求解得到的。
    步骤103、根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
    在本实施例中,资讯网站服务器在将所生成的领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和后,查询关键词词频矩阵中满足设定条件的词频,并将这些词频对应的分词作为相应领域的关键词。其中,设定条件的词频可以是解耦得到的关键词词频矩阵中大于等于设定阈值的词频,也可以是解耦得到的关键词词频矩阵中每一领域的词频向量中其值排在前设数量K的词频,其中K为大于等于1的整数。
    例如,资讯网站服务器从解耦得到的关键词词频矩阵中查询到大于等于0的词频h,根据该词频在关键词词频矩阵中的行列数可得知其所对应的领域A和分词B,最终将该分词B作为领域A的领域关键词。对于查询到的其它词频亦是如此,这里不再赘述。
    本实施例提出的技术方案通过将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,根据所述背景词词频矩阵来提取各领域的关键词,能够基于各领域文本中的分词在所有领域文本中出现频次的分布来进行领域关键词提取,可以准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词。
    实施例二
    图2为本发明实施例二提供的一种提取领域关键词的方法的流程示意图。本实施例在上述各实施例的基础上,对按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和的步骤作进一步说明。参见图2,所述方法包括步骤201-206:
    步骤201、生成由各领域描述文本分词的词频组成的领域词频矩阵。
    步骤202、将领域词频矩阵构建为低秩的第一词频矩阵和稀疏的第二词频矩阵的加和模型。
    步骤203、构造所述领域词频矩阵与所述加和相差最小的目标函数,其中该目标函数的限制条件为:第一词频矩阵为低秩矩阵和第二词频矩阵为稀疏矩阵,以形成限制性优化问题。
    步骤204、将所述限制性优化问题转换为拉格朗日松弛形式下的非限制性优化问题。
    步骤205、采用预设的优化算法,对所述非限制性优化问题进行迭代优化,将满足预设迭代条件时的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词词频矩阵。
    步骤206、根据解耦得到的关键词词频矩阵,从各领域描述文本分词中提取相应领域的关键词。
    在本实施例的一个优选的实施方式中,所构造的目标函数为:限制条件为:L低秩和S稀疏;所转换成的拉格朗日松弛形式下的非限制性优化问题为:minL,S||D-L-S||F2+μ(||L||*+λ|S|1).]]>其中,D为领域词频矩阵,L为第一词频矩阵,S为第二词频矩阵,μ和λ为拉格朗日乘子。表示矩阵D-L-S的Frobenius范数,用于控制第一词频矩阵L和第二词频矩阵S对领域词频矩阵D的拟合相似度;||L||*表示第一词频矩阵L的nuclear范数,用于控制第一词频矩阵L的低秩性;|S|1表示第二词频矩阵S的L1范数,用于控制第二词频矩阵S的稀疏性。
    为了?;に惴ǖ奈榷ㄐ院图涌焓樟菜俣?,预设的优化算法可优选为近端梯度法。例如,对上述非限制性优化问题进行迭代优化,将满足预设迭代条件时 的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词词频矩阵,包括:
    (1)初始化:t=0、Lnew=Lold=0、Snew=Sold=0、εt=εt-1=1.0、
    δ=1e-6、μt=0.49*||D||2、μ=δ*μt、η=0.9;
    其中,t为迭代次数,εt、εt-1、δ、μt、μ、η为迭代参数,||D||2为领域词频矩阵D的2范数;
    (2)根据如下公式进行迭代计算,更新Lnew和Snew:
    YL=Lnew+(Lnew-Lold)*(εt-1-1)/εt
    YS=Snew+(Snew-Sold)*(εt-1-1)/εt
    Lold=Lnew,Sold=Snew


    ϵτ+1=(1+4ϵτ2+1)2/2]]>
    μt+1=max(η*μt,μ)
    t=t+1
    在本实例中,thresholding函数和的具体表达形式如下:


    其中,公式中表示Hadamard乘(即对应元素乘),diag[.]表示对角化操作符,矩阵U和V为正交阵,Udiag[d]VT=X,UTU=I,VTV=VVT=I,即U和V为对矩阵X进行奇异值分解得到的酉矩阵,d为半正定对角矩阵。
    (3)当t等于预设阈值或者本次迭代计算得到的Lnew和Snew与上次迭代计算得到的Lnew和Snew的变化量满足设定条件时,将本次迭代计算得到的Lnwe作为背景词词频矩阵,Snew作为关键词词频矩阵。
    本实施例提出的技术方案通过将构造领域词频矩阵与低秩的第一词频矩阵和稀疏的第二词频矩阵之和相差最小的目标函数所形成的限制性优化问题,转换为拉格朗日松弛形式下的非限制性优化问题,并采用近端梯度法进行迭代优化,进而将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,在能够准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词的基础上,进一步增强了解耦的稳定性及其计算速度。
    实施例三
    图3是本发明实施例三提供的一种提取领域关键词的装置的结构示意图。本实施例可适用于当用户通过终端上的浏览器输入检索词进行资讯检索后,相应的资讯网站服务器提取领域文本中的领域关键词以识别该检索词所属的领域时的情况,该装置的具体结构如下:
    领域词频矩阵生成???01,用于生成由各领域描述文本分词的词频组成的领域词频矩阵;
    领域词频矩阵解耦???02,用于按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和;
    领域关键词提取???03,用于根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
    在本实施例中,领域词频矩阵生成???01可首先获取本地存储的各领域描述文本或者通过网页爬取方式获取得到的各领域描述文本。其中,各领域描述文本可为相应网页中所包含的文本,例如各领域描述文本为该网站内所有注册用户的求职简历文本,各领域可以是基于用户求职行业进行划分的,可包括计算机、生物、建筑、金融、销售等领域。
    然后,领域词频矩阵生成???01将所获取的各领域描述文本进行分词,统计各分词在各领域描述文本中的词频,进而生成领域词频矩阵。在本实施例中,假设所得到的领域词频矩阵为M行N列的矩阵,则第i行j列的矩阵元素可表示为第i分词在第j领域描述文本中的词频,其中M和N均为大于等于1的整数、11iiM、11jjN。第j列元素组成的向量表示第j领域的词频向量。所谓第i分词在第j领域描述文本中的词频,指的是在第j领域描述文本中第i分词的个数或者是第i分词的个数与该领域描述文本中所有分词的总个数的比值。当然,本领域的普通技术人员应理解,领域词频矩阵的形式还可以是其它形式,例如第i行j列的矩阵元素可表示为第j个分词在第i个领域描述文本中的词频。
    为了提高领域关键词的精确度,在本实施例的一个优选的实施方式中,领域词频矩阵生成???01,包括:分词单元3011,用于将各领域描述文本进行分词;过滤单元3012,用于对所得到的各分词进行实词过滤处理,滤掉如语气助词、副词等没有代表性和区分度的分词;矩阵生成单元3013,用于统计经处理后的各分词在各领域描述文本中的词频,得到领域词频矩阵。
    在领域词频矩阵生成???01生成领域词频矩阵后,领域词频矩阵解耦模 块302按着预先设定好的算法将所生成的领域词频矩阵解耦为背景词词频矩阵和关键词词频矩阵,其中背景词词频矩阵为低秩的矩阵,关键词词频矩阵为稀疏的矩阵。其中,预先设定好的算法可以是通过构造领域词频矩阵与上述建模过程中所述的背景词词频矩阵和关键词词频矩阵之和相差最小的目标函数,以形成限制性优化问题,并对该问题进行求解得到的。
    在本实施例中,领域词频矩阵解耦???02在将所生成的领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵的加和后,领域关键词提取???03查询关键词词频矩阵中满足设定条件的词频,并将这些词频对应的分词作为相应领域的关键词。其中,设定条件的词频可以是解耦得到的关键词词频矩阵中大于等于设定阈值的词频,也可以是解耦得到的关键词词频矩阵中每一领域的词频向量中其值排在前设数量K的词频,其中K为大于等于1的整数。
    本实施例提出的技术方案通过将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,根据所述背景词词频矩阵来提取各领域的关键词,能够基于各领域文本中的分词在所有领域文本中出现频次的分布来进行领域关键词提取,可以准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词。
    实施例四
    图4是本发明实施例四提供的一种提取领域关键词的装置的结构示意图。本实施例在上述各实施例的基础上,对领域词频矩阵解耦???02按照设定算法将所述领域词频矩阵解耦为低秩的背景词词频矩阵和稀疏的关键词词频矩阵 的加和作进一步说明。参见图4,该装置的具体结构如下:
    领域词频矩阵生成???01,用于生成由各领域描述文本分词的词频组成的领域词频矩阵;
    领域词频矩阵解耦???02,包括:
    模型构建单元4021,用于将领域词频矩阵构建为低秩的第一词频矩阵和稀疏的第二词频矩阵的加和模型;
    限制性优化问题形成单元4022,用于构造所述领域词频矩阵与所述加和相差最小的目标函数,其中所述目标函数的限制条件为:所述第一词频矩阵为低秩矩阵和所述第二词频矩阵为稀疏矩阵,以形成限制性优化问题;
    非限制性优化问题形成单元4023,用于将所述限制性优化问题转换为拉格朗日松弛形式下的非限制性优化问题;
    迭代优化单元4024,用于采用预设的优化算法,对所述非限制性优化问题进行迭代优化,将满足预设迭代条件时的第一词频矩阵作为背景词词频矩阵,第二词频矩阵作为关键词词频矩阵;
    领域关键词提取???03,用于根据解耦得到的关键词词频矩阵,从所述各领域描述文本分词中提取相应领域的关键词。
    在本实施例的一个优选的实施方式中,所构造的目标函数为:限制条件为:L低秩和S稀疏;所转换成的拉格朗日松弛形式下的非限制性优化问题为:minL,S||D-L-S||F2+μ(||L||*+λ|S|1).]]>其中,D为领域词频矩阵,L为第一词频矩阵,S为第二词频矩阵,μ和λ为拉格朗日乘子。表示矩阵D-L-S的Frobenius范数,用于控制第一词频矩阵L和第二词频矩阵S对领域词频矩阵D的拟合相似度;||L||*表示第一词频矩阵L的nuclear范数,用 于控制第一词频矩阵L的低秩性;|S|1表示第二词频矩阵S的L1范数,用于控制第二词频矩阵S的稀疏性。
    为了?;に惴ǖ奈榷ㄐ院图涌焓樟菜俣?,预设的优化算法可优选为近端梯度法。
    本实施例提出的技术方案通过将构造领域词频矩阵与低秩的第一词频矩阵和稀疏的第二词频矩阵之和相差最小的目标函数所形成的限制性优化问题,转换为拉格朗日松弛形式下的非限制性优化问题,并采用近端梯度法进行迭代优化,进而将领域词频矩阵解耦为描述各个领域中出现频次分布相似的低秩的背景词词频矩阵和让各领域的词频向量尽量相关的稀疏的关键词词频矩阵,在能够准确有效的从各领域文本中提取出相应领域内有代表性、区分度的关键词的基础上,进一步增强了解耦的稳定性及其计算速度。
    上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能??楹陀幸嫘Ч?。
    注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的?;し段?。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定?!  ∧谌堇醋宰ɡ鴚ww.www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:一种提取领域关键词的方法及装置.pdf
    链接地址://www.4mum.com.cn/p-6126316.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 青岛市彩票中心 安徽11选5属于快三吗 网球王子日语版 微信群怎样打广告赚钱吗 群英会20选5计算技巧 广东11选5第一定胆 麻将游戏单机版 广东快乐十分杀号 贵州麻将胡牌 海南福彩 pk10冠军五码两期计划 欢乐斗地主下载那一版 百灵德州麻将 个体药店如何赚钱 新疆18选7概率 国内正规的棋牌游戏