• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:30 金币  

    重庆时时彩真的假的: 一种融合提及实体信息的文档向量学习方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201610956758.1

    申请日:

    2016.10.27

    公开号:

    CN106570132A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161027|||公开
    IPC分类号: G06F17/30; G06F17/27 主分类号: G06F17/30
    申请人: 浙江大学
    发明人: 汤斯亮; 吴飞; 戴洪良; 张宁; 庄越挺; 邵健
    地址: 310058 浙江省杭州市西湖区余杭塘路866号
    优先权:
    专利代理机构: 杭州求是专利事务所有限公司 33200 代理人: 张法高;傅朝栋
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610956758.1

    授权公告号:

    |||

    法律状态公告日:

    2017.05.17|||2017.04.19

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种融合提及实体信息的文档向量学习方法,使用机器学习的方法学习一个文档集合中所有文档的向量表达。其步骤包括:预处理文档集合,找出每篇文档提及的实体,计算不同实体间关联程度;为文档集合中的每一个文档初始化一个向量,并初始化其他训练所需的参数;根据预处理结果,重复地抽取文档-词对、文档-实体对或实体-实体对来更新文档向量和其他参数,直至收敛。使用该方法学习得到的文档向量不仅包含了文档中词的信息,还包含了文档中提到的实体的信息,且利用了实体与实体间的关联信息。学到的文档向量如果运用到文档分类、文档聚类、实体链接等应用中,可以有效提高性能,并且节省存储空间。

    权利要求书

    1.一种融合提及实体信息的文档向量学习方法,其特征在于,包括如下步骤:
    获取文档集合;
    预处理文档集合,包括对文档内容分词并使用命名实体识别工具找出每篇文档提及的
    实体,计算不同实体间关联程度;
    初始化训练文档向量所根据的预设的目标函数中包含的所有参数;
    根据预处理结果,重复地随机抽取文档-词对、文档-实体对或实体-实体对作为正
    样本,根据预设的目标函数,用梯度下降更新与抽取到的样本相对应的参数,并用Negative
    Sampling方法抽取负样本,也用梯度下降更新对应参数,直至抽取样本数达到预定值,最后
    得到所有文档的向量表达。
    2.根据权利要求1所述的方法,其特征在于,在找出每篇文档提及的实体后,计算不同
    实体间关联程度的方法为:每两个不同实体间的关联程度为他们共同出现在同一个句子中
    的次数。
    3.根据权利要求1所述方法,其特征在于,训练文档向量所根据的目标函数,为:
    <mrow> <mi>I</mi> <mo>=</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <munder> <mo>&Sigma;</mo> <mi>d</mi> </munder> <msub> <mi>X</mi> <mi>d</mi> </msub> <mi>H</mi> <mrow> <mo>(</mo> <msubsup> <mi>P</mi> <mi>d</mi> <mo>*</mo> </msubsup> <mo>,</mo> <msub> <mi>P</mi> <mi>d</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <munder> <mo>&Sigma;</mo> <mi>d</mi> </munder> <msub> <mi>Y</mi> <mi>d</mi> </msub> <mi>H</mi> <mrow> <mo>(</mo> <msubsup> <mi>Q</mi> <mi>d</mi> <mo>*</mo> </msubsup> <mo>,</mo> <msub> <mi>Q</mi> <mi>d</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>3</mn> </msub> <munder> <mo>&Sigma;</mo> <mi>e</mi> </munder> <msub> <mi>Z</mi> <mi>e</mi> </msub> <mi>H</mi> <mrow> <mo>(</mo> <msubsup> <mi>R</mi> <mi>e</mi> <mo>*</mo> </msubsup> <mo>,</mo> <msub> <mi>R</mi> <mi>e</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&gamma;</mi> <mo>&CenterDot;</mo> <mo>|</mo> <mo>|</mo> <mi>&Omega;</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow>
    其中λ1,λ2,λ3,γ均为可调整的权重,满足0≤λi≤1,i=1,2,3,且λ1+λ2+λ3=1;Ω为所有
    参数集合;d表示一个文档,e表示一个实体,H()表示求括号中两个分布的交叉熵;Xd表示文
    档d中总共的词数,表示使用数据计算的文档d中词的分布;Pd为用预设公式来近似的文
    档d中词的分布;Yd表示文档d中总共提及的实体数,表示使用数据计算的文档d中提及实
    体的分布,Qd为用预设公式来近似的文档d中提及实体的分布;表示使用数据计算的与实
    体e共同出现的实体的分布,Re为用预设公式来近似的与实体e共现的实体的分布;Pd,Qd,Rd
    的计算公式分别为:
    <mrow> <msub> <mi>P</mi> <mi>d</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <mi>d</mi> <mi>T</mi> </msubsup> <msub> <mover> <mi>v</mi> <mo>~</mo> </mover> <mi>w</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>w</mi> <mo>&prime;</mo> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <mi>d</mi> <mi>T</mi> </msubsup> <msub> <mover> <mi>v</mi> <mo>~</mo> </mover> <mrow> <mi>w</mi> <mo>&prime;</mo> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>
    <mrow> <msub> <mi>Q</mi> <mi>d</mi> </msub> <mrow> <mo>(</mo> <mi>e</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <mi>d</mi> <mi>T</mi> </msubsup> <msub> <mover> <mi>v</mi> <mo>~</mo> </mover> <mi>e</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>e</mi> <mo>&prime;</mo> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <mi>d</mi> <mi>T</mi> </msubsup> <msub> <mover> <mi>v</mi> <mo>~</mo> </mover> <mrow> <mi>e</mi> <mo>&prime;</mo> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>
    <mrow> <msub> <mi>R</mi> <mi>e</mi> </msub> <mrow> <mo>(</mo> <mover> <mi>e</mi> <mo>^</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <mi>e</mi> <mi>T</mi> </msubsup> <msub> <mover> <mi>v</mi> <mo>^</mo> </mover> <mover> <mi>e</mi> <mo>^</mo> </mover> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>e</mi> <mo>&prime;</mo> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <mi>e</mi> <mi>T</mi> </msubsup> <msub> <mover> <mi>v</mi> <mo>^</mo> </mover> <mrow> <mi>e</mi> <mo>&prime;</mo> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>
    其中vd,ve,都为在训练的过程中采用梯度下降更新的k维向量参数;vd即为文档d
    的向量表达;w′为所有词的集合中的元素;e′为所有实体的集合中的元素。
    4.根据权利要求1所述方法,其特征在于,初始化训练文档向量所根据的预设的目标函
    数中包含的所有参数时,需要初始化的参数为对应所有文档或实体的vd,ve,
    5.根据权利要求1所述的方法,其特征在于,重复地随机抽取文档-词对、文档-实体
    对或实体-实体对的具体做法为:
    每次抽取文档-词对、文档-实体对、实体-实体对的可能性分别为S1/S,S2/S,S3/S,
    其中S1=λ1∑dXd,S2=λ2∑dYd,S3=λ3∑eZe,S=S1+S2+S3;当抽取文档-词对,则抽取文档d*
    和词w*的可能性为Xd*w*/∑dXd;当抽取文档-实体对,则抽取文档d*和实体e*的可能性为
    Yd*e*/∑dYd;当抽取实体-实体对,则抽取实体和实体的可能性为

    说明书

    一种融合提及实体信息的文档向量学习方法

    技术领域

    本发明属于计算机技术领域,尤其涉及一种融合提及实体信息的文档向量学习方
    法。

    背景技术

    近年来,使用机器学习的方法为词、句或文档学习低维实值的向量表达在自然语
    言处理领域得到了广泛的应用,在文档分类、命名实体识别、文档检索、机器翻译等许多的
    任务中都取得了良好的效果。

    虽然在训练低维的文档向量表达方面已有不少的研究工作,提出了多种不同的方
    法,但他们对待文档中不同的词时都不加以区别。而实际上,不同类别的词的性质、对整篇
    文档的影响都大不相同。比如,如果文档中提到了一个人,那么我们就知道这篇文档的内容
    是与这个人有一定的关系的。而且,由于一个人会经历不同的事情,与其他不同的实体(人、
    地、机构等)发生关联,所以可以作为文档在内容方面扩展的基础。所以,相对于普通词而
    言,文档中提及的实体往往能在许多自然语言处理任务中起到更为重要的作用,尤其如果
    处理的是新闻文档,则更是如此,因为新闻文档中通?;崽岬酱罅康娜?、地与机构?;谏?br />诉分析,由于现有文档向量学习方法并不区别对待文档中的不同词,限制了提及实体作用
    的发挥。

    发明内容

    本发明的目的是克服现有技术的不足,提供一种融合提及实体信息的文档向量学
    习方法,在训练时区别对待文档中的普通词和提及实体,让提及实体的作用得到更充分的
    发挥,得到更有表达能力、区分能力的文档向量,这里的实体指人、地、机构等。

    本发明所采用的具体技术方案如下:

    融合提及实体信息的文档向量学习方法,包括如下步骤:

    获取文档集合;

    预处理文档集合,包括对文档内容分词并使用命名实体识别工具找出每篇文档提
    及的实体,计算不同实体间关联程度;

    初始化训练文档向量所根据的预设的目标函数中包含的所有参数;

    根据预处理结果,重复地随机抽取文档-词对、文档-实体对或实体-实体对作
    为正样本,根据预设的目标函数,用梯度下降更新与抽取到的样本相对应的参数,并用
    Negative Sampling方法抽取负样本,也用梯度下降更新对应参数,直至抽取样本数达到预
    定值,最后得到所有文档的向量表达。

    本发明中各步骤可具体采用如下方式实现:

    在找出每篇文档提及的实体后,计算不同实体间关联程度的方法为:每两个不同
    实体间的关联程度为他们共同出现在同一个句子中的次数。

    训练文档向量所根据的目标函数,为:


    其中λ1,λ2,λ3,γ均为可调整的权重,满足0≤λi≤1,i=1,2,3,且λ1+λ2+λ3=1;Ω
    为所有参数集合;d表示一个文档,e表示一个实体,H()表示求括号中两个分布的交叉熵;Xd
    表示文档d中总共的词数,表示使用数据计算的文档d中词的分布;Pd为用预设公式来近
    似的文档d中词的分布;Yd表示文档d中总共提及的实体数,表示使用数据计算的文档d中
    提及实体的分布,Qd为用预设公式来近似的文档d中提及实体的分布;表示使用数据计算
    的与实体e共同出现的实体的分布,Re为用预设公式来近似的与实体e共现的实体的分布;
    Pd,Qd,Rd的计算公式分别为:




    其中vd,ve,都为在训练的过程中采用梯度下降更新的k维向量参数;vd即为
    文档d的向量表达;w′为所有词的集合中的元素;e′为所有实体的集合中的元素。

    初始化训练文档向量所根据的预设的目标函数中包含的所有参数时,需要初始化
    的参数为对应所有文档或实体的vd,ve,

    重复地随机抽取文档-词对、文档-实体对或实体-实体对的具体做法为:

    每次抽取文档-词对、文档-实体对、实体-实体对的可能性分别为S1/S,S2/S,
    S3/S,其中S1=λ1∑dXd,S2=λ2∑dYd,S3=λ3∑eZe,S=S1+S2+S3;当抽取文档-词对,则抽取文
    档d*和词w*的可能性为当抽取文档-实体对,则抽取文档d*和实体e*的可能性
    为当抽取实体-实体对,则抽取实体和实体的可能性为

    本发明中文档-词对指一个特定文档和一个特定词的组合;、文档-实体对指一
    个特定文档和一个特定实体的组合;实体-实体对指两个特定实体的组合。

    最后,更新参数的训练过程完毕,对每个文档d,都得到了与之对应的一个向量表
    达vd,可以将这些向量存储下来,运用在不同的自然语言处理任务中,如文档分类、实体链
    接等。由于额外地融合了提及实体的信息,本方法得到的文档向量更具区别性,使用该方法
    学习得到的文档向量不仅包含了文档中词的信息,还包含了文档中提到的实体的信息,且
    利用了实体与实体间的关联信息。学到的文档向量如果运用到文档分类、文档聚类、实体链
    接等应用中,可以有效提高性能,并且节省存储空间。

    附图说明

    图1是本发明融合提及实体信息的文档向量学习方法的流程图。

    具体实施方式

    为了更充分清晰地展现本发明的技术方案、特点及优点,下面结合实施例与附图,
    对本发明进行进一步的详细说明。显然,所描述的实施例仅仅是本发明的一个实施例,而不
    是全部的实施例。

    结合图1,本发明实施例的实施步骤如下:

    步骤S101:在本发明实施例中,获取的文档集合为20Newsgroups文档集合,共包含
    18,846个文档,分为20个类别,这些文档中的60%用于训练,40%用于测试。

    步骤S102:对文档进行预处理,在本发明实体例中,使用Stanford NLP工具进行分
    词和找出提及实体。然后,计算不同实体间关联程度,每两个不同实体间的关联程度为他们
    共同出现在同一个句子中的次数。

    步骤S103:初始化模型参数。本发明训练文档向量的方法所根据的目标函数为:


    其中λ1,λ2,λ3,γ为四个可手动调整的权重,满足0≤λi≤1,i=1,2,3,且λ1+λ2+λ3
    =1,Ω为所有参数集合,在本发明实施例中,令λ1=0.3,λ2=0.4,λ3=0.3,γ=0.01。d表示
    一个文档,e表示一个实体,H()表示求括号中两个分布的交叉熵;Xd表示文档d中总共的词
    数,表示使用数据计算的文档d中词的分布,令w为一个词,Xdw为文档d中出现w的次数,在
    文档d中对每一个词w出现的概率Pd为用预设公式(具体公式见后)来近似
    的文档d中词的分布;Yd表示文档d中总共提及的实体数,表示使用数据计算的文档d中提
    及实体的分布,令Yde为文档d中出现实体e的次数,则文档d中每一个实体e出现的概率
    Qd为用预设公式(具体公式见后)来近似的文档d中提及实体的分布;令
    为实体e与实体的关联程度,则与实体e共同出现的实体为的概率为
    Re为用预设公式(具体公式见后)来近似的与实体e共现的实体的分布,
    表示使用数据计算的与实体e共同出现的实体的分布。具体针对Pd,Qd,Rd分别定义如下:

    针对每个词w、每个实体e或每个与实体e共同出现的实体为




    其中vd,ve,都为在训练的过程中采用梯度下降更新的k维向量参数;,需要在
    训练的过程中更新,这里将K设为400。vd即为文档d的向量表达,w′为所有词的集合中的元
    素;e′为所有实体的集合中的元素。所以,需要初始化的参数为对应所有文档或实体的vd,
    ve,其中向量vd的个数与文档数相同,向量的个数与找出的词的个数相同,向量ve
    和的个数与找出的实体的个数相同。将所有的向量初始化为0向量,将所有的向量
    vd,ve中的值按均匀分布随机初始化,区间为:[-1/(2*K),1/(2*K)]。

    步骤S104:根据预处理结果,重复地随机抽取文档-词对、文档-实体对或实体-
    实体对作为正样本,根据预设的目标函数,用梯度下降更新与抽取到的样本相对应的参数,
    并用Negative Sampling方法抽取负样本,也用梯度下降更新对应参数,直至抽取样本数达
    到预定值,最后得到所有文档的向量表达。在本发明实施例中,将抽取的样本数的预定值定
    为15×(∑dXd+∑dYd+∑eZe)。

    重复地随机抽取文档-词对、文档-实体对或实体-实体对的具体做法为:令S1
    =λ1∑dXd,S2=λ2∑dYd,S3=λ3∑eZe,S=S1+S2+S3,则每次抽取文档-词对、文档-实体对、实
    体-实体对的可能性分别为S1/S,S2/S,S3/S。当抽取文档-词对,则抽取文档和词w*的可
    能性为当抽取文档-实体对,则抽取文档d*和实体e*的可能性为
    当抽取实体-实体对,则抽取实体和实体的可能性为

    如抽取到的是文档d*和词w*,且是正样本,那么要更新和本实施例中,更新
    的公式为:


    其中α为学习率,σ(x)=1/(1+exp(-x))。更新的公式为:


    如是负样本,同样要更新和更新的公式为:


    更新的公式为:


    如果抽取到的是文档-实体对或实体-实体对,则更新参数的情况类似,不再详
    细叙述。

    抽取了预定数目的样本并进行参数更新后,训练结束。对每个文档d都得到一个与
    之对应的向量表达vd。

    在得到了文档向量后,可以将它们应用到许多不同的自然语言处理任务中,下面
    以文档分类为例。以训练出的文档向量为特征,使用Logistic Regression作为分类器,就
    可以实现对文档的分类。最后将本发明应用在文档分类任务上之后的效果与几种传统方法
    效果进行比较,结果如表1所示。其中Acc.、Prec.、Rec.和F1为四个评价指标,分别为
    Accuracy和Macro-averaging Precision,Recall,F1。BoW为传统的词袋模型,PV-DBOW为传
    统的文档向量学习方法,不会区别对待文档中不同类别的词??杉?,本发明的方法的效果大
    大优于另两种方法。

    表1

    方法名称
    Acc.
    Prec.
    Rec
    F1
    BoW
    0.826
    0.827
    0.814
    0.814
    PV-DBOW
    0.785
    0.788
    0.767
    0.765
    本方法
    0.843
    0.842
    0.833
    0.834

    关 键 词:
    一种 融合 提及 实体 信息 文档 向量 学习方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种融合提及实体信息的文档向量学习方法.pdf
    链接地址://www.4mum.com.cn/p-6092750.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03