• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩大小技巧稳赚: 一种基于词矢量的短文本查询扩展及检索方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201510103341.6

    申请日:

    2015.03.06

    公开号:

    CN104765769A

    公开日:

    2015.07.08

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150306|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 大连理工大学
    发明人: 林鸿飞; 王琳
    地址: 116023辽宁省大连市高新园区凌工路2号
    优先权:
    专利代理机构: 大连星海专利事务所21208 代理人: 徐雪莲
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510103341.6

    授权公告号:

    ||||||

    法律状态公告日:

    2018.04.27|||2015.08.05|||2015.07.08

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    一种基于词矢量的短文本查询扩展及检索方法,具体包括:A、短文本语料信息预处理;B、训练模型将语料词典中的每个词用词矢量来表示;C、查询扩展;D、利用查询扩展词集及BM25检索模型获取文本候选集;E、短文本的主题抽??;F、计算短文本的文本矢量;G、对传统检索模型返回的短文本重排序。本发明能够更加准确,有效地满足用户检索的需求,并且查询扩展??榛岣菀延惺菡页瞿鼙泶镉没б馔嫉拇式胁檠┱?。

    权利要求书

    权利要求书
    1.  一种基于词矢量的短文本查询扩展及检索方法,其特征在于,包括以下步骤:
    A、短文本语料信息预处理:从已知数据库中采集包含短文本语料信息的文本语料集,从文本语料集中删除字数少于预设阈值的短文本语料信息;识别出所述文本语料集中的转发短文本语料信息并将其删除;对文本语料集中剩余的短文本语料信息进行分词处理,得到分词语料词典;记录每个词在所述分词语料词典中的出现次数,并去除频率小于预设阈值的词,得到语料词典;对语料词典中的短文本建立倒排索引;
    B、训练模型将语料词典中的每个词用词矢量来表示:包括以下步骤:
    B1、根据语料词典创建Huffman树:
    对所述语料词典中的每个词语进行Huffman编码并创建Huffman树,Huffman树的每个叶子节点来代表语料词典中的每个词,根节点到每个叶子节点的路径表示该词的Huffman编码,根节点到每个叶子节点之间的内部节点不断对词语进行分类,最终把每一个词分到某个对应的叶子节点上;
    B2、利用无监督训练模型对语料词典中的每个词用词矢量的形式表示:
    对于所述语料词典中的每个词定义一个k维实数向量,每一维实数向量为一个变量,将所述k维实数向量作为逻辑回归模型的输入向量通过逻辑回归二元分类方法来预测Huffman树中该词的上下文词语所对应的叶子节点所在路径的边值的概率;Huffman树中包括根节点在内的每一个内部节点对应一个逻辑回归模型,并同时通过损失函数和求导公式进行参数与输入变量的更新,以使输入的矢量比较接近;最后,将更新后得到的输入向量作为该词的矢量表示;
    C、查询扩展:将用户的查询文本信息进行分词处理并去除停用词,得到查 询词集,所述查询词集利用步骤B2的方法使查询词集中的每个查询词以词矢量的形式表示,查询词集中的词矢量经归一化后矢量相加,获得一个新的向量作为查询向量;再从所述语料词典中选出与所述查询向量的矢量夹角最相近的词语所形成的集合作为查询扩展候选集,并把它们与局部分析的查询扩展词集的交集作为最后使用的查询扩展词集,并加大原查询词的权重;所述局部分析的查询扩展词集为在通过BM25检索模型对查询词进行文本相似度计算后所返回的排序靠前的文档中,去除停用词后排序靠前的高频关键字所构成的集合;
    D、利用查询扩展词集及BM25检索模型获取文本候选集:将查询扩展词集中每个查询词的IDF权值、查询词短文本权值与查询权值乘积的加和作为每篇短文本的传统模型检索得分,其中,IDF权值为查询词短文本权值为查询权值为N为短文本总数,ni为包含查询词i的文本个数,tfi为该篇文档所含查询词词频,qfi为查询文本中查询词i的词频,dl和avdl分别表示短文本长度和短文本平均长度,其它变量为调节参数;然后,采用BM25检索模型根据查询扩展词集中的查询词进行检索,按照传统模型检索得分由高到低对每篇输出文档进行排序并把排名靠前的短文本返回作为候选集;
    E、短文本的主题抽?。菏紫榷圆街鐳中获得的候选集中的短文本中的词语进行聚类分析,然后选出与步骤C中的查询向量最相近的一组聚类结果作为短文本主题;所述聚类结果的每一类别内的词数至少是原文本总词数的1/5;
    F、计算短文本的文本向量:把所述短文本主题中的词矢量经归一化处理后进行累加作为该短文本的主题向量,并记录所述主题向量与查询向量的余弦相 似度;
    G、对传统检索模型返回的短文本进行二次排序,同时考虑语义相似度和传统模型所得分数进行二次排序:将步骤F中记录的主题向量与查询向量的余弦相似度值和传统模型检索得分进行线性插值,得到最终得分并对所述最终得分进行二次排序输出。

    2.  根据权利要求1所述的一种基于词矢量的短文本查询扩展及检索方法,其特征在于,所述逻辑回归模型的具体训练过程如下:
    随机地产生一个整数N,满足1<=N<=L,其中L为预先设定的阈值,假设预测词w,Huffman编码为C,分别将w前后共2*N个词的向量作为|C|个逻辑回归模型的输入,第i个逻辑回归模型的输出表示w编码第i位为1的概率;对于输入向量X的第i个逻辑回归模型的损失函数为:J(θ)=-[Ci*loghθ(X)+(1-Ci)*log(1-hθ(X))],其中即采用sigmoid作为分类函数;
    通过求导可得梯度下降公式为θj=θj-α*(hθ(X)-Ci)*Xj,Xj=Xj-α*(hθ(X)-Ci)*θj,其中,θj,Xj同步更新。

    3.  根据权利要求1所述的一种基于词矢量的短文本查询扩展及检索方法,其特征在于,步骤E中所用的聚类分析算法具体如下:
    枚举候选集的短文本中的每一个词,假设已有n个类别,对于当前的词矢量V,找到与V最相近的类别向量C,计算其余弦相似度s,
    若则直接将V合并到类别C中,并使用直接的加和操作更新向量C;否则随机产生一个实数r(0<=r<=1),若创建一个新的类别,并 将V作为新的类别向量,否则直接略去该词,不予考虑;最后除去类别中词数小于文本总词数1/5的类别。

    4.  根据权利要求1所述的一种基于词矢量的短文本查询扩展及检索方法,其特征在于,步骤A中,从文本语料集中删除字数少于20个字的短文本。

    关 键 词:
    一种 基于 矢量 文本 查询 扩展 检索 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种基于词矢量的短文本查询扩展及检索方法.pdf
    链接地址://www.4mum.com.cn/p-5894864.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03