• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 18
    • 下载费用:20 金币  

    重庆时时彩四星工具: 生成标注库的方法和装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201510860253.0

    申请日:

    2015.11.30

    公开号:

    CN106815215A

    公开日:

    2017.06.09

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/28申请日:20151130|||公开
    IPC分类号: G06F17/28 主分类号: G06F17/28
    申请人: 华为技术有限公司
    发明人: 涂兆鹏; 李航; 刘群
    地址: 518129 广东省深圳市龙岗区坂田华为总部办公楼
    优先权:
    专利代理机构: 深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人: 王仲凯
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510860253.0

    授权公告号:

    |||

    法律状态公告日:

    2017.07.04|||2017.06.09

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明实施例公开了一种生成标注库的方法和装置。本发明实施例方法包括:将双语平行语料库中在句子级别互为翻译的目标语句和源语句进行对齐;当目标语句中属于第一词类的第一特定词在源语句中没有对应的源特定词时,获取第一候选集合,第一候选集合中包括与第一特定词互为翻译的候选源特定词;根据源语句和目标语句间的对齐关系获取候选位置集合,候选位置集合包括源语句中可能缺失源特定词的位置;根据预置语言概率模型获取第二候选集合中各语句的正确概率,第二候选集合包括将第一候选集合中的候选源特定词填补到候选位置集合中的位置后形成的候选源语句;生成标注库,标注库包括根据第二候选集合中各语句的正确概率确定的候选源语句。

    权利要求书

    1.一种生成标注库的方法,其特征在于,包括:
    确定双语平行语料库中的源语句和目标语句,所述源语句和所述目标语
    句为在句子级别互为翻译的语料;
    将所述目标语句和所述源语句进行对齐;
    当第一特定词在所述源语句中没有对应的源特定词时,获取第一候选集
    合,所述第一特定词为所述目标语句中属于第一词类的词,所述源特定词为
    所述第一特定词在所述源语句中的翻译,所述第一候选集合中包括与所述第
    一特定词互为翻译的候选源特定词;
    根据所述源语句和所述目标语句之间的对齐关系获取候选位置集合,所
    述候选位置集合包括所述源语句中可能缺失所述源特定词的位置;
    根据预置语言概率模型获取第二候选集合中各语句的正确概率,所述第
    二候选集合包括将所述第一候选集合中的候选源特定词填补到所述候选位置
    集合中的位置后形成的候选源语句;
    生成标注库,所述标注库包括新源语句,所述新源语句为根据所述第二
    候选集合中各语句的正确概率确定的候选源语句。
    2.根据权利要求1所述的生成标注库的方法,其特征在于,所述根据所
    述源语句和所述目标语句之间的对齐关系获取候选位置集合,包括:
    采用启发式搜索算法根据所述源语句和所述目标语句之间的对齐关系获
    取候选位置集合。
    3.根据权利要求1所述的生成标注库的方法,其特征在于,所述新源语
    句包括所述第二候选集合中概率最大的预置数值个语句。
    4.根据权利要求1所述的生成标注库的方法,其特征在于,所述获取第
    一候选集合,之前还包括:
    查找所述目标语句中属于所述第一词类的所有第一特定词;
    对每一个所述第一特定词,判断所述第一特定词在所述源语句中是否存
    在对应的翻译;
    所述获取第一候选集合,包括:
    将在所述源语句中不存在对应的翻译的至少部分第一特定词的翻译语料
    添加到所述第一候选集合中。
    5.根据权利要求1所述的生成标注库的方法,其特征在于,所述方法还
    包括:
    对所述标注库进行有监督学习,训练出基于深度神经网络架构的序列标
    注模型,所述序列标注模型包括Elman-type递归神经网络;
    在单语语料库中获取第一语句,根据所述序列标注模型预测所述第一语
    句的缺失特定词的位置以及判定所述特定词的类型,其中,所述单语语料库
    中的语料和所述源语句属于同一种语言,所述特定词为所述第一语句中属于
    所述第一词类的词;
    根据所述特定词的类型获取候选特定词集合;
    根据预置语言概率模型获取第一语句候选集合中各语句的正确概率,所
    述第一语句候选集合包括将所述候选特定词集合中的候选特定词填补到所述
    缺失特定词的位置后形成的候选语句;
    根据所述正确概率从所述第一候选集合中挑选候选语句作为增添所述特
    定词后的第一语句。
    6.一种生成标注库的装置,其特征在于,包括:
    确定???,用于确定双语平行语料库中的源语句和目标语句,所述源语
    句和所述目标语句为在句子级别互为翻译的语料;
    对齐???,用于将所述目标语句和所述源语句进行对齐;
    第一获取???,用于当第一特定词在所述源语句中没有对应的源特定词
    时,获取第一候选集合,所述第一特定词为所述目标语句中属于第一词类的
    词,所述源特定词为所述第一特定词在所述源语句中的翻译,所述第一候选
    集合中包括与所述第一特定词互为翻译的候选源特定词;
    第二获取???,用于根据所述源语句和所述目标语句之间的对齐关系获
    取候选位置集合,所述候选位置集合包括所述源语句中可能缺失所述源特定
    词的位置;
    第三获取???,用于根据预置语言概率模型获取第二候选集合中各语句
    的正确概率,所述第二候选集合包括将所述第一候选集合中的候选源特定词
    填补到所述候选位置集合中的位置后形成的候选源语句;
    生成???,用于生成标注库,所述标注库包括新源语句,所述新源语句
    为根据所述第二候选集合中各语句的正确概率确定的候选源语句。
    7.根据权利要求6所述的生成标注库的装置,其特征在于,所述第二获
    取??榫咛逵糜诓捎闷舴⑹剿阉魉惴ǜ菟鲈从锞浜退瞿勘暧锞渲涞?br />对齐关系获取候选位置集合。
    8.根据权利要求6所述的生成标注库的装置,其特征在于,所述新源语
    句包括所述第二候选集合中概率最大的预置数值个语句。
    9.根据权利要求6所述的生成标注库的装置,其特征在于,所述生成标
    注库的装置还包括:
    查找???,用于在获取第一候选集合之前,查找所述目标语句中属于所
    述第一词类的所有第一特定词;
    判断???,用于对每一个所述第一特定词,判断所述第一特定词在所述
    源语句中是否存在对应的翻译;
    所述第一获取??榫咛逵糜诮谒鲈从锞渲胁淮嬖诙杂Φ姆氲闹辽?br />部分第一特定词的翻译语料添加到所述第一候选集合中。
    10.根据权利要求6所述的生成标注库的装置,其特征在于,所述生成
    标注库的装置还包括:
    学习???,用于对所述标注库进行有监督学习,训练出基于深度神经网
    络架构的序列标注模型,所述序列标注模型包括Elman-type递归神经网络;
    第四获取???,用于在单语语料库中获取第一语句,根据所述序列标注
    模型预测所述第一语句的缺失特定词的位置以及判定所述特定词的类型,其
    中,所述单语语料库中的语料和所述源语句属于同一种语言,所述特定词为
    所述第一语句中属于所述第一词类的词;
    第五获取???,用于根据所述特定词的类型获取候选特定词集合;
    第六获取???,用于根据预置语言概率模型获取第一语句候选集合中各
    语句的正确概率,所述第一语句候选集合包括将所述候选特定词集合中的候
    选特定词填补到所述缺失特定词的位置后形成的候选语句;
    挑选???,用于根据所述正确概率从所述第一候选集合中挑选候选语句
    作为增添所述特定词后的第一语句。

    关 键 词:
    生成 标注 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:生成标注库的方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6027780.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03