• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:20 金币  

    重庆时时彩黄金缩水器: 汉语依存树库中未登录词的处理方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210344884.3

    申请日:

    2012.09.17

    公开号:

    CN103678272A

    公开日:

    2014.03.26

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/27申请日:20120917|||公开
    IPC分类号: G06F17/27; G06F17/30 主分类号: G06F17/27
    申请人: 北京信息科技大学
    发明人: 吕学强; 郑略省; 王玥; 关晓炟
    地址: 100192 北京市海淀区清河小营东路12号北京信息科技大学
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210344884.3

    授权公告号:

    ||||||

    法律状态公告日:

    2016.04.06|||2014.04.23|||2014.03.26

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明属于计算语言学的自然语言处理领域,公开了一种汉语依存树库中未登录词的处理方法,该方法包括步骤:A,利用同义词词林,查找未登录词的所有同义词;B,根据汉字字形特征,计算未登录词与其所有同义词之间的字形相似度;C,当未登录词与多个同义词的字形相似度相同时,抽取所映射的词及其对应的词性的信息量,改进字形相似度计算模型;D,抽取字形相似度最大的词为未登录词的最优映射词,作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下,令依存句法分析中的单元对<词性,词性>回升到<词性,词>或<词,词性>,从而达到细化信息粒度,缓解数据稀疏问题,改进依存句法分析性能。

    权利要求书

    权利要求书
    1.  一种汉语依存树库中未登录词的处理方法,其特征在于,所述方法包括以下步骤:
    利用同义词词林,查找未登录词的所有同义词;
    根据汉字字形特征,设计词语之间的字形相似度计算模型,计算未登录词及其所有同义词之间的字形相似度;
    当未登录词存在多个同义词与之映射时,抽取所映射的词及其对应词性的信息量,改进字形相似度计算模型;
    根据字形相似度,抽取未登录词的最优映射词,作为树库中对未登录词的解释。

    2.  如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,在步骤A中,借助现有语义资源,寻找与树库中未登录词在语义上相同或相近或相关的所有词,作为未登录词的同义词。

    3.  如权利要求1和权利要求2所述的汉语依存树库中未登录词的处理方法,其特征在于,在步骤A中,选用了哈尔滨工业大学信息检索研究室扩展版的《同义词词林》作为语义资源,获取未登录词的同义词。

    4.  如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,在步骤B中,汉字字形特征是指根据汉字是象形文字的特点,利用字形表征汉字字义,具体做法是全体汉字用一个向量表示,向量的维数即为全体汉字总数,向量的值或者说权重为某一特定单元中汉字出现的次数。

    5.  如权利要求1所述和权利要求4所述的汉语依存树库中未登录词的处理方法,其特征在于,字形相似度计算模型如下:


    uwi代表未登录词,wj代表与未登录词uwi在同义词词林中5层编码均相等的词汇,n为全体汉字组成的向量的维数,k为全体汉字向量的元素位置,Cik表示未登录词uwi中第k个汉字的频次,Cjk表示词wj中第k个汉字的频次。

    6.  如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,当存在多个同义词与未登录词字形相似度值相同时,引入词的频度信息来调整字形相似度计算模型,调整后的字形相似度计算模型如下:

    其中,CPj表示已知词wj的词性在树库中的频次,Cwj表示词wj在树库中的频次,为避免频次为0的情况,对对数进行了数据加1平滑。

    7.  如权利要求1所述的汉语依存树库中未登录词的处理方法,其特征在于,字形相似度最大的词作为未登录词的最优映射词,在树库中作为对未登录词的解释,其选择方式如下:
    。

    关 键 词:
    汉语 依存 树库中未 登录 处理 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:汉语依存树库中未登录词的处理方法.pdf
    链接地址://www.4mum.com.cn/p-6181342.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03