• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 21
    • 下载费用:30 金币  

    重庆时时彩计划预测: 一种获取新的字词组的方法和装置.pdf

    关 键 词:
    一种 获取 字词 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN200910241456.6

    申请日:

    2009.12.02

    公开号:

    CN101719020A

    公开日:

    2010.06.02

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 3/023申请公布日:20100602|||实质审查的生效IPC(主分类):G06F 3/023申请日:20091202|||公开
    IPC分类号: G06F3/023; G06F17/27 主分类号: G06F3/023
    申请人: 腾讯科技(深圳)有限公司
    发明人: 张靖
    地址: 518000 广东省深圳市福田区赛格科技园2栋东403室
    优先权:
    专利代理机构: 北京三高永信知识产权代理有限责任公司 11138 代理人: 何文彬
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN200910241456.6

    授权公告号:

    ||||||

    法律状态公告日:

    2013.02.20|||2010.07.21|||2010.06.02

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明公开了一种获取新的字词组的方法和装置,属于输入法技术领域。方法包括:获取用户连续N次输入的N个字词单元,N为大于等于2的自然数;计算N个字词单元之间的语义相关度,根据计算出的N个字词单元之间的语义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组;当确定N个字词单元可以组合为新的字词组时,将新的字词组加入指定词库中。装置包括:获取???、处理??楹透履??。本发明根据实时计算得到的用户连续输入的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中,使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度。

    权利要求书

    1: 一种获取新的字词组的方法,其特征在于,包括: 获取用户连续N次输入的N个字词单元,所述N为大于等于2的自然数; 计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组; 当确定所述N个字词单元可以组合为新的字词组时,将所述新的字词组加入指定词库中。
    2: 根据权利要求1所述的获取新的字词组的方法,其特征在于,所述根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组,具体包括: 判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个字词单元不可以组合为新的字词组。
    3: 根据权利要求2所述的获取新的字词组的方法,其特征在于,所述语义相关度包括:上下文关联度、或人名关联度; 相应地,所述预设的语义相关度阈值包括:预设的上下文关联度阈值、或预设的人名关联度阈值; 相应地,所述判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈值具体为: 判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值;或 判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值。
    4: 根据权利要求1所述的获取新的字词组的方法,其特征在于,所述语义相关度包括:上下文关联度和人名关联度; 相应地,所述预设的语义相关度阈值包括:预设的上下文关联度阈值和预设的人名关联度阈值; 相应地,所述计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组,具体包括: 计算所述N个字词单元之间的上下文关联度; 判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组,然后执行将所述新的字词组加入指定词库的步骤;否则,计算所述N个字词单元之间的人名关联度,然后判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个字词单元不可以组合为新的字词组。
    5: 根据权利要求1所述的获取新的字词组的方法,其特征在于,所述语义相关度包括:上下文关联度和人名关联度; 相应地,所述预设的语义相关度阈值包括:预设的上下文关联度阈值和预设的人名关 联度阈值; 相应地,所述计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组,具体包括: 计算所述N个字词单元之间的人名关联度; 判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组,然后执行将所述新的字词组加入指定词库的步骤;否则,计算所述N个字词单元之间的上下文关联度,然后判断计算出的所述N个字词单元之间的上下文关联度,是否大于预设的上下文关联度阈值; 如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个字词单元不可以组合为新的字词组。
    6: 根据权利要求1至5中任一权利要求所述的获取新的字词组的方法,其特征在于,所述获取用户连续N次输入的N个字词单元之后,计算所述N个字词单元之间的语义相关度之前还包括: 判断现有词库和所述指定词库中是否存在所述N个字词单元; 如果所述现有词库和所述指定词库中均不存在所述N个字词单元,则执行计算所述N个字词单元之间的语义相关度的步骤。
    7: 一种获取新的字词组的装置,其特征在于,包括: 获取???,用于获取用户连续N次输入的N个字词单元,所述N为大于等于2的自然数; 处理???,用于在所述获取??榛袢〉絅个字词单元后,计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组; 更新???,用于当所述处理??槿范ㄋ鯪个字词单元可以组合为新的字词组时,将所述新的字词组加入指定词库中。
    8: 根据权利要求7所述的获取新的字词组的装置,其特征在于,所述处理??榫咛灏ǎ?第一计算单元,用于在所述获取??榛袢〉絅个字词单元后,计算所述N个字词单元之间的语义相关度; 第一判断单元,用于在所述第一计算单元计算出所述N个字词单元之间的语义相关度后,判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈值; 第一确定单元,用于当所述第一判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组;当所述第一判断单元的判断结果是小于等于时,确定所述N个字词单元不可以组合为新的字词组。
    9: 根据权利要求8所述的获取新的字词组的装置,其特征在于,当所述语义相关度包括上下文关联度、或人名关联度;相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值、或预设的人名关联度阈值时: 所述第一判断单元,具体用于在所述第一计算单元计算出所述N个字词单元之间的上下文关联度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的语义 相关度阈值;或 所述第一判断单元,具体用于在所述第一计算单元计算出所述N个字词单元之间的人名关联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的语义相关度阈值。
    10: 根据权利要求7所述的获取新的字词组的装置,其特征在于,当所述语义相关度包括上下文关联度和人名关联度,相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,所述处理??榫咛灏ǎ?第二计算单元,用于在所述获取??榛袢〉絅个字词单元后,计算所述N个字词单元之间的上下文关联度; 第二判断单元,用于在所述第二计算单元计算出所述N个字词单元之间的上下文关联度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值; 第二确定单元,用于当所述第二判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组,然后通知所述更新??橹葱薪鲂碌淖执首榧尤胫付ù士獾牟街?; 第三计算单元,用于当所述第二判断单元的判断结果是小于等于时,计算所述N个字词单元之间的人名关联度; 第三判断单元,用于在所述第三计算单元计算出所述N个字词单元之间的人名关联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值; 第三确定单元,用于当所述第三判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组;当所述第三判断单元的判断结果是小于等于时,确定所述N个字词单元不可以组合为新的字词组。
    11: 根据权利要求7所述的获取新的字词组的装置,其特征在于,当所述语义相关度包括上下文关联度和人名关联度,相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,所述处理??榫咛灏ǎ?第四计算单元,用于在所述获取??榛袢〉絅个字词单元后,计算所述N个字词单元之间的人名关联度; 第四判断单元,用于在所述第四计算单元计算出所述N个字词单元之间的人名关联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值; 第四确定单元,用于当所述第四判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组,然后通知所述更新??橹葱薪鲂碌淖执首榧尤胫付ù士獾牟街?; 第五计算单元,用于当所述第四判断单元的判断结果是小于等于时,计算所述N个字词单元之间的上下文关联度;; 第五判断单元,用于在所述第五计算单元计算出所述N个字词单元之间的上下文关联度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值; 第五确定单元,用于当所述第五判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组;当所述第五判断单元的判断结果是小于等于时,确定所述N个 字词单元不可以组合为新的字词组。
    12: 根据权利要求7-11中任一权利要求所述的获取新的字词组的装置,其特征在于,所述装置还包括: 判断???,用于在所述获取??榛袢〉絅个字词单元后,判断现有词库和所述指定词库中是否存在所述N个字词单元; 通知???,用于当所述判断??榈呐卸辖峁撬鱿钟写士夂退鲋付ù士庵芯淮嬖谒鯪个字词单元时,通知所述处理??橹葱屑扑闼鯪个字词单元之间的语义相关度的步骤。

    说明书


    一种获取新的字词组的方法和装置

        【技术领域】

        本发明涉及输入法技术领域,特别涉及一种获取新的字词组的方法和装置。

        背景技术

        随着计算机通信技术的快速发展,计算机已逐渐成为人们日常生活和工作中不可缺少的工具,在使用计算机的过程中,用户通过使用输入法系统,实现将字词输入计算机中。

        输入法系统是运行于计算机操作系统上的一个工具软件,可以将用户通过键盘输入的编码转换成字或词输入计算机。在现有的输入法系统中,为每一个字或词设定有相应的编码,并将每一个字或词及其相应的编码存储在输入法系统中的词库中,用户在使用输入法系统进行输入时,只要输入相应的编码就能获得所需的字或词。

        然而,在实现本发明的过程中,发明人发现现有技术至少存在以下缺点:

        用户在使用输入法系统输入字或词的过程中,经常需要输入一些复合词、人名之类的词语;而现有输入法系统自带的词库中没有包括这类词语,使得用户在需要输入这类词语时,只能拆开按字或单纯词一个一个进行输入,影响了输入速度。

        【发明内容】

        为了提高用户的输入速度,本发明实施例提供了一种获取新的字词组的方法和装置。所述技术方案如下:

        一方面,本发明实施例提供了一种获取新的字词组的方法,包括:

        获取用户连续N次输入的N个字词单元,所述N为大于等于2的自然数;

        计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组;

        当确定所述N个字词单元可以组合为新的字词组时,将所述新的字词组加入指定词库中。

        进一步地,所述根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组,具体包括:

        判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈值;

        如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个字词单元不可以组合为新的字词组。

        进一步地,所述语义相关度包括:上下文关联度、或人名关联度;

        相应地,所述预设的语义相关度阈值包括:预设的上下文关联度阈值、或预设的人名关联度阈值;

        相应地,所述判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈值具体为:

        判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值;或

        判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值。

        进一步地,所述语义相关度包括:上下文关联度和人名关联度;

        相应地,所述预设的语义相关度阈值包括:预设的上下文关联度阈值和预设的人名关联度阈值;

        相应地,所述计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组,具体包括:

        计算所述N个字词单元之间的上下文关联度;

        判断计算出的所述N个字词单元之间地上下文关联度是否大于预设的上下文关联度阈值;

        如果大于,则确定所述N个字词单元可以组合为新的字词组,然后执行将所述新的字词组加入指定词库的步骤;否则,计算所述N个字词单元之间的人名关联度,然后判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;

        如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个字词单元不可以组合为新的字词组。

        进一步地,所述语义相关度包括:上下文关联度和人名关联度;

        相应地,所述预设的语义相关度阈值包括:预设的上下文关联度阈值和预设的人名关联度阈值;

        相应地,所述计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组,具体包括:

        计算所述N个字词单元之间的人名关联度;

        判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;

        如果大于,则确定所述N个字词单元可以组合为新的字词组,然后执行将所述新的字词组加入指定词库的步骤;否则,计算所述N个字词单元之间的上下文关联度,然后判断计算出的所述N个字词单元之间的上下文关联度,是否大于预设的上下文关联度阈值;

        如果大于,则确定所述N个字词单元可以组合为新的字词组;否则,确定所述N个字词单元不可以组合为新的字词组。

        进一步地,所述获取用户连续N次输入的N个字词单元之后,计算所述N个字词单元之间的语义相关度之前还包括:

        判断现有词库和所述指定词库中是否存在所述N个字词单元;

        如果所述现有词库和所述指定词库中均不存在所述N个字词单元,则执行计算所述N个字词单元之间的语义相关度的步骤。

        另一方面,本发明实施例提供了一种获取新的字词组的装置,包括:

        获取???,用于获取用户连续N次输入的N个字词单元,所述N为大于等于2的自然数;

        处理???,用于在所述获取??榛袢〉絅个字词单元后,计算所述N个字词单元之间的语义相关度,根据计算出的所述N个字词单元之间的语义相关度和预设的语义相关度阈值,确定所述N个字词单元是否可以组合为新的字词组;

        更新???,用于当所述处理??槿范ㄋ鯪个字词单元可以组合为新的字词组时,将所述新的字词组加入指定词库中。

        进一步地,所述处理??榫咛灏ǎ?br>
        第一计算单元,用于在所述获取??榛袢〉絅个字词单元后,计算所述N个字词单元之间的语义相关度;

        第一判断单元,用于在所述第一计算单元计算出所述N个字词单元之间的语义相关度后,判断计算出的所述N个字词单元之间的语义相关度是否大于预设的语义相关度阈值;

        第一确定单元,用于当所述第一判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组;当所述第一判断单元的判断结果是小于等于时,确定所述N个字词单元不可以组合为新的字词组。

        进一步地,当所述语义相关度包括上下文关联度、或人名关联度;相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值、或预设的人名关联度阈值时,所述第一判断单元,具体用于在所述第一计算单元计算出所述N个字词单元之间的上下文关联度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的语义相关度阈值;或

        所述第一判断单元,具体用于在所述第一计算单元计算出所述N个字词单元之间的人名关联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的语义相关度阈值。

        进一步地,当所述语义相关度包括上下文关联度和人名关联度,相应地,所述预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,所述处理??榫咛灏ǎ?br>
        第二计算单元,用于在所述获取??榛袢〉絅个字词单元后,计算所述N个字词单元之间的上下文关联度;

        第二判断单元,用于在所述第二计算单元计算出所述N个字词单元之间的上下文关联度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值;

        第二确定单元,用于当所述第二判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组,然后通知所述更新??橹葱薪鲂碌淖执首榧尤胫付ù士獾牟街?;

        第三计算单元,用于当所述第二判断单元的判断结果是小于等于时,计算所述N个字词单元之间的人名关联度;

        第三判断单元,用于在所述第三计算单元计算出所述N个字词单元之间的人名关联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;

        第三确定单元,用于当所述第三判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组;当所述第三判断单元的判断结果是小于等于时,确定所述N个字词单元不可以组合为新的字词组。

        进一步地,当所述语义相关度包括上下文关联度和人名关联度,相应地,预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,所述处理??榫咛灏ǎ?br>
        第四计算单元,用于在所述获取??榛袢〉絅个字词单元后,计算所述N个字词单元之间的人名关联度;

        第四判断单元,用于在所述第四计算单元计算出所述N个字词单元之间的人名关联度后,判断计算出的所述N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;

        第四确定单元,用于当所述第四判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组,然后通知所述更新??橹葱薪鲂碌淖执首榧尤胫付ù士獾牟街?;

        第五计算单元,用于当所述第四判断单元的判断结果是小于等于时,计算所述N个字词单元之间的上下文关联度;;

        第五判断单元,用于在所述第五计算单元计算出所述N个字词单元之间的上下文关联度后,判断计算出的所述N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值;

        第五确定单元,用于当所述第五判断单元的判断结果是大于时,确定所述N个字词单元可以组合为新的字词组;当所述第五判断单元的判断结果是小于等于时,确定所述N个字词单元不可以组合为新的字词组。

        进一步地,所述装置还包括:

        判断???,用于在所述获取??榛袢〉絅个字词单元后,判断现有词库和所述指定词库中是否存在所述N个字词单元;

        通知???,用于当所述判断??榈呐卸辖峁撬鱿钟写士夂退鲋付ù士庵芯淮嬖谒鯪个字词单元时,通知所述处理??橹葱屑扑闼鯪个字词单元之间的语义相关度的步骤。

        本发明实施例提供的技术方案的有益效果是:

        本发明实施例所述的获取新的字词组的方法,根据实时计算得到的用户连续输入的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中,使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度,可以节省用户的时间,方便用户的输入。并且,语义相关度可以为上下文关联度和人名关联度,为输入一些复合词和中国人名提供了很大便利。

        【附图说明】

        图1是本发明实施例1提供的一种获取新的字词组的方法流程图;

        图2是本发明实施例2提供的一种获取新的字词组的方法流程图;

        图3是本发明实施例3提供的一种获取新的字词组的方法流程图;

        图4是本发明实施例4提供的一种获取新的字词组的装置结构示意图;

        图5是本发明实施例4提供的另一种获取新的字词组的装置结构示意图。

        【具体实施方式】

        为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

        实施例1

        参见图1,本发明实施例提供了一种获取新的字词组的方法,包括:

        101:获取用户连续N次输入的N个字词单元,N为大于等于2的自然数。

        102:计算N个字词单元之间的语义相关度,根据计算出的N个字词单元之间的语义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组。

        103:当确定N个字词单元可以组合为新的字词组时,将新的字词组加入指定词库中。

        进一步地,根据计算出的N个字词单元之间的语义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组,具体可以包括:

        判断计算出的N个字词单元之间的语义相关度是否大于预设的语义相关度阈值;

        如果大于,则确定N个字词单元可以组合为新的字词组;否则,确定N个字词单元不可以组合为新的字词组。

        进一步地,语义相关度包括:上下文关联度、或人名关联度;

        相应地,预设的语义相关度阈值包括:预设的上下文关联度阈值、或预设的人名关联度阈值;

        相应地,判断计算出的N个字词单元之间的语义相关度是否大于预设的语义相关度阈值具体为:

        判断计算出的N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值;或

        判断计算出的N个字词单元之间的人名关联度是否大于预设的人名关联度阈值。

        进一步地,语义相关度包括:上下文关联度和人名关联度;

        相应地,预设的语义相关度阈值包括:预设的上下文关联度阈值和预设的人名关联度阈值;

        相应地,计算N个字词单元之间的语义相关度,根据计算出的N个字词单元之间的语义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组,具体可以包括:

        计算N个字词单元之间的上下文关联度;

        判断计算出的N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值;

        如果大于,则确定N个字词单元可以组合为新的字词组,然后执行将新的字词组加入指定词库的步骤;否则,计算N个字词单元之间的人名关联度,然后判断计算出的N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;

        如果大于,则确定N个字词单元可以组合为新的字词组;否则,确定N个字词单元不可以组合为新的字词组。

        进一步地,语义相关度包括:上下文关联度和人名关联度;

        相应地,预设的语义相关度阈值包括:预设的上下文关联度阈值和预设的人名关联度阈值时;

        相应地,计算N个字词单元之间的语义相关度,根据计算出的N个字词单元之间的语义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组,具体可以包括:

        计算N个字词单元之间的人名关联度;

        判断计算出的N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;

        如果大于,则确定N个字词单元可以组合为新的字词组,然后执行将新的字词组加入指定词库的步骤;否则,计算N个字词单元之间的上下文关联度,然后判断计算出的N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值;

        如果大于,则确定N个字词单元可以组合为新的字词组;否则,确定N个字词单元不可以组合为新的字词组。

        进一步地,获取用户连续N次输入的N个字词单元之后,计算N个字词单元之间的语义相关度之前还包括:

        判断现有词库和指定词库中是否存在该N个字词单元;

        如果现有词库和指定词库中均不存在该N个字词单元,则执行计算N个字词单元之间的语义相关度的步骤。

        本发明实施例所述的获取新的字词组的方法,根据实时计算得到的用户连续输入的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中,使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度,可以节省用户的时间,方便用户的输入。并且,语义相关度可以为上下文关联度和人名关联度,为输入一些复合词和中国人名提供了很大便利。

        实施例2

        参见图2,本发明实施例提供了一种获取新的字词组的方法,包括:

        201:获取用户连续N次输入的N个字词单元,其中,N为大于等于2的自然数。

        本发明实施例中将用户通过按键输入编码(可以是拼音、五笔字型等可以实现字词输入的符号),并输入该编码对应的字词(即选词上屏)为一次输入字词单元,而且,一次输入的字词单元可以是单个字(如:中、国等),或可以是单个词(如:和平、解放等),或可以是一个短语(如:我爱北京、天安门等)等,也就是说本发明实施例的字词单元表示字、词或短语等用户一次性输入的内容,相应地N个字词单元表示用户连续N次输入的内容。并且,可以采用任何可行的方式获取用户连续N次输入的N个字词单元,如可以在用户输入过程中,实时缓存用户当前一次输入的字词单元,连续缓存N次即得到用户连续N次输入的N个字词单元。另外,可以根据实际应用状况,选择N的具体取值,如N可以取值为2、3、5等。

        例如:用户通过拼音输入字词,并且N取值为2。在用户一次输入过程中,用户先输入“hua”,并选择“hua”对应的“花”作为一次输入,然后用户输入“duo”,并选择“duo”对应的“朵”作为一次输入,此时获取到用户连续2次输入的2个字词单元为“花朵”。在用户另一次输入过程中,用户先输入“ziben”,并选择“ziben”对应的“资本”作为一次输入,接着用户输入“zhuyi”,并选择“zhuyi”对应的“主义”作为一次输入,此时获取到用户连续2次输入的2个字词单元为“资本主义”,再接着用户输入“shehui”,并选择“shehui”对应的“社会”作为一次输入,此时获取到用户连续2次输入的2个字词单元为“主义社会”。

        202:判断现有词库和指定词库中是否存在获取的该N个字词单元,如果存在,则执行207;否则,执行203。

        其中,现有词库可以是核心词库、用户词库等输入法系统自带的各种词库;指定词库是本发明实施例指定的存储通过本发明实施例获取到的新的字词组的词库,需要说明的是,也可以将现有词库中的任意一个词库作为指定词库,不对此进行限定。具体地,可以通过将获取的N个字词单元与现有词库和指定词库中存在的字词进行比对,得出现有词库和指定词库中是否存在当前获取的N个字词单元。并且需要说明的是,在比对时是将N个字词单元作为一个整体进行比对,如获取的N个字词单元为“资本主义”,则判断“资本主义”是否存在现有词库和指定词库中。

        203:计算获取的N个字词单元之间的语义相关度。

        在用户输入字词的过程中,通过对用户连续输入的N个字词单元的语义(语义表示字、词的词性、释义以及在不同语境中出现时的属性等)进行分析,可以知道用户输入的N个字词单元之间的关联性,从而可以将用户连续输入的N个字词单元组合为一个整体,以便用户再次输入?;谏鲜鲈?,本发明实施例使用语义相关度来表示连续输入的N个字词单元之间的语义相关程度。例如:获取到用户连续输入的“学习”+“知识”,“学习”+“知识”之间存在很大的语义关联性,组成“学习知识”非常合理,因此“学习”+“知识”之间的语义相关度应该很大。相反,获取到用户连续输入的“小”+“张”+“的”+“事情”,虽然它们也是连续输入,但没有语义上的关联性,组成“小张的事情”就是一个没有意义的词,因此“小”+“张”+“的”+“事情”之间的语义相关度应该很小。具体地,可以通过下面的方法计算获取的N个字词单元之间的语义相关度:

        第一种方法:

        1)获取语料集。

        其中,语料集可以是计算机通过搜素引擎实时搜索到的各种文字材料的集合,如网络新闻、文章等,或可以是预存的各种文字材料的集合,如预存的各种文章、论文等。本发明实施例对语料集不做限制,可以根据实际应用状况灵活选择。

        2)统计获取的N个字词单元在语料集中出现的次数,将统计得到的次数作为语义相关度。

        其中,统计N个字词单元在语料集中出现的次数时,是将N个字词单元作为一个整体进行统计的。并且需要说明的是,获取的语料集的数量越大、范围越广,得到的语义相关度就越具有代表性,但需要的计算时间也就会相应地越长,实际应用中,可以根据具体应用情况,灵活选择语料集的数量和范围。

        第二种方法:

        使用N元条件概率公式计算N个字词单元可能被连续输入的概率AN,将计算出的概率作为语义相关度。N元条件概率公式如下:

        AN=P(SN|S1、S2…SN-1)

        其中,N表示输入的次数,N为大于等于2的自然数,SN表示第N次输入的字词单元,P(SN|S1、S2…SN-1)表示条件概率??梢圆捎萌魏慰尚械姆椒扑鉖(S1)、P(S2)、P(S1S2)…P(S1S2…SN)等,例如:可以采用对收集的语料集进行统计的方法进行,也可以通过对多个用户的输入过程进行统计得到。

        通过N元条件概率公式可以表现连续N次输入的N个字词单元之间的关联程度。在连续输入时,N元条件概率就表现为在已有前(N-1)次输入的情况下,后一次输入内容出现的可能性,即连续N次输入的N个字词单元之间的条件概率。并且需要说明的是,选取的N越大,计算概率AN需要的计算量和存储数据也越大,边输入边计算的要求也越难满足,因此在实际应用中,可以根据实际应用状况选择N的取值。

        需要说明的是,计算获取的N个字词单元之间的语义相关度并不限于上述的二种方法,可以根据实际应用状况,采用任何其他可行的方法。

        另外,根据语义的不同表现,可以将语义分为纯粹的上下文内容之间的关联,或是人名的姓与名之间的关联,因此语义相关度可以包括:上下文关联度和人名关联度。

        上下文关联度主要反应了上下文内容之间的关联性,如:获取用户连续输入的“学习”+“知识”,这两个字词单元之间具有很强的上下文关联性;相反,如果获取用户连续输入的是“小张”+“打球”,则这两个字词单元之间的关联性就明显不如“学习”+“知识”这两个字词单元之间的上下文关联性强。

        人名关联度主要反应了一个名字的姓与名之间的关联性,如:获取用户连续输入的“张”+“三”,这两个字词单元之间具有很强的人名关联性,相反,如果获取用户连续输入的是“张”+“开”,则这两个字词单元之间的人名关联性就明显不如“张”+“三”这两个字词单元之间的人名关联性强。对于汉语而言,可以将数亿中国人的人名作为语料集,进行统计计算得到人名关联度。并且,对于汉语而言,人名一般是2到3个字,所以可以将N取值为2或3。

        需要说明的是,上下文关联度和人名关联度的具体计算方式与计算语义相关度的方式类似,此处不再赘述。并且需要说明的是,上下文关联度和人名关联度只是语义相关度的两种形式,并不限于此,可以根据实际应用状况进行设置。

        204:判断计算出的语义相关度,是否大于预设的语义相关度阈值,如果大于,则执行205;否则,执行206。

        预设的语义相关度阈值可以根据实验或经验进行设置,不对此进行具体限定。如可以计算所有N个连续的字词单元出现在语料集中的次数,并进行加权和归一化处理,取平均值,作为预设的语义相关度阈值。并且与步骤203中的语义相关度相对应,预设的语义相关度阈值可以包括上下文关联度阈值和人名关联度阈值。如当步骤203中的语义相关度具体为上下文关联度时,该步骤中预设的语义相关度阈值具体为上下文关联度阈值。

        205:确定获取的N个字词单元可以组合为一个新的字词组,并将该新的字词组加入指定词库中,然后执行207。

        需要说明的是,本领域的技术人员很容易想到,在将新的字词组加入指定词库时,可以将与该新的字词组对应的编码(可以是拼音、和/或五笔字型等可以实现字词输入的符号)也加入指定词库,这样指定词库可以以字词组的形式提供该N个字词单元的候选项,可以减少用户的击键次数。例如:用户通过拼音输入现有词库不存在的人名“金日昆”,用户先输入“jin”选择“金”作为一次输入,接着输入“ri”选择“日”作为一次输入,然后输入“kun”选择“昆”作为一次输入,得到“金日昆”,在用户输入过程中通过本发明实施例的方法,获取到“金日昆”,将“金日昆”和其对应的编码“jinrikun”加入指定词库,这样下次用户需要再次输入“金日昆”时,只需输入jinrikun”即可。

        206:确定获取的N个字词单元不可以组合为一个新的字词组,然后执行207。

        207:重新获取用户连续N次输入的N个字词单元,然后执行202。

        本发明实施例所述的获取新的字词组的方法,根据实时计算得到的用户连续输入的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中,使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度,可以节省用户的时间,方便用户的输入。并且,语义相关度可以为上下文关联度和人名关联度,为输入一些复合词和中国人名提供了很大便利。

        需要说明的是,由于语义相关度可以包括上下文关联度和人名关联度,所以在实际应用中可以只使用上下文关联度,或只使用人名关联度,或将上下文关联度和人名关联度结合起来使用。并且在将上下文关联度和人名关联度结合起来使用时,可以是先利用上下文关联度确定N个字词单元是否可以组合为一个新的字词组,再利用人名关联度确定N个字词单元是否可以组合为一个新的字词组;或可以是先利用人名关联度确定N个字词单元是否可以组合为一个新的字词组,再利用上下文关联度确定N个字词单元是否可以组合为一个新的字词组。下面以先利用上下文关联度确定N个字词单元是否可以组合为一个新的字词组,再利用人名关联度确定N个字词单元是否可以组合为一个新的字词组为例进行进一步说明。

        实施例3

        参见图3,本发明实施例提供了一种获取新的字词组的方法,包括:

        301:获取用户连续N次输入的N个字词单元,其中,N为大于等于2的自然数。

        与步骤201类似,此处不再赘述。

        302:判断现有词库和指定词库中是否存在获取的N个字词单元,如果存在,则执行309;否则,执行303。

        与步骤202类似,此处不再赘述。

        303:计算获取的N个字词单元之间的上下文关联度。

        与步骤203中计算语义相关度的方法类似,此处不再赘述。

        304:判断计算出的上下文关联度,是否大于预设的上下文关联度阈值,如果大于,则执行307;否则,执行305。

        305:计算获取的N个字词单元之间的人名关联度。

        与步骤203中计算语义相关度的方法类似,此处不再赘述。

        306:判断计算出的人名关联度是否大于预设的人名关联度阈值,如果大于,则执行307;否则,执行308。

        307:确定获取的N个字词单元可以组合为一个新的字词组,并将该新的字词组加入指定词库中,然后执行309。

        与步骤205类似,此处不再赘述。

        308:确定获取的N个字词单元不可以组合为一个新的字词组,然后执行309。

        309:重新获取用户连续N次输入的N个字词单元,然后执行302。

        本发明实施例所述的获取新的字词组的方法,根据实时计算得到的用户连续输入的N个字词单元之间的上下文关联度和人名关联度,组合出新的字词组,并将新的字词组加入指定词库中,使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度,可以节省用户的时间,方便用户的输入,为输入一些复合词和中国人名提供了很大便利。

        实施例4

        参见图4,本发明实施例提供了一种获取新的字词组的装置,包括:

        获取???01,用于获取用户连续N次输入的N个字词单元,N为大于等于2的自然数。

        处理???02,用于在获取???01获取到N个字词单元后,计算N个字词单元之间的语义相关度,根据计算出的N个字词单元之间的语义相关度和预设的语义相关度阈值,确定N个字词单元是否可以组合为新的字词组;

        更新???03,用于当处理???02确定N个字词单元可以组合为新的字词组时,将新的字词组加入指定词库中。

        进一步地,处理???02具体可以包括:

        第一计算单元,用于在获取???01获取到N个字词单元后,计算N个字词单元之间的语义相关度;

        第一判断单元,用于在第一计算单元计算出N个字词单元之间的语义相关度后,判断计算出的N个字词单元之间的语义相关度是否大于预设的语义相关度阈值;

        第一确定单元,用于当第一判断单元的判断结果是大于时,确定N个字词单元可以组合为新的字词组;当第一判断单元的判断结果是小于等于时,确定N个字词单元不可以组合为新的字词组。

        进一步地,当语义相关度包括上下文关联度、或人名关联度;相应地,预设的语义相关度阈值包括预设的上下文关联度阈值、或预设的人名关联度阈值时,第一判断单元,具体用于在第一计算单元计算出N个字词单元之间的上下文关联度后,判断计算出的N个字词单元之间的上下文关联度是否大于预设的语义相关度阈值;或

        第一判断单元,具体用于在第一计算单元计算出N个字词单元之间的人名关联度后,判断计算出的N个字词单元之间的人名关联度是否大于预设的语义相关度阈值。

        进一步地,当语义相关度包括上下文关联度和人名关联度,相应地,预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,处理???02具体可以包括:

        第二计算单元,用于在获取???01获取到N个字词单元后,计算N个字词单元之间的上下文关联度;

        第二判断单元,用于在第二计算单元计算出N个字词单元之间的上下文关联度后,判断计算出的N个字词单元之间的上下文关联度是否大于预设的上下文关联度阈值;

        第二确定单元,用于当第二判断单元的判断结果是大于时,确定N个字词单元可以组合为新的字词组,然后通知更新???03执行将新的字词组加入指定词库的步骤;

        第三计算单元,用于当第二判断单元的判断结果是小于等于时,计算N个字词单元之间的人名关联度;

        第三判断单元,用于在第三计算单元计算出N个字词单元之间的人名关联度后,判断计算出的N个字词单元之间的人名关联度是否大于预设的人名关联度阈值;

        第三确定单元,用于当第三判断单元的判断结果是大于时,确定N个字词单元可以组合为新的字词组;当第三判断单元的判断结果是小于等于时,确定N个字词单元不可以组合为新的字词组。

        进一步地,当语义相关度包括上下文关联度和人名关联度,相应地,预设的语义相关度阈值包括预设的上下文关联度阈值和预设的人名关联度阈值时,处理???02具体可以包括:

        第四计算单元,用于在获取???01获取到N个字词单元后,计算N个字词单元之间的人名关联度;

        第四判断单元,用于在第四计算单元计算出N个字词单元之间的人名关联度后,判断计算出的N个字词单元之间的人名关联度,是否大于预设的人名关联度阈值;

        第四确定单元,用于当第四判断单元的判断结果是大于时,确定N个字词单元可以组合为新的字词组,然后通知更新???03执行将新的字词组加入指定词库的步骤;

        第五计算单元,用于当第四判断单元的判断结果是小于等于时,计算N个字词单元之间的上下文关联度;

        第五判断单元,用于在第五计算单元计算出N个字词单元之间的上下文关联度后,判断计算出的N个字词单元之间的上下文关联度,是否大于预设的上下文关联度阈值;

        第五确定单元,用于当第五判断单元的判断结果是大于时,确定N个字词单元可以组合为新的字词组;当第五判断单元的判断结果是大于等于时,确定N个字词单元不可以组合为新的字词组。

        进一步地,参见图5,该装置还包括:

        判断???04,用于在获取???01获取到N个字词单元后,判断现有词库和指定词库中是否存在该N个字词单元;

        通知???05,用于当判断???04的判断结果是现有词库和指定词库中均不存在该N个字词单元时,通知处理???02执行计算N个字词单元之间的语义相关度的步骤。

        本发明实施例所述的获取新的字词组的装置,根据实时计算得到的用户连续输入的N个字词单元之间的语义相关度,组合出新的字词组,并将新的字词组加入指定词库中,使得用户需要再次输入该N个字词单元时,指定词库可以以字词组的形式提供该N个字词单元的候选项,减少了用户的击键次数,大大提高了用户输入字词时的输入速度,可以节省用户的时间,方便用户的输入。并且,语义相关度可以为上下文关联度和人名关联度,为输入一些复合词和中国人名提供了很大便利。

        以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。

        以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的?;し段е??!  ∧谌堇醋宰ɡ鴚ww.www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:一种获取新的字词组的方法和装置.pdf
    链接地址://www.4mum.com.cn/p-5781757.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 赛马会心水论坛80858 福建麻将怎么玩图解 唐山股票配资 黑龙江11选5开奖信息 雪缘园nba比分 牌九袖箭技巧 湖北快3走势图表 qq游戏大厅手机版下载 河南快三开奖结果在线 北京pk10大特秘籍 河南11选5官方 五子棋练成之后怎么办 51678金蟾捕鱼辅助 贵州快3第1期几点开始 三打一棋牌游戏规则 苹果股票