• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 23
    • 下载费用:30 金币  

    助赢重庆时时彩下载: 获取多音字拼音、基于拼音检索的方法及其相应装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210102573.6

    申请日:

    2012.04.09

    公开号:

    CN103365925A

    公开日:

    2013.10.23

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120409|||公开
    IPC分类号: G06F17/30; G06F17/27 主分类号: G06F17/30
    申请人: 高德软件有限公司
    发明人: 吴跃进
    地址: 100080 北京市昌平区科技园区昌盛路8号B1座1-5层
    优先权:
    专利代理机构: 北京集佳知识产权代理有限公司 11227 代理人: 逯长明;王宝筠
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210102573.6

    授权公告号:

    ||||||

    法律状态公告日:

    2016.12.14|||2013.12.25|||2013.10.23

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本申请实施例公开了一种获取多音字拼音的方法。该方法包括:获取文字串;对文字串进行分词处理获得分词;将分词与预设多音字表进行匹配以判断分词是否包含多音字,若是,则将该分词与预设多音字词语表进行匹配以获得多音字在该分词中的拼音,多音字词语表为包含多音字的词语与多音字在该词语中的拼音之间的对应关系表。本申请实施例还公开了一种获取多音字拼音的装置以及基于文字拼音的检索方法和装置。本申请实施例提高了获得多音字正确拼音的概率,扩展了基于文字拼音的拼音数据库的信息容量,增加了数据库内数据的正确率,提高了基于文字拼音进行检索的检索效率。

    权利要求书

    权利要求书
    1.  一种获取多音字拼音的方法,其特征在于,该方法包括:
    获取文字串;
    对所述文字串进行分词处理,以获得至少一个分词;
    将所述分词与预设的多音字表进行匹配,以判断分词是否包含多音字,若包含多音字,则将该分词与预设多音字词语表进行匹配,以获得多音字在该分词中的拼音,所述多音字词语表为包含多音字的词语与多音字在该词语中的拼音之间的对应关系表。

    2.  根据权利要求1所述的方法,其特征在于,若所述包含多音字的分词中进一步包含非多音字,则所述方法还包括:
    获取所述分词中每个非多音字的拼音;
    将所述分词中非多音字的拼音和多音字的拼音组合为所述分词的拼音;
    以所述分词的拼音或拼音的首字母为索引,将所述分词添加到拼音数据库中。

    3.  根据权利要求2所述的方法,其特征在于,获取所述分词中每个非多音字的拼音,具体包括:
    通过查找GBK编码表,获得所述分词中每个非多音字的拼音。

    4.  根据权利要求1~3任一项所述的方法,其特征在于,将分词与预设的多音字表进行匹配以判断分词是否包含多音字,具体包括:
    将所述分词中的每个汉字分别与所述预设的多音字表进行匹配,若所述分词包含所述预设多音字表中的汉字,则确定所述分词包含多音字。

    5.  根据权利要求4所述的方法,其特征在于,所述预设多音字表中包含各多音字对应的默认音,若从预设多音字词语表中未获得所述分词中的多音字的拼音,则所述方法还包括:
    从所述预设多音字表中,获取所述分词中多音字对应的默认音,将所述默认音作为所述分词中的多音字的拼音。

    6.  根据权利要求1~3任一项所述的方法,其特征在于,将所述分词与预设多音字词语表进行匹配以获得该分词中的多音字的拼音,包括:
    确定所述分词中的多音字在该分词中的位置;
    从所述多音字词语表中确定出至少一个预选分词,所述预选分词包含所 述分词中的多音字,且该多音字在所述预选分词中的位置与该多音字在所述分词中的位置相同;
    将所述分词与确定出的预选分词进行匹配,若匹配成功,则从所述多音字词语表中,获取与所述分词匹配的预选分词中的多音字的拼音,将所述预选分词的多音字的拼音,确定为所述分词中的相应多音字的拼音。

    7.  一种获取多音字拼音的装置,其特征在于,该装置包括:第一获取单元、切分单元、第一匹配单元和第二匹配单元,其中:
    所述第一获取单元,用于获取文字串;
    所述切分单元,用于对所述文字串进行分词处理,以获得至少一个分词;
    所述第一匹配单元,用于将分词与预设多音字表进行匹配,以判断分词是否包含多音字,若包含多音字,则触发第二匹配单元;
    所述第二匹配单元,用于将该分词与预设多音字词语表进行匹配,以获得多音字在该分词中的拼音,所述多音字词语表为包含多音字的词语与多音字在该词语中的拼音之间的对应关系表。

    8.  根据权利要求7所述的装置,其特征在于,该装置还包括第二获取单元和添加单元,其中:
    所述第二获取单元,用于在所述包含多音字的分词中进一步包含非多音字时,获取所述分词中每个非多音字的拼音,将所述分词中的非多音字的拼音和多音字的拼音组合为所述分词对应的拼音;
    所述添加单元,用于以所述分词的拼音或拼音的首字母为索引,将所述分词添加到拼音数据库中。

    9.  根据权利要求8所述的装置,其特征在于,所述第二获取单元获取所述分词中每个非多音字的拼音,具体用于:通过查找GBK编码表,获得所述分词中的每个非多音字的拼音。

    10.  根据权利要求7~9任一项所述的装置,其特征在于,第一匹配单元将分词与预设多音字表进行匹配以判断分词是否包含多音字,具体包括:
    将所述分词中的每个汉字分别与所述预设多音字表进行匹配,若所述分词中包含所述预设多音字表中的汉字,则确定所述分词包含多音字。

    11.  根据权利要求10所述的装置,其特征在于,所述预设多音字表包含 多音字的默认音,所述第二匹配单元进一步用于,若从预设多音字词语表中未获得所述分词中的多音字的拼音,从所述预设多音字表中获取所述分词中多音字对应的默认音,将所述默认音作为所述分词中的多音字的拼音。

    12.  根据权利要求7~9任一项所述的装置,其特征在于,所述第二匹配单元包括:第一确定子单元,第二确定子单元、匹配子单元和第三确定子单元,其中:
    所述第一确定子单元,用于确定所述分词中的多音字在该分词中的位置;
    所述第二确定子单元,用于从所述多音字词语表中确定出至少一个预选分词,所述预选分词包含所述分词中的多音字,且该多音字在所述预选分词中的位置与该多音字在所述分词中的位置相同;
    所述匹配子单元,用于将所述分词与确定出的预选分词进行匹配,若匹配成功,则触发第三确定子单元;
    所述第三确定子单元,用于从所述多音字词语表中,获取与所述分词匹配的预选分词中的多音字的拼音,将所述预选分词的多音字的拼音,确定为所述分词中的相应多音字的拼音。

    13.  一种基于文字拼音的检索方法,其特征在于,该方法包括:
    获取拼音或拼音首字母;
    以所述拼音或拼音首字母为索引查找拼音数据库;所述拼音数据库是以分词的拼音或拼音首字母为索引,将具有相同拼音或拼音首字母的分词作为一个索引单位进行数据组织,且当所述分词为包含多音字的分词时,该分词中的多音字在该分词中的拼音是通过与预设的多音字词语表进行匹配得到,所述多音字词语表为包含多音字的词语与多音字在该词语中的拼音之间的对应关系表;
    将查找到的具有相同拼音或拼音首字母的分词作为关键词进行检索,获得检索结果。

    14.  根据权利要求13所述的方法,其特征在于,所述获取拼音或拼音首字母包括:接收用户输入的拼音或拼音首字母;或者,
    接收用户输入的文字串,并对所述文字串进行分词处理,以获得至少一个分词;将所述分词与预设多音字表进行匹配以判断分词是否包含多音字, 若包含多音字,则将该分词与预设多音字词语表进行匹配,以获得多音字在该分词中的拼音,所述多音字词语表为包含多音字的词语与多音字在该词语中的拼音之间的对应关系表;获得分词的拼音后,提取分词的拼音或拼音首字母。

    15.  根据权利要求13所述的方法,其特征在于,在查找到的具有相同拼音或拼音首字母的分词包含多个时,提示用户进行选择,将用户选择的分词作为关键词进行检索,获取检索结果。

    16.  一种基于文字拼音的检索装置,其特征在于,该装置包括:第三获取单元、查找单元和检索单元,其中:
    所述第三获取单元,用于获取拼音或拼音首字母;
    所述查找单元,用于以所述第三获取单元获取的所述拼音或拼音首字母为索引查找拼音数据库,所述拼音数据库是以分词的拼音或拼音首字母为索引,将具有相同拼音或拼音首字母的分词作为一个索引单位进行数据组织,且当所述分词为包含多音字的分词时,该分词中的多音字在该分词中的拼音是通过与预设的多音字词语表进行匹配得到,所述多音字词语表为包含多音字的词语与多音字在该词语中的拼音之间的对应关系表;
    所述检索单元,用于将所述查找单元查找到的具有相同拼音或拼音首字母的分词作为关键词进行检索,获得检索结果。

    17.  根据权利要求16所述的装置,其特征在于,所述第三获取单元接收用户输入的拼音或拼音首字母;或者,
    所述第三获取单元包括:接收子单元、切分子单元、第一匹配子单元、第二匹配子单元和提取子单元,其中:
    所述接收子单元,用于接收用户输入的文字串;
    所述切分子单元,用于对所述文字串进行分词处理,以获得至少一个分词;
    所述第一匹配子单元,用于将分词与预设多音字表进行匹配以判断分词是否包含多音字,若包含多音字,则触发第二匹配子单元;
    所述第二匹配子单元,用于将该分词与预设多音字词语表进行匹配,以获得多音字在该分词中的拼音,所述多音字词语表为包含多音字的词语与多 音字在该词语中的读音之间的对应关系表;
    所述提取子单元,用于在获取分词的拼音后,提取分词的拼音或拼音首字母。

    18.  根据权利要求16所述的装置,其特征在于,所述装置还包括提示单元,用于在所述查找单元查找到的具有相同拼音或拼音首字母的分词包含多个时,提示用户进行选择;则:所述检索单元将用户选择的分词作为关键词进行检索,获取检索结果。

    关 键 词:
    获取 多音字 拼音 基于 检索 方法 及其 相应 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:获取多音字拼音、基于拼音检索的方法及其相应装置.pdf
    链接地址://www.4mum.com.cn/p-5779298.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03