• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    怎么看重庆时时彩后一: 一种人名的识别方法及系统.pdf

    关 键 词:
    一种 人名 识别 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201010270770.X

    申请日:

    2010.08.27

    公开号:

    CN102385587A

    公开日:

    2012.03.21

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 专利权的转移IPC(主分类):G06F 17/30登记生效日:20151230变更事项:专利权人变更前权利人:腾讯科技(深圳)有限公司变更后权利人:深圳市腾讯计算机系统有限公司变更事项:地址变更前权利人:518044 广东省深圳市福田区振兴路赛格科技园2栋东403室变更后权利人:518057 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20100827|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 腾讯科技(深圳)有限公司
    发明人: 罗长升; 方高林
    地址: 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室
    优先权:
    专利代理机构: 深圳中一专利商标事务所 44237 代理人: 贾振勇
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201010270770.X

    授权公告号:

    |||102385587B||||||

    法律状态公告日:

    2016.01.20|||2014.07.30|||2012.05.02|||2012.03.21

    法律状态类型:

    专利申请权、专利权的转移|||授权|||实质审查的生效|||公开

    摘要

    本发明适用于互联网和搜索领域,本发明提供了一种人名的识别方法及系统,该方法包括如下步骤:将初始序列中识别出的人名以及该人名出现的次数存储在人名频率表中;根据该初始序列中的词条确定候选人名;如该候选人名出现在该人名频率表中,且出现次数超过预设次数阈值时,将该候选人名作为识别出的人名标注。本发明提供的技术方案具有提高人名识别准确率的优点。

    权利要求书

    1.一种人名的识别方法,其特征在于,所述方法包括如下步骤:
    将初始序列中识别出的人名以及该人名出现的次数存储在人名频率表中,
    根据该初始序列中的词条确定候选人名;
    如该候选人名出现在该人名频率表中,且出现次数超过预设次数阈值时,
    将该候选人名作为识别出的人名。
    2.根据权利要求1所述的方法,其特征在于,所述方法将该候选人名作为
    识别出的人名之后还包括如下步骤:
    标注该识别出的人名,并根据该候选人名在初始序列中出现的次数来更新
    人名频率表。
    3.根据权利要求1所述的方法,其特征在于,所述根据该初始序列中的词
    条确定候选人名的步骤具体包括:
    将该初始序列中连续的二个或多个词条组合成候选人名。
    4.根据权利要求1所述的方法,其特征在于,所述根据该初始序列中的词
    条确定候选人名的步骤具体包括:
    将该初始序列中二个字的人名词条与该词条的后一个词条的第一个汉字或
    前二个汉字组成候选人名。
    5.根据权利要求1所述的方法,其特征在于,所述根据该初始序列中的词
    条确定候选人名的步骤具体包括:
    将该初始序列中三个字的人名词条的前二个字组成候选人名。
    6.一种人名的识别系统,其特征在于,所述系统包括:
    存储单元,用于将初始序列中识别出的人名以及该人名出现的次数存储在
    人名频率表中;
    确定单元,用于根据该初始序列中的词条确定候选人名;
    识别单元,用于在该候选人名出现在该人名频率表中,且出现次数超过预
    设次数阈值时,将该候选人名作为识别出的人名。
    7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
    标注更新单元,用于标注该识别出的人名,并根据该候选人名在初始序列
    中出现的次数来更新人名频率表。
    8.根据权利要求6所述的系统,其特征在于,所述候选单元包括:
    连续组合???,用于将该初始序列中连续的二个或多个词条组合成候选人
    名。
    9.根据权利要求6所述的系统,其特征在于,所述候选单元包括:
    组合???,用于将该初始序列中二个字的人名词条与该词条的后一个词条
    的第一个汉字或前两个汉字组成候选人名。
    10.根据权利要求6所述的系统,其特征在于,所述候选单元包括:
    组成???,用于将该初始序列中三个字的人名词条的前二个字组成候选人
    名。

    说明书

    一种人名的识别方法及系统

    技术领域

    本发明属于互联网和搜索领域,尤其涉及一种人名的识别方法及系统。

    背景技术

    随着互联网的发展,用户越来越多的通过互联网中搜索软件对中国的人名
    进行搜索。现有的人名的识别方法具体为:从语料库(即存储数据库)中自动抽
    取角色信息,采取Viterbi算法对切词结果进行角色标注,在角色序列的基础上,
    进行模式最大匹配,最终实现中国人名的识别。

    按照现有技术所提供的技术方案,发现现有技术中存在如下技术问题:

    现有技术提供的技术方案的方法是对切词结果进行角色标注的,所以当切
    词结果出现错误时,容易对人名识别错误,识别错误率高。

    发明内容

    本发明实施例提供一种人名的识别方法,旨在解决现有技术的识别方法对
    切词结果出现错误时,容易对人名识别错误,识别错误率高的问题。

    本发明实施例是这样实现的,一种人名的识别方法,所述方法包括如下步
    骤:

    将初始序列中识别出的人名以及该人名出现的次数存储在人名频率表中;
    根据该初始序列中的词条确定候选人名;

    如该候选人名出现在该人名频率表中,且出现次数超过预设次数阈值时,
    将该候选人名作为识别出的人名。

    本发明还提供一种人名的识别系统,所述系统包括:

    存储单元,用于将初始序列中识别出的人名以及该人名出现的次数存储在
    人名频率表中;

    确定单元,用于根据该初始序列中的词条确定候选人名;

    识别单元,用于在该候选人名出现在该人名频率表中,且出现预设次数超
    过次数阈值时,将该候选人名作为识别出的人名。

    本发明实施例与现有技术相比,有益效果在于:本发明的技术方案对初始
    序列的人名和该人名出现次数建立人名频率表,然后根据该初始序列的词条确
    定候选人名,并将该候选人名与该人名频率表中的人名进行比对,如出现在该
    人名频率表中,且该人名频率表中的次数超过次数阈值时,确定该候选人名为
    漏识别的人名,由于该方法是以初始序列为基础进行错误修正的,所以其具有
    当切词结果出现错误时,会对现有技术的识别结果(即初始序列)进行错误修
    正的处理,所以其具有提高人名识别准确率的优点。

    附图说明

    图1是本发明提供的一种人名的识别方法的流程图;

    图2是本发明实施例一提供一种人名的识别方法的流程图;

    图3为本发明实施例一提供一种人名修正流程图;

    图4是本发明实施例二提供一种人名的识别方法的流程图;

    图5是本发明实施例三提供一种人名的识别方法的流程图;

    图6为本发明提供一种人名的识别系统的结构图。

    具体实施方式

    为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实
    施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅
    仅用以解释本发明,并不用于限定本发明。

    本发明提供一种人名的识别方法,该方法如图1所示,具体包括如下步骤:

    S10、将初始序列中识别出的人名以及该人名出现的次数存储在人名频率表
    中;

    需要说明的是,上述初始序列可以为:对人名经过初步识别处理后的序列。
    上述识别处理的方法可以为现有技术的方法,例如Viterbi算法,当然也可以为
    别的识别方法,只要该方法能够初步识别出人名即可,本发明并不局限该识别
    方法的具体表现形式。

    S11、根据该初始序列中的词条确定候选人名;

    S12、如该候选人名出现在该人名频率表中,且出现次数超过预设次数阈值
    时,将该候选人名作为识别出的人名。

    可选的,该方法还可以包括:标注该识别出的人名,并根据该候选人名在
    初始序列中出现的次数来更新人名频率表。

    上述预设次数阈值用户可以预先自行设定,例如1、2、3等等,本发明并
    不局限该次数阈值的具体取值。

    可选的,实现S11的具体方法可以为下属方式中的任何一种,当然也可以
    为下属方式中的任意组合。

    方式A、将初始序列中连续的二个或多个词条组合成候选人名;

    方式B、将初始序列中二个字的人名词条与该词条的后一个词条的第一个
    汉字组成候选人名;

    方式C、将初始序列中三个字的人名词条的前二个字组成候选人名。

    需要说明的是,本发明提供的人名识别方法主要用于中文人名的识别,如
    果其他文字的人名具有中文人名的特征,则也可以应用到其它文字,例如满文
    或一些其它的少数名族文字等。

    本实施例提供的方法对初始序列的人名和该人名出现次数建立人名频率
    表,然后根据该初始序列的词条确定候选人名,并将该候选人名与该人名频率
    表中的人名进行比对,如出现在该人名频率表中,且该人名频率表中的次数超
    过次数阈值时,确定该候选人名为漏识别的人名,将该候选人名标识,并更新
    该人名频率表,由于该方法是以初始序列为基础进行错误修正的,所以其具有
    当切词结果出现错误时,会对现有技术的识别结果(即初始序列)进行错误修
    正的处理,所以其能着重解决人名识别中的传统难题:无姓氏人名识别和人名
    识别歧义,从而能提高人名识别准确率。

    实施例一:

    本实施例提供一种人名的识别方法,本实施例实现的技术场景为:本实施
    例提供的方法由识别设备完成,该识别设备具体可以为,计算机、移动终端、
    PDA等数码电子设备,本实施例以中文为例,本实施例以下段文档为例来说明
    本实施例的识别方法,需要说明的是,下段文字可以为经过现有技术的识别处
    理方法处理后的序列,为了方便说明,本实施例将经过识别方法识别处理后的
    序列统一称为初始序列。该初始序列具体如下所示:

    之前因走音晋级激怒包小柏/nr的“话题选手”
    曾轶可/nr当晚再次成为焦点人物。内地“支持派”评
    委还是非??春迷罂?nr的原创音乐和清新台风。
    被称为“绵羊天使”的曾轶可/nr带来的依旧是自己
    的原创作品《狮子座》。曾轶可/nr仍然是“争议
    可”。曾轶可/nr与第二轮得分最低的“小燕子”
    李丽/nr进行终极PK对决。此刻曾轶可/nr与李丽/nr的
    投票比分为0∶2。然后她旁边的李丽/nr拉了下
    她说:冷静点。曾轶可/nr的“想骂人”三个字非
    常清晰。记者发现曾轶可/nr已经连夜撰写博客。对
    比赛中因安慰李丽/nr所说的一句不当话语进行了
    真诚的道歉。曾轶可/nr表示绝对不会因为外界的评说
    放弃自己的音乐梦想。李丽/nr也在自己的博客里
    替曾轶可/nr澄清。但陆续PK的轶可还是忍不住泪
    水。李丽喜/nr得2007雪碧我型我秀全国第13名。李
    丽方/nr得以胜出。曾轶/nr可以一票之差不敌刘惜君
    /nr转为待定。

    其中,上述初始序列中的“nr”的词条为识别出的人名。上述词条可以为
    字典里预先定义的一些词,例如“可以”、“全国”等等,当然也可以为人为
    设置的一些词,例如“李连杰”、“成龙”、“乔丹”等;需要说明的是,初
    始序列中的词条通过空格符隔开,例如“但陆续”中,词条“但”和词条“陆
    续”通过空格符隔开。本实施例提供的方法如图2所示,具体包括如下步骤:

    S20、将该初始序列中识别出的人名以及该人名出现的次数存储在人名频率
    表中;

    上述初始序列的人名频率表具体可以如表1所示:

    表1:

    ??人名
    ??次数
    ??曾轶可
    ??10
    ??包小柏
    ??1
    ??李丽
    ??7
    ??李丽喜
    ??1
    ??李丽方
    ??1
    ??曾轶
    ??1

    S21、将连续的二个或多个词条组合成候选人名;

    需要说明的是,上述词条可以为单个字的词条,例如“在”;当然在实际
    情况中,也可以为多个字的词条,例如“话语”。

    需要说明的是,如有连续的多个单字词条时,其组成的候选人名也可以为
    多个候选人名,这里以连续的二个单字词条组合成候选人名为例,“拉了下
    她说”可以组成4个候选人名,分别为:“拉下”、“了下”、“下她”、
    “她说”。需要说明的是,上述组合成候选人名单字词条的个数一般为2、3、
    4;当然该个数的定义只是按当前中国姓名字数的习惯来规定的,不排除当习惯
    改变时,命名字数变成8、9、10等字数,例如外国人的中文名字的个数即为超
    过4的个数,上述多个可以根据实际情况设定。

    S22、如该候选人名出现在上述人名频率表中,且出现次数大于次数阈值时,
    将该候选人名作为识别出的人名标注,并更新该人名频率表。

    上述更新该人名频率表的具体方式可以为:对该人名频率表中出现的该候
    选人名的次数进行更新,例如该候选人名出现过2次,则将该人名频率表中对
    该候选人名的次数增加2次。

    本实施例方法中的修正的流程图如图3所示,其中,可以将S20的人名存
    储在图3的人名频率表中,而错误修正可以完成S21和S22的操作。

    本实施例提供的方法对初始序列的人名和该人名出现次数建立人名频率
    表,然后将连续的二个或多个词条组成候选人名与该人名频率表中的人名进行
    比对,如出现在该人名频率表中,且该人名频率表中的次数超过次数阈值时,
    确定该候选人名为漏识别的人名,将该候选人名标识,并更新该人名频率表,
    由于该方法是以初始序列为基础进行错误修正的,所以其具有当切词结果出现
    错误时,会对现有技术的识别结果(即初始序列)进行错误修正的处理,所以
    其能着重解决人名识别中的传统难题:无姓氏人名识别和人名识别歧义,从而
    能提高人名识别准确率的优点。

    实施例二:

    本实施例提供一种人名的识别方法,本实施例提供的技术场景与实施例一
    提供的技术场景相同,该方法如图4所示,包括如下步骤:

    S40、将该初始序列中识别出的人名以及该人名出现的次数存储在人名频率
    表中;

    该人名频率表具体可以如表1所示。

    S41、将二个字的人名词条与该词条的后一个词条的第一个汉字组成候选人
    名;

    下面以一个实际的例子来说明S41的实现方法,这里以上述二个字的人名
    词条“曾轶/nr”,该词条的后一个词条为“可以”,则组成的候选人名为“曾
    轶可”。当然在实际情况中,也可以将二个字的人名词条与该词条的后一个词
    条的前两个汉字组成候选人名。

    S42、如该候选人名出现在上述人名频率表中,且出现次数大于次数阈值时,
    将该候选人名作为识别出的人名标注,并更新该人名频率表。

    这里假设次数阈值为3次,当然在实际情况中,可以设置成其它的数字,
    例如2、4或1等等,由于候选人名“曾轶可”在人名频率表中出现的次数为
    10次,大于次数阈值,所以对“曾轶可”进行人名标注,并更新人名频率表,
    更新后的人名频率表如表2所示:

    表2

    ??人名
    ??次数
    ??曾轶可
    ??11
    ??包小柏
    ??1
    ??李丽
    ??7
    ??李丽喜
    ??1
    ??李丽方
    ??1
    ??曾轶
    ??1

    将识别出的人名进行标注后的序列为:

    “丽方/nr得以胜出。曾轶可/nr以一票之差不敌
    刘惜君”。需要说明的是,由于该标注只对上述初始序列的倒数第二行进行了
    更改,所以这里只写了更改的一行。

    本实施例提供的方法对初始序列的人名和该人名出现次数建立人名频率
    表,然后将两个字的人名词条与该词条的后一个词条的第一个汉字组成候选人
    名与该人名频率表中的人名进行比对,如出现在该人名频率表中,且该人名频
    率表中的次数超过次数阈值时,确定该候选人名为漏识别的人名,将该候选人
    名标识,并更新该人名频率表,由于该方法是以初始序列为基础进行错误修正
    的,所以其具有当切词结果出现错误时,会对现有技术的识别结果(即初始序
    列)进行错误修正的处理,所以其能着重解决人名识别中的传统难题:无姓氏
    人名识别和人名识别歧义,例如歧义人名或者与上下文成词人名的识别问题;
    从而能提高人名识别准确率的优点。

    实施例三:

    本实施例提供一种人名的识别方法,本实施例提供的技术场景与实施例一
    提供的技术场景相同,该方法如图4所示,包括如下步骤:

    S50、将该初始序列中识别出的人名以及该人名出现的次数存储在人名频率
    表中;

    该人名频率表具体可以如表1所示。

    S51、将三个字的人名词条的前二个字组成候选人名;

    下面以一个实际的例子来说明S51的实现方法,这里以上述三个字的人名
    词条“曾轶可/nr”,组成的候选人名为:“曾轶”;“李丽喜/nr”和“李丽方
    /nr”组成的候选人名为:“李丽”。

    S52、如该候选人名出现在上述人名频率表中,且出现次数大于次数阈值时,
    将该候选人名作为识别出的人名标注,并更新该人名频率表。

    这里假设次数阈值为3次,由于“曾轶”的出现次数为一次,所以其没有大
    于次数阈值;而“李丽”出现的次数为7次,大于次数阈值,所以将“李丽喜
    /nr”修改成“李丽/nr喜”;将“李丽成/nr”修改成“李丽/nr成”;并更新
    人名频率表,更新后的人名频率表如表3所示:

    表3:



    将识别出的人名进行标注后的序列为:

    “水。李丽/nr??喜得2007雪碧我型我秀全国第13
    名。李丽/nr方得以胜出。曾轶/nr可以一票之差不
    敌刘惜君”

    本实施例提供的方法对初始序列的人名和该人名出现次数建立人名频率
    表,然后将三个字的人名词条中的前二个字组成候选人名与该人名频率表中的
    人名进行比对,如出现在该人名频率表中,且该人名频率表中的次数超过次数
    阈值时,确定该候选人名为漏识别的人名,将该候选人名标识,并更新该人名
    频率表,由于该方法是以初始序列为基础进行错误修正的,所以其具有当切词
    结果出现错误时,会对现有技术的识别结果(即初始序列)进行错误修正的处
    理,所以其能着重解决人名识别中的传统难题:无姓氏人名识别和人名识别歧
    义,从而能提高人名识别准确率的优点。

    本发明还提供一种人名的识别系统,该系统如图6所示,包括:

    存储单元61将初始序列中识别出的人名以及该人名出现的次数存储在人
    名频率表中;

    确定单元62该初始序列中的词条确定候选人名;

    识别单元63在该候选人名出现在该人名频率表中,且出现次数超过预设次
    数阈值时,将该候选人名作为识别出的人名标注。

    上述初始序列的定义可以参见方法实施例中的相关描述。

    可选的,上述系统还可以包括:

    标注更新单元64标注该识别出的人名,并根据该候选人名在初始序列中出
    现的次数来更新人名频率表。

    可选的,上述确定单元62可以包括下述??橹械娜我桓龌蚨喔觯?br />

    连续组合???21将该初始序列中连续的二个或多个词条组合成候选人
    名;

    组合???22将该初始序列中二个字的人名词条与该词条的后一个词条的
    第一个汉字或前两个汉字组成候选人名;

    组成???23将该初始序列中三个字的人名词条的前二个字组成候选人
    名。

    本实施例提供的系统对初始序列的人名和该人名出现次数建立人名频率
    表,然后根据该初始序列的词条确定候选人名,并将该候选人名与该人名频率
    表中的人名进行比对,如出现在该人名频率表中,且该人名频率表中的次数超
    过次数阈值时,确定该候选人名为漏识别的人名,将该候选人名标识,并更新
    该人名频率表,由于该系统是以初始序列为基础进行错误修正的,所以其具有
    当切词结果出现错误时,会对现有技术的识别结果(即初始序列)进行错误修
    正的处理,所以其能着重解决人名识别中的传统难题:无姓氏人名识别和人名
    识别歧义,从而能提高人名识别准确率的优点。

    值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑
    进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,
    各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的?;?br />范围。

    另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分
    步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算
    机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

    综上所述,本发明提供的技术方案具有不易对人名识别错误的优点。

    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发
    明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明
    的?;し段е?。

    关于本文
    本文标题:一种人名的识别方法及系统.pdf
    链接地址://www.4mum.com.cn/p-5817445.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 创业板好股票推荐 老11选5第五位走势图 博远棋牌v1.5官方版 最火的现金手游棋牌 福彩3d组三含豹子走势图 在无锡中彩票去哪兑换 海南飞鱼彩票app 139期红球预测 双色球开奖结果坐标 日韩联赛投注技巧 海南飞鱼中奖号码的真实规律 双色球大乐透有规律吗 谁有极速飞艇计划 山东快乐扑克三 北京pk10直播盛宴 云南十一选五开奖号