• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 23
    • 下载费用:30 金币  

    重庆时时彩yy平台: 实体名称匹配.pdf

    关 键 词:
    实体 名称 匹配
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110329092.4

    申请日:

    2011.10.26

    公开号:

    CN102385625A

    公开日:

    2012.03.21

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||专利申请权的转移IPC(主分类):G06F 17/30变更事项:申请人变更前权利人:微软公司变更后权利人:微软技术许可有限责任公司变更事项:地址变更前权利人:美国华盛顿州变更后权利人:美国华盛顿州登记生效日:20150612|||实质审查的生效IPC(主分类):G06F 17/30申请日:20111026|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 微软公司
    发明人: C. 约翰斯顿
    地址: 美国华盛顿州
    优先权: 2010.10.26 US 12/911884
    专利代理机构: 中国专利代理(香港)有限公司 72001 代理人: 谢建云;刘鹏
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110329092.4

    授权公告号:

    |||||||||

    法律状态公告日:

    2015.09.30|||2015.07.01|||2012.06.06|||2012.03.21

    法律状态类型:

    授权|||专利申请权、专利权的转移|||实质审查的生效|||公开

    摘要

    公开了一种或者多种用于匹配实体名称的技术和/或系统。在第一实体名称(例如企业实体名称)与第二实体名称之间执行匹配分析。匹配分析包括将已经修改到所述第一实体名称中的第一实体类别描述符与已经修改到第二实体名称中的第二实体类别描述符进行比较。如果在类别描述符中标识匹配,则第一和第二实体名称可以包括相同实体。

    权利要求书

    1.一种用于匹配实体名称的基于计算机的方法(100),包括:在第一实体名称与第二实体名称之间执行匹配分析包括将修改到所述第一实体名称的第一实体类别描述符与修改到所述第二实体名称的第二实体类别描述符进行比较(106)。2.根据权利要求1所述的方法,包括以下中的一个或者多个:将所述第一实体类别描述符修改到所述第一实体名称中;以及将所述第二实体类别描述符修改到所述第二实体名称中。3.根据权利要求1所述的方法,包括:针对相应实体名称,将所述实体名称分解成一个或者多个潜在类别信号;以及相对于已知类别信号的知识库来比较相应类别信号以标识用于所述类别信号的对应类别描述符。4.根据权利要求3所述的方法,包括以下中的一个或者多个:将所述第一实体类别描述符修改到所述第一实体名称中包括将所述第一实体名称中的所述类别信号替换为所标识的对应类别描述符;以及将所述第二实体类别描述符修改到所述第二实体名称中包括将所述第二实体名称中的所述类别信号替换为所标识的对应类别描述符。5.根据权利要求3所述的方法,所述实体名称包括企业实体名称;所述类别描述符包括企业类型类别;以及所述类别信号包括描述所述企业类型类别中的企业的串。6.根据权利要求1所述的方法,将修改到所述第一实体名称的第一实体类别描述符与修改到所述第二实体名称的第二实体类别描述符进行比较包括确定在类别树中在所述第一实体类别描述符与所述第二实体类别描述符之间的距离。7.根据权利要求1所述的方法,将修改到所述第一实体名称的第一实体类别描述符与修改到所述第二实体名称的第二实体类别描述符进行比较包括确定实体类型是否可以均包括在所述第一实体类别描述符的第一实体类别和所述第二实体类别描述符的第二实体类别中。8.根据权利要求1所述的方法,在第一实体名称与第二实体名称之间执行匹配分析包括将所述第一实体名称的串元素与所述第二实体名称的串元素进行比较。9.根据权利要求8所述的方法,包括如果在修改到所述第一实体名称的所述第一实体类别描述符与修改到所述第二实体名称的所述第二实体类别描述符之间标识到匹配,则比较串元素。10.根据权利要求1所述的方法,包括通过添加无类别描述符来修改所述第一和第二实体名称中的一个或者多个,其中所述无类别描述符包括通配符。11.根据权利要求1所述的方法,包括通过向所述实体名称添加所述实体类别描述符来将所述实体类别描述符修改到所述实体名称中,其中所述实体类别描述符对应于知识库中的所述实体名称。12.一种用于匹配实体名称的系统(600),包括:存储器部件(602),配置成存储包括实体类别描述符和相关联的类别信号的知识库;名称修改部件(604),可与所述存储器部件操作耦合并且配置成用来自所述知识库的实体类别描述符来修改实体名称;以及类别匹配部件(606),可与所述名称修改部件操作耦合并且配置成通过将第一修改的实体名称中的第一实体类别描述符与第二修改的实体名称中的第二实体类别描述符进行比较来确定第一实体名称是否匹配第二实体名称。13.根据权利要求12所述的系统,包括:串匹配部件,配置成如果所述类别匹配部件标识匹配,则通过比较所述第一实体名称的串元素与所述第二实体名称的串元素来确定所述第一实体名称是否匹配所述第二实体名称。14.根据权利要求12所述的系统,所述知识库包括多个实体类别描述符,其中相应的实体类别描述符对应于一个或者多个类别信号。15.根据权利要求12所述的系统,所述名称修改部件包括:分解部件,配置成将所述实体名称分解成一个或者多个潜在类别信号;以及信号比较部件,配置成相对于包括已知类别信号的所述知识库来比较相应类别信号以标识用于所述类别信号的对应类别描述符。

    说明书

    实体名称匹配

    背景技术

    诸如商业企业清单(例如黄页)、基于搜索引擎的目录等在线目录允许在线用户搜寻和标识期望的实体(例如要光顾的本地企业)。另外,受雇专家、客户或者其他各方可以提交在线评论,其中评论者可以提及实体并且描述他们对实体的体验或者意见(例如饭店或者产品评论)。此外,博客者、记者或者其它编辑人士可以提交关于实体的在线信息、报道等,其中提到实体的名称。然而实体名称(比如企业)经??赡茉诹礁龌蛘吒嗄柯?、博客、评论或者报道之间无统一标识。例如当目录可以将图书馆标识为Depot?Street?Library?Branch?in?Medina(Depot街图书馆中部分馆)时,在线博客可以仅将它称为Medina?Branch?Library(图书馆中部分馆)。另外可能有相似但是混淆名称的不同类型的另一实体(比如Library?Street?Depot(图书馆街Depot)(例如酒吧))。

    发明内容

    提供这一发明内容以简化形式介绍下文在具体实施方式中进一步描述的所选概念。这一发明内容并非目的在于标识所要求主题的关键因素或者基本特征、也并非目的在于用来限制要求主题的范围。

    匹配实体名称(比如在目录中或者来自多个目录/位置的企业名称)对于涉及到实体名称的记录链接系统而言可能颇为重要。实体名称匹配可能是未对仅基于字符或者基于标记的方式有良好响应的困难问题。当前或者现有技术尝试通过在经历匹配的两个(或者更多)名称之间匹配字符或者标记来匹配名称。也就是说,例如将串匹配算法通常应用于两个名称(比如“Matt’s?Restaurant(Matt的饭店)”和“Matt’s?Bar?and?Grill(Matts酒吧和烤肉店)”)以确定它们是否可能是相同实体。

    另外,当前或者现有技术尝试使用完全基于知识的方式来匹配实体名称。这一技术通常由于各类文字中的企业名称表述的大量自然变化而未良好地起作用。也就是说,例如相对于包括多个企业名称和关联的企业类型的数据库来匹配实体的名称。然而仅使用这一方式可能需要巨型数据库,并且由于名称使用方式的变化而可能未提供充分的结果。

    因而公开一种或者多种使用小型知识库从实体名称表述(例如在目录、博客、评论等中)中提取可以表明实体类型(例如企业类型、比如服务、零售、食品等)的实体类别信号的技术和/或系统。另外可以对实体名称的其余部分(例如非类别信号的部分)使用基于串或者标记的匹配方式。利用这一方式,可以匹配广泛多种类型的实体名称表述、从例如在线目录清单数据库中的正规表述到例如博客或者评论文字中的随意企业表述。

    在用于匹配实体名称的一个实施例中,在第一实体名称(比如目录中的企业名称)与第二实体名称(比如来自在线评论的另一企业名称)之间执行匹配分析。该匹配分析可以包括比较已经修改到第一实体名称中的第一实体类别描述符与已经修改到第二实体名称中的第二实体类别描述符。

    为了实现前述和有关目的,下文描述和附图阐述某些示例方面和实现。这些仅仅是其中可以采用一个或者多个方面的各种方式中的仅少数方式的指示。本公开内容的其它方面、优点和新颖特征将根据在与附图结合考虑时的下文具体实施方式而变得清楚。

    附图说明

    图1是用于匹配实体名称的示例方法的流程图。

    图2是图示了这里描述的一种或者多种方法的一个或者多个部分的一个实施例的流程图。

    图3是这里描述的一种或者多种技术的一个实施例的流程图。

    图4图示了其中可以利用一种或者多种技术和/或系统的一个或者多个示例实施例。

    图5图示了其中可以利用一种或者多种技术和/或系统的一个或者多个示例实施例。

    图6是用于匹配实体名称的示例系统的部件图。

    图7图示了这里描述的一种或者多种系统的一个示例实施例的部件图。

    图8是示例计算机可读介质的图示,该计算机可读介质包括被配置成具体实施这里阐述的一种或者多种规定的处理器可执行指令。

    图9图示了其中可以实现这里阐述的一种或者多种规定的示例计算环境。

    具体实施例

    现在参照其中相似标号用来通篇指代相似单元的附图来描述所要求的主题。在下文描述中,出于说明的目的而阐述诸多具体细节以便提供对要求主题的透彻理解。然而可以清楚的是,可实现所要求的主题而无需这些具体细节。在其它实例中,以框图形式示出了结构和设备以便有助于描述所要求的主题。

    通常,当在线(例如在因特网上)搜寻特定实体时,用户可以发现用于相同实体的多个条目,其中相应条目包括实体名称的不同变化。例如,用户可能希望通过在线搜寻用户评论来发现信誉好的汽车机修工。在这一例子中,使用第一评论站点,用户可以发现“Richardson‘s?Quick?Tire,Lube?and?Auto?Service(Richardson的快速轮胎、润滑剂和汽车服务)”具有良好等级。然而在搜寻这一实体时,用户仅在在线目录中发现“Richardson’s?Service(Richardson的服务)”。不经过进一步调查,用户可能并不知道这些是否为相同实体,并且(例如通过在线目录、博客或者评论站点)自动地尝试统一这两个实体名称可能造成不恰当的合并。

    设想出一种方法,该方法提供了标识用于相同实体(比如企业)的多个名称(例如,如在一个或者多个目录中的清单),因而多个名称可以例如链接在一起或者合并成单个名称。图1是用于匹配实体名称的示例方法100的流程图。示例方法100始于102并且涉及到在104标识用于第一实体名称的至少部分的第一实体类别描述符和用于第二实体名称的至少部分的第二实体类别描述符。

    类别描述符可以包括描述实体类型的类别名称,其中实体类型包括针对实体的分类。作为示例,企业类型的类别描述符“饭店”可以代表如下分类,该分类包括餐厅、烤肉店、咖啡馆、熟食店、三明治店和更多分类。另外,类别描述符“酒吧”可以代表如下分类,该分类包括酒吧、酒吧和烤肉店、酒馆、休闲室、旅馆、客栈和更多分类。

    此外,在一个实施例中,类别描述符可以包括子类别描述符,其中子类别描述符包括一个或者多个实体的类别,该类别也可以被分类。例如“饭店.酒吧”可以是“饭店”的子类别,而“零售.衣物”可以是“零售”的子类别。在一个实施例中,类别描述符与之相关联的类别可以分级树布置。例如当根部包括“企业实体”时,相应分支可以包括作为企业实体类型的各种类别,诸如服务、制造、零售等。

    在一个实施例中,标识用于实体名称的类别描述符可以包括查看实体名称中的一个或者多个串(例如,单词)并且标识匹配该串的类别。例如在实体名称“Madoff?Retirement?Funds(Madoff退休基金)”中,单词“?Funds(基金)”或者甚至“Retirement?Funds(退休基金)”可以包括与金融规划服务有关的实体类型。因此,在这一例子中,可以针对实体名称“Madoff?Retirement?Funds(Madoff退休基金)”标识类别描述符“服务.金融规划”。

    在一个实施例中,知识库(例如数据库)可以用来有助于标识类别描述符。例如可以相对于知识库比较串“Retirement?Funds(退休基金)”以确定它与类别“服务-金融规划”相关联。作为又一例子,知识库可以包括多个类别(例如在分级树中关联),其中相应类别包括用于可以与类别匹配的特定实体名称的串列表。

    在示例方法100中的106处,在第一实体名称与第二实体名称之间执行匹配分析。这里比较已经修改到第一实体名称的第一实体类别描述符与已经修改到第二实体名称的第二实体类别描述符。在一个实施例中,类别描述符可以修改到实体名称中,从而当执行匹配分析时在名称中包括它。

    在一个实施例中,用来标识类别描述符的串可以替换为实体名称中的类别描述符。例如“Madoff?Retirement?Funds(Madoff退休基金)”可以修改到“Madoff<服务.金融规划>”。在这一实施例中,可以比较第一修改的实体名称与第二修改的实体名称以确定在两个名称之间是否有潜在匹配。例如“Madoff<服务.金融规划>”可以是与“Madoff<服务.金融规划>”的匹配,而“Madoff<服务.拖车>”不可能匹配“Madoff<服务.金融规划>”。

    在已经执行匹配分析之后,示例方法100结束于108。

    图2是图示了这里描述的一种或者多种方法的一个或者多个部分的一个实施例200的流程图,其中修改实体名称。现在将参照图4,该图是这里描述的一种或者多种技术的一个示例实施例400的图示。在202将第一实体名称分解成潜在类别信号;并且在204将第二实体名称分解成潜在类别信号。作为例子,实体名称“Stinky?Pete’s?Bar?and?Grill(Stinky?Pete酒吧和烤肉店)”可以分解成多个潜在类别信号、比如:Stinky;Pete’s;Stinky?Pete’s;Bar(酒吧);Grill(烤肉店);以及Bar?and?Grill?(酒吧和烤肉店);以及其它类别信号。

    在示例实施例200中的206处,可以比如通过查看知识库是否包括类别信号来相对于知识库来比较相应类别信号。如果在208处未在知识库中发现潜在类别信号,则在210处确定潜在类别信号不是类别信号。例如不可能在包括企业实体类别(例如服务、制造、零售等)的知识库中发现“Stinky”、“Pete‘s”和“Stinky?Pete’s”。因此,在这一例子中,确定这些潜在类别信号不是类别信号。

    作为选择,如果在208处,在知识库中发现针对关联实体类型(例如企业名称)的潜在类别信号,则在212可以将类别信号替换为来自知识库的对应类别描述符。例如,如在图4的示例实施例400中所示,第一实体名称402包括“Stinky?Pete’s?Bar?and?Grill(Stinky?Pete酒吧和烤肉店)”。在第一实体名称402的第一分解418A中,可以确定第一潜在类别信号406“Stinky?Pete‘s?”不包括类别信号(即不匹配企业实体类别)。在这一分解418A中,第二潜在匹配信号408“Bar?and?Grill(酒吧和烤肉店)”匹配与知识库中的类别描述符“饭店.酒吧”相对应的类别信号。

    另外,在这一例子400中,在第一实体名称402的第一分解418A中,类别信号“Bar?and?Grill(酒吧和卡肉店)”408可以替换为类别描述符“饭店.酒吧”。因此,第一分解418A可以包括“Stinky?Pete’s”<饭店.酒吧><空>,其中“空”410这一项可以标识第一实体402在替换的类别信号408之后发现的部分。在这一例子中,分解的实体名称418A包括串“Stinky?Pete’s”和类别描述符<饭店.酒吧>。

    回到图2,在212处,在一个实施例中,可以为实体名称(例如图4的402)重复示例方法200,从而生成一个或者多个修改的第一实体名称250并且生成一个或者多个修改的第二实体名称252。例如,如在图4的例子400中所示,在第一实体名称402的第二分解418B中,类别信号“Bar(酒吧)”408可以替换为类别描述符<饭店.酒吧>。在这一例子中,潜在类别信号“Bar(酒吧)”可以匹配与知识库中的“类别描述符<饭店.酒吧>”关联的类别信号“酒吧”。

    另外,在例子400中,在第一实体名称402的第三分解418C中,类别信号“烤肉店”408可以替换为类别描述符<饭店>;并且也可以如在第一实体名称402的第四分解418D中所示替换为类别描述符<饭店.酒吧>。

    第二实体名称404包括“Stnky?Pete休息室”(例如组合了企业实体类型的错误拼写和常见变化)。作为例子,可以在博客或者在线用户评论中包括第二实体名称204,其中作者使用实际企业实体名称(例如Stinky?Pete酒吧和烤肉店)的变化。在一个实施例中,用于相同实体(比如企业)的多个名称的标识可以用来将名称链接在一起或者将它们合并成单个名称。例如用户可以使用具有映射能力的在线搜索引擎来搜寻本地餐馆并且发现“Stinky?Pete酒吧和烤肉店”(例如第一实体名称402)。另外,在这一示例中,用户可能希望发现讨论Stinky?Pete的评论或者博客条目以便决定它是否满足用户的需要。评论者可以将实体列为“Stnky?Pete休息室”(例如第二实体名称)。在这一实施例中,可以为了匹配而比较这两个实体名称以确定它们是否用于相同实体。

    在示例400中,在第二实体名称404的第一分解420A中,发现“Stnky?Pete”412不是类别信号,并且确定“休息室”414包括与知识库中的<饭店.酒吧>类别描述符关联的类别信号。在这一示例400中,对于第二实体名称404,类别信号“休息室”414可以替换为类别描述符<饭店.酒吧>。另外,向在修改的类别描述符414之后添加<空>项416。

    在一个实施例中,如在第一实体名称402的第五分解418E和第二实体名称404的第二分解420B中所示,分别针对第一实体名称402和第二实体名称404修改<无类别>类别描述符408、414。在这一实施例中,可以向包括<无类别>类别描述符的一组其余类别对添加实体名称(例如402、404)。<无类别>类别可以用于以随意方式使用实体名称的情况。

    例如评论者、博客张贴者或者甚至目录创建者可以将企业“Stinky?Pete酒吧和烤肉店”称为“Stinky?Pete”,就如同客户和用户可以将“Starbucks咖啡”称为“Starbucks”一样。在这一示例中,随意称谓可以仅包括企业的特定名称(例如Stinky?Pete或者Starbuck)而不包括将特定名称与用于实体的企业类型(例如酒吧和烤肉店或者咖啡)相链接的类别信号。在这一实施例中,如下文将更详细描述的那样,<无类别>类别描述符可以用作一类“通配符”,例如其中<无类别>可以在匹配实体名称时与多个其它类别描述符相匹配。

    图3是图示了这里描述的一种或者多种技术的一个实施例300的流程图。一个或者多个修改的第一实体名称250可以用于实体名称匹配;并且一个或者多个第二实体名称250可以用于实体名称匹配。例如,如在图4中所示,修改的第一实体名称可以包括:“Stinky?Pete”<饭店.酒吧><空>;“Stinky?Pete”<饭店.酒吧>“和烤肉店”;“?Stinky?Pete酒吧和”<饭店><空>;“Stinky?Pete酒吧和”<饭店.酒吧><空>;以及“Stinky?Pete酒吧和烤肉店”<无类别><空>。另外,修改的第二实体名称可以包括:“Stnky?Pete”<饭店.酒吧><空>;以及“Stnky?Pete休息室”<无类别><空>。

    在302,针对相应的第一实体名称,可以在304将修改的第一实体名称与第二实体名称进行比较。也就是说,例如可以将“Stinky?Pete”<饭店.酒吧><空>与“Stnky?Pete”<饭店.酒吧><空>和“Stnky?Pete休息室”<无类别><空>二者进行比较。在一个实施例中,当比较实体名称时,在第一与第二实体名称之间比较相应类别描述符。例如将修改的第一实体名称“Stinky?Pete”<饭店.酒吧><空>中的<饭店.酒吧>与修改的第二实体名称“Stnky?Pete”<饭店.酒吧><空>中的<饭店.酒吧>进行比较。在这一示例中,相应类别描述符提供明显的匹配。

    在一个实施例中,将修改到第一实体名称的第一实体类别描述符与修改到第二实体名称的第二实体类别描述符进行比较可以包括确定在类别树中在第一实体类别描述符与第二实体类别描述符之间的距离。例如类别知识库可以是分级的,其中类别酒店.酒吧包括类别酒店的子类别。在这个示例中,数据结构树可以用来代表在知识库中的相应类别之间的分级关系,其中相应类别(节点)具有至少一个父类别(父节点)和零个或者更多子类别(子代)。

    在一个实施例中,期望的阈值(例如加权树度量)可以用来确定第一和第二实体类别描述符的“接近度”。也就是说,例如如果在第一实体名称类别与第二实体名称类别之间的关系落在阈值(例如跳跃数目、相同父代、子类别-类别关系等)内,则可以指示匹配。然而如果未满足阈值,则未指示类别匹配。

    将理解类别匹配并不限于这里描述的实施例,并且设想本领域技术人员可以设计替代比较技术。例如,类别知识库可以具有替代结构,其中一个或者多个不同度量可以用来确定“接近度”。在一个实施例中,将修改到第一实体名称的第一实体类别描述符与修改到第二实体名称的第二实体类别描述符进行比较可以包括确定是否可以在第一实体类别描述符的第一实体类别和第二实体类别描述符的第二实体类别中均包括实体类型(例如由类别信号确定)。

    例如,如在图5的示例实施例500中所示,在第一实体名称502?“Starbucks咖啡”中,在第一分解518A中的类别信号508?“咖啡”可以与在知识库中的类别“饭店.咖啡”相关联。然而,在第二实体名称504?“Starbucks拖车”中,在第一分解520A中的类别信号514“拖车”可以与在知识库中的类别“服务.拖车”相关联。在这个实施例中,例如由于不能在知识库中的相同类别(或者子类别)中发现所比较的相应类别信号,则可以确定它们为不匹配(例如未满足阈值)。

    回到图3,在306处,如果类别描述符不匹配,则例如可以在308放弃修改的第一实体名称与修改的第二实体名称的比较,并且可以在304执行下一比较。如上文描述的那样,参照图5,修改的第一实体名称(如在第一分解518A中所示)包括类别描述符508<饭店.咖啡>,而修改的第二实体名称(如在第一分解520A中所示)包括类别描述符514<服务.拖车>。作为示例,由于这两个类别描述符不包括匹配,则可以放弃在这个修改的第一实体名称与这个修改的第二实体名称之间的比较(例如不执行进一步的比较)。

    如果在306处类别描述符确实匹配,则在310处,针对相应匹配的类别描述符对,在第一实体名称与第二实体名称之间的匹配分析可以包括在312处比较第一实体名称的(非类别)串元素与第二实体名称的(非类别)串元素。也就是说,例如在确认了用于修改的第一实体名称和修改的第二实体名称的类别描述符之间的匹配之后,可以执行附加比较(多个)。

    在一个实施例中,将第一实体名称的串元素与第二实体名称的串元素进行比较可以包括比较如下串元素,这些串元素不是已经修改到中实体名称中的类别描述符。例如,参照图4,修改的第一实体名称“Stinky?Pete”<饭店.酒吧><空>包括第一非类别描述符串:“Stinky?Pete”。另外,修改的第二实体名称“Stnky?Pete”<饭店.酒吧><空>包括第一非类别描述符串:“Stnky?Pete”。在这个实施例中,例如可以比较这些串元素“Stinky?Pete”和“Stnky?Pete”以确定匹配。

    在一个实施例中,比较串元素可以包括确定在第一实体名称的串元素和第二实体名称的串元素中的相应字符之间的原始字符距离。另外,在这个实施例中,如果原始字符距离满足期望的阈值,则可以指示在第一实体名称的串元素与第二实体名称的串元素之间的匹配。例如在第一分解418A和第二分解418B中发现的串“Stinky?Pete”在与第一分解420A中发现的串“Stnky?Pete”进行比较时可能满足原始字符距离期望阈值。另外,作为示例,在来自第三分解418C、第四分解418D和第五分解418E的其余修改的第一实体名称中发现的串在与第一分解420A中发现的串“Stnky?Pete”进行比较时可能不满足原始字符距离期望阈值。

    回到图3,在314处,如果确定用于第一和第二实体名称的非类别串匹配(例如满足字符距离的期望阈值),则在316处确定第一和第二实体名称为匹配,并且可以例如在目录中将它们链接或者合并在一起。然而如果确定用于第一和第二实体名称的非类别串不匹配,则在308放弃比较,并且例如如果存在则执行下一比较。

    在一个方面中,可以为修改的第一实体名称和修改的第二实体名称的类别描述符之间的匹配提供“通配符”<无类别>类别描述符。也就是说,例如,参照图4和图5,用于第一实体名称402的第五分解418E的“通配符”<无类别>408可以匹配用于第二实体名称404的第一分解420A的类别描述符<饭店.酒吧>和第二分解的420B的<无类别>414。另外,在示例500中,用于第一实体名称502的第二分解518B的“通配符”<无类别>508可以匹配用于第二实体名称504的第一分解520A的类别描述符<服务.拖车>和第二分解520B的<无类别>514。

    即使可以在两个修改的实体名称之间针对类别描述符指示匹配(例如在图3的306为“是”),则仍然在第一与第二修改的实体名称之间比较相应非类别串(例如在图3的312处)。如果非类别串未包括匹配(例如未满足期望阈值),则放弃比较(例如在图3的308)。例如,如在示例500中所示,可以将用于第一实体名称502的第二分解518B的非类别串506与用于第二实体名称504的第一分解520A的非类别串512进行比较,并且原始字符得分可能不满足期望阈值(例如未匹配)。

    在一个方面中,当使用“通配符”<无类别>类别描述符时,可能有即使用于实体类型的类别可能不正常提供匹配而非类别串仍然在第一与第二实体名称之间提供匹配这样的非预计情况。例如,如在图5B的示例实施例550中所示,可以将第一实体名称552“Starbucks”与第二实体名称554“Starbucks拖车”进行比较。在这一示例550中,用于第一实体名称552的第一分解568A包括非类别串556“Starbuck”和通配符<无类别>类别描述符558。

    另外,用于第二实体名称554的第一分解570A包括非类别串562“Starbucks”和<服务.拖车>类别描述符564。由于“通配符”558可以提供与<服务.拖车>类别描述符564的类别匹配,所以比较相应非类别串。这里,用于第一实体名称的非类别串“Starbucks”556匹配用于第二实体名称的非类别串“Starbucks”562,第一和第二实体名称可以视为匹配并且可以例如被合并。然而如果第一实体名称链接到公知咖啡屋,则它可能不应与连接到拖车服务的第二实体名称相链接或者合并。

    在这一方面中,在一个实施例中,可以通过向实体名称添加实体类别描述符来将实体类别描述符修改到实体名称,其中实体类别描述符对应于知识库中的实体名称。例如,如在图5B的550中所示,针对公知或者确立的实体名称(例如,商标名称),知识库可以用来标识用于实体的实体类别描述符。在550的第二分解568B中,针对第一实体名称“Starbucks”552识别类别信号558“咖啡”,并且可以向实体名称添加知识库中的对应类别描述符558。

    以这一方式,在这一示例中,第二分解568B的类别描述符可能不匹配第一分解570A的类别描述符564;并且第二分解568B的非类别串556可能不匹配用于第二实体名称504的第二分解570B的非类别串562。因此,在这一示例中,通过向实体名称添加类别描述符(其中仅使用没有类别信号的常用名称),可以减轻实体的非预计合并或者链接。

    也就是说,作为说明性示例,每当识别(例如在可识别和/或商标名称的知识库中匹配)公知公认的实体名称(比如用于咖啡的Starbucks或者用于消声器服务的Midas)时,可以向实体名称添加对应类别描述符、由此减轻将公知名称与来自不同类别的相似实体混淆的可能性。因此在这个说明性示例中,例如“,Starbucks”可以自动变成“Starbucks”.<饭店.咖啡>和/或“Midas”可以自动变成“Midas”.<服务.汽车.消声器>。

    此外,在这一方面中,当使用“通配符”<无类别>类别描述符时,可能有即使用于实体类型的类别可能不正常提供匹配而非类别串仍然提供在第一与第二实体名称之间的匹配这样的其它非预计情况。例如当利用<无类别>“通配符”时,潜在实体名称“洛杉矶警察局”可以包括与“洛杉矶”的匹配。在这个示例中,“洛杉矶”.<警察局>可以匹配“洛杉矶”.<无类别>,这可能不是所希望的。因此,在一个实施例中,可以防止一些类别与<无类别>类别描述符匹配。例如可以防止市政服务(比如<警察局>)匹配<无类别>类别描述符。当然,这并不限于市政服务,因为该技术也可适用于其它方式。

    可以设想一种提供标识用于相同实体的多个名称的系统,因而多个名称可以例如链接在一起或者合并到单个名称。图6是用于匹配实体名称的示例系统600的部件图。存储器部件602存储包括实体类别描述符650和相关联类别信号652的知识库。也就是说,例如可以查询存储器部件602中的知识库以标识与已知类别信号652关联的未知类别描述符654。作为例子,知识库可以包括数据库、比如二维SQL数据库或者多维数据库。

    名称修改部件604可与存储器部件602操作耦合以利用来自知识库的实体类别描述符654来修改实体名称656以产生修改的实体名称658。类别匹配部件606可与名称修改部件604操作耦合以通过将第一修改的实体名称658中的第一实体类别描述符与第二修改的实体名称658中的第二实体类别描述符进行比较来确定第一实体名称是否匹配第二实体名称。在一个实施例中,类别匹配部件606可以标识匹配实体名称660,以便例如提供将两个名称合并或者链接到相同实体。

    图7是图示了这里描述的一个或者多个系统的一个示例实施例700的部件图。串匹配部件714可以通过比较第一实体名称的串元素与第二实体名称的串元素来确定第一实体名称是否匹配第二实体名称。在一个实施例中,如果类别匹配部件606标识来自修改的实体名称760的匹配762并且标识匹配的实体名称764,则串匹配部件714执行串匹配。

    名称修改部件604可以包括将实体名称758分解成一个或者多个潜在类别信号754的分解部件710。另外,名称修改部件604可以包括信号比较部件712,该部件相对于存储器部件602中的、包括已知类别信号754的知识库来比较相应类别信号754以标识用于类别信号754的对应类别描述符756。

    知识库可以包括多个实体类别描述符750,其中相应实体类别描述符750对应于一个或者多个类别信号752。也就是说,例如,知识库可以包括数据库类型,其中类别描述符750与一个或者多个类别信号752相链接/关联。

    在一个实施例中,类别信号754、752可以包括已知与对应实体类别描述符750、756相关联的企业名称。也就是说,例如企业名称可以公知为与特定品牌或者企业类型(例如注册商标的实体)相关联。在这个实施例中,类别信号可以包括企业名称(例如Starbucks、Midas、Cabela),以便与名称相关联的已知企业类型(例如咖啡、消声器、旅行用品商)可以例如是与知识库中的名称相链接/关联的类别描述符。以这一方式,在这个示例中,当相对于知识库中的类别信号752比较企业名称时,诸如通过名称修改部件604可以标识相关联的类别描述符750。

    另一实施例涉及包括被配置为实现这里给出的一种或多种技术的处理器可执行指令的计算机可读介质。图8中说明了可按这些方式设计的示例计算机可读介质,其中实现800包括计算机可读介质808(例如,CD-R、DVD-R或硬盘驱动器的盘片),其上编码了计算机可读数据806。计算机可读数据806又包括被配置为根据这里阐述的一项或多项原则进行操作的计算机指令集804。例如,在一个这样的实施例802中,处理器可执行的计算机指令804可被配置为执行方法,诸如图1的示例方法100。例如,在另一个这样的实施例中,处理器可执行指令812可被配置为实现诸如图6的示例系统600之类的系统。本领域普通技术人员可设计出被配置为根据这里给出的技术进行操作的许多这样的计算机可读介质。

    虽然利用了特定于结构特征和/或方法动作的语言描述了主题,但应理解,所附权利要求中限定的主题不必限于上述特定特征或动作。相反,公开了上述具体特征和动作来作为实现权利要求的示例形式。

    如本申请中所使用的,术语“部件”、“??椤?、“系统”、“接口”等通常意图表示计算机相关的实体,如硬件、硬件和软件的组合、软件或者执行中的软件。例如,部件可以是但不限于处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过示例的方式,控制器上运行的应用和控制器均可以是部件。一个或多个部件可驻留在执行的进程和/或线程中,并且部件可位于一个计算机上和/或分布在两个或更多个计算机之间。

    另外,可使用标准编程和/或工程技术来将所要求?;さ闹魈馐迪治椒?、装置,或制品,来生产软件、固件、硬件或它们的任何组合以控制计算机实现所公开的主题。这里所使用的术语“制品”意图包括可从任何计算机可读设备、载体或介质存取的计算机程序。当然,本领域技术人员将意识到可对该配置进行许多修改而不脱离所要求?;ぶ魈獾姆段Щ蚓?。

    图9和以下讨论提供了实现这里阐述的一个或多个规定的实施例的适合计算环境的简要概述。图9的操作环境仅是适合的操作环境的一个例子,而不意图暗示对于操作环境的使用或功能范围的任何限制。示例计算设备包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA),媒体播放器等),多处理器系统、消费者电子产品、迷你计算机、大型计算机,包括任何上述系统或设备的分布式计算环境等。

    尽管未要求,以由一个或多个计算设备执行的“计算机可读指令”的一般语境描述了实施例。计算机可读指令可经由计算机可读介质(以下讨论)分发。计算机可读指令可被实现为程序???,诸如函数、对象、应用程序接口(API)、数据结构等,其执行特定任务或实现特定的抽象数据类型。典型地,计算机可读指令的功能性可根据需要在各种环境中组合或分布。

    图9说明了系统910的例子,其包括被配置为实现这里提供的一个或多个实施例的计算设备912。在一个配置中,计算设备912包括至少一个处理单元916和存储器918。根据计算设备的具体配置和类型,存储器918可为易失性(例如,如RAM),非易失性(例如,如ROM、闪速存储器等)或两者的一些组合。图9中用虚线914说明此配置。

    在另一个实施例中,设备912可包括附加特征和/或功能。例如,设备912也可包括附加存储设备(例如,可移除和/或不可移除),该存储设备包括但不限于磁存储设备、光学存储设备等。在图9中由存储设备920说明了这样的附加存储设备。在一个实施例中,用来实现这里提供的一个或多个实施例的计算机可读指令可在存储设备920中。存储设备920也可存储用来实现操作系统、应用程序等的其他计算机可读指令。例如,计算机可读指令可被加载到存储器918中以由处理单元916执行。

    这里使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器918和存储设备920是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪速存储器或其他存储技术、CD-ROM、数字多用盘(DVD)或其他光学存储设备、磁卡带、磁带、磁盘存储设备或其他磁存储设备,或可用作存储需要的信息并且可通过设备912访问的任何其他介质。任何这样的计算机存储介质可以是设备912的一部分。

    设备912还可包括允许设备912与其他设备进行通信的通信连接(多个)926。通信连接(多个)926可包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射机/接收机、红外端口、USB连接或用于将计算设备912连接至其他计算设备的其他接口。通信连接(多个)926可包括有线连接或无线连接。通信连接(多个)926可发射和/或接收通信介质。

    术语“计算机可读介质”可包括通信介质。典型地,通信介质包括“调制数据信号”(诸如载波或其他传输机制)中的计算机可读指令或其他数据,并包括任何信息递送介质。术语“调制数据信号”可包括以在该信号中编码信息这样的方式设置或改变其一个或多个特性的信号。

    设备912可包括诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备的输入设备(多个)924。设备912也可包括诸如一个或多个显示器、扬声器、打印机和/或任何其他输出设备的输出设备(多个)922。输入设备(多个)924和输出设备(多个)922可经由有线连接、无线连接或其任何组合与设备912连接。在一个实施例中,来自另一计算设备的输入设备或输出设备可被用作计算设备912的输入设备(多个)924或输出设备(多个)922。

    计算设备912中的部件可通过诸如总线之类的各种互连进行连接。这些互连可包括外设部件互连(PCI),如PCI高速、通用串行总线(USB)、火线(IEEE?1394)、光学总线结构等。在另一个实施例中,计算设备912的部件可通过网络互连。例如,存储器918可包括位于通过网络互连的不同物理位置上的多个物理存储器单元。

    本领域技术人员将意识到,用来存储计算机可读指令的存储设备可在网络上分发。例如,可经由网络928访问的计算设备930可存储计算机可读指令以实现这里提供的一个或多个实施例。计算设备912可访问计算设备930,并下载计算机可读指令的一部分或全部用以执行??商婊坏?,计算设备912可根据需要下载计算机可读指令的片段,或者一些指令可在计算设备912处执行且一些在计算设备930处执行。

    这里提供了实施例的各种操作。在一个实施例中,所述操作中的一个或多个可构成在一个或多个计算机可读介质上存储的计算机可读指令,如果该计算机可读指令由计算设备执行,则将使得计算设备执行所述操作。操作中的一些或全部被描述的次序不应被理解为暗示这些操作必须依赖于该顺序。本领域技术人员在获取了本说明的益处后将意识到其他顺序。另外,将理解,并不是所有的操作都必须在这里提供的每个实施例中存在。

    此外,词语“示例”在这里用来表示充当例子、实例或说明。这里描述为“示例”的任何方面或设计不必被理解为优于其他方面或设计。相反,词语示例的使用意图给出抽象形式的概念。如在本申请中所使用的,术语“或”意图表示包括性的“或”而非排他性的“或”。也就是说,除非特别指出或从上下文清楚理解,“X采用A或B”意图表示任何自然的包括性枚举。即,如果X采用A;X采用B;或X采用A和B两者,则在任何前述实例下均满足“X采用A或B”。此外,本申请和所附权利要求中所使用的不定冠词“一”或“一个”可通常被理解为“一个或多个”,除非特别指出或从上下文清楚理解为针对单数形式。

    而且,尽管已经参照一个或多个实现方式示出和描述了本公开,但是基于对本说明书和附图的阅读和理解,本领域技术人员将得到等同的替代或修改。本公开包括所有这样的修改和替代,且仅仅受限于以下权利要求的范围。尤其对于由上述部件(例如,单元、资源等)执行的各种功能,用来表述这样的部件的术语意图对应于(除非另外指出)执行所述部件的特定功能的任何部件(例如,是功能等同的),即使在结构上不等同于执行这里说明的本公开示例实现方式的功能的所公开的结构。此外,尽管可参考几个实现方式中的仅仅一个公开了本公开的具体特征,但是这样的特征可与其他实现方式的一个或多个其他特征进行组合,这可能是期望的并且对于任何给定的或具体的应用而言是有利的。另外,在具体实施方式或权利要求中使用术语“包括”、“具有”、“有”、“带有”或其变形的情况下,这样的术语意图为类似于术语“包含”的方式的包括性。

    关于本文
    本文标题:实体名称匹配.pdf
    链接地址://www.4mum.com.cn/p-5817460.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 极速飞艇开奖网 金贝棋牌 博远棋牌注册 西安福彩中心 红中彩票 重庆老时时彩开奖结果表 合买中大奖的事情 北京快中彩开奖记录 金沙棋牌官方版下载 双色球杀红号投注技巧 云南11选5前三直走势 黑马股票推荐11月 贵州十一选五开 买新11选5的技巧 四川体育彩票 大乐透走势图带连线图表