• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 11
    • 下载费用:30 金币  

    重庆时时彩个计划软件哪个好: 字符串匹配系统及方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201410011078.3

    申请日:

    2014.01.10

    公开号:

    CN104778171A

    公开日:

    2015.07.15

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20140110|||专利申请权的转移IPC(主分类):G06F 17/30登记生效日:20160302变更事项:申请人变更前权利人:携程计算机技术(上海)有限公司变更后权利人:上海携程商务有限公司变更事项:地址变更前权利人:200335 上海市长宁区福泉路99号携程网络技术大楼变更后权利人:200335 上海市长宁区金钟路968号16号楼10楼|||公开
    IPC分类号: G06F17/30; G06F17/27 主分类号: G06F17/30
    申请人: 携程计算机技术(上海)有限公司
    发明人: 叶亚明; 王威振
    地址: 200335上海市长宁区福泉路99号携程网络技术大楼
    优先权:
    专利代理机构: 上海弼兴律师事务所31283 代理人: 薛琦; 王婧荷
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410011078.3

    授权公告号:

    ||||||

    法律状态公告日:

    2016.12.14|||2016.03.23|||2015.07.15

    法律状态类型:

    实质审查的生效|||专利申请权、专利权的转移|||公开

    摘要

    本发明提供一种字符串匹配系统及方法,字符串匹配系统存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,字符串匹配系统包括输入???、分词???、标注???、比较???、计算??楹褪涑瞿??;输入??橛糜诮邮樟礁鲎址氖淙?;分词??橛糜诮礁鲎址执饰首?;标注??橛糜诒曜⒚恳淮首槎杂Φ墓丶然蚍枪丶?;比较??橛糜诒冉狭礁鲎址械拇首?,若任一关键维度上的两个词组不相同则调用输出??槭涑鲆蛔址黄ヅ湫畔?,否则调用计算??橛糜谕ü郊扑懔礁鲎址涞钠ヅ涠?,并调用输出??槭涑銎ヅ涠?。本发明能够快速灵活、准确的计算出字符串之间的匹配度。

    权利要求书

    权利要求书
    1.  一种字符串匹配系统,其特征在于,其存储有若干关键维度和若干 非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串匹配系 统包括一输入???、一分词???、一标注???、一比较???、一计算??楹?一输出???;
    该输入??橛糜诮邮樟礁鲎址氖淙?;
    该分词??橛糜诮昧礁鲎址执饰首?;
    该标注??橛糜诒曜⒚恳淮首槎杂Φ墓丶然蚍枪丶?;
    该比较??橛糜诒冉细昧礁鲎址械拇首?,若任一关键维度上的两个 词组不相同则调用该输出??槭涑鲆蛔址黄ヅ湫畔?,否则调用该计算模 块;
    该计算??橛糜谕ü郊扑愀昧礁鲎址涞钠ヅ涠?, 并调用该输出??槭涑龈闷ヅ涠?;其中n表示该两个字符串中词组相同的个 数,ai为该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两 个字符串中每一词组对应的权重值的累加和。

    2.  如权利要求1所述的字符串匹配系统,其特征在于,该字符串匹配 系统还包括一处理???,该处理??橛糜谌コ昧礁鲎址械耐V勾?、纠 正该两个字符串中的错别字以及将该两个字符串中的拼音更换为汉字。

    3.  如权利要求1所述的字符串匹配系统,其特征在于,该字符串匹配 系统存储一包含多个词语的词库,该分词??榘ㄒ换帜?楹鸵黄ヅ淠?块;
    该划分??橛糜诙愿昧礁鲎址谢?;
    该匹配??橛糜诮殖龅拇视镉敫么士庵械乃写视锝衅ヅ?,若匹 配成功则将该划分出的词语作为该词组。

    4.  如权利要求1-3中任意一项所述的字符串匹配系统,其特征在于, 该些关键维度和非关键维度按照领域自定义设置。

    5.  一种字符串匹配方法,其特征在于,其存储有若干关键维度和若干 非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串匹配方 法包括以下步骤:
    S1、接收两个字符串的输入;
    S2、将该两个字符串分词为词组;
    S3、标注每一词组对应的关键维度或非关键维度;
    S4、比较该两个字符串中的词组,若任一关键维度上的两个词组不相同 则进入步骤S5,否则进入步骤S6;
    S5、输出一字符串不匹配信息,结束流程;
    S6、通过公式计算该两个字符串之间的匹配度,并输出该匹 配度,结束流程;其中n表示该两个字符串中词组相同的个数,ai为该两个 字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一 词组对应的权重值的累加和。

    6.  如权利要求5所述的字符串匹配方法,其特征在于,步骤S1和步骤 S2之间包括以下步骤:
    去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该 两个字符串中的拼音更换为汉字。

    7.  如权利要求5所述的字符串匹配方法,其特征在于,该字符串匹配 方法存储一包含多个词语的词库,步骤S2包括以下步骤:
    S21、对该两个字符串进行划分;
    S22、将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将 该划分出的词语作为该词组。

    8.  如权利要求5-7中任意一项所述的字符串匹配方法,其特征在于, 该些关键维度和非关键维度按照领域自定义设置。

    说明书

    说明书字符串匹配系统及方法
    技术领域
    本发明涉及一种字符串匹配系统及字符串匹配方法。
    背景技术
    由于自然语言灵活多变的特性和命名风格的不同,对于同一个事物会有 不同的描述方式,在计算机看来,就是两个不同的字符串。如何快速的判断 出两个字符串描述的是否是同一个事物,也就成为了一个具有现实意义的技 术问题。
    现有的字符串关联度计算方法要么比较机械的计算字符串之间的联系, 要么陷入语义分析的繁杂的计算中,无法快速灵活、准确的计算出字符串之 间的相似度。
    发明内容
    本发明要解决的技术问题是为了克服现有技术中无法快速灵活、准确的 计算出字符串之间的相似度的缺陷,提供一种能够快速灵活、准确的计算出 字符串之间的相似度的字符串匹配系统及方法。
    本发明是通过下述技术方案来解决上述技术问题的:
    本发明提供一种字符串匹配系统,其特点在于,其存储有若干关键维度 和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该字符串 匹配系统包括一输入???、一分词???、一标注???、一比较???、一计算 ??楹鸵皇涑瞿??;
    该输入??橛糜诮邮樟礁鲎址氖淙?;
    该分词??橛糜诮昧礁鲎址执饰首?;
    该标注??橛糜诒曜⒚恳淮首槎杂Φ墓丶然蚍枪丶?;
    该比较??橛糜诒冉细昧礁鲎址械拇首?,若任一关键维度上的两个 词组不相同则调用该输出??槭涑鲆蛔址黄ヅ湫畔?,否则(具体指任一 关键维度上的两个词组均相同或所有匹配上的关键维度上的两个词组相同 但某一字符串缺少某一或某些关键维度上的词组)调用该计算???,其中, “两个词组相同”指的是两个词组所表达的意思相同,而并不局限于两个词 组所包含的所有字符严格一致;同样地,“两个词组不相同”指的是两个词 组所表达的意思不相同;
    该计算??橛糜谕ü郊扑愀昧礁鲎址涞钠ヅ涠?, 并调用该输出??槭涑龈闷ヅ涠?;其中P表示该两个字符串之间的匹配度, n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的 词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累 加之和。
    较佳地,该字符串匹配系统还包括一处理???,该处理??橛糜谌コ?两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串 中的拼音更换为汉字。
    较佳地,该字符串匹配系统存储一包含多个词语的词库,该分词??榘?括一划分??楹鸵黄ヅ淠??;
    该划分??橛糜诙愿昧礁鲎址谢?;
    该匹配??橛糜诮殖龅拇视镉敫么士庵械乃写视锝衅ヅ?,若匹 配成功则将该划分出的词语作为该词组。
    较佳地,该些关键维度和非关键维度按照领域自定义设置。
    本发明还提供一种字符串匹配方法,其特点在于,其存储有若干关键维 度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该字符 串匹配方法包括以下步骤:
    S1、接收两个字符串的输入;
    S2、将该两个字符串分词为词组;
    S3、标注每一词组对应的关键维度或非关键维度;
    S4、比较该两个字符串中的词组,若任一关键维度上的两个词组不相同 则进入步骤S5,否则进入步骤S6;
    S5、输出一字符串不匹配信息,结束流程;
    S6、通过公式计算该两个字符串之间的匹配度,并输出该匹 配度,结束流程;其中n表示该两个字符串中词组相同的个数,ai为该两个 字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一 词组对应的权重值的累加和。
    较佳地,步骤S1和步骤S2之间包括以下步骤:
    去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该 两个字符串中的拼音更换为汉字。
    较佳地,该字符串匹配方法存储一包含多个词语的词库,步骤S2包括以 下步骤:
    S21、对该两个字符串进行划分;
    S22、将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将 该划分出的词语作为该词组。
    较佳地,该些关键维度和非关键维度按照领域自定义设置。
    在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发 明各较佳实例。
    本发明的积极进步效果在于:
    本发明提供一种字符串匹配系统及方法,通过对划分出的每一词组进行 标注,通过比较关键维度上的词组,并采用“不同否定”优先方式在任一关 键维度上的两个词组不相同时输出字符串不匹配信息,否则具体计算出两个 字符串之间的匹配度。本发明能够快速灵活、准确的计算出两个字符串之间 的匹配度。
    附图说明
    图1为本发明较佳实施例的字符串匹配系统的结构框图。
    图2为本发明较佳实施例的字符串匹配方法的流程图。
    具体实施方式
    下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在 所述的实施例范围之中。
    如图1所示,本实施例提供一种字符串匹配系统,其存储有若干关键维 度和若干非关键维度,该些关键维度和非关键维度可按照领域自定义设置, 每一关键维度和非关键维度均对应有权重值,该字符串匹配系统包括一输入 ???、一处理???、一分词???、一标注???、一比较???、一计 算???和一输出???。
    上述介绍了该字符串匹配系统包括的部件,下面具体介绍每一部件实现 的功能:
    该输入???用于接收两个字符串的输入;
    该处理???用于去除该两个字符串中的停止词、纠正该两个字符串中 的错别字以及将该两个字符串中的拼音更换为汉字;
    该分词???用于将该两个字符串分词为词组;
    该标注???用于标注每一词组对应的关键维度或非关键维度;
    该比较???用于比较该两个字符串中的词组,若任一关键维度上的两 个词组不相同则调用该输出???输出一字符串不匹配信息,否则调用该计 算???;
    该计算???用于通过公式计算该两个字符串之间的匹配 度,并调用该输出???输出该匹配度;其中P表示两个字符串之间的匹配 度,n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相 同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值 的累加和。
    其中,进一步地该分词???包括一划分???1和一匹配???2,该 字符串匹配系统存储一包含多个词语的词库,该划分???1用于对该两个 字符串进行划分,该匹配???2用于将划分出的词语与该词库中的所有词 语进行匹配,若匹配成功则将该划分出的词语作为该词组。
    如图2所示,本实施例还提供了一种字符串匹配方法,其存储有若干关 键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,该 字符串匹配方法包括以下步骤:
    步骤101、接收两个字符串的输入;
    步骤102、去除该两个字符串中的停止词、纠正该两个字符串中的错别 字以及将该两个字符串中的拼音更换为汉字;
    步骤103、将该两个字符串分词为词组,进一步地,该步骤包括下面两 个步骤:对该两个字符串进行划分;将划分出的词语与该词库中的所有词语 进行匹配,若匹配成功则将该划分出的词语作为该词组;
    步骤104、标注每一词组对应的关键维度或非关键维度;
    步骤105、比较该两个字符串中的词组,若任一关键维度上的两个词组 不相同则进入步骤106,否则进入步骤107;
    步骤106、输出一字符串不匹配信息,结束流程;
    步骤107、通过公式计算该两个字符串之间的匹配度,并输 出该匹配度,结束流程;其中n表示该两个字符串中词组相同的个数,ai为 该两个字符串中第i个相同的词组对应的权重值的两倍,B为该两个字符串 中每一词组对应的权重值的累加和。
    下面举一具体的例子即以输入的两个酒店名称之间的匹配度来进行说 明字符串匹配系统及方法,以使得本领域技术人员更好地理解本发明,但本 发明并不局限于只能应用于计算酒店名称之间的匹配度,本发明可应用于计 算各领域中两个字符串之间的匹配度。
    不同的领域、不同的应用场景所设定的维度不同,其中抽取的关键维度 也不同。在本例中,对于酒店领域来说,其可能有的维度有“城市”、“酒店 品牌”、“子品牌”、“酒店名称描述词”、“区域”以及“无意义词”等,其中 的关键维度为“城市”、“酒店品牌”、“子品牌”和“区域”,非关键维度为 “酒店名称描述词”和“无意义词”。在关键维度中,“城市”对应的权重值 为5,“区域”对应的权重值为5,“酒店品牌”对应的权重值为10,“子品牌” 对应的权重值为8。在非关键维度中,“酒店名称描述词”对应的权重值为1, “无意义词”对应的权重值为0。
    词库包括通用词库和专用词库,通用词库是不区分行业的最广泛、最普 通的词库,为业界通用,包含如行政区域词库、自然语言词库等;专用词库 是按照特定行业组织的一系列较小但是更加专业的词库,其数据量远不如通 用词库,但是在特定领域上比通用词库具有更高的权威性,其采纳概率更高。 在本例的酒店领域中,其采用的是专用词库,通过对专用词库的检索,按照 标准的分词算法,可以得到一系列具有语义标签的词组成的集合。
    该输入???接收两个字符串的输入,第一个字符串为“上海徐家汇的 ru家快捷酒店”,第二个字符串为“宜必思徐家汇店中国”。该处理???进 行常规的处理,去除第一个字符串中的“的”,将第一个字符串中的拼音“ru” 更换为汉字“如”。
    该划分???1对这两个字符串进行划分,即将第一个字符串划分为“上 ?!?、“徐家汇”、“如家”和“快捷酒店”,将第二个字符串划分为“宜必思”、 “徐家汇”和“中国”,该匹配???2将划分出的词语“上?!?、“徐家汇”、 “如家”、“快捷酒店”“宜必思”和“中国”与上述专用词库中的所有词语 进行匹配,匹配成功后则将该划分出的词语“上?!?、“徐家汇”、“如家”、 “快捷酒店”“宜必思”和“中国”作为词组。
    该标注???标注每一个词组对应的关键维度或非关键维度,即标注第 一个字符串中的词组对应的关键维度或非关键维度“上海(城市)”、“徐家 汇(区域)”、“如家(酒店品牌)”和“快捷酒店(酒店名称描述词)”,第二 个字符串中的词组对应的关键维度或非关键维度“宜必思(酒店品牌)”、“徐 家汇(区域)”和“中国(无意义词)”。
    该比较???比较该两个字符串中的词组,关键维度“区域”上的第一 个字符串中的词组“徐家汇”与第二个字符串中的词组“徐家汇”相同,关 键维度“酒店品牌”上的第一个字符串中的词组“如家”与第二个字符串中 的词组“宜必思”相同(这里的“相同”指的是在酒店领域的品牌方面商业 品牌相同,即商业品牌“如家”和“宜必思”为同一个商业品牌),第一个 字符串中存在关键维度“城市”上的词组而第二个字符串中缺少关键维度“城 市”上的词组,则不进行比较关键维度“城市”上的词组,通过上述比较过 程,要么是所有匹配上的关键维度上的两个词组相同要么是第二字符串缺少 关键维度“城市”上的词组,进而计算???计算该两个字符串之间的匹配 度。
    计算???通过公式计算该两个字符串之间的匹配度的具 体过程为:
    该两个字符串中词组相同的个数为2个,a1为第一个字符串中的词组 “徐家汇”对应的权重值5与第二个字符串中的词组“徐家汇”对应的权重 值5之和10,a2为第一个字符串中的词组“如家”对应的权重值10与第二 个字符串中的词组“宜必思”对应的权重值10之和20;B为该两个字符串 中每一词组对应的权重值的累加和,即第一个字符串中的词组“上?!倍杂?的权重值5加上第一个字符串中的词组“徐家汇”对应的权重值5加上第一 个字符串中的词组“如家”对应的权重值10加上第一个字符串中的词组“快 捷酒店”对应的权重值1加上第二个字符串中的词组“宜必思”对应的权重 值10加上第二个字符串中的词组“徐家汇”对应的权重值5加上第二个字 符串中的词组“中国”对应的权重值0。
    则该两个字符串之间的匹配度P=(10+20)/(5+5+10+1+10+5+0) =83.33%,并调用该输出???输出该匹配度83.33%。
    该字符串匹配系统每次的匹配结果均被记录下来进行人工审核,人工审 核该字符串匹配系统的匹配结果是否正确,并将审核结果反馈给该字符串匹 配系统,该字符串匹配系统对反馈的审核结果进行匹配错误个数和类型统 计,并将统计结果显示出来。大多数情况下是由于词库中没有一些特殊的词 组,使得分词出的词组不正确,进而导致匹配结果也不正确。所以,审核人 员可以人工地对词库进行补充及完善,进一步增加该字符串匹配系统的匹配 结果的准确度,而且如果同一种类型的错误量累计到一定的阈值,或者认为 输出的匹配度不合理,则审核人员可以人工地调节权重分配,比如对某一关 键维度或非关键维度进行权重的调节。
    对于本实施例的酒店名称的匹配,通过人工对大量实际用例的验证,可 以看到该字符串匹配系统在初始情况下的字符串匹配结果的准确率大约有 92%,经过一段时间的人工审核与调节之后,该字符串匹配系统的字符串匹 配结果的准确率提高到97%左右,而利用普通比较算法(如最短编辑距离算 法为核心的文本串比较算法)获得的准确率75%左右,从上述可看出,本发 明的匹配结果的准确率远远高于普通比较算法的准确率。
    同样,将该字符串匹配系统应用至房型名称的匹配,虽然房型名称的字 符串长度较短,匹配难度较大,但通过人工对大量实际用例的验证,可以看 到该字符串匹配系统在初始情况下的字符串匹配结果的准确率大约有 88.3%,经过一段时间的人工审核与调节之后,该字符串匹配系统的字符串 匹配结果的准确率提高到94.4%左右,而利用普通比较算法(如最短编辑距 离算法为核心的文本串比较算法)获得的准确率70%左右,从上述同样可看 出,本发明的匹配结果的准确率远远高于普通比较算法的准确率。
    本实施例通过对划分出的每一词组进行标注,通过比较关键维度上的词 组,并采用“不同否定”优先方式在任一关键维度上的两个词组不相同时输 出字符串不匹配信息,否则具体计算出两个字符串之间的匹配度。本发明能 够快速灵活、准确的计算出两个字符串之间的匹配度。
    本发明中的各个功能??榫芄辉谙钟械挠布跫陆岷舷钟械娜砑?编程手段加以实现,故在此对其具体实现方法均不做赘述。
    虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理 解,这些仅是举例说明,本发明的?;し段怯伤饺ɡ笫橄薅ǖ?。本 领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方 式做出多种变更或修改,但这些变更和修改均落入本发明的?;し段?。

    关 键 词:
    字符串 匹配 系统 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:字符串匹配系统及方法.pdf
    链接地址://www.4mum.com.cn/p-5894649.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03