• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 14
    • 下载费用:20 金币  

    重庆时时彩一星攻略: 一种基于地址特征词的多层次快速中文地址匹配方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201410134887.3

    申请日:

    2014.04.03

    公开号:

    CN103914544A

    公开日:

    2014.07.09

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情: 发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20140709|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140403|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 浙江大学
    发明人: 杜震洪; 张丰; 刘仁义; 徐聪; 张逸然; 郑晔
    地址: 310027 浙江省杭州市浙大路38号
    优先权:
    专利代理机构: 杭州求是专利事务所有限公司 33200 代理人: 张法高
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410134887.3

    授权公告号:

    ||||||

    法律状态公告日:

    2017.11.14|||2014.08.06|||2014.07.09

    法律状态类型:

    发明专利申请公布后的视为撤回|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于地址特征词的多层次快速中文地址匹配方法,属于地理信息科学的数据空间化研究领域。本发明所述方法具体包括标准中文地址匹配词典构建和地址匹配两个环节,以地址特征词为分词依据对标准中文地址进行中文分词,并采用双数组trie树和哈希运算完成标准中文地址匹配词典的构建,采用双向扫描及哈希运算代替数据库检索的方式,获取待匹配中文地址的地理空间坐标,完成地址匹配。本发明的优点在于能够在计算机内存中完成整个地址匹配过程,并采用双向扫描和边分词边匹配的方式,提高了地址匹配的匹配速率。同时,根据中文地址的分类、分层及组合规则,解决了部分中文地址由于地址要素缺失无法完成地址匹配的问题,提高了地址匹配的准确度。

    权利要求书

    权利要求书
    1.  一种基于地址特征词的多层次快速中文地址匹配方法,其特征在于包括如下步骤:
    1)从标准中文地址数据库中读入所有标准中文地址的记录,包括每一个标准中文地址的地理空间坐标x值、y值;
    2)根据中文地址的分类规则,以地址特征词为分词依据对标准中文地址进行正向扫描中文分词,将中文分词所获得的5类地址要素插入到对应的5类双数组trie树中;
    3)从5类双数组trie树中获取标准中文地址所对应的地址编码元素集合,按照最小代价原则,以中文地址的分层和组合规则为依据对地址编码元素进行组合和排列,获取唯一表示该标准中文地址的4个地址编码,对这4个地址编码进行哈希运算,将该标准中文地址的地理空间坐标存储在哈希表中其哈希函数值对应的位置上,对所有标准中文地址依次进行步骤2)~步骤3)的操作,完成标准中文地址匹配词典构建;
    4)读取待匹配中文地址字符串,分别赋值S1和S2,同时进行正向扫描匹配和逆向扫描匹配;
    5)判断正向扫描匹配和逆向扫描匹配是否成功,若正向扫描匹配或逆向扫描匹配失败,返回步骤4);若正向扫描匹配和逆向扫描匹配成功,获取对应匹配结果的地址编码组合T1和T2;
    6)设地址编码T = T1 + T2,对T进行哈希运算,通过哈希函数值在哈希表中查找对应的地理空间坐标,若存在,获取对应地理空间坐标,地址匹配成功,若不存在,地址匹配失败,重复步骤4)~步骤6),完成所有待匹配中文地址的地址匹配。

    2.  根据权利要求1所述的一种基于地址特征词的多层次快速中文地址匹配方法,其特征在于所述的步骤2)为:
    (1)中文地址的分类规则是指一个指意明确的标准中文地址由行政区划名、街巷名、小区名、门楼址名和兴趣点名这5类地址要素组成,其中地址要素是指地址字符串中一个相对独立的部分,具有明确的地址意义;
    (2)正向扫描中文分词方法是一种从字符串序列起首位置开始,从左往右依次对字符串进行切分的方法;
    (3)双数组trie树由base数组和check数组组成,其中base数组每一个元素表示trie树的一个节点状态,数组值为状态转移的基值,check数组表示一个状态的前驱状态,数组值为校验值,当base数组和check数组的值均为0时,该状态空闲,5类双数组trie树分别存储每一个标准地址所包含的5类地址要素,5类双数组trie树具体为行政区划双数组trie树、街巷名双数组trie树、住宅小区双数组trie树、门楼址双数组trie树和POI双数组trie树;
    (4)双数组trie树的一次插入操作为在构建双数组trie树时进行一次状态的转移,当状态m转移到状态n时,必须满足以下2个条件:
    base[m] + c = n,
    check[n] = m,
    其中,m是当前状态的下标,n是转移状态的下标,c是输入字符的数值。

    3.  根据权利要求1所述的一种基于地址特征词的多层次快速中文地址匹配方法,其特征在于所述的步骤3)包括:
    (1)从5类双数组trie树中获取一个标准中文地址所对应的5类地址编码元素,并按照最小代价原则,以中文地址的分层和组合规则对地址编码元素进行组合和排列,获取唯一表示标准中文地址的4个地址编码,其中地址编码元素是指每一个地址要素中最后一个字符在双数组trie树中的数组下标值,地址编码是由地址编码元素组合和排列而成;
    (2)中文地址的分层规则是指按照中文地址5个地址要素的从属关系,可以将其分为三个层次,第一层次为行政区划名,包括省级、市级、县级、乡级、村级;第二层次为街巷名和小区名;第三层次为门楼址名和POI名;
    (3)中文地址的组合规则是指按照中文地址的分层规则,一个标准的中文地址可以有16种指意明确的待匹配中文地址与其相匹配,其中按照最小代价原则,包含3类地址要素的4种地址表达形式为:
    行政区划名/街巷名/门楼址
    ××省××市××区××街道××路××号;
    行政区划名/街巷名/兴趣点名
    ××省××市××区××街道××路××小学;
    行政区划名/小区名/门楼址
    ××省××市××区××街道××小区××号;
    行政区划名/小区名/兴趣点名
    ××省××市××区××街道××小区××广场。

    4.  根据权利要求1所述的一种基于地址特征词的多层次快速中文地址匹配方法,其特征在于所述的步骤4)包括:
    (1)正向扫描匹配首先以行政区划特征词为切分依据对S1进行正向扫描中文分词,若分词失败,正向扫描匹配失败,若分词成功,获取对应的行政区划地址编码元素,在行政区划双数组trie树中查询该地址编码元素的匹配分支,若查询成功,获取该匹配分支最后一个状态所对应的数组下标值T1,若查询失败,正向扫描匹配失败;
    (2)逆向扫描匹配首先进行第三层次地址要素扫描匹配,若第三层次地址要素扫描匹配成功,再进行第二层次地址要素扫描匹配,若第二层次地址要素扫描匹配成功,逆向扫描匹配成功,若第三层次地址要素扫描匹配或第二层次地址要素扫描匹配失败,逆向扫描匹配失败;
    (3)第三层次地址要素扫描匹配首先进行门楼址地址要素扫描匹配,若门楼址地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值,赋值T2,直接进入第二层次地址要素查询匹配环节,若门楼址地址要素扫描匹配失败,进行POI地址要素扫描匹配,若POI地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值,赋值T2,进入第二层次地址要素查询匹配环节,若POI地址要素扫描匹配失败,逆向扫描匹配失败;
    (4)门楼址地址要素扫描匹配首先以门楼址特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的门楼址地址编码元素,在门楼址双数组trie树查询该地址编码元素匹配分支;
    (5)POI地址要素扫描匹配首先以POI特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的POI地址编码元素,在POI双数组trie树查询该地址编码元素匹配分支;
    (6)第二层次地址要素扫描匹配首先进行小区名地址要素扫描匹配,若小区名地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值T3,使得T2 = T2 + T3,逆向扫描匹配成功,若小区名地址要素扫描匹配失败,进行街巷名地址要素扫描匹配,若街巷名地址要素扫描匹配成功,获取该匹配分支最后一个状态所对应的数组下标值T3,使得T2 = T2 + T3,逆向扫描匹配成功,若小区名地址要素扫描匹配失败,逆向扫描匹配失败;
    (7)小区名地址要素扫描匹配首先以小区名特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的小区名地址编码元素,在小区名双数组trie树查询该地址编码元素匹配分支;
    (8)街巷名地址要素扫描匹配首先以街巷名特征词为切分依据对S2进行逆向扫描中文分词,若分词成功,获取对应的街巷名地址编码元素,在街巷名双数组trie树查询该地址编码元素匹配分支;
    (9)逆向扫描中文分词方法是一种从右往左对以地址特征词为分词依据对字符串进行切分的方法。

    关 键 词:
    一种 基于 地址 特征 多层次 快速 中文 匹配 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种基于地址特征词的多层次快速中文地址匹配方法.pdf
    链接地址://www.4mum.com.cn/p-6115621.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03