• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩杀跨尾: 一种词典表的生成及其应用方法及装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201510173324.X

    申请日:

    2015.04.13

    公开号:

    CN104765831A

    公开日:

    2015.07.08

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20150413|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 天脉聚源(北京)传媒科技有限公司
    发明人: 杨乾磊
    地址: 100007北京市东城区安定门东大街28号雍和大厦E座808室
    优先权:
    专利代理机构: 北京尚伦律师事务所11477 代理人: 张亮
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510173324.X

    授权公告号:

    ||||||

    法律状态公告日:

    2018.06.19|||2015.08.05|||2015.07.08

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种词典表的生成方法及装置,以及一种词典表的应用方法及装置,用以实现节约资源存储空间、提高检索速度的目的。所述词典表的生成方法,包括:计算一个或多个词的哈希hash值;分配所述一个或多个词各自即将在词典表中的标识;将所述一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为所述词典表的数据项进行存储。

    权利要求书

    权利要求书
    1.  一种词典表的生成方法,其特征在于,包括:
    计算一个或多个词的哈希hash值;
    分配所述一个或多个词各自即将在词典表中的标识;
    将所述一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为所述词典表的数据项进行存储。

    2.  根据权利要求1所述的方法,其特征在于,还包括:
    当存在新词即将存储至所述词典表时,计算所述新词的hash值;
    查找所述词典表的数据项中是否已存在所述新词的hash值;
    若不存在,则分配所述新词即将在所述词典表中的标识,并将所述新词本身、其即将在所述词典表中的标识以及其对应的hash值作为所述词典表的数据项存储至所述词典表中。

    3.  根据权利要求2所述的方法,其特征在于,所述查找所述词典表的数据项中是否已存在所述新词的hash值之后,还包括:
    若存在,则确定所述词典表中已存在所述新词,从而对所述新词不再进行存储操作。

    4.  一种词典表的应用方法,其特征在于,包括:
    若当前需要对词进行存储时,向词典表发送查找该词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
    接收所述词典表根据该词的hash值查找到的该词的标识;
    存储该词的标识,以实现对该词的存储。

    5.  一种词典表的应用方法,其特征在于,包括:
    接收查找词典表中某词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
    根据该词的hash值查找该词的标识;
    返回该词的标识。

    6.  一种词典表的生成装置,其特征在于,包括:
    计算???,用于计算一个或多个词的哈希hash值;
    分配???,用于分配所述一个或多个词各自即将在词典表中的标识;
    存储???,用于将所述一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为所述词典表的数据项进行存储。

    7.  根据权利要求6所述的装置,其特征在于,还包括:
    查找???,用于当存在新词即将存储至所述词典表时,所述计算??榧扑闼鲂麓实膆ash值之后,查找所述词典表的数据项中是否已存在所述新词的hash值;
    所述分配???,还用于若所述查找??椴檎宜龃实浔淼氖菹钪胁淮嬖谒鲂麓实膆ash值,则分配所述新词即将在所述词典表中的标识;
    所述存储???,还用于将所述新词本身、其即将在所述词典表中的标识以及其对应的hash值作为所述词典表的数据项存储至所述词典表中。

    8.  根据权利要求7所述的装置,其特征在于,还包括:
    处理???,用于若所述查找??椴檎宜龃实浔淼氖菹钪写嬖谒鲂麓实膆ash值,则确定所述词典表中已存在所述新词,从而对所述新词不再进行存储操作。

    9.  一种词典表的应用装置,其特征在于,包括:
    请求发送???,用于若当前需要对词进行存储时,向词典表发送查找该词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
    标识接收???,用于接收所述词典表根据该词的hash值查找到的该词的标识;
    标识存储???,用于存储该词的标识,以实现对该词的存储。

    10.  一种词典表的应用装置,其特征在于,包括:
    请求接收???,用于接收查找词典表中某词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
    标识查找???,用于根据该词的hash值查找该词的标识;
    标识发送???,用于返回该词的标识。

    说明书

    说明书一种词典表的生成及其应用方法及装置
    技术领域
    本发明涉及数据处理技术领域,特别涉及一种词典表的生成方法及装置,以及一种词典表的应用方法及装置。
    背景技术
    随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。
    人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
    现有技术中,搜索引擎在对信息进行组织和处理时,会直接存储信息内容本身,以人物为例,如果人物是张三,则在人物字段中保存文字张三,这样需要大量的存储空间,并且在后续提供检索服务时,检索速度较慢。
    发明内容
    本发明提供一种词典表的生成方法及装置,以及一种词典表的应用方法及装置,用以实现节约资源存储空间、提高检索速度的目的。
    本发明提供一种词典表的生成方法,包括:
    计算一个或多个词的哈希hash值;
    分配所述一个或多个词各自即将在词典表中的标识;
    将所述一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为所述词典表的数据项进行存储。
    在本发明一实施例中,所述方法还包括:
    当存在新词即将存储至所述词典表时,计算所述新词的hash值;
    查找所述词典表的数据项中是否已存在所述新词的hash值;
    若不存在,则分配所述新词即将在所述词典表中的标识,并将所述新词本身、其即将在所述词典表中的标识以及其对应的hash值作为所述词典表的数据项存储至所述词典表中。
    在本发明一实施例中,所述查找所述词典表的数据项中是否已存在所述新词的hash值之后,还包括:
    若存在,则确定所述词典表中已存在所述新词,从而对所述新词不再进行存储操作。
    本发明还提供一种词典表的应用方法,包括:
    若当前需要对词进行存储时,向词典表发送查找该词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
    接收所述词典表根据该词的hash值查找到的该词的标识;
    存储该词的标识,以实现对该词的存储。
    相应的,本发明还提供一种词典表的应用方法,包括:
    接收查找词典表中某词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
    根据该词的hash值查找该词的标识;
    返回该词的标识。
    本发明还提供一种词典表的生成装置,包括:
    计算???,用于计算一个或多个词的哈希hash值;
    分配???,用于分配所述一个或多个词各自即将在词典表中的标识;
    存储???,用于将所述一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为所述词典表的数据项进行存储。
    在本发明一实施例中,所述装置还包括:
    查找???,用于当存在新词即将存储至所述词典表时,所述计算??榧扑闼鲂麓实膆ash值之后,查找所述词典表的数据项中是否已存在所述新词的hash值;
    所述分配???,还用于若所述查找??椴檎宜龃实浔淼氖菹钪胁淮嬖谒鲂麓实膆ash值,则分配所述新词即将在所述词典表中的标识;
    所述存储???,还用于将所述新词本身、其即将在所述词典表中的标识以及其对应的hash值作为所述词典表的数据项存储至所述词典表中。
    在本发明一实施例中,所述装置还包括:
    处理???,用于若所述查找??椴檎宜龃实浔淼氖菹钪写嬖谒鲂麓实膆ash值,则确定所述词典表中已存在所述新词,从而对所述新词不再进行存储操作。
    本发明还提供一种词典表的应用装置,包括:
    请求发送???,用于若当前需要对词进行存储时,向词典表发送查找该词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
    标识接收???,用于接收所述词典表根据该词的hash值查找到的该词的标识;
    标识存储???,用于存储该词的标识,以实现对该词的存储。
    相应的,本发明还提供一种词典表的应用装置,包括:
    请求接收???,用于接收查找词典表中某词的标识的查找请求,其中,所述查找请求中携带有该词的hash值;
    标识查找???,用于根据该词的hash值查找该词的标识;
    标识发送???,用于返回该词的标识。
    本发明实施例的一些有益效果可以包括:
    本发明实施例中,计算一个或多个词的hash值,并分配一个或多个词各自即将在词典表中的标识,随后将一个或多个词、各自即将在词典表中的标识以及各自对应的hash值作为词典表的数据项进行存储。由于hash值是一串 字符,从而在词典表中查找词时,可以以hash值(即字符形式)进行查找,相比于现有技术中以词本身(即文字形式)查找,查找更灵活、速度更快。进一步,词典表中存储了各个词的标识,从而在后续工作中可以以词的标识进行存储,而无需存储词本身,节约了资源存储空间。
    本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
    下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
    附图说明
    附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
    图1为本发明一实施例中词典表的生成方法的流程图;
    图2为本发明一实施例中词典表的应用方法的流程图;
    图3为本发明另一实施例中词典表的应用方法的流程图;
    图4为本发明一实施例中词典表的生成装置的结构示意图;
    图5为本发明另一实施例中词典表的生成装置的结构示意图;
    图6为本发明又一实施例中词典表的生成装置的结构示意图;
    图7为本发明一实施例中词典表的应用装置的结构示意图;以及
    图8为本发明另一实施例中词典表的应用装置的结构示意图。
    具体实施方式
    以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
    图1所示为本发明一实施例中词典表的生成方法的流程图,该方法包括以 下步骤S11-S13:
    步骤S11,计算一个或多个词的hash值。
    步骤S12,分配一个或多个词各自即将在词典表中的标识。
    步骤S13,将一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为词典表的数据项进行存储。
    本发明实施例中,计算一个或多个词的hash值,并分配一个或多个词各自即将在词典表中的标识,随后将一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为词典表的数据项进行存储。由于hash值是一串字符,从而在词典表中查找词时,可以以hash值(即字符形式)进行查找,相比于现有技术中以词本身(即文字形式)查找,查找更灵活、速度更快。进一步,词典表中存储了各个词的标识,从而在后续工作中可以以词的标识进行存储,而无需存储词本身,节约了资源存储空间。
    上文步骤S11中提及的词的hash值,可以是词的MD5(Message DigestAlgorithm,消息摘要算法第五版)值,如可以截取MD5值的前16位;还可以值词的SHA1(Secure Hash Algorithm,安全哈希算法)值;还可以通过其它算法计算词的hash值,本发明不限于此。
    在本发明一实施例中,词典表的数据项中除了可以包括词本身、词的标识以及词的hash值这些字段外,还可以包括词对应的文档属性、更新时间等,如在电视节目数据中,词对应的文档属性包括词对应的频道、栏目等。这里,词典表、词本身、词的标识以及词的hash值这些字段的可以分别表示为tixmain-data-term、value、ID、termkey,当然,此处仅是示意性的,并不限制本发明。
    在本发明另一实施例中,当存在新词即将存储至词典表时,计算该新词的hash值,随后查找词典表的数据项中是否已存在该新词的hash值,若不存在,则分配该新词即将在词典表中的标识,并将该新词本身、其即将在词典表中的标识以及其对应的hash值作为词典表的数据项存储至词典表中。反 之,若存在,确定词典表中已存在该新词,从而对该新词不再进行存储操作。
    此外,为了防止一个表过大,导致查询或存储不便捷,本发明实施例中的词典表可以由多个表组成,这些表满足哈希均匀分布。
    在得到上文所述的词典表之后,该词典表可以应用在后续的查找或存储数据资源的工作中。图2所示为本发明一实施例中词典表的应用方法的流程图,该方法包括以下步骤S21-S23:
    步骤S21,若当前需要对词进行存储时,向词典表发送查找该词的标识的查找请求,其中,该查找请求中携带有该词的hash值。
    步骤S22,接收词典表根据该词的hash值查找到的该词的标识。
    步骤S23,存储该词的标识,以实现对该词的存储。
    本实施例中,在当前需要对词进行存储时,可以从词典表中查找到该词的标识,从而存储该词的标识,以实现对该词的存储,节约了资源存储空间。进一步,若当前储存了词的标识,则可以根据词的标识从词典表中查找到该词本身,从而实现灵活查找数据资源的目的。
    上文步骤S21中提及的词的hash值,可以是词的MD5(Message DigestAlgorithm,消息摘要算法第五版)值,如可以截取MD5值的前16位;还可以值词的SHA1(Secure Hash Algorithm,安全哈希算法)值;还可以通过其它算法计算词的hash值,本发明不限于此。由于同一个词的hash值是唯一的,因此,若词典表中存储的是词的MD5值,则查找请求中携带的是词的MD5值;若词典表中存储的是词的SHA1值,则查找请求中携带的是词的SHA1值,以此类推。
    相应的,图3所示为本发明另一实施例中词典表的应用方法的流程图,该方法包括以下步骤S31-S33:
    步骤S31,接收查找词典表中某词的标识的查找请求,其中,该查找请求中携带有该词的hash值。
    步骤S32,根据该词的hash值查找该词的标识。
    步骤S33,返回该词的标识。
    上文步骤S31中提及的词的hash值与步骤S21相同,此处不再赘述。
    本实施例中,可以根据词的hash值从词典表中查找到该词的标识,从而实现灵活查找数据资源的目的。
    对应于上述实施例中的词典表的生成方法,本发明还提供了一种词典表的生成装置。如图4所示为本发明一实施例中词典表的生成装置的结构示意图,包括:
    计算???1,用于计算一个或多个词的hash值;
    分配???2,用于分配一个或多个词各自即将在词典表中的标识;
    存储???3,用于将一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为词典表的数据项进行存储。
    在本发明一实施例中,如图5所示,图4展示的装置还可以包括:
    查找???1,用于当存在新词即将存储至词典表时,上述计算???1计算新词的hash值之后,查找词典表的数据项中是否已存在新词的hash值;
    上述分配???2,还用于若查找??椴檎掖实浔淼氖菹钪胁淮嬖谛麓实膆ash值,则分配新词即将在词典表中的标识;
    上述存储???3,还用于将新词本身、其即将在词典表中的标识以及其对应的hash值作为词典表的数据项存储至词典表中。
    在本发明一实施例中,如图6所示,图5展示的装置还可以包括:
    处理???1,用于若查找???1查找词典表的数据项中存在新词的hash值,则确定词典表中已存在新词,从而对新词不再进行存储操作。
    本发明实施例的上述装置:计算一个或多个词的hash值,并分配一个或多个词各自即将在词典表中的标识,随后将一个或多个词本身、各自即将在词典表中的标识以及各自对应的hash值作为词典表的数据项进行存储。由于hash值是一串字符,从而在词典表中查找词时,可以以hash值(即字符形式) 进行查找,相比于现有技术中以词本身(即文字形式)查找,查找更灵活、速度更快。进一步,词典表中存储了各个词的标识,从而在后续工作中可以以词的标识进行存储,而无需存储词本身,节约了资源存储空间。
    对应于上述实施例中的词典表的应用方法,本发明还提供了一种词典表的应用装置。如图7所示为本发明一实施例中词典表的应用装置的结构示意图,包括:
    请求发送???1,用于若当前需要对词进行存储时,向词典表发送查找该词的标识的查找请求,其中,该查找请求中携带有该词的hash值;
    标识接收???2,用于接收词典表根据该词的hash值查找到的该词的标识;
    标识存储???3,用于存储该词的标识,以实现对该词的存储。
    本发明实施例的上述装置:在当前需要对词进行存储时,可以从词典表中查找到该词的标识,从而存储该词的标识,以实现对该词的存储,节约了资源存储空间。进一步,若当前储存了词的标识,则可以根据词的标识从词典表中查找到该词本身,从而实现灵活查找数据资源的目的。
    相应的,如图8所示为本发明另一实施例中词典表的应用装置的结构示意图,包括:
    请求接收???1,用于接收查找词典表中某词的标识的查找请求,其中,查找请求中携带有该词的hash值;
    标识查找???2,用于根据该词的hash值查找该词的标识;
    标识发送???3,用于返回该词的标识。
    本发明实施例的上述装置:可以根据词的hash值从词典表中查找到该词的标识,从而实现灵活查找数据资源的目的。
    在产品应用中,词典表的另一功能是用来生成词典数据表:
    首先,从元数据表中提取至少一条最新数据资源信息,可以得到属性信息、关键词、通过对标题摘要和内容分词后得到的人物、地点、机构等。
    其次,依次分类通过上面词汇计算出词汇的hash值,到词典表中找到词汇的标识。从而,对于一条数据资源信息来说,依次分类通过上面词汇的一个或多个标识,存储到词典数据表的一条记录,词典数据表字段包括:属性、人物、机构、地点、关键字等,多个标识间可以以逗号分隔。
    本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
    本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合??商峁┱庑┘扑慊绦蛑噶畹酵ㄓ眉扑慊?、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
    这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
    这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
    显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求 及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

    关 键 词:
    一种 词典 生成 及其 应用 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种词典表的生成及其应用方法及装置.pdf
    链接地址://www.4mum.com.cn/p-5894873.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03