• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 9
    • 下载费用:30 金币  

    重庆时时彩大龙虾下载: 搜索引擎排重系统及方法.pdf

    关 键 词:
    搜索引擎 系统 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201010248804.5

    申请日:

    2010.08.09

    公开号:

    CN102375813A

    公开日:

    2012.03.14

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||专利申请权的转移IPC(主分类):G06F 17/30变更事项:申请人变更前权利人:腾讯科技(深圳)有限公司变更后权利人:深圳市世纪光速信息技术有限公司变更事项:地址变更前权利人:518044 广东省深圳市福田区振兴路赛格科技园2栋东403室变更后权利人:518057 广东省深圳市南山区粤海街道科技中一路腾讯大厦16层登记生效日:20131021|||实质审查的生效IPC(主分类):G06F 17/30申请日:20100809|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 腾讯科技(深圳)有限公司
    发明人: 文勖
    地址: 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室
    优先权:
    专利代理机构: 广州华进联合专利商标代理有限公司 44224 代理人: 何平;曾旻辉
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201010248804.5

    授权公告号:

    |||||||||

    法律状态公告日:

    2016.12.21|||2013.11.13|||2013.04.24|||2012.03.14

    法律状态类型:

    授权|||专利申请权、专利权的转移|||实质审查的生效|||公开

    摘要

    本发明提供了一种搜索引擎排重系统及方法,所述系统包括:查询请求???,根据用户输入的查询条件发送查询请求;搜索???,查询符合所述查询条件的网页,提取网页的摘要,对所述摘要进行指纹计算,根据摘要的指纹排除重复摘要,将保留的摘要及对应网页返回至所述查询请求???。采用本发明提供的搜索引擎排重系统及方法,使排重更准确。

    权利要求书

    1: 一种搜索引擎排重系统, 其特征在于, 包括 : 查询请求???, 根据用户输入的查询条件发送查询请求 ; 搜索???, 查询符合所述查询条件的网页, 提取网页的摘要, 对所述摘要进行指纹计 算, 根据摘要的指纹排除重复摘要, 将保留的摘要及对应网页返回至所述查询请求???。
    2: 根据权利要求 1 所述的搜索引擎排重系统, 其特征在于, 所述搜索??榘?: 至少一个检索???, 用于查询符合所述查询条件的网页, 提取网页的摘要 ; 搜索管理???, 获取至少一个检索??樘崛〉恼?, 对所述摘要进行指纹计算, 根据摘 要的指纹排除重复摘要, 将保留的摘要及对应网页返回至所述查询请求???。
    3: 根据权利要求 1 所述的搜索引擎排重系统, 其特征在于, 所述搜索??榘?: 至少一个检索???, 用于查询符合所述查询条件的网页, 提取网页的摘要, 对所述摘要 进行指纹计算 ; 搜索管理???, 获取至少一个检索??榧扑愕玫降恼闹肝?, 根据摘要的指纹排除 重复摘要, 将保留的摘要及对应网页返回至所述查询请求???。
    4: 根据权利要求 2 或 3 所述的搜索引擎排重系统, 其特征在于, 搜索管理??榛褂糜诨?取网页的页面权重, 在根据摘要的指纹排除重复摘要时, 保留页面权重最高的网页及摘要。
    5: 根据权利要求 4 所述的搜索引擎排重系统, 其特征在于, 所述搜索??榘ㄖ辽僖?个: 网页抓取???, 抓取网页 ; 预处理???, 从抓取的网页中提取文本特征, 对所述文本特征进行指纹计算, 根据文本 特征的指纹排除重复网页。
    6: 根据权利要求 5 所述的搜索引擎排重系统, 其特征在于, 所述预处理??榛褂糜诖?抓取的网页中提取关键词, 根据所述关键词建立网页索引文件 ; 所述搜索??榛拱ǜ?所述网页索引文件存储排除重复网页后的网页、 供所述检索??椴檠牡乃饕菘?。
    7: 一种搜索引擎排重方法, 包括以下步骤 : 根据用户输入的查询条件发送查询请求 ; 查询符合所述查询条件的网页, 提取网页的摘要 ; 对所述摘要进行指纹计算, 根据摘要的指纹排除重复摘要 ; 返回保留的摘要及对应网页。
    8: 根据权利要求 7 所述的搜索引擎排重方法, 其特征在于, 所述返回保留的摘要及对 应网页的步骤包括 : 获取网页的页面权重, 根据摘要的指纹排除重复摘要, 并保留页面权重 最高的网页及摘要。
    9: 根据权利要求 8 所述的搜索引擎排重方法, 其特征在于, 在所述查询符合搜索条件 的网页之前还包括 : 抓取网页, 从抓取的网页中提取文本特征, 对所述文本特征进行指纹计 算, 根据文本特征的指纹排除重复网页。
    10: 根据权利要求 9 所述的搜索引擎排重方法, 其特征在于, 所述根据文本特征的指纹 排除重复网页的步骤是 : 获取网页的页面权重, 排除重复网页时保留页面权重最高的网页。

    说明书


    搜索引擎排重系统及方法

        【技术领域】
         本发明涉及网络搜索技术领域, 尤其涉及一种搜索引擎排重系统及方法。 【背景技术】
         搜索引擎通过自身的网页抓取程序, 搜集互联网上的信息, 搜集到的网页经过预 处理后生成索引数据库, 为用户提供检索服务。由于搜索引擎抓取的网页会有很多是重复 的, 因此需要对网页进行排重。 所谓排重, 是指去掉重复的网页, 仅保留一篇进索引, 其它则 删除掉, 不进索引。
         传统的搜索引擎排重系统通常是在预处理过程中进行排重, 具体是 : 对抓取的网 页中的文档内容提取文本特征, 例如对文档提取 10 个特征词, 再提取这些特征词的指纹。 指纹是判断网页相似程度的参数, 调用特别的算法 ( 如 MD5 算法 ) 将一组特征词转化为一 组代码, 这组代码即为标识文档的指纹。如果两篇文档的指纹相同, 则这两篇文档是重复 的, 需选择一篇文档进索引数据库, 而其他重复的文档进行删除。
         然而, 上述传统的搜索引擎排重系统由于在预处理过程中进行排重, 需要对网页 内容的全部文档内容提取特征词, 若特征词提取不准确, 则会造成很多误判和错判, 从而导 致索引数据库提供的搜索页面会有很多重复的文档。 【发明内容】
         基于此, 有必要提供一种排重更准确的搜索引擎排重系统。
         一种搜索引擎排重系统, 包括 : 查询请求???, 根据用户输入的查询条件发送查询 请求 ; 搜索???, 查询符合所述查询条件的网页, 提取网页的摘要, 对所述摘要进行指纹计 算, 根据摘要的指纹排除重复摘要, 将保留的摘要及对应网页返回至所述查询请求???。
         其中, 所述搜索??榘?: 至少一个检索???, 用于查询符合所述查询条件的网 页, 提取网页的摘要 ; 搜索管理???, 获取至少一个检索??樘崛〉恼?, 对所述摘要进行 指纹计算, 根据摘要的指纹排除重复摘要, 将保留的摘要及对应网页返回至所述查询请求 ???。
         其中, 所述搜索??榘?: 至少一个检索???, 用于查询符合所述查询条件的网 页, 提取网页的摘要, 对所述摘要进行指纹计算 ; 搜索管理???, 获取至少一个检索??榧?算得到的摘要的指纹, 根据摘要的指纹排除重复摘要, 将保留的摘要及对应网页返回至所 述查询请求???。
         其中, 搜索管理??榛褂糜诨袢⊥车囊趁嫒ㄖ?, 在根据摘要的指纹排除重复摘 要时, 保留页面权重最高的网页及摘要。
         其中, 所述搜索??榘ㄖ辽僖桓?: 网页抓取???, 抓取网页 ; 预处理???, 从抓 取的网页中提取文本特征, 对所述文本特征进行指纹计算, 根据文本特征的指纹排除重复 网页。
         其中, 所述预处理??榛褂糜诖幼ト〉耐持刑崛」丶?, 根据所述关键词建立网页索引文件 ; 所述搜索??榛拱ǜ菟鐾乘饕募娲⑴懦馗赐澈蟮耐?、 供所述检索??椴檠牡乃饕菘?。
         此外, 还有必要提供一种排重更准确的搜索引擎排重方法。
         一种搜索引擎排重方法, 包括以下步骤 : 根据用户输入的查询条件发送查询请求 ; 查询符合所述查询条件的网页, 提取网页的摘要 ; 对所述摘要进行指纹计算, 根据摘要的指 纹排除重复摘要 ; 返回保留的摘要及对应网页。
         其中, 所述返回保留的摘要及对应网页的步骤包括 : 获取网页的页面权重, 根据摘 要的指纹排除重复摘要, 并保留页面权重最高的网页及摘要。
         其中, 在所述查询符合搜索条件的网页之前还包括 : 抓取网页, 从抓取的网页中提 取文本特征, 对所述文本特征进行指纹计算, 根据文本特征的指纹排除重复网页。
         其中, 所述根据文本特征的指纹排除重复网页的步骤是 : 获取网页的页面权重, 排 除重复网页时保留页面权重最高的网页。
         上述搜索引擎排重系统及方法, 通过对网页的摘要进行指纹计算, 相对于现有对 网页的全部文档内容进行指纹计算, 能减少特征词提取不准确的几率, 使排重更准确。
         此外, 在预处理过程中对网页进行排重, 使得网页在进入索引数据库之前得到了 一次排重, 而根据查询请求在索引数据库中找到符合查询条件的网页后, 根据网页的摘要 的指纹再进行一次排重, 两次排重能更加准确的排除重复的网页, 从而减少了提供给用户 的重复网页。 【附图说明】
         图 1 为第一实施例中的搜索引擎排重系统的示意图 ; 图 2 为第二实施例中的搜索引擎排重系统的示意图 ; 图 3 为第三实施例中搜索引擎排重系统的示意图 ; 图 4 为一个实施例中搜索引擎排重方法的流程图 ; 图 5 为另一个实施例中搜索引擎排重方法的流程图?!揪咛迨凳┓绞健?br>     如图 1 所示, 一种搜索引擎排重系统, 包括查询请求???10 和搜索???20。 其中, 查询请求???10 位于前台, 用于根据用户输入的查询条件发送查询请求, 查询条件包括关 键词等 ; 搜索???20 位于后台, 接收到查询请求???10 发送的查询请求后, 查询符合查询 条件的网页, 提取网页的摘要, 对这些摘要进行指纹计算, 根据摘要的指纹排除重复摘要, 只保留一条摘要及对应的网页即可, 并将保留的摘要及对应网页返回至查询请求???10。
         由于搜索???20 在提供网页给用户检索时, 除了提供网页标题以及链接外, 通常 都会提取网页的摘要以便用户区分不同的网页, 对这些摘要进行指纹计算, 具体可以是 : 对 摘要进行分词处理后, 通过加权技术统计每个词的权重, 提取预设数量 ( 如 10 个 ) 个权重 较高的词, 将这些词组成一个词串, 对词串通过 MD5 算法得到一组代码, 即为该摘要的指 纹。指纹相同则认为摘要相同, 摘要对应的网页为重复网页。因此根据摘要的指纹即可排 除掉重复摘要。根据摘要的指纹来排重, 相对于现有对于网页的整个文档内容进行指纹计 算, 能减少特征词提取不准确的几率, 使排重更准确。如图 2 所示, 在一个实施例中, 搜索???20 包括搜索管理???201 和至少一个检 索???202, 搜索管理???201 是作为后台代理, 统一管理多个检索???202 提交的数据。 在一个实施方式中, 网页的摘要的指纹计算放在搜索管理???202 中进行, 检索???202 用 于查询符合查询条件的网页, 提取网页的摘要 ; 搜索管理???12 则获取至少一个检索???202 提取的网页的摘要, 对摘要进行指纹计算, 根据摘要的指纹排除重复摘要, 将保留的摘 要及对应网页返回至查询请求???10。在另一个实施方式中, 网页的摘要的指纹计算也可 放在检索???202 中进行, 检索???202 用于查询符合所述查询条件的网页, 提取网页的摘 要, 对摘要进行指纹计算 ; 搜索管理???201 则获取至少一个检索???202 计算得到的摘要 的指纹, 根据摘要的指纹排除重复摘要, 将保留的摘要及对应网页返回至查询请求???10。 关于摘要的指纹计算上文已有论述, 在此则不再赘述。
         在网页的预处理过程中, 可通过排名运算法则计算每个网页的页面权重。搜索管 理???201 则可获取网页的页面权重, 在根据摘要的指纹排除重复摘要时, 保留页面权重 最高的网页及摘要, 这样保留的网页会更符合用户的需求。同样的, 检索???202 在根据摘 要的指纹排除重复摘要时, 也可保留权重最高的网页。
         如图 3 所示, 在一个实施例中, 搜索???20 包括至少一个网页抓取???205、 预处 理???204 和索引数据库 203。其中, 网页抓取???205 运行网页抓取程序抓取网页, 每个 独立的搜索引擎都会有相应的网页抓取程序 ; 预处理???204 从抓取的网页中提取文本特 征, 对文本特征进行指纹计算, 根据文本特征的指纹排除重复网页。例如, 预处理???204 从抓取的网页的文档内容中提取预设数量 ( 如 10 个 ) 个特征词, 对这些特征词取指纹, 指 纹相同, 则认为文档内容相同, 需排除掉重复的文档内容, 只保留一个文档, 将该文档对应 的网页加入索引数据库 203 中。该实施例中, 预处理???204 还用于从抓取的网页中提取 关键词, 根据关键词建立网页索引文件 ; 索引数据库 203 则根据该网页索引文件存储排除 了重复网页后的网页, 供检索???202 进行查询。
         上述实施例中, 在预处理过程中对网页进行排重, 也即在网页进入索引数据库 203 之前就得到了一次排重, 而在接收到查询请求时, 从索引数据库 203 中查找网页后, 通过网 页的摘要指纹再对网页进行了一次排重, 两次排重能更加准确的排除重复的网页。
         如图 4 所示, 一种搜索引擎排重方法, 包括以下步骤 :
         步骤 S10, 根据用户输入的查询条件发送查询请求, 查询条件包括关键词等。
         步骤 S20, 查询符合查询条件的网页, 提取网页的摘要。 在一个实施例中, 从后台的 索引数据库 203 中查询符合查询条件的网页, 索引数据库 203 是在后台抓取网页并对网页 进行预处理后, 根据网页中的关键词所建立的索引文件来存储网页的。在提供网页给用户 检索时, 除了提供网页标题以及链接外, 通常都会提取网页的摘要以便用户区别不同的网 页。
         步骤 S30, 对摘要进行指纹计算, 根据摘要的指纹排除重复摘要。具体可以是 : 对 摘要进行分词处理, 通过加权技术统计每个词的权重, 提取预设数量 ( 如 10 个 ) 个权重较 高的词, 将这些词组成词串, 对词串进行 MD5 算法得到一组代码, 这组代码即为摘要的指 纹。指纹相同则认为摘要相同, 根据摘要的指纹可排除掉重复摘要。
         步骤 S40, 返回保留的摘要和对应网页。 排除重复摘要时, 可获取网页的页面权重, 保留页面权重最高的网页及摘要。其中, 页面权重是在预处理过程中可通过排名运算法则计算得到的。 返回保留的摘要和对应网页后, 将各网页及对应摘要以条目形式展示给用户, 用户通过点击各条目即可进入相应的网页。
         在另一个实施例中, 如图 5 所示, 搜索引擎排重方法的具体过程如下 :
         步骤 S100, 抓取网页。 每个独立的搜索引擎会有自己的网页抓取程序, 用于顺着网 页的超链接, 连续的抓取网页。
         步骤 S200, 从网页中提取文本特征。 例如, 从抓取的网页的文档内容中提取预设数 量 ( 如 10 个 ) 个特征词。
         步骤 S300, 对文本特征进行指纹计算。 指纹计算的方法原理上文已阐述, 也可采用 目前常用的指纹算法来计算文本特征的指纹, 在此则不再赘述。 指纹相同, 则任务文档内容 相同, 需排除重复的文档内容, 只保留一个文档。
         步骤 S400, 根据文本特征的指纹排除重复网页后, 进入索引数据库。 在一个实施例 中, 排除重复网页时, 保留页面权重最高的网页, 从该网页中提取关键词, 根据关键词建立 网页索引文件, 根据网页索引文件将网页存储在索引数据库 203 中。
         步骤 S500, 接收查询条件和查询请求。 查询条件可以是用户输入的关键词等, 根据 查询条件可从索引数据库 203 查找匹配的网页。 步骤 S600, 从索引数据库中查询符合查询条件的网页, 提取网页的摘要。
         步骤 S700, 对摘要进行指纹计算, 根据摘要的指纹排除重复摘要。
         步骤 S800, 返回保留的摘要和对应网页。该实施例中, 在网页进入索引数据库 203 之前以及之后分别进行一次网页排重, 两次排重能更准确的排除掉重复的网页, 从而减少 了提供给用户的重复网页, 充分满足了用户的体验需求。
         以上所述实施例仅表达了本发明的几种实施方式, 其描述较为具体和详细, 但并 不能因此而理解为对本发明专利范围的限制。应当指出的是, 对于本领域的普通技术人员 来说, 在不脱离本发明构思的前提下, 还可以做出若干变形和改进, 这些都属于本发明的保 护范围。因此, 本发明专利的?;し段вσ运饺ɡ笪?。
        

    关于本文
    本文标题:搜索引擎排重系统及方法.pdf
    链接地址://www.4mum.com.cn/p-5817530.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 快乐扑克三豹子遗漏 快彩乐老11选5走势图 三张牌比大小 腾讯分分彩走势图0 彩票开奖河北十一选五 曾道女指码 12124期足彩进球彩 沈阳棋牌大全下载 湖南幸运赛车近1000期 网球王子之完美网球 极速时时彩固定技巧 11选5走势图 彩票开奖代码 欢乐斗地主视频观看 上海彩票网 手机百赢棋盘游戏