• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 25
    • 下载费用:30 金币  

    重庆时时彩三星: 对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序.pdf

    关 键 词:
    对于 包含 编码 字符 查询 使用 统一 资源 定位 增强 搜索 结果 相关性 排序
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110252294.3

    申请日:

    2011.08.30

    公开号:

    CN102385609A

    公开日:

    2012.03.21

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 专利权的转移IPC(主分类):G06F 17/30变更事项:专利权人变更前权利人:微软公司变更后权利人:微软技术许可有限责任公司变更事项:地址变更前权利人:美国华盛顿州变更后权利人:美国华盛顿州登记生效日:20150702|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110830|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 微软公司
    发明人: 宋?;? Q. 姚; 陈俊燕
    地址: 美国华盛顿州
    优先权: 2010.08.30 US 12/871576
    专利代理机构: 中国专利代理(香港)有限公司 72001 代理人: 刘红;刘鹏
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110252294.3

    授权公告号:

    |||||||||

    法律状态公告日:

    2015.07.22|||2015.04.01|||2012.05.02|||2012.03.21

    法律状态类型:

    专利申请权、专利权的转移|||授权|||实质审查的生效|||公开

    摘要

    计算机可读媒体、计算机系统以及计算设备有助于利用统一资源定位符(URL)/非编码字符(NEC)字对来增强网页索引,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。URL从网页中接收,并从URL中提取子串。附加的元素从网页中接收、被断字成NEC字序列并被转换成编码语言表示,其中编码语言表示相对于URL子串进行匹配,以标识候选URL/NEC对,以便在相关性排序中使用。

    权利要求书

    1.一种或多种计算机可读媒体,其中在所述计算机可读媒体上已包括有计算机可执行指令,所述计算机可执行指令当由与搜索服务相关联的计算设备中的处理器执行时使得所述计算设备执行利用统一资源定位符(URL)/非编码字符(NEC)字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序,所述方法包括:接收(1010)与网页相对应的统一资源定位符(URL),其中所述URL包括编码字符的第一字符串;将编码字符的第一字符串变换(1020)成一个或多个NEC字,其中所述变换包括基于来自所述网页的内容来推断出变换;以及将NEC字的集合包括(1030)在网页索引中。2.权利要求1的媒体,其中所述编码字符的第一字符串包括一个或多个英文字符。3.权利要求1的媒体,其中所述编码字符的第一字符串包括中文字的一个或多个拼音表示。4.权利要求1的媒体,其中将编码字符的第一字符串变换成一个或多个NEC字包括:利用一对或多对URL子串和相应NEC字来表示所述编码字符的第一字符串,其中所述表示包括:参考来自所述网页的多个元素;将所述URL字符串转换成NEC字的序列,其中所述转换部分地基于所述多个元素;参考映射表,所述映射表包括多个NEC字符与相应编码字符之间的映射;借助于所述映射表,标识所述元素的多个可能的编码字符表示;以及选择所述元素的多个可能的编码字符表示之一。5.权利要求1的媒体,其中所述NEC字包括中文字、日文字或韩文字。6.权利要求1的媒体,其中将NEC字的集合包括在网页索引中包括:在生成所述网页索引时,将NEC字的集合并入所述网页索引中。7.权利要求1的媒体,其中将NEC字的集合包括在网页索引中包括:将NEC字的集合并入现有网页索引中。8.一种或多种计算机可读媒体,其中在所述计算机可读媒体上已包括有计算机可执行指令,所述计算机可执行指令当由与搜索服务相关联的计算设备中的处理器执行时使得所述计算设备执行利用统一资源定位符(URL)/非编码字符(NEC)字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序,所述方法包括:创建(1110)包括NEC语言与编码字符语言之间的映射的映射表;接收(1120)与网页相对应的统一资源定位符(URL)字符串,其中所述URL字符串以编码字符语言来表示;参考(1140)来自所述网页的多个元素;将所述URL字符串转换(1020)成NEC字的序列,其中所述转换部分地基于所述多个元素;以及构建(1030)网页索引,所述网页索引包括NEC字的集合。9.权利要求8的设备,其中所述多个元素包括锚、标题和层次结构中的字符串。10.权利要求9的设备,其中将所述URL字符串转换成NEC字的序列包括:参考映射表,所述映射表包括多个NEC字与相应编码字符之间的映射;借助于所述映射表,标识所述元素的多个可能的编码字符表示;以及选择所述元素的多个可能的编码字符表示之一,其中所述选择包括:确定所选择的编码字符表示匹配从所述URL字符串中提取的子串,以及其中所述提取的子串包括子域。11.权利要求8的设备,其中所述NEC字包括中文字、日文字或韩文字。12.一种或多种计算机可读媒体,其中在所述计算机可读媒体上已包括有计算机可执行指令,所述计算机可执行指令当由计算设备中的处理器执行时使得所述计算设备执行利用统一资源定位符(URL)/非编码字符(NEC)字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序,所述方法包括:接收(1120)与所述网页相对应的统一资源定位符(URL),所述URL包括编码字符的第一字符串;从所述URL中提?。?130)URL子串,所述URL子串包括编码字符的第一序列;接收(1140)来自所述网页的元素,其中所述元素利用NEC语言来表示;参考(1150)映射表,所述映射表包括多个NEC字与相应编码字符之间的映射;借助于所述映射表,标识(1150)所述元素的多个可能的编码字符表示;确定(1160)所述元素的多个可能的编码字符表示之一与所述URL子串相匹配;以及将所选择的编码字符表示和相应NEC字包括(1180)在网页索引中。13.权利要求12的媒体,其中第一元素是所述网页的标题、锚或层次结构中的字符串。14.权利要求12的媒体,其中标识所述元素的多个可能的编码字符表示包括:将NEC字的第一字符串分成NEC子串的序列;以及从所述映射表中检索每一个NEC子串的多个可能的编码字符表示。15.权利要求14的媒体,进一步包括:创建与所述元素相关联的格,所述格包括多个节点,其中所述多个节点中的每一个节点对应于NEC子串的多个可能的编码字符表示之一;定义候选字符串,其中所述候选字符串包括格路径;确定所述候选字符串与所述URL子串相匹配;以及确定与所述候选字符串相关联的路径置信度分数,其中所述选择所述元素的多个可能的编码字符表示之一至少部分地基于所述路径置信度分数。

    说明书

    对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序

    背景技术

    与网页相对应的统一资源定位符(URL)已显示为包含用于测量网页对于搜索查询的相关性的有用信息。已执行了大量的解决利用URL来改善搜索结果相关性排序的质量的问题的工作。这种工作传统上集中于西方语言网页,其字母集合例如能够通过编码诸如ASCII字符之类的字符来表示,这是因为URL由US-ASCII字符集(在这里称为编码字符)中的字符的字符串组成。

    对于包括不允许在URL中使用的字符(即,“非编码字符”(NEC),例如,其可以包括中文、日文,韩文和其他的类似语言)的语言而言,由于URL利用编码字符来表示,所以将查询与URL匹配往往是困难的。为了更有效地将URL用于NEC语言市场中的相关性排序,所希望的是以相同的格式来表示搜索查询和相应的URL。能够采用两种方式之一来实现一致的格式。第一种方式是在在线服务时间改变查询,其中NEC查询基于映射表被变换为英文单词、拼音表示(即,中文字符的发音)、数字字符或这些的组合,其中映射表根据NEC字与其对应的编码语言形式之间类似的含义或发音的规则离线建立。另一种更坚固的方案是将URL中的有意义部分转换成NEC字,并在索引生成期间将转换的URL内置到网页索引中。

    发明内容

    这个概述部分用于以简化形式介绍下面在详细描述部分中进一步描述的概念的选择。这个概述部分不打算标识所请求?;さ闹魈獾墓丶卣骰蚧咎卣?,也不打算被孤立用作辅助手段来确定所请求?;さ闹魈獾姆段?。

    本发明的实施例用于执行离线程序,其中这些离线程序通过包括URL与相应NEC字的配对来有助于增强网页索引,以便于NEC语言搜索的搜索结果相关性排序。在实施例中,网页的URL被接收。URL子串从URL中进行提取,并与消除歧义信息进行比较,以推断出该URL的恰当的相应NEC表示。在实施例中,例如,诸如标题、锚(anchor)、层次结构中的字符串等之类的元素从网页中进行提取。每一个元素被断字(word-broken)为NEC字的序列。参考NEC-编码语言映射表来标识元素中的每个NEC字的所有可能的编码语言表示。在实施例中,代表断字元素的格被生成,其中每一个节点对应于NEC字的可能的编码语言表示。

    使用这些格,能够采用遍历这些格的算法,其定义能够与所提取的URL子串进行比较的格路径,以标识匹配。连同与相应匹配相关联的置信度分数(confidence?score)一起,与URL子串相匹配的格路径被添加到潜在的候选字符串列表。这些潜在的候选字符串能够与相应URL子串进行配对,并被并入网页索引中,以便于在线采用的NEC语言搜索结果相关性排序。

    附图说明

    下面参考附图详细描述本发明的实施例,其中:

    图1是适合于实施本发明的实施例的示例性计算设备的框图;

    图2是适合于用于实施本发明的实施例的示例性网络环境的框图;

    图3描述用于根据本发明的实施例利用NEC语言/编码语言配对来增强网页索引的处理组件的说明性的实施方式;

    图4描述根据本发明的实施例的说明性的映射表;

    图5描述根据本发明的实施例的显示其各子串的说明性的URL;

    图6描述根据本发明的实施例的说明性的中文语言网页;

    图7描述根据本发明的实施例的代表网页元素的说明性的格集合;

    图8描述根据本发明的实施例的说明性的URL候选字符串匹配处理;

    图9描述根据本发明的实施例的说明性的修剪格;

    图10是说明根据本发明的实施例、利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的示例性方法的流程图;和

    图11是说明根据本发明的实施例、利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的示例性方法的另一流程图。

    具体实施方式

    在这里披露的本发明的实施例的主题利用特异性来描述,以满足法定要求。但是,该描述本身并不打算来限制这个专利的范围。相反,发明人已考虑:配合其他的当前或未来的技术,所请求?;さ闹魈庖部赡芤云渌姆绞嚼词迪?,以包括不同的步骤或与这个文献中所描述的相类似的步骤的组合。此外,虽然在这里可能使用术语“步骤”和/或“方框”来暗示所采用的方法的不同元素,但是除非且除了明确地描述各步骤的顺序之外,这些术语不应被解释为暗指在这里所公开的各种步骤之中或之间任何特定的顺序。

    在这里所描述的本发明的实施例包括计算设备和计算机可读媒体,用于使得计算设备执行利用URL/NEC字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在实施例中,该说明性方法包括:接收与网页相对应的统一资源定位符(URL),其中URL包括编码字符的第一字符串。在实施例中,该说明性方法也包括:将编码字符的第一字符串变换为一个或多个NEC字;以及将NEC字的集合包括在网页索引中。

    在第二说明性的实施例中,计算机可执行指令使得计算设备执行利用URL/NEC字对来增强网页索引的方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在实施例中,该说明性方法包括:创建包括NEC语言与字符编码语言之间的映射的映射表。接收与网页相对应的统一资源定位符(URL)字符串。该方法的实施例也包括:参考来自网页的多个元素,并且基于这些元素,将URL字符串转换成NEC字的序列。在实施例中,该说明性方法也包括:构建包括NEC字集合的网页索引。

    在第三说明性的实施例中,计算机可执行指令集提供利用URL/NEC字对来增强网页索引的示例性方法,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在实施例中,该方法包括:接收与网页相对应的统一资源定位符(URL),以及从该URL中提取URL子串。从网页中接收元素,其中该元素利用NEC语言来表示,并且参考映射表来标识该元素的可能的编码字符表示。在实施例中,该说明性方法进一步包括:确定该元素的多个可能的编码字符表示之一与URL子串相匹配;以及将所选择的编码字符表示和相应NEC字包括在网页索引中。

    本发明的实施例的各方面可以在计算机程序产品的一般语境中进行描述,其中计算机程序产品包括计算机代码或机器可用指令,这些指令包括由计算机或诸如个人数据助理或其他手持设备之类的其他机器执行的计算机可执行指令,诸如程序???。一般,包括例程、程序、对象、组件、数据结构等等的程序??橹傅氖侵葱刑囟ㄈ挝窕蚴凳┨囟ǖ某橄笫堇嘈偷拇?。本发明的实施例可以在各种系统配置中进行实践,其中系统配置包括专用服务器、通用计算机、膝上型计算机、更专业计算设备等等。本发明也可以在分布式计算环境中进行实践,其中任务由通过通信网络链接的远程处理设备来执行。

    计算机可读媒体包括易失性和非易失性媒体、可拆卸和不可拆卸媒体二者,并考虑可由数据库、处理器和各种其他联网的计算设备读取的媒体。利用示例并且不是限制,计算机可读媒体包括以用于存储信息的任何方法或技术来实施的媒体。存储信息的示例包括计算机可执行指令、数据结构、程序??楹推渌氖荼硎?。媒体示例包括但不限于RAM、ROM、EEPROM、闪存和其他的存储技术、CD-ROM、数字多功能盘(DVD)、全息媒体和其他的光盘存贮器、磁带盒、磁带、磁盘存贮器以及其他的磁存储设备。这些技术能够瞬间、暂时或永久存储数据。

    下面描述其中可以实施本发明的各方面的示例性操作环境,以便提供对于本发明的各方面的一般背景。特别地,最初参见图1,用于实施本发明的实施例的示例性操作环境被显示,并一般被指定为计算设备100。计算设备100只是适当的计算环境的一个示例,并且不打算暗示针对本发明的使用或功能的范围的任何限制。计算设备100也不应该被解释为具有与所说明的任一组件或组件的组合有关的任何依赖或要求。

    计算设备100包括直接或间接耦合下列设备的总线110:存储器112,一个或多个处理器114,一个或多个演示组件116,输入/输出端口118,输入/输出组件120,以及说明性的电源122。总线110代表的可能是一条或多条总线(例如,地址总线、数据总线或其组合)。虽然为了清晰起见而利用线条来显示图1的各个方块,但在现实中,划定各个组件并不是如此清晰的,并且用比喻而言,这些线条将更准确地是灰色和模糊的。例如,可以考虑诸如显示设备之类的演示组件是I/O组件。同样,处理器具有存储器。我们认识到,这是本领域的特性,并且重申:图1的框图仅仅说明能够与本发明的一个或多个实施例结合使用的示例性计算设备。不区分诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等之类的类别,因为所有这些被考虑在图1的范围之内并称为“计算设备”。

    存储器112包括存储在易失性和/或非易失性存储器中的计算机可执行指令113。该存储器可以是可拆卸的、不可拆卸的或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括与系统总线110耦合的一个或多个处理器114,其中处理器从诸如存储器112或I/O组件120之类的各种实体中读取数据。在实施例中,一个或多个处理器114执行计算机可执行指令113,以执行由计算机可执行指令115定义的各种任务和方法。一个或多个演示组件116被耦合到系统总线110,并且向用户或其他设备呈现数据指示。示例性演示组件116包括显示设备、扬声器、打印组件等。

    I/O端口118允许将计算设备110逻辑耦合到包括I/O组件120的其他设备,其中的一些设备可以被内置。说明性组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备、键盘、笔、语音输入设备、触摸输入设备、触摸屏设备、交互式显示设备或鼠标。I/O组件120也能够包括通信连接121,其能够有助于将计算设备100通信连接到远程设备,例如,诸如其他的计算设备、服务器、路由器等等。

    由于URL通常由编码语言字符(例如,ASCII字符)组成,所以例如在中文网页设计者创建新的页面时,他往往使用英文单词、拼音、数字字符串或这些的组合来表示其中文名称。例如,如果该网页包括在线游戏(注意:用于“online?games(在线游戏)”的相应断字中文是“网络?游戏”),则网页所有者可能例如为该URL选择以下ACSII名称:“online?games”、“wangluoyouxi”(全拼音表示)或“wlyx”(缩写拼音)。因而,为了便于搜索结果相关性排序,搜索查询和网页索引信息应以类似方式来表示。

    虽然将查询变更为其ASCII格式是将URL用于NEC(中文、日文和韩文语言)页面的相关性改进的一种解决方案,但是其往往是相对无效的和低效的。本发明的实施例反而便于将URL变换处理移到脱机(离线)环境,其中URL的有意义部分被转换为NEC字。在这种处理中,诸如标题和锚之类的重要页面内容能够用于决定或消除候选NEC字之间的歧义。这些NEC字能够被内置到网页索引中作为备用元流(metastream),以替换或补充用于NEC页面排序的原始URL元流。

    现在转到图2,显示适合于用于实施本发明的实施例的示例性网络环境200的框图。网络环境200包括用户设备210、网络211、搜索引擎212、网页索引216(这包括与网页218和220相关联的可搜索的索引的信息,其能够由web服务器提供)以及NEC索引服务222。用户设备210通过网络211与搜索引擎212通信,其中所述网络可以包括任何数量的网络,例如,诸如局域网(LAN)、广域网(WAN)、因特网、蜂窝网络、对等(P2P)网络、移动网络或网络的组合。图2中所示的示例性网络环境200是一个合适的网络环境200的示例,并且不打算暗指对于在这个文献中公开的本发明的实施例的使用或功能的范围的任何限制。示例性网络环境200也不应被解释为具有与在这里说明的任何单个组件或组件的组合相关的任何依赖或要求。

    用户设备210可以是能够允许用户向搜索引擎212提交搜索查询以及响应于搜索查询而从搜索引擎212接收搜索结果页面的任何类型的计算设备。例如,在实施例中,用户设备210可以是计算设备,诸如在上面参考图1所描述的计算设备100。在实施例中,用户设备210可以是个人计算机(PC)、膝上型计算机、工作站、移动计算设备、PDA、蜂窝电话等等。

    搜索引擎212以及索引216和NEC索引服务222能够被实施为服务器系统、程序???、虚拟机、一个或多个服务器的组件、网络等等。在一个实施例中,例如,组件212、216和222之中的每一个被实施为单独的服务器。在另一个实施例中,所有的组件212、216和222在单个服务器或服务器组上进行实施。

    在一个实施例中,用户设备210与搜索引擎212和/或图2所示的其他组件相分离并且有别于这些组件。在另一个实施例中,用户设备210与搜索引擎212相集成。为了解释清楚,我们应描述其中用户设备210以及组件212、216和222之中的每一个是分开的实施例,同时明白:在本发明内考虑的各种配置中,可能并非如此。

    如图2所示,用户设备210与搜索引擎212通信。搜索引擎212接收由用户经由用户设备210提交的搜索查询,即,搜索请求。从用户接收的搜索查询能够包括由用户手动或口头输入的搜索查询、向用户建议并由用户选择的查询以及由搜索引擎212接收的被用户以某种方式认可的任何其他的搜索查询。在实施例中,搜索查询包括一个或多个NEC字。由于在这里使用术语,所以“NEC字”指的是与NEC语言(例如,中文、日文、韩文等等)相关联的任何类型的符号、字符、标记、图画等等?!癗EC字”也能够包括符号、字符、标记、图画等等的序列。也就是说,遍及目前披露的内容,“NEC字”能够指字、字的一部分、短语、缩写词或者书面或口头NEC语言的任何其他部分。

    在一些实施例中,搜索查询能够仅包括NEC字,而在其他实施例中,例如,搜索查询能够包括NEC字和某些其他类型的字或字符诸如编码字符的组合。例如,搜索引擎212可以是或者包括搜索引擎、履带(crawler)等等。在一些实施例中,搜索引擎212被配置成使用通过用户设备210提交的查询来执行搜索。在各种实施例中,搜索引擎212能够为与用户设备210进行通信的用户提供用户界面,以有助于搜索体验。在一个实施例中,搜索引擎212监视搜索活动,并且能够产生一个或多个记录或日志,其表示搜索活动、所提交的先前查询、所获得的搜索结果等。这些服务能够进行杠杆作用(leverage),以便以许多不同的方式来改善搜索体验。根据本发明的不同实施例,搜索引擎212参考相关联的网页索引216来标识与从用户接收的搜索查询相关的搜索结果。

    如图2所示,搜索引擎212与NEC索引服务222通信。在本发明的一个实施例中,索引服务222有助于利用URL/NEC字对来增强网页索引216,以便在网页索引216中标识的搜索结果的相关性排序中使用。在实施例中,NEC索引服务222脱机执行这样的增强,并提供最终得到的URL/NEC字对给网页索引216。

    在一个实施例中,搜索引擎212被配置成接收所提交的查询,并且使用该查询来执行搜索。在一个实施例中,一旦标识满足搜索查询的搜索结果,搜索引擎212就利用诸如搜索结果页面之类的图形界面返回一组搜索结果给用户设备210。一组搜索结果包括被认为与用户定义的搜索查询相关的内容或内容网站(例如,包含内容的网页、数据库等等)的表示。例如,搜索结果可以被呈现为内容链接、片段、缩略图、概要等等。内容链接指的是与相关联内容的地址相对应的内容或内容网站的可选择的表示。例如,内容链接可以是与统一资源定位符(URL)、IP地址或其他类型的地址相对应的可选择的表示。这样,内容链接的选择能够导致用户的浏览器重定向至相应地址,由此用户能够访问相关联的内容。内容链接的一个常用示例是超链接(在这里可以互换地称为锚)。

    如图2所示,搜索引擎212参考索引216。本领域普通技术人员应明白:索引216是可缩放的,并且实际上可能具有许多的与搜索引擎212相关联的索引???。索引216能够驻留在与搜索引擎212相同的机器上。在另一个实施例中,索引216远离搜索引擎212,并且在任一种情况中,搜索引擎212与索引216通信,以执行搜索和检索存储在索引216或未在图2中示出的某一其他存储??樯系哪谌?、索引项等等。

    继续参考图2,NEC索引服务222包括URL字符串管道226、候选字符串管道228和匹配组件230。URL字符串管道226包括用于处理从网页218和220接收的URL的软件、组件、??榈鹊?。在实施例中,URL字符串管道从URL中提取子串,以便在相对于从相应网页的元素中提取的候选字符串进行匹配中使用。在一些实施例中,例如,URL字符串管道从网页218或220接收URL、根据特殊字符(例如,“/”、“.”、“&”等等)来分割URL并且从分离的URL中提取子串(例如,子域、基域、路径等等)。URL子串随后能够被提供给匹配组件230,以便相对于候选字符串(或者,互换地,候选路径)进行匹配。

    候选字符串管道228接收来自网页218和220的元素、从这些元素中提取NEC字,并且从这些NEC字中生成候选字符串,以便与所提取的URL子串进行匹配。在实施例中,元素能够包括任何类型的对象、文本、HTML元素等等,例如,诸如网页标题、锚、层次结构中的字符串以及来自网页主体的文本。例如,在一个实施例中,候选字符串管道228从网页218或220中提取网页的标题以及网页218或220的层次结构中的字符串。

    在一些实施例中,如图2所示,网页220能够包括以另一个网页218为目标的锚221。由于在这里使用术语,所以“锚”指的是以网页为目标的一组超文本。在实施例中,锚221能够从网页220中进行提取,并与网页218相关联。每当接收到具有与锚221相同的超文本的锚时,能够更新与锚221的特定超文本相对应的频率指示,以反映该锚的频率,其中所述频率指的是在语法分析其他网页期间遭遇到具有以特定网页为目标的特定超文本集合的锚的次数。

    候选字符串管道228将所提取的元素分为NEC字的序列。对于每一个NEC字,候选字符串管道在映射表232中查找NEC-编码字符映射,以找到所有其可能的编码表示,其中所述映射表例如可以保持在与NEC索引服务222相关联的存贮器234中。

    暂时转到图4,描绘说明性的映射表400。图4中所示的说明性映射表是一个适当的映射表400的示例,并且不打算暗指任何的对于在这个文献中公开的本发明的实施例的使用或功能的范围的限制。该说明性映射表400也不应被解释为具有与在这里说明的任何单个组件或组件的组合相关联的任何依赖或要求。

    如图4所示,例如,说明性映射表400包括NEC语言410与诸如ASCII字符、UTF-8字符等等的编码语言字符412之间的映射。在所说明的实施例中,映射表400包括中文字410与中文字的全拼音表示414之间的映射、中文字410与中文字的缩写拼音表示416之间的映射以及中文字410与相应的英文翻译418之间的映射。在实施例中,例如,映射表400可以从三个源中生成:汉-英词典(其包含446,908个翻译对);中文-拼音映射表(其包含60,878个中文字及其相应的拼音发音);以及一组各种不规则的但是流行的中文-ASCII映射对,诸如“sina<->新浪”和“elong<->艺龙”。在映射表400的各实施例中能够包括任何数量的其他源、NEC语言、映射等等。

    返回到图2,并且根据本发明的实施例,候选字符串管道228生成与每一个处理的元素相对应的格。在实施例中,格的每个节点是与NEC字相对应的编码表示(例如,拼音或英文单词),并且通过该格的每条路径是该元素的候选编码字符串。因为网页218或220的主体通常包含大量的字,其中的大多数与URL字符串是无关的,因此,在一些实施例中,在这里描述的匹配处理中不使用该主体。然而,在一些实施例中,网页218或220的主体可以用于提供额外的信息,从中能够推断出URL子串的可能的NEC翻译。

    根据本发明的实施例,NEC索引服务222利用URL字符串管道226、候选字符串管道228以及匹配组件230来标识URL子串与匹配NEC字的配对。相关领域的技术人员应该意识到:因为NEC语言的特性以及NEC语言与诸如编码字符(例如,拼音、英文等等)之类的西方语言之间翻译的特性,特定URL子串可能与许多不同的NEC字相匹配。在实施例中,NEC索引服务222也计算与匹配的配对相关联的置信度分数,其中这些分数可以与这些配对一起被提供给网页索引216,以便在搜索结果相关性排序程序中使用,如本领域中所公知的。

    现在转到图3,描绘本发明的实施例的示例性实施方式300。示例性实施方式300包括具有相应URL?312以及一组元素314的网页310。如图3中所示,URL字符串管道316从网页310接收URL?312。候选字符串管道318从网页310接收元素314,并将这些元素变换为NEC字的序列,以便由匹配组件320使用。

    一旦接收到URL?312,URL字符串管道从URL?312中提取URL?子串324。在实施例中,构成URL?312的每一个子串能够被提取,而在其他的实施例中,仅提取特定类型的子串。暂时转到图5,描绘示例性URL?500。如图5中所示,URL?500具有三个主要部分:方案512、域514和路径516。该方案代表与URL?500相关联的HTML文件所使用的协议。该域包括三个不同的子串:子域518、基域520和顶级域522?;?20通常是主办(host)网页310的网站的注册名称,而子域518通常代表网站的通道。顶级域522通常包含网站的类型和位置信息。路径516对主机网站上的网页410的目录和文件名进行编码(为了清楚起见而没有示出)?;谏厦娴腢RL结构分析,有意义的信息应一般在子域518、基域520和路径516中找到?;?20和子域518名称通常是导航查询的目标,而路径516能够提供有关网页310内容和类别的有用信息。

    返回到图3,由于站点的官方名称经常出现在站点的页面标题、主体内容以及指向该站点的主页的锚文本等等中,所以这些类型的元素能够被杠杆作用,以推断出至从网页310中提取的URL?312的基域和子域部分的中文名称映射。此外,在URL的路径部分中的最后斜杠(或文件名称部分)之后的最后部分通常与页面标题以及可见标题具有密切相关性。在最后斜杠之前的路径部分有时也能够映射到该页面中的层次结构中的字符串。

    继续参考图3,在URL字符串管道316中,例如,URL?312字符串被诸如“/”、“.”、“&”等之类的特殊字符分割。在实施例中,由URL字符串管道316提取URL子串324。例如,所提取的子串324能够包括子域、基域、路径等等。这些URL子串324是将与从元素314(例如,页面标题、锚、层次结构中的字符串等等)变换的候选编码字符串进行匹配的候选字符串。

    如图3所示,候选字符串管道318包括将元素315分成NEC字328的序列的断字器(word?breaker)326。每一个NEC字328被提供给变换器330,其中变换器330参考映射表322来确定每一个NEC字328的所有可能的编码语言表示。在实施例中,映射表322能够包括NEC语言与编码字符之间的映射。例如,在一个实施例中,映射表322包括中文字与英语表示之间的映射以及中文字与那些字的拼音表示之间的映射。一旦获得NEC字328的可能的编码语言表示,候选字符串管道328生成与每一个处理的元素相对应的格。在实施例中,格的每一个节点是与NEC字相对应的编码表示(例如,拼音或英文单词),并且通过该格的每一条路径是该元素的候选编码字符串。

    候选字符串格322被提供给匹配组件320。匹配组件320接收每个提取的URL子串324,并将这些(子串)与从元素314中变换的每一个候选编码字符串进行匹配。根据一些实施例,在匹配之前,使用启发式规则来修剪该格,以使得匹配处理是有效的。例如,在一些实施例中,匹配处理开始于具有与URL子串相同的初始编码字符的格节点,其中所述格节点将与所述URL子串进行匹配。此外,在实施例中,因为观察显示与少于三个字符的英文单词的匹配往往是不可靠的,所以对于该格中的英文单词节点来说,如果由该英文单词的前三个字母字符构成的子串没有出现在任何的URL子串中,那么能够从该格中剪除该节点。进一步,在一些实施例中,能够假定:URL一般包括标题、锚和/或层次结构中的字符串的缩写,并因而应该在长度上短于这些元素。因此,在实施例中,当在该格的候选编码字符串中包含的拼音或英文项的数量超过将要匹配的URL子串的长度时,匹配组件320能够停止匹配处理。

    根据实施例,由匹配组件320执行的候选匹配对搜索算法能够被描述为如下:

    。

    在上面的算法中,称为“MatchURLSubStringWithLattice”的函数将输入URL子串与每一个可能的格路径进行匹配,并输出匹配的格路径及其各自的置信度分数。在实施例中,这个函数能够被描述为如下:

    。

    在这个函数中,从具有与URL子串相同的初始字母或数字字符的格节点开始生成路径。首先,具有一个格节点的路径(即,长度=1)将与URL子串进行匹配,随后将匹配长度=2、长度=3等等的路径。匹配函数“MatchingTermInitialCharactersWithURL”被设计成将每一个项的初始子串与URL子串进行匹配。例如,如果候选路径是包含三个项“zhang”、“bo”、“zhi”的“zhang?bo?zhi”并且URL子串是“zbozh”,那么匹配处理能够如图8中所示。

    暂时转到图8,说明示例性的格路径810“zhang?bo?zhi”和示例性的URL子串812“zbozh”。因而,例如,如利用箭头814所示,URL子串中的第一字符“z”能够匹配“zhang”的开头。类似地,如利用箭头816所示,由URL中的第二和第三字符组成的字符串“bo”能够匹配“bo”的开头。此外,如利用箭头818所示,?由URL中的第四和第五字符组成的字符串“zh”能够匹配“zhi”的开头。因此,这将是有效的匹配,并因而导致候选匹配对的标识。

    随后,所有匹配的格路径将被添加到候选路径列表,并且能够为其中的每条格路径计算置信度分数。在实施例中,例如,置信度分数可以基于路径长度、匹配部分长度、跳过的节点号等等。在一些实施例中,可以采用各种量度来使得该算法是更坚固的。例如,在一些实施例中,能够使用人工智能、用户反馈、统计评估等等来调节在这里描述的NEC索引处理和算法的方面。在一个实施例中,匹配处理能够被配置成跳过一定数量的格节点,从而允许一些部分匹配进入最后的候选路径列表。

    返回到图3,匹配组件20将最终得到的URL/NEC字对334(并且,在一些实施例中,相应的置信度分数)提供给映射表322。这样,在每次执行匹配处理时,能够更新映射表322,从而增加能够从映射表322中参考的可用映射的数量。此外,在实施例中,最终得到的URL/NEC字对334被包括在网页索引336中。在一些实施方式中,最终得到的URL/NEC字对334能够被添加到现有网页索引336。在其他的实施方式中,最终得到的URL/NEC字对334能够在创建网页索引336时被并入网页索引336中。在进一步实施例中,最终得到的URL/NEC字对334可以被保持在与网页索引336分离但是相关联的数据结构(例如,表格,数据库等等)中。

    为了说明操作中的本发明的实施例,参考图6-9。在图6中说明示例性的中文网页600。示例性的中文网页包括标题610和层次结构中的字符串612。此外,如图2所示,来自以网页600为目标的其他网页的锚221能够被提取,并且频率指示与之相关联。在实施例中,三个最常发生的超文本集合(例如,作为其他网页上的锚)被选择(并且在这里可以被称为“前三位锚”)。

    对于图6中描绘的示例性网页600,假定:基于目标网页600的频率,前三位锚是“张柏芝NSN首页”、“张柏芝”以及“女明星张柏芝”。如图6所示,网页600的标题是“张柏芝_明星主页_娱乐_资讯与娱乐_MSN中国”。在断字之后,前三位锚可以被表示成“张柏芝?msn?首页”、“张柏芝”以及“女??明星??张柏芝”。类似地,断字的标题是“张柏芝???明星???主页???娱乐???资讯???与???娱乐???msn???中国”。

    为了本示例的目的,假设:对应于这些字的中文-编码语言(在这种情况中,利用拼音和英文表示来表征的ASCII)映射表类似于表1。

    表1.?字的拼音和英文映射

    中文字拼音英文张柏芝zhang bo zhiCecilia首页shou yehomepagenvfemale明星ming xingstar主页zhu yehomepage娱乐yu leentertainment资讯zi xunnewsyuand中国zhong guoChina

    因此,在实施例中,前三位锚文本字符串和页面标题的候选ASCII字符串格可以如图7所示。暂时转到图7,说明示例性的候选ASCII字符串格的集合。如图7所示,从断字的锚和标题中生成格,这产生与前三名锚中的第一锚相对应的格710、与前三名锚中的第二锚相对应的格712以及与前三名锚中的第三锚相对应的格714。此外,如图7所示,断字的标题能够利用格716来表示。如先前所述,每一个格包括一组节点,每一个节点对应于NEC字的编码语言表示。例如,第一锚格710包括与拼音表示“zhang?bo?zhi”相对应的节点718、与英文表示“Cecilia”相对应的节点720、与英文单词“msn”(注意:这个单词不是从NEC字翻译而来的,因为它是以英文形式出现在网页600上)相对应的节点722、与拼音表示“zhu?ye”相对应的节点724以及与英文表示“home-page”相对应的节点726。

    根据一些实施例,对于网页600,利用第一锚短语“张柏芝?msn?主页”以及网页600的URL子串生成的格710的匹配处理可以被表征为如下。首先,URL被分割,并且能够提取以下URL子串:子域-“msn”;基域-“ynet”;以及路径-“ent?stars?zhangbozhi”。如先前所述,为了流线化匹配处理,能够修剪格710。例如,在实施例中,为了英文单词保留在格710中,该英文单词需要具有至少三个匹配的字符。因而,在一些实施方式中,由于“Cecillia”的前三个字符构成的子串是未在任一URL子串的初始部分中出现的“cec”,所以相应节点720从该格中被剪除。根据相同的算法,与英文表示“homepage”相对应的节点726也能够被剪除。因此,在修剪之后,格710显现为如图9所示。如图9所示,修剪的格900包括三个剩余节点:节点920“zhang?bo?zhi”,节点922“msn”,和节点924“zhu?ye”。

    然后,对于每一个URL子串,现在将描述示例性的匹配处理。首先,URL子串“msn”被选择。在修剪的格900中只有第二节点以“msn”中的第一字母“m”开始。因而,将要匹配的长度=1的第一路径是“msn”。当然,URL子串“msn”与路径“msn”完全匹配。因此,这条路径作为第一候选路径被添加到候选路径列表(为了简洁明了而没有示出)。接下来,定义长度=2的路径(即,“msn”?“zhu?ye”)。由于URL子串“msn”不包含节点“zhu?ye”的任何初始子串,所以这条路径将不生成候选匹配路径。由于到达该格的末端,所以不能匹配其他路径。因此,对于URL子串“msn”,匹配处理产生一条候选路径:“msn”。然而,由于“msn”不是中文名称的映射,所以它没有被包括在最终的URL/中文字对列表中。

    继续参考图9,下一个URL子串是“ynet”。由于在修剪的格900中没有节点以“y”开始,所以这个URL字符串没有候选匹配路径。接下来的URL子串是“ent”,并且在该格中没有节点以“e”开始。因此,URL子串相对于第一锚不具有候选匹配路径。类似地,由于在修剪的格900中没有节点以“s”开始,所以URL子串“stars”不具有候选匹配路径。但是,URL子串“zhangbozhi”的确具有候选匹配路径。该格中的第一节点以“z”开始。因而,将要匹配的长度=1的第一路径是“zhang?bo?zhi”。这条路径与URL子串“zhangbozhi”完美地匹配,并因此该候选路径被添加到候选路径列表。

    继续该示例性的匹配处理,长度=2的路径(即,“zhang?bo?zhi”?“msn”)被定义并相对于URL子串“zhangbozhi”进行匹配。由于URL子串“zhangbozhi”不包含节点“msn”的任何初始子串,所以这条路径无法产生候选匹配路径。因此,节点“msn”将被添加到JumpNodeList。接下来,定义长度=3的路径(即,“zhang?bo?zhi”?“msn”?“zhu?ye”)。由于“msn”节点在JumpNodeList中,所以从该路径中移除它。因而,该路径变成“zhang?bo?zhi”?“zhu?ye”。URL字符串“zhangbozhi”不包含节点“zhu?ye”的任何初始子串,并因此这条路径也无法产生候选匹配路径。因此,对于URL子串“zhangbozhi”,只有一条候选路径“zhang?bo?zhi”。与这条候选路径相对应的中文字是“张柏芝”。因而,匹配处理的输出包括一个URL/中文字对“zhangbozhi/张柏芝”。

    利用上述的示例性的匹配处理的实施例,对于URL?//msn.ynet.com/ent/stars/zhangbozhi/,使用第一锚短语“张柏芝msn主页”获得一个URL/中文字对(即,zhangbozhi/张柏芝)。类似地,使用第三锚短语“女明星?张柏芝”获得一个配对(“stars/明星”);以及使用标题,获得三个配对(“zhangbozhi/张柏芝”)、(“stars/明星”)、(“ent/娱乐”)。因而,一起,基于上面的示例性的匹配算法,从URL?//msn.ynet.com/ent/stars/zhangbozhi/中获得三个不同的配对(“zhangbozhi/张柏芝”,“stars/明星”和“ent/娱乐”)。

    为了扼要重述,上面的公开内容描述了用于利用URL/NEC字对来增强网页索引以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序的系统、机器、媒体、方法、技术、处理和选项。转到图10,说明显示根据本发明的实施例、用于利用URL/NEC字对来增强网页索引的示例性方法1000的流程图。在一些实施例中,说明性方法1000的实施例的各方面能够作为计算机可执行指令而被存储在计算机可读媒体上,其中计算机可执行指令由计算设备中的处理器来执行,从而使得计算设备实施该方法1000的各方面。当然,对于图11中所描绘的说明性方法或这些方法的其他任何的实施例来说,情况也是如此。例如,计算设备能够与搜索服务等等相关联。

    在步骤1010,从网页中检索URL。该URL可以包括任意数量的字符、字和/或短语并且能够利用例如任何适当的诸如ASCII、UTF-8、UTF-16以及UTF-32之类的编码语言来表示。在步骤1020,该URL被转换成NEC字的序列。在实施例中,该URL能够被转换成NEC字的若干不同的候选序列,其中每一个序列能够响应于用户提交的搜索查询而被参考,以便于响应于该查询而提供的搜索结果的排序。在最后的说明性步骤,即步骤1030,NEC字的序列被包括在网页索引中,以便于响应于包括NEC字的搜索查询而提供的搜索结果的相关性排序。在一些实施例中,NEC字能够被集成到现有网页索引中,并且在其他实施例中,NEC字可以在生成索引时被集成到网页索引中。在一些实施例中,NEC字可以在网页索引内与URL相关联。在其他实施例中,NEC字(并且,一般地,其与URL的相关联性)能够被保持在与网页索引相分离但是相关联的索引、数据库、表格等等中。

    现在转到图11,作为流程图来说明根据本发明的实施例、利用URL/NEC字对来增强网页索引的另一个说明性方法1100。该说明性方法1100的实施例包括创建映射表,如步骤1110所示。在实施例中,例如,该映射表包括一个或多个NEC字与诸如拼音、英文、数字等之类的相应编码字符之间的映射。在一些实施例中,该映射表能够被生成为表格、关系数据库、矩阵等等。

    在步骤1120,与网页相对应的URL字符串被接收。在步骤1130,从URL中提取URL子串。在实施例中,例如,URL子串能够包括子域、基域、路径等等。在步骤11140(1140),从网页接收元素。根据本发明的各种实施例,该元素能够包括HTML元素、对象、文本、图像等等。在一个实施例中,例如,该元素是网页的标题。在另一个实施例中,例如,该元素能够是锚或层次结构中的字符串。

    在步骤1150,定义候选路径。在实施例中,该候选路径通过遍历与该元素相对应的格来定义。例如,该元素可以被断字成NEC字的序列。每一个NEC字的所有可能的编码语言表示能够从映射表中获得。因而,该格能够包括一组节点,其中每一个节点对应于NEC字的潜在的候选编码语言表示。

    在步骤1160,该系统确定:URL子串与候选路径相匹配。在实施例中,可以采取任意数量的措施将不同水平的效率和性能引入匹配处理,例如,诸如在定义候选路径之前修剪该格,省略与URL子串的特定部分不相匹配的节点等等。在步骤1170,计算与候选路径相关联的置信度分数。在实施例中,例如,能够基于路径长度、匹配部分长度、跳过的节点号等等来计算置信度分数。在最后的说明性步骤1180,例如,匹配URL/候选路径对被包括在网页索引中,其中它能够用于增强响应于用户提交的搜索查询的搜索结果相关性排序。

    本发明的各种实施例已描述为说明性的而非限制性的。替代实施例将不时地变成明显的而不脱离本发明的实施例的范围。将明白:某些特征和子组合是实用的,并且可以被采用而不参考其他的特征和子组合。这利用权利要求书的范畴来预期并落入权利要求书的范畴之内。

    关于本文
    本文标题:对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序.pdf
    链接地址://www.4mum.com.cn/p-5817485.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 湖北十一选五走势图i 南通棋牌下载中心 浦发银行股票 3的组三遗漏 2012年上证指数走势图 超级大乐透开奖历史记录 预测复式彩票的买法 天津11选5遗漏数据 腾讯斗棋牌下载 北京pk10玩法 辽宁11选5数据专区 2019卡牌类手游排行榜 快乐飞艇直播 吉林11选5奖金少 江苏11选5遗漏的号码 易发棋牌官方手机版