• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 22
    • 下载费用:30 金币  

    买重庆时时彩能赚钱吗: 在搜索中从查询重新表达中识别意图.pdf

    关 键 词:
    搜索 查询 重新 表达 识别 意图
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201580034769.8

    申请日:

    2015.06.24

    公开号:

    CN106471496A

    公开日:

    2017.03.01

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20150624|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 微软技术许可有限责任公司
    发明人: C·马诗纳; M·巴西里安
    地址: 美国华盛顿州
    优先权: 2014.06.26 US 14/316,719
    专利代理机构: 永新专利商标代理有限公司 72002 代理人: 王英;刘瑜
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201580034769.8

    授权公告号:

    |||

    法律状态公告日:

    2017.03.29|||2017.03.01

    法律状态类型:

    实质审查的生效|||公开

    摘要

    一种架构,其支持对通过查询重新表达所发现的相同的或高度类似的意图进行分组、识别单个意图会话、并且接着在单个会话内执行对查询的分类以确定意图的改变。在搜索会话中识别作为对原始查询的重新表达的查询,并且将该重新表达与以类似于原始查询的顺序发出的、但是覆盖完全无关的意图的查询进行区分。当给定用户查询时,该架构可以确定一组精确并合适的重新表达,并且接着使用所述重新表达。额外地,当用户仍然在打字时,可以根据自动建议技术来显示所述重新表达,并且当结果屏幕被显示为相关的搜索(“相关搜索”)时,可以显示所述重新表达。当向搜索引擎发出搜索时,也可以使用所述重新表达。

    权利要求书

    1.一种系统,包括:
    识别组件,其被配置为识别作为原始查询的重新表达的搜索会话的经重新表达的查
    询;
    映射组件,其被配置为基于意图分类标准将所述经重新表达的查询映射至意图类;
    分组组件,其被配置为基于分组标准将经映射的经重新表达的查询分组成多组单个意
    图;以及
    至少一个微处理器,其被配置为执行与所述识别组件、所述映射组件、和所述分组组件
    关联的存储器中的计算机可执行指令。
    2.根据权利要求1所述的系统,还包括选择组件,所述选择组件被配置为从每组单个意
    图的查询中选择最佳查询。
    3.根据权利要求2所述的系统,其中,一组单个意图中的最佳查询是基于以下中的至少
    一个而选择的:其后没有跟随有查询重新表达的用户交互的最大数量、用户在所选择的目
    标网站上的停留时间、或者目标网站的人工评论。
    4.根据权利要求1所述的系统,还包括聚合组件,其被配置为对来自多个会话的最佳查
    询进行聚合以用于呈现或结果处理中的至少一个。
    5.根据权利要求1所述的系统,其中,所述分组标准是基于距离先前的经重新表达的查
    询的时间、点击的数量、以及每网页的停留时间的。
    6.根据权利要求1所述的系统,其中,基于被定义为新的意图后跟随有相同的意图的序
    列的意图分类标准而分组成所述多组单个意图中的每个组。
    7.根据权利要求1所述的系统,其中,所述映射组件基于原始查询和关联的经重新表达
    的查询的属性的特征向量而将所述经重新表达的查询映射至所述意图类。
    8.根据权利要求1所述的系统,其中,所述映射组件将一组单个意图中的每个查询映射
    至以下中的至少一个:下一个查询、具体数量的接下来的查询、搜索会话的最佳查询、或者
    任何搜索会话中的最佳查询。
    9.根据权利要求1所述的系统,还包括呈现组件,其被配置为当输入新的查询时呈现成
    功的查询的列表,所述成功的查询在以下中的至少一个中被采用:在自动建议技术中作为
    相关的搜索、对搜索引擎的直接查询而被采用、或者在文件排名中被采用。
    10.一种方法,包括以下的操作:
    识别作为原始查询的重新表达的搜索会话的经重新表达的查询;
    基于意图分类标准将所述经重新表达的查询映射至意图类;
    基于分组标准将经映射的经重新表达的查询分组成多组单个意图;
    从每组单个意图中选择最佳查询;以及
    对来自多个会话的最佳查询进行聚合以用于呈现或结果处理中的至少一个。
    11.根据权利要求10所述的方法,还包括根据其他查询中的查询顺序和相对于先前的
    查询的查询结构来定义所述意图分类标准。
    12.根据权利要求10所述的方法,还包括根据时间和意图类的序列来对经重新表达的
    查询进行映射。
    13.根据权利要求10所述的方法,还包括基于作为所述分组标准的意图分类对经映射
    的经重新表达的查询进行分组。
    14.根据权利要求10所述的方法,还包括基于以下中的至少一个来选择一组单个意图
    中的最佳查询:其后没有跟随有查询重新表达的用户交互的最大数量、用户在所选择的目
    标网站上的停留时间、或者目标网站的人工评论。
    15.根据权利要求10所述的方法,还包括将一组单个意图中的每个查询映射至以下中
    的至少一个:下一个查询、具体数量的接下来的查询、搜索会话的最佳查询、或者任何搜索
    会话中的最佳查询。

    说明书

    在搜索中从查询重新表达中识别意图

    背景技术

    搜索引擎中的搜索查询是用户通过人类语言的方式表达搜索意图的尝试。由于语
    言常??赡苁怯衅缫宓?,因此存在用于表达该意图的不同的方式(释义(paraphrase)),并
    且文件创建者也可以使用稍微不同的语言来表达针对特定搜索问题的“答案”。在搜索技术
    中,在给定查询的情况下识别搜索意图并且将其映射至在文档中所包含的信息是重大的挑
    战。

    发明内容

    在下文中呈现了简化的概要,以便提供对在本文中所描述的一些新颖的实施例的
    基本理解。该概要不是全面的综述,并且不旨在标识关键的/重要的元素或描绘其范围。其
    唯一的目的是要以简化的形式来呈现一些概念以作为稍后呈现的详细描述的前序。

    所公开的架构支持一种用于对通过查询重新表达所发现的相同的或高度类似的
    意图进行分组的机制。该架构识别单个意图会话并且接着在单个会话内执行对查询的分类
    以确定意图的改变。

    该架构识别搜索会话中作为原始查询的重新表达的查询,并且将该重新表达与以
    类似于原始查询的顺序发出的、但是覆盖完全无关的意图的查询的进行区分。更加具体而
    言,当给定用户查询时,该架构可以确定一组精确并合适的重新表达,并且接着使用所述重
    新表达。额外地,当用户仍然在打字时,可以根据自动建议技术来显示所述重新表达。额外
    地,当结果屏幕被显示为相关的搜索(“相关搜索”)时,可以显示所述重新表达。当向搜索引
    擎发出搜索时,可以使用所述重新表达。

    该架构支持根据所公开的架构而从查询重新表达中识别意图的系统。该系统可以
    包括识别组件,该识别组件被配置为识别作为原始查询的重新表达的搜索会话中的经重新
    表达的查询。映射组件可以被包括,并且被配置为基于意图分类标准而将经重新表达的查
    询映射至意图类,以生成经映射的经重新表达的查询。该系统还可以包括分组组件,该分组
    组件被配置为基于分组标准将经映射的经重新表达的查询分组成多组单个意图。

    分组标准基于距离先前的经重新表达的查询的时间、点击的次数、以及每网页的
    停留时间?;诒欢ㄒ逦碌囊馔己蟾嬗邢嗤囊馔嫉男蛄械囊馔挤掷啾曜?,而分组成
    多组单个意图中的每个组。映射组件基于原始查询和相关联的经重新表达的查询的属性的
    特征向量而将经重新表达的查询映射至意图类。映射组件将一组单个意图(例如,一组单个
    意图)中的每个查询映射至以下中的至少一个:下一个查询、具体数量的接下来的查询、搜
    索会话的最佳查询、或者任何搜索会话中的最佳查询。

    该架构支持其中识别作为原始查询的重新表达的搜索会话的经重新表达的查询
    的至少一种方法?;谝馔挤掷啾曜冀匦卤泶锏牟檠成渲烈馔祭??;诜肿楸曜冀?br />经映射的经重新表达的查询分组成多组单个意图,并且从每组单个意图中选择最佳查询。
    将来自多个会话的最佳查询进行聚合以用于呈现或结果处理中的至少一个。

    为了实现前述和相关的目的,结合以下的描述和附图在本文中描述了某些说明性
    方面。这些方面指示能够实践在本文中所公开的原理的各种方式,并且其所有方面和等同
    物旨在落入所要求?;さ闹魈獾姆段?。当结合附图考虑时,其他的优点和新颖的特征将
    从以下的详细说明中显而易见。

    附图说明

    图1示出了根据所公开的架构的从查询重新表达中识别意图的系统。

    图2示出了从查询重新表达中识别意图的可替代的系统。

    图3示出了由同一用户所发出的一系列查询,以及距离先前的查询的时间和关于
    结果点击的数据和花费在结果上的时间的量的图。

    图4示出了用作用于将查询映射至意图分类的意图分类标准的一些特征。

    图5示出了根据所公开的架构的方法。

    图6示出了根据所公开的架构的可替代的方法。

    图7示出了根据所公开的架构的执行从查询重新表达中识别意图的计算系统的框
    图。

    具体实施方式

    所公开的架构描述了一种用于将通过查询重新表达所发现的相同的或高度类似
    的意图进行分组的机制。用户重新表达查询以指示其针对搜索的原始意图。在简单的操作
    中,用户输入查询,并且此后,用户输入另一个查询,即同一会话的经重新表达的查询??梢?br />推断的是,第二(经重新表达的)查询是对第一查询的改进。一个方案是简单地将每个查询
    映射至该会话中的下一个查询。

    可以使用针对统计建模的技术(例如条件随机域(CRF)来检测预先确定的时间跨
    度(例如,三十秒)的会话内的意图改变。

    该架构可以检查整个会话中的具有相同的或显著地相关的意图的查询。目标是识
    别单个意图会话并且接着在单个会话内分类以确定意图的改变。

    会话中的重新表达可以被看作分段问题??梢越峄敖馕龀闪牟檠淖踊?br />话。接着,应用映射来计算将哪些查询映射至哪些其他查询。这有助于排名,以在用户已经
    键入重新表达之前对未来的重新表达进行预测。经重新表达的查询可以从搜索日志中挖掘
    并且用于对翻译模型进行训练。接着,可以应用排名。

    挖掘经重新表达的查询可以包括检查由同一用户在五分钟之内所发出的查询,例
    如,每个查询(例如,两个连续的查询)、针对这两个查询而生成统计数据(“提取特征”)、给
    训练集贴标签、以及构建分类器。针对每一对查询,在针对由同一用户所发出的查询的预先
    确定的时间跨度(例如,五分钟)内,计算关于这些查询的特征。所计算的关于每对的特征可
    以包括但不限于以下内容:在查询和逆之间的时间;|Q1|是查询Q1中词语的数量;|Q2|是查
    询Q2中词语的数量;|Q1∩Q2|/max(|Q1|,|Q2|);雅卡尔系数=|Q1∩Q2|/|Q1∪Q2|;|Q1∩
    Q2|;Max(|Q1|,|Q2|);Min(|Q1|,|Q2|);以及,Levenshtein距离(Q1,Q2)。

    架构的应用范围从显式地示出某些释义(“建议”或“有关的搜索”)到隐式地发出
    被发现比显式输入的查询更成功地找到针对特定搜索问题的答案的查询。

    用户与搜索引擎的通常的交互可以包括多种反馈循环,其中用户输入查询、查看
    并研究结果、并且返回至搜索引擎以发出另一查询,直到用户到达信息意图被满足或者任
    务被放弃的端点为止。特定时间窗(跨度)内的这样的事件的序列(例如,查询、点击)被称为
    “搜索会话”。

    该架构识别搜索会话中作为原始查询的重新表达的查询,并且将该重新表达与以
    类似与原始查询的顺序发出的、但是覆盖完全无关意图的查询进行区分。

    更加具体地,当给定用户查询时,该架构可以确定一组精确并合适的重新表达,并
    且接着使用所述重新表达。额外地,当用户仍然在打字时,可以根据自动建议技术来显示所
    述重新表达。额外地,当结果屏幕被显示为相关的搜索(“相关搜索”)时,可以显示所述重新
    表达。当向搜索引擎发出搜索时,可以使用所述重新表达。

    针对会话中的每一查询的其他特征可以包括:与先前所提交的查询的时间差(以
    秒为单位)、由该查询所接收的跨会话的点击、查询的跨会话的提交、会话内的序列号、从会
    话的结束而开始计数的会话内的序列号、会话的长度(以所发出的查询数量来衡量)、与先
    前的查询相比所移除的令牌的数量、与先前的查询相比所替换的令牌的数量、与先前的查
    询相比所增加的令牌的数量、与先前的查询相比相同的令牌的数量、与先前的查询相比的
    基于字符的编辑距离(Levenshtein距离)、先前的查询的长度(以字符为单位)、会话的长度
    (以所发出的查询为单位)、以及该查询在会话中所接收的点击的数量。

    其他的特征可以包括查询的长度(以令牌为单位)、与先前的查询相比针对该查询
    所示出的URL(统一资源定位符)的重叠、对先前的查询的雅卡尔重叠(在令牌集上)、布尔
    值:查询与先前的查询相同、布尔值:查询是会话中的第一查询、查询是头n个最频繁的查询
    中的一个查询、布尔值:查询长度是一、布尔值:查询长度是二、在所点击的页面中的任何一
    个页面上的最大停留时间(例如,以秒为单位)、以及在所点击的页面上的最小停留时间(例
    如,以秒为单位)。

    所公开架构的替代物可以考虑其他的特征,例如如果查询彼此由相同的用户在X
    分钟内发出、具有共同的Y个词、在字符/词语方面具有特定的编辑距离(例如,Levenshtein
    距离、雅卡尔索引等),则可以将查询定义为具有相同的意图。

    可以在其他的实现中利用所公开的架构,所述其他实现例如可以检测主题的改变
    的聊天机器人程序(被设计为处理某些聊天功能的机器人程序),在与诸如被设计为响应用
    户命令和请求的语音识别程序之类的机器人程序的对话中,在该应用中有可能检测到用户
    何时切换意图,并且机器人程序相应地进行反应,以及在产品搜索程序和其他搜索基准
    (vertical)中。

    一般的架构可以包括以下步骤:

    (1)将会话中的每个条目映射至多个类c中的一个类,例如“相同的意图”s或“新的
    意图”n;其中通过函数

    (2)现在该会话包含时间轴上的查询至类c的元素的序列的映射;例如,{n,n,s,n,
    s,s}。每个序列{n,s…}可以被提取并被认为表示单个意图。

    (3)从这些查询中,识别最“成功的”查询。

    (4)现在可以将相同的单个意图会话中的每个查询映射至:a)下一个查询,假定当
    查询被重新表达时,它们变得更好,b)接下来的n个查询,c)会话中最成功的查询,d)任何搜
    索会话中最成功的查询,或e)将所有查询映射至所有查询。

    (5)在所有会话上将这些映射聚合以得到关系Q×Q,其将较不成功的查询映射至
    较成功的查询。

    (6)当用户输入查询时,“较成功的”查询的列表可以被查找,并且可以:a)当用户
    仍在键入时被显示(“建议”);b)当显示结果屏幕时被显示(“有关的搜索”);c)当向搜索引
    擎自身发出查询时被使用等。然而,查询不需要仅仅是成功的查询,而可以可替代地或者与
    其相结合地是相关的查询,无论是否成功。

    另一种方法涉及具有相同的意图的n个查询。该方法将该列表中的所有查询当作
    源,并且目标查询将是这些源查询中最好的查询。最好的查询通常与超过三十秒的停留时
    间相关联。另一种可选的方法将每个单个查询映射至每个单个的其他查询(所有的排列)。
    另一个选项是第一查询映射至每个随后的查询,第二查询映射至每个随后的查询,以此类
    推。接着,选择所有最好的查询,其中可以存在多个这样的查询。

    应当理解的是,尽管该描述可能聚焦于在线搜索引擎,但是所公开的架构也发现
    个人设备/系统/计算机搜索程序的应用,以使得针对个人计算机上的数据的搜索也可以受
    益于所公开的意图和在本文中所描述的重新表达功能。例如,对用户计算机上的具体的文
    档的查询的重新表达可以根据会话、意图等进行处理,并且以与在线搜索和搜索结果类似
    的方式而作为结果向用户呈现。

    现在对附图进行参考,其中,相同的附图标记用于表示通篇中相同的元素。在以下
    描述中,出于解释的目的而阐述了多个具体的细节以便提供对本发明的彻底的理解。然而
    显而易见的是,可以在没有这些具体细节的情况下实践新颖的实施例。在其他实例中,以框
    图的形式示出了公知的结构和设备,以便于促进对其的描述。其意图是覆盖落入所要求保
    护的主题的精神和范围内的所有修改、等同物和替代物。

    图1示出了根据所公开的架构的从查询重新表达中识别意图的系统100。系统100
    可以包括识别组件102,其被配置为识别作为原始查询108的重新表达的搜索会话106的经
    重新表达的查询104。映射组件110可以被包括,并且被配置为基于意图分类标准114将经重
    新表达的查询104映射至意图类112,以生成经映射的经重新表达的查询116。系统100还可
    以包括分组组件118,其被配置为基于分组标准122将经映射的经重新表达的查询116分组
    成多组单个意图120(例如,单个意图1、…、单个意图S)。

    分组标准122是基于距离先前的重新表达的查询的时间、点击的数量、以及每网页
    的停留时间的?;诒欢ㄒ逦碌囊馔己蟾嬗邢嗤囊馔嫉男蛄械囊馔挤掷啾曜?14而
    分组成多组单个意图中的每个组。映射组件110基于原始查询和相关联的经重新表达的查
    询的属性的特征向量而将经重新表达的查询104映射至意图类112。映射组件110将一组单
    个意图(例如,一组单个意图124)中的每个查询映射至以下中的至少一个:下一个查询、具
    体数量的接下来的查询、搜索会话的最佳查询、或者任何搜索会话中的最佳查询。

    图2示出了从查询重新表达中识别意图的可替代的系统200。系统200包括图1的系
    统100、以及选择组件202、聚合组件204、和呈现组件206。选择组件202被配置为从每组单个
    意图(多组单个意图120)中的查询中选择最佳查询?;谝韵轮械闹辽僖桓隼囱≡褚蛔榈?br />个查询的最佳查询:其后没有跟随有查询重新表达的用户交互的最大数量、在所选择的目
    标网站上的停留时间、或者对目标网站的人工评论。

    聚合组件204可以被配置为将来自多个会话的最佳查询进行聚合以用于呈现或结
    果处理中的一个,并且呈现组件206可以被配置为当输入新的查询时呈现成功的查询的列
    表,在以下中的至少一个中采用成功的查询:在自动建议技术中作为相关的搜索、作为对搜
    索引擎的直接查询而采用、或者在文档排序中采用。

    应当理解的是,在所公开的架构中,可以重新布置、组合、省略某些组件,并且可以
    包括额外的组件。额外地,在一些实施例中,在客户端上呈现了组件中的一些或全部组件,
    而在其他实施例中,一些组件可以驻留在服务器上或者由本地或远程服务来提供。

    更加具体而言,当给定用户查询时,该架构可以确定一组精确且合适的重新表达,
    并且接着使用所述重新表达。额外地,当用户仍然在打字时,可以根据自动建议技术来显示
    所述重新表达。当结果屏幕被显示为相关的搜索(“相关搜索”)时,可以显示所述重新表达。
    当向搜索引擎发出搜索时,可以使用所述重新表达。较成功的查询q1或q2或q3…的所有查
    询释义也被提交而不是仅仅提交查询q;因此,改变针对排名而考虑的文档的集合。重新表
    达可以用于确定文档自身的排名并作为针对排名方法的特征。

    换句话说,使得S为由元组组成的搜索会话,其中q是查询,t是发出查
    询的时刻的、在时间轴上创建查询的顺序的时间戳,并且是定义会话中的查询的进一步
    的属性的特征向量。所述属性可以包括但不限于:查询的长度、对结果执行的点击的数量、
    从先前发出的查询开始的时间、与先前的查询相比的共同的或经改变的词语的数量、以及
    跨用户的整体查询频率。

    针对会话中的每个查询的其他特征可以包括:与先前所提交的查询的时间差(以
    秒为单位)、由该查询所接收的跨会话的点击、查询的跨会话的提交、会话内的序列号、从会
    话的结束而开始计数的会话内的序列号、会话的长度(以所发出的查询数量来衡量)、与先
    前的查询相比所移除的令牌的数量、与先前的查询相比所替换的令牌的数量、与先前的查
    询相比所增加的令牌的数量、与先前的查询相比相同的令牌的数量、与先前的查询相比的
    基于字符的编辑距离(Levenshtein距离)、先前的查询的长度(以字符为单位)、会话的长度
    (以所发出的查询为单位)、以及该查询在会话中所接收的点击的数量。

    其他的特征可以包括查询的长度(以令牌为单位)、与先前的查询相比针对该查询
    所示出的URL(统一资源定位符)的重叠、对先前的查询的雅卡尔重叠(在令牌集上)、布尔
    值:查询与先前的查询相同、布尔值:查询是会话中的第一查询、查询是头n个最频繁的查询
    中的一个查询、布尔值:查询长度是一、布尔值:查询长度是二、在所点击的页面中的任何一
    个页面上的最大停留时间(例如,以秒为单位)、以及在所点击的页面上的最小停留时间(例
    如,以秒为单位)。

    应当理解的是,所述特征不仅取决于查询,而且也可以将以下内容考虑在内,包
    括:用户的特性(例如,用户简档信息)、用户位置(例如,地理位置、在网络上的位置等)、用
    户历史(例如,先前的动作、结果、选择、内容等)、用户在该查询中已经选择的(“点击的”)文
    档、在过去的交互/查询中所选择的文档等。

    该架构可以包括以下的更加具体的步骤:

    (1)将会话中的每个条目映射至多个类c中的一个类,例如“相同的意图”s或“新的
    意图”n;其中,通过函数可以使用以下的启发式方法来构建函数,所
    述启发式方法例如,“如果其不是第一查询并且至少3/4的词与先前的查询相同,则该意图
    被认为是‘s’;否则为‘n’”??梢允侄?例如,通过众包)来创建该函数,或者该函数可以是
    机器学习的分类器,其被训练为将会话的训练集手动地注释有类c的元素的可能性最大化。

    (2)现在该会话包含时间轴上的查询至类c的元素的序列的映射;例如,{n,n,s,n,
    s,s}。每个序列{n,s…}可以被提取并且被认为表示单个意图。

    (3)从这些查询中识别最“成功的”查询。例如,可以通过以下方式来定义成功:接
    收到其后没有跟随有任何进一步的重新表达的最大数量的点击的释义、用户在所点击的网
    站上花费的时间、目标网站上的手动的评论、可以手动地确定(例如,NDCG(归一化折损累积
    增益)型)、和/或通过停留时间来确定。

    (4)现在可以将相同的单个意图的会话中的每个查询映射至:a)下一个查询,假定
    当查询被重新表达时,它们变得更好,b)接下来的n个查询,c)该会话中最成功的查询,d)任
    何搜索会话中最成功的查询,或e)将所有查询映射至所有查询。

    (5)在所有会话上将这些映射聚合以得到关系Q×Q,其将较不成功的查询映射至
    较成功的查询。

    (6)当用户输入查询时,“较成功的”查询的列表可以被查找,并且可以:a)当用户
    仍在键入时被显示(“建议”);b)当显示结果屏幕时被显示(“有关的搜索”);c)当向搜索引
    擎自身发出查询时被使用等。较成功的查询q1或q2或q3…的所有释义也被提交或者在排名
    器内使用或者用于改进文档匹配,而不是仅仅提交查询q;因此,改变针对排名而考虑的文
    档的集合;并且,d)用于作为排名方法的特征而确定对文件自身的排名。

    图3示出了由同一用户所发出的一系列查询302,以及距离先前的查询304的时间
    和关于结果点击的数据306和花费在结果上的时间的量的图300。给定由同一用户所发出的
    一组查询,则目标是要将查询关于意图的类(例如,新的意图、相同的意图等)进行分组。大
    括号(“{}”)用于指示会话中并且根据时间的经分组的查询。在显示器上,在第三列中,每一
    个数字和破折号或连字号(“-”)表示一个URL(统一资源定位符)。破折号(或连字号)指示针
    对该URL的文档被显示但是未被点击,而数字指示该URL被点击并且指示用户在文档上停留
    的时间的量(“停留时间”)。

    在该示例中存在三个会话:包含被分组为第一分组308和第二分组310的查询的第
    一会话、针对第三分组312的第二会话、以及针对第四分组314的第三会话。括号指示了会话
    中并且根据时间的经分组的查询:分组308、310、312、和314。将查询的分组308和310分类为
    具有会话的单个意图(如由虚线括号所指示的)的一组查询。由用户作为原始查询在时间零
    处输入第一查询316(“上传至亚马逊冰川”)。

    因此,关于第一查询316,用户在第一会话的开始处(在时间零(0)处)发出第一查
    询316,并且接着,研究第二结果(在关联的URL处的网络文档)持续四十三(43)秒的停留时
    间。接着,在接下来的六(6)秒内,用户重新发出相同的第一查询316作为第二查询318(或在
    作为会话开始的先前的时间的四十九(49)秒之后)。在执行了第二查询318之后,用户选择
    不导航至结果页面(或文档)中的任何一个结果页面,如由破折号所指示的。

    在接下来的六(6)秒内,接着,用户通过插入术语“电子仓库”而将第二查询318重
    新表达为经重新表达的查询320,选择(“点击”)八个结果中的第一结果(该数字加上7个破
    折号),并且在第一结果URL上停留持续二十八(28)秒。在距离先前的查询(第三查询320)三
    十(30)秒之后,在第一会话中发出与第四查询322相同的第三查询320,其中从第四查询322
    接收到12个结果(如由10个破折号和两个数字所指示的)。用户选择第九结果、在该URL页面
    停留持续三十三(33)秒、并且接着选择第十一结果URL并在该页面停留持续三十二(32)秒。

    这定义了第一会话的第一意图。因此,将第一查询316分类为新的意图‘n’,其后是
    三个相同的意图分类‘s’。第一查询316和第二查询318的分类序列{n,s}标识第一会话的第
    一意图。

    在第四查询322之后的七十六(76)秒,发出第五查询324(“亚马逊冰川应用程序接
    口”)?;谝馔挤掷啾曜冀谖宀檠?24分类为“新的意图”。将第六查询326和到第九查询
    328的随后的查询分类为“相同的意图”查询。第五查询324和第六查询326的分类序列{n,s}
    标识第一会话的第二意图。

    根据该数据,支持用于推断查询“亚马逊电子仓库亚马逊冰川”将是针对“上传至
    亚马逊冰川”的经建议查询;或者是出于其他的目的,例如排名等。

    在针对第三组312的第二会话中,用户在第一会话的第九查询328之后的五十三
    (53)秒发出了第十查询330(“Dropbox”)。用户在八个结果中的第一结果上停留七十九(79)
    秒。在离开第十查询330的八个结果中的第一结果的三秒内,用户在第三会话中发出了第十
    一查询332。尽管第十查询330可以是与第九查询328相关的新的查询,但没有将第十查询
    330分类为新的意图,这是因为没有将第十一查询332(“丛林光盘定价(jungle
    diskpricing)”)分类为相同的意图,并且未检测到{n,s}序列。

    在离开第十一查询332的八个结果中的第一结果八十二(82)秒之内,用户发出第
    十二查询334。随着第十二查询334被分类为“相同的意图”的查询{n,s},检测到{n,s}序列
    并且分组314是新的意图分组(或集合)。

    使用以上的信息,可以使用特征以及由相同的意图‘s’或新的意图‘n’所标记的每
    个查询来对分类器进行训练。一旦被训练,就将分类器应用至新的用户搜索会话并且导出
    针对每个查询的这些标签。从而,在第一会话(分组308和分组310)中,用于针对新的意图的
    标签‘n’来标记第一查询316,用针对相同的意图的标签‘s’来标随后的记三个查询。在第一
    会话的第二集合(分组)中,用标签‘n’来标记“亚马逊冰川应用程序接口”的第一实例,随后
    的五个查询被标记为相同的意图‘s’。第二会话是由查询“dropbox”来确定的并且被标记为
    ‘n’,并且第三会话是由被标记为‘n’的查询“丛林磁盘定价”来发起的,随后的经重新表达
    的查询“丛林磁盘评论”被标记为‘s’。

    如先前所指示的,可以聚合用户会话中的一些或全部用户会话??梢源泳肿榈?br />查询中移除重复并且可以获得最佳的经重新表达的查询。此外,提供了将最差的查询映射
    至较好的查询的方案。

    所公开的架构可以可选地包括隐私组件,其使得用户能够选择加入或选择退出暴
    露个人信息和搜索信息。隐私组件使能对用户的信息进行经授权和安全的处理,所述信息
    例如跟踪信息,以及可以已经获得、保存、和/或可访问的个人信息??梢韵蛴没峁┒愿鋈?br />信息的一部分进行收集的通知以及选择加入或选择退出收集过程的机会。同意可以采用多
    种形式。选择加入同意可以施加于用户以使其在收集数据之前采取确认动作??商娲?,选
    择退出同意可以施加于用户以使其在收集数据之前采取确认动作以避免对数据的收集。

    图4示出了用作用于将查询映射至意图分类的意图分类标准的一些特征400。特征
    400可以包括但不限于:查询的长度402、对结果的点击的数量402、距离先前发出的查询的
    时间(例如,以秒为单位)406、与先前的查询相比的共同的或经改变的词语的数量408、以及
    跨用户的整体查询频率410。

    针对会话中的每个查询的其他特征可以包括,由该查询所接收的跨会话的点击
    412、查询的跨会话的提交414、会话内的序列号416、从会话的结束而开始计数的会话内的
    序列号418、会话的长度(以所发出的查询数量来衡量)420、与先前的查询相比所移除的令
    牌的数量422、与先前的查询相比所替换的令牌的数量424、与先前的查询相比所增加的令
    牌的数量426、与先前的查询相比相同的令牌的数量428、与先前的查询相比的基于字符的
    编辑距离(Levenshtein距离)430、先前的查询的长度(以字符为单位)432。

    其他的特征可以包括:会话的长度(以所发出的查询为单位)、该查询在该会话中
    所接收的点击的数量、查询的长度(以令牌为单位)、与先前的查询相比针对该查询所示出
    的URL(统一资源定位符)的重叠、对先前的查询的雅卡尔重叠(在令牌集上)、布尔值:查询
    与先前的查询相同、布尔值:查询是会话中的第一查询、查询是头n个最频繁的查询中的一
    个查询、布尔值:查询长度是一、布尔值:查询长度是二、在所点击的页面中的任何一个页面
    上的最大停留时间(例如,以秒为单位)、以及在所点击的页面上的最小停留时间(例如,以
    秒为单位)等。

    以下是示例源查询和可能的目标查询的表格。

    表格1.示例源/目标查询


    目标
    以沙滩为主题的婚礼蛋糕
    沙滩主题婚礼
    沙滩伞目标
    沙滩伞
    熊山
    熊山纽约

    例如,给定了“以沙滩为主题的婚礼蛋糕”,由该架构所识别的相关的查询/意图可
    以是“沙滩主题婚礼(取决于应用程序)”。

    在本文中所包括的是表示用于执行所公开的架构的新颖的方面的示例性方法的
    一组流程图。尽管为了解释的简单起见,例如以流程图表或流程图的形式本文中所示出的
    一个或多个方法是作为一系列动作而示出和描述的,但是应当理解并意识到的是,这些方
    法并不受动作的顺序所限制,这是由于一些动作可以据此与以与在本文中所示出和描述的
    其它动作不同的顺序发生和/或在本文中所示出和描述的其它动作同时发生。例如,本领域
    技术人员应当理解并意识到的是,方法可以替代地被表示为一系列互相联系的状态或事
    件,例如在状态图中。此外,新颖的实现可以不需要在方法中所示出的所有动作。

    图5示出了根据所公开的架构的方法。在500处,识别作为原始查询的重新表达的
    搜索会话的经重新表达的查询。在502处,基于意图分类标准将经重新表达的查询映射至意
    图类。在504处,基于分组标准将经映射的经重新表达的查询分组成多组单个意图。在506
    处,从每组单个意图中选择最佳查询。在508处,对来自多个会话的最佳查询进行聚合以用
    于呈现或结果处理中的至少一个。

    该方法还可以包括根据在其他查询中的查询顺序和相对于先前查询的查询结构
    来定义意图分类标准。该方法还可以包括根据时间和意图类的序列而对经重新表达的查询
    进行映射。该方法还可以包括基于作为分组标准的意图类而对经映射的经重新表达的查询
    进行分组。该方法还可以包括基于以下中的至少一个来选择一组单个意图中的最佳查询:
    其后没有跟随有查询重新表达的用户交互的最大数量、用户在所选择的目标网站上的停留
    时间、或者目标网站的人工评论。

    该方法还可以包括将一组单个意图中的每个查询映射至以下中的至少一个:下一
    个查询、具体数量的接下来的查询、搜索会话的最佳查询、或者任何搜索会话中的最佳查
    询。该方法还可以包括当输入新的查询时呈现成功的查询的列表,在以下中的至少一个中
    采用成功的查询:在自动建议技术中作为相关的搜索、对搜索引擎的直接查询而采用、或者
    在文件排名中采用。

    图6示出了根据所公开的架构的可替代的方法。该方法可以以包括计算机可执行
    指令的计算机可读存储介质来实现,其中当由微处理器执行时,所述指令使得该微处理器
    执行以下动作。

    在600处,识别作为该会话的查询的重新表达的经重新表达的查询。在602处,基于
    意图分类特征将经重新表达的查询映射至意图类。在604处,基于分组标准而将经映射的经
    重新表达的查询分组成多组单个意图。在606处,从每组单个意图中选择最佳查询。

    该方法还可以包括对来自多个会话的最佳查询进行聚合以用于呈现或结果处理
    中的一个,并且当输入新的查询时呈现成功的查询的列表,在以下中的至少一个中采用成
    功的查询:在自动建议技术中作为相关的搜索、对搜索引擎的直接查询而采用、或者在文件
    排名中采用。该方法还可以包括将一组单个意图中的每个查询映射至以下中的至少一个:
    下一个查询、具体数量的接下来的查询、搜索会话的最佳查询、或者任何搜索会话中的最佳
    查询。该方法还可以包括根据时间和意图类的序列来对经重新表达的查询进行映射。

    如在该申请中所使用的,术语“组件”和“系统”旨在指代有关计算机的实体,其是
    硬件、软件和有形的硬件的组合、软件、或执行中的软件中的一个。例如,组件可以是但不限
    于诸如微处理器、芯片存储器、大容量存储设备(例如,光盘驱动器、固态驱动器、和/或磁存
    储介质驱动器)、和计算机等之类的有形的组件,以及诸如在微处理器上运行的进程、对象、
    可执行文件、数据结构(存储在易失性或非易失性存储介质中)、???、执行线程、和/或程序
    之类的软件组件。

    作为示例,在服务器上运行的应用和服务器两者都可以是组件。一个或多个组件
    可以驻留在进程和/或执行线程内,并且组件可以位于一个计算机上和/或分布在两个或多
    个计算机之间。词语“示例性”在本文中可以用于意指充当示例、实例、或图示。在本文中被
    描述为“示例性”的任何方面或设计都非必须被解释为比其他方面或设计更加优选或有利。

    现在参考图7,示出了根据所公开的架构的执行从查询重新表达中识别意图的计
    算系统700的框图。然而,应当理解的是,可以将所公开的方法和/或系统的一些或全部方面
    实现为片上系统,其中,模拟、数字、混合信号、以及其他功能是在单个芯片衬底上制造的。

    为了针对其各个方面来提供额外的上下文,图7及以下的描述旨在提供对其中可
    以实现各个方面的合适的计算系统700的简要、概括的描述。尽管以上的描述是在可以在一
    个或多个计算机上运行的计算机可执行指令的一般性的上下文中的,但是本领域技术人员
    将认识到,也可以结合其他程序??楹?或作为硬件和软件的组合来实现新颖的实施例。

    用于执行各个方面的计算系统700包括计算机702,该计算机具有微处理单元704
    (也称为微处理器和处理器)、诸如系统存储器706之类的计算机可读存储介质(计算机可读
    存储介质还包括磁盘、光盘、固态驱动器、外部存储系统、和闪速存储器驱动器)、以及系统
    总线708。微处理单元704可以是诸如单处理器、多处理器、处理和/或存储电路的单核单元
    和多核单元之类的各种商业可用的微处理器中的一种。此外,本领域的技术人员应当理解,
    可以利用其他计算系统配置(包括小型计算机、大型计算机、以及个人计算机(例如,台式计
    算机、膝上型计算机、平板PC等)、手持计算设备、基于微处理器的或可编程的消费型电子设
    备等,它们中的每一个都可以可操作地耦合至一个或多个相关联的设备)来实践新颖的系
    统和方法。

    计算机702可以是在数据中心和/或计算资源(硬件和/或软件)中所采用的支持针
    对便携式和/或移动计算系统(例如,无线通信设备、蜂窝式电话和其他移动功能的设备)的
    云计算服务的几个计算机中的一个计算机。云计算服务包括但不限于,例如,基础设施即服
    务、平台即服务、软件即服务、存储即服务、桌面即服务、数据即服务、安全即服务、以及API
    (应用程序接口)即服务。

    系统存储器706可以包括诸如易失性(VOL)存储器710(例如,随机存取存储器
    (RAM))和非易失性存储器(NON-VOL)712(例如,ROM、EPROM、EEPROM等)之类的计算机可读存
    储(物理存储)介质?;臼淙?输出系统(BIOS)可以存储在非易失性存储器712中,并且包
    括基础例程,所述基础例程促进在计算机702内的组件之间的数据和信号的通信,例如,在
    启动期间。易失性存储器710还可以包括用于对数据进行缓存的高速RAM(例如,静态RAM)。

    系统总线708为系统组件提供了接口,这些系统组件包括但不限于到微处理单元
    704的系统存储器706。系统总线708可以是可以进一步互联至存储器总线(具有或不具有存
    储控制器)和外围总线(例如,PCI、PCIe、AGP、LPC等)的、使用商业上可获得的多种总线架构
    中的任何一种的、多种类型的总线结构中的任何一种。

    计算机702还包括机器可读的存储子系统714以及用于将存储器子系统714接合至
    系统总线708和其他期望的计算机组件和电路的存储接口716。存储子系统714(物理存储介
    质)可以包括以下存储设备中的一个或多个:例如,硬盘驱动器(HDD)、磁软盘驱动器(HDD)、
    固态驱动器(SSD)、闪存驱动器、和/或光盘存储驱动器(例如,CD-ROM驱动器、DVD驱动器)。
    存储器接口716可以包括诸如EIDE、ATA、SATA、和IEEE1394之类的接口技术。

    可以将一个或多个程序和数据存储在存储子系统706、机器可读和可移动存储子
    系统718(例如,闪存驱动器形式因子技术)、和/或存储子系统714(例如,光的、磁的、固态
    的),所述一个或多个程序和数据包括操作系统720、一个或多个应用程序722、其他程序模
    块724、以及程序数据726。

    操作系统720、一个或多个应用程序722、其他程序???24、和/或程序数据726可
    以包括:例如图1的系统100中的项目和组件、图2的系统200中的项目和组件、图3的框图300
    中的项目和结构、图4的特征400、以及由图5和6的流程图所呈现的方法。

    概括而言,程序包括执行特定的任务、功能、或实现特定的抽象数据类型的例程、
    方法、数据结构、其它软件组件等。操作系统720、应用722、???24、和/或数据726中的全部
    或部分也可以被缓存在诸如易失性存储器710和/或非易失性存储器之类的存储器中。应当
    理解的是,可以利用各种商业上可获得的操作系统或操作系统的组合(例如,作为虚拟机)
    来实现所公开的架构。

    存储子系统714和存储器子系统(706和718)充当用于对数据、数据结构、计算机可
    执行指令等进行易失性和非易失性存储的计算机可读介质。当由计算机或其他机器执行
    时,这样的指令可以使得计算机或其他机器执行方法的一个或多个动作。计算机可执行指
    令包括例如使得通用计算机、专用计算机、或者专用微处理器设备执行某个功能或某组功
    能的指令和数据。计算机可执行指令可以例如是二进制的、中间格式的指令,例如汇编语
    言、或者甚至是源代码??梢越糜谥葱猩鲜龆鞯闹噶畲娲⒃谝桓鼋橹噬?、或者可以跨多
    个介质而存储,以使得指令共同出现在一个或多个计算机可读存储介质上,而不管是否所
    有的指令都在相同的介质上。

    计算机可读存储介质(单个介质)排除了传播的信号本身、可以由计算机702访问、
    并且包括可移动的和/或不可移动的易失性和非易失性内部和/或外部介质。对于计算机
    702而言,各种类型的存储介质以任何适当的数字格式来适应对数据的存储。本领域的技术
    人员应当理解的是,可以采用诸如zip驱动器、固态驱动器、磁带、闪速存储器卡、闪存驱动
    器、盒式磁盘等之类的其他类型的计算机可读介质,以对用于执行所公开的架构的新颖方
    法(动作)的计算机可执行指令进行存储。

    用户可以使用诸如键盘和鼠标之类的外部用户输入设备728以及通过由语音识别
    所促成的语音命令来与计算机702、程序、和数据进行交互。其他的外部用户输入设备728可
    以包括:麦克风、IR(红外)远程控制、操纵杆、游戏手柄、相机识别系统、手写笔、触摸屏、手
    势系统(例如,眼部运动、例如涉及手、手指、手臂、头部等的身体姿势)等。用户可以使用诸
    如触摸板、麦克风、键盘等之类的板载用户输入设备730来与计算机702、程序、和数据进行
    交互,其中,计算机702例如是便携式计算机。

    将这些和其他输入设备经由系统总线708、通过输入/输出(I/O)设备接口732而连
    接至微处理单元704,但是也可以通过诸如并行端口、IEEE1394串行端口、游戏端口、USB端
    口、IR接口、短距离无线(例如,蓝牙)和其他个域网(PAN)技术等之类的其他接口来连接。I/
    O设备接口732还便于使用诸如打印机、音频设备、相机设备等之类的输出外设734,例如声
    卡和/或板载音频处理能力。

    一个或多个图形接口736(通常也称为图形处理单元(GPU))在计算机702和外部显
    示器738(例如,LCD、等离子)和/或板载显示器740(例如,针对便携计算机)之间提供图形和
    视频信号。图形接口736还可以被制造为计算机系统板的一部分。

    计算机702可以在使用经由有线/无线通信子系统742至一个或多个网络和/或其
    他计算机的逻辑连接的网络化环境(例如,基于IP的)中运行。其他计算机可以包括工作站、
    服务器、路由器、个人计算机、基于微处理器的娱乐家电、对等设备、或其他公共网络节点,
    并且通常包括关于计算机702所描述的元件中的许多或全部元件。逻辑连接可以包括至局
    域网(LAN)、广域网(WAN)、热点等的有线/无线连通性。LAN和WAN联网环境在办公室和公司
    中是司空见惯的,并促进了企业范围的计算机网络,例如内联网,所有这些网络都可以连接
    至诸如互联网之类的全球通信网络。

    当在联网环境下使用时,计算机702经由有线/无线通信子系统742(例如,网络接
    口适配器、板载收发机子系统等)连接至网络,以与有线/无线网络、有线/无线打印机、有
    线/无线输入设备744等进行通信。计算机702可以包括调制解调器或者用于建立通过网络
    的通信的其它单元。在联网环境下,可以将与计算机702相关的程序和数据存储在远程存储
    器/存储设备中,如与分布式系统相关联。应当理解的是,所示出的网络连接是示例性的,且
    可以使用在计算机之间建立通信链路的其他单元。

    计算机702可操作成使用诸如IEEE 8.02.xx标准系列之类的无线技术来与有线/
    无线设备或实体进行通信,例如无线设备可操作地设置在与例如打印机、扫描仪、台式计算
    机和/或便携式计算机、个人数字助理(PDA)、通信卫星、与无线可检测的标签相关联的任何
    一个装置或位置(例如,信报亭、新闻站、休息室)、以及电话的无线通信(例如,IEEE 802.11
    无线调制技术)中的无线设备。这至少包括针对热点的Wi-FiTM(用于验证无线计算机联网设
    备的互操作性)、WiMax、以及蓝牙TM无线技术。因此,通信可以是正如传统网络的预先定义的
    结构或者在至少在两个设备之间的简单的自组织通信。Wi-Fi网络使用被称为IEEE
    802.11x(a、b、g、等)的无线技术以提供安全、可靠、快速的无线连通性。Wi-Fi网络可用于将
    计算机彼此连接、连接至互联网、以及连接至无线网络(其使用有关IEEE 802.3的技术和功
    能)。

    在上文中已经描述的内容包括所公开的架构的示例。当然,不可能描述组件和/或
    方法的每种能想到的组合,但本领域技术人员可以理解的是,许多进一步的组合和排列是
    可能的。从而,新颖的架构旨在包含落入所附权利要求的精神和范围内的所有这些改变、修
    改和变型。此外,就在具体实施方式或权利要求中所使用的术语“包括”而言,这样的术语旨
    在以类似于术语“包含”的方式是包含性的,如当在权利要求中用作过渡词时“包含”被翻译
    的那样。

    关于本文
    本文标题:在搜索中从查询重新表达中识别意图.pdf
    链接地址://www.4mum.com.cn/p-6110423.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 北京pk10免费软件 飞艇网页版计划 色胆包天是指哪个生肖 全部彩票的计划软件 3个骰子猜大小规则 分分快3全天在线计划 后三组选包胆倍投 2013时时彩稳赚技巧 香港时时彩开奖查询 极速时时是私人的 赛车全天人工计划群 上海时时开奖直播 大乐透100期的走势图 六肖中特期期准↙ 后三断组什么意思 快三的导师为什么这么准