• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 22
    • 下载费用:30 金币  

    重庆时时彩如何代理: 搜索系统和相应方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201380068827.X

    申请日:

    2013.12.27

    公开号:

    CN104885081A

    公开日:

    2015.09.02

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 著录事项变更IPC(主分类):G06F 17/30变更事项:发明人变更前:本杰明·麦德洛克 大卫·保罗·威廉姆斯 阿雷·詹姆斯变更后:本杰明·麦德洛克 大卫·保罗·威廉姆斯 J·阿雷|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131227|||著录事项变更IPC(主分类):G06F 17/30变更事项:发明人变更前:本杰明·麦德洛克 大卫·保罗·威廉姆斯变更后:本杰明·麦德洛克 大卫·保罗·威廉姆斯 阿雷·詹姆斯|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 触摸式有限公司
    发明人: 本杰明·麦德洛克; 大卫·保罗·威廉姆斯
    地址: 英国伦敦
    优先权: 1223450.6 2012.12.27 GB
    专利代理机构: 北京华夏正合知识产权代理事务所(普通合伙)11017 代理人: 韩登营; 栗涛
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201380068827.X

    授权公告号:

    |||||||||

    法律状态公告日:

    2017.04.26|||2016.01.06|||2015.10.28|||2015.09.02

    法律状态类型:

    著录事项变更|||实质审查的生效|||著录事项变更|||公开

    摘要

    本发明提供一种搜索系统,其包括在与一段内容相关联的文本上训练的统计模型。与该段内容相关联的所述文本是从多个不同的数据源中提取的。所述系统用于接收文本输入,并生成该段内容与给定的文本输入之间存在相关性的似然性估计。本发明还提供了相应的方法。

    权利要求书

    权利要求书
    1.  一种搜索系统,其包括:
    在与一段内容相关联的文本上训练的统计模型,其中,与该段内容相关联的所述文本是从多个不同的数据源中提取的,
    所述系统用于接收文本输入;以及通过所述统计模型,生成该段内容与给定的所述文本输入之间存在的相关性的似然性估计。

    2.  根据权利要求1所述的系统,其中,所述统计模型在从与该段内容相关联的所述文本中提取的特征上训练,其中,所述系统进一步包括:
    特征提取机构,其用于从所述文本输入中提取特征;以及
    关联机构,其用于以所述文本输入的各特征查询所述统计模型,以生成该段内容与给定的所述文本输入之间存在相关性的似然性估计。

    3.  根据权利要求1或2所述的系统,其中,所述系统包括在与多段内容相关联的文本上训练的多个统计模型,
    所述系统用于通过与多段内容中的各段内容相关联的统计模型,生成所述多段内容中的各段内容与给定的所述文本输入之间存在相关性的似然性估计。

    4.  根据权利要求3所述的系统,其中,所述系统用于根据相关性将所述多段内容排序,并确定一段或多段最相关的内容。

    5.  根据权利要求4所述的系统,其中,所述系统用于输出一段或多段所述最相关的内容中的各段内容的至少一个代表。

    6.  根据权利要求4所述的系统,其中,所述系统用于输出一段或多段所述最相关的内容。

    7.  根据任何前述权利要求之一所述的系统,其中,所述内容是特定的实体。

    8.  根据权利要求1-6的任一项所述的系统,其中,所述内容与特定实体相关联。

    9.  根据引用权利要求4的权利要求8所述的系统,其中,所述系统用于输出与一段或多段所述最相关的内容相关联的一个或多个实体的至少一个代表。

    10.  根据任何前述权利要求之一所述的系统,其中,所述系统进一步包括在与一段或多段内容有关的非文本数据上训练的统计模型。

    11.  根据权利要求10所述的系统,其中,所述系统用于:
    接收非文本证据;以及
    通过在非文本数据上训练的所述统计模型,生成该段内容与给定的所述非文本证据之间存在相关性的似然性估计。

    12.  根据权利要求3或引用权利要求3的权利要求4-11中的任一项所述的系统,其中,所述系统包括用于对所述文本输入进行分类的分类器。

    13.  根据权利要求12所述的系统,其中,所述分类器用于:
    按内容类型对多个在文本上训练的统计模型中的每一个模型进行分类;
    按内容类型对所述文本输入分类;以及
    确定与所述文本输入属于相同内容类型的多个统计模型的子集。

    14.  根据引用权利要求2的权利要求13所述的系统,其中,所述关联引擎用于以所述文本输入的各特征来查询统计模型的子集的各统计模型,以生成与所述模型的子集的各统计模型相关联的各段内容与给定的所述文本输入之间存在相关性的似然性估计。

    15.  根据权利要求12所述的系统,其中,所述系统进一步包括:在自然语言文本上训练的第一语言模型和在对话文本上训练的第二语言模型,其中,所述分类器用于将一部分所述文本输入与所述第一、第二模型进行比较,以将该部分所述文本输入分类为自然语言或对话语言。

    16.  根据权利要求15所述的系统,其中,如果该部分所述文本 输入被分类为对话语言,则所述系统用于丢弃该部分所述文本输入。

    17.  一种用于确定一段内容与文本输入是否相关的方法,所述方法包括:
    在搜索系统接收文本输入;以及
    通过在与一段内容相关联的文本上训练的统计模型,生成该段内容与给定的所述文本输入之间存在相关性的似然性估计,
    其中,所述与该段内容相关联的文本是从多个不同的数据源中提取的。

    18.  根据权利要求17所述的方法,其中,所述统计模型在从与该段内容相关联的所述文本中提取的特征上训练,所述方法进一步包括:
    通过特征提取机构从所述文本输入中提取特征;以及
    通过关联机构以所述文本输入的各特征查询所述统计模型,以生成该段内容与给定的所述文本输入之间存在相关性的似然性估计。

    19.  根据权利要求17或18所述的方法,其中,所述方法进一步包括:
    使用了与多段内容相关联的文本上训练的多个统计模型的似然性估计生成步骤,所述似然性估计生成步骤具体为:
    通过与所述多段内容中的各段内容相关联的统计模型,生成多段内容中的各段内容与给定的文本输入之间存在相关性的似然性估计。

    20.  根据权利要求19所述的方法,其中,所述方法进一步包括:根据相关性将所述多段内容排序,并确定一段或多段最相关的内容。

    21.  根据权利要求20所述的方法,其中,所述方法进一步包括:输出一段或多段所述最相关的内容中的各段内容的至少一个代表。

    22.  根据权利要求20所述的方法,其中,所述方法进一步包 括:输出一段或多段最相关的内容。

    23.  根据权利要求17-22的任一项所述的方法,其中,所述内容是特定的实体。

    24.  根据权利要求17-23的任一项所述的方法,其中,所述内容与特定的实体相关联,所述方法进一步包括:输出与一段或多段所述最相关的内容相关联的一个或多个实体的至少一个代表。

    25.  根据权利要求17-24的任一项所述的方法,其中,所述方法进一步包括:
    通过在与一段或多段内容相关的非文本数据上训练的统计模型,生成多段内容中的各段内容与给定的非文本证据之间存在相关性的似然性估计。

    26.  根据权利要求19或引用权利要求19的权利要求20-25中任一项所述的方法,其中,所述方法包括:通过分类器对所述文本输入进行分类。

    27.  根据权利要求26所述的方法,其中,所述方法进一步包括:
    通过所述分类器,按内容类型对多个在文本上训练的所述统计模型中的每一个统计模型进行分类;
    按内容类型对所述文本输入进行分类;以及
    确定与所述文本输入属于相同内容类型的多个统计模型的子集。

    28.  根据引用权利要求18的权利要求27所述的方法,其中,所述方法包括:
    通过所述关联引擎,以文本输入的各特征来查询多个所述统计模型的子集的各统计模型,并生成各段内容与给定的所述文本输入之间存在相关性的似然性估计,其中所述各段内容与多个所述模型的子集的各模型相关联。

    29.  根据权利要求26所述的方法,其中,所述系统进一步包括:在自然语言文本上训练的第一语言模型和在对话文本上训练的第二 语言模型,其中,所述方法包括:
    通过分类器,将一部分所述文本输入与所述第一、第二模型进行比较;以及
    将该部分所述文本输入分类为自然语言或对话语言。

    30.  根据权利要求29所述的方法,其中,所述方法进一步包括:当该部分所述文本输入被分类为对话语言时丢弃该部分所述文本输入。

    31.  根据权利要求1-16任一项所述系统或权利要求17-30任一项所述的方法,其中,所述文本输入是用户文本输入。

    32.  根据权利要求1-16任一项所述系统或权利要求17-30任一项所述的方法,其中,所述文本输入不通过用户输入到所述系统中。

    33.  一种包括计算机可读介质的计算机程序产品,在所述计算机可读介质上存储有计算机程序手段,该计算机程序手段用于使处理器执行权利要求17-30任一项所述的方法。

    说明书

    说明书搜索系统和相应方法
    技术领域
    本发明涉及电子搜索系统,例如电子搜索引擎,以及用于电子搜索的相应的方法。
    技术背景
    传统上,搜索引擎已被设计成返回相关文件(例如网页)来响应用户查询。要做到这一点,搜索引擎将用户查询(包括关键字)与分配给特定网页的索引项或标签进行比较。如果用户输入的关键字和网页索引项匹配,则该搜索引擎会返回与用户查询相关的网页。
    然而,该方法存在一些缺点。为了使用传统搜索引擎,用户必须将他的搜索查询提炼成若干相关的关键字,或短问题,并且,在一般情况下,该搜索的结果高度取决于用户对于关键字的选择。传统搜索引擎并不能处理大量输入文本或自然语言文本。此外,传统搜索引擎局限于返回一个或多个特定文件作为结果。
    此外,如果与特定网页相关联的索引项集不包括其中的一个关键字,那么传统搜索引擎可以会错误地把网页作为不相关的网页丢弃。
    发明内容
    本发明提供可以解决传统搜索引擎的弊端的一些搜索系统和搜索方法。
    本发明涉及概率驱动搜索系统,该系统可以考虑到一系列证据源,来将相关的内容提供给用户?;诿魅返乃阉鞑檠蚰承┢渌谋臼淙?,本发明的系统和方法使用统计模型来将相关的内容建议提供给用户,所述统计模型由与可识别的多段内容相关联的数据集 推导出。
    本发明的第一个方面在于提供了一种搜索系统。所述搜索系统用于:接收文本输入,针对多段内容中的每一段生成该段内容与给定的文本输入之间存在相关性的似然性的估计,并选择性地输出作为内容建议的一段或多段最相关的内容。
    所述搜索系统的优选实施例包括统计模型。所述统计模型在与一段内容相关联的文本上进行训练,其中所述与一段内容相关联的文本是从多个不同的数据源中提取出的。该系统用于:接收文本输入,并通过统计模型生成该段内容与给定的文本输入之间存在相关性的似然性的估计。
    在一个优选实施例中,统计模型在一些特征上训练,这些特征是从与该段内容相关联的文本中提取出的。其中所述系统还包括:特征提取机构,其用于从文本输入中提取多个(一些)特征;以及关联机构,其用于以所述文本输入的各特征查询统计模型,从而生成该段内容与给定的文本输入之间存在相关性的似然性的估计。
    优选地,所述系统包括在与多段内容相关联的文本上训练的多个统计模型。所述系统用于:通过与多段内容中的每一段相关联的统计模型,生成所述多段内容中的各段内容与给定的文本输入之间存在相关性的似然性的估计。
    所述系统可用于根据相关性将所述多段内容排序,并确定一段或多段最相关的内容。
    所述系统可用于输出所述一段或多段最相关的内容中的各段内容的至少一个代表。
    所述系统可用于输出一段或多段最相关的内容。
    该段内容可以是特定的实体或与特定实体相关联的内容。
    所述系统可用于输出与所述一段或多段最相关的内容相关联的一个或多个实体的至少一个代表。
    所述系统可以包括在与一段或多段内容有关的非文本数据上训练的统计模型。优选地,所述系统用于接收非文本证据,并通过在 非文本数据上训练的统计模型,生成该段内容与给定的非文本证据之间存在相关性的似然性估计。
    所述系统可以包括用于对文本输入进行分类的分类器。
    所述分类器可以用于对多个在文本上训练的统计模型中的每一个模型按内容类型分类,对文本输入按内容类型分类,并确定与所述文本输入属于相同内容类型的多个统计模型的子集。优选地,所述关联引擎用于以文本输入的各特征来查询统计模型的子集的各统计模型,以生成与所述模型的子集的各模型相关联的各段内容与给定的文本输入之间存在相关性的似然性估计。
    所述系统可以包括在自然语言文本上训练的第一语言模型和在对话文本上训练的第二语言模型。所述分类器可以用于将一部分文本输入与第一、第二模型进行比较,以将该部分文本输入分类为自然语言或对话语言。优选地,如果该部分文本输入分类为对话语言,则所述系统用于丢弃该部分文本输入。
    文本输入可以通过用户输入到系统中??商娲?,文本输入不通过用户输入到系统中。例如,无需用户干预,将文本输入提供给系统,例如该系统可接收来自,但不限于,电视或无线电广播、因特网网页、电子邮件会话、新闻推送等的文本输入。
    所述系统可以用于根据多个证据源生成多段内容的相关性的似然性估计,其中所述多个证据源之一是文本输入。所述系统因此可以用于接收多个证据。
    优选地,所述系统包括内容数据库,在该内容数据库中各段内容与多个数据集类型(例如文本、用户点击历史等)相关联。优选地,各段内容与内容类型(例如,电影、文献等)相关联。优选地,所述内容数据库包括至少一种基于语言的与各段内容相关联的统计模型,其中所述至少一个基于语言的统计模型在与所述一段内容相关联的文本数据集上训练。优选地,所述系统用于将所述输入文本提供给多个基于语言的统计模型,以生成各段内容与给定的输入文本之间存在相关性的似然性估计。优选地,所述系统除使用输入文 本之外,还使用非文本证据来生成该似然性估计。
    基于语言的统计模型是在文本上训练过的统计模型。
    本发明的第二个方面在于,提供一种用于提供一个或多个内容建议的搜索内容的方法。所述方法包括:接收文本输入,对多段内容中的各各段内容,生成该段内容与给定的文本输入之间存在相关性的似然性估计,并选择性地输出作为内容建议的一段或多段最相关的内容。
    在一优选实施例中,所述方法为用于确定一段内容是否与文本输入相关的方法。所述方法包括:在搜索系统接收文本输入,并通过在与一段内容相关联的文本上训练的统计模型,生成该段内容与给定的文本输入之间存在相关性的似然性估计。所述与该段内容相关联的文本是从多个不同的数据源中提取出的。
    在一优选实施例中,所述统计模型在从与该段内容相关联的所述文本中提取的特征上训练。所述方法进一步包括:通过特征提取机构从所述文本输入中提取特征,并通过关联机构以文本输入的各特征查询统计模型,以生成该段内容与给定的文本输入之间存在相关性的似然性估计。
    优选地,所述方法包括使用了与多段内容相关联的文本上训练的多个统计模型的似然性估计生成步骤,所述似然性估计生成步骤具体为:通过与所述多段内容中的各段内容相关联的统计模型,生成多段内容中的各段内容与给定的文本输入之间存在相关性的似然性估计
    所述方法可以进一步包括:根据相关性将所述多段内容排序,并确定一段或多段最相关的内容。
    所述方法可以进一步包括:输出所述一段或多段最相关的内容中的各段内容的至少一个代表。
    所述方法可以进一步包括:输出一段或多段最相关的内容。
    所述一段内容可以是特定的实体。所述一段内容可以与特定实体相关联,所述方法进一步包括:输出与所述一段或多段最相关的 内容相关联的一个或多个实体的至少一个代表。
    所述方法可以包括:通过在与一段或多段内容相关的非文本数据上训练的统计模型,生成多段内容中的各段内容与给定的非文本数据之间存在相关性的似然性估计。
    本发明的一个实施例中,所述方法包括:通过分类器对文本输入进行分类。
    所述方法可以包括:通过分类器对在文本上训练的所述多个统计模型中的每一个按内容类型分类,对文本输入按内容类型分类,以及确定与所述文本输入属于相同内容类型的多个统计模型的子集。
    所述方法包括:通过所述关联引擎,以文本输入的各特征来查询统计模型的子集的各统计模型,以及生成各段内容与给定的文本输入之间存在相关性的似然性估计,其中所述各段内容与所述模型的子集的各模型相关联。
    所述系统可以包括:在自然语言文本上训练的第一语言模型和在对话文本上训练的第二语言模型,而所述方法可以包括:通过分类器,将一部分文本输入与第一、第二模型进行比较;并将该部分文本输入分类为自然语言或对话语言。所述方法可以进一步包括:当该部分文本输入分类为对话语言时丢弃该部分文本输入。
    所述文本输入可以通过用户输入到系统中??商娲?,所述文本输入不通过用户输入到系统中。
    优选地,根据多个证据源生成所述多段内容的相关性的似然性估计,其中所述多个证据源之一是文本输入。所述方法可以包括:接收一个或多个额外的证据。
    优选地,生成上述估计的步骤包括:除了基于输入文本外还基于非文本证据进行估计。
    本发明的第三个方面在于,提供了一种包括计算机可读介质的计算机程序产品,在所述计算机可读介质上存储有计算机程序手段,该计算机程序手段用于使处理器执行以上所描述的任何一种方 法。
    附图说明
    通过参考下面的附图,进一步的解释本发明。
    图1是根据本发明的高层系统架构的方框图。
    其中,图1中各标记分别为:用户5,关联引擎10,内容数据库20,内容建议30,多个证据源50,其它证据51,内容类型证据52,用户证据53,语境证据54,焦点证据55,分类器60。
    具体实施方式
    “内容”为本领域技术人员所公知的术语,并且可包括,但不限于以下之一:文件、新闻报道、视频、图像、应用程序、声音片段、文本片段等。在本申请的上下文中,“一段内容”指特定内容(例如,特定的电影、书籍、新闻报道、应用程序等),所述特定内容与从多个不同的数据源(例如,转入应用程序的链接、应用程序的文本、对于该应用程序的评论、应用程序的下载数量等)中提取的数据相关联,这种数据可以包括文本和非文本(如点击历史记录)数据。例如,一段内容可以是一本特定的书,而数据源可以包括该书的内容、该书在销售网站的点击历史记录、对于该书的评论、基于这本书拍摄的电影等。内容建议是任意一种具有关联语义类型的实体,其中用户可通过电子方式访问该实体。因此术语“内容建议”包括这些实体,例如被命名的概念或主题,包括地点、事件、对象、电影、书籍、运动团队、歌曲、绘画、电脑游戏、应用程序等。
    实体可以在与一段特定的内容相关联的数据源中,由任何适当的手段手动或自动识别,例如利用网络爬虫技术。所述内容建议可以对应于最有可能的一段内容,其中该段内容本身是被命名的概念或主题,或者它可以是与最有可能的一段或多段内容相关联的实体,其中所述多段内容比实体更加具体,例如所述概念或主题可以是应用程序,最有可能的该段内容可以是关于该应用程序的评价(例 如,提取于多个网页的关于该应用程序的评价)。
    所述搜索引擎的输出,即所述“内容建议”,可以是最相关的一个或多个实体,或者最相关的一段或多段内容。然而,在一个优选实施例中,搜索引擎的输出是最相关的一个或多个实体的一个或多个代表,或者是最相关的一段或多段内容的一个或多个代表。
    例如,一段内容或一个实体的代表可以包括:文本(如姓名、标题、简要总结、介绍或解说)、图像(例如人的照片,或书的封面,或电影海报)、视频剪辑(如电影预告片)、URL(如与该实体相关联的官方网站的网址、与该实体相关的维基百科页面、与该实体相关的新闻报道或销售该实体的网页),或者以上形式的任意组合。一段内容或一个实体的代表可以是静态的,并同与之相关联的统计模型存储在一起??商娲?,所述代表可以是动态的,例如,搜索引擎可以用于从与特定的一段内容或实体相关联的数据源中剥离出数据,或者从与该实体相关联的内容中剥离出数据。例如,剥离的数据可以包括维基百科文章的第一段,或来自亚马逊的图书的封面图像。所选择的要显示给用户的代表可以取决于搜索系统的具体使用或取决于用户证据(如用户历史记录等)。
    图1是根据本发明的高层系统架构的方框图。本发明的系统包括关联引擎10。该关联引擎将关联性概率估计分配给内容,并使用这些概率估计生成呈现给用户5的相关内容建议30。呈现给用户5的可以是最相关的内容建议30或p个最相关的内容建议30的排序表。在一个优选实施例中,本发明的系统是一种电子装置,例如,它可以是具有根据本发明的搜索引擎的计算机或服务器,从而识别与系统查询相关的内容建议30,并且它可与另一电子装置进行交互,或被另一电子设备访问,例如,所述电子装置为计算机、平板电脑、手机或任何其它适当的电子装置。
    所述系统查询可以对应于用户查询,如用于找到相关内容的用户输入的问题,例如,“圣诞邮件的截邮日期是哪一天?”。用户查询包括用户可以用以输入查询的任何手段,例如,用户可以对着电 子装置说出查询,而不是直接将查询键入到电子装置中。所述电子装置包括用于接收用户查询的机构,该机构可以是任何适当的机构,包括一个或多个用于接收用户输入的文本的机构,用于接收用户说出的查询的语音识别机构,或用户和该装置之间的任何其它用户界面。
    虽然图1示出关联引擎10根据用户证据(其包括用户输入的查询54,以及任何数目的其它类型的用户证据53,例如点击历史记录)生成内容建议30,但是对内容搜索的触发可以是由关联引擎从其它系统接收的文本输入51(例如,来自新闻广播的文本串),而不是来自用户输入的文本输入54。
    不同于要求用户输入或选择适当的关键字的传统搜索引擎,本发明的系统用于采用原始证据源50,并触发基于所述证据源50的关于相关内容的搜索,而无需人工干预。下面将更详细地说明,本发明的系统还能够以无需选择关键词的方式进行对自然语言文本串的处理,这也将本发明的系统与传统搜索引擎区别开。
    回到图1,为了生成相关内容建议30,关联引擎10使用内容数据库20,和具有一种或多种类型的多个证据源50。这些证据源包括语境证据54、焦点证据55、内容类型证据52、用户证据53和其它证据51。要触发检索,关联引擎10需要多种类的文本输入,即用户输入的文本53或从其它系统接收的文本51。
    内容数据库20将一段内容与从中可以训练统计模型的多个数据集关联。优选地,所述统计模型包括至少一种基于语言的统计模型,以及可选择性地包括不基于语言的统计模型(例如这样一种统计模型,其估计用户与先前点击历史记录之间是否存在相关性,其中所述先前点击历史记录针对特定的多段内容或针对与某特定实体相关联的多段内容)。所述数据集包括文本数据集,以及选择性地包括与各段内容和/或实体相关联的其它数据集,例如,但不限于:用户评级、点击信息、URL地址等。文本数据集可以是,但不限于:对于内容和/或实体的评价、注释和描述。内容数据库还将内容与内容 的可呈现给用户的代表关联起来。内容数据库可以按内容类型构建,以促进内容建议的生成。此外,为了基于内容类型实施构建,可通过实体来构建数据库20,例如特定的主题或对象。所述多段内容本身可以涉及到特定的实体和/或它们可以与实体相关联。通过按内容类型和实体构建数据库20,可促进涉及到相关内容类型或实体的内容建议的检索。
    内容数据库20包括多个基于语言的统计模型。其中基于语言的统计模型与各段内容相关联,并且在与该内容段相关联的文本数据集上训练。如果需要的话,基于语言的统计模型可以是这样一种语言模型,该语言模型对文本数据集中的术语的连续分布实施建模,举例来说,正如以TouchType有限公司名义提出的公开号为WO2010/112841的PCT申请所公开的那样。优选地,所述统计模型基于内容类型或实体构建而成。
    每个文本数据集是从多个不同的数据源中被提取出的。因此所述数据源不需要明确地包括文本,但确实需要属于某个允许提取文本的类型,例如,文本(对话)可以从电影中提取。因为与各段内容相关联的文本数据集由多个不同的数据源形成,这样统计模型的训练所依据的数据集包括许多文本,该数据集的文本数量大大多于相比于从单一源(例如,在单个网页)中找到的文本的数量;其中,所述统计模型为基于语言的内容特定的统计模型。这样做带来了几个有益效果:使用内容特定的统计模型,可以在与一段特定内容相关联的大型文本语料库和大量自然语言输入文本(文本证据)之间进行比较,从而建立该段内容与该文本证据的关联。当文本语料库受限制于来自单一源的文本时,这并不是一个实用的方法,这是因为在一般情况下,来自单一源的文本不足以建立起能够实现上述目的的足够全面的统计模型。
    此外,相对于单一数据源所提供的文本,从多个不同的数据源中提取与一段特定内容相关的文本能提供给所述关联引擎10关于该段内容的更加完整的观点。举一个简单的例子,如果输入文本证据53 包括“一部电影,是一部关于发生在多雪的北达科他州的绑架的黑色喜剧,主角是一个怀孕的警察”,传统搜索引擎只会返回某个网页,该网页在单个网页中刚巧提及搜索查询中的所有词语。而通过在涉及多个不同的数据源(例如,电影影评、电影对白、维基百科文章等)的文本数据上训练基于语言的统计模型,所述关联引擎10可以识别相关的内容(例如,在这种情况下,相关的电影),即使所述文本证据53的词语没有全部包含在同一数据源中。无论输入文本证据53的语言形式或词汇选择如何,不同数据源间的语言形式和词汇选择的不同产生了全面的基于语言的统计模型,该统计模型允许相关内容被识别。
    给定一个或多个证据50,对于内容统计数据库20中的各段内容,所述关联引擎10生成所述各段内容与给定的证据50之间存在相关性的似然性估计。为此,关联引擎10通过文本证据53查询多个基于语言的统计模型中的每一个。该关联引擎输出最可能的或p个最可能的多段内容作为可选择性呈现给用户5的内容建议30。优选地,p个最相关内容建议30作为p段最相关内容的代表呈现给用户,其中该代表可以包括一个或多个文本、图像、视频剪辑等。
    以一个非限制性的例子为例,如果考虑到的该段内容是一个特定电影,所述内容数据库20将该电影与内容类型“电影、影片和视频”相关联,且与该电影相关联的数据源可以包括:通过电子邮件、微博、脸书等方式实现的对话,关于该电影的评论(包括发表在新闻网站上的影评和/或张贴在诸如互联网电影资料库(IMDB)、烂番茄和亚马逊等网站上的用户评论),涉及该电影的消息字符串,该电影的URL地址,该电影被搜索过的次数,该电影的受欢迎度等。所述电影还与其代表相关联,例如,链接到该电影的官方网站的URL地址,该电影发布的海报图像,该电影的名字等。与该电影相关的文本数据集包括从多个不同的数据源中提取的文本,而这种文本数据集被用来训练与该电影相关联的基于语言的统计模型。
    如果关联引擎10接收到了提及了“电影”和演员名字的文本54, 关联引擎10将生成针对各段内容的相关性的似然性估计,例如以通过每个基于语言的统计模型输入术语“电影”和演员名字的方式生成上述相关性似然估计。该关联引擎10用于将针对该段内容估计的似然性排序,并返回作为内容建议30的最可能的多段内容,该内容建议可以包括能够由电影名称来表示的由该演员主演的电影、电影图像等。由于每种基于语言的统计模型同与其相应的某段内容相关联,这样依据该基于语言的统计模型的估计与该段内容相链接。
    接上述所说,所述一段特定的内容可以涉及到广义的实体,如电影、影片和视频,以及比广义的实体更具体的东西,如特定的电影。一段特定的内容可以涉及到一些甚至更狭义的东西,例如,它可以涉及到关于该特定影片的(从多个数据源中得到)评价。因此所述一段特定的内容可与广义的实体(或内容类型)相关联,其中内容建议30包括实体或内容类型,以及或可由一段特定的内容代替。
    从下面的详细描述中可以理解的是,关联引擎10可以考虑到其它类型的证据,这种证据不需要基于词语。例如,如果用户有评论书籍的历史记录,而很少搜索电影,那么即使输入文本表述的是“电影”和演员名字,关联引擎10可以输出关于某本最近被拍成由该演员参演的电影的书的建议,作为内容建议。
    有很多任意的潜在证据源,其中的一些例子包括:
    ●用户的注意力的当前焦点(焦点证据55)
    ●此焦点位于的更广泛的语境(语境证据54)
    ●给定的用户所感兴趣的内容类型的证据(内容类型证据52),例如,电影、书籍、艺术等。
    ●具体涉及给定的用户的证据,例如以前生成的语言,点击历史记录或社会背景/人口统计(用户证据53)
    如下述所解释的,已知每个证据源,关联引擎10生成针对各段内容的估计。如后所述,对于各段内容,关联引擎10用于结合对于证据源50的估计,以生成针对该段内容的总体估计。关联引擎10用于将总体估计排序,以输出因此作为内容建议30的k个最可能的内 容或代表。为此,关联引擎10可以用于处理每个独立的证据源,即用户的点击历史记录独立于文本输入,其也独立于内容类型52等。
    一般模型
    正如所讨论的那样,关联引擎10用于按多段内容与给定的证据50之间存在相关性的似然性对多段内容进行排序。为了实现这一点,关联引擎10可以用于通过一系列具有以下形式的点估计,来生成内容数据库20中的多段内容的排序。
    P(c|E)
    其中c是内容数据库20中的一段内容,E是一组所有被观察的证据50.“c”是“c是相关的”(c is relevant)的简称。
    使用贝叶斯定理扩展等式1,结果如下:
    P(c|E)=P(E|c)P(c)P(E)]]>
    这一扩展产生了三个不同的项,用于使关联引擎独立地估计,以确定内容c与该组所有被观察的证据50,E之间存在相关性的似然性。
    ●P(c):内容先验
    ●P(E):证据先验
    ●P(E|c):内容条件似然性
    如果只需要所述多段内容与给定的观察到的证据的相关性排序(而不是概率估计),关联引擎10则不需要估计证据先验,P(E)。
    内容先验
    内容相关性的先验概率,P(c),是在缺乏涉及到单个用户或环境的任何具体证据时,对于一段内容将会相关的似然性的度量??梢酝ü亓?0对于与该段内容相关联的所有数据源(例如,网页)进行一般使用模式的综合分析,对该先验概率进行建模。关于一种这样的建模方法介绍如下。
    各种度量与用户同多个数据源的交互频率相关联,和/或与一段内 容的感知欢迎度相关联,其中所述多个数据源与该段内容相关;:
    ●导入链接的数量,所述导入链接指向包含该内容的代表的页面;
    ●数据源视图的数量,其中该数据源与该内容相关联;
    ●用户评论或评级的数量,所述用户评论或评级涉及与该内容相关联的数据源。
    可以假设用户与数据源的交互由随机变量Interact生成,其中该交互的域为C X(0,1](其中C是该组的所有数据源,(0,1]是大于0且小于或等于1的实数集,而X是笛卡尔乘积)??梢约偕杷婊淞縄nteract的取样的独立同分布(i.i.d)序列对所有单独用户与所有数据源之间的交互进行建模,即每个随机变量具有与其它随机变量相同的概率分布,而所有的随机变量都是相互独立的。与每个交互相关联的实值(从这里开始称为“权重”)表示交互的“积极性”。例如“喜欢”或“投票赞成”将是非?;?,页面浏览会比较中性,“投票反对”将被赋予非常低的权重。这种对任何交互的正权的分配假设了任何交互都增加了一段内容的相关性的先验概率,即使该交互对内容表达了消极情绪。这种加权方案将被探索式地确定,但是应当被选择,这样使得用户交互的平均权重为0.5。这种约束将有助于确保权重的分布在所有的数据源间具有可比性,其中先验数据源将被单独计算。
    交互事件的观察到的序列{Interacti}可以被用来生成内容相关性的先验。
    对于各段内容c,关联引擎10对对应于该段内容的数据源的权重求和,以获得总分。最后,通过关联引擎10对这些和进行归一化,以获得概率分布,所述概率分布可以用来对相关性的先验概率进行建模。数学形式如下:
    P(c是相关的)=∑{权重(Interacti)|数据源(Interacti)=c}
    如上所述,可以在所有数据源上归一化特定的数据源的交互??商娲?,如果需要的话,可以在所有的数据源上归一化属于该数据源类型的数据源的交互,例如通过与所有YouTube视频的所有交互对与一个YouTube视频的交互归一化,或通过与所有的维基百科网页的所有交互对与一个维基百科网页的交互归一化。如果用户以依赖于数据源类型的不同的方式进行交互,则上述方法可能是合适的??商娲?,可以在交互的类型上归一化一个数据源的交互,例如,在所有数据源的所有点击历史记录上对一个特定网页的点击历史记录归一化。
    关联引擎10可以用于平滑化先验分布,以补偿用以生成模型的交互数据的缺乏。其中,这种平滑化处理的方式如下:向所述域中的各数据源添加固定数目的权重为0.5的交互。这种平滑化也可以用来降低先验内容的影响,或人为偏向某些数据源。
    还存在一些信息源,这些信息源可以是能够归于先验内容的很好的候选。例如,新近度(最近与一段内容相关联的数据源产生了多久)可能是重要的,特别是在最新内容特别相关的情况下,例如如果信息需要是爆炸性新闻。先验内容还可以包含关于一个特定数据源有多“可信”的信息,即相对来自稍微不出名的博客内容,来自英国广播公司(BBC)的内容在先验性上更相关。
    证据先验
    因为证据先验P(E)相对于目标内容c是恒定的,它不影响排序结果,并且,如果内容的排序是系统所需要的全部,则证据先验可被关联引擎10忽略。因此,关联引擎10是否用于估计先验证据是可选的,这取决于是否需要真实概率估计,例如,比较不同系统的查询结果。
    关联引擎10可以使用许多方法来近似化该分布;例如,如果考虑中的证据是语言,关联引擎10可以考虑从通用语言分布中提取证据概率,所述通用语言分布涵盖了所有内容,如大型非针对性的文 本数据语料库。虽然在实践中,这在计算上难以实现,并不会产生稳定的估计。
    关联引擎10可以采用的另一种方法是,计算证据先验,作为所有单独段内容的边缘化??梢酝ü∪”硎咀钕喙厥堤宓亩喽文谌莸淖蛹幢硎咀芊植?,实现对于所述证据先验的近似化处理。这可能导致对于真实的证据先验实施较差的近似化处理,但可以对返回值的范围进行归一化,并在大多数情况下在系统查询中间产生某种一致性。
    这种方法导致的总体估计具体如下:
    ΣP(c|E)=1⇒P(E)=ΣP(E|c)P(c)]]>
    优选地,系统用于通过查找被认为与查询最相关的多段内容的子集Ck(大小为k),近似化上述表达式。下面详细描述了执行过程。这些k段内容可以随后由关联引擎10进行排序,以实现对内容的最终排序。k的精确值将取决于系统可用的计算能力以及期望的查询响应时间。
    因为前k个的检索旨在找到所有与该查询可以有一定相关性的内容的子集,所以绝大部分概率质量可以被分配到这前k个检索。因此,如上所述,关联引擎10可以用于归一化前k个检索,以获得证据的先验概率的估计。
    证据的条件似然性
    为了计算观察到的证据E的证据似然性P(E|c,Mc),已知一段特定的内容c在内容特定的统计模型Mc下是相关的,优选地,关联引擎10用于将证据50,E分成非重叠的、相互独立的集合[e1,…,en],所述集合[e1,…,en]从某一分布中独立生成,且该集合的生成以目标段的内容c以及相关联的内容特定的统计模型Mc为条件。这种独立性假设可以写成:
    P(E|c,Mc)=ΠiP(ei|c,Mc)]]>
    因此,该证据似然性由关联引擎10计算,作为独立的证据源ei的概率估计的乘积。因此,关联引擎优选地用于分别计算单个证据的估计。
    与每个证据源相关联的各段内容都有一个统计模型M,且单个证据源的相对影响可以由关联引擎10通过按分布平滑化超参数来控制,所述超参数允许系统指定由各证据源产生的信息量的范围。这可以被解释为各证据源中的“信任度”或置信度。一个证据源的积极平滑因子(在极限情况下是均匀分布的,在这种情况下,证据源基本上被忽略)相对于其它证据源,将减少一个证据源的概率估计之间的差别,所述一个证据源取决于与多段不同的内容相关联的数据源。随着平滑化的增加,分布变得更加平坦,且证据源对概率P(E|c,Mc)的整体影响减小。
    具体的似然性估计
    不同证据源50按不同的数据类型分类。例如,焦点证据55采用语言文本数据的形式,而用户证据53则由语言数据(即用户查询)和行为数据(例如浏览与一段特定内容相关联的数据源和点击图表等)的结合建模而成。在每一种情况下,我们将描述每个证据源的数据类型,以及由关联引擎10所使用的用来生成似然性估计的建模技术。
    语境证据54和焦点证据55
    举一个例子,用户可以查看主要由诸如新闻文章的文本构成网页,在这种情况下,焦点文本55可以构成当前正在查看的段落或句子,并且语境54可以是该页面上的剩余文本。语境的使用提供了一种途径来在用户正在观看的更广泛的主题内为聚焦内容的结果打下基础。再举一个例子,如果用户制定了表达信息需要的查询(如某些沿着“我想在我的手机上打字更快”的线索),那么这个查询可以被视为焦点证据54,而此时可以不存在语境证据55。
    语境证据54和焦点证据55的证据源可分别通过ec和ef表示。在模型M下做出的观察文本与给定内容之间存在相关性的概率估计为P(et|c,M)。其中,假设一个潜在的语言分布既负责生成与内容数据库20中的一段给定内容相关联的训练文本,又负责生成无论是语境证据54或焦点证据55的证据文本。关联引擎10可以应用很多技术来计算所需估计,例如:
    ●朴素贝叶斯建模
    ●最大熵建模
    ●统计语言建模
    前两种方法都基于从文本中提取一组特征,以及在这些提取的特征上训练产生式模型,而统计语言建模试图??榛梦谋局械氖跤锷系牧植?例如,通过在文本内的n元语法序列上训练语言模型)。这些方法在基本上是相关的。下面将通过提供一个非限制性示例来对第一种方法进行说明。
    关联引擎10从给定的文本样本中提取一组表示焦点特征55或语境特征54的特征,优选地,所述关联引擎10通过使用任何适当的特征提取机构来提取所述特征。为了生成相关性估计,关联引擎10假定这些特征已通过相关联的基于语言的统计模型被独立地生成。
    关联引擎10用于:通过以给定特征查询内容特定的统计模型,确定该特征出现在相关的内容分布中的概率的估计。优选地,每个内容特定的统计模型都在与该统计模型相关联的文本中提取的特征上训练。因此,以此方式训练的模型包括文本的特征及该特征在文本中出现的频率。因此,如下所述,对于给定特征与特定实体之间存在相关性的概率的估计,通过频率统计被存储在相关联的统计模型中。因此,关联引擎10可以查询内容特定的统计模型,以确定该统计模型是否包含该特征,以及如果是的话,确定该特征出现的频率。
    在本领域中存在多种用于从原始文本证据中生成这些特征的方法,其中任何一个都可以被关联引擎10采用。例如:
    ●“词袋”术语出现/不出现:特征是一组在文本中使用的独特的词语。
    ●一元模型:特征仅仅是文本的词语。这种模型产生了一些词语,这些词语出现多次,并按比例被给予较大的权重。
    ●词条组合:特征可以包括词条的组合,要么是连续的n元语法词条,要么是表示非本地句子关系的词条。
    ●语法:特征可以包括语法信息,如词性标记,或更高级别的解析树元素。
    ●潜在主题/簇:特征可以是能够代表文本中潜在的“话题”或主题的多组/多簇词条。
    优选地,为了夸大一些特征的重要性,关联引擎10可以加权这些特征。其中,这些特征已知具有较大的机会先验地携带关于任务的有用信息。例如,,通常情况下通过某种启发式技术来加权词条的特征,所述启发式技术封装有普通英语中存在的词语的不足(例如TfiDF技术,词频-逆向文件频率(term frequency–inverse document frequency)技术,TF:词频,IDF:逆向文件频率),因为不常见的词语比普通词语更可能指示相关的内容特定的统计模型。TFiDF定义为:
    TF-IDF(t)=tf(t)df(t)]]>
    其中,tf(t)是词条(term)t在用户输入文本中出现的次数,df(t)是内容特定的统计模型的数量,其中t出现在所有内容特定的统计模型中。
    特征的独立性假设的不利后果是:不同长度的样本(即系统查询)由不同数量的事件进行说明,这样会导致由不同系统查询返回的值的范围内存在伪差异。关联引擎10可以通过使用归一化处理对这一问题进行补偿。如果在统计模型中存在D个特征,则可通过实值化的D维空间内的不同尺寸来表示这些特征,并且可以由实值化的D维向量(“输入特征向量”)来表示给定的输入样本。关联引擎10 通过将每个(对应于一组加权特征的)输入特征向量vi除以向量幅度|v|,从而将每个输入特征向量vi转换为单位长度,进而可以实现归一化。
    因此,在相关联的内容特定的统计模型M下,观察证据e与给定的一段特定内容c之间存在相关性的概率P(e|c,M)作为从被观察的文本证据e(例如输入样本)中提取的多个独立特征fi的乘积被计算如下:
    P(e|c,M)=ΠiP(fi|c,M)]]>
    关联引擎10用于以每个特征fi查询内容数据库20。内容数据库20返回了所有内容特定的统计模型的列表。该列表包括该特征以及每个内容特定的统计模型与该特征相关联的概率估计。在内容特定的统计模型M下,观察证据e与给定的一段内容c之间存在相关性的概率P(e|c,M)被计算为该观察证据e的所有特征fi的概率估计的乘积,其中该观察证据e遍及包括那些特征fi的内容特定的统计模型M。
    通过将gi换成每个在证据e(例如,系统查询)中出现了给定次数(ni,其中fi=gini)的独特的特征,将上述表达式改写如下:
    P(e|c,M)=ΠiP(gi|c.M)ni]]>
    加入TFiDF权重,ni被替代为其相应的权重,该权重由wi表示。权重向量w可以是包含从证据中提取的所有特征的TiFDF分数的向量。权重向量w优选归一化到单位长度。
    由此产生的表达式是:
    P(e|c,M)=ΠiP(gi|c,M)wi]]>
    转换为对数(logs)的形式如下:
    log(P(e|c,M))=Σiwi·log(P(gi|c,M))]]>
    上述表达式可被改写为两个向量的点积,其中一个向量(w)表 示权重(“输入特征向量”),另一个向量(v)表示对数(log)概率:
    log(P(e|c,M))=w·v
    为了计算上述公式,需要进行对于P(gi|c,M)的估计,即内容依赖特征的似然性的估计。关联引擎10从内容特定的统计模型中得到上述估计,其中所述内容特定的统计模型已经在与该段内容相关联的文本上训练过。例如,可以通过最大似然性估计,使用在与该段内容相关联的文本中的该特征的标度频率计数或储存于内容特定的统计模型中的该特征的标度频率计数,得到内容依赖特征的似然性的估计。在所述特征是单个词汇词条的情况下,例如,训练语料库可以由分别出现n0,…,nk次的词条t0,…,tk组成。为了推导出某一词条ti与给定的该段内容c之间存在相关性的概率的估计,可以使用下面的等式:
    P(ti|c)=niΣini]]>
    然而,如果证据中任何特征的内容依赖特征似然性的估计都为零(例如,因为该词条不存在于所述语料库或内容特定的统计模型),最终概率P(E|c,M)将是零。如果训练语料库是稀疏的,则不大可能在目标内容的训练语料库中观察到我们文本证据中所有特征,因此该特征可能不会出现在任何内容特定的统计模型中。因此,优选地,关联引擎10应用某形式的平滑来将被观察到的特征的概率质量重新分配给那些未被观察到的特征。
    目前,存在许多广为接受的技术用于平滑基于频率的概率。例如,可以使用利用了以下公式的拉普拉斯平滑:
    P(ti|c)=ni+kΣini+kV]]>
    其中,ti和ni与前述一样,V是与该段内容相关联的文本数据集的全部词汇(语言的所有词语的子集)。k是启发式确定的常数。
    因此,关联引擎10可以通过以从证据中提取的特征fi来查询内容 数据库20的各内容特定的统计模型,来确定哪段内容与给定的证据最存在相关性,进而确定哪个内容特定的统计模型提供了最大概率估计(由于内容特定的统计模型被映射到相应的多段内容)。
    特征工程
    如上所讨论的,基于证据源54、55的文本的一个关键组成是对于选定用于表示潜在语言的特征的选择。本领域已知的多种技术可用于设计基于文本的特征,例如:
    大小写的标准化:词语的大小写变形可被视为完全不关联的特征。由于无法保证查询被正确地利用(例如,在语音输入的情况下),因此通过关联引擎10来标准化训练数据和查询文本的大小写形式可能会更好??商娲?,关联引擎10可以向大小写变形之间插值,虽然这样做可能会大大增加查询时间。采取的确切方法可以特别取决于部署有上述系统的域。
    词干提取法:词干提取法是指将词语缩减到基部或根部形式。这意味着,动词的大小写变形或时态变形将被映射到相同的词干,正如将出现许多同源词。从训练数据和查询中提取词干常??梢愿纳平峁?,因为这样可以抵消训练数据的特征的不足——虽然不是词语的每个形态变形都将出现在一段内容的训练数据中,但看不见的变形仍然可以指示该段内容的相关性。
    内容类型证据
    内容类型证据源54的似然性估计是内容类型(其也可以对应于实体)的分布。举例来说,如果用户制定如“我想看会让我哭的爱情电影”的查询,在这种情况下,目标内容类型显然是电影。
    关联引擎10可以用于分开查询并找到指示该用户希望看到的内容类型的部分。在前面的例子中,“我想看”是一个关于用户希望得到的有关电影信息的明确提示。如果这个文本被称为内容类型证据et,则该内容类型证据可以用公式表达为:
    P(et|c,M)
    生成“我想看”的类似文本的概率取决于用户希望看到的潜在内容类型(例如,电影)。这种类型来自一组离散的类,并且可以被表示为z∈Z。
    当对所有可能的内容类型求和时,提供了下面的等式:
    P(et|c,M)=Σz∈ZP(et|z,c,M)×P(z|c,M)]]>
    如果假设证据et只取决于内容类型z,而不是该段内容c,那么这一等式可以进一步简化为:
    P(et|c,M)=Σz∈ZP(et|z,M)×P(z|c,M)]]>
    如果z匹配c,P(z|c,M)值为1,否则为0。例如:
    P(z=电影|c=盗墓空间)=1
    P(z=维基百科|c=盗墓空间)=0
    因此,只剩下该求和的一个项:
    P(et|c,M)=P(et|zc,M)
    其中,zc是匹配项类c的意图类z。利用贝叶斯法则可以进一步扩展上述等式。P(et|M)是恒定的,并且P(zc∨M)可以选择为统一的,在这种情况下,这些项都不会影响不同概念的最终排序:
    P(et|c,M)=P(et|zc,M)=P(zc|et,M)×P(et|M)P(zc|M)∝P(zc|et,M)]]>
    已知证据,所述内容类型的概率可以使用分类器60(例如,判别式分类器)来估计。这种分类器60将自动学习在不同的内容类型之间输入查询的哪些特征是有区别的。由于不涉及内容类型的特征预期具有非常低的权重,因此可通过将整个查询分类,来代替明确尝 试提取相关部分。
    对此任务有用的合适的特征类型包括:
    ·一元、二元、高阶n元语法
    ·词元和词干
    ·短语和语块
    ·前缀和后缀
    ·命名的实体
    ·词义
    ·词性标记
    ·解析树子结构
    ·依赖关系
    ·使用合适核的解析树/依赖图相似性
    同一分类器60可用于将内容特定的统计模型分类成内容类型。如上所述,内容数据库20可以包括按内容类型构建的内容特定的统计模型。
    最后,因为分类器60用于在已知输入查询的基础上预测内容类型,这种(与概率分布相关联)分类可在预处理步骤中使用。下面将更详细地描述,通过将查询分类成一个或多个内容类型,关联引擎可以将搜索空间限制为该内容类型内的内容特定的统计模型,从而缩短了排序和检索过程。
    用户证据
    优选地,通过基于给定用户过去的行为对分布建模,该系统考虑到给定用户的个人偏好。
    涉及到特定用户的证据有两个来源,这可以被认为是:
    1)他们先前产生的语言;
    2)他们之前与数据源的交互,所述数据源与多段内容相关联。
    虽然关联引擎10已经如上所述,相对于在一具体实施例中用于从多个证据源中生成内容建议30,关联引擎可用于只从文本证据中 生成内容建议。同样,尽管分类器60可以被用来确定内容类型,并通过这种分类减少搜索空间,分类器和内容类型证据的使用是上述搜索系统的可选特征。
    搜索系统的实施与优化
    如果关联引擎10执行了上面详述的完整分析,则需要执行o(CN)操作(其中C=内容的段数,N=文本特征数目)。在实践中这通常不是可行的,因为C会有数百万阶或更高的阶数。
    上述搜索系统可利用多种技术和近似方法来减少由关联引擎10执行的搜索任务的复杂性,例如考虑到在某特定的文本语料库中通过减少特征的数目和/或内容的段数来减少复杂性。下面讨论的优化主要涉及搜索的文本方面,但类似的优化可以被更普遍地采用。
    减少询问:
    由于该详细的系统企图处理比传统搜索系统长得多的查询,在实践中该系统可能需要一定方法来减少应考虑的输入查询的特征数(因为,一般来说,查询时间将与考虑的特征数成线性关系)。在此描述两种用于在文本证据的情况下实现特征修剪的机构,虽然可以使用如句法分析之类更复杂的技术,但在实践中可能消耗巨大的计算量。
    正如前面详细介绍,文本证据的特征可以通过他们的TFiDF进行加权,从而降低常见英文单词或很少出现在输入文本中的单词的重要性。为了增加处理速度,关联引擎10(或与关联引擎10结合使用的任何其它过滤机构)可以用于丢弃所有TFiDF值低于某一阈值的文本特征(例如,阈值可以由文本的长度确定),因为在一般情况下,具有低TFiDF权重的特征将对整体概率估计产生最小的影响。此外,低TFiDF词条(“停止词”)在内容语料库的出现也往往趋向于合理的均匀分布,这意味着它们对概率估计的影响也将在多段内容上合理的均匀分布。因此,将它们作为特征除去会对该多段内容的 排序产生相对较小的差别,而通过减少关联引擎10用于查询内容数据库20的特征数,能增加处理速度。类似的方法可以用来修剪n元语法特征(在类似特征加权的方案中),如果内容特定的统计模型是在从训练文本中提取的n元语法特征上训练的语言模型。
    可替代地,或除此之外,关联引擎10可使用基于语言??榛姆掷嗥?0去除或忽略整个从句或查询短语。系统查询可以被分成一些长度为q1,...,qi的语块(这只有在与只包括几个术语的较传统搜索引擎查询截然相反的长自然语言查询的情况下合理)。两种语言模型,一种基于从一般的语料库中(背景LM)提取的自然语言生成,而一种基于从对话语料库(前景LM)提取的自然语言生成,所述对话语料库可以包括电子邮件或社交媒体通讯。对于每个查询语块qj,分类器可以执行模型的比较(如在qj的两种模型下计算在n-元语法复杂度的差异),以确定这两个语言模型中的哪一个更适合查询语块。对于长查询,被归类为更接近对话模型的语块在确定相关联的相关多段内容方面未被寄予厚望。因此,(也许在某一置信水平上)所有被视为对话的语块可能会被关联引擎60忽略。这可以显著减少查询长度,将有助于改善系统响应时间,并减少噪声。
    限制候选内容段数:
    “前k个检索”是大多数信息检索系统性能的关键,而本发明系统的特征(例如,分类器60)可以用于检索相关的前k个实体,正如前面提到的那样。除了减少的查询之外或代替减少的查询,前k个检索可以被执行。前k个阶段作为第一道程序减少候选内容的段数,然后可以通过关联引擎10使用较耗费计算量的程序对候选内容进行排序。
    通过以下方法可以降低内容特定的统计模型的数目,其中内容特定的统计模型是关联引擎10需要以从观察的证据中提取的文本特征fi来查询的统计模型。对于所观察到的证据的每个文本特征f(例如,系统查询),其TFiDF为t(归一化到范围[0,1]),系统找到与 f具有最高相关概率的k.t段内容,其中,这组内容表示为Cf,k是常数。然后,系统可以联合所有文本特征C=Uf<FCf,以获得一组在大小以|F|.k为上界的多段候选内容。随后关联引擎10可以对被限制的该组多段内容的证据打分。显然,由于k有可能小于内容的原始段数,这样提供了显著的性能改进(搜索时间与候选内容的段数是线性关系)。该步骤的有效性也是清楚的——如果一段候选内容未出现在任何特征f的集合Cf中,则该段内容的证据的“得分”不会高得足以值得计算(即它不太可能出现在我们希望返回给用户的结果中)。对于k的选择不仅使得该系统的性能不受影响,同时还能使该系统的性能获得实质性的改善。
    前k段内容可以通过判别式分类器60确定。所述判别分类器60用于确定该系统的查询涉及的内容类型,并且仅返回该内容类型的多段内容。例如,如先前所解释的,分类器60可以按内容类型分类内容特定的统计模型。分类器60可以按内容类型将输入文本分类,以确定相关的内容特定的统计模型。其中,所述内容特定的语言模型涉及多种内容类型,例如,它已在影片、书籍、网页等上经受训练,所述内容特定的统计模型可以被分配到多个分类类型。内容类型可以是与内容特定的统计模型相关联的广义实体。因此该系统查询可以用于搜索与相关实体相关联的内容特定的统计模型。如上所述,为了使内容类型或实体建议的提出更加便利,内容数据库20可以按内容类型或实体构建。
    WO 2011/042710中详细描述了关于合适的分类器60的一个实施例,在此通过引用将其并入本文。如从该公开内容与上述说明可知,从用户输入文本中提取的特征可以被用于生成输入特征向量。内容特定的统计模型每一个均包括内容特定的特征向量,所述内容特定的特征向量从与该段内容相关联的文本中提取的特征中产生。然后分类器60可以使用输入特征向量与每个内容特定的特征向量的点积,来确定各段内容与该内容特定的统计模型的相关性。为了减少所需产生的点积的数目,由于分类器仅被用作初始滤波器,所述 内容特定统计模型可被集合为内容类型或广义实体(例如人,动物,衣服等),其中,该内容类型或广义实体与一个内容特定特征向量或一个实体特定特征向量相关联,所述一个内容特定特征向量或一个实体特定特征向量从多个内容特定特征向量中生成,或从由文本源中提取的特征中生成,所述文本源与该内容类型或广义实体的所有内容相关联。然后分类器60使用输入特征向量与每个内容类型向量或实体特定特征向量的点积,来确定在已知搜索查询的情况下最相关的一个或多个内容类型或实体。分类器60将关于最相关的内容特定的统计模型的数据(例如,一系列映射到模型的标识符)传给关联引擎10。然后如上文详细描述的,关联引擎10以各输入特征查询每个最相关内容特定的语言模型,以确定一个或多个最相关的内容并输出内容建议30。
    可以采用任何其它用于检索前k段内容的合适的方案,例如,通过使用Apache Lucene(一种全文搜索引擎,//lucene.apache.org/)或通过使用k-最近邻方法(//en.wikipedia.org/wiki/Nearest_neighbor_search#k-nearest_neigh bor)等。k值将取决于能够胜任准确度的要求和计算复杂度(例如,特征的数目等)的设备性能。
    后处理步骤
    关联引擎可以采用两种后处理方法,帮助向终端用户呈现结果,例如通过电子装置的电子显示器。这些方法包括:恢复实际的概率的归一化的技术和可用于设定显示给用户的结果的阈值的算法(在流式临时证据情况下)。
    在“流式证据”的情况下设定结果的阈值
    在一个方案中,其中的文本证据是数据流,例如无线电广播或某些由用户5在电视上收看的内容的文字记录,文本证据可以实时呈现给终端用户。因此流式文本还可以作为文本数据的语块被实时提供到该系统。文本的语块可以被标记为文本的有序对[ci,ti]和时间 戳。对于每个语块,关联引擎10会返回一个结果集ri,该结果集包含多段内容以及与多段内容相关联的相关性概率。为了改善用户体验,关联引擎10优选限制这些显示给用户的结果的数目(例如,经由电子设备的显示器显示)。关联引擎10可以用于通过许多方式来执行此操作。通过下面一个非限制性的例子,提供一种算法,所述算法试图在合理的频率间隔内展示一个高度相关的结果。
    关联引擎10可以限定初始概率阈值π和一个阈值半衰期T(由域和用户的偏好而确定)。初始化“最有可能的近期内容”(之后缩写为MLRC)作为一对概率为0的空白内容。
    每当关联引擎10接收到语块结果集(在时间ti)时,它执行两个处理步骤:
    首先,检查该语块的结果集的最高概率结果r(与概率p相关联)。如果此结果r的概率比MLRC的概率高,则设置MLRC为[r,p]。
    其次,系统通过使用先前阈值和自接收到前一语块的时间(Δt)计算一个新的阈值。通过关联引擎10可以求出新的阈值如下为:
    新的阈值=旧的阈值*0.5(Δt/T)
    如果MRLC的概率大于该阈值,则MLRC的内容从关联引擎10输出并显示给用户,例如通过显示器显示给用户。之后,MRLC被重置为[空白内容,0],并且该阈值被重置为初始值π。因此,关联引擎10可以基于新的一段内容的相关性概率是否高于当前的一段内容的相关性概率,以及差值是否大于基于时间的阈值(例如,这样一段内容的增长与时间不太相关),来确定当前内容建议30(例如最相关的内容或最相关的内容的代表)是否需要被更新。
    本发明还提供了用于在已知文字输入和任选的一种或多种额外的证据源的情况下,搜索相关的多段内容的相应的方法。转到图1和上述的搜索系统,该方法包括:接收文本输入,生成多段内容中的各段内容与给定的文本输入之间存在相关性的似然性估计,以及优选地输出作为内容的建议的一个或多个最相关的多段内容。如先前 所述,优选地,内容建议包括最相关内容的代表。
    关于上述所述的系统,用于确定一段内容是否与文字输入相关的方法包括:在搜索系统接收文本输入(例如,用户输入的系统查询)以及使用在与一段内容相关联的文本上训练的统计模型,生成该段内容与所述文本输入之间存在的相关性的似然性估计。其中,与该段内容相关联的文本是从多段不同的数据源中提取的。
    通过类比上述搜索系统的说明,可以容易地确定本发明的方法的其它方面。举例来说,关于该段内容的相关性的似然性估计,优选基于多个证据源,这些证据源之一是文本输入。
    本发明还提供了一种计算机程序产品,该产品包括其上存储有计算机程序手段的计算机可读介质,所述计算机程序手段用于使处理器执行依据本发明的方法。
    该计算机程序产品可以是其上存储有计算机程序手段的数据载体,所述计算机程序手段用于使数据载体外部的处理器,即电子装置的处理器,执行依据本发明的方法。
    应当理解,本说明书仅通过示例的方式呈现;可以在不脱离本发明的范围的基础上改进和修改所描述的实施例。

    关 键 词:
    搜索 系统 相应 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:搜索系统和相应方法.pdf
    链接地址://www.4mum.com.cn/p-5894500.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03