• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 15
    • 下载费用:30 金币  

    博彩重庆时时彩万能王: 相关搜索的排序方法和装置.pdf

    关 键 词:
    相关 搜索 排序 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611244559.4

    申请日:

    2016.12.29

    公开号:

    CN106777282A

    公开日:

    2017.05.31

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20161229|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 百度在线网络技术(北京)有限公司
    发明人: 王威; 桂佳; 程军; 王奎澎
    地址: 100085 北京市海淀区上地十街10号百度大厦
    优先权:
    专利代理机构: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611244559.4

    授权公告号:

    ||||||

    法律状态公告日:

    2018.07.13|||2017.06.23|||2017.05.31

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了RS的排序方法和装置,其中方法包括:获取搜索词query,并获取query对应的各RS;根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率;按照预估点击率由大到小的顺序对各RS进行排序。应用本发明所述方案,能够提高排序结果的准确性等。

    权利要求书

    1.一种相关搜索RS的排序方法,其特征在于,包括:
    获取搜索词query,并获取所述query对应的各RS;
    根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率;
    按照预估点击率由大到小的顺序对各RS进行排序。
    2.根据权利要求1所述的方法,其特征在于,
    所述根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率包括:
    针对每个RS,分别获取所述RS的用户行为特征;
    将获取到的特征作为所述点击预估模型的输入,得到所述点击预估模型输出的所述RS
    的预估点击率。
    3.根据权利要求2所述的方法,其特征在于,
    所述用户行为特征包括:
    共现特征、质量控制特征、点击特征和语义特征。
    4.根据权利要求1所述的方法,其特征在于,
    该方法进一步包括:
    所述分别确定出各RS的预估点击率之后,根据各RS的预估点击率以及导流能力特征,
    分别确定出各RS的导流能力评分;
    按照导流能力评分由大到小的顺序对各RS进行排序。
    5.根据权利要求4所述的方法,其特征在于,
    所述根据各RS的预估点击率以及导流能力特征,分别确定出各RS的导流能力评分包
    括:
    针对每个RS,分别进行以下处理:
    分别获取用户点击所述RS之后进一步所展示的各RS的最近预定时长点击次数,将各点
    击次数相加,用相加之和除以最近预定时长点击所述RS之后进一步展示RS的次数,作为所
    述RS的导流能力特征;
    获取所述RS的最近预定时长点击率;
    计算所述RS的导流能力特征与所述RS的最近预定时长点击率的乘积,将所述乘积与进
    行归一化处理之后的所述RS的预估点击率相加,得到所述RS的导流能力评分。
    6.根据权利要求4所述的方法,其特征在于,
    该方法进一步包括:
    根据各RS的质量特征,分别确定出各RS的质量评分;
    综合各RS的导流能力评分以及质量评分,对各RS进行排序。
    7.根据权利要求6所述的方法,其特征在于,
    该方法进一步包括:
    综合各RS的预估点击率以及质量评分,对各RS进行排序。
    8.根据权利要求6所述的方法,其特征在于,
    所述根据各RS的质量特征,分别确定出各RS的质量评分包括:
    针对每个RS,分别根据所述RS的质量控制特征、导流能力特征以及预估点击率,通过拟
    合方式确定出所述RS的质量评分。
    9.根据权利要求7所述的方法,其特征在于,
    所述综合各RS的导流能力评分以及质量评分,对各RS进行排序包括:
    按照所述导流能力评分由大到小的顺序对各RS进行排序;
    按照所述质量评分由大到小的顺序对各RS进行排序;
    针对每个RS,分别获取所述RS在两次排序中的排序位置,并计算两个排序位置的均值;
    根据各RS的排序位置的均值对各RS进行排序;
    所述综合各RS的预估点击率以及质量评分,对各RS进行排序包括:
    按照所述预估点击率由大到小的顺序对各RS进行排序;
    按照所述质量评分由大到小的顺序对各RS进行排序;
    针对每个RS,分别获取所述RS在两次排序中的排序位置,并计算两个排序位置的均值;
    根据各RS的排序位置的均值对各RS进行排序。
    10.根据权利要求1-9中任一项所述的方法,其特征在于,
    该方法进一步包括:
    在对各RS进行排序之后,将排序后处于前N位的RS展示在搜索结果页中。
    11.一种相关搜索RS的排序装置,其特征在于,包括:召回单元以及排序单元;
    所述召回单元,用于获取搜索词query,并获取所述query对应的各RS,将各RS发送给所
    述排序单元;
    所述排序单元,用于根据预先训练得到的点击预估模型,分别确定出各RS的预估点击
    率,并按照预估点击率由大到小的顺序对各RS进行排序。
    12.根据权利要求11所述的装置,其特征在于,
    所述排序单元中包括:第一处理子单元和排序子单元;
    所述第一处理子单元,用于针对每个RS,分别获取所述RS的用户行为特征,将获取到的
    特征作为所述点击预估模型的输入,得到所述点击预估模型输出的所述RS的预估点击率,
    发送给所述排序子单元;
    所述排序子单元,用于按照预估点击率由大到小的顺序对各RS进行排序。
    13.根据权利要求12所述的装置,其特征在于,
    所述用户行为特征包括:
    共现特征、质量控制特征、点击特征和语义特征。
    14.根据权利要求13所述的装置,其特征在于,
    所述排序单元中进一步用于:第二处理子单元;
    所述第一处理子单元进一步用于,将各RS的预估点击率发送给所述第二处理子单元;
    所述第二处理子单元,用于根据各RS的预估点击率以及导流能力特征,分别确定出各
    RS的导流能力评分,发送给所述排序子单元;
    所述排序子单元进一步用于,按照导流能力评分由大到小的顺序对各RS进行排序。
    15.根据权利要求14所述的装置,其特征在于,
    所述第二处理子单元针对每个RS,分别进行以下处理:
    分别获取用户点击所述RS之后进一步所展示的各RS的最近预定时长点击次数,将各点
    击次数相加,用相加之和除以最近预定时长点击所述RS之后进一步展示RS的次数,作为所
    述RS的导流能力特征;
    获取所述RS的最近预定时长点击率;
    计算所述RS的导流能力特征与所述RS的最近预定时长点击率的乘积,将所述乘积与进
    行归一化处理之后的所述RS的预估点击率相加,得到所述RS的导流能力评分。
    16.根据权利要求14所述的装置,其特征在于,
    所述排序单元中进一步包括:第三处理子单元;
    所述第三处理子单元,用于根据各RS的质量特征,分别确定出各RS的质量评分,发送给
    所述排序子单元;
    所述排序子单元进一步用于,综合各RS的导流能力评分以及质量评分,对各RS进行排
    序。
    17.根据权利要求16所述的装置,其特征在于,
    所述排序子单元进一步用于,综合各RS的预估点击率以及质量评分,对各RS进行排序。
    18.根据权利要求16所述的装置,其特征在于,
    所述第一处理子单元进一步用于,将各RS的预估点击率以及质量控制特征发送给所述
    第三处理子单元;
    所述第二处理子单元进一步用于,将各RS的导流能力特征发送给所述第三处理子单
    元;
    所述第三处理子单元针对每个RS,分别根据所述RS的质量控制特征、导流能力特征以
    及预估点击率,通过拟合方式确定出所述RS的质量评分。
    19.根据权利要求17所述的装置,其特征在于,
    所述排序子单元按照所述导流能力评分由大到小的顺序对各RS进行排序,并按照所述
    质量评分由大到小的顺序对各RS进行排序,针对每个RS,分别获取所述RS在两次排序中的
    排序位置,并计算两个排序位置的均值,根据各RS的排序位置的均值对各RS进行排序;
    所述排序子单元按照所述预估点击率由大到小的顺序对各RS进行排序,并按照所述质
    量评分由大到小的顺序对各RS进行排序,针对每个RS,分别获取所述RS在两次排序中的排
    序位置,并计算两个排序位置的均值,根据各RS的排序位置的均值对各RS进行排序。
    20.根据权利要求11-19中任一项所述的装置,其特征在于,
    所述装置中进一步包括:展示单元;
    所述排序单元进一步用于,将排序后处于前N位的RS发送给所述展示单元;
    所述展示单元,用于将排序后处于前N位的RS展示在搜索结果页中。

    说明书

    相关搜索的排序方法和装置

    【技术领域】

    本发明涉及互联网技术,特别涉及相关搜索的排序方法和装置。

    【背景技术】

    目前,当用户进行图片搜索等操作时,通?;嵩谒阉鹘峁持形没萍?展示与
    其输入的搜索词(query)相关的相关搜索(RS,Related Search)。

    图片搜索是指通过搜索程序,向用户提供互联网上相关的图片资料的服务,图片
    搜索的目的是查找出自己所需要的特定图片。

    比如,可以在搜索结果页中的搜索框的下方展示所推荐的各RS。RS来自于所有用
    户曾经搜索的query集合,用于挖掘用户的兴趣点,从而提升商业搜索引擎的用户流量。

    RS的相关性对用户点击有着直接影响,相关性越高,用户点击的可能性越大,相应
    地,用户流量也就越大。

    现有技术中,在获取到各待选的RS之后,通?;岚凑赵ざü嬖蚨愿鱎S进行排序,并
    将排序后处于前N位的RS展示给用户,N为正整数,通常大于1。

    但是,按照上述方式只能实现对于各RS的粗略排序,即排序结果的准确性较差,从
    而导致展示给用户的很可能是一些不太相关的RS,进而降低了用户点击的可能性。

    【发明内容】

    有鉴于此,本发明提供了相关搜索的排序方法和装置,能够提高排序结果的准确
    性。

    具体技术方案如下:

    一种相关搜索的排序方法,包括:

    获取搜索词query,并获取所述query对应的各RS;

    根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率;

    按照预估点击率由大到小的顺序对各RS进行排序。

    一种相关搜索的排序装置,包括:召回单元以及排序单元;

    所述召回单元,用于获取搜索词query,并获取所述query对应的各RS,将各RS发送
    给所述排序单元;

    所述排序单元,用于根据预先训练得到的点击预估模型,分别确定出各RS的预估
    点击率,并按照预估点击率由大到小的顺序对各RS进行排序。

    基于上述介绍可以看出,采用本发明所述方案,针对各RS,可首先根据预先训练得
    到的点击预估模型,分别确定出各RS的预估点击率,进而根据预估出的点击率大小对各RS
    进行排序,从而相比于现有技术提高了排序结果的准确性。

    【附图说明】

    图1为本发明所述相关搜索的排序方法实施例的流程图。

    图2为本发明所述相关搜索的排序方法较佳实施例的流程图。

    图3为本发明所述相关搜索的排序装置实施例的组成结构示意图。

    【具体实施方式】

    为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所
    述方案作进一步地详细说明。

    图1为本发明所述相关搜索的排序方法实施例的流程图,如图1所示,包括以下具
    体实现方式。

    在11中,获取搜索词query,并获取query对应的各RS。

    如何获取query对应的各RS即各待选的RS为现有技术。

    在12中,根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率。

    在实际应用中,可预先利用收集到的训练样本,训练得到一个点击预估模型,这
    样,针对每个RS,可分别获取该RS的用户行为特征,进而将获取到的特征作为点击预估模型
    的输入,得到点击预估模型输出的该RS的预估点击率。

    用户行为特征具体包括哪些内容可根据实际需要而定,比如,可包括:共现特征、
    质量控制特征、点击特征和语义特征,以下以图片搜索场景为例,分别对各特征进行详细介
    绍。

    1)共现特征

    共现特征描述的是用户一个会话(session)内,用户搜索的query集合之间的关
    系,共现特征可以有2维,分别为共现次数和前后共现关系。

    共现次数:最近预定时长内所有session的querylist中不记顺序的<queryA,
    queryB>的共现频率,对于11中所述的query对应的每个RS,可分别统计最近预定时长内所
    有session的querylist中不记顺序的<query(即11中所述的query),RS>的共现频率。

    前后共现关系:与共现次数的区别在于统计时需要考虑<queryA,queryB>中的两
    个query的前后顺序,根据两个query的前后顺序的不同,可对应得到两个统计结果。

    所述最近预定时长的具体取值可根据实际需要而定,比如最近M天,M通常为大于1
    的正整数。

    2)质量控制特征

    质量控制特征可以有3维,分别为query搜索次数、大图页翻页次数和点击图片的
    obj个数。

    query搜索次数:最近预定时长内所有用户搜索query的频率。

    大图页翻页次数:最近预定时长内所有用户在query下大图页翻页次数的平均值,
    比如,用户输入query进行搜索,搜索结果页中会展示有各作为搜索结果的缩图,当用户点
    击任一缩图后,会展示该缩图对应的大图,即展示大图页,并且,用户可进行左右翻页,以查
    看其它大图,每进行一次翻页,则可将统计结果加一,从而可得到用户本次搜索的大图页翻
    页次数。

    点击图片的obj个数:最近预定时长内所有用户在query搜索结果页中点击缩图次
    数的平均值,比如,用户输入query进行搜索,搜索结果页中会展示有各作为搜索结果的缩
    图,用户每点击任一缩图,则将统计结果加一,从而可得到用户本次搜索的点击缩图次数。

    本实施例中,针对11中所述的query对应的每个RS,可分别获取该RS及对应的
    query的质量控制特征,对于任一RS,若用户点击了该RS,则相当于是将该RS作为query进行
    搜索。

    同样,所述最近预定时长的具体取值可根据实际需要而定。

    3)点击特征

    点击特征可以有4维,分别为泛点击特征、单天点击率、30天点击率和60天点击率,
    点击率=点击次数/展示次数。

    如何获取泛点击特征为现有技术。

    单天点击率:最近一天内所有用户搜索query之后点击RS组成的点击pair<query,
    RS>的次数即为点击次数,最近一天内所有用户搜索query之后展示RS组成的展示pair<
    query,RS>的次数即为展示次数,用统计出的点击次数除以展示次数,即可得到单天点击
    率。

    比如,对于11中所述的query,其对应的一个RS假设为RSx,统计最近一天内搜索
    query之后点击了RSx的点击pair<query,RSx>的次数,则为点击次数,统计最近一天内搜索
    query之后展示了RSx的展示pair<query,RSx>的次数,则为展示次数,用点击次数除以展示
    次数,则可得到该RSx的单天点击率。

    30天点击率和60天点击率的含义和单天点击率类似,只是将“最近一天内”分别替
    换为“最近30天内”和“最近60天内”。

    4)语义特征

    语义特征可以有2维,分别为basic_weight和semantic_sim。

    basic_weight:query与RS的共现term的长度占RS的长度的比例。

    semantic_sim:query与RS的相似度概率,如何计算为现有技术。

    针对11中所述的query对应的每个RS,可分别获取其上述特征,并输入到点击预估
    模型,从而得到点击预估模型输出的该RS的预估点击率。

    并且,可将每个RS的特征及预估点击率作为一个新的训练样本,利用获取到的多
    个新的训练样本对点击预估模型进行优化。

    如何利用训练样本训练及优化点击预估模型为现有技术。

    在13中,按照预估点击率由大到小的顺序对各RS进行排序。

    在分别获取到11中所述的query对应的各RS的预估点击率之后,可按照预估点击
    率由大到小的顺序对各RS进行排序。

    并且,可将排序后处于前N位的RS展示在搜索结果页中,即将排序后处于前N位的
    RS推荐给用户。

    可以看出,采用上述实施例所述方案,针对各RS,可首先根据预先训练得到的点击
    预估模型,分别确定出各RS的预估点击率,进而根据预估出的点击率大小对各RS进行排序,
    从而相比于现有技术提高了排序结果的准确性;而且,模型可以看作是排序策略的框架,所
    使用的特征可以看作是排序策略的个性化定制,可以根据实际需要灵活选择或调整模型特
    征,从而便于进行策略升级等。

    点击预估模型的训练目标是提升一次搜索的点击率,为了进一步提高导流能力,
    可引入二级点击率即导流能力特征,二级点击率是指用户搜索query并点击了RS之后,在该
    RS下继续进行RS点击的所有位置的点击率之和,该特征可以通过统计用户session行为挖
    掘。

    相应地,本实施例所述方案中,在分别确定出各RS的预估点击率之后,可进一步根
    据各RS的预估点击率以及导流能力特征,分别确定出各RS的导流能力评分,进而按照导流
    能力评分由大到小的顺序对各RS进行排序。

    其中,为得到导流能力评分,针对每个RS,可分别进行以下处理:

    分别获取用户点击该RS之后进一步所展示的各RS的最近预定时长点击次数,将各
    点击次数相加,用相加之和除以最近预定时长点击该RS之后进一步展示RS的次数,作为该
    RS的导流能力特征;

    获取该RS的最近预定时长点击率;

    计算该RS的导流能力特征与该RS的最近预定时长点击率的乘积,将所述乘积与进
    行归一化处理之后的该RS的预估点击率相加,得到该RS的导流能力评分。

    假设用户输入11中所述的query进行搜索之后,点击了搜索结果页中所展示的一
    个RS假设为RSx,假设点击RSx之后所展示的下一级RS的个数共为10,针对这10个RS,可分别
    获取其最近预定时长点击次数,如分别获取其30天点击次数,将这10个RS的30天点击次数
    相加,用相加之和除以最近预定时长点击RSx之后展示下一级RS的次数,得到RSx的导流能
    力特征。

    以上在统计点击次数和展示次数时,可以采用以下任一处理方式:RSx必须来自于
    11中所述的query,即用户使用11中所述的query进行搜索之后展示并点击了RSx,或者,RSx
    可来自于任意query,即用户使用任意query进行搜索之后展示并点击了RSx。

    针对上述RSx,在获取到其导流能力特征之后,还需要获取其最近预定时长点击
    率,如30天点击率,之后,计算RSx的导流能力特征与RSx的最近预定时长点击率的乘积,将
    所述乘积与进行归一化处理之后的RSx的预估点击率相加,从而得到RSx的导流能力评分。

    即score=pre_result+ctr*daoliu;

    其中,score表示导流能力评分,pre_result表示预估点击率,ctr表示30天点击
    率,daoliu表示导流能力特征。

    为了使相加的两项可比,需要将pre_result归一化到(0,ctrmax]的区间,ctrmax表
    示11中所述的query对应的各RS的30天点击率中的最大值。

    特殊地,对于11中所述的query对应的任一RS,如果该RS为之前没有展示过的RS,
    由于其不存在历史点击行为等信息,那么在计算该RS的score时,可将pre_result作为该RS
    的ctr,将11中所述的query对应的各已展示过的RS的daoliu的均值作为该RS的daoliu。

    点击预估模型的一个缺陷是,对于点击行为不够丰富的长尾query,由于历史点击
    行为太少导致模型评分不够准确,而模型中虽然引入了质量控制特征,但由于训练时使用
    的是用户的真实点击数据,用户在点击时并不知道所点击的RS的结果质量是否能满足自己
    的需求,因此质量控制特征在点击预估模型中的作用有限,不能充分发挥作用。

    为此,本实施例所述方案中提出,可进一步根据各RS的质量特征,分别确定出各RS
    的质量评分,进而综合各RS的导流能力评分以及质量评分,对各RS进行排序,或者,综合各
    RS的预估点击率以及质量评分,对各RS进行排序。

    具体地,可针对每个RS,分别根据该RS的质量控制特征、导流能力特征以及预估点
    击率,通过拟合方式确定出该RS的质量评分。

    在质量特征中引入导流能力特征和预估点击率,主要是为了控制相关性。

    质量控制特征可包括前述的query搜索次数、大图页翻页次数和点击图片的obj个
    数。

    这样,针对11中所述的query对应的每个RS,可分别根据该RS的query搜索次数、大
    图页翻页次数、点击图片的obj个数、导流能力特征以及预估点击率,通过拟合方式确定出
    该RS的质量评分,具体拟合方式为现有技术。

    之后,可综合各RS的导流能力评分以及质量评分,对各RS进行排序,包括:

    按照导流能力评分由大到小的顺序对各RS进行排序;

    按照质量评分由大到小的顺序对各RS进行排序;

    针对每个RS,分别获取该RS在两次排序中的排序位置,并计算两个排序位置的均
    值;

    根据各RS的排序位置的均值对各RS进行排序。

    比如,共存在10个RS,对于其中的一个RS假设为RSx来说,在按照导流能力评分进
    行排序时,RSx排在第3位,在按照质量评分进行排序时,RSx排在第4位,那么RSx的排序位置
    的均值则为3.5,对于其中的另一个RS假设为RSz来说,在按照导流能力评分进行排序时,
    RSz排在第2位,在按照质量评分进行排序时,RSz排在第3位,那么RSz的排序位置的均值则
    为2.5,2.5小于3.5,因此RSz排在RSx的前面,如果RSx和RSz的排序位置的均值相同,那么
    RSz可排在RSx的前面,或者反之。

    或者,综合各RS的预估点击率以及质量评分,对各RS进行排序,包括:

    按照预估点击率由大到小的顺序对各RS进行排序;

    按照质量评分由大到小的顺序对各RS进行排序;

    针对每个RS,分别获取该RS在两次排序中的排序位置,并计算两个排序位置的均
    值;

    根据各RS的排序位置的均值对各RS进行排序。

    综合上述介绍可知,本实施例所述方案中,在对11中所述的query对应的各RS进行
    排序时,至少可采用以下四种方式:

    1)按照预估点击率由大到小的顺序对各RS进行排序;

    2)按照导流能力评分由大到小的顺序对各RS进行排序;

    3)综合各RS的导流能力评分以及质量评分,对各RS进行排序;

    4)综合各RS的预估点击率以及质量评分,对各RS进行排序。

    无论采用哪种方式,在对各RS进行排序之后,均可将排序后处于前N位的RS展示在
    搜索结果页中,推荐给用户。

    以下以第3)种方式为例,对本发明所述方案进行进一步说明。

    图2为本发明所述相关搜索的排序方法较佳实施例的流程图,如图2所示,包括以
    下具体实现方式。

    在21中,获取搜索词query,并获取query对应的各RS。

    在22中,根据预先训练得到的点击预估模型,分别确定出各RS的预估点击率。

    在23中,根据各RS的预估点击率以及导流能力特征,分别确定出各RS的导流能力
    评分。

    在24中,根据各RS的质量特征,分别确定出各RS的质量评分。

    在25中,综合各RS的导流能力评分以及质量评分,对各RS进行排序。

    在26中,将排序后处于前N位的RS展示在搜索结果页中,推荐给用户。

    图3为本发明所述相关搜索的排序装置实施例的组成结构示意图,如图3所示,包
    括:召回单元31以及排序单元32。

    召回单元31,用于获取搜索词query,并获取query对应的各RS,将各RS发送给排序
    单元32。

    排序单元32,用于根据预先训练得到的点击预估模型,分别确定出各RS的预估点
    击率,并按照预估点击率由大到小的顺序对各RS进行排序。

    其中,排序单元32中可包括:第一处理子单元321和排序子单元324。

    第一处理子单元321可针对每个RS,分别获取该RS的用户行为特征,将获取到的特
    征作为点击预估模型的输入,得到点击预估模型输出的该RS的预估点击率,发送给排序子
    单元324。

    相应地,排序子单元324可按照预估点击率由大到小的顺序对各RS进行排序。

    用户行为特征可包括:共现特征、质量控制特征、点击特征和语义特征。

    其中,共现特征可包括:共现次数和前后共现关系。

    质量控制特征可包括:query搜索次数、大图页翻页次数和点击图片的obj个数。

    点击特征可包括:泛点击特征、单天点击率、30天点击率和60天点击率。

    语义特征可包括:basic_weight和semantic_sim。

    如图3所示,排序单元32中还可进一步包括:第二处理子单元322。

    第一处理子单元321可将各RS的预估点击率进一步发送给第二处理子单元322。

    相应地,第二处理子单元322可根据各RS的预估点击率以及导流能力特征,分别确
    定出各RS的导流能力评分,发送给排序子单元324。

    排序子单元324可按照导流能力评分由大到小的顺序对各RS进行排序。

    具体地,第二处理子单元322可针对每个RS,分别进行以下处理:

    分别获取用户点击该RS之后进一步所展示的各RS的最近预定时长点击次数,将各
    点击次数相加,用相加之和除以最近预定时长点击该RS之后进一步展示RS的次数,作为该
    RS的导流能力特征;

    获取该RS的最近预定时长点击率;

    计算该RS的导流能力特征与该RS的最近预定时长点击率的乘积,将所述乘积与进
    行归一化处理之后的该RS的预估点击率相加,得到该RS的导流能力评分。

    如图3所示,排序单元32中还可进一步包括:第三处理子单元323。

    第三处理子单元323可根据各RS的质量特征,分别确定出各RS的质量评分,发送给
    排序子单元324。

    排序子单元324可综合各RS的导流能力评分以及质量评分,对各RS进行排序。

    相应地,第一处理子单元321可进一步将各RS的预估点击率以及质量控制特征发
    送给第三处理子单元323。

    第二处理子单元322可进一步将各RS的导流能力特征发送给第三处理子单元323。

    第三处理子单元323可针对每个RS,分别根据该RS的质量控制特征、导流能力特征
    以及预估点击率,通过拟合方式确定出该RS的质量评分。

    其中,排序子单元324在综合各RS的导流能力评分以及质量评分对各RS进行排序
    时,可按照导流能力评分由大到小的顺序对各RS进行排序,并按照质量评分由大到小的顺
    序对各RS进行排序,针对每个RS,分别获取该RS在两次排序中的排序位置,并计算两个排序
    位置的均值,根据各RS的排序位置的均值对各RS进行排序。

    排序子单元324还可综合各RS的预估点击率以及质量评分,对各RS进行排序,即按
    照预估点击率由大到小的顺序对各RS进行排序,并按照质量评分由大到小的顺序对各RS进
    行排序,针对每个RS,分别获取该RS在两次排序中的排序位置,并计算两个排序位置的均
    值,根据各RS的排序位置的均值对各RS进行排序。

    综合上述介绍可知,本实施例所述方案中,排序子单元324至少可采用以下四种排
    序方式:

    1)按照预估点击率由大到小的顺序对各RS进行排序;

    2)按照导流能力评分由大到小的顺序对各RS进行排序;

    3)综合各RS的导流能力评分以及质量评分,对各RS进行排序;

    4)综合各RS的预估点击率以及质量评分,对各RS进行排序。

    如图3所示,图3所示装置实施例中还可进一步包括:展示单元33。

    排序单元32可将排序后处于前N位的RS发送给展示单元33,相应地,展示单元33可
    将排序后处于前N位的RS展示在搜索结果页中,推荐给用户。

    图3所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再
    赘述。

    总之,采用本发明所述方案,可提高排序结果的准确性,并可适用于所有垂类和通
    用的搜索引擎系统,具有广泛适用性。

    本发明实施例提供的上述方法和装置可以以设置并运行于设备中的计算机程序
    体现。该设备可以包括一个或多个处理器,还包括存储器和一个或多个程序。其中该一个或
    多个程序存储于存储器中,被上述一个或多个处理器执行以实现本发明上述实施例中所示
    的方法流程和/或装置操作。

    在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其
    它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅
    仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

    所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
    示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
    网络单元上??梢愿菔导实男枰≡衿渲械牟糠只蛘呷康ピ词迪直臼凳├桨傅哪?br />的。

    另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以
    是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
    元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

    上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存
    储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机
    设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个
    实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,
    Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
    可以存储程序代码的介质。

    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
    神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明?;さ姆段е?。

    关于本文
    本文标题:相关搜索的排序方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6020991.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 全天幸运赛车计划专业版 体彩11选5稳赚技巧9码 福彩3d6码复式多少钱 北京pk10直播软件下载 双色球复式 倍投稳赚是真的吗 福彩3d胆是什么意思 北京pk10看走势方法 大乐透开奖前多长时间停售 ipad上好用的计划软件下载 聚富网下载软件 排列三组选六6码遗漏大赢家 北京pk赛车人工计划软件手机版 北京pk10技巧 大全 双色球就机选投注号码 北京pk10单期稳定计划