• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    重庆时时彩高手1: 搜索关键词的类名选取方法和装置.pdf

    关 键 词:
    搜索关键词 选取 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201510850384.0

    申请日:

    2015.11.27

    公开号:

    CN106815228A

    公开日:

    2017.06.09

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20151127|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 北京国双科技有限公司
    发明人: 贺达; 冯鸳鹤
    地址: 100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间
    优先权:
    专利代理机构: 北京康信知识产权代理有限责任公司 11240 代理人: 赵囡囡;吴贵明
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510850384.0

    授权公告号:

    |||

    法律状态公告日:

    2017.07.04|||2017.06.09

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本申请公开了一种搜索关键词的类名选取方法和装置。其中,该方法包括:对目标网站的搜索关键词进行聚类,得到多类搜索关键词,其中,搜索关键词为对目标网站进行站内搜索时所采用的关键词,目标网站通过栏目划分站内页面;查询搜索关键词在目标网站进行站内搜索时所着陆的着陆页面,确定搜索关键词对应的着陆页面所在栏目的栏目名称;对于多类搜索关键词中每一类搜索关键词,从每一类搜索关键词所包含的搜索关键词对应的着陆页面所在栏目的栏目名称中选择一个栏目名称,作为该类搜索关键词的类名。本申请解决了现有的选取方式选出的类名不能反映所在类的特点的技术问题。

    权利要求书

    1.一种搜索关键词的类名选取方法,其特征在于,包括:
    对目标网站的搜索关键词进行聚类,得到多类搜索关键词,其中,所述搜索
    关键词为对所述目标网站进行站内搜索时所采用的关键词,所述目标网站通过栏
    目划分站内页面;
    查询所述搜索关键词在所述目标网站进行站内搜索时所着陆的着陆页面,确
    定所述搜索关键词对应的着陆页面所在栏目的栏目名称;
    对于所述多类搜索关键词中每一类搜索关键词,从所述每一类搜索关键词所
    包含的搜索关键词对应的着陆页面所在栏目的栏目名称中选择一个栏目名称,作
    为该类搜索关键词的类名。
    2.根据权利要求1所述的方法,其特征在于,从所述每一类搜索关键词所包含的搜
    索关键词对应的着陆页面所在栏目的栏目名称中选择一个栏目名称,作为该类搜
    索关键词的类名包括:
    统计所述每一类搜索关键词中搜索关键词对应的着陆页面所在栏目的栏目名
    称的出现次数;以及
    对于所述每一类搜索关键词,选择统计后出现次数最多的栏目名称作为该类
    搜索关键词的类名。
    3.根据权利要求1所述的方法,其特征在于,在对目标网站的搜索关键词进行聚类,
    得到多类搜索关键词之前,所述方法还包括:
    获取所述目标网站的历史访问数据;
    对所述历史访问数据进行解析,得到所述目标网站的搜索关键词及其对应的
    着陆页面。
    4.根据权利要求3所述的方法,其特征在于,在对所述历史访问数据进行解析,得
    到所述目标网站的搜索关键词及其对应的着陆页面之后,所述方法还包括:
    建立所述搜索关键词与所述着陆页面的对应关系;
    其中,查询所述搜索关键词在进行所述目标网站的站内搜索时所着陆的着陆
    页面包括:以所述搜索关键词为索引,利用所述对应关系查询所述搜索关键词对
    应的着陆页面。
    5.根据权利要求1所述的方法,其特征在于,对目标网站的搜索关键词进行聚类,
    得到多类搜索关键词包括:
    用K-means聚类算法对所述目标网站的搜索关键词进行聚类,得到所述多类
    搜索关键词。
    6.一种搜索关键词的类名选取装置,其特征在于,包括:
    聚类单元,用于对目标网站的搜索关键词进行聚类,得到多类搜索关键词,
    其中,所述搜索关键词为对所述目标网站进行站内搜索时所采用的关键词,所述
    目标网站通过栏目划分站内页面;
    查询单元,用于查询所述搜索关键词在所述目标网站进行站内搜索时所着陆
    的着陆页面,确定所述搜索关键词对应的着陆页面所在栏目的栏目名称;
    选择单元,用于对于所述多类搜索关键词中每一类搜索关键词,从所述每一
    类搜索关键词所包含的搜索关键词对应的着陆页面所在栏目的栏目名称中选择一
    个栏目名称,作为该类搜索关键词的类名。
    7.根据权利要求6所述的装置,其特征在于,所述选择单元包括:
    统计???,用于统计所述每一类搜索关键词中搜索关键词对应的着陆页面所
    在栏目的栏目名称的出现次数;以及
    选择???,用于对于所述每一类搜索关键词,选择统计后出现次数最多的栏
    目名称作为该类搜索关键词的类名。
    8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
    获取单元,用于在对目标网站的搜索关键词进行聚类,得到多类搜索关键词
    之前,获取所述目标网站的历史访问数据;
    解析单元,用于对所述历史访问数据进行解析,得到所述目标网站的搜索关
    键词及其对应的着陆页面。
    9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
    建立单元,用于在对所述历史访问数据进行解析,得到所述目标网站的搜索
    关键词及其对应的着陆页面之后,建立所述搜索关键词与所述着陆页面的对应关
    系;
    其中,所述查询单元具体用于以所述搜索关键词为索引,利用所述对应关系
    查询所述搜索关键词对应的着陆页面。
    10.根据权利要求6所述的装置,其特征在于,所述聚类单元具体用于用K-means聚
    类算法对所述目标网站的搜索关键词进行聚类,得到所述多类搜索关键词。

    说明书

    搜索关键词的类名选取方法和装置

    技术领域

    本申请涉及互联网领域,具体而言,涉及一种搜索关键词的类名选取方法和装置。

    背景技术

    在互联网领域,网站是用于向用户提供信息的重要平台。大部分网站都提供了站
    内搜索,以供用户在网站内搜索相关信息。通过记录用户所搜索的内容即可了解用户
    比较关注的信息,及其需求。为了更好地了解用户的关注点和需求,网站运营商通常
    会对用户在网站的站内搜索关键词进行归类,将一系列相关的搜索关键词分到一个类
    下,并给每个类定义其类名。

    然而,现有的搜索关键词的类名的选取方式,通常是选取在一类搜索关键词中一
    定范围内与该类其他词联系最多的词作为类名,而用这样选择出来的类名通常是与大
    部分词都有关联但是却不能反映所在类的特点的词,例如在搜索关键词的类【房地产,
    房屋,地产,商品房,物业,购置税】中通过以上现有的方式选择的类名会是“购置
    税”,因为“购置税”与其他词都有关联,而其他词之间因为是近义词可以相互替代反
    而联系较少。然而通过对这些搜索关键词进行分析,可以很明显的看出使用房地产作
    为类名的效果会更好。

    针对上述的问题,目前尚未提出有效的解决方案。

    发明内容

    本申请实施例提供了一种搜索关键词的类名选取方法和装置,以至少解决现有的
    选取方式选出的类名不能反映所在类的特点的技术问题。

    根据本申请实施例的一个方面,提供了一种搜索关键词的类名选取方法,包括:
    对目标网站的搜索关键词进行聚类,得到多类搜索关键词,其中,所述搜索关键词为
    对所述目标网站进行站内搜索时所采用的关键词,所述目标网站通过栏目划分站内页
    面;查询所述搜索关键词在所述目标网站进行站内搜索时所着陆的着陆页面,确定所
    述搜索关键词对应的着陆页面所在栏目的栏目名称;对于所述多类搜索关键词中每一
    类搜索关键词,从所述每一类搜索关键词所包含的搜索关键词对应的着陆页面所在栏
    目的栏目名称中选择一个栏目名称,作为该类搜索关键词的类名。

    进一步地,从所述每一类搜索关键词所包含的搜索关键词对应的着陆页面所在栏
    目的栏目名称中选择一个栏目名称,作为该类搜索关键词的类名包括:统计所述每一
    类搜索关键词中搜索关键词对应的着陆页面所在栏目的栏目名称的出现次数;以及对
    于所述每一类搜索关键词,选择统计后出现次数最多的栏目名称作为该类搜索关键词
    的类名。

    进一步地,在对目标网站的搜索关键词进行聚类,得到多类搜索关键词之前,所
    述方法还包括:获取所述目标网站的历史访问数据;对所述历史访问数据进行解析,
    得到所述目标网站的搜索关键词及其对应的着陆页面。

    进一步地,在对所述历史访问数据进行解析,得到所述目标网站的搜索关键词及
    其对应的着陆页面之后,所述方法还包括:建立所述搜索关键词与所述着陆页面的对
    应关系;其中,查询所述搜索关键词在所述目标网站进行站内搜索时所着陆的着陆页
    面包括:以所述搜索关键词为索引,利用所述对应关系查询所述搜索关键词对应的着
    陆页面。

    进一步地,对目标网站的搜索关键词进行聚类,得到多类搜索关键词包括:用
    K-means聚类算法对所述目标网站的搜索关键词进行聚类,得到所述多类搜索关键词。

    根据本申请实施例的另一方面,还提供了一种搜索关键词的类名选取装置,包括:
    聚类单元,用于对目标网站的搜索关键词进行聚类,得到多类搜索关键词,其中,所
    述搜索关键词为对所述目标网站进行站内搜索时所采用的关键词,所述目标网站通过
    栏目划分站内页面;查询单元,用于查询所述搜索关键词在所述目标网站进行站内搜
    索时所着陆的着陆页面,确定所述搜索关键词对应的着陆页面所在栏目的栏目名称;
    选择单元,用于对于所述多类搜索关键词中每一类搜索关键词,从所述每一类搜索关
    键词所包含的搜索关键词对应的着陆页面所在栏目的栏目名称中选择一个栏目名称,
    作为该类搜索关键词的类名。

    进一步地,所述选择单元包括:统计???,用于统计所述每一类搜索关键词中搜
    索关键词对应的着陆页面所在栏目的栏目名称的出现次数;以及选择???,用于对于
    所述每一类搜索关键词,选择统计后出现次数最多的栏目名称作为该类搜索关键词的
    类名。

    进一步地,所述装置还包括:获取单元,用于在对目标网站的搜索关键词进行聚
    类,得到多类搜索关键词之前,获取所述目标网站的历史访问数据;解析单元,用于
    对所述历史访问数据进行解析,得到所述目标网站的搜索关键词及其对应的着陆页面。

    进一步地,所述装置还包括:建立单元,用于在对所述历史访问数据进行解析,
    得到所述目标网站的搜索关键词及其对应的着陆页面之后,建立所述搜索关键词与所
    述着陆页面的对应关系;其中,所述查询单元具体用于以所述搜索关键词为索引,利
    用所述对应关系查询所述搜索关键词对应的着陆页面。

    进一步地,所述聚类单元具体用于用K-means聚类算法对所述目标网站的搜索关
    键词进行聚类,得到所述多类搜索关键词。

    根据本申请实施例,通过对目标网站的搜索关键词进行聚类,得到多类搜索关键
    词,其中,搜索关键词为对目标网站进行站内搜索时所采用的关键词,目标网站通过
    栏目划分站内页面,查询搜索关键词在目标网站进行站内搜索时所着陆的着陆页面,
    确定搜索关键词对应的着陆页面所在栏目的栏目名称,对于多类搜索关键词中每一类
    搜索关键词,从每一类搜索关键词所包含的搜索关键词对应的着陆页面所在栏目的栏
    目名称中选择一个栏目名称,作为该类搜索关键词的类名,解决现有的选取方式选出
    的类名不能反映所在类的特点的技术问题,达到了选择的类名能够反映搜索关键词所
    在类的特点的效果。

    附图说明

    此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申
    请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图
    中:

    图1是根据本申请实施例的搜索关键词的类名选取方法的流程图;

    图2是根据本申请实施例的搜索关键词的类名选取装置的示意图。

    具体实施方式

    为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的
    附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例
    仅仅是本申请一部分的实施例,而不是全部的实施例?;诒旧昵胫械氖凳├?,本领
    域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于
    本申请?;さ姆段?。

    需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第
    二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这
    样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在
    这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的
    任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方
    法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚
    地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

    根据本申请实施例,提供了一种搜索关键词的类名选取方法的方法实施例,需要
    说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系
    统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同
    于此处的顺序执行所示出或描述的步骤。

    图1是根据本申请实施例的搜索关键词的类名选取方法的流程图,如图1所示,
    该方法包括如下步骤:

    步骤S102,对目标网站的搜索关键词进行聚类,得到多类搜索关键词,其中,搜
    索关键词为对目标网站进行站内搜索时所采用的关键词,目标网站通过栏目划分站内
    页面。

    本申请实施例中,目标网站可以是任意网站,该网站的站内网页的页面按照栏目
    划分,其中,每个栏目具有相应的栏目名称,例如,新闻网站中将各类新闻划分为“科
    技”、“财经”、“体育”等栏目。记录用户在目标网站内进行站内搜索时所用的搜索关
    键词,对这些搜索关键词进行聚类,得到多类搜索关键词,例如记录的某网站的搜索
    关键词包括:房地产、房屋、地产、商品房、物业、购置税、雪灾、雾霾、强降雨、
    高温气候,对这些搜索关键词进行聚类,得到第一类搜索关键词【房地产、房屋、地
    产、商品房、物业、购置税】和第二类搜索关键词【雪灾、雾霾、强降雨、高温气候】。

    步骤S104,查询搜索关键词在目标网站进行站内搜索时所着陆的着陆页面,确定
    搜索关键词对应的着陆页面所在栏目的栏目名称。

    用户在目标网站进行站内搜索时,通?;岬慊鹘胂喙氐囊趁?,即用户最终所着
    陆的着陆页面。例如,用户在目标网站内利用搜索关键词“雾霾”搜索相关信息,并
    进入到一篇关于北京近一年的雾霾情况介绍的页面中,那么该用户该次搜索关键词“雾
    霾”对应的着陆页面为该篇关于北京近一年的雾霾情况介绍的页面。

    需要说明的是,这里的搜索关键词在目标网站进行站内搜索时所着陆的着陆页面
    可以是指该搜索关键词每次搜索时所着陆的页面,也即是,每个搜索关键词可以对应
    多个着陆页面,例如,当不同用户采用相同的搜索关键词进行站内搜索时,最终所着
    陆的着陆页面各不相同,则该搜索关键词对应多个着陆页面,并查询出这些着陆页面;
    如果不同用户的着陆页面包含有相同的页面时,也可以记录成不同的对应关系,也即
    是,以搜索关键词使用的次数为单位,确定每次站内搜索时,搜索关键词对应的着陆
    页面。

    本实施例中,在查询出每个搜索关键词在每次站内搜索时对应的着陆页面之后,
    确定出每个着陆页面所在栏目的栏目名称。例如上述关于“雾霾”的搜索结果中,其
    着陆页面为该篇关于北京近一年的雾霾情况介绍的页面,该页面属于栏目名称为“天
    气”的栏目,确定出着陆页面所在栏目的栏目名称为“天气”。

    步骤S106,对于多类搜索关键词中每一类搜索关键词,从每一类搜索关键词所包
    含的搜索关键词对应的着陆页面所在栏目的栏目名称中选择一个栏目名称,作为该类
    搜索关键词的类名。

    由于已经对搜索关键词进行聚类,得到多个搜索关键词。每一类搜索关键词中每
    个搜索关键词都有其对应的着陆页面,以及着陆页面所在栏目的栏目名称,因此,每
    一类搜索关键词对应有多个着陆页面以及着陆页面所在栏目的栏目名称。由于网站中
    通常都具备较好的栏目结构性,每个栏目都有其栏目名称,用户通过站内搜索关键词
    想得到的信息就是这个栏目页面的信息,而网站的栏目名称则是对信息的一种分类总
    结,能够很好地总结归纳这类页面的内容,因此,从栏目名中选择作为搜索关键词的
    类名能够很好的反映搜索关键词所在类的特点。例如,上述聚类得到的一类搜索关键
    词【雪灾、雾霾、强降雨、高温气候】中,确定出该类搜索关键词进行站内搜索时,
    着陆页面所在栏目的栏目名称包括:“天气”、“自然灾害”等,因此,可以从这些栏目
    名中选择“天气”作为该类搜索关键词的类名,按照此方式选择出每一类搜索关键词
    的类名。

    根据本申请实施例,通过对目标网站的搜索关键词进行聚类,得到多类搜索关键
    词,其中,搜索关键词为对目标网站进行站内搜索时所采用的关键词,目标网站通过
    栏目划分站内页面,查询搜索关键词在目标网站进行站内搜索时所着陆的着陆页面,
    确定搜索关键词对应的着陆页面所在栏目的栏目名称,对于多类搜索关键词中每一类
    搜索关键词,从每一类搜索关键词所包含的搜索关键词对应的着陆页面所在栏目的栏
    目名称中选择一个栏目名称,作为该类搜索关键词的类名,解决现有的选取方式选出
    的类名不能反映所在类的特点的技术问题,达到了选择的类名能够反映搜索关键词所
    在类的特点的效果。

    本申请实施例中可以按照预先设定的规则从每类搜索关键词对应的着陆页面所在
    栏目的栏目名称中选择该类搜索关键词的类名,也可以直接将出现次数最多的栏目名
    称作为该类搜索关键词的类名。

    优选地,从每一类搜索关键词所包含的搜索关键词对应的着陆页面所在栏目的栏
    目名称中选择一个栏目名称,作为该类搜索关键词的类名包括:统计每一类搜索关键
    词中搜索关键词对应的着陆页面所在栏目的栏目名称的出现次数;以及对于每一类搜
    索关键词,选择出现次数最多的栏目名称作为该类搜索关键词的类名。

    本实施例中,栏目名称出现的次数是指用户利用搜索关键词进行站内搜索的着陆
    页面在该栏目名称的次数,由于栏目名称出现次数越多,表明该类搜索关键词着陆到
    该栏目的次数越多,因此,该栏目的栏目名称则能够更好的反映出该类搜索关键词的
    特点。

    以上述聚类得到的一类搜索关键词【雪灾、雾霾、强降雨、高温气候】为例,其
    中,使用搜索关键词“雪灾”、“雾霾”、“强降雨”、“高温气候”中每个词依次搜索的
    次数为8、4、3、5,其中,“雪灾”中栏目名称“自然灾害”出现了3次,“天气”出
    现了5次,其他搜索关键词中均为“天气”,因此,统计得到“自然灾害”共出现了3
    次,“天气”共出现了27次,因此,将“天气”作为该类搜索关键词的类名。

    优选地,在对目标网站的搜索关键词进行聚类,得到多类搜索关键词之前,方法
    还包括:获取目标网站的历史访问数据;对历史访问数据进行解析,得到目标网站的
    搜索关键词及其对应的着陆页面。

    本实施例中,用户在目标网站进行站内搜索所使用的关键词以及其访问行为均记
    录在目标网站的访问数据中。在进行搜索关键词的类名选取的过程中,先获取目标网
    站的历史访问数据,并从中解析出在用户使用的搜索关键词以及每次搜索所着陆的着
    陆页面,以便于后续对搜索关键词的聚类以及栏目名称出现次数的统计。

    进一步地,在对历史访问数据进行解析,得到目标网站的搜索关键词及其对应的
    着陆页面之后,方法还包括:建立搜索关键词与着陆页面的对应关系;其中,查询搜
    索关键词在目标网站进行站内搜索时所着陆的着陆页面包括:以搜索关键词为索引,
    利用对应关系查询搜索关键词对应的着陆页面。

    本实施例中,在解析出用户所使用的搜索关键词及其着陆页面之后,将每次使用
    搜索关键词进行站内搜索所着陆的着陆页面关联起来,建立对应关系,这样,对搜索
    关键词进行聚类之后,可以利用搜索关键词查询到其相应的着陆页面。

    优选地,对目标网站的搜索关键词进行聚类,得到多类搜索关键词包括:用
    K-means聚类算法对目标网站的搜索关键词进行聚类,得到多类搜索关键词。

    本申请实施例中,优选采用K-means聚类算法对搜索关键词进行聚类,以得到多
    类搜索关键词。

    综上,本申请实施例,通过将聚类的搜索关键词和栏目名称联系起来,使用用户
    通过搜索关键词搜索得到的想要的栏目名称作为聚类关键词类名,很好地反映了聚类
    结果的特征。

    本申请实施例还提供了一种搜索关键词的类名选取装置,该装置可以用于执行本
    申请实施例的搜索关键词的类名选取方法,如图2所示,该装置包括:聚类单元10、
    查询单元20和选择单元30。

    聚类单元10用于对目标网站的搜索关键词进行聚类,得到多类搜索关键词,其中,
    搜索关键词为对目标网站进行站内搜索时所采用的关键词,目标网站通过栏目划分站
    内页面。

    本申请实施例中,目标网站可以是任意网站,该网站的站内网页的页面按照栏目
    划分,其中,每个栏目具有相应的栏目名称,例如,新闻网站中将各类新闻划分为“科
    技”、“财经”、“体育”等栏目。记录用户在目标网站内进行站内搜索时所用的搜索关
    键词,对这些搜索关键词进行聚类,得到多类搜索关键词,例如记录的某网站的搜索
    关键词包括:房地产、房屋、地产、商品房、物业、购置税、雪灾、雾霾、强降雨、
    高温气候,对这些搜索关键词进行聚类,得到第一类搜索关键词【房地产、房屋、地
    产、商品房、物业、购置税】和第二类搜索关键词【雪灾、雾霾、强降雨、高温气候】。

    查询单元20用于查询搜索关键词在目标网站进行站内搜索时所着陆的着陆页面,
    确定搜索关键词对应的着陆页面所在栏目的栏目名称。

    用户在目标网站进行站内搜索时,通?;岬慊鹘胂喙氐囊趁?,即用户最终所着
    陆的着陆页面。例如,用户在目标网站内利用搜索关键词“雾霾”搜索相关信息,并
    进入到一篇关于北京近一年的雾霾情况介绍的页面中,那么该用户该次搜索关键词“雾
    霾”对应的着陆页面为该篇关于北京近一年的雾霾情况介绍的页面。

    需要说明的是,这里的搜索关键词在目标网站进行站内搜索时所着陆的着陆页面
    可以是指该搜索关键词每次搜索时所着陆的页面,也即是,每个搜索关键词可以对应
    多个着陆页面,例如,当不同用户采用相同的搜索关键词进行站内搜索时,最终所着
    陆的着陆页面各不相同,则该搜索关键词对应多个着陆页面,并查询出这些着陆页面;
    如果不同用户的着陆页面包含有相同的页面时,也可以记录成不同的对应关系,也即
    是,以搜索关键词使用的次数为单位,确定每次站内搜索时,搜索关键词对应的着陆
    页面。

    本实施例中,在查询出每个搜索关键词在每次站内搜索时对应的着陆页面之后,
    确定出每个着陆页面所在栏目的栏目名称。例如上述关于“雾霾”的搜索结果中,其
    着陆页面为该篇关于北京近一年的雾霾情况介绍的页面,该页面属于栏目名为“天气”
    的栏目,确定出着陆页面所在栏目的栏目名称为“天气”。

    选择单元30用于对于多类搜索关键词中每一类搜索关键词,从每一类搜索关键词
    所包含的搜索关键词对应的着陆页面所在栏目的栏目名称中选择一个栏目名称,作为
    该类搜索关键词的类名。

    由于已经对搜索关键词进行聚类,得到多个搜索关键词。每一类搜索关键词中每
    个搜索关键词都有其对应的着陆页面,以及着陆页面所在栏目的栏目名称,因此,每
    一类搜索关键词对应有多个着陆页面以及着陆页面所在栏目的栏目名称。由于网站中
    通常都具备较好的栏目结构性,每个栏目都有其栏目名称,用户通过站内搜索关键词
    想得到的信息就是这个栏目页面的信息,而网站的栏目名称则是对信息的一种分类总
    结,能够很好地总结归纳这类页面的内容,因此,从栏目名中选择作为搜索关键词的
    类名能够很好的反映搜索关键词所在类的特点。例如,上述聚类得到的一类搜索关键
    词【雪灾、雾霾、强降雨、高温气候】中,确定出该类搜索关键词进行站内搜索时,
    着陆页面所在栏目的栏目名称包括:“天气”、“自然灾害”等,因此,可以从这些栏目
    名中选择“天气”作为该类搜索关键词的类名,按照此方式选择出每一类搜索关键词
    的类名。

    根据本申请实施例,通过对目标网站的搜索关键词进行聚类,得到多类搜索关键
    词,其中,搜索关键词为对目标网站进行站内搜索时所采用的关键词,目标网站通过
    栏目划分站内页面,查询搜索关键词在目标网站进行站内搜索时所着陆的着陆页面,
    确定搜索关键词对应的着陆页面所在栏目的栏目名称,对于多类搜索关键词中每一类
    搜索关键词,从每一类搜索关键词所包含的搜索关键词对应的着陆页面所在栏目的栏
    目名称中选择一个栏目名称,作为该类搜索关键词的类名,解决现有的选取方式选出
    的类名不能反映所在类的特点的技术问题,达到了选择的类名能够反映搜索关键词所
    在类的特点的效果。

    本申请实施例中可以按照预先设定的规则从每类搜索关键词对应的着陆页面所在
    栏目的栏目名称中选择该类搜索关键词的类名,也可以直接将出现次数最多的栏目名
    称作为该类搜索关键词的类名。

    优选地,选择单元包括:统计???,用于统计每一类搜索关键词中搜索关键词对
    应的着陆页面所在栏目的栏目名称的出现次数;以及选择???,用于对于每一类搜索
    关键词,选择出现次数最多的栏目名称作为该类搜索关键词的类名。

    本实施例中,栏目名称出现的次数是指用户利用搜索关键词进行站内搜索的着陆
    页面在该栏目名称的次数,由于栏目名称出现次数越多,表名该类搜索关键词着陆到
    该栏目的次数越多,因此,该栏目的栏目名称则能够更好的反映出该类搜索关键词的
    特点。

    以上述聚类得到的一类搜索关键词【雪灾、雾霾、强降雨、高温气候】为例,其
    中,使用搜索关键词“雪灾”、“雾霾”、“强降雨”、“高温气候”中每个词依次搜索的
    次数为8、4、3、5,其中,“雪灾”中栏目名称“自然灾害”出现了3次,“天气”出
    现了5次,其他搜索关键词中均为“天气”,因此,统计得到“自然灾害”共出现了3
    次,“天气”共出现了27次,因此,将“天气”作为该类搜索关键词的类名。

    优选地,装置还包括:获取单元,用于在对目标网站的搜索关键词进行聚类,得
    到多类搜索关键词之前,获取目标网站的历史访问数据;解析单元,用于对历史访问
    数据进行解析,得到目标网站的搜索关键词及其对应的着陆页面。

    本实施例中,用户在目标网站进行站内搜索所使用的关键词以及其访问行为均记
    录在目标网站的访问数据中。在进行搜索关键词的类名选取的过程中,先获取目标网
    站的历史访问数据,并从中解析出在用户使用的搜索关键词以及每次搜索所着陆的着
    陆页面,以便于后续对搜索关键词的聚类以及栏目名称出现次数的统计。

    进一步地,,装置还包括:建立单元,用于在对历史访问数据进行解析,得到目标
    网站的搜索关键词及其对应的着陆页面之后,建立搜索关键词与着陆页面的对应关系;
    其中,查询单元具体用于以搜索关键词为索引,利用对应关系查询搜索关键词对应的
    着陆页面。

    本实施例中,在解析出用户所使用的搜索关键词及其着陆页面之后,将每次使用
    搜索关键词进行站内搜索所着陆的着陆页面关联起来,建立对应关系,这样,对搜索
    关键词进行聚类之后,可以利用搜索关键词查询到其相应的着陆页面。

    优选地,聚类单元具体用于用K-means聚类算法对目标网站的搜索关键词进行聚
    类,得到多类搜索关键词。

    综上,本申请实施例,通过将聚类的搜索关键词和栏目名称联系起来,使用用户
    通过搜索关键词搜索得到的想要的栏目名称作为聚类关键词类名,很好地反映了聚类
    结果的特征。

    所述搜索关键词的类名选取装置包括处理器和存储器,上述聚类单元10、查询单
    元20和选择单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器
    中的上述程序单元。

    处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个
    或以上,通过调整内核参数来选择每一类搜索关键词的类名。

    存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/
    或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一
    个存储芯片。

    本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适
    于执行初始化有如下方法步骤的程序代码:对目标网站的搜索关键词进行聚类,得到
    多类搜索关键词,其中,搜索关键词为对目标网站进行站内搜索时所采用的关键词,
    目标网站通过栏目划分站内页面,查询搜索关键词在目标网站进行站内搜索时所着陆
    的着陆页面,确定搜索关键词对应的着陆页面所在栏目的栏目名称,对于多类搜索关
    键词中每一类搜索关键词,从每一类搜索关键词所包含的搜索关键词对应的着陆页面
    所在栏目的栏目名称中选择一个栏目名称,作为该类搜索关键词的类名。

    上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

    在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有
    详述的部分,可以参见其他实施例的相关描述。

    在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它
    的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,
    可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件
    可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所
    显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模
    块的间接耦合或通信连接,可以是电性或其它的形式。

    所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
    示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到
    多个单元上??梢愿菔导实男枰≡衿渲械牟糠只蛘呷康ピ词迪直臼凳├桨?br />的目的。

    另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以
    是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成
    的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

    所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,
    可以存储在一个计算机可读取存储介质中?;谡庋睦斫?,本申请的技术方案本质
    上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的
    形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一
    台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所
    述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only
    Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘
    等各种可以存储程序代码的介质。

    以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人
    员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润
    饰也应视为本申请的?;し段?。

    关于本文
    本文标题:搜索关键词的类名选取方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6027784.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 志愿者协会赚钱吗 重庆时时彩开奖结果app 俄超分布图 体育彩票北京单场开 河北麻将微信群 江西多乐彩 河南十一选五中奖规则 篮彩技巧让分胜负 快乐10分玩法介绍 怎么知道明天股票涨跌 泳坛夺金天津体彩网 五星彩票安卓 香港黄金一诗两码中特 澳洲幸运10计划软件手机版 大乐透复式投住方法 北京单场单双没进球