• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 20
    • 下载费用:30 金币  

    重庆时时彩个位杀号方法: 基于话题聚类的推荐.pdf

    关 键 词:
    基于 话题 推荐
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201180065617.6

    申请日:

    2011.12.01

    公开号:

    CN103329151A

    公开日:

    2013.09.25

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 专利权人的姓名或者名称、地址的变更IPC(主分类):G06Q 30/02变更事项:专利权人变更前:谷歌公司变更后:谷歌有限责任公司变更事项:地址变更前:美国加利福尼亚州变更后:美国加利福尼亚州|||授权|||实质审查的生效IPC(主分类):G06Q 30/02申请日:20111201|||公开
    IPC分类号: G06Q30/02; G06Q50/10; G06F17/40; G06F17/30 主分类号: G06Q30/02
    申请人: 谷歌公司
    发明人: B·利巴尔德; P·南迪; D·桑帕斯; 刘军宁; 牛也; C·伊尔文托; 陈毓铎; J·戴维斯
    地址: 美国加利福尼亚州
    优先权: 2010.12.01 US 61/418,818
    专利代理机构: 北京市金杜律师事务所 11256 代理人: 王茂华;辛鸣
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201180065617.6

    授权公告号:

    |||||||||

    法律状态公告日:

    2018.03.02|||2016.09.28|||2013.10.30|||2013.09.25

    法律状态类型:

    专利权人的姓名或者名称、地址的变更|||授权|||实质审查的生效|||公开

    摘要

    一种用于基于用户与内容项目的交互开发用户的简档的系统和方法。表现内容项目的客户端或者包括内容项目的服务上的??楦儆没в肽谌菹钅康慕换ゲ⑶蚁蛴没Х治瞿?榇涓俚氖?。用户分析??槿范ㄓ虢换サ哪谌菹钅抗亓幕疤?。用户分析??槿缓蠡诮邮盏母俚氖莺凸亓幕疤馕没У募虻笛≡窕疤?。选择的话题映射到话题聚类,并且与用户简档关联地存储话题聚类?;谟胗没У募虻倒亓幕疤饩劾嘟杏糜谟没У耐萍?。

    权利要求书

    权利要求书
    1.   一种用于开发用户的包括话题聚类的简档的计算机实施的方法,所述方法包括:
    取回包括多个话题的所述简档,所述多个话题指示所述用户的兴趣;
    确定包括有关话题的多个话题聚类;
    从所述多个话题聚类标识包括话题的话题聚类,所述话题指示所述用户的兴趣;以及
    与所述用户的所述简档关联地存储所述标识的话题聚类。

    2.   一种用于开发用户的简档的计算机实施的方法,所述方法包括:
    确定所述用户与之交互的数字内容项目,所述数字内容项目中的每个数字内容项目与多个话题关联;
    为所述数字内容项目中的每个数字内容项目确定所述多个关联的话题;
    取回访问数据,所述访问数据指示所述用户与所述数字内容项目的交互;
    基于与所述数字内容项目关联的所述话题和所述取回的访问数据选择简档话题;
    与所述用户的简档关联地存储所述选择的简档话题;
    确定与所述存储的简档话题有关的附加话题,所述附加话题与附加用户简档中的简档话题同现;以及
    与所述用户的简档关联存储所述附加话题。

    3.   根据权利要求2所述的方法,其中基于所述附加话题与所述简档话题中的至少一个简档话题的同现强度确定所述附加话题。

    4.   根据权利要求2所述的计算机实施的方法,其中:
    与每个数字内容项目关联的所述话题具有指示所述话题与它们的内容项目的关联程度的话题强度,以及
    进一步基于所述话题强度选择所述简档话题。

    5.   根据权利要求2所述的计算机实施的方法,其中:
    与每个数字内容项目关联的所述话题中的每个话题具有指示话题在代表它与所述数字内容项目的关联时多么有用的有用性权值,以及
    进一步基于与所述数字内容项目的话题关联的所述有用性权值选择所述简档话题。

    6.   根据权利要求5所述的计算机实施的方法,其中话题的所述有用性权值基于与所述话题关联的数字内容项目是否具有令人不快的内容。

    7.   根据权利要求5所述的计算机实施的方法,其中话题的所述有用性权值基于所述话题在视频全集中出现的频率。

    8.   根据权利要求2所述的计算机实施的方法,其中:
    所述用户的交互中的每个交互与交互强度关联,以及
    进一步基于与所述用户的交互关联的所述交互强度选择所述简档话题。

    9.   根据权利要求8所述的计算机实施的方法,其中至少一个用户交互的所述交互强度基于所述至少一个用户交互的频率。

    10.   根据权利要求8所述的计算机实施的方法,其中至少一个用户交互的所述交互强度基于所述至少一个用户交互的持续时间。

    11.   根据权利要求8所述的计算机实施的方法,其中基于自从至少一个用户交互出现起流逝的时间量减少所述至少一个用户交互的所述交互强度。

    12.   根据权利要求2所述的计算机实施的方法,还包括:
    确定与所述选择的简档话题在用户简档中同现的附加话题;以及
    与所述用户的简档关联地存储所述附加话题。

    13.   一种用于开发用户的简档的计算机系统,所述系统包括存储指令的非瞬态计算机可读介质,所述指令用于:
    确定所述用户与之交互的数字内容项目,所述数字内容项目中的每个数字内容项目与多个话题关联;
    为所述数字内容项目中的每个数字内容项目确定所述多个关联的话题;
    取回访问数据,所述访问数据指示所述用户与所述数字内容项目的交互;
    基于与所述数字内容项目关联的所述话题和所述取回的访问数据选择简档话题;
    与所述用户的简档关联地存储所述选择的简档话题;
    确定与所述存储的简档话题有关的附加话题,所述附加话题与附加用户简档中的简档话题同现;以及
    与所述用户的简档关联地存储所述附加话题。

    14.   根据权利要求13所述的计算机系统,其中基于所述附加话题与所述简档话题中的至少一个简档话题的同现强度确定所述附加话题。

    15.   根据权利要求13所述的计算机系统,其中:
    与每个数字内容项目关联的所述话题具有指示所述话题与它们的内容项目的关联程度的话题强度,以及
    进一步基于所述话题强度选择所述简档话题。

    16.   根据权利要求13所述的计算机系统,其中:
    与每个数字内容项目关联的所述话题中的每个话题具有指示话题在代表它与所述数字内容项目的关联时多么有用的有用性权值,以及
    进一步基于与所述数字内容项目的话题关联的所述有用性权值选择所述简档话题。

    17.   根据权利要求16所述的计算机系统,其中话题的所述有用性权值基于与所述话题关联的数字内容项目是否具有令人不快的内容。

    18.   根据权利要求16所述的计算机系统,其中话题的所述有用性权值基于所述话题在视频全集中出现的频率。

    19.   根据权利要求13所述的计算机系统,其中:
    所述用户的交互中的每个交互与交互强度关联,以及
    进一步基于与所述用户的交互关联的所述交互强度选择所述简档话题。

    20.   根据权利要求19所述的计算机系统,其中至少一个用户交互的所述交互强度基于所述至少一个用户交互的频率。

    21.   根据权利要求19所述的计算机系统,其中至少一个用户交互的所述交互强度基于所述至少一个用户交互的持续时间。

    22.   根据权利要求19所述的计算机系统,其中基于自从至少一个用户交互出现起流逝的时间量减少所述至少一个用户交互的所述交互强度。

    23.   根据权利要求13所述的计算机系统,还包括指令,所述指令用于:
    确定与所述选择的简档话题在用户简档中同现的附加话题;以及
    与所述用户的简档关联地存储所述附加话题。

    说明书

    说明书基于话题聚类的推荐
    技术领域
    公开内容总体上涉及基于内容消费创建和存储用户简档。
    背景技术
    内容托管服务一般尝试呈现一般让它的用户感兴趣的内容。一些内容托管服务允许用户创建指示人口统计信息(例如,性别、年龄)以及感兴趣的领域或者内容话题的用户简档。内容托管服务然后尝试使用这样的简档以选择将向用户提供的内容。然而,用户可能不能在填充他们的简档之时清楚表达他们的全部兴趣。此外,用户的兴趣通常随时间改变,并且用户可能未更新他们的简档以反映这些改变。
    发明内容
    基于用户与内容托管服务中的内容项目的交互创建用户的简档。记录用户与内容托管服务上的内容项目的交互。用户分析??槿范ㄓ胗没б丫胫换サ哪谌菹钅抗亓幕疤?。用户分析??槿缓蠡诩锹嫉慕换ズ凸亓幕疤馕没У募虻笛≡窕疤?。创建代表选择的话题的用户简档。在一个实施例中,与内容项目关联的话题具有关联的话题强度,并且用户分析??榛诨疤馇慷任没У募虻笛≡窕疤?。在另一实施例中,用户与各种内容项目的交互具有关联的交互强度,并且用户分析??榛诠亓慕换デ慷任没У募虻笛≡窕疤?,并且在用户简档中存储用于选择的话题的话题关联强度。在一个实施例中,将用户简档中的话题映射到话题的聚类,并且映射的聚类话题替换或者伴随用户简档中的用户话题。形成包括如下用户的各种用户聚类团体,这些用户的简档具有共同话题聚类??梢曰谕盘逯械囊恍┯没У挠没Ы换ソ邢蛘庑┯没Ь劾嗤盘宓耐萍?。
    在说明书中描述的特征和优点并非囊括的,并且具体而言,许多附加特征和优点将鉴于附图、说明书和权利要求而为本领域普通技术人员所清楚。另外,应当注意,在说明书中使用的语言已经主要出于可读性和教导目的而加以选择,并且可以未被选择用来界定或者限制公开的主题内容。
    附图说明
    图1图示根据一个实施例的用于确定和存储用户的简档的系统,该简档包括他们的感兴趣的领域。
    图2是图示根据一个实施例的用于确定和存储用户的简档的方法的流程图,该简档包括他们的感兴趣的领域。
    图3是图示根据一个实施例的确定和存储用户简档的用户分析??榈目蛲?。
    图4是图示根据一个实施例的用于接收用户的感兴趣的领域以用于存储于他们的简档中的界面的屏幕。
    图5图示根据一个实施例的存储同现强度的同现矩阵,这些同现强度指示第一话题与另一话题的同现的测量。
    图6图示根据一个实施例的用于基于用户的交互提供推荐的方法。
    具体实施方式
    这里描述的计算环境实现基于每个用户与内容项目的交互确定和存储用户简档,这些用户简档针对用户代表指示用户的兴趣的话题集合。附图和以下描述仅通过示例描述某些实施例。本领域技术人员将容易地从以下描述中认识到可以运用这里所示的结构和方法的备选实施例而不脱离这里描述的原理。现在将具体参照若干实施例,在附图中图示这些实施例的示例。注意,只要可行,相似或者相同标号可以使用于图中并且可以指示相似或者相同功能。
    系统环境
    图1图示用于确定和存储用户简档的系统。视频托管服务100包括前端web服务器140、视频供应???10、视频数据库155、用户分析???20、用户访问日志160、话题贮存库164和简档贮存库166。视频托管服务100连接到网络180。图1也包括客户端170和具有嵌入的视频178的第三方服务175。
    未示出许多常规特征(比如防火墙、负荷平衡器、应用服务器、故障转移服务器、网络管理工具等)以免模糊系统的特征。用于实施系统的适当服务是在www.youtube.com发现的YOUTUBETM服务;其它视频托管服务也是已知的,并且可以适于根据这里公开的教导操作。术语“服务”代表适于使用任何联网协议来供应内容(并且未旨在于限于经由因特网或者HTTP协议上传或者下载的内容)的计算机系统。一般而言,在一个实施例中被描述为在服务器侧上执行的功能如果适合则也可以在其它实施例中在客户端侧上被执行。此外,归于特定部件的功能可以由不同的或者一起操作的多个部件执行。
    将这里描述的服务器和??槭凳┪诎–PU、存储器、网络接口、外围接口和其它公知部件的服务器类计算机上执行的计算机程序。计算机本身在一些实施例中运行常规专有或者开源操作系统,比如Microsoft Windows、Mac OS、Linux等,具有一般高性能CPU、千兆字节或者更大的存储器和千兆字节、万亿字节或者更大的盘存储装置。当然,可以使用其它类型的计算机,并且预计随着在将来开发更强大计算机,可以根据这里的教导来配置它们??梢源釉谟行渭扑慊啥链娲⒔橹?例如,RAM、硬盘或者光学/磁介质)中存储的计算机程序产品提供由任何单元实施的功能。
    客户端170经由网络180连接到前端服务器140,该网络通常是因特网,但是也可以是任何网络,包括但不限于LAN、MAN、WAN、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。尽管仅示出单个客户端170,但是应理解,很大数目(例如,数以百万计)的客户端可以被支持并且可以在任何时间与视频托管服务100通信??突Ф?70可以包括多种不同计算设备??突Ф松璞?70的示例是个人计算机、数字助理、个人数字助理、蜂窝电话、移动电话、智能电话或者膝上型计算机。如本领域普通技术人员将清楚的那样,本发明不限于上文列举的设备。
    客户端包括允许客户端170呈现在视频托管服务100上提供的内容的浏览器或者专用应用。适当应用例如包括Microsoft Internet Explorer、Netscape Navigator、Mozilla Firefox、Apple Safari和Google Chrome。浏览器也可以包括或者支持用于视频播放器(例如,来自Adobe Systems,Inc.的FlashTM)或者适合于在视频托管服务100中使用的视频文件格式的任何其它播放器的插件。备选地,与浏览器分离的独立程序可以访问视频。
    数字内容项目可以例如包括视频、音频或者视频与音频的组合。备选地,数字内容项目可以是静止图像,比如JPEG或者GIF文件或者文本文件。为了方便和描述一个实施例,数字内容项目将被称为“视频”、“视频文件”或者“视频项目”,但是这一术语未旨在于对数字内容项目的类型进行限制。其它适当类型的数字内容项目包括音频文件(例如,音乐、播客、音频书籍等)、文档、图像、多媒体演示等。
    视频托管服务100提供视频托管服务100的其他用户已经更新的或者视频托管服务运营商或者第三方可能已经提供的视频??突Ф?70可以基于关键字或者其它元数据搜寻视频。前端服务器140接收这些请求作为查询并且提供给视频供应???10,该视频供应???10负责在视频数据库155中搜寻满足用户查询的视频并且向用户提供视频。视频供应???10支持在任何现场数据中搜寻视频,包括它的标题、描述、元数据、作者、类别等。备选地,用户可以基于类别(比如查看最多的视频、体育、动物或者汽车)浏览视频列表。例如,用户可以浏览与小汽车有关的视频列表并且从列表选择查看哪些视频。
    视频数据库155存储向客户端170提供的视频。每个视频在一个实施例中具有视频标识符(id)。每个视频文件具有关联的元数据,该元数据包括视频ID、作者、标题、描述和关键字以及在可用时可以包括的附加元数据。元数据也包括与视频关联的一个或者多个话题。关联的话题可以包括由团体在协作知识库(比如Freebase)中创建的话题。备选地,可以从视频的标题、描述和用户评论中出现的频繁出现话题(例如,100,000个最频繁出现的检索词一元或者二元词(term unigrams or bigrams))选择话题。
    在一个实施例中,每个话题与代表话题与视频的关联程度的话题强度TS关联。用于特定话题和视频的话题强度基于视频的内容分析、用户的针对视频的评论或者与视频关联的其它元数据。备选地,取代与每个视频的元数据一起存储,可以在单独数据库中存储话题和话题强度信息。
    在一个实施例中,也基于话题的有用性调整用于视频的话题强度?;疤獾挠杏眯允侨缦氯ㄖ?,该权值反应话题在代表话题与视频的关联时对系统多么有用。例如,系统运营商可以未偏好于代表猥亵或者令人不快的内容的话题并且因此用于这样的话题的有用性权值可以是低或者负值。在另一示例中,话题的有用性基于话题在全集中的频率。
    用户访问日志160存储如下访问数据,该访问数据描述用户的访问和与视频的交互。访问数据指示用户是否观看整个视频、观看视频持续特定持续时间、跳过视频、向上或者向下滚动包括视频的网页、与其他用户共享视频、向播放列表添加视频、标记视频、阻止来自播放列表或者视频汇集的视频、钟爱视频、向视频给予有利评级(例如,喜欢使用FACEBOOKTM账户的视频或者喜欢使用GOOGLETM账户的视频)、向视频给予不利评级(例如,“拇指朝下”)。在一个实施例中,用户访问日志160或者与用户访问日志160关联的另一实体向用户提供用于拒绝收集和/或与视频托管服务100或者其它服务中的其它??楣蚕碛没У姆梦适莸幕?。
    简档贮存库164存储用户简档。用户简档包括用于用户的话题集合。这一话题集合代表用户的兴趣,并且可以通过从用户接收多个话题来部分填充列表。用户简档可以包括话题作为话题列表(例如,作为检索词或者话题标识符)或者作为矢量(例如,位图或者实值权值矢量)。此外,用户分析???20填充列表。在用户的简档中存储的话题可以用于各种目的。例如,可以在用户的在社交网络或者内容托管网络中的主页上显示话题作为用户的感兴趣的领域。此外,话题可以用来向用户建议可以让用户感兴趣的内容、内容频道、产品、服务、附加话题等??梢韵蛴没峁┕赜谟没У闹饕郴蛘吡硪煌?比如“浏览”页面)的建议,用户可以在该“浏览”页面浏览可以让用户感兴趣的各种话题。
    在一个实施例中,在用户的主页或者浏览页面上显示的话题是可选择的(例如,通过超链接)。用户可以选择话题,并且该选择将用户引向部分或者完全专用于选择的话题的网页。选择的话题的网页包括与选择的话题有关的内容,比如有关多媒体内容或者文本内容。此外,话题的网页可以包括指向其它有关话题的网页的链接??梢越庑┯泄鼗疤庀允疚胙≡竦幕疤庥泄氐幕疤饣蛘哂糜诎莘醚≡竦幕疤獾耐车挠没У耐萍龅幕疤?。
    用户分析???20基于用户访问的视频确定和存储用户简档,并且是用于执行这一功能的一个装置。图2图示用户分析???20执行的用于为用户简档确定和存储话题的方法。为了确定话题,用户分析???20查询用户访问日志160并且确定202用户访问的视频。这一视频集合可以是用户访问的所有视频或者仅为用户在某个时间段(比如前三十天)内访问的视频。
    用户分析???20分析用户的在用户访问日志160中存储的访问数据并且确定204用户与访问的视频的交互。用户分析???20也基于因素、比如用户与访问的视频的交互。用户分析???20也基于如用户与访问的视频的交互的类型之类的因素为每个访问的视频确定用户的交互强度。用户分析???20也查询视频数据库155并且为用户访问的每个视频确定206与访问的视频关联的话题和视频的话题强度,这些话题强度指示视频与话题的关联程度?;谌范ǖ慕换デ慷群突疤馇慷?,用户分析???20选择208并且在用户的简档中存储210话题。
    用户分析???20也基于用户与视频的交互确定和提供推荐并且也是用于执行这一功能的一个装置。推荐可以是用于用户的推荐的视频或者用于视频的推荐的话题。下文关于图6进一步描述用户分析???20的用于提供推荐的操作。
    图3是图示根据一个实施例的用户分析???20的框图。用户分析???20包括用户交互???02、交互强度???04、用户简档???06、有关话题???08、话题聚类???01和聚类推荐???。
    用户交互???02接收关于用户与视频的交互的反馈并且在用户访问日志160中存储接收的反馈作为访问数据??突Ф?70(或者服务175)中的???未示出)跟踪关于用户的交互(例如,暂停、倒退、快进)的数据。视频托管服务100中或者在另一服务(比如社交联网服务)处的???未示出)跟踪用户的附加交互(例如,用户请求视频、对视频评级、共享视频)。无论在何处跟踪数据,都向用户交互???02传输数据。用户交互???02接收传输的数据并且在用户访问日志160中存储接收的数据作为访问数据。上文描述访问日志160中存储的访问数据的示例。用户交互???02反复地接收关于用户与各种视频的交互的反馈并且基于接收的反馈更新用于用户的访问数据。
    交互强度???04分析用于用户的访问数据并且确定指示用户与特定视频vi的关联程度的交互强度ISi。为了确定IS值,交互强度???04向用户的与视频的不同类型的交互分配不同权值。例如,可以向用户开始视频分配权值0.5,可以向用户观看视频的至少80%分配权值0.75,可以向用户为视频给予有利评级分配权值1.5,可以向用户喜欢视频分配权值2.0,并且可以向用户预订与观看的视频或者与上传观看的视频的用户关联的视频频道分配权值5.0。交互强度???04向用户的如下交互分配更大权值,这些交互指示更大地涉及视频。例如,交互强度???04向用户向播放列表添加视频或者与其他人共享视频分配比用户观看视频更大的权值。此外,交互强度???04基于交互的频率或者持续时间调整用于特定交互的权值。例如,如果用户已经查看视频多次而不是仅一次或者持续十分钟持续时间而不是三十秒,则交互强度???04向用户对特定视频的查看分配更大权值。在一个实施例中,交互强度???04基于用户已经与之交互的视频总数、用户已经与视频交互的总次数或者用户已经花费在与视频交互的时间总量归一化调整的权值。
    交互强度???04向某些交互分配负权值或者相对低权值,这些交互指示用户缺乏对特定视频的兴趣。例如,可以向跳过呈现的视频、标记视频或者阻止来自播放列表的视频分配负权值。
    在一个实施例中,交互强度???04基于它们的年龄使权值打折。例如,交互强度???04基于自从用户交互出现起流逝的时间量呈指数地衰减与用户交互关联的权值。因而,向新近出现的用户交互分配比在更早时间出现的用户交互更高的权值。
    在分配和调整用于用户与特定视频的交互的权值之后,交互强度???04确定和存储交互强度IS,该交互强度指示用户与视频的交互或者关联的强度。交互强度基于分配和调整的权值。例如,交互权值是分配和调整的权值的求和或者乘积。
    如上文描述的那样,用户分析???20为用户(从用户访问日志160)确定用户已经与之交互的视频vi和用户用于这些视频中的每个视频的交互强度ISi(由交互强度???04确定)。也如上文描述的那样,用户分析???20为这些视频vi中的每个视频(从视频数据库155)确定与视频关联的话题t,并且为每个关联的话题tk(从视频数据库155)确定话题强度TSk,该话题强度指示话题与视频的关联程度。
    基于这一信息,用户简档???06为用户的简档确定话题集合T。为了确定用于用户简档的话题T,用户简档???06基于与用户与之交互的视频vi关联的话题tk对视频排序。该排序产生话题集合S={s1,s2,s3...sj},从而使得每个集合sj包括话题tk和它的关联的用户的视频vi,k。用户简档???06选择话题集合s中的多个话题集合,其中每个选择的集合具有最小数目的视频,例如,每个选择的话题集合具有至少20个视频。选择的集合s的话题tk形成用于用户的简档的话题集合T。
    备选地,用户简档???06基于为每个集合s确定的话题关联强度TASj确定用于用户简档的话题集合T,其中TASj指示在集合sj的话题t与用户之间的关联程度。为了为话题tk的特定集合sj确定话题关联强度TASj,用户简档???06组合用于集合sj中的每个视频vi的集合的话题tk的话题强度TSk。组合话题强度TS可以通过将话题强度TS相加、求平均或者向话题强度TS应用另一算术或者统计函数来出现。在确定用于S中的每个集合sj的话题关联强度TASj之后,用户简档???06基于集合话题关联强度TASj选择这些集合中的多个集合。例如,用户关联???06可以选择具有五十个最高话题关联强度TAS的五十个集合s。选择的集合s的话题tk形成用于用户的简档的话题集合T。
    用户简档???06也在用户的简档中存储与存储的话题关联的话题关联强度TAS。用户简档???06可以被配置用于基于用户自从先前更新起与之交互的视频使用上文描述的过程来定期更新用户的简档中的存储的话题。
    此外,在一个实施例中,用户简档???06接收与用户简档中存储的话题有关的话题并且在用户简档中存储有关话题。用户简档???06从有关话题???08接收有关话题。有关话题???08访问用户的简档中的话题并且确定与简档的话题有关的附加话题。
    存在有关话题???08可以确定有关话题的若干不同方式。这些方式包括人口统计方式、话题同现方式以及组合的人口统计和话题同现方式。用于确定有关话题的附加方式将鉴于这里的公开内容为本领域普通技术人员所清楚。例如,也可以基于在知识库(比如Freebase)中指定的话题的关系确定有关话题。
    基于人口统计的有关话题
    在一个实施例中,有关话题???08基于各种话题在多个人口统计组中的每个人口统计组中的流行度确定有关话题。在这一实施例中,有关话题???08基于一个或者多个人口统计类别(比如性别和年龄组)组织简档全集中的用户简档。例如,有关话题???08可以基于用户的性别(男性、女性)和年龄组(例如,13?17、18?24、25?34、35?44、45?54;55+)将用户简档组织成简档的十二个人口统计组Dz。有关话题???08然后为用户简档的每个人口统计组Dz确定多个最频繁出现话题t(例如,前50个最频繁出现话题);这形成用于人口统计组Dz的有关话题集合Rz。然后,对于给定的人口统计组Dz,有关话题???08向Dz中的每个用户简档添加有关话题Rz。如果Rz中的话题t已经存在于用户简档中,则可以通过略过它或者通过增加它的话题关联强度TAS来处理它。
    基于话题同现的有关话题
    在另一实施例中,有关话题???08使用用户简档中的话题的同现以确定哪些话题相互有关。为了确定有关话题,有关话题???08跨越用户简档汇集(例如,系统中的所有用户简档)确定在汇集中的至少一些用户简档中同现的话题对(ti,tj),并且据此确定用于每个话题对的同现测量。下文关于图5描述这些同现话题的确定。有关话题???08然后为全集中的每个话题tk基于同现测量确定最接近有关话题t1。接着,在具有话题tj的用户简档给定时,有关话题???08向用于每个话题tj的用户简档添加最接近有关话题t1。
    图5图示存储同现强度CSi,j的同现矩阵500,这些同现强度指示话题ti与另一话题tj的同现测量。本领域普通技术人员将理解,所示同现矩阵500简单地是用来对有关话题???08的描述进行辅助的同现强度CS的图形表示,并且可以在各种数据结构(比如数组、列表等)中存储矩阵500。在n个话题t给定时,同现矩阵500是nXn矩阵。每行502a?502n代表话题ti,并且每列504a?504n代表话题tj。每个单元(比如单元508)代表用于话题对ti和tj的同现强度CSi,j。
    可以如下确定用于话题对(ti,tj)的同现强度CSi,j。如上文所言,用户简档中的每个话题ti具有话题关联强度TASi。因此,对于在给定的用户简档中同现的话题对ti和tj,有关话题???08基于话题关联强度TASi和TASj计算简档同现强度PCSi,j。简档同现强度PCSi,j可以是该对的话题关联强度TASi和TASj的乘积、求和、求平均或者另一算术或者统计函数。同现强度CSi,j然后是跨越话题ti和tj在其中同现的所有用户简档求和的组合的PCSi,j?;疤鈚i在简档全集中的频率然后归一化每个PCSi,j。在其它实施例中,组合可以包括对简档同现强度PCS求平均、相加或者执行另一算术或者统计函数。
    图5中所示示例辅助描述用于计算同现强度(CS)的方法。在图5中,单元508包括用于在简档全集中与话题tj(用于相交列504j的话题)同现的话题ti(用于相交行502i的话题)的同现强度(CS),该简档全集用来选择用于同现矩阵500的话题。这一同现强度(CS)是用于包括这些话题两者的全集的简档的ti和tj的话题关联强度(TAS)的归一化求和。ti在全集的简档中的出现频率已经归一化话题关联强度(TAS)的求和。类似地,单元506包括用于与话题ti同现的话题tj的同现强度(CS)。这一同现强度(CS)也是ti和tj的话题关联强度(TAS)的归一化求和,但是tj而不是ti在全集的简档中的出现频率已经归一化这一求和。
    在填充同现矩阵500之后,有关话题???08为每个话题ti(按行)标识具有最高同现强度CS(例如,50个最高值)的多个单元或者具有超出阈值的同现强度(例如,CSi,j>最大CSi,j的75%)的单元。这些单元代表被确定为与话题ti有关的话题Ri的集合。
    图5中所示示例还举例说明由有关话题???08运用的用来选择用于话题Tj的有关话题的方法。在图5中,假设单元508、510包括用于话题tj(由行502j代表)的最高同现强度CSi,j。有关话题???08将这些单元506、508标识为具有最高同现强度CSi,j的单元并且因此将话题ti和tn(用于单元506、508的相交列504i、504n的话题)标识为与话题tj有关的话题。
    最后,在话题t的用户简档给定时,对于其中的每个话题ti,有关简档???08向用户简档添加有关话题Rj。如果Ri中的话题t已经存在于用户简档中,则可以通过跳过它或者通过增加它的话题关联强度TAS来处理它。
    基于人口统计和同现的有关话题
    在一个实施例中,有关话题???08从在与选择的用户相同的人口统计组中的用户的简档全集为选择的用户确定有关话题。为了确定这些有关话题,有关话题???08为每个人口统计组Dz从属于该组的用户简档集合构建同现矩阵500。然后对于每个人口统计组Dz,有关话题???08为在该组的同现矩阵中的每个话题i确定有关话题Rz,i。
    用户选择的话题
    在前述实施例中,有关话题???08向每个用户的简档自动添加有关话题。备选地,有关话题???08可以被配置用于让用户能够向他们的个别用户简档有选择地添加有关话题。在一个实施例中,用户可以通过界面(比如图4中所示的界面)向他们自己的简档添加包括有关话题的话题。图4中的界面包括简档话题栏406和有关话题栏410。简档话题栏406包括基于对用户与视频的交互的分析与用户的简档关联的话题412。响应于用户选择简档话题栏406中的话题412中的一个或者多个话题,更新有关话题栏410以包括与选择的话题412有关的话题422a?422n。有关话题???08确定并且在有关话题栏410中向用户呈现有关话题422a?422n。用户可以选择一个或者多个有关话题422a?422n,并且响应于这样的选择,向用户的简档添加这些话题。在一个实施例中,用户简档???06也确定并且与附加话题一起存储它们的话题关联强度TAS。
    基于话题聚类的推荐
    图6图示由用户分析???20执行的用于基于用户的交互提供推荐的方法。用户分析???20使用先前描述的方法中的任何方法(人口统计、同现或者人口统计同现)基于用户简档确定602有关话题。
    在确定有关话题之后,用户分析???20创建604具有有关话题的话题聚类。在下一节创建话题聚类中进一步描述话题聚类的创建。
    接着,用户分析???20基于话题聚类和用户简档中的话题关联606各种用户与创建的话题聚类。下文在标题关联用户与聚类之下进一步描述关联用户与话题聚类。
    用户分析???20然后监视与聚类关联的用户的活动并且基于监视的活动确定608推荐,比如用于关联的用户的视频。用户分析???20提供610推荐以用于向用户显示。下文在标题基于聚类的推荐之下进一步描述进行推荐的方式。
    创建话题聚类
    在一个实施例中,用户简档???06除了用户简档中的话题之外或者取代用户简档中的话题还存储话题聚类?;疤饩劾喟ㄓ泄鼗疤獾募?。用户简档???06从话题聚类???10接收话题聚类。
    话题聚类???10创建包括出现于用户简档中的话题的话题聚类TCi?;疤饩劾嗄??10可以基于聚类算法(比如分级聚团聚类(HAC))、概率模型(比如潜在狄利克雷分配(LDA))或者矢量模型(比如k均值(使用同现矩阵中的行作为话题矢量))创建话题聚类。在一个实施例中,话题聚类???10使用HAC从同现矩阵500对话题进行聚类。同样,同现矩阵500存储用于在用户简档汇集中的至少一些用户简档中同现的话题对(ti,tj)的同现强度CSi,j。为了从同现矩阵500创建话题聚类,话题聚类???10标识同现矩阵500中的具有最高同现强度CSi,j的单元。在标识具有最高同现强度CSi,j的单元之后,话题聚类???10对与标识的强度CSi,j关联的话题(ti,tj)进行聚类。
    为了对关联的话题进行聚类,话题聚类???10确定与标识的单元关联的同现话题(ti,tj)以及与确定的同现话题关联的行和列。出于示例目的而假设话题聚类???10标识同现矩阵500中的单元506以及具有最高同现强度CSi,j的单元?;疤饩劾嗄??10确定同现话题ti和tj与标识的单元506关联并且将两个话题组合成聚类。
    为了组合两个话题(ti,tj),话题聚类???10组合一行中的单元与另一行中的相邻单元以获得组合的行。例如,为了组合行502i和502j,话题聚类???10组合单元506与单元507、单元508与单元509并且以此类推以获得组合的行502i?j。类似地,话题聚类???10组合一列中的单元与另一列中的相邻单元以获得组合的列。为了组合两个单元,话题聚类???10将两个单元的同现强度CSi,j组合成聚类同现强度CCSi?j,k。聚类同现强度CSi?j,k指示聚类(包括话题ti和tj)与另一话题tk的同现的测量?;疤饩劾嗄??10通过对同现强度CSi,j相加、相乘、求平均或者应用另一算术或者统计函数将同现强度CSi,j组合成聚类同现强度CCSi?j,k。在一个实施例中,话题聚类???10也基于因子(比如组合的话题在用户简档汇集中的频率)归一化聚类同现强度CCSi?j,k。
    组合标识的行和列中的单元产生包括n?1个话题的新同现矩阵(未示出),其中这些话题之一是包括组合的话题ti和tj的聚类c?;疤饩劾嗄??10然后重复标识新同现矩阵中的具有最高同现强度CSi,j的单元并且对与标识的单元关联的话题或者聚类进行聚类的步骤。标识的单元可以与两个话题、话题和已经形成的聚类或者两个聚类关联?;疤饩劾嗄??10保持重复这一聚类过程直至达到终止条件。终止条件可以是阈值大小(按话题数目或者视频数目)的阈值聚类数目或者用于更新的聚类的所得聚类同现强度CCSi?j,k未降至阈值以下。在达到终止条件之后,话题聚类???10将聚类与它们的组合的话题和聚类同现强度CCSi?j,k一起存储。
    关联用户与聚类
    如上文所示,用户简档???06取代用户简档中的话题或者除了用户简档中的话题之外还存储话题聚类。为了为用户的简档确定话题聚类c,用户简档???06为用户简档中的每个话题标识该话题属于的聚类c、向用于用户简档的聚类列表添加该聚类c。结果是包括多个聚类c的用户聚类简档C。
    用户简档???06然后为用户聚类简档C中的每个标识的聚类c确定用户聚类强度UCSc,该用户聚类强度指示标识的聚类c与用户的关联程度。用于标识的聚类c的用户聚类强度UCSc是用于用户简档的在该聚类c中的那些话题的话题关联强度TASi的求和。在一个实施例中,用于标识的聚类c的用户聚类强度UCSc是用于用户简档的在该聚类c中的那些话题的话题关联强度TASi的加权求和。用于每个话题关联强度的权值是用于标识的聚类的聚类同现强度CCSi。在其它实施例中,用户简档???06对话题关联强度TASi和聚类同现强度CCSi执行其它数学或者统计函数以实现用户聚类强度UCSc。这一运算的结果是包括聚类强度列表(或者矢量)的用户聚类简档C的表示。
    可选地,用户简档???06然后选择具有最高用户聚类强度的阈值数目的聚类,例如,具有最高UCS值的20个聚类c。在另一实施例中,用户简档???06选择具有超出阈值的用户聚类强度UCS的所有聚类c。用户简档???06存储选择的聚类作为用于用户聚类简档的聚类。
    基于聚类的推荐
    聚类推荐???12基于用户聚类简档和其他用户与视频的交互确定用于用户的视频或者话题的推荐。
    为了确定向给定的用户的视频推荐,聚类推荐???12选择在用户的用户聚类简档中标识的聚类中的一个或者多个聚类。然后,???12分析用于如下其他用户的访问数据,这些其他用户也在他们的相应用户聚类简档中具有标识的聚类。这些用户被称为用户聚类团体。以这一方式,用户是多个用户聚类团体的成员,每个团体对应于用户的用户聚类简档中的聚类之一。
    在用户聚类团体给定时,???12确定哪个(哪些)视频例如在用户交互(比如查看次数、用户评级、用户评论或者其它流行度测量)方面当前受这一用户集合欢迎。???12然后选择最流行视频中的一个或者多个视频作为用于给定的用户的推荐的视频。例如,如果阈值数目的这些用户已经与特定视频交互,则聚类推荐???12选择视频作为推荐。如果给定的用户已经查看了推荐的视频,则可以从推荐去除它或者在推荐列表上使它降级。
    ???12也可以按照相似过程进行用于话题的推荐。这里,???12确定哪些话题当前受用户聚类团体欢迎而不是哪些具体视频流行。这里,话题的流行度基于用于与话题关联并且由特定用户聚类团体中的用户查看的视频的聚集的交互测量。???12然后可以基于话题的聚合的交互测量来选择一个或者多个话题。例如,如果阈值数目的选择的用户已经与具有特定话题的视频交互,则聚类推荐???12选择特定话题。
    ???12然后基于诸如在用户聚类团体中的流行度、新近度、话题强度等因素从选择的话题选择其中的视频。例如,如果用户聚类团体中的阈值数目的用户已经与特定视频交互,则聚类推荐???12向用户推荐该视频。
    在另一实施例中,通过对用户群体的用户聚类简档进行聚类来创建用户团体。这里,用户聚类简档来自稀疏矢量(“用户聚类矢量”),该稀疏矢量包括用于每个聚类c的如上文描述的UCSc和用于每个如下聚类的零值,该聚类未让它的话题之一在用户简档中。然后可以再次使用k均值或者其它矢量聚类方法对这些用户聚类矢量进行聚类以形成多个用户团体。每个用户然后与包含用户的用户聚类矢量的用户团体关联。从此可以如上文描述的那样使用用户团体作为用于标识流行视频或者话题的群体来进行推荐。
    已经关于有限数目的实施例特别具体地描述了本发明。本领域技术人员将理解,还可以在其它实施例中实现本发明。
    在这一书面描述中,部件的特定命名、术语的大写、属性、数据结构或者任何其它编程或者结构方面并非必需或者重要的,并且实施本发明或者它的特征的机制可以具有不同名称、格式或者协议。另外,可以如描述的那样经由硬件与软件的组合或者完全在硬件单元中实施系统。在这里描述的各种系统部件之间的特定功能划分也仅为举例而非必需;由单个系统部件执行的功能可以代之以由多个部件执行,并且由多个部件执行的功能可以代之以由单个部件执行。
    上文描述的一些部分在对信息的操作的算法和符号表示方面呈现本发明的特征。这些算法描述和表示是本领域技术人员用来向本领域其他技术人员最有效地传达他们的工作实质的手段。这些操作当在功能或者逻辑上被描述之时被理解为由计算机程序实施。另外,将这些操作布置称为??榛蛘叽肷璞敢惨丫恢な涤惺笔潜憷亩皇б话阈?。
    然而,应当谨记,这些和相似术语中的所有术语将与适当物理量关联并且仅为应用于这些量的方便标记。除非如从当前讨论中清楚的那样另有具体明示,应理解到在说明书全文中,利用诸如“选择”或者“计算”或者“确定”等术语的讨论指代计算机系统或者相似电子计算设备的动作和过程,该计算机系统或者相似电子计算设备操控和变换在计算机系统存储器或者寄存器或者其它这样的信息存储装置、传输或者显示设备内被表示为物理(电子)量的数据。
    本发明的某些方面以算法的形式包括这里描述的过程步骤和指令。应当注意,可以在软件、固件或者硬件中体现本发明的过程步骤和指令,并且当在软件中体现时,可以下载这些过程步骤和指令以驻留于由实时网络操作系统使用的不同平台上并且从这些不同平台操作这些过程步骤和指令。
    本发明也涉及一种用于执行这里的操作的装置。这一装置可以被具体构造用于所需目的,或者它可以包括由计算机中存储的计算机程序有选择地激活或者重新配置的通用计算机。这样的计算机程序可以存储于计算机可读存储介质,比如但不限于包括软盘、光盘、DVD、CD?ROM、光磁盘的任何类型的盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或者光学卡、专用集成电路(ASIC)或者适合用于存储电子指令并且各自耦合到计算机系统总线的任何类型的介质中。另外,在说明书中指代的计算机可以包括单个处理器或者可以是运用多处理器设计以用于增加计算能力的架构。
    这里呈现的算法和显示并非固有地与任何特定计算机或者其它装置有关。各种通用系统也可以与根据这里的教导的程序一起使用,或者构造更专门化的装置以执行所需方法步骤可以被证实是便利的。用于多种这些系统的所需结构将从上文描述中显现。此外,未参照任何特定编程语言描述本发明。应理解到,多种编程语言可以用来实施如这里描述的本发明的教导,并且提供对具体语言的任何引用以用于公开本发明的实现和最佳实施方式。
    最后,应当注意,在说明书中使用的语言已经主要出于可读性和教导的目的而被选择并且可以未被选择用来界定或者限制发明主题内容。因而,本发明的公开内容旨在于示例而非限制本发明的范围。

    关于本文
    本文标题:基于话题聚类的推荐.pdf
    链接地址://www.4mum.com.cn/p-5778442.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 重庆时时彩是合法吗 平码三中三资料 财神捕鱼下载 今天黑龙江22选5开奖结果 香港赛马会官方网站 创盈彩票首页 香港六合彩开奖记录 20选5走势图 手机什么app可以合买双色球 美国彩票大奖 甘肃11选5论坛 7星彩开奖记录 英雄联盟电影 辽宁快乐12任选开奖基本走势图 宁夏十一选五开奖走势 足彩半全场胜胜