• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 20
    • 下载费用:30 金币  

    重庆时时彩开奖0: 信息处理装置和信息处理方法.pdf

    关 键 词:
    信息处理 装置 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201510547792.9

    申请日:

    2015.08.31

    公开号:

    CN106484724A

    公开日:

    2017.03.08

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20150831|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 富士通株式会社
    发明人: 宋双永; 孟遥; 缪庆亮
    地址: 日本神奈川县
    优先权:
    专利代理机构: 北京集佳知识产权代理有限公司 11227 代理人: 陈炜;李德山
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510547792.9

    授权公告号:

    |||

    法律状态公告日:

    2017.04.05|||2017.03.08

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本公开提供了信息处理装置和信息处理方法。该信息处理装置包括:信息获取单元,其从信息源获取多条与关注对象有关的各自带有时间标签的信息;序列生成单元,其基于所述时间标签生成所述信息的时序序列;波峰检测单元,其针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及对象事件检测单元,其对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事件。所述对象事件检测单元包括:聚类单元,其针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以及时段事件检测单元,其针对每个波峰时段,基于所述聚类单元的聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。

    权利要求书

    1.一种信息处理装置,包括:
    信息获取单元,其从信息源获取多条与关注对象有关的各自带有时间
    标签的信息;
    序列生成单元,其基于所述时间标签生成所述信息的时序序列;
    波峰检测单元,其针对所述时序序列进行检测,以获得所述时序序列
    的波峰时段;以及
    对象事件检测单元,其对所述波峰时段中的信息进行检测,以得到与
    所述关注对象有关的事件,所述对象事件检测单元包括:
    聚类单元,其针对所述时序序列的每个波峰时段,对该波峰时段
    中的信息进行聚类;以及
    时段事件检测单元,其针对每个波峰时段,基于所述聚类单元的
    聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关
    的事件。
    2.如权利要求1所述的信息处理装置,其中,所述聚类单元利用基
    于阈值的自动聚类方法进行所述聚类。
    3.如权利要求1所述的信息处理装置,其中,所述时段事件检测单
    元包括:
    关键词提取单元,其针对每个波峰时段,从所述聚类结果中包含信息
    条数最多的簇内的信息当中提取关键词,作为与该波峰时段有关的事件。
    4.如权利要求1所述的信息处理装置,其中,所述对象事件检测单
    元还包括:
    时段事件合成单元,其对所述时段事件检测单元所检测的与所述时序
    序列的各个波峰时段有关的事件进行合成,作为与所述关注对象有关的事
    件。
    5.如权利要求1所述的信息处理装置,其中,所述对象事件检测单
    元还包括:
    词向量表示单元,其将每个波峰时段中的信息表示为词向量,以提供
    给所述聚类单元。
    6.如权利要求1所述的信息处理装置,还包括:
    对象情绪分析单元,其对所述波峰时段中的信息进行情绪分析,以得
    到与所述关注对象有关的情绪。
    7.如权利要求6所述的信息处理装置,其中,所述对象情绪分析单
    元包括:
    时段情绪分析单元,其针对每个波峰时段,对所述聚类单元的聚类结
    果中包含信息条数最多的簇内的信息进行情绪分析,以得到与该波峰时段
    有关的情绪。
    8.如权利要求7所述的信息处理装置,其中,所述时段情绪分析单
    元利用预先获得的情绪词典或预先训练的情绪分析模型进行所述情绪分
    析。
    9.如权利要求7所述的信息处理装置,其中,所述对象情绪分析单
    元还包括:
    时段情绪合成单元,其对所述时段情绪分析单元所得到的与所述时间
    序列的各个波峰时段有关的情绪进行合成,以获得与所述关注对象有关的
    情绪。
    10.一种信息处理方法,包括:
    从信息源获取多条与关注对象有关的各自带有时间标签的信息;
    基于所述时间标签生成所述信息的时序序列;
    针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及
    对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事
    件,其中,对所述波峰时段中的信息进行检测包括:
    针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行
    聚类;以及
    针对每个波峰时段,基于所述聚类的聚类结果中包含信息条数最多的
    簇内的信息,检测与该波峰时段有关的事件。

    说明书

    信息处理装置和信息处理方法

    技术领域

    本公开总体上涉及信息处理领域,具体而言,涉及信息处理装置和信
    息处理方法。

    背景技术

    目前,诸如微博、推特(Twitter)等的微博客(microblog)已经越
    来越受到关注,成为流行的网络信息获取平台。但是,在互联网和数据挖
    掘领域,在诸如微博客的具有来自大量用户的海量信息的信息源中,如何
    发现与关注对象有关的重要内容是一个难点??梢酝ü话愕乃阉饕娴?br />获得与关注对象有关的信息,但是这些信息可能是杂乱、零散、重复的,
    因而用户无法通过直接阅读在短时间内很好地了解关注对象。

    期望能够从信息源的海量信息中准确、高效地提取与关注对象有关的
    重要内容。

    发明内容

    在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些
    方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。
    它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范
    围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详
    细描述的前序。

    鉴于现有技术的上述缺陷,本发明的目的之一是提供一种能够获取与
    关注对象有关的事件的信息处理装置和信息处理方法,以至少克服现有的
    问题。

    根据本公开的一个方面,提供一种信息处理装置,包括:信息获取单
    元,其从信息源获取多条与关注对象有关的各自带有时间标签的信息;序
    列生成单元,其基于所述时间标签生成所述信息的时序序列;波峰检测单
    元,其针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以
    及对象事件检测单元,其对所述波峰时段中的信息进行检测,以得到与所
    述关注对象有关的事件。所述对象事件检测单元包括:聚类单元,其针对
    所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以及时
    段事件检测单元,其针对每个波峰时段,基于所述聚类单元的聚类结果中
    包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。

    根据本公开的另一方面,提供一种信息处理方法,包括步骤:从信息
    源获取多条与关注对象有关的各自带有时间标签的信息;基于所述时间标
    签生成所述信息的时序序列;针对所述时序序列进行检测,以获得所述时
    序序列的波峰时段;以及对所述波峰时段中的信息进行检测,以得到与所
    述关注对象有关的事件。其中,对所述波峰时段中的信息进行检测包括:
    针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以
    及针对每个波峰时段,基于所述聚类的聚类结果中包含信息条数最多的簇
    内的信息,检测与该波峰时段有关的事件。

    依据本公开的其它方面,还提供了一种使得计算机用作如上所述的信
    息处理装置的程序。

    依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计
    算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机
    程序在执行时能够使计算设备执行上述信息处理方法。

    上述根据本公开实施例的各个方面,至少能够获得以下益处:利用从
    信息源获取的与关注对象有关的、带有时间标签的信息的时序序列,基于
    时序序列的波峰时段中的信息得到与关注对象有关的事件,从而能够从信
    息源的大量信息中准确、高效地提取与关注对象有关的重要内容,并且能
    够兼顾提取内容的覆盖度和简洁度。

    通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些
    以及其他优点将更加明显。

    附图说明

    本公开可以通过参考下文中结合附图所给出的描述而得到更好的理
    解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似
    的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本
    说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本
    公开的原理和优点。其中:

    图1是示意性地示出根据本公开实施例的信息处理装置的示例结构
    的框图。

    图2是示意性地示出根据本公开实施例的信息处理装置中的对象事
    件检测单元的示例结构的框图。

    图3是示意性地示出根据本公开实施例的信息处理装置的另一示例
    结构的框图。

    图4是示出了根据本公开实施例的信息处理方法的示例流程的流程
    图。

    图5是示出了根据本公开实施例的信息处理方法中的对象事件检测
    步骤的示例流程的流程图。

    图6是示出了根据本公开实施例的信息处理方法的另一示例流程的
    流程图。

    图7是示出了可用来实现根据本公开实施例的信息处理装置和方法
    的一种可能的硬件配置的结构简图。

    具体实施方式

    在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和
    简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了
    解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的
    决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那
    些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。
    此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益
    于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。

    在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发
    明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或
    处理步骤,而省略了与本发明关系不大的其他细节。

    本发明人发现,在现有的数据挖掘处理中,一般通过搜索引擎等从信
    息源(诸如微博客)获得与关注对象(诸如关注人物)有关的信息,但是
    这些信息可能是杂乱、零散、重复的,因而用户无法通过直接阅读在短时
    间内很好地了解关注对象。另外,在关注对象为人物的情况下,也可以通
    过该人物本身在信息源中发布的内容(例如该人物发布的微博)获得相关
    信息,但是这种方式同样具有无法直接获得重要信息的缺点。

    基于此,本公开提出了一种能够获取与关注对象有关的事件的信息处
    理装置和信息处理方法,其从信息源获取与关注对象有关的、带有时间标
    签的信息的时序序列,基于时序序列的波峰时段中的信息来得到与关注对
    象有关的事件,从而能够从信息源的海量信息中准确、高效地提取与关注
    对象有关的重要内容,并且能够兼顾提取内容的覆盖度和简洁度。

    根据本公开的一个方面,提供了一种信息处理装置。图1是示意性地
    示出根据本公开实施例的信息处理装置的示例结构的框图。

    如图1所示,信息处理装置10包括:信息获取单元101,其从信息
    源获取多条与关注对象有关的各自带有时间标签的信息;序列生成单元
    102,其基于所述时间标签生成所述信息的时序序列;波峰检测单元103,
    其针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及对
    象事件检测单元104,其对所述波峰时段中的信息进行检测,以得到与所
    述关注对象有关的事件。上述对象事件检测单元104包括:聚类单元1041,
    其针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;
    以及时段事件检测单元1042,其针对每个波峰时段,基于所述聚类单元
    1041的聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段
    有关的事件。

    为便于说明起见,以下以微博作为信息源的示例进行描述。本公开的
    内容当然不限于该示例,而是可以适用于包括具有时间属性的信息的任何
    信息源。

    在以微博作为示例信息源的情况下,信息获取单元101获得的与关注
    对象有关的一条带有时间标签的信息可以是通过搜索等方式得到的与关
    注对象有关的一条微博,例如,一条包含关注对象的名称或者包含作为人
    物的关注对象的姓名、昵称、用户名等的微博。序列生成单元102生成的
    时序序列可以是基于这样获得的每条微博的发布时间的、多条微博的时序
    序列。

    在一个优选实施例中,波峰检测单元103可以利用时序波峰检测
    (Burst Detection)技术获得时序序列的波峰时段。例如,波峰检测单元
    103可以利用Jon Kleinberg于2002年提出的基于爆发层级(bursty level)
    的时序波峰检测技术进行检测。该技术的细节可以参照“Bursty and
    hierarchical structure in streams”,Jon Kleinberg,KDD 2002:91-101,
    该文献以引用的方式并入本文中。当然,可以利用本领域中各种其他适当
    方式获得时序序列的波峰时段,在此不再进行详细描述。

    波峰检测单元103通过上述检测得到的波峰时段可以是给定时间范
    围内的、与关注对象有关的信息的条数满足一定条件(例如,该信息的条
    数以给定比例高于其它时段、该信息的条数高于给定阈值等)的时段。波
    峰时段内的信息源中的大量相关信息体现了对关注对象的高关注度,因而
    可以被视为对关注对象的关注高峰时段。仍以微博作为信息源的示例,波
    峰时段可以被视为微博的用户对于给定关注对象的关注高峰时段或兴趣
    高峰时段。

    在一个优选实施例中,波峰检测单元103可以以天为单位获得所述波
    峰时段。在很多信息源中,以天为单位获得所述波峰时段可以得到较好的
    效果。当然,波峰检测单元103也可以以小时、周等其他时间单位获得所
    述波峰时段。本领域技术人员可以根据实际需要选择合适的时间单位。

    在获得时序序列的波峰时段之后,对象事件检测单元104的聚类单元
    1041针对每个波峰时段,对该波峰时段中的信息进行聚类。通过这种聚
    类,能够按照每个波峰时段中的信息之间的相关性得到不同的簇。相应地,
    时段事件检测单元1042可以针对每个波峰时段,基于聚类结果中包含信
    息条数最多的簇内的信息,检测与该波峰时段有关的事件。这样,利用对
    关注对象的关注度高的波峰时段中的、彼此相关性高的多条信息,得到了
    与该波峰时段有关的事件。

    通过对象事件检测单元104以上述方式得到的与波峰时段有关的事
    件可以被视为信息源中产生该波峰时段的原因,因而是与关注对象有关的
    重要内容。同时,在对象事件检测单元104得到与波峰时段有关的事件的
    过程中,过滤掉了非波峰时段中的信息以及波峰时段中彼此相关性低的信
    息,即过滤掉了重要性低的以及零散的内容。因此,利用本实施例的信息
    处理装置10,从而能够从信息源的大量信息中准确、高效地提取与关注
    对象有关的重要内容,并且能够兼顾提取内容的覆盖度和简洁度。

    以下参照图2描述根据本公开实施例的信息处理装置中的对象事件
    检测单元的示例结构。

    图2是示意性地示出根据本公开实施例的信息处理装置中的对象事
    件检测单元的示例结构的框图。

    如图2所示,在一个优选实施例中,除了与图1中的对象事件检测单
    元104中相类似的聚类单元1041和时段事件检测单元1042之外,对象事
    件检测单元104’还可以包括:词向量表示单元1040,其将每个波峰时段
    中的信息表示为词向量,以提供给所述聚类单元1041。

    作为示例,词向量表示单元1040可以对给定波峰时段中的每条信息
    进行分词,以将每一条信息表示成词向量,其中,词向量空间是由从信息
    源得到的文本信息集合中的全部词语组成的。

    在一个优选实施例中,聚类单元1041可以利用基于阈值的自动聚类
    方法对每个波峰时段中的信息进行聚类。在信息源中,不同时段中与关注
    对象有关的信息可能具有不同粒度,即,诸如微博的多条信息具有不同的
    内容分散程度。例如,从信息源获取的一个时段内的与关注对象有关的微
    博可能涉及与关注对象有关的多个事件,各条微博内容的主题就会较为分
    散;而另一个时段内的与关注对象有关的微博整体围绕与关注对象有关的
    一个事件,此时各条微博内容的描述主题就相对比较集中。上述两种情况
    的微博内容粒度差别很大,一般的面向相同聚类粒度的聚类方法无法得到
    很好的处理效果。

    本优选实施例所提供的基于阈值的自动聚类方法能够根据不同时段
    的实际情况,自动设定针对给定时段的聚类阈值,以适应于不同时段的信
    息内容的粒度而得到良好的聚类结果。

    在一个具体示例中,假设给定的波峰时段中共有x条与关注对象有关
    的信息,从每条信息中得到一个词向量,则x个词向量两两组成一对,共
    对。聚类单元1041可以计算每对词向量之间的欧氏距离,以得到
    平均欧式距离,再乘以预定的权值参数,即可得到自适应于这x个词向量
    的聚类阈值。

    例如,基于欧氏距离的聚类阈值δ的公式可以表示如下。


    其中,w为权值参数,大于0且小于或等于1,优选取值为0.9。x为
    词向量个数。S(mi)和S(mj)分别表示第i条和第j条微博内容mi和mj对应的
    词向量,Ed(S(mi),S(mj))表示词向量S(mi)和S(mj)之间的欧式距离。

    确定了自适应聚类阈值δ之后,聚类单元1041可以采用如下方法基
    于该自适应聚类阈值对词向量进行聚类。

    (1)首先,聚类单元1041可以从给定波峰时段的x个词向量中随机
    选择一个词向量,作为一个新簇;

    (2)接着,随机选择一个未聚类的词向量,分别计算其与每一个已
    有簇内的全部词向量之间的欧式距离的平均值;

    (3)如果该词向量与一个已有簇内的全部词向量之间的欧式距离的
    平均值小于自适应聚类阈值,则将该词向量加入到该已有簇中;

    (4)如果对于所有已有簇,该词向量与该簇内的全部词向量之间的
    欧式距离的平均值都大于或等于自适应聚类阈值,则将该词向量作为一个
    新簇。

    重复上述步骤(2)-(4)直至所有词向量均被聚类,则聚类单元1041
    得到了最终的聚类结果。

    另外,如图2所示,在对象事件检测单元104’的一个优选实施例中,
    时段事件检测单元1042可以包括:关键词提取单元1042-1,其针对每个
    波峰时段,从所述聚类结果中包含信息条数最多的簇内的信息当中提取关
    键词,作为与该波峰时段有关的事件。

    关键词提取单元1042-1可以从聚类结果中包含信息条数最多的一个
    或多个簇内的信息当中提取关键词。为便于说明,以下可将聚类结果中的
    被提取关键词的簇称为主要原因事件。在一个优选示例中,可以从每个波
    峰时段的簇中选择一到两个主要原因事件。例如,包含信息条数最多的一
    个簇E1(其包含的信息条数为N1)自动被选为主要原因事件。对于包含
    信息条数排序第二位的簇E2(其包含的信息条数为N2),按照N2/N1是否
    大于给定阈值来判定是否将E2归为主要原因事件。优选将该阈值设为0.6,
    如果N2/N1≥0.6,则E2将会与E1同时被归为主要原因事件,否则,只将
    E1认定为主要原因事件??梢岳斫?,上述选择主要原因事件的方式仅用
    于举例说明,关键词提取单元1042-1可采用任何其他适当地方式选择一
    个或多个簇作为主要原因事件。

    对于给定波峰时段的所选择的主要原因事件(即,要提取关键词的
    簇),关键词提取单元1042-1可以通过以下示例方法来提取关键词。

    首先,关键词提取单元1042-1可以对选定簇内的每条信息进行分词,
    并对分词之后的文本进行词性标注。发明人发现,以一元和二元的名词性
    词串作为关键词,可以获得较好效果。因此,关键词提取单元1042-1从分
    词结果中抽取一元名词以及包含名词的二元词串进行统计整理,按照词频
    进行排序,作为候选关键词的词串列表,并按照以下公式(2)计算每个
    一元名词或二元词串的重要度Tvalue:

    Tvalue=Tfrequency*Tlength (2)

    其中,Tlength是指词串的长度,即词串包含的字数,Tfrequency是指该词串
    出现的次数,而重要度Tvalue由上述两个因素决定。

    之后,利用二元词串对一元词串进行子串归并。子串归并时的规则如
    下:如果一个二元词串包含另一个一元词串,并且该二元词串的重要度
    Tvalue大于该一元词串的重要度Tvalue,则该一元词串将被归并掉,否则,将
    该二元词串从词串列表中去除。通过这种归并处理,可以保留最合适的词
    串作为关键词的候选。

    在上述归并处理之后得到的所有词串当中,关键词提取单元1042-1
    可以将重要度Tvalue排在前K位的词串选择作为该主要原因事件的关键词。
    优选地,K可以设定为5。

    在一个示例中,针对每个波峰时段,关键词提取单元1042-1可以从
    聚类结果中包含信息条数最多的一个以上的簇(即,一个以上的主要原因
    事件)内的信息当中提取关键词,并将所提取的多个关键词共同作为与该
    波峰时段有关的事件。

    另外,如图2所示,在一个优选实施例中,对象事件检测单元104’
    还可以包括:时段事件合成单元1043,其对时段事件检测单元1042所检
    测的与所述时序序列的各个波峰时段有关的事件进行合成,作为与所述关
    注对象有关的事件。

    利用时段事件合成单元1043,本优选实施例的对象事件检测单元104’
    不仅能够获得与关注对象的每个波峰时段有关的事件,还能够从信息源整
    体上随时间获得与关注对象有关的事件序列。由于这样整体获得的事件序
    列是基于与关注对象有关的各个波峰时段,因而其能够体现信息源中对关
    注对象的关注度的时序变化,并且给出与每个波峰时段相对应的事件作为
    该时段中对关注对象的高关注度的原因。

    在一个具体示例中,时段事件检测单元1042所检测的与各个波峰时
    段有关的事件可以是从各个波峰时段提取的关键词,时段事件合成单元
    1043将各个波峰时段的关键词罗列在一起共同作为与关注对象有关的事
    件。

    以上参照图2描述了对象事件检测单元104’的示例结构。应注意,尽
    管在一个图中同时示出了词向量表示单元1040、关键词提取单元1042-1、
    时段事件合成单元1043,但这种图示仅是示意性的;这些单元既可以在
    在一个优选实施例中同时实现,也可以不依赖于彼此地分别在不同的优选
    实施例中实现。

    以下参照图3描述根据本公开实施例的信息处理装置的另一示例结
    构。

    图3是示意性地示出根据本公开实施例的信息处理装置的另一示例
    结构的框图。

    如图3所示,在一个优选实施例中,除了图1的信息处理装置10所
    包括的信息获取单元101、序列生成单元102、波峰检测单元103、对象
    事件检测单元104(或图3的对象事件检测单元104’)之外,信息处理装
    置10’还可以包括:对象情绪分析单元105,其对所述波峰时段中的信息
    进行情绪分析,以得到与所述关注对象有关的情绪。

    对象情绪分析单元105可以利用各种适当的方法得到与关注对象有
    关的情绪。例如,对象情绪分析单元105可以利用预先获得的情绪词典或
    预先训练的情绪分析模型对波峰时段中的全部或部分信息进行情绪分析,
    以得到与关注对象有关的情绪。

    在一个优选实施例中,对象情绪分析单元105可以包括:时段情绪分
    析单元1051,其针对每个波峰时段,对聚类单元1041的聚类结果中包含
    信息条数最多的簇内的信息进行情绪分析,以得到与该波峰时段有关的情
    绪。时段情绪分析单元1051所得到的这种与波峰时段有关的情绪可以对
    应于信息源中的信息所反映的、针对与波峰时段有关的事件的情绪。这里,
    与波峰时段有关的事件可以是此前参照图1和图3所描述的对象事件检测
    单元104或104’中的时段事件检测单元1042所检测的与波峰时段有关的
    事件。

    对象情绪分析单元105可以利用各种适当的方法对聚类结果中包含
    信息条数最多的簇内的信息进行情绪分析。例如,时段情绪分析单元1051
    可以利用预先获得的情绪词典或预先训练的情绪分析模型进行这样的情
    绪分析。

    以情绪词典的情况为例,一个示例性的情绪词典可以包含“高兴”、“悲
    伤”、“同情”和“敬佩”等36种情绪以及与每种情绪对应的常用情绪表达词
    语。以“高兴”情绪为例,对应的常用情绪表达词语包括“惊喜”、“高兴”
    和“欢畅”等。

    利用情绪词典,对于聚类结果中包含信息条数最多的簇,时段情绪分
    析单元1051可以在该簇的全部信息内查找情绪词典中的情绪词的出现情
    况。例如,对于给定簇,如果该簇内的一条信息包含某种情绪类别中对应
    的情绪词语,则将该情绪类别的统计频率加一,由此对不同情绪类别分别
    进行词频统计。然后,可以按照频率大小进行情绪类别的排序,以便得到
    针对该簇的事件的情绪分析结果。

    以微博作为示例信息源,时段情绪分析单元1051所得到的情绪分析
    结果可以是给定波峰时段内各个用户所表现出的对于涉及关注对象的、与
    该波峰时段有关的事件的情绪分布。该结果能够用于帮助进行与关注对象
    有关的公共关系维护,例如进行人物口碑建立以及与突发事件有关的?;?br />公关等应用。

    在一个优选实施例中,对象情绪分析单元105还可以包括:时段情绪
    合成单元1052,其对时段情绪分析单元1051所得到的与所述时间序列的
    各个波峰时段有关的情绪进行合成,以获得与所述关注对象有关的情绪。

    利用时段情绪合成单元1052,可以从信息源的信息中获得对给定对
    象的整体情绪分布。仍以微博作为示例信息源,利用时段情绪合成单元
    1052所得到的与关注对象有关的情绪可以是各个用户所表现出的对于关
    注对象的随时间的整体情绪分布序列。由于这样的整体情绪分布是基于与
    关注对象有关的各个波峰时段,因而其能够体现信息源中对关注对象的情
    绪的时序变化,特别有利于进行与关注对象有关的长期公共关系维护,例
    如进行人物口碑建立。

    根据本公开的另一方面,提供了一种信息处理方法。图4是示出了根
    据本公开实施例的信息处理方法的示例流程的流程图。

    图4示出了根据本公开实施例的信息处理方法400的示例流程。如图
    4所示,信息处理方法400包括下述步骤:信息获取步骤S401,从信息源
    获取多条与关注对象有关的各自带有时间标签的信息;序列生成步骤
    S402,基于所述时间标签生成所述信息的时序序列;波峰检测步骤S403,
    针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及对象
    事件检测步骤S404,对所述波峰时段中的信息进行检测,以得到与所述
    关注对象有关的事件。对象事件检测步骤S404可以包括:聚类步骤S4041,
    针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以
    及时段事件检测步骤S4042,针对每个波峰时段,基于所述聚类的聚类结
    果中包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。

    图像处理方法400及其各个步骤S401-S404可以包括以上参照图1至
    图2描述的图像处理装置10及其相应单元101-104、104’中进行的各种处
    理,并且可以获得与参照图1至图2描述的相应单元类似的效果,这些处
    理和效果的具体细节在此不再赘述。

    此外,图5示出了根据本公开实施例的信息处理方法的中的对象事件
    检测步骤示例流程。

    如图5所示,在与图4中的对象事件检测步骤S404中相类似的聚类
    步骤S4041和时段事件检测步骤S4042之前,在一个优选实施例中,对象
    事件检测步骤S404’还可以包括:词向量表示步骤S4040,将每个波峰时
    段中的信息表示为词向量,以用于对该波峰时段中的信息进行聚类。

    在一个优选实施例中,在聚类步骤S4041中,利用基于阈值的自动聚
    类方法进行所述聚类。

    在一个优选实施例中,时段事件检测步骤S4042可以包括:关键词提
    取步骤S4042-1,针对每个波峰时段,从所述聚类结果中包含信息条数最
    多的簇内的信息当中提取关键词,作为与该波峰时段有关的事件。

    在一个优选实施例中,对象事件检测步骤S404’还可以包括:时段事
    件合成步骤S4043,对所检测的与所述时序序列的各个波峰时段有关的事
    件进行合成,作为与所述关注对象有关的事件。

    以上参照图5描述了对象事件检测步骤S404’的示例流程。应注意,
    尽管在一个图中同时示出了词向量表示步骤S4040、关键词提取步骤
    S4042-1、时段事件合成步骤S4043,但这种图示仅是示意性的;这些步
    骤既可以在在一个优选实施例中同时实现,也可以不依赖于彼此地分别在
    不同的优选实施例中实现。

    此外,对象事件检测步骤S404’及其中包括的各个步骤可以包括以上
    参照图2描述的对象事件检测单元104’及其各个组成单元中进行的各种
    处理,并且可以获得与参照图2描述的相应单元类似的效果,这些处理和
    效果的具体细节在此不再赘述。

    图6是示出了根据本公开实施例的信息处理方法的另一示例流程的
    流程图。

    如图6所示,在一个优选实施例中,除了图4的信息处理方法400
    所包括的信息获取步骤S401、序列生成步骤S402、波峰检测步骤S403、
    对象事件检测步骤S404(或图5的对象事件检测步骤S404’)之外,信息
    处理方法400’还可以包括:对象情绪分析步骤S405,对所述波峰时段中
    的信息进行情绪分析,以得到与所述关注对象有关的情绪。

    信息处理方法400’及其各个步骤可以包括以上参照图3描述的信息
    处理装置10’及其相应单元中进行的各种处理,并且可以获得与参照图3
    描述的相应单元类似的效果,这些处理和效果的具体细节在此不再赘述。

    在一个优选实施例中,对象情绪分析步骤S405可以包括:时段情绪
    分析步骤S4051,针对每个波峰时段,对所述聚类的聚类结果中包含信息
    条数最多的簇内的信息进行情绪分析,以得到与该波峰时段有关的情绪。

    在一个优选实施例中,时段情绪分析步骤S4051利用预先获得的情绪
    词典或预先训练的情绪分析模型进行所述情绪分析。

    在一个优选实施例中,对象情绪分析步骤S405还可以包括:时段情
    绪合成步骤S4052,对所得到的与所述时间序列的各个波峰时段有关的情
    绪进行合成,以获得与所述关注对象有关的情绪。

    上述根据本公开实施例的信息处理装置(例如图1、图3中所示的信
    息处理装置10、10’)以及其中的各个组成单元等可以通过软件、固件、
    硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可
    从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的
    程序,该机器在安装有各种程序时,能够执行上述各组成装置的各种功能。

    图7是示出了可用来实现根据本公开实施例的信息处理装置和方法
    的一种可能的硬件配置的结构简图。

    在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存
    储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行
    各种处理。在RAM703中,还根据需要存储当CPU 701执行各种处理等
    等时所需的数据。CPU701、ROM 702和RAM 703经由总线704彼此连
    接。输入/输出接口705也连接到总线704。

    下述部件也连接到输入/输出接口705:输入部分706(包括键盘、鼠
    标等等)、输出部分707(包括显示器,例如阴极射线管(CRT)、液晶显示
    器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709
    (包括网络接口卡例如LAN卡、调制解调器等)。通信部分709经由网络
    例如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出
    接口705??刹鹦督橹?11例如磁盘、光盘、磁光盘、半导体存储器等等
    可以根据需要被安装在驱动器710上,使得从中读出的计算机程序可根据
    需要被安装到存储部分708中。

    此外,本公开还提出了一种存储有机器可读取的指令代码的程序产
    品。上述指令代码由机器读取并执行时,可执行上述根据本公开实施例的
    图像处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光
    盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

    在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或
    示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使
    用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。

    此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图
    中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地
    执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构
    成限制。

    此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在
    各种机器可读的存储介质中的计算机可执行程序的方式实现。

    而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行
    程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设
    备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

    此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方
    式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解
    释器执行的程序或者提供给操作系统的脚本程序等。

    上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,
    半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介
    质等。

    另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依
    据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程
    序,也可以实现本公开的各实施例。

    综上,在根据本公开实施例中,本公开提供了如下方案,但不限于此:

    方案1、一种信息处理装置,包括:

    信息获取单元,其从信息源获取多条与关注对象有关的各自带有时间
    标签的信息;

    序列生成单元,其基于所述时间标签生成所述信息的时序序列;

    波峰检测单元,其针对所述时序序列进行检测,以获得所述时序序列
    的波峰时段;以及

    对象事件检测单元,其对所述波峰时段中的信息进行检测,以得到与
    所述关注对象有关的事件,所述对象事件检测单元包括:

    聚类单元,其针对所述时序序列的每个波峰时段,对该波峰时段
    中的信息进行聚类;以及

    时段事件检测单元,其针对每个波峰时段,基于所述聚类单元的
    聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关
    的事件。

    方案2、如方案1所述的信息处理装置,其中,所述聚类单元利用基
    于阈值的自动聚类方法进行所述聚类。

    方案3、如方案1所述的信息处理装置,其中,所述时段事件检测单
    元包括:

    关键词提取单元,其针对每个波峰时段,从所述聚类结果中包含信息
    条数最多的簇内的信息当中提取关键词,作为与该波峰时段有关的事件。

    方案4、如方案1所述的信息处理装置,其中,所述对象事件检测单
    元还包括:

    时段事件合成单元,其对所述时段事件检测单元所检测的与所述时序
    序列的各个波峰时段有关的事件进行合成,作为与所述关注对象有关的事
    件。

    方案5、如方案1所述的信息处理装置,其中,所述对象事件检测单
    元还包括:

    词向量表示单元,其将每个波峰时段中的信息表示为词向量,以提供
    给所述聚类单元。

    方案6、如方案1所述的信息处理装置,还包括:

    对象情绪分析单元,其对所述波峰时段中的信息进行情绪分析,以得
    到与所述关注对象有关的情绪。

    方案7、如方案6所述的信息处理装置,其中,所述对象情绪分析单
    元包括:

    时段情绪分析单元,其针对每个波峰时段,对所述聚类单元的聚类结
    果中包含信息条数最多的簇内的信息进行情绪分析,以得到与该波峰时段
    有关的情绪。

    方案8、如方案7所述的信息处理装置,其中,所述时段情绪分析单
    元利用预先获得的情绪词典或预先训练的情绪分析模型进行所述情绪分
    析。

    方案9、如方案7所述的信息处理装置,其中,所述对象情绪分析单
    元还包括:

    时段情绪合成单元,其对所述时段情绪分析单元所得到的与所述时间
    序列的各个波峰时段有关的情绪进行合成,以获得与所述关注对象有关的
    情绪。

    方案10、如方案1所述的信息处理装置,其中,所述波峰检测单元
    利用时序波峰检测技术获得所述波峰时段。

    方案11、如方案1所述的信息处理装置,其中,所述波峰检测单元
    以天为单位获得所述波峰时段。

    方案12、一种信息处理方法,包括:

    从信息源获取多条与关注对象有关的各自带有时间标签的信息;

    基于所述时间标签生成所述信息的时序序列;

    针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及

    对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事
    件,其中,对所述波峰时段中的信息进行检测包括:

    针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行
    聚类;以及

    针对每个波峰时段,基于所述聚类的聚类结果中包含信息条数最

    多的簇内的信息,检测与该波峰时段有关的事件。

    方案13、如方案12所述的信息处理方法,其中,利用基于阈值的自
    动聚类方法进行所述聚类。

    方案14、如方案12所述的信息处理方法,其中,检测与每个波峰时
    段有关的事件包括:

    针对每个波峰时段,从所述聚类结果中包含信息条数最多的簇内的信
    息当中提取关键词,作为与该波峰时段有关的事件。

    方案15、如方案12所述的信息处理方法,其中,对所述波峰时段中
    的信息进行检测还包括:

    对所检测的与所述时序序列的各个波峰时段有关的事件进行合成,作
    为与所述关注对象有关的事件。

    方案16、如方案12所述的信息处理方法,其中,对所述波峰时段中
    的信息进行检测还包括:

    将每个波峰时段中的信息表示为词向量,以用于对该波峰时段中的信
    息进行聚类。

    方案17、如方案12所述的信息处理方法,还包括:

    对所述波峰时段中的信息进行情绪分析,以得到与所述关注对象有关
    的情绪。

    方案18、如方案17所述的信息处理方法,其中,对所述波峰时段中
    的信息进行情绪分析包括:

    针对每个波峰时段,对所述聚类的聚类结果中包含信息条数最多的簇
    内的信息进行情绪分析,以得到与该波峰时段有关的情绪。

    方案19、如方案18所述的信息处理方法,其中,利用预先获得的情
    绪词典或预先训练的情绪分析模型进行所述情绪分析。

    方案20、一种计算机可读存储介质,该计算机可读存储介质上存储
    有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算
    设备执行一种信息处理方法,所述信息处理方法包括:

    从信息源获取多条与关注对象有关的各自带有时间标签的信息;

    基于所述时间标签生成所述信息的时序序列;

    针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及

    对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事
    件,其中,对所述波峰时段中的信息进行检测包括:

    针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行
    聚类;以及

    针对每个波峰时段,基于所述聚类的聚类结果中包含信息条数最
    多的簇内的信息,检测与该波峰时段有关的事件。

    最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系
    术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一
    定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
    而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,
    从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,
    而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、
    物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一
    个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者
    设备中还存在另外的相同要素。

    尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,
    但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计
    对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应
    当被认为包括在本公开所要求?;さ姆段?。

    关于本文
    本文标题:信息处理装置和信息处理方法.pdf
    链接地址://www.4mum.com.cn/p-6004899.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • AG天空守护者官网登录 必中北京pk10赛车计划软件 舞蹈主播赚钱 北京pk赛车官方走势图 油脂乳品贸易赚钱吗 北京pk10详细走势图 网约车白天赚钱还是晚上赚钱 一分赛车全天计划一期9码 关东煮1游戏 大乐透机选号码体彩 北京pk赛车官网 3d一胆拖六直选多少钱 极速3d彩票 走势图 30码如何赢钱 山东11选5开奖结果今天 幸运飞艇计划哪个比较稳呢