• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩国家支持吗: 基于图像的语义距离.pdf

    关 键 词:
    基于 图像 语义 距离
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN200980143703.7

    申请日:

    2009.10.27

    公开号:

    CN102197393A

    公开日:

    2011.09.21

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 专利权的转移IPC(主分类):G06F 17/00变更事项:专利权人变更前权利人:微软公司变更后权利人:微软技术许可有限责任公司变更事项:地址变更前权利人:美国华盛顿州变更后权利人:美国华盛顿州登记生效日:20150508|||授权|||实质审查的生效IPC(主分类):G06F 17/00申请日:20091027|||公开
    IPC分类号: G06F17/00; G06F17/30 主分类号: G06F17/00
    申请人: 微软公司
    发明人: X-S·华; L·吴; S·李
    地址: 美国华盛顿州
    优先权: 2008.10.27 US 61/108,739; 2008.12.19 US 12/340,632
    专利代理机构: 上海专利商标事务所有限公司 31100 代理人: 陈斌
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN200980143703.7

    授权公告号:

    |||102197393B||||||

    法律状态公告日:

    2015.05.27|||2014.12.24|||2011.11.23|||2011.09.21

    法律状态类型:

    专利申请权、专利权的转移|||授权|||实质审查的生效|||公开

    摘要

    呈现基于图像的语义距离技术实施例,它们涉及建立语义概念之间基于图像的语义距离的量度。一般而言,这需要基于与语义概念相关联的图像集分别为每个概念计算语义概念表示。然后计算两个语义概念表示之间的差异度,来为这对概念产生上述的语义距离量度。

    权利要求书

    1.一种用于建立语义概念之间基于图像的语义距离的量度的计算机实现的方法,包括使用计算机执行以下过程动作:基于与概念相关联的图像分别计算每个概念的语义概念表示(100);以及计算两个语义概念表示之间的差异度以产生该对相应语义概念的所述语义距离量度(102)。2.如权利要求1所述的方法,其特征在于,所述语义概念表示各自采用与相应语义概念相关联的图像的统计分布模型的形式。3.如权利要求2所述的方法,其特征在于,所述统计分布模型是视觉语言模型,每个视觉语言模型捕捉与相应语义概念相关联的图像的视觉特性。4.如权利要求2所述的方法,其特征在于,所述语义概念表示之间的差异度采用统计分布散度的形式。5.如权利要求4所述的方法,其特征在于,所述统计分布散度是所述统计分布模型之间的詹森-香农散度计算的平方根。6.如权利要求1所述的方法,其特征在于,所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的对象。7.如权利要求1所述的方法,其特征在于,所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的场景。8.如权利要求1所述的方法,还包括以下过程动作:计算多对语义概念中每一对之间的基于图像的语义距离量度,以及使用这些量度来构建视觉概念网络,所述视觉概念网络包括具有表示每个语义概念的分开节点和连接表示在每个经连接节点之间计算的基于图像的语义距离量度的节点的边的图。9.如权利要求1所述的方法,其特征在于,还包括以下过程动作:计算多对语义概念中每一对之间的基于图像的语义距离量度,以及在语义概念群集应用中使用这些量度。10.如权利要求1所述的方法,其特征在于,还包括以下过程动作:计算多对语义概念中每一对之间的基于图像的语义距离量度,以及在图像注释应用中使用这些量度。11.一种用于建立一对语义概念之间的基于图像的语义距离的量度的系统,包括:通用计算设备;以及具有可由所述计算设备执行的程序??榈募扑慊绦?,其中所述计算设备由所述计算机程序的程序??橐祭?/claim-text>基于与所述概念相关联的图像分别计算每个语义概念的语义概念表示,其中所述表示中的每一个表示计入在用于计算该表示的图像中所描绘的相关联的语义概念的外观的变化(300),以及计算一对语义概念表示之间的差异度以产生所述语义距离量度,其中计算差异度包括计算与该对语义概念表示中的第一个相关联的每个外观变化和与该对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。12.如权利要求11所述的系统,其特征在于,所述外观的变化可归因于比例、取向、对象形状、照明、色彩、和纹理的变化中的至少一个。13.如权利要求11所述的系统,其特征在于,用于计算语义概念表示的程序??榘ㄓ糜谑褂们痹谥魈馐泳跤镅阅P图扑忝扛鲇镆甯拍畋硎镜淖幽??,所述潜在主题视觉语言模型以每个所考虑变化的条件分布的形式来捕捉所述外观变化的视觉特征。14.如权利要求13所述的系统,其特征在于,在计算语义概念表示的潜在主题视觉语言模型之前,与所述表示的语义概念相关联的每个图像被表征为视觉词集合。15.权利要求13所述的系统,用于计算一对语义概念表示之间的差异度的程序??榘ㄓ糜诮钜於燃扑阄谟敫枚杂镆甯拍畋硎局械牡谝桓鱿喙亓拿扛鎏跫植己陀敫枚杂镆甯拍畋硎局械牧硪桓鱿喙亓拿扛鎏跫植贾浼扑愕募尤ㄕ采?香农散度的总和的平方根的子???,其中对于所计算的每个詹森-香农散度,加权是基于与第一语义概念表示的条件分布相关联的图像中变化的重要性以及与另一语义概念表示的条件分布相关联的图像中变化的重要性的。

    说明书

    基于图像的语义距离

    背景技术

    探究概念之间的语义关系是近来的热门研究课题,因为它在自然语言处理、对象检测和多媒体检索等领域有着广泛应用。值得注意的是,语义关系不仅是同义词(例如足球-英式足球)和概念相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy)(例如车辆-车轮)和并发性关系(例如飞机-机场)等关系。在该上下文中,并发性是指两个概念可能在日常生活而非文本文档中同时出现。更广泛地,与可以在文本文档领域中表示概念同现的术语“相似性”不同,术语“并发性”可以在视觉领域中表示概念同现或背景一致。

    概述

    本文所述的基于图像的语义距离技术实施例涉及建立语义概念之间基于图像的语义距离的量度。一般而言,这需要基于与每一概念相关联的图像集来分别为该概念计算语义概念表示。然后计算两个语义概念表示之间的差异度,来为这对概念产生上述的语义距离量度。在某些实施例中,语义概念表示采用与所考虑语义概念相关联的图像的统计语言模型的形式,并且差异度采用统计分布散度量度的形式。

    某些实施例还包括潜在语义分析以捕捉在用于计算语义概念表示的相关图像集合中的概念的外观(appearance)的变化。在这些实施例中,建立语义概念之间的基于图像的语义距离量度通常需要基于与每个语义概念相关联的图像来为该概念计算语义概念表示,其中每个表示计入相关联的语义概念的外观的变化。一旦语义概念表示就绪,则计算一对语义概念表示之间的差异度以产生语义距离量度。在这种情形中,计算与这对语义概念表示中的第一个相关联的每个外观变化和与这对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。

    应该注意,提供本发明内容是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求?;さ闹魈獾墓丶卣骰虮匾卣?,也不旨在用于帮助确定所要求?;さ闹魈獾姆段?。

    附图说明

    参考以下描述、所附权利要求书以及附图,将更好地理解本发明的具体特征、方面和优点,附图中:

    图1是概括示出用于建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。

    图2是示出图1中过程的实现的框图,采用视觉语言模型和詹森-香农(Jensen-Shannon)散度来用于建立语义概念之间的基于图像的语义距离量度。

    图3是概括示出用于在计入概念外观变化的同时建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。

    图4是描绘了构成用于实现本文所述的基于图像的语义距离技术实施例的示例系统的通用计算设备的图示。

    详细描述

    在以下对基于图像的语义距离技术实施例的描述中,对附图进行了参考,附图构成了实施例的一部分且在附图中作为说明示出了可在其中实践该技术的具体实施例??梢岳斫?,可以使用其它实施例并且可以做出结构改变而不背离本发明技术的范围。

    1.0?基于图像的语义距离

    语义概念之间的关系可以涉及同义词(例如足球-英式足球)或相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy)(例如车辆-车轮)和并发性(例如飞机-机场)之类的关系。某些语义概念更加紧密相关,诸如“飞机”和“机场”,而某些更加疏远,诸如“卫城(acropolis)”和“酒精(alcohol)”。本文所述的基于图像的语义距离技术实施例提供通过使用描绘概念的图像来量化概念之间关系的紧密度的方式。由于语义概念之间的关系是人类感知的知识并且80%的人类认知来自于视觉信息,因此通过视觉相关性而非通过文本文档中的概念同现来生成有关概念关系的人为知识是合理的。此外,视觉领域中的相关性不仅由图像中低级别视觉特征的频率表示,而且可以使用图像中这些低级别视觉特征之间的空间信息。例如,相同的视觉特征(即车轮)频繁同现在“车辆”和“摩托车”图像中,但是它们的邻近特征是不同的。由于忽视视觉特征之间的空间信息,这两个概念可能被混淆。然而,如果考虑这些视觉特征的邻近信息,概念之间的关系更加清晰。因此,视觉特征的安排在表示概念时也能提供信息。

    鉴于上文,本文所述的基于图像的语义距离技术实施例能够建立语义概念之间基于图像的语义距离的量度。参照图1,这通常涉及首先基于与概念相关联的图像分别为每个概念计算语义概念表示(100)。这通常涉及首先基于与概念相关联的图像分别计算每个概念的语义概念表示(100)。然后计算两个语义概念表示之间的差异度,来产生这对概念的上述语义距离量度(102)。在某些实施例中,语义概念表示采用与所考虑语义概念相关联的图像的统计分布模型的形式,并且差异度采用统计分布散度量度的形式(有时还称为统计分布距离量度)。

    具体而言,如图2所示,本文所述的基于图像的语义距离技术实施例是视觉领域中语义概念200、202(例如对象、场景)之间关系的新颖量度。对于每个概念,获得图像集204、206,在一个实施例中基于此,建立视觉语言模型208、210来捕捉概念的视觉特性。然后测量不同概念之间基于图像的语义距离,在一个实施例中,这采用对应视觉语言模型212之间詹森-香农(JS)散度计算的形式。

    1.1?语义概念图像池

    如上所述,由于80%的人类认知来自于视觉信息,因此通过日常生活中概念的并发来测量这些概念之间的语义距离是有意义的。为了模拟日常生活中的概念并发,应该在日常生活环境中执行概念关系学习过程。与人类观察系统类似,世界上的数码相机记录每天的现实日常生活??梢源哟笮腿粘I钫掌刂型诰蚋拍钪涞耐臣朴镆骞叵?。为了实现对统计概念关系的偏见较小的估计,图像池应该非常大并且照片来源应该是独立的。

    幸运的是,存在可用的基于web的图像池,它包括用描述关联图像的词句来标记的图像。这些词句通常涉及感兴趣的语义概念。例如,存在在线照片共享网站Flickr。该网站收集了由独立用户上传的超过109个图像。此外,这些图像中的大量图像已被标注(即标记)。因此,这是学习概念语义关系的理想数据集。

    为了提供概念之间语义距离的无偏见估计,需要足够大的无偏见图像数据集。此外,数据集中的图像应该包括图像与概念之间的连接信息。这可以通过采用Flickr照片集作为图像池而满足。在一个实施例中,只有预定数量(例如1000)的用查询概念来标记的最高返回图像被用于表示每个查询概念。这避免了噪声标签的问题。

    1.2?语义概念表示

    为了分析照片池中的概念相关性,使用上述语义概念表示。该表示可以采用与语义概念相关联的图像的统计分布模型的形式。存在许多能够使用的计算机视觉模型,诸如词袋(BOW)模型和基于感兴趣区域(ROI)的模型。然而,在基于图像的语义距离技术的一个实施例中,使用视觉语言模型(VLM)。VLM是捕捉局部外观特征及其空间依存关系的有效视觉统计分析方法。如上所述,这在表征语义概念时比纯视觉特征分布更有辨别力。VLM的训练很快,这使该建模方法尤其适于大规模概念数据集。VLM的输出是图像碎片的视觉特征的条件分布,基于此可以定义严谨的距离量度。VLM还可以抑制噪声。实际包含目标概念的图像会共享某些视觉特征,这实际上对模型有贡献。在被错误标记的噪声样本中的视觉特征对最终VLM影响很小。

    在操作中,VLM通过分析邻近图像碎片之间的空间依存关系来捕捉图像的统计语义。因此,统计语义可以表示为图像局部特征及其空间依存关系。具体而言,对于每个语义概念,通过上述描述性标签的帮助获得相关图像的集合。假设标记有相同概念的图像共享类似的外观特征及其排列模式。这形成概念的统计语义。将每个图像划分成尺寸相等的碎片,然后使用VLM计算这些碎片之间的条件依存关系以捕捉概念的视觉统计语义。

    1.2.1?潜在主题视觉语言模型

    在基于图像的语义距离技术的另一实施例中,将潜在语义分析结合到VLM中以捕捉概念外观变化。在处理概念外观变化中,传统VLM可能并不完善。这包括由于比例(例如近景/远景镜头)和取向(例如侧视/前视)以及诸如对象形状、照明、颜色、纹理等的其它属性而引起的外观变化。在这些情形中,将潜在主题分析结合到VLM中是可能的,并假设概念的每个外观变化对应于潜在主题Zi。概率性潜在语义分析(pLSA)可以适于用户感兴趣的每个变化下概念的视觉特性。在以下段落中,详细地描述这一潜在主题视觉语言模型,以特征提取阶段开始并以潜在主题VLM生成阶段结束。

    在特征提取阶段的一个实施例中,将每个图像划分成统一采样、尺寸相等的碎片。这是适当的,因为统一采样需要很少计算成本,并且其性能可以比得上使用显著检测或基于局部区域的分割等其它方法,但是如果需要也可以使用这些其它方法(以及类似方法)。对于每个碎片,使用8维纹理直方图来描述。每个纬度对应于沿八个量化方向之一的纹理梯度??梢允褂贸9娣椒ɡ醇扑阄评碇狈酵?。接下来,将每个碎片的纹理直方图转换成视觉词wxy。在一个实施例中,使用散列编码方案。

    潜在主题VLM生成阶段通常涉及将潜在主题(外观变化)分析结合到VLM中以根据低级别视觉特征排列来表征每个概念Ci。这提供了对概念进行建模的有效方式。每个VLM以条件分布的形式来呈现,条件分布描述了在给定其近邻和潜在主题的情况下低级别视觉特征之间的空间依存关系。

    根据所考虑的邻近视觉词的数量,可将视觉语言模型细分成一元语法(unigram)、二元语法(bigram)、三元语法(trigram)、或者一般情况下的n元语法(n-gram)模型。一元语法模型假设视觉词彼此独立。该模型实际上捕捉视觉词分布。二元语法模型假设视觉词依赖于其邻近特征之一,例如左侧最近邻。该模型在给定其近邻词之一的情况下计算每个视觉词的条件概率。三元语法模型假设视觉词依赖于其邻近词中的两个,例如左侧最近邻和上侧最近邻。因此,一般而言,n元语法模型假设视觉词依赖于其近邻词中的n-1个。然而,应该注意,虽然更高阶模型可以更有辨别力,但是随着模型阶数增大,参数数量会指数增长。由于参数是从训练集中n元语法的出现来估计的,因此如果阶数n过大,相对受限的训练集会遭遇稀缺问题。因此,辨别力和稀缺之间存在折衷。

    此外,还有可能使用组合模型。在组合模型中,使用一个以上的n元语法模型来生成参数。例如,可以从首先使用二元语法方法、然后使用三元语法方法生成的参数中计算与VLM相关联的条件分布??梢允褂酶鞣椒ǖ娜魏巫楹?。然而,虽然使用方法组合可以产生更有辨别力的结果,但是参数数量的增加会增加处理成本。因此,辨别力和成本之间存在折衷。

    在测试实施例中,选择三元语法模型来捕捉概念,但是如上文所指出的,可以改为使用更高或更低(或组合)阶模型。在三元语法模型中,理念是估计条件分布

    P(wxy|wx-1,y2,C),---(1)]]>

    其中C是语义概念,且表示二元语法wx-1,ywx,y-1。由于视觉概念可以具有各种外观,所以使用多个模型来表示概念是适当的。为此,引入潜在变量z来表示概念变化。由于该变量被隐藏,因此将pLSA结合到VLM中以对每个变化下的概念进行建模。

    因此,潜在主题VLM估计其中表示概念C的第k外观变化。该潜在主题三元语法建模过程可以用公式表示如下。

    P(wxy|wx-1,y2,dj)=Σk=1KP(wxy|wx-1,y2,zkC)P(zkC|dj)---(2)]]>

    x=1,…,m;y=1,…,n;j=1,…,N。

    其中表示概念C中的第j个图像。是概念C中第k个潜在主题。K是潜在主题的总数,它可以根据经验确定。使用期望值最大化(EM)技术来估计参数和EM技术的目标函数是最大化概念及其视觉词排列Aw的联合分布。

    最大化p(Aw,C)????????????????????????????(3)

    p(Aw,C)=ΠdjCΠx,yP(wxy|wx-1,ywx,y-1,dj)---(4)]]>

    为了获得在分析上易处理的密度估计,可以使用交叉更新方案,其中同时估计和然后,通过这两个估计来计算(方程(11))。如下执行E步骤和M步骤。

    E步骤:

    Q2(zkC|djC,wx-1,y2)P(zkC|djC)P(wx-1,y2|zkC)---(5)]]>

    Q3(zkC|djC,wxy3)P(zkC|djC)P(wxy3|zkC)---(6)]]>

    Q(zkC|djC,wxy3)P(zkC|djC)P(wxy|wx-1,y2,zkC)---(7)]]>

    M步骤:

    P(wx-1,y2|zkC)Σjn(djC,wx-1,y2)Q2(zkC|djC,wx-1,y2)Σx,y,jn(djC,wx-1,y2)Q2(zkC|djC,wx-1,y2)---(8)]]>

    P(wxy3|zkC)Σjn(djC,wxy3)Q3(zkC|djC,wxy3)Σx,y,jn(djC,wxy3)Q3(zkC|djC,wxy3)---(9)]]>

    P(zkC|djC)Σx,yn(djC,wxy3)Q(zkC|djC,wxy3)Σx,y,kn(djC,wxy3)Q(zkC|djC,wxy3)---(10)]]>

    P(wxy|wx-1,y2,zkC)P(wxy3|zkC)P(wx-1,y2|zkC)---(11)]]>

    P(zkC|C)ΣdCCP(zkC|dC,C)P(dC|C)---(12)]]>

    输出是每个潜在主题的三元语法的条件分布,k=1,…,K.

    1.3?语义距离量度

    为了测量一对语义概念表示之间的距离,在一个实施例中,计算这些表示之间的詹森-香农(JS)散度的平方根。如果两个概念更有可能相关,则其视觉语言模型的JS散度平方根往往较??;否则较大。JS和Kullback-Leibler(KL)散度是两个分布之间的常用相似性测量。虽然可以使用KL,但是JS散度被演示成对称并满足三角不等式。而且已知詹森-香农散度的平方根是一个度量(metric)。由于期望定义各概念之间的距离度量,因此使用JS散度平方根是适当的。

    在使用潜在主题VLM计入概念外观变化的基于图像的语义距离技术实施例中,该距离通常被定义成在与一对语义概念表示中的第一个相关联的每个条件分布和与这对语义概念表示中的另一个相关联的每个条件分布之间詹森-香农散度和的平方根。

    例如,在使用三元语法方法来计算潜在主题VLM的条件分布的情形中,令和分别是潜在主题和下的三元语法条件分布。表示概念C1的第i个潜在主题,表示概念C2的第j个潜在主题。它们之间的K-L散度被定义为

    DKL(PziC1|PzjC2)=ΣlPziC1(l)logPziC1(l)PzjC2(l)---(13)]]>

    其中分别对应于这两个分布中第l个三元语法的概率密度。就信息理论而言,KL散度实际上是两个视觉语言模型之间相互熵的测量。

    DKL(PziC1|PzjC2)]]>

    =-ΣlPziC1(l)logPzjC2(l)+ΣlPziC1(l)logPziC1(l)]]>

    =H(PziC1,PzjC2)-H(PziC1)---(14)]]>

    其中是两个分布的交叉熵,并且是的熵。根据吉布斯(Gibbs)不等式,当且仅当等于时,它为零。

    基于KL散度来定义JS散度,以定义这些视觉语言模型之间的距离度量(方程(15))。

    DJS(PziC1|PzjC2)=12DKL(PziC1|M)+12DKL(PzjC2|M)---(15)]]>

    M=12(PziC1+PzjC2)---(16)]]>

    其中M是和的平均。已经演示了詹森-香农散度的平方根是一个度量。鉴于此,在一个实施例中,可以将两个概念C1和C2之间基于图像的语义距离计算为在与概念C1的潜在主题VLM相关联的每个条件分布和与概念C2的潜在主题VLM相关联的每个条件分布之间计算的加权JS散度的总和的平方根,如下:

    D(C1,C2)=Σi=1KΣj=1KP(ziC1|C1)P(zjC2|C2)DJS(PziC1|PzjC2)---(17)]]>

    其中D(C1,C2)是语义距离量度,是表示给定C1的情况下潜在主题概率的加权因子,并且是表示给定C2的情况下潜在主题概率的加权因子。这些加权因子表示在与一概念相关联的各图像之间该概念的特定变化的重要性(概率或频率)。使用它们以使得所得语义距离量度受到被测量语义概念图像中更普遍的变化影响更大。

    1.4?给定概念外观变化的情况下基于图像的语义距离

    鉴于上文,可以实现基于图像的语义距离实施例以在计入概念外观变化的同时建立一对语义概念之间的基于图像的语义距离量度。这在图3的示例性实施例中概括地示出。参照图3基于与概念相关联的图像来计算每个语义概念的语义概念表示,其中各表示中的每个表示计入在用于计算该表示的图像中描绘的相关联的语义概念的外观的变化(300)。在某些实施例中,计算语义概念表示需要使用潜在主题视觉语言模型,该模型以所考虑的每个变化的条件分布的形式来捕捉外观变化的视觉特征,如上所述。一旦语义概念表示就绪,随后计算一对语义概念表示之间的差异度以产生语义距离量度,其中该计算需要计算与该对语义概念表示中的第一个相关联的每个外观变化和与该对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合(302)。在某些实施例中,后一任务涉及将差异度计算为在与该对语义概念中的第一个相关联的每个条件分布和与该对语义概念中的另一个相关联的每个条件分布之间计算的加权詹森-香农散度的总和的平方根。对于每个所计算的詹森-香农散度,加权可以基于与第一语义概念的条件分布相关联的图像中变化的重要性(概率或频率)以及与另一语义概念的条件分布相关联的图像中变化的重要性。

    2.0?视觉概念网络

    可以使用基于图像的语义距离来构建视觉概念网络。视觉概念网络(VCNet)是图G(V,E,W),其中概念是节点vi∈V,i=1,…,N且两个概念之间的语义关系是边e(vi,vj)∈E,i,j=1,…,N。节点之间基于图像的语义距离由边的长度(权重)表示,w∈W。如果两个概念具有大的基于图像的语义距离,则它们之间的边较长;否则较短。

    为了避免概念节点的重叠,可以采用力指向图布局技术。通常,节点之间的边可以表示为吸引力,而不共享边(tie)的节点被某种约束推开以便于防止重叠。

    VCNet在许多多媒体相关任务中是有用的,诸如知识表示、多媒体检索等等。这一概念网络以图形方式对概念关系进行建模。此外,它可以维护大得多并且不断增长的语料库。VCNet的最直接应用之一是概念群集。该任务旨在将图像标签中的概念或描述进行群集以帮助发现关于图像的主要主题和概要。使用VCNet,带有语义连接的概念更可能被群集在一起。VCNet的另一个应用是基于内容的web图像/视频注释,其中通用范例是通过分类来注释图像或视频帧。这是通过考虑概念是彼此独立的或者将概念关系结合到模型中来完成的。VCNet还具有许多其它可能应用,诸如查询扩展、注释细化等等。

    3.0?概念群集

    基于图像的语义距离还可以直接用于概念群集。概念群集广泛地用于文本领域中的主题检测和概要。存在与web图像相关联的许多标签和描述。概念群集方法通常使用这些标签和描述来检测这些图像的主要主题或概要。然而,图像中主题概要的焦点可以与文本焦点不同。例如,图像更可能聚焦在主要对象或场景上,而文本更多地聚焦在故事或作者观点上。因此,文本领域可用的概念距离量度可能不如视觉领域的特定距离量度一样表现良好。

    4.0?图像注释

    对图像的各概念进行自动注释在web图像检索和浏览中非常重要。现有技术中大多数图像注释方法以隔离方式检测多个语义概念,这忽视了概念可以相互关联的事实。注释过程的生产模型可以表示为方程(18)。

    w*=argmaxwVP(w,Iu)---(18)]]>

    其中w是注释关键词,w*是最适合关键词。Iu表示未标注图像。该注释过程等于联合概率P(w,Iu)的最大化。注释性能可以通过考虑概念关系而进一步提高。

    基于这一动机,提出双跨媒体相关模型(DCMRM)。该模型假设观察到注释关键词w和图像Iu的概率在给定关键词v的情况下是相互独立的,并且该相关模型被表示如下。

    w*=argmaxwVΣvVP(Iu|v)P(w|v)P(v)---(19)]]>

    其中w和v是两个注释关键词,P(Iu|v)表示在给定词v的情况下未标记图像Iu的概率。P(w|v)表示给定词v的情况下词w的概率?;谕枷竦挠镆寰嗬氡挥糜诩扑闾跫怕蔖(w|v)。

    5.0?计算环境

    现在将描述其中可实现本文所描述的基于图像的语义距离技术实施例的各部分的合适计算环境的简要、一般描述。各技术实施例可用于众多通用或专用计算系统环境或配置。适合的公知计算系统、环境和/或配置的示例包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。

    图4示出合适的计算系统环境的示例。计算系统环境仅为合适的计算环境的一个示例,并非旨在对本文所描述的基于图像的语义距离技术实施例的使用范围或功能提出任何限制。也不应将该计算环境解释为对示例性操作环境中示出的任一组件或其组合有任何依赖性或要求。参考图4,用于实现此处所描述的各实施例的示例性系统包括计算设备,诸如计算设备10。在其最基本的配置中,计算设备10通常包括至少一个处理单元12和存储器14。取决于计算设备的确切配置和类型,存储器14可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或是两者的某种组合。该最基本配置在图4中由虚线16来示出。另外,设备10还可具有附加特征/功能。例如,设备10还可包含附加存储(可移动和/或不可移动),包括但不限于磁盘、光盘或磁带。这样的附加存储在图4中由可移动存储18和不可移动存储20例示。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序??榛蚱渌莸刃畔⒌娜魏畏椒ɑ蚣际跏迪值囊资院头且资?、可移动和不可移动介质。存储器14、可移动存储18和不可移动存储20都是计算机存储介质的示例。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者可用于存储所需信息并且可由设备10访问的任何其它介质。任何这样的计算机存储介质可以是设备10的一部分。

    设备10还可包含使该设备能与其它设备进行通信的通信连接22。设备10还可以具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、照相机等输入设备24?;箍梢园ㄖ钊缦允酒?、扬声器、打印机等输出设备26。所有这些装置在本领域中都是众所周知的,因此不必在此详细讨论。

    此处所描述的基于图像的语义距离技术实施例还可在由计算设备执行的诸如程序??榈燃扑慊芍葱兄噶畹囊话闵舷挛闹忻枋?。一般而言,程序??榘ㄖ葱刑囟ㄈ挝窕蚴迪痔囟ǔ橄笫堇嘈偷睦?、程序、对象、组件、数据结构等。此处所描述的各实施例还能在其中任务由通过通信网络链接的远程处理设备完成的分布式计算环境中实现。在分布式计算环境中,程序??榭梢晕挥诎ù娲⑵鞔娲⑸璞冈谀诘谋镜睾驮冻碳扑慊娲⒔橹手?。

    6.0?其他实施例

    应当注意,可以按所需的任何组合来使用本说明书全文中的上述实施例的任一个或全部以形成另外的混合实施例。另外,尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。

    关于本文
    本文标题:基于图像的语义距离.pdf
    链接地址://www.4mum.com.cn/p-5875378.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • pk10计划软件那个最好 澳门押大小能不能赢钱 pc蛋蛋计划软件手机版 北京pk10最稳3码计划 重庆时时龙虎彩走势图 投注单打印软件 新疆时时计划全天 二中二公式表 118彩图跑狗图图今晚 大乐透50期走势图 山东时时开奖视频直播 彩票九365 七乐彩基本走势图500期 手机软件pk10直播开奖赛车网站 排列五跨度图 三分快三免费计划软件