• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩手机下载: 基于组示多示例学习模型的视频特定包含语义检测方法.pdf

    关 键 词:
    基于 组示多 示例 学习 模型 视频 特定 包含 语义 检测 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110087415.3

    申请日:

    2011.04.08

    公开号:

    CN102156686A

    公开日:

    2011.08.17

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 15/18申请日:20110408|||公开
    IPC分类号: G06F15/18; G06K9/62; H04N5/262 主分类号: G06F15/18
    申请人: 上海交通大学
    发明人: 蒋兴浩; 孙锬锋; 沈楚雄; 吴斌; 张善丰; 储曦庆; 樊静文
    地址: 200240 上海市闵行区东川路800号
    优先权:
    专利代理机构: 上海交达专利事务所 31201 代理人: 王锡麟;王桂忠
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110087415.3

    授权公告号:

    102156686B||||||

    法律状态公告日:

    2014.08.20|||2011.09.28|||2011.08.17

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    一种计算机视频处理技术领域的基于组示多示例学习模型的视频特定包含语义检测方法,包括:对视频按镜头进行连续分割,得到若干视频片段;使用ffmpeg工具,对每一个视频片段Sij,平均每段视频在相同的时间间隔中截取25张图片,用来截取图像描述子;使用视频的音频轨道提取有关音频的描述子,使用视频的截图组截取视频描述子,使用视频本身截取运动程度;对于每一组描述子,对其进行机器学习;前一步得到了经过机器学习之后的结果,将该学习结果与每一个目标视频的某一描述子进行欧式距离的计算,将所得到的最小值作为目标视频在该描述子的描述下,与源视频的接近程度。

    权利要求书

    1.一种基于组示多示例学习模型的视频特定包含语义检测方法,其特征在于,包括以下步骤:第一步:对视频按镜头进行连续分割,得到若干视频片段;第二步:使用ffmpeg工具,对每一个视频片段Sij,平均每段视频在相同的时间间隔中截取25张图片,用来截取图像描述子;第三步:使用视频的音频轨道提取有关音频的描述子,使用视频的截图组截取视频描述子,使用视频本身截取运动程度;第四步,对于每一组描述子,对其进行机器学习;第五步:前一步得到了经过机器学习之后的结果,将该学习结果与每一个目标视频的某一描述子进行欧式距离的计算,将所得到的最小值作为目标视频在该描述子的描述下,与源视频的接近程度。2.根据权利要求1所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的第一步,具体步骤包括:1.1)将源视频组重新命名,对其中的第i个场景命名为Vi;1.2)目标视频重新命名为T;1.3)格式化视频,使用ffmpeg工具,使得源视频组和目标视频都转化为25帧每秒的avi格式视频;1.4)根据镜头的连续性,将源视频组Vi和目标视频T都按照镜头的连续性分割,当被分割的数据段不到一秒,将该视频数据与前一个镜头合并;该步所得到的视频,重命名为Sij。3.根据权利要求2所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的源视频组,为选定的基础视频组,这些视频包含了相似的内容,根据这些视频来判断目标视频是不是包含同样的内容;所述的目标视频,为未知内容的一个视频,该视频将会被用来判断与源视频组在内容上的相关性以及相似性,从而确定该视频在内容上包含什么样的内容。4.根据权利要求1所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的描述子为Di,1≤I≤n,通过标准MPEG描述子生成软件提取,该描述子使用等长的向量来表示,一个描述子表示为一个n维空间中的一个点。5.根据权利要求1所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的第四步具体步骤包括:4.1)将提取的描述子向量作为正包数据,随机生成描述子向量作为反包数据,将随机10%的正包数据描述子向量作为起始点,计算通过这些起始点,正包数据,反包数据,调用LR-MD-EMDD算法,能够得到一组源视频的特征点;该特征点集为改组视频所包含的共同特征;4.2)输出为对于每一个特征Fi(Feature)所对应的特征点集(Point?Set)Xi(1≤I≤20)的欧氏距离Di,对于每个Di,对应的一个权重μi;4.3)系统存储该数据,为下一步作比对。6.根据权利要求5所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的正包数据是指:符合特征视频按照该特征出现的程度大小来打分,并标记为正包数据;所述的反包数据是指:多种已经标记了的视频的描述子,标记指的是将不符合某种特征的视频。7.根据权利要求1所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的第五步具体步骤包括:5.1)对应有n个描述子;取10%的正包数据的特征点为起始点,调用EMDD算法,计算第i个描述子的最大分布密度点集;该点集表示为maxDDj[k];5.2)对于第i个示例的第j个特征点Xij,计算该特征点与该特征空间最大分布密度点集的欧氏距离,这些距离的最小值为:dij=min0knED(xij,maxDDj[k])]]>其中,dij表示xij与最大多样性密度点之间的欧氏距离;5.3)确定K,定义Aj(AverageValue)为最小的k个dij的平均值,k=1;对于第i个示例组(Grouped?Instance),定义一个变量Di,定义为:Di=Σp=1Nμp*Ap]]>其中:μ={μ1,...,μN}为权重系数,通过最大拟合,选定μi使得该值在进行测试检验时能够使得整个测试集;5.4)重复步骤5.1-步骤5.3若干次,调整变量maxDDj[k],μj使得多次的平均错误最小,输出为:dij,μi。

    说明书

    基于组示多示例学习模型的视频特定包含语义检测方法

    技术领域

    本发明涉及的是一种计算机视频处理技术领域的方法,具体是一种基于MGIL(Multiple?Grouped?Instance?Learning组示多示例学习)模型的视频特定包含语义检测方法。

    背景技术

    在当今网络盛行的大环境下,网络视频已经成为了众多网络用户生活中必不可少的部分。在网络上,土豆、优酷、Youtube等视频网站为用户提供了各种五彩斑斓的视频节目;电影电视已经成为了全世界人们最不可或缺的休闲方式,已经形成的良好的经济循环。但是,在实际操作中,有些视频不适合在网站发布。这些视频以及电视节目对于青少年的发展可能会产生不利的影响。同时,由于有些视频是受版权?;さ?,这些视频需要特殊处理,以防止网站的版权侵犯?;谖淖值哪谌萆秆∫约跋嗨菩耘卸弦丫冉铣墒?,但不借助于文字描述,直接根据视频内容本身判断该内容是否与给定的视频组有相似的内容还尚且没有高效而又准确的方法进行判断。

    机器学习是人工智能的一个领域,主要是开发一些让计算机自己“学习”的技术。通过学习,可以部分程度上代替人类来做出判断。而从例子中学习(Learning?From?Examples)被很多专家认为是最有潜力的一种机器学习方法。

    多示例学习是在包的粒度对样本进行标记,而每个包中包含若干个示例,示例并无标记。若某个包被标记为正包数据,则该包中至少有一个正示例;反之,若某个包被标记为负包,则该包中的所有示例为负示例。多示例学习的目的就是通过对这些标注的包学习,尽可能准确地对新的包做出判断。由于多示例学习具有独特的性质和广泛的应用前景,因此在国际机器学习和人工智能领域引起了极大的反响,被认为是很有潜力的学习框架。

    LR-MD-EMDD(Labeled?with?Ranking-Multiple?Distance-Expectation?Maximization-Diversity?Density基于排名的多距离期望最大化多样性密度算法)是一个多示例学习算法,输入为正包数据于反包数据的多个种类的描述子,以及各个正包数据的权重。输出为每个描述子的概念点以及该概念点在每个维度上所占的比重(EMDD),以及每个描述子在整个描述子群中所占的比例。该算法接受描述同一段视频的不同种类描述子,输出为该种类描述子的概念点(Concept?Point)以及该描述子在整体描述子中所占的比重。不同于标准的EMDD算法,该算法使用数字量化的正包数据学习,而不是单纯的使用正负来表示是否含有该特征。

    经对现有文献检索发现,中国专利申请号03148305.4,名称为“一种基于内容的视频片段检索方法”使用了相似片段的检测,通过最大匹配的Hungarian算法,完成对相似片段的匹配。该方法是一种视频的相似性判断方法,并且包含了检索功能,但是,该方法对于视频的声音部分没有经过考虑,同时,该方法由于用来检测以及检索视频,没有提供一种有效的方法为视频自动分类。

    中国专利申请号200610140834.8,名称为“视频内容分析系统”该方法接受了提取出镜头信息、镜头关键帧信息、场景信息、场景关键帧信息、关键帧图像信息以及人脸信息。该方法对于视频这一种格式没有进行进一步优化,而将主要精力放在了存储格式上。同时该方法使用了关键帧的处理方法,这样有可能会导致有效信息的丢失。

    发明内容

    本发明针对现有技术存在的上述不足,提供一种基于组示多示例学习模型的视频特定包含语义检测方法,使用多示例学习的方法,将多示例学习的算法EMDD为视频这种复杂的数据结构进行优化。通过对源视频的处理和学习,使得对于每一个输入的目标视频,都可以自动得到该视频与源视频的相似性数据。该发明可以自动的生成相似性数据报告,据此告诉使用者输入的源视频组和目标视频在内容上有多相似。

    本发明是通过以下技术方案实现的,本发明通过接受一组源视频以及一个目标视频,通过对这些视频进行分割,截取描述子,学习,以及学习结果与目标视频描述子进行比对,得到目标视频与原视频组在内容上的相似度。该方法通过对使用了LR-MD-EMDD算法,该算法接受描述同一事物的多个描述子,这些描述子从不同方面描述了该事物的特征。该算法能够在不显著增加EMDD运算时间的情况下,综合不同描述子所给出的数据,能够给出一个全方位的,更为准确的概念点数据。

    本发明具体包括以下步骤:

    第一步:对视频按场景进行连续分割,得到若干视频片段,具体步骤包括:

    1.1)将源视频组重新命名,对其中的第i个场景命名为Vi(Video)。

    1.2)目标视频重新命名为T(Test?Video)。

    1.3)格式化视频,使用ffmpeg工具,使得源视频组和目标视频都转化为25帧每秒的avi格式视频。

    1.4)根据镜头的连续性,将源视频组Vi和目标视频T都按照镜头的连续性分割,当被分割的数据段不到一秒,将该视频数据与前一个镜头合并。该步所得到的视频,重命名为Sij(Scene)

    所述的源视频组,为选定的基础视频组,这些视频包含了相似的内容,根据这些视频来判断目标视频是不是包含同样的内容。

    所述的目标视频,为未知内容的一个视频,该视频将会被用来判断与源视频组在内容上的相关性以及相似性,从而确定该视频在内容上包含什么样的内容。

    第二步:使用ffmpeg工具,对每一个视频片段Sij,平均每段视频在相同的时间间隔中截取25张图片,用来截取图像描述子。

    所述的图片以Jpeg格式保存。

    第三步:使用视频的音频轨道提取有关音频的描述子,使用视频的截图组截取视频描述子,使用视频本身截取运动程度(Motion?Level)。

    所述的特征Fi(Feature),1≤I≤n,通过标准MPEG描述子生成软件提取,该描述子使用等长的向量来表示,一个描述子表示为一个n维空间中的一个点。

    第四步,对于每一组描述子,对其进行机器学习,具体步骤包括:

    4.1)将提取的描述子向量作为正包数据,随机生成描述子向量作为反包数据,将随机10%的正包数据描述子向量作为起始点,计算通过这些起始点,正包数据,反包数据,调用LR-MD-EMDD算法,能够得到一组源视频的特征点。该特征点集为改组视频所包含的共同特征。

    所述的正包数据是指:符合特征视频按照该特征出现的程度大小来打分,并标记为正包数据。

    所述的反包数据是指:多种已经标记了的视频的特征,标记指的是将不符合某种特征的视频。

    4.2)输出为对于每一个特征Fi(Feature)所对应的特征点集(Point?Set)Xi(1≤I≤20)的欧氏距离Di,对于每个Di,对应的一个权重μi(Weight)。

    4.3)系统存储该数据,为下一步作比对。

    第五步:前一步得到了经过机器学习之后的结果,将该学习结果与每一个目标视频的某一描述子进行欧式距离的计算,将所得到的最小值作为目标视频在该描述子的描述下,与源视频的接近程度,具体步骤包括:

    5.1)对应有n个描述子。取10%的正包数据的特征点为起始点,调用EMDD算法,计算第i个特征的最大DD(Diverse?Density分布密度)点集。该点集表示为maxDDj[k]。

    5.2)对于第i个示例(Instance)的第j个特征点Xij,计算该特征点与该特征空间最大DD(Diverse?Density分布密度)点的欧氏距离,这些距离的最小值为

    dij=min0knED(xij,maxDDj[k])]]>

    其中,dij表示xij与最大多样性密度点之间的欧氏距离。

    5.3)确定K,定义Aj(Average?Value)为最小的k个dij的平均值。在以下的使用中如无特殊说明,k=1。

    对于第i个示例组(Grouped?Instance),定义一个变量Di,定义为:

    Di=Σp=1Nμp*Ap]]>

    其中μ={μ1,...,μN}为权重系数,通过最大拟合,选定μi使得该值在进行测试检验时能够使得整个测试集。

    5.4)重复步骤5.1-步骤5.3若干次,调整变量maxDDj[k],μj使得多次的方差收敛,输出为:dij,μi。

    附图说明

    图1是使用本发明的步骤说明。

    图2是本发明源视频组学习过程的步骤说明。

    图3是本发明目标视频的相似性判断过程的步骤说明。

    具体实施方式

    下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的?;し段Р幌抻谙率龅氖凳├?。

    如图1-如图3所示,本实施例包括以下步骤:

    第一步,划分视频。具体步骤为:

    i.制作数据库

    该步骤本质上就是选取拥有相同内容的视频。在本实施例中,选取了250个经调查和统计包含有特定语义的视频,以改组视频为例,比较一些未知的目标视频,它们与这部分视频的接近程度。

    第二步:视频转图像

    由于视频的格式各不相同,首先先使用ffmpeg进行格式的转换,可以得到所选的视频的统一格式文件。在本发明中,使用了avi格式作为本步操作的目标文件。

    本步使用工具:ffmpeg使用代码行:ffmpeg-i[SRC][DEST]

    按照场景将视频分割成若干段(不超过15)。

    对于每一个小段,保证长度超过一秒,当一个场景不超过1秒就与前面或后面的场景相连。(本步骤的特例在于保证每一个视频小段超过25帧)。

    第三步,提取描述子

    使用视频的音频轨道提取有关音频的描述子,使用视频的截图组截取视频描述子,使用视频本身截取运动程度(Motion?Level)。描述子提取工具:在本发明中使用标准MPEG描述子生成软件,提取了所有能够使用的描述子,作为以后的测试凭据。

    描述子有:

    a)Dominant?Color(主导颜色)

    b)Color?Layout(颜色分布)

    c)Color?Structure(颜色结构)

    d)Scalable?Color(可测量颜色)

    e)Homogeneous?Texture(相同纹理)

    f)Edge?Histogram(边缘直方图)

    g)Audio?Fundamental?Frequency(音频基础频率)

    h)Audio?Harmonicity(音频调和)

    i)Audio?Signature(音频签名)

    j)Audio?Spectrum?Centroid(音频频谱中心)

    k)Audio?Spectrum?Distribution(音频频谱分布)

    l)Audio?Spectrum?Spread(音频频谱扩散)

    m)Background?Noise?Level(背景声强度)

    n)Band?Width(带宽)

    o)Dc?Offset(直流偏置校正)

    p)Harmonic?Spectral?Centroid(谐波频谱质心)

    q)Harmonic?Spectral?Deviation(谐波频谱偏差)

    r)Harmonic?Spectral?Spread(谐波频谱扩散)

    s)Harmonic?Spectral?Variation(谐波频谱变化)

    t)运动程度(Motion?Level)(运动)

    第四步:调用LR-MD-EMDD算法。具体过程是:

    i.获取EMDD算法(获取地址:lamda.nju.edu.cn)

    ii.为该程序增加接口,从文本中得到关于描述子的内容以便机器学习过程。

    最后将EMDD算法所得出的概念点储存入文件中。使用类似SVM文件的存储格式。具体为:

    “[标号][p][Maxpoint][数据][s][Maxscale][数据]”

    第五步:相似性比较。具体过程是:

    i.筛选所使用的描述子。挑选5个效果好的描述子作为最终数据库的入选描述子。

    经过测试这五个描述子作为最终测试使用的描述子:

    a)Motion(运动程度)

    b)Color?structure(颜色)

    c)Audio?Signature(音频特征)

    d)Audio?Fundametal?Frequency(音频基础)

    e)Audio?Spectrum?Spread(音频频谱宽度)

    ii.对于每一个描述子,读取所有学习到的Concept?Point并且对每一个视频小段,计算小段视频与概念点的欧式距离。取最小的n个距离储存。在本实施例中取n=3。将最小的n个距离取平均值。将该值作为该目标视频与源视频组在该描述子下的相似程度。通过对多段目标视频的测试,对于每一组描述子Di,进行规格化处理:将其中的最大值作为1,其余的值按照该比例进行规格化,对于这五个描述子,以均匀的权重进行加权处理,所得到的规格化后的值为总体视频相似度。

    本实施例中的视频相似性比较主要基于视频内容的内在相似性。对于其他主题的视频,可以使用相同的方法,采取不同的数据库,进行学习。使用该方法,可以获得较高的正确率,并且性能相对SVM更好,能够得到与EMDD相似的时间效率。

    在学习的过程中,本实施例使用了所有的MPEG-7所规定的描述子。经过多种测试,最终确定了效果最好的多个描述子。优化了结果。

    本实施例中使用了基于多示例学习的方法,可以不用为视频中的每个示例做标记,从而降低了人工时间的消耗。随着数据库的增大,所消耗的时间增加幅度不大。保证了更新数据库学习新概念点的时间消耗的长度。

    本实施例中,由于使用以一个场景作为一个组来处理,这样就避免有一些细节的丢失,同时也尽量的缩减了需要查看的帧数。同时,由于这个部分的处理与整体是分离的,可以不用担心由于这一步的改动而产生的不同影响。

    由于本身不加入人工检验的因素,所以不会因为人认知能力的局限而造成误判,并且,该方案的改进潜力巨大。

    关于本文
    本文标题:基于组示多示例学习模型的视频特定包含语义检测方法.pdf
    链接地址://www.4mum.com.cn/p-5866278.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 股票行情002497 股票融资l鑫配资密封带 海王捕鱼账号出售 微信彩票投诉 赛马会料网站 广西快乐十分官网 北京十一选五遗漏排行 彩票大奖符 股票指数在哪里看 广西十一选五历史开奖结果查询 娱乐场事故视频 欢乐捕鱼人手机版 内蒙古快三根号 短线股票推荐 北京快中彩玩法介绍 nba排名2018最新排名