• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 8
    • 下载费用:30 金币  

    重庆时时彩送彩金28: 一种多视角阶段式的图像聚类方法.pdf

    关 键 词:
    一种 视角 阶段 图像 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110191264.6

    申请日:

    2011.07.08

    公开号:

    CN102253996A

    公开日:

    2011.11.23

    当前法律状态:

    终止

    有效性:

    无权

    法律详情: 未缴年费专利权终止IPC(主分类):G06F 17/30申请日:20110708授权公告日:20130821终止日期:20140708|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110708|||公开
    IPC分类号: G06F17/30; G06K9/62 主分类号: G06F17/30
    申请人: 北京航空航天大学
    发明人: 骆俊武; 郎波; 程波; 李未
    地址: 100191 北京市海淀区学院路37号
    优先权:
    专利代理机构: 北京科迪生专利代理有限责任公司 11251 代理人: 李新华
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110191264.6

    授权公告号:

    |||102253996B||||||

    法律状态公告日:

    2015.09.02|||2013.08.21|||2012.04.11|||2011.11.23

    法律状态类型:

    专利权的终止|||授权|||实质审查的生效|||公开

    摘要

    一种多视角阶段式的图像聚类方法:(1)通过爬虫程序从Web页面上获取海量图像,并对图像的描述信息进行预处理得到相应的文档集。(2)离线提取出图像集的视觉特征和文档集的语义特征,将结果持久化到文件或者数据库。(3)针对图像检索引擎中用户的某次具体查询,基于已提取的特征,采用阶段式的图像聚类算法,对检索结果进行动态聚类,并为每个聚类提取出主题关键字,作为类标签,重新组织结果后返回给用户。

    权利要求书

    1.一种多视角阶段式的图像聚类方法,其特征在于步骤如下:
    (1)通过爬虫程序从Web页面上获取海量图像集,并进一步根据图像的
    描述信息及图像所在页面的上下文信息,得到相应的文档集;
    (2)离线提取出图像集的视觉特征和文档集的语义特征,将结果持久化到
    文件或者数据库;
    (3)针对图像检索引擎中用户的某次具体查询,基于已提取的特征,采用
    阶段式的图像聚类算法,对检索结果进行动态聚类,并为每个聚类提取出主题
    关键字,作为类标签,重新组织结果后返回给用户。
    2.根据权利要求1所述的一种多视角阶段式的图像聚类方法,其特征在
    于:所述的步骤(2)进一步包括:
    (2a)训练阶段:将所有文档集当作背景语料进行训练,通过分词、特征
    选择后筛选出有代表性的词作为特征词库;
    (2b)提取阶段:对前景语料进行分词后,筛选出特征词库中存在的词,
    然后计算它们的TFIDF,即Term?Frequency/Inverted?Document?Frequency值作为
    权重,并采用Vector?Space?Model即VSM模型表示,再经过降维处理后形成最
    终的语义特征向量。
    3.根据权利要求1所述的一种多视角阶段式的图像聚类方法,其特征在于:
    所述的步骤(3)进一步包括:
    (3a)假设需要将N个数据划分k类,当k已知时,则:
    (i)第1阶段离群点的剔除:计算N个数据两两之间的距离dij,以及数据
    i与其他数据的距离总和Pi,假设Pi服从高斯分布N(μ,δ2),分别以样本均值和
    标准偏差作为总体均值和总体标准差的估计值,将Pi>μ+2σ的数据点作为离群
    点剔除;
    (ii)假设剔除离群点后剩余的数据总数为M,首先采用随机抽样方法
    生成初始聚类中心,再采用K-Means算法将M个数据划分成m个子类,其中
    m = max ( 2 * k , M ) ; ]]>
    (iii)在m个子类上,执行CURE算法,基于最小距离原则不断地合并相
    距最近的两类,直到聚类数目为1.5*k时终止;
    (iv)第2阶段离群点的剔除:统计每类数目Ci,假设Ci服从高斯分布
    N(μ,δ2),以样本均值和标准偏差作为总体均值和总体标准差的估计值,将
    Ci<μ-2σ的类中的所有数据点作为离群点剔除;
    (v)再次执行步骤(iii),直到聚类数目为k时终止,再基于最小距离原
    则,将离群点划分到相距最近的类中;
    (vi)基于TFIDF和信息熵的线性组合模型,为每类提取出主题关键字
    作为类标签;
    (3b)假设需要将N个数据划分k类,当k未知时,定义如下有效性准则
    函数:
    V K = Σ j = 1 N Σ i = 1 k [ | | x j - v i | | 2 ] + 1 k Σ i = 1 k | | v i - v | | 2 min i k | | v i - v k | | 2 ]]>
    其中xj表示第j个数据点,vi表示第i类的中心点,v为k个中心点的平均值,
    ||||表示模长;
    (i)确定聚类数k的范围,其中N为数据集大??;
    (ii)采用穷举方法,对分别执行(3a)中的所有步骤,并计
    算出上述有效性准则函数值Vk;
    (iii)作出有效性准则函数值Vk的曲线图,取Vk出现拐点时的k作为最
    终的类别数。

    说明书

    一种多视角阶段式的图像聚类方法

    技术领域

    本发明是在数据挖掘的范畴下,借助图像处理,自然语言处理,数据聚类
    等方法提出的一种图像聚类方法。

    背景技术

    随着Intemet的发展以及网络带宽和终端计算能力的不断增强,图像被越
    来越多地运用于内容的表达和信息的承载上,传统的图像搜索引擎是基于关键
    字检索的,由于自然语言的多义性,检索的结果往往不能令用户满意,另外,
    大量不同主题的搜索结果被统一地以缩略图或摘要的形式展现出来,用户需要
    花费大量的时间定位自己所需要的图像。

    多视角阶段式的图像聚类方法就是为了解决这一问题而提出,它充分地利
    用图像的视觉及语义等多模态特征,采用改进的划分和层次两阶段聚类算法,
    来挖掘图像之间的深层关系并重新组织检索结果,帮助用户更方便地浏览相关
    图像,从而加快用户搜索目标图像的速度。

    发明内容

    本发明要解决的技术问题:如何对图像检索引擎的查询结果进行动态聚类,
    生成有主题意义的类别,为用户搜索目标图像提供方便。

    本发明采用的技术方案:一种多视角阶段式的图像聚类方法。其特征在于
    步骤如下:

    (1)通过爬虫程序从Web页面上获取海量图像集,并进一步根据图像的
    描述信息及图像所在页面的上下文信息,得到相应的文档集;

    (2)离线提取出图像集的视觉特征和文档集的语义特征,将结果持久化到
    文件或者数据库;

    (3)针对图像检索引擎中用户的某次具体查询,基于已提取的特征,采用
    阶段式的图像聚类算法,对检索结果进行动态聚类,并为每个聚类提取出主题
    关键字,作为类标签,重新组织结果后返回给用户。

    根据本发明的又一个方面,其中步骤(2)又进一步包括:

    (2a)训练阶段:将所有文档集当作背景语料进行训练,通过分词、特征
    选择后筛选出有代表性的词作为特征词库;

    (2b)提取阶段:对前景语料进行分词后,筛选出特征词库中存在的词,
    然后计算它们的TFIDF值作为权重,并采用VSM模型表示,再经过降维处理
    后形成最终的语义特征向量。

    根据本发明的又一个方面,其中步骤(3)又进一步包括:

    (3a)假设需要将N个数据划分k类,当k已知时,则:

    (i)第1阶段离群点的剔除:计算N个数据两两之间的距离dij,以及数据
    i与其他数据的距离总和Pi,假设Pi服从高斯分布N(μ,δ2),分别以样本均值和
    标准偏差作为总体均值和总体标准差的估计值,将Pi>μ+2σ的数据点作为离群
    点剔除;

    (ii)假设剔除离群点后剩余的数据总数为M,首先采用随机抽样方法
    生成初始聚类中心,再采用K-Means算法将M个数据划分成m个子类,其中
    m = max ( 2 * k , n ) ; ]]>

    (iii)在m个子类上,执行CURE(Clustering?Using?Representatives)算
    法,基于最小距离原则不断地合并相距最近的两类,直到聚类数目为1.5*k时
    终止;

    (iv)第2阶段离群点的剔除:统计每类数目Ci,假设Ci服从高斯分布
    N(μ,δ2),以样本均值和标准偏差作为总体均值和总体标准差的估计值,将
    Ci<μ-2σ的类中的所有数据点作为离群点剔除;

    (v)再次执行步骤(iii),直到聚类数目为k时终止,再基于最小距离原
    则,将离群点划分到相距最近的类中;

    (vi)基于TFIDF和信息熵的线性组合模型,为每类提取出主题关键字
    作为类标签;

    (3b)假设需要将N个数据划分k类,当k未知时,定义如下有效性准则
    函数:

    V K = Σ j = 1 n Σ i = 1 c [ | | x j - v i | | 2 ] + 1 c Σ i = 1 c | | v i - v | | 2 min i k | | v i - v k | | 2 ]]>

    其中xj表示第j个数据点,vi表示第i类的中心点,v为k个中心点的平均值,
    ||||表示模长;

    (i)确定聚类数k的范围,其中N为数据集大??;

    (ii)采用穷举方法,对分别执行(3a)中的所有步骤,并计
    算出上述有效性准则函数值Vk.

    (iii)作出有效性准则函数值Vk的曲线图,取Vk出现拐点时的k作为
    最终的类别数。

    附图说明

    图1为阶段式多视角的图像聚类方法结构图;

    图2为两阶段聚类算法的基本流程图。

    具体实施方式

    下面参考附图1,对本发明的实施例进行详细的说明。

    研究表明,传统的图像搜索引擎是基于关键字检索的,由于自然语言的多
    义性,检索的结果往往不能令用户满意,另外,大量不同主题的搜索结果被统
    一地以缩略图或摘要的形式展现出来,用户需要花费大量的时间定位自己所需
    要的图像。这就有必要提出一种聚类方法来挖掘图像之间的深层关系并重新组
    织检索结果,帮助用户更方便地浏览相关图像,从而加快用户搜索目标图像的
    速度。

    具体而言,本发明所提出的聚类方法如图1所示。

    本发明主要包括的核心思想:充分利用图像的视觉及语义等多模态特征,
    借助图像处理,自然语言处理,数据聚类等方法,对用户的查询结果进行动态
    聚类并重新组织结果。

    首先对web图像进行预处理,得到图像集和相应的文档集;然后,分别借
    助图像处理技术和自然语言处理技术提取出图像的视觉特征和语义特征;最后,
    对于用户的具体查询结果,基于已提取的特征和本发明的阶段式聚类算法进行
    动态聚类,并为每类提取出主题关键字作为类标签,重新组织结果后返回给用
    户。

    本发明所提出的阶段式聚类算法基本流程如图2所示,在描述该算法前先
    定义如下变量:

    1.设N是图像数据集的大??;

    2.设k是最终的聚类数;

    3.设dij是数据i和数据j之间的距离;

    4.设Pi是数据i到其他数据的距离总和;

    5.设Ci是第i个聚类的数据总数;

    6.设M是第一阶段剔除离群点后剩余的数据总数;

    6.设m是执行K-Means聚类后得到的子类数;

    7.设fij是词tj在类si中的加权频率;

    8.设F(tj)和E(tj)分别为词tj的TFIDF值和信息熵。

    本发明的算法描述如下:

    1.第1阶段离群点的剔除:计算N个数据两两之间的距离dij,以及数据i
    与其他数据的距离总和Pi,假设Pi服从高斯分布N(μ,δ2),分别以样本均值和标
    准偏差作为总体均值和总体标准差的估计值,将Pi>μ+2σ的数据点作为离群点
    剔除;

    2.采用随机抽样方法生成m个初始聚类中心,采用K-Means算法将剔除
    离群点后剩余的数据划分成m个子类,其中

    3.在m个子类上,执行CURE算法,基于最小距离原则不断地合并相距
    最近的两类,直到聚类数目为1.5*k时终止;

    4.第2阶段离群点的剔除:统计每类数目Ci,假设Ci服从高斯分布
    N(μ,δ2),以样本均值和标准偏差作为总体均值和总体标准差的估计值,将
    Ci<μ-2σ的类中的所有数据点作为离群点剔除;

    5.再次执行步骤(3),直到聚类数目为k时终止,再基于最小距离原则,将
    离群点划分到相距最近的类中;

    6.基于TFIDF和信息熵的线性组合模型,为每类提取出主题关键字作为类
    标签,其中TFIDF和信息熵的计算公式如下:


    E(tj)=-fji×log(fji)

    计算词tj两种属性值后,将它们进行线性加权得到最终的词语权值。按照
    该权值从大到小排序,取最高值的几个关键词作为该类的主题关键词。

    P(tj)=a×F(tj)+b×E(tj)

    其中,a,b的取值可根据具体的应用系统调整,满足a+b=1.

    对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此,
    具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例
    性实施例。因此,在不脱离由随后权利要求及其等价体所定义的一般发明构思
    的精神和范围的情况下,可对其作出各种修改。

    关于本文
    本文标题:一种多视角阶段式的图像聚类方法.pdf
    链接地址://www.4mum.com.cn/p-5878492.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 彩票站赚钱 辽宁快乐12开奖结果走势图大乐迁 脉动棋牌河南人的游戏 赛马会 捕鱼来了弹头怎么获得 辽宁快乐12基本走势图 21点玩法简介 608彩票首页 福建快三开奖走势图 云南体育彩票 七乐彩和值走势图 大发彩票群 六合图库下载官网 河南快赢481最近30期 福彩3d试机号走势图彩票助手 广东时时彩11选5直播