• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 14
    • 下载费用:30 金币  

    重庆时时彩购买平台: 基于视觉词汇表与多特征匹配的SKYLINE的医学大数据检索方法.pdf

    关 键 词:
    基于 视觉 词汇表 特征 匹配 SKYLINE 医学 数据 检索 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611150453.8

    申请日:

    2016.12.14

    公开号:

    CN106777090A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161214|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 大连交通大学
    发明人: 李媛媛; 季长清; 肖鹏; 邓武; 张雪; 杨书惠
    地址: 116028 辽宁省大连市沙河口区黄河路794号
    优先权:
    专利代理机构: 大连智高专利事务所(特殊普通合伙) 21235 代理人: 毕进
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611150453.8

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方法,属于智慧医疗与大数处理交叉领域,该系统将度量空间Skyline查询应用到基于内容的医学图像检索技术当中,技术要点是:提取医学图像的SIFT、Color等特征数据,利用分布式Skyline操作对图像的多个底层特征进行融合,每个特征相似度都作为Skyline的评价目标,返回的结果是与查询图像在多维特征上都比较相似或某一维特征极其相似的候选图像,最后利用云计算的Spark系统进行流氏处理,并实时得到查询或处理结果。效果是:在用户端获取到图片的相应信息上传并保存到云端服务器,然后云端服务器进行处理,得到最佳的医学图像聚类方案并反馈给用户。

    权利要求书

    1.一种基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方法,其特征在于,
    包括如下步骤:
    S1.提取医学图像的底层特征,分别对底层特征集合进行聚类,构建视觉词汇表,以此,
    将图像库中的图像量化为一个视觉单词出现频率的向量,得到分区特征向量;
    S2.计算查询图像和图像库中的任意图像在每个特征上的相似度距离,以构造不同特
    征的图像相似度向量;
    S3.调用基于Skyline的多特征融合方法进行分布式检索计算决策。
    2.如权利要求1所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方
    法,其特征在于,所述步骤S1.提取医学图像的特征数据,给定一个查询图像,提取该图像的
    底层特征,包括如下步骤:
    S1.1.Color特征的提??;
    S1.2.SIFT特征的提??;
    S1.3.构建视觉词汇表;
    S1.4.图像量化表示。
    3.如权利要求1所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方
    法,其特征在于,所述步骤S2中构造不同特征的图像相似度向量的方法是:一个包含n幅医
    学图像的图像库和查询图像q,医学图像被表达为特征向量,查询图像q和图像库I
    中的任意图像oi在第t个特征上的相似度距离,其表示为两向量的L1距离:

    其中表示图像oi的第t个特征描述子向量,是图像oi的第t维底层特征的k维向量;
    基于公式1.3,得到查询医学图像q和医学图像库I中的任意图像oi在每个特征上的相似
    度距离,图像q和oi的相似度向量如定义1.2所示:
    定义1.2:设为包含n幅图像的图像库,q为查询图像,查询图像q与图像库I中任
    意图像oi的相似度向量表示为m维向量:
    Vecti(oi,q)=<dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>
    其中i∈[1,n],m表示底层特征数目,Vecti(oi,q)表示图像q与图像oi的相似度向量,
    dist(oi.xk,q.xk)表示两幅图像第k(k≤m)维特征的相似度距离;图像库I中的所有图像分
    别与查询图像q在各维特征上计算相似度距离,构造生成n个相似度向量。
    4.如权利要求1所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方
    法,其特征在于,所述步骤S3的具体方法:
    给定一个包含n幅图像的医学图像库和一幅查询图像q,集合R为多特征融合方
    法的查询结果,对于每幅图像的m个底层特征向量
    当一幅图像oi∈R,当且仅当满足如下条件:

    则R集合包含了与查询图像q在X向量空间上相似度向量 Vecti(oi,q)=<dist(oi.x1,
    q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>不被医学图像库I上的其他任何图像相
    似度向量支配的所有图像的集合。
    5.如权利要求4所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方
    法,其特征在于,基于Skyline的多特征融合方法的结果集是医学图像库的子集,且在多特
    征度量空间中不被图像集里任意图像所支配的图像集合,查询图像q与任意图像oi的SIFT
    和Color特征相似度距离值构成点,点的横坐标表示图像o1与查询图像q之间SIFT特征的相
    似度距离,纵坐标表示图像o1与查询图像q之间Color特征的相似度距离,该所述相似度距
    离在多特征度量空间上都是基于词袋模型计算得到的,相似度距离越小,两者之间越相似。
    6.如权利要求5所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方
    法,其特征在于,使用Spark进行流处理,将流式计算分解成一系列短小的批处理作业,逐渐
    融合与决策结果推荐。
    7.如权利要求2所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方
    法,其特征在于,步骤S1.1.Color特征的提取的方法如下:
    Color特征用颜色属性CN描述子来表示,由红、黑、蓝、绿、褐、灰、粉、橙、白、紫、黄色颜
    色组成,把颜色属性CN定义为一个11维的变量,为图像中所有像素赋予一个颜色属性标签,
    此标签作为Skyline多因素分析的一个主因素,采用Spark进行流处理,结 果逐渐完善与输
    出。
    8.如权利要求2所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方
    法,其特征在于,步骤S1.2.SIFT特征的提取的方法如下:
    由检测特征点和描述特征点两部分组成,对原始图像进行尺度转换,得到图像的尺度
    空间表示序列,然后对图像进行处理得到特征点,采用128维的描述子向量来表示特征点,
    得到共128维的SIFT特征向量,用SIFT特征提取过程中生成的特征点,将特征点及其所在的
    周围区域作为局部区域,提取局部区域中的每个像素的CN向量,得到SIFT和CN局部特征向
    量,此向量作为Skyline多因素分析的一个主因素,采用Spark进行流处理,结果逐渐完善与
    输出。
    9.如权利要求2所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方
    法,其特征在于,步骤S1.3.构建视觉词汇表的方法如下:
    通过基于Spark的多层聚类算法k-means及其变种以及过采样修正,利用Spark系统,对
    图像库中的图像进行流式训练,并分别为SIFT和Color特征向量逐步生成视觉词汇表,生成
    视觉词汇表时,使用先切分数据,并用Spark系统,以流的方式进行分布式处理,并递增导出
    结果集;
    其中,多层k-means聚类算法是在一些维度的特征点集合X={x1,x2,...,xn}中寻找k个
    聚类中心C={c1,c2,...,ck},使每个特征点到所在簇中心的平方误差和最??;这些聚类中
    心将X划分成k个不相交 的簇Y={Y1,Y2,...,Yk},使得对于任意的1≤i≠j≤k,
    对于一个簇Yi,它的中心点为:

    其中,过采样修正算法是利用一个SparkSpark作业来进行中心点选择和全局误差的计
    算(与传统的MapReduce不同在于,我们采用了Spark,利用分布式缓存进行处理,以加快迭
    带的速度,结果以流式递增的方式进行),其目标函数为:

    每一个分解阶段产生的OnR聚类算法的目标是找到一个最优的划分C,使得Spark的最
    终全局聚类误差φX(C)最小,其中φX(C)是利用中心点集C,对特征集合X划分产生的全局聚
    类误差,|| ||为欧几里得距离。分别对SIFT和CN特征集合进行聚类,得到的k个聚类中心即
    为它们视觉词汇表。
    10.如权利要求2所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方
    法,其特征在于,步骤S1.4.图像量化表示的方法如下:
    基于聚类算法生成的视觉词汇表,每幅图像的SIFT描述子被量化为一个装满单词的词
    袋,在视觉词袋模型中,给定一个特征的视觉词汇表其中j=1,...,m,k是视觉
    词汇表中单词的个数,图像库中,每幅图像被量化为一个视觉单词出现频率的k维向量,以
    相同的方式对Color特征进行量化处理,并且将每幅图像量化生成相应 的特征向量,对于
    多特征的量化过程,以此类推,直到所有特征被量化,得到如定义1.1所示的特征向量;
    定义1.1:在每一个数据分区中,查找一个包含n幅图像的图像库假定每幅图
    像oi有一组底层特征m是底层特征的数量,每幅图像oi的特征向量表示为<
    oi.x1,oi.x2,...,oi.xm>。

    说明书

    基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方法

    技术领域

    本发明专利属于智慧医疗与大数处理交叉领域,是一种基于视觉词汇表与多特征
    匹配的Skyline的医学大数据检索系统,该系统将度量空间Skyline查询应用到基于内容的
    医学图像检索技术当中,涉及到大规模医疗数据分析、云计算环境下的海量数据处理,涉及
    到智能数据处理与应用开发。

    背景技术

    随着互联网的发展和医疗数字化设备的普及,医疗图像数据呈指数级增长,相关
    的图像数据的检索技术也越来越受到人们的关注,海量数据不仅具有数据量大的特点,它
    们还蕴含着巨大的商业价值。例如分析医学癌症用户的肿瘤生长情况,可以指导医生进行
    相关的个性化治疗方案推荐;分析脑活动,心率的记录可以给医院厂家和病人带来诊疗指
    导或家庭监护的病前预警。然而,海量医学影像数据的爆炸式增长,使得传统的单机数据分
    析处理技术已经越来越不适应当前密集型数据分析和处理的需为了在保证图像检索精度
    的前提下,提高医学图像检索效率,度量空间Skyline查询(MetricSkylineQuery)算法在图
    像处理领域得到了很好的应用。该算法可以通过对度量空间中的数据剪枝来提高图像检索
    效率。

    现有图像数据的度量空间Skyline算法大多数是基于一般文本语义进行度量空间
    建模。在医学为背景的语义图像检索方法中,尽管图像的语义信息丰富,但也存在着语义信
    息复杂、语义理解主观、语义提取和表达困难等缺点,这些缺点影响了度量空间建模和医学
    图像检索效果;另外,由于语义信息的模糊性,大部分算法为了提高了查询精度,根据语义
    需要选择多张图像参与查询,这又大大增加了查询过程的计算量。计算量大成为度量空间
    Skyline查询的一大瓶颈,这点在海量医学图像数据处理上尤其突出。

    近年来,基于内容的图像检索技术得到了迅速的发展,并逐渐成为图像检索领域
    的主流技术。针对已有医学图像数据的度量空间算法选择图像语义信息进行检索的缺点,
    从医学图像内容入手,在度量空间上选取图像的底层特征作为研究对象。为了提高检索精
    度,为了节省计算开销、加快相似度距离计算速度,从多特征融合角度设计度量空间
    Skyline算法,基于此,我们设计并实现了该发明专利。

    发明内容

    根据上述背景技术中存在的缺陷和不足,本发明将度量空间Skyline查询应用到
    基于内容的医学大规模图像检索技术当中,并提出了一种基于视觉词汇表与Skyline多特
    征融合的医学大规模图像检索方法(BigFeatureFusionbySkyline,BSKFF),利用Skyline操
    作进行多特征的融合,设计了一种新的基于视觉词汇的医学大数据检索系统,更好的解决
    了医学大规模图象数据检索问题。

    为了实现上述目的,本专利所采用的技术方案是:

    一种基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方法,其特征在
    于,包括如下步骤:

    S1.提取医学图像的底层特征,分别对底层特征集合进行聚类,构建视觉词汇表,
    以此,将图像库中的图像量化为一个视觉单词出现频率的向量,得到分区特征向量;

    S2.计算查询图像和图像库中的任意图像在每个特征上的相似度距离,以构造不
    同特征的图像相似度向量;

    S3.调用基于Skyline的多特征融合方法进行分布式检索计算决策。

    进一步的,所述步骤S1.提取医学图像的特征数据,给定一个查询图像,提取该图
    像的底层特征,包括如下步骤:

    S1.1.Color特征的提??;

    S1.2.SIFT特征的提??;

    S1.3.构建视觉词汇表;

    S1.4.图像量化表示。

    进一步的,所述步骤S2中构造不同特征的图像相似度向量的方法是:一个包含n幅
    医学图像的图像库和查询图像q,医学图像被表达为特征向量,查询图像q和图像
    库I中的任意图像oi在第t个特征上的相似度距离,其表示为两向量的L1距离:


    其中表示图像oi的第t个特征描述子向量,是图像oi的第t维底层特征的k维向
    量;

    基于公式1.3,得到查询医学图像q和医学图像库I中的任意图像oi在每个特征上
    的相似度距离,图像q和oi的相似度向量如定义1.2所示:

    定义1.2:设为包含n幅图像的图像库,q为查询图像,查询图像q与图像库I
    中任意图像oi的相似度向量表示为m维向量:

    Vecti(oi,q)=<dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>

    其中i∈[1,n],m表示底层特征数目,Vecti(oi,q)表示图像q与图像oi的相似度向
    量,dist(oi.xk,q.xk)表示两幅图像第k(k≤m)维特征的相似度距离;图像库I中的所有图像
    分别与查询图像q在各维特征上计算相似度距离,构造生成n个相似度向量。

    进一步的,所述步骤S3的具体方法:

    给定一个包含n幅图像的医学图像库和一幅查询图像q,集合R为多特征
    融合方法的查询结果,对于每幅图像的m个底层特征向量

    当一幅图像oi∈R,当且仅当满足如下条件:


    则R集合包含了与查询图像q在X向量空间上相似度向量Vecti(oi,q)=<dist
    (oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>不被医学图像库I上的其他任何
    图像相似度向量支配的所有图像的集合;

    进一步的,基于Skyline的多特征融合方法的结果集是医学图像库的子集,且在多
    特征度量空间中不被图像集里任意图像所支配的图像集合,查询图像q与任意图像oi的
    SIFT和Color特征相似度距离值构成点,点的横坐标表示图像o1与查询图像q之间SIFT特征
    的相似度距离,纵坐标表示图像o1与查询图像q之间Color特征的相似度距离,该所述相似
    度距离在多特征度量空间上都是基于词袋模型计算得到的,相似度距离越小,两者之间越
    相似。

    进一步的,使用Spark进行流处理,将流式计算分解成一系列短小的批处理作业,
    逐渐融合与决策结果推荐。

    进一步的,步骤S1.1.Color特征的提取的方法如下:

    Color特征用颜色属性CN描述子来表示,由红、黑、蓝、绿、褐、灰、粉、橙、白、紫、黄
    色颜色组成,把颜色属性CN定义为一个11维的变量,为图像中所有像素赋予一个颜色属性
    标签,此标签作为Skyline多因素分析的一个主因素,采用Spark进行流处理,结果逐渐完善
    与输出;

    进一步的,步骤S1.2.SIFT特征的提取的方法如下:

    由检测特征点和描述特征点两部分组成,对原始图像进行尺度转换,得到图像的
    尺度空间表示序列,然后对图像进行处理得到特征点,采用128维的描述子向量来表示特征
    点,得到共128维的SIFT特征向量,用SIFT特征提取过程中生成的特征点,将特征点及其所
    在的周围区域作为局部区域,提取局部区域中的每个像素的CN向量,得到SIFT和CN局部特
    征向量,此向量作为Skyline多因素分析的一个主因素,采用Spark进行流处理,结果逐渐完
    善与输出;

    进一步的,步骤S1.3.构建视觉词汇表的方法如下:

    通过基于Spark的多层聚类算法k-means及其变种以及过采样修正,利用Spark系
    统,对图像库中的图像进行流式训练,并分别为SIFT和Color特征向量逐步生成视觉词汇
    表,生成视觉词汇表时,使用先切分数据,并用Spark系统,以流的方式进行分布式处理,并
    递增导出结果集;

    其中,多层k-means聚类算法是在一些维度的特征点集合X={x1,x2,...,xn}中寻
    找k个聚类中心C={c1,c2,...,ck},使每个特征点到所在簇中心的平方误差和最??;这些聚
    类中心将X划分成k个不相交的簇Y={Y1,Y2,...,Yk},使得对于任意的1≤i≠j≤k,
    对于一个簇Yi,它的中心点为:


    其中,过采样修正算法是利用一个SparkSpark作业来进行中心点选择和全局误差
    的计算(与传统的MapReduce不同在于,我们采用了Spark,利用分布式缓存进行处理,以加
    快迭带的速度,结果以流式递增的方式进行),其目标函数为:


    每一个分解阶段产生的OnR聚类算法的目标是找到一个最优的划分C,使得Spark
    的最终全局聚类误差φX(C)最小,其中φX(C)是利用中心点集C,对特征集合X划分产生的全
    局聚类误差,|| ||为欧几里得距离。分别对SIFT和CN特征集合进行聚类,得到的k个聚类中
    心即为它们视觉词汇表。

    进一步的,步骤S1.4.图像量化表示的方法如下:

    基于聚类算法生成的视觉词汇表,每幅图像的SIFT描述子被量化为一个装满单词
    的词袋,在视觉词袋模型中,给定一个特征的视觉词汇表其中j=1,...,m,k是
    视觉词汇表中单词的个数,图像库中,每幅图像被量化为一个视觉单词出现频率的k维向
    量,以相同的方式对Color特征进行量化处理,并且将每幅图像量化生成相应的特征向量,
    对于多特征的量化过程,以此类推,直到所有特征被量化,得到如定义1.1所示的特征向量;

    定义1.1:在每一个数据分区中,查找一个包含n幅图像的图像库假定每
    幅图像oi有一组底层特征m是底层特征的数量,每幅图像oi的特征向量表示为<
    oi.x1,oi.x2,...,oi.xm>。

    有益效果:该医学大数据检索系统会通过相关技术在用户端获取到图片的相应信
    息上传并保存到云端服务器,然后云端服务器进行分布式处理,得到最佳的医学图像聚类
    方案并逐步反馈给用户。

    附图说明

    图1本发明的特征融合方法的系统模型;

    图2本发明基于Skyline的特征融合过程;

    图3本发明的SKFF算法的伪代码。

    具体实施方式

    实施例1:参考图1,是一种基于视觉词汇表与多特征匹配的Skyline的医学大数据
    检索系统,所述系统由一个云中心服务系统和一个手机智能移动客户端软件系统组成。其
    中,云服务系统负责进行分布式逐步提取医学图像的SIFT、Color等特征数据,利用Skyline
    操作对图像的多个底层特征进行融合,每个特征相似度都作为Skyline的评价目标,经过
    Spark计算,逐步返回结果,而最终返回的结果是与查询图像在多维特征上都比较相似或某
    一维特征极其相似的候选图像;我们的移动医学端软件根据需要将需要进行医学大规模图
    像分层聚类的医学图像发送至云中心服务系统,并接收云端请求。

    作为一个实施例,该基于视觉词汇表与多特征匹配的Skyline的医学大数据检索
    系统的执行流程是,当移动用户通过医学影像扫描仪器,采集并发出相关医学图像检索的
    请求后,由云端系统提取医学图像的SIFT、Color等特征数据,利用Skyline操作对图像的多
    个底层特征进行融合,得到最好的聚类方案并返回逐步返回给用户,如果时间足够长,会将
    最终结果给用户,中间可以通过移动交流平台进行业务的逐步确认和最终完整结果的确认
    工作。

    SIFT、Color特征数据算法的处理步骤具体为:Color特征用颜色属性ColorNames
    (CN)描述子来表示,把颜色属性CN定义为一个11维的变量,为图像中所有像素赋予一个颜
    色属性标签,此标签作为Skyline多因素分析的一个主因素。SIFT特征提取是对原始图像进
    行尺度转换,得到图像的尺度空间表示序列,然后采用128维的描述子向量来表示特征点,
    得到共128维的SIFT特征向量。用SIFT特征提取过程中生成的特征点,将特征点及其所在的
    周围区域作为局部区域,提取局部区域中的每个像素的CN向量,得到SIFT和CN局部特征向
    量,此向量作为Skyline多因素分析的一个主因素。然后我们将对采集的CN标签和特征向量
    采用Spark进行流处理,结果逐渐完善与输出?;赟IFT和CN特征向量的提取方法,通过基
    于Spark的多层聚类算法k-means及其变种以及过采样修正,利用Spark系统,对大规模医学
    图像库中的图像进行流式训练,并分别为SIFT和Color特征向量逐步生成视觉词汇表,我们
    使用先切分数据,并用Spark系统,以流的方式进行分布式处理,并递增导出结果集;其中,
    多层k-means聚类算法是在一些维度(比如说网格或更高维空间中)的特征点集合中寻找k
    个聚类中心,使每个特征点到所在簇(病灶区)中心的平方误差和最小。这些聚类中心将特
    征点集合划分成k个不相交的簇(病灶区),使得对于任意的,对于一个簇(病灶区),即可算
    出病灶点。

    基于聚类算法生成的视觉词汇表,每幅图像的SIFT描述子被量化为一个装满单词
    的词袋。在视觉词袋模型中,给定一个特征的视觉词汇表其中j=1,...,m,k是
    视觉词汇表中单词的个数(即聚类中心个数)。于是医学图像库中,每幅医学图像被量化为
    一个视觉单词出现频率的向量(k维向量)。以相同的方式对Color特征进行量化处理,并且
    将每幅图像量化生成相应的特征向量。对于多特征(m≥2)的量化过程,以此类推,直到所有
    特征被量化。

    作为另一个实施例,过采样修正算法的定义为:在每一次迭代中,过采样修正
    (OversamplingandRefining,简称为OnR)使用一个SparkSpark作业来进行中心点选择和全
    局误差的计算(与传统的MapReduce不同在于,我们采用了Spark,利用分布式缓存进行处
    理,以加快迭带的速度,结果以流式递增的方式进行),OnR方法受到scalablek-means++方
    法的启发,除了过采样因子,它使用另一个过采样因子,进一步增大Map阶段选的中心点的
    数目。

    在每一个数据分区中,查找一个包含n幅医学图像的图像库和查询的医学
    图像q,根据S1,医学图像被表达为特征向量。于是,查询图像q和图像库I中的任意图像oi在
    第t个特征上的相似度距离可表示为两向量的L1距离,根据公式,我们得到查询图像q和图
    像库I中的任意图像oi在每个特征上的相似度距离,那么图像q和oi的相似度向量可以表示
    为两幅图像第k(k≤m)维特征的相似度距离。图像库I中的所有图像分别与查询图像q在各
    维特征上计算相似度距离,构造生成n个相似度向量。

    参考图3,计算图像库中每幅图像和查询图像在特征SIFT和Color上的相似度,得
    到二维的图像相似度向量集合;进一步的,查询图像q与任意图像oi的SIFT和Color特征相
    似度距离值构成点,通过基于Skyline的多特征融合方法进行分布式计算决策,相似度距离
    越小,两者之间越相似,我们采用Spark进行流处理,结果逐渐融合与决策结果推荐,用户得
    到的结果随时时间会逐步精确。

    实施例2:一种基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统,
    主要是提取医学图像的SIFT、Color等特征数据,利用分布式Skyline操作对图像的多个底
    层特征进行融合,每个特征相似度都作为Skyline的评价目标,返回的结果是与查询图像在
    多维特征上都比较相似或某一维特征极其相似的候选图像,最后利用云计算的Spark系统
    进行流氏处理,并实时得到查询或处理结果??煞治韵氯鼋锥危?br />

    第一阶段:提取图像的特征。给定一个查询图像,提取该图像的底层特征。步骤如
    下:

    S1.Color特征的提??;

    S2.SIFT特征的提??;

    S3.构建视觉词汇表;

    S4.图像量化表示。

    进一步的,步骤S1.Color特征用颜色属性ColorNames(CN)描述子来表示,由11种
    基本颜色组成,即红、黑、蓝、绿、褐、灰、粉、橙、白、紫和黄色,由此把颜色属性CN定义为一个
    11维的变量,为图像中所有像素赋予一个颜色属性标签,此标签作为Skyline多因素分析的
    一个主因素,我们采用Spark进行流处理,结果逐渐完善与输出。

    进一步的,步骤S2.SIFT特征提取过程由检测特征点和描述特征点两部分组成。对
    原始图像进行尺度转换,得到图像的尺度空间表示序列,然后对图像进行相关处理得到特
    征点。采用128维的描述子向量来表示特征点,得到共128维的SIFT特征向量。用SIFT特征提
    取过程中生成的特征点,将特征点及其所在的周围区域作为局部区域,提取局部区域中的
    每个像素的CN向量,得到SIFT和CN局部特征向量,此向量作为Skyline多因素分析的一个主
    因素,我们采用Spark进行流处理,结果逐渐完善与输出;

    进一步的,步骤S3.基于SIFT和CN特征向量的提取方法,通过基于Spark的多层聚
    类算法k-means及其变种以及过采样修正,利用Spark系统,对图像库中的图像进行流式训
    练,并分别为SIFT和Color特征向量逐步生成视觉词汇表,我们与之前的视觉词汇表不同在
    于,我们使用先切分数据,并用Spark系统,以流的方式进行分布式处理,并递增导出结果
    集;

    其中,多层k-means聚类算法是在一些维度(比如说网格或更高维空间中)的特征
    点集合X={x1,x2,...,xn}中寻找k个聚类中心C={c1,c2,...,ck},使每个特征点到所在簇
    中心(在肿瘤图像中,这些簇中心代表了肿瘤病灶区,或可能的病灶区)的平方误差和最小
    (SumofsquaredError,SSE)。这些聚类中心将X划分成k个不相交的簇Y={Y1,Y2,...,Yk},使
    得对于任意的1≤i≠j≤k,对于一个簇Yi,它的中心点(即质心)为:


    其中,过采样修正算法是利用一个SparkSpark作业来进行中心点选择和全局误差
    的计算(与传统的MapReduce不同在于,我们采用了Spark,利用分布式缓存进行处理,以加
    快迭带的速度,结果以流式递增的方式进行),其目标函数为:


    每一个分解阶段产生的OnR聚类算法的目标是找到一个最优的划分C,使得Spark
    的最终全局聚类误差φX(C)最小。其中φX(C)是利用中心点集C,对特征集合X划分产生的全
    局聚类误差,|| ||为欧几里得距离。分别对SIFT和CN特征集合进行聚类,得到的k个聚类中
    心即为它们视觉词汇表。

    进一步的,步骤S4.基于聚类算法生成的视觉词汇表,每幅图像的SIFT描述子被量
    化为一个装满单词的词袋。在视觉词袋模型中,给定一个特征的视觉词汇表其
    中j=1,...,m,k是视觉词汇表中单词的个数(即聚类中心个数)。于是图像库中,每幅图像
    被量化为一个视觉单词出现频率的向量(k维向量)。以相同的方式对Color特征进行量化处
    理,并且将每幅图像量化生成相应的特征向量。对于多特征(m≥2)的量化过程,以此类推,
    直到所有特征被量化,得到如定义1.1所示的特征向量。

    定义1.1(分区特征向量):在每一个数据分区中,查找一个包含n幅图像的图像库
    假定每幅图像oi有一组底层特征m是底层特征的数量,每幅图像oi的
    特征向量表示为<oi.x1,oi.x2,...,oi.xm>。

    第二阶段,特征匹配。分布式计算查询图像和图像库里每个每个数据分区中的图
    像的SIFT和Color的相似度。步骤如下:

    S1.给定一个医学图像,利用Spark逐步提取它的SIFT特征和Color特征,然后根据
    已生成的视觉词汇表将其特征描述子各自量化为特征向量,我们采用Spark进行流处理,结
    果逐渐提取与量化;

    S2.计算医学图像之间各特征的相似度;

    进一步的,步骤S2.现有一个包含n幅医学图像的图像库和查询图像q,根
    据S1,医学图像被表达为特征向量。于是,查询图像q和图像库I中的任意图像oi在第t个特
    征上的相似度距离可表示为两向量的L1距离:


    其中表示图像oi的第t个特征描述子向量,即代表着图像oi的第t维底层特征的k
    维向量。

    基于公式1.3,我们得到查询医学图像q和医学图像库I中的任意图像oi在每个特
    征上的相似度距离。那么图像q和oi的相似度向量如定义1.2所示:

    定义1.2(图像相似度向量):设为包含n幅图像的图像库,q为查询图像,
    查询图像q与图像库I中任意图像oi的相似度向量可以表示为m维向量:

    Vecti(oi,q)=<dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>

    其中i∈[1,n],m表示底层特征数目,Vecti(oi,q)表示图像q与图像oi的相似度向
    量,dist(oi.xk,q.xk)表示两幅图像第k(k≤m)维特征的相似度距离。

    图像库I中的所有图像分别与查询图像q在各维特征上计算相似度距离,构造生成
    n个相似度向量。

    第三阶段,特征融合。将不同特征的相似度向量构造成一个新的向量,调用基于
    Skyline的多特征融合方法(SKFF)进行分布式计算决策。最后,我们采用Spark进行流处理,
    结果逐渐融合与决策结果推荐,用户得到的结果随时时间会逐步精确。

    S1.分布式计算图像库中每幅图像和查询图像在特征SIFT和Color上的相似度,得
    到二维的图像相似度向量集合;

    S2.利用Skyline的多特征融合进行特征融合,前面特征匹配的结果可作为
    Skyline操作的输入;

    S3.利用云计算的Spark系统进行流氏处理,并实时得到查询或处理结果。

    进一步的,给出基于Skyline的多特征融合方法的定义(4.1)。

    定义1.4(基于Skyline的多特征融合方法):给定一个包含n幅图像的医学图像库
    和一幅查询图像q,集合R为多特征融合方法的查询结果。对于每幅图像的m个底层
    特征向量R集合包含了与查询图像q在X向量空间上相似度向量Vecti(oi,q)=<
    dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>不被医学图像库I上的其他
    任何图像相似度向量支配的所有图像的集合,即当一幅图像oi∈R,当且仅当满足如下条
    件:


    进一步的,基于Skyline的多特征融合方法(SKFF)的结果集是医学图像库的子集,
    且在多特征度量空间中不被图像集里任意图像所支配的图像集合。查询图像q与任意图像
    oi的SIFT和Color特征相似度距离值构成点,如图2所示,例如p1点的横坐标表示图像o1与查
    询图像q之间SIFT特征的相似度距离,纵坐标则表示它们之间Color特征的相似度距离,这
    些距离在多特征度量空间上都是基于词袋模型计算。

    进一步的,相似度距离越小,两者之间越相似,因此{p1,p2,p3,p4}是最后的
    Skyline结果,表示没有其他更好的图像比{o1,o2,o3,o4}在SIFT和Color特征上都与查询图
    像的更相似,即在图像库中没有图像与查询图像的相似度向量在SIFT和Color特征上支配
    它们。

    S3.Spark进行流处理,逐渐融合与决策结果推荐。

    进一步的,步骤S2,得出最后的Skyline结果是{p1,p2,p3,p4}。

    进一步的,利用Spark进行流处理,将流式计算分解成一系列短小的批处理作业。
    整个流式计算根据业务的需求可以对中间的结果进行叠加,或者存储到外部设备,把最佳
    的医学聚类方案逐步反馈给用户。

    以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的?;し段Р⒉?br />局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明
    创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的?;し段е?br />内。

    关于本文
    本文标题:基于视觉词汇表与多特征匹配的SKYLINE的医学大数据检索方法.pdf
    链接地址://www.4mum.com.cn/p-6021178.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 新疆时时走势图下载 福彩稳赚不赔 重庆时时彩手机版app下载 幸运28最牛稳赚模式 辽宁12选5技巧稳赚 全国无错36码 北京塞车计划全天计划 彩票最准计划 11选5必赢计划软件下载 北京pk10公式大全论坛 中国体肓彩票官方网站 老时时20110601 幸运飞艇倍投技巧 时时彩跨度选胆码稳赚技巧 江苏时时代理公司 好运来计划软件官方网站下载