• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    大淘宝平台重庆时时彩: 一种基于自适应权重的微阵列缺失值估计方法.pdf

    关 键 词:
    一种 基于 自适应 权重 阵列 缺失 估计 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611110461.X

    申请日:

    2016.12.06

    公开号:

    CN106777938A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 19/00申请日:20161206|||公开
    IPC分类号: G06F19/00(2011.01)I 主分类号: G06F19/00
    申请人: 合肥工业大学
    发明人: 王爱国; 吴玺; 陈烨; 丁会通; 安宁
    地址: 230009 安徽省合肥市包河区屯溪路193号
    优先权:
    专利代理机构: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611110461.X

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种基于自适应权重的微阵列缺失值估计方法,其特征包括:一,无需人工调参即可自动填补缺失值;二,采用基于2范数正则化的加权多元线性回归模型;三,模型权重可以根据算法自适应调整。本发明能有效挖掘微阵列数据中的数据结构关系,从而能有效的利用微阵列数据中的观测值来准确地估计缺失值。

    权利要求书

    1.一种基于自适应权重的微阵列缺失值估计方法,是应用于由n个基因组成的微阵列
    数据集中,所述微阵列数据集记为G={g1,g2,…,gi,…gn};gi表示第i个基因;1≤i≤n;并
    有:表示第i个基因在第j个实验条件下的表达数据,1≤j≤
    m;由n个基因在第j个实验条件下的表达数据组成第j个样本,记为sj;其特征是,所述微阵
    列缺失值填补估计方法是按照如下步骤进行:
    步骤1、定义循环次数为c,并初始化c=1
    步骤2、选取第c次循环下的微阵列数据集G(c)中所有具有缺失值的基因,并构成第c次
    循环下的不完整基因集F(c),并将剩下的没有缺失值的基因构成第c次循环下的完整基因集
    H(c);
    步骤3、选择所述第c次循环下的不完整基因集F(c)中丢失率最小的不完整基因作为目
    标基因若存在多个不完整基因的最小丢失率相同,则随机选取任意一个最小丢失率的
    不完整基因作为目标基因
    步骤4、从所述第c次循环下的微阵列数据集G(c)中找出所述目标基因的所有相似基
    因,构成相似基因集表示所述目标基因的第v个相
    似基因;1≤v≤V;
    步骤5、计算第c次循环下的第v个相似基因对于目标基因的相似度从而获
    得所有相似基因对于目标基因的相似度
    步骤6、自适应确定第v个相似基因的权重并构建加权回归模型用于填补目标
    基因中的所有缺失值;
    步骤7、将填补后的目标基因加入所述完整基因集H(c)中,从而更新所述第c次循环下
    的完整基因集H(c),得到第c+1次循环下的完整基因集H(c+1);
    步骤8、将所述目标基因从所述第c次循环下的不完整基因集F(c)中删除,从而更新所
    述第c次循环下的不完整基因集F(c),得到第c+1次循环下的不完整基因集F(c+1);
    步骤9、判断所述不完整基因集F(c+1)中是否存在具有缺失值的基因,若存在,则将c+1赋
    值给c后,再返回步骤3执行;否则,表示缺失值填补完成。
    2.根据权利要求1所述的微阵列缺失值估计方法,其特征是,所述步骤3的丢失率为具
    有缺失值的基因中所有缺失表达数据的总个数与样本总个数m之比。
    3.根据权利要求1所述的微阵列缺失值估计方法,其特征是,所述步骤4中的相似基因
    集G′(c)是按如下步骤进行:
    步骤4.1、在所述第c次循环下的微阵列数据集G(c)中寻找满足式(1)所有基因,并构成
    第c次循环下的包含有K(c)个基因的初步筛选基因集:
    <mrow> <mi>i</mi> <mi>d</mi> <mi>x</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>i</mi> <mi>d</mi> <mi>x</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>&phi;</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
    式(1)中,表示第c次循环下的目标基因的缺失值位置,表示第c次
    循环下的微阵列数据集G(c)中第i个基因gi的缺失值位置;
    步骤4.2、在所述包含有K(c)个基因的初步筛选基因集中寻找满足式(2)的所有基因,并
    构成所述相似基因集G′(c):
    <mrow> <msubsup> <mi>r</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>&lt;</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>K</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msup> </munderover> <msubsup> <mi>r</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> </mrow> <msup> <mi>K</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msup> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
    式(2)中,表示所述第c次循环下的初步筛选基因集中任意第k个基因gk的缺失率。
    4.根据权利要求1所述的微阵列缺失值估计方法,其特征是,所述步骤5中的相似度wv是
    按如下步骤获得:
    步骤5.1、利用式(3)计算第v个相似基因与目标基因之间的相似性距离
    <mrow> <msubsup> <mi>d</mi> <mi>v</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>l</mi> <mi>v</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>l</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> </mfrac> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>o</mi> <mi>b</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>o</mi> <mi>b</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>v</mi> <mrow> <mo>&prime;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>-</mo> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
    式(3)中,表示所述第v个相似基因中所有未缺失值的总个数,表示所述目标基
    因中所有未缺失值的总个数,表示所述第c次循环下的目标基因的未缺失值
    位置,表示所述第v个相似基因的未缺失值位置,表示所述第c次循环下的
    目标基因在第j个实验条件下的表达数据,表示所述第v个相似基因在第j个实
    验条件下的表达数据;
    步骤5.2、利用式(4)对相似性距离进行尺度伸缩处理,得到标准化相似性距离wv:
    <mrow> <msubsup> <mi>w</mi> <mi>v</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <msubsup> <mi>d</mi> <mi>v</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msubsup> <mi>d</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
    式(4)中,表示第c次循环下所有相似基因与目标基因之间最小的相似性距离;σ
    是标准差,取值范围为[0,1]。
    5.根据权利要求1所述的微阵列缺失值估计方法,其特征是,所述步骤6中的加权回归
    模型是按如下步骤构建:
    步骤6.1、通过最小化式(5)的值以获得第v个相似基因的权重向量从而获得所
    有相似基因的权重向量作为回归系数向量
    <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mo>{</mo> <msubsup> <mi>&beta;</mi> <mn>1</mn> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>&beta;</mi> <mn>2</mn> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>&beta;</mi> <mi>V</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>}</mo> </mrow> </munder> <mo>&lsqb;</mo> <msup> <mrow> <mo>(</mo> <mi>o</mi> <mi>b</mi> <mi>s</mi> <mo>(</mo> <msubsup> <mi>g</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>V</mi> </munderover> <msubsup> <mi>&beta;</mi> <mi>v</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>w</mi> <mi>v</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mi>o</mi> <mi>b</mi> <mi>s</mi> <mo>(</mo> <msubsup> <mi>g</mi> <mi>v</mi> <mrow> <mo>&prime;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>&beta;</mi> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
    式(4)中,表示所述第c次循环下的目标基因的所有未缺失值组成的向量,
    表示所述第v个相似基因的所有未缺失值组成的向量;λ表示回归系数向量β的
    二范数惩罚因子,并有:
    <mrow> <mi>&beta;</mi> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <msup> <mi>AWW</mi> <mi>T</mi> </msup> <msup> <mi>A</mi> <mi>T</mi> </msup> <mo>-</mo> <mi>&lambda;</mi> <mi>I</mi> <mo>&rsqb;</mo> </mrow> <mo>+</mo> </msup> <mi>A</mi> <mi>W</mi> <mi>o</mi> <mi>b</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
    式(6)中,A表示I表示对角元素全为1
    的对角矩阵;W表示由组成的对角矩阵;[*]+表示矩阵*的伪逆矩
    阵;
    步骤6.2、利用式(7)计算所述目标基因的缺失值的估计值
    <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>&beta;</mi> <mo>&lsqb;</mo> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mn>1</mn> <mrow> <mo>&prime;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mn>2</mn> <mrow> <mo>&prime;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>v</mi> <mrow> <mo>&prime;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>g</mi> <mi>V</mi> <mrow> <mo>&prime;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
    式(9)中,表示与所述目标基因缺失值所对应的第v个相似基因中表
    达数据所组成的向量。

    说明书

    一种基于自适应权重的微阵列缺失值估计方法

    技术领域

    本发明涉及基因表达信息挖掘领域,具体地说是一种基于自适应权重的微阵列缺
    失值估计方法。

    背景技术

    微阵列技术可以在不同实验条件下同时检测成千上万个基因表达水平值,研究者
    根据微阵列提供的数据并结合生物学知识可以获取一些有价值的潜在生物信息。研究微阵
    列数据大量采用了机器学习算法,其中主要包括分类分析和聚类分析等。然而在微阵列技
    术应用过程中的各个实验步骤都可能存在人为或者非人为的因素:例如微阵列芯片的使用
    步骤不规范,微阵列芯片的表面有划痕或者灰尘,或者在实验过程中存在某些系统性错误,
    这些问题都可能造成微阵列芯片的基因表达数据存在不同程度的缺失值,从而导致很多机
    器学习算法无法实施,因此微阵列数据中缺失值的处理是十分必要的。

    处理缺失值的一种简单方法是重复试验,但是由于微阵列芯片价格昂贵,并且重
    复试验后微阵列数据可能仍然存在缺失值,所以这种方法一般不推荐使用。另外一些简单
    的算法,例如直接将所有包含缺失值的整个基因表达数据剔除,或者利用基因观测值的平
    均值或零值填充该基因的缺失值,但是这些算法的缺点显而易见,因为直接删除整个不完
    整基因可能会造成大量有价值的信息丢失,如果利用基因观测值的平均值或者零值填充该
    基因的缺失值,则没有充分利用数据结构所包含的信息。为了解决以上这些问题一些更复
    杂的缺失值填补算法相继提出,其中基于最近邻概念的缺失值填补算法的研究较为广泛。
    KNNimpute是较早提出的基于最近邻概念的缺失值填补算法,并且实验结果表明KNNimpute
    优于行平均值填补算法以及基于奇异值分解的填补算法SVDimpute。在KNNimpute的基础上
    SKNNimpute提出,该算法有选择性的将包含最少量丢失值的基因作为目标基因并填充缺失
    值,并且该填充后的基因被应用到其它目标基因缺失值的填补过程中。LSimpute算法在基
    于最近邻概念的基础上结合了一元线性回归模型,相对于KNNimpute算法的精度有所提升,
    在LSimpute的基础上结合多元线性回归模型的填补算法LLSimpute提出,在LLSimpute的基
    础上一种迭代的局部最小二乘填补算法ILLSimpute提出,同样基于LLSimpute一种连续的
    局部最小二乘填补算法SLLSimpute提出。另外一些不是基于最近邻概念的填补算法但是应
    用同样广泛的有基于贝叶斯定理的缺失值填补算法贝叶斯主成分分析(BPCAimpute),以及
    基于支持向量机的缺失值填补算法支持向量回归(SVRimpute)。

    但是基于最近邻概念的算法都存在一些弊端,这些弊端是由于最近邻算法本身的
    特性所导致的。第一个弊端是最近邻算法中的参数对于算法效果有直接的影响,并且目前
    没有一种可以推理的方法来判定最优的参数。第二个弊端是以上这些算法都没有考虑到缺
    失值的预测值可能产生严重的偏置,原因主要是因为数据集中各样本之间关联性是不同
    的?;谧罱诟拍畹奶畈顾惴ㄒ渤莆瓤ㄌ畈顾惴?,热卡填补算法的一个重要特点是缺
    失值是利用同一数据集中的其它观测数据并采用某种方式填充的,基于最近邻概念的缺失
    值填充算法都是利用与缺失值所在属性中的其它观测数据填充的,因此这些算法的缺失值
    填充模型是相同的,但是不同的算法的填充模型参数是各不相同的,也就是说多元线性回
    归模型容易导致过拟合问题。

    发明内容

    本发明是为了解决上述现有技术存在的不足之处,提出一种基于自适应权重的微
    阵列缺失值估计方法,以期能有效挖掘微阵列数据中的数据结构关系,在避免人工干预的
    前提下自动预测微阵列数据中的缺失值,从而提高估计的准确性。

    本发明为解决技术问题采用如下技术方案:

    本发明一种基于自适应权重的微阵列缺失值估计方法,是应用于由n个基因组成
    的微阵列数据集中,所述微阵列数据集记为G={g1,g2,…,gi,…gn};gi表示第i个基因;1≤i
    ≤n;并有:表示第i个基因在第j个实验条件下的表达数据,
    1≤j≤m;由n个基因在第j个实验条件下的表达数据组成第j个样本,记为sj;其特点是,所
    述微阵列缺失值填补估计方法是按照如下步骤进行:

    步骤1、定义循环次数为c,并初始化c=1

    步骤2、选取第c次循环下的微阵列数据集G(c)中所有具有缺失值的基因,并构成第
    c次循环下的不完整基因集F(c),并将剩下的没有缺失值的基因构成第c次循环下的完整基
    因集H(c);

    步骤3、选择所述第c次循环下的不完整基因集F(c)中丢失率最小的不完整基因作
    为目标基因若存在多个不完整基因的最小丢失率相同,则随机选取任意一个最小丢失
    率的不完整基因作为目标基因

    步骤4、从所述第c次循环下的微阵列数据集G(c)中找出所述目标基因的所有相
    似基因,构成相似基因集表示所述目标基因的第v
    个相似基因;1≤v≤V;

    步骤5、计算第c次循环下的第v个相似基因对于目标基因的相似度从
    而获得所有相似基因对于目标基因的相似度

    步骤6、自适应确定第v个相似基因的权重并构建加权回归模型用于填补
    目标基因中的所有缺失值;

    步骤7、将填补后的目标基因加入所述完整基因集H(c)中,从而更新所述第c次
    循环下的完整基因集H(c),得到第c+1次循环下的完整基因集H(c+1);

    步骤8、将所述目标基因从所述第c次循环下的不完整基因集F(c)中删除,从而
    更新所述第c次循环下的不完整基因集F(c),得到第c+1次循环下的不完整基因集F(c+1);

    步骤9、判断所述不完整基因集F(c+1)中是否存在具有缺失值的基因,若存在,则将c
    +1赋值给c后,再返回步骤3执行;否则,表示缺失值填补完成。

    本发明所述的微阵列缺失值估计方法的特点也在于,

    所述步骤3的丢失率为具有缺失值的基因中所有缺失表达数据的总个数与样本总
    个数m之比。

    所述步骤4中的相似基因集G′(c)是按如下步骤进行:

    步骤4.1、在所述第c次循环下的微阵列数据集G(c)中寻找满足式(1)所有基因,并
    构成第c次循环下的包含有K(c)个基因的初步筛选基因集:


    式(1)中,表示第c次循环下的目标基因的缺失值位置,表示第
    c次循环下的微阵列数据集G(c)中第i个基因gi的缺失值位置;

    步骤4.2、在所述包含有K(c)个基因的初步筛选基因集中寻找满足式(2)的所有基
    因,并构成所述相似基因集G′(c):


    式(2)中,表示所述第c次循环下的初步筛选基因集中任意第k个基因gk的缺失
    率。

    所述步骤5中的相似度wv是按如下步骤获得:

    步骤5.1、利用式(3)计算第v个相似基因与目标基因之间的相似性距离


    式(3)中,表示所述第v个相似基因中所有未缺失值的总个数,表示所述
    目标基因中所有未缺失值的总个数,表示所述第c次循环下的目标基因的未
    缺失值位置,表示所述第v个相似基因的未缺失值位置,表示所述第c次循
    环下的目标基因在第j个实验条件下的表达数据,表示所述第v个相似基因在第
    j个实验条件下的表达数据;

    步骤5.2、利用式(4)对相似性距离进行尺度伸缩处理,得到标准化相似性距离
    wv:


    式(4)中,表示第c次循环下所有相似基因与目标基因之间最小的相似性距
    离;σ是标准差,取值范围为[0,1]。

    所述步骤6中的加权回归模型是按如下步骤构建:

    步骤6.1、通过最小化式(5)的值以获得第v个相似基因的权重向量从而获
    得所有相似基因的权重向量作为回归系数向量


    式(4)中,表示所述第c次循环下的目标基因的所有未缺失值组成的向
    量,表示所述第v个相似基因的所有未缺失值组成的向量;λ表示回归系数向量
    β的二范数惩罚因子,并有:


    式(6)中,A表示I表示对角元素
    全为1的对角矩阵;W表示由组成的对角矩阵;[*]+表示矩阵*的伪
    逆矩阵;

    步骤6.2、利用式(7)计算所述目标基因的缺失值的估计值


    式(9)中,表示与所述目标基因缺失值所对应的第v个相似基因
    中表达数据所组成的向量。

    与已有技术相比,本发明有益效果体现在:

    1、本发明提出基于自适应权重的微阵列缺失值估计方法,该算法始终选择当前丢
    失率最小的不完整基因作为目标基因,目标基因选定之后,在同一数据集中寻找所有完整
    的基因或者不完整但是满足设定条件的基因作为相似基因,而不需要通过某种相似性度量
    标准来筛选相似基因,因此该缺失值填补方法不需要手动调节参数,从而方便了研究和使
    用。

    2、本发明在目标基因和所有相似基因选定之后,通过加权的多元线性回归模型并
    结合2范数正则化计算出相应的回归系数作为填充模型参数并计算得到缺失值的估计值,
    从而避免了多元线性回归模型所产生的过拟合问题,提高了缺失值估计精度。

    附图说明

    图1是本发明方法流程图。

    具体实施方式

    本实施例中,一种基于自适应权重的微阵列缺失值估计方法,是应用于由n个基因
    组成的微阵列数据集中,所述微阵列数据集记为G={g1,g2,…,gi,…gn};gi表示第i个基因;
    1≤i≤n;并有:表示第i个基因在第j个实验条件下的表达
    数据,1≤j≤m;由n个基因在第j个实验条件下的表达数据组成第j个样本,记为sj;具体的
    说,如图1所示,该微阵列缺失值填补估计方法是按照如下步骤进行:

    步骤1、定义循环次数为c,并初始化c=1

    步骤2、选取第c次循环下的微阵列数据集G(c)中所有具有缺失值的基因,并构成第
    c次循环下的不完整基因集F(c),并将剩下的没有缺失值的基因构成第c次循环下的完整基
    因集H(c);

    步骤3、选择所述第c次循环下的不完整基因集F(c)中丢失率最小的不完整基因作
    为目标基因该目标基因的缺失值估计完成之后可以用于后续其它目标基因的缺失值
    估计;若存在多个不完整基因的最小丢失率相同,则随机选取任意一个最小丢失率的不完
    整基因作为目标基因

    步骤4、从所述第c次循环下微阵列数据集G(c)中找出所述目标基因的所有相似
    基因,构成相似基因集表示所述目标基因的第v个
    相似基因;1≤v≤V;相似基因的数量由算法自动确定,无需人工干预。

    步骤4.1、在所述第c次循环下的微阵列数据集G(c)中寻找满足式(1)所有基因,并
    构成第c次循环下的包含有K(c)个基因的初步筛选基因集,经过该步骤得到的基因满足与目
    标基因缺失值所在相同样本上不存在缺失值:


    式(1)中,表示第c次循环下的目标基因的缺失值位置,表示第
    c次循环下的微阵列数据集G(c)中第i个基因gi的缺失值位置;

    步骤4.2、在所述包含有K(c)个基因的初步筛选基因集中寻找满足式(2)的所有基
    因,并构成所述相似基因集G′(c):


    式(2)中,表示所述第c次循环下的初步筛选基因集中任意第k个基因gk的缺失
    率。

    步骤5、计算第c次循环下的第v个相似基因对于目标基因的相似度从
    而获得所有相似基因对于目标基因的相似度

    步骤5.1、利用式(3)计算第v个相似基因与目标基因之间的相似性距离


    式(3)中,表示所述第v个相似基因中所有未缺失值的总个数,表示所述
    目标基因中所有未缺失值的总个数,这两个数值之比为了自适应调整相似基因与目标
    基因之间的相似性,表示所述第c次循环下的目标基因的未缺失值位置,
    表示所述第v个相似基因的未缺失值位置,表示所述第c次循环下的目标基
    因在第j个实验条件下的表达数据,表示所述第v个相似基因在第j个实验条件
    下的表达数据;

    步骤5.2、利用式(4)对相似性距离进行尺度伸缩处理,以适应后续的多元线性
    回归模型的计算,得到标准化相似性距离wv:


    式(4)中,表示第c次循环下所有相似基因与目标基因之间最小的相似性距
    离,目的是为了对相似基因的权重系数进行标准化;σ是标准差,取值范围为[0,1]。

    步骤6、自适应确定第v个相似基因的权重并构建加权回归模型用于填补
    目标基因中的所有缺失值;

    步骤6.1、通过最小化式(5)的值以获得第v个相似基因的权重向量从而获
    得所有相似基因的权重向量作为回归系数向量


    式(4)中,表示所述第c次循环下的目标基因的所有未缺失值组成的向
    量,表示所述第v个相似基因的所有未缺失值组成的向量;λ表示回归系数向量
    β的二范数惩罚因子,主要的作用是防止多元线性回归模型计算结果产生过拟合的现象,并
    有:


    式(6)中,A表示I表示对角元素
    全为1的对角矩阵;W表示由组成的对角矩阵;[*]+表示矩阵*的伪
    逆矩阵;

    步骤6.2、利用式(7)计算所述目标基因的缺失值的估计值


    式(9)中,表示与所述目标基因缺失值所对应的第v个相似基因
    中表达数据所组成的向量。

    步骤7、将填补后的目标基因加入所述完整基因集H(c)中,从而更新所述第c次
    循环下的完整基因集H(c),得到第c+1次循环下的完整基因集H(c+1);

    步骤8、将所述目标基因从所述第c次循环下的不完整基因集F(c)中删除,从而
    更新所述第c次循环下的不完整基因集F(c),得到第c+1次循环下的不完整基因集F(c+1);

    步骤9、判断所述不完整基因集F(c+1)中是否存在具有缺失值的基因,若存在,则将c
    +1赋值给c后,再返回步骤3执行;否则,表示缺失值填补完成,并且返回一个完整的微阵列
    数据集。

       内容来自专利网重庆时时彩单双窍门 www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:一种基于自适应权重的微阵列缺失值估计方法.pdf
    链接地址://www.4mum.com.cn/p-6021242.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 蓝洞棋牌最新下载正版 北京11选5开奖数据 腾讯qq麻将作弊器 快乐10分开奖查询天津 云南快乐十分开奖现场 甘肃十一选五遗漏号码 60期正版特码资料 足彩半全场领奖 重庆快乐十分免费计划 南昌麻将全求人算子 河南快三走势图今天一 北京快中彩开奖公告 双色球专家选蓝球技巧 东森娱乐平台 河北时时彩计算公式 掌乐天天捕鱼易玩网