• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 22
    • 下载费用:30 金币  

    重庆时时彩彩票中心: 基于子空间融合的蛋白质维他命绑定位点预测方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201410164632.1

    申请日:

    2014.04.22

    公开号:

    CN103955628A

    公开日:

    2014.07.30

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||著录事项变更IPC(主分类):G06F 19/10变更事项:发明人变更前:胡俊 於东军 何雪 李阳 沈红斌 杨静宇变更后:胡俊 於铉 何雪 李阳 沈红斌 杨静宇|||实质审查的生效IPC(主分类):G06F 19/10申请日:20140422|||公开
    IPC分类号: G06F19/10(2011.01)I 主分类号: G06F19/10
    申请人: 南京理工大学
    发明人: 胡俊; 於东军; 何雪; 李阳; 沈红斌; 杨静宇
    地址: 210094 江苏省南京市孝陵卫200号
    优先权:
    专利代理机构: 南京理工大学专利中心 32203 代理人: 朱显国
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410164632.1

    授权公告号:

    |||||||||

    法律状态公告日:

    2017.03.01|||2016.07.27|||2014.08.27|||2014.07.30

    法律状态类型:

    授权|||著录事项变更|||实质审查的生效|||公开

    摘要

    本发明提供一种基于子空间融合的蛋白质-维他命绑定位点预测方法,包括:特征抽取与特征组合:分别利用PSI-BLAST、PSIPRED和蛋白质-维他命绑定位点倾向表抽取蛋白质的进化信息、二级结构信息以及绑定倾向性信息,使用滑动窗口与串行组合将蛋白质序列中的氨基酸残基转换为向量形式表示;使用多种特征选择算法分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,构建多个特征子空间;对所得的每个特征子空间,训练一个SVM分类器;使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;基于融合后的SVM预测器对待预测蛋白质进行蛋白质-维他命绑定位点预测。本发明的预测方法预测速度快、预测精度高。

    权利要求书

    权利要求书
    1.  一种基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,包括以下步骤:
    步骤1、特征抽取与特征组合,即分别利用PSI-BLAST算法、PSIPRED算法抽取蛋白质的进化信息特征与二级结构信息特征,以及根据蛋白质-维他命绑定位点倾向表抽取蛋白质的绑定倾向性信息特征,前述三种特征组成原始特征空间;然后使用滑动窗口与串行组合方式将蛋白质序列中的氨基酸残基转换为向量形式表示;
    步骤2、使用特征选择算法即Joint Laplacian Feature Weights Learning算法、Fisher Score算法以及Laplacian Score算法,分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,从而构建多个特征子空间;
    步骤3、对步骤2所得的每个特征子空间,训练一个SVM分类器;
    步骤4:使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;以及
    步骤5、基于融合后的SVM预测器对待预测蛋白质进行蛋白质-维他命绑定位点预测。

    2.  根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,所述步骤1中,对于训练蛋白质的特征抽取和串行组合包括以下步骤:
    步骤1-1、对于一个由l个氨基酸残基组成的蛋白质,通过PSI-BLAST算法获取其位置特异性得分矩阵,该矩阵为一个l行20列的矩阵,从而将蛋白质一级结构信息转换为矩阵形式表示:

    其中:A、C...Y表示20种氨基酸残基,pi,j表示蛋白质第i个氨基酸残基在进化过程中突变成20种氨基酸残基的第j个氨基酸残基的可能性;
    然后对PSSM中的每个值利用下述公式(2)进行逐行标准化处理:
    f(x)=11+e-x---(2)]]>
    标准化后的PSSM如式(3):

    之后,再使用大小为W的滑动窗口,提取每个氨基酸残基的特征矩阵:

    最后,将上述特征矩阵(4)按行优先的方式组合成维数为20*W的特征向量:
    fi=(pi,1normalized,pi,2normalized,...,pi,20Wnormalized)T---(5)]]>
    步骤1-2、对于一个由l个氨基酸残基组成的蛋白质,通过PSIPRED获取其二级结构概率矩阵,该矩阵为一个l行3列的矩阵,如下式(6)所示:

    其中,C、H...E表示蛋白质的三种二级结构:coil、helix、strand,si,1表示蛋白质中第i个氨基酸残基的二级结构是coil的概率,si,2表示蛋白质中第i个氨基酸残基的二级结构是helix的概率,si,3表示蛋白质中第i个氨基酸残基的二级结构是strand的概率;
    然后,利用上述步骤1-1的滑动窗口提取以及按行优先的方式组合得到每个氨基酸残基的维数为3*W的特征向量,如下式(7)所示:
    fi=(si,1,si,2,…,pi,3W)T   (7)
    步骤1-3、对于一个由l个氨基酸残基组成的蛋白质,通过查找蛋白质-维他命绑定位点倾向表得到含有其绑定倾向性信息的矩阵,该矩阵为一个l行1列的矩阵,如下式(8)所示:
    b1...bi...bl---(8)]]>
    其中,bi表示蛋白质中第i个氨基酸残基绑定维他命的倾向性;
    然后,利用上述步骤1-1的滑动窗口提取以及按行优先的方式组合得到每个氨基酸残基的维数为1*W的特征向量,如下式(9)所示:
    fi=(bi,1,bi,2,…,bi,W)T   (9)
    步骤1-4、将上述步骤得到的3个特征向量串行组合,得到长度为20*W+3*W+1*W的特征向量。

    3.  根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,所述步骤2中,使用所述三种特征选择算法构建多个特征子空间的具体实现包括以下步骤:
    步骤2-1、利用Joint Laplacian Feature Weights Learning算法对步骤1产生的原始特征空间进行特征选择,其包括:
    1)对于原始特征空间中的数据X=[x1,x2,…,xM]∈RN×M,使用下述式(10)和式(11)构造Laplacian矩阵HM×M与对角矩阵DM×M如下:

    Dii=∑jHij,1≤i≤M与1≤j≤M   (11)
    其中,RN×M表示X矩阵的规模,即X有M个有N维特征的元素,N表示特征维数,M表示样本数目即氨基酸残基数目;
    2)对上述步骤所得的Laplacian矩阵HM×M与对角矩阵DM×M求解广义特征值分解问题Hy=λDy,得到一个1以下的最大特征值对应的特征向量y;
    3)使用上述求得的特征向量y,根据下式(12)更新每一维特征对应的权重直到收敛为止:
    wit+1←23wit+13wit(2Xy+4ϵwt)i(2XXTwt+4ϵwt(wt)Twt)i,1iN---(12)]]>
    其中,w=[w1,w2,…,wi,…,wN]表示每个特征维度权重,T表示矩阵的转置,t表示迭代次数,ε表示控制w中零元素个数的松弛项;
    4)在上述求得的权重向量w=[w1,w2,…,wi,…,wN],选择所有大于零的权重分量wi对应的样本特征维度,最后将所有被选中的特征维度组合成的特征子空间输出,同时将子空间中特征维度的数目一并输出;
    步骤2-2、利用Fisher Score算法对步骤1产生的原始特征空间进行特征选择,其包括:
    1)对于具有c类原始样本的空间其中表示第i类的样本集合,表示特征向量,表示类别,M(i)表示第i类的样本数目,前述样本是指蛋白质的一个氨基酸残基;按照式(13)与式(14)计算每一类数据的每一维特征的均值和方差
    un(i)=1M(i)Σj=1M(i)xjn(i),]]>1≤n≤N与1≤i≤c   (13)
    (σn(i))2=1M(i)Σj=1M(i)(xjn(i)-un(i))2,]]>1≤n≤N与1≤i≤c   (14)
    2)使用上述中计算得来的所有均值和方差对每一个特征维度按照式(15)计算Fisher Score:
    Hn=Σi=1cM(i)(un(i)-un)2Σi=1cM(i)(σn(i))2,1nN---(15)]]>
    其中,un表示第n维度特征在所有数据上的均值,Hn表示第n个特征维度的Fisher Score值,N个特征维度都有一个Fisher Score值;
    根据式(15)得到一个Fisher Score向量H,H=[H1,H2,…,Hn,…HN];
    3)对上述Fisher Score向量H=[H1,H2,…,Hn,…HN]中的每个值进行从大到小排序,然后选择前个Fisher Score值对应的样本特征,将所有被选中特征组合成的特征子空间输出,其中表示选择留下了特征的个数,由步骤2-1确定;
    步骤2-3、利用Laplacian Score算法对步骤1产生的原始特征空间进行特征选择,其包括:
    1)对于原始特征空间中的数据X=[x1,x2,…,xM]∈RN×M,使用式(16)和式(17)构造Laplacian矩阵HM×M与对角矩阵DM×M如下:

    Dii=∑jHij,1≤i≤M与1≤j≤M   (17)
    其中,RN×M表示X矩阵的规模,即X有M个有N维特征的元素,N表示特征维数,M表示样本数目即氨基酸残基数目,σ表示高斯参数,式(16)用于求得两个样本即氨基酸残基的核空间的距离,该σ用于控制核空间的宽度;
    2)使用上述构造的Laplacian矩阵HM×M与对角矩阵DM×M,根据式(18)计算每一个特征维度的Laplacian Score:
    Ln=Σi=1MΣj=1M(xin-xjn)2HijΣi=1M(xin-x‾n)2Dij,1nN---(18)]]>
    其中,xin表示第i样本的第n个维度特征的值,表示所有样本第n个维度特征的均值;Ln表示第n个特征维度的Laplacian Score值,N个特征维度都有一个Laplacian Score值,最后根据式(18)得到一个Laplacian Score向量L,L=[L1,L2,…,Ln,…,LN];
    3)对上述计算求得的Laplacian Score向量L=[L1,L2,…,Ln,…,LN]中的每个值进行从大到小排序,然后选择前个Laplacian Score值对应的样本特征,将所有被选中特征组合成的特征子空间输出,其中表示选择留下了特征的个数,由前述步骤2-1确定。

    4.  根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,在所述步骤3,根据前述原始样本在每一个特征子空间中的分布情况,分别使用LIBSVM中的SVC分类算法训练一个子空间SVM预测器;最终在三个特征子空间训练出了三个不同的SVM预测器。

    5.  根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,在所述步骤4中,使用加权平均方法对步骤3所训练得到的三个不同特征子空间的SVM预测器进行融合,其包括:
    令ω1和ω2分别表示绑定位点类和非绑定位点类,S1、S2和S3分别表示三个不同特征子空间下的SVM预测器,表示评估样本集合,用于确定子空间对应的SVM模型的权重,其中评估样本集合的氨基酸残基是已知其类别的;对于每一个xi所表示的样本特征,S1、S2和S3将会输出三个2维的向量(s1,1(xi),s1,2(xi))T、(s2,1(xi),s2,2(xi))T和(s3,1(xi),s3,2(xi))T,每个2维向量的两个元素分别表示xi属于ω1和ω2的程度且两个元素和为1,故对于评估样本集合分别可以得到在S1、S2和S3上的预测结果矩阵:
    Ri=si,1(x1)si,2(x1)si,1(x2)si,2(x2)......si,1(xMeva)si,2(xMeva)T,i=1,2,3---(19)]]>
    首先,根据的真实类别构造目标结果矩阵:
    Rtrue=p11-p1p21-p2......pi1-pi......pMeva1-pMevaT,]]>若yi=ω1则pi=1,否则pi=0   (20)
    其次,计算每个特征子空间下的SVM分类器的误差:
    Ei=||Rtrue-Ri||22,i=1,2,3---(21)]]>
    再次,根据每个特征子空间SVM预测器在评估集合上的预测误差构造不同子空间SVM预测器的权重:
    wi=(Meva-Ei)Σk=13(Meva-Ek),i=1,2,3---(22)]]>
    其中,Meva表示完全被分错时的误差;
    最后,根据在评估样本集合上计算得到权重集成不同子空间的SVM预测器:
    S=Σi=13wi·Si---(23)]]>
    得到如上式(23)融合后的SVM预测器。

    6.  根据权利要求1所述的基于子空间融合的蛋白质-维他命绑定位点预测方法,其特征在于,在步骤5中,使用融合后的SVM预测器对待预测的蛋白质进行蛋白质-维他命绑定位点预测:
    对于待预测蛋白质中的每一个氨基酸残基,根据步骤1产生氨基酸残基在原始特征空间中的特征;然后对氨基酸残基的原始特征分别使用步骤2所述的三个特征选择算法产生三个子空间特征;再将三个子空间特征输入到步骤3所对应的三个SVM预测器S1、S2和S3得到三个以绑定维他命概率形式给出的预测结果,将这三个预测结果输入按照步骤4的加权平均方法集成后的SVM预测器中,输出氨基酸残基绑定或不绑定维他命的概率;最后以最大化 马修斯相关性系数的阈值T作为判断基准进行绑定判断:所有绑定概率大于等于T的氨基酸残基预测为绑定残基;其他氨基酸残基即绑定概率小于阈值T的氨基酸残基则预测为非绑定残基,其中T∈[0,1]。

    说明书

    说明书基于子空间融合的蛋白质-维他命绑定位点预测方法
    技术领域
    本发明涉及生物信息学蛋白质-维他命相互作用领域,具体而言涉及一种基于子空间融合的蛋白质-维他命绑定位点预测方法。
    背景技术
    蛋白质与维他命之间的相互作用在新陈代谢中起到了至关重要的作用,是生命活动中普遍存在且不可或缺的。通过生物实验的方法来确定蛋白质与维他命之间的绑定位点需要耗费大量的时间和资金,并且效率较低。随着测序技术的飞速发展和人类结构基因组的不断推进,蛋白质组学中已经累积了大量未进行与维他命绑定位点标定的蛋白质序列。因此应用生物信息学的相关知识,研发能够直接从蛋白质序列出发进行蛋白质-维他命绑定位点快速且准确的智能预测方法有着迫切需求,且对于发现和认识蛋白质结构和生理功能有着重要的意义。
    目前,针对预测蛋白质-维他命绑定位点的计算模型还很欠缺。目前仅仅发现一种专门设计用来进行蛋白质-维他命绑定位点预测的计算模型,即VitaPred。VitaPred是世界上第一个专门设计用来进行蛋白质-维他命绑定位点定位的预测器(B.Panwar,S.Gupta,and G.P.S.Raghava,“Prediction of vitamin interacting residues in a vitamin binding protein using evolutionary information,”BMC Bioinformatics,vol.14,Feb7,2013)。VitaPred是一种可以预测蛋白质与不同种类维他命(维他命A、维他命B、维他命B6等)的预测器。由于不同的维他命种类之间存在着差异性,所以VitaPred构造了4个非冗余的数据集合,分别是:含有187条与维他命有绑定关系的蛋白质(这个数据集合没有区分维他命的种类)、含有31条与维他命A有绑定关系的蛋白质、含有141条与维他命B有绑定关系的蛋白质、以及含有71条与维他命B6有绑定关系的蛋白质。VitaPred通过抽取氨基酸残基的位置特异性得分矩阵所表示的进化信息特征,然后输入SVM分类模型来判定一个氨基酸残基是否属于蛋白质维他命绑定位点。此外在,VitaPred所对应的论文中还尝试其他的特征及其组合与SVM结合的方法去预测蛋白质-维他命绑定位点,但是其预测精度以及其扩展性都没有进化信息特征与SVM结合的方法好,所以VitaPred的方法就代表进化信息特征与SVM结合的预测方法。
    然而,综合分析这个仅有的预测模型,其对蛋白质与不同种类维他命绑定位点预测问题都是用同一个特征子空间下的相同方法,从而导致的可解释性较差的问题有待克服;且可以发现预测精度距离实际应用还有较大差距,迫切需要进一步提高。
    发明内容
    为解决上述单个多维度特征空间中有互斥特征而导致预测精度距离实际应用差距较大且 可解释性较差的缺点,本发明的目的在于提出一种预测速度快、预测精度高的基于子空间融合的蛋白质-维他命绑定位点预测方法。
    为达成上述目的,本发明所采用的技术方案如下:
    一种基于子空间融合的蛋白质-维他命绑定位点预测方法,包括以下步骤:
    步骤1、特征抽取与特征组合,即分别利用PSI-BLAST算法、PSIPRED算法抽取蛋白质的进化信息特征与二级结构信息特征,以及根据蛋白质-维他命绑定位点倾向表抽取蛋白质的绑定倾向性信息特征,前述三种特征组成原始特征空间;然后使用滑动窗口与串行组合方式将蛋白质序列中的氨基酸残基转换为向量形式表示;
    步骤2、使用特征选择算法即Joint Laplacian Feature Weights Learning算法、Fisher Score算法以及Laplacian Score算法,分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,从而构建多个特征子空间;
    步骤3、对步骤2所得的每个特征子空间,训练一个SVM分类器;
    步骤4:使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;以及
    步骤5、基于融合后的SVM预测器对待预测蛋白质进行蛋白质-维他命绑定位点预测。
    进一步的实施例中,所述步骤1中,对于训练蛋白质的特征抽取和串行组合包括以下步骤:
    步骤1-1、对于一个由l个氨基酸残基组成的蛋白质,通过PSI-BLAST算法获取其位置特异性得分矩阵,该矩阵为一个l行20列的矩阵,从而将蛋白质一级结构信息(即进化信息)转换为矩阵形式表示:

    其中:A、C...Y表示20种氨基酸残基,pi,j表示蛋白质第i个氨基酸残基在进化过程中突变成20种氨基酸残基的第j个氨基酸残基的可能性;
    然后对PSSM中的每个值利用下述公式(2)进行逐行标准化处理:
    f(x)=11+e-x---(2)]]>
    标准化后的PSSM如式(3):

    之后,再使用大小为W的滑动窗口,提取每个氨基酸残基的特征矩阵:

    最后,将上述特征矩阵(4)按行优先的方式组合成维数为20*W的特征向量:
    fi=(pi,1normalized,pi,2normalized,...,pi,20Wnormalized)T---(5)]]>
    步骤1-2、对于一个由l个氨基酸残基组成的蛋白质,通过PSIPRED获取其二级结构概率矩阵,该矩阵为一个l行3列的矩阵,如下式(6)所示:

    其中,C、H...E表示蛋白质的三种二级结构:coil、helix、strand,si,1表示蛋白质中第i个氨基酸残基的二级结构是coil的概率,si,2表示蛋白质中第i个氨基酸残基的二级结构是helix的概率,si,3表示蛋白质中第i个氨基酸残基的二级结构是strand的概率;
    然后,利用上述步骤1-1的滑动窗口提取以及按行优先的方式组合得到每个氨基酸残基的维数为3*W的特征向量,如下式(7)所示:
    fi=(si,1,si,2,…,pi,3W)T   (7)
    步骤1-3、对于一个由l个氨基酸残基组成的蛋白质,通过查找蛋白质-维他命绑定位点倾向表得到含有其绑定倾向性信息的矩阵,该矩阵为一个l行1列的矩阵,如下式(8)所示:
    b1...bi...bl---(8)]]>
    其中,bi表示蛋白质中第i个氨基酸残基绑定维他命的倾向性;
    然后,利用上述步骤1-1的滑动窗口提取以及按行优先的方式组合得到每个氨基酸残基的维数为1*W的特征向量,如下式(9)所示:
    fi=(bi,1,bi,2,…,bi,W)T   (9)
    步骤1-4、将上述步骤得到的3个特征向量串行组合,得到长度为20*W+3*W+1*W的特征向量。
    进一步的实施例中,所述步骤2中,使用所述三种特征选择算法构建多个特征子空间的具体实现包括以下步骤:
    步骤2-1、利用Joint Laplacian Feature Weights Learning算法对步骤1产生的原始特征空间进行特征选择,其包括:
    1)对于原始特征空间中的数据X=[x1,x2,…,xM]∈RN×M,使用下述式(10)和式(11)构造Laplacian矩阵HM×M与对角矩阵DM×M如下:

    Dii=∑jHij,1≤i≤M与1≤j≤M   (11)
    其中,RN×M表示X矩阵的规模,即X有M个有N维特征的元素,N表示特征维数,M表示样本数目即氨基酸残基数目;
    2)对上述步骤所得的Laplacian矩阵HM×M与对角矩阵DM×M求解广义特征值分解问题Hy=λDy,得到一个1以下的最大特征值对应的特征向量y;
    3)使用上述求得的特征向量y,根据下式(12)更新每一维特征对应的权重直到收敛为止:
    wit+1←23wit+13wit(2Xy+4ϵwt)i(2XXTwt+4ϵwt(wt)Twt)i,1iN---(12)]]>
    其中,w=[w1,w2,…,wi,…,wN]表示每个特征维度权重,T表示矩阵的转置,t表示迭代次数,ε表示控制w中零元素个数的松弛项;
    4)在上述求得的权重向量w=[w1,w2,…,wi,…,wN],选择所有大于零的权重分量wi对应的 样本特征维度,最后将所有被选中的特征维度组合成的特征子空间输出,同时将子空间中特征维度的数目一并输出;
    步骤2-2、利用Fisher Score算法对步骤1产生的原始特征空间进行特征选择,其包括:
    1)对于具有c类原始样本的空间其中表示第i类的样本集合,表示特征向量,表示类别,M(i)表示第i类的样本数目,前述样本是指蛋白质的一个氨基酸残基;按照式(13)与式(14)计算每一类数据的每一维特征的均值和方差
    un(i)=1M(i)Σj=1M(i)xjn(i),]]>1≤n≤N与1≤i≤c   (13)
    (σn(i))2=1M(i)Σj=1M(i)(xjn(i)-un(i))2,]]>1≤n≤N与1≤i≤c   (14)
    2)使用上述中计算得来的所有均值和方差对每一个特征维度按照式(15)计算Fisher Score:
    Hn=Σi=1cM(i)(un(i)-un)2Σi=1cM(i)(σn(i))2,1nN---(15)]]>
    其中,un表示第n维度特征在所有数据上的均值,Hn表示第n个特征维度的Fisher Score值,N个特征维度都有一个Fisher Score值;
    根据式(15)得到一个Fisher Score向量H,H=[H1,H2,…,Hn,…HN];
    3)对上述Fisher Score向量H=[H1,H2,…,Hn,…HN]中的每个值进行从大到小排序,然后选择前个Fisher Score值对应的样本特征,将所有被选中特征组合成的特征子空间输出,其中表示选择留下了特征的个数,由步骤2-1确定;
    步骤2-3、利用Laplacian Score算法对步骤1产生的原始特征空间进行特征选择,其包括:
    1)对于原始特征空间中的数据X=[x1,x2,…,xM]∈RN×M,使用式(16)和式(17)构造Laplacian矩阵HM×M与对角矩阵DM×M如下:

    Dii=∑jHij,1≤i≤M与1≤j≤M   (17)
    其中,RN×M表示X矩阵的规模,即X有M个有N维特征的元素,N表示特征维数,M表示样本数目即氨基酸残基数目,σ表示高斯参数,式(16)用于求得两个样本即氨基酸残基的核空间的距离,该σ用于控制核空间的宽度;
    2)使用上述构造的Laplacian矩阵HM×M与对角矩阵DM×M,根据式(18)计算每一个特征维度的Laplacian Score:
    Ln=Σi=1MΣj=1M(xin-xjn)2HijΣi=1M(xin-x‾n)2Dij,1nN---(18)]]>
    其中,xin表示第i样本的第n个维度特征的值,表示所有样本第n个维度特征的均值;Ln表示第n个特征维度的Laplacian Score值,N个特征维度都有一个Laplacian Score值,最后根据式(18)得到一个Laplacian Score向量L,L=[L1,L2,…,Ln,…,LN];
    3)对上述计算求得的Laplacian Score向量L=[L1,L2,…,Ln,…,LN]中的每个值进行从大到小排序,然后选择前个Laplacian Score值对应的样本特征,将所有被选中特征组合成的特征子空间输出,其中表示选择留下了特征的个数,由前述步骤2-1确定。
    进一步的实施例中,在所述步骤3,根据前述原始样本在每一个特征子空间中的分布情况,分别使用LIBSVM中的SVC分类算法训练一个子空间SVM预测器;最终在三个特征子空间训练出了三个不同的SVM预测器。
    进一步的实施例中,在所述步骤4中,使用加权平均方法对步骤3所训练得到的三个不同特征子空间的SVM预测器进行融合,其包括:
    令ω1和ω2分别表示绑定位点类和非绑定位点类,S1、S2和S3分别表示三个不同特征子空间下的SVM预测器,表示评估样本集合,用于确定子空间对应的SVM模型的权重,其中评估样本集合的氨基酸残基是已知其类别的;对于每一个xi所表示的样本特征,S1、S2和S3将会输出三个2维的向量(s1,1(xi),s1,2(xi))T、(s2,1(xi),s2,2(xi))T和(s3,1(xi),s3,2(xi))T,每个2维向量的两个元素分别表示xi属于ω1和ω2的程度且两个元素和为1,故对于评估样本集合分别可以得到在S1、S2和S3上的预测结果矩阵:
    Ri=si,1(x1)si,2(x1)si,1(x2)si,2(x2)......si,1(xMeva)si,2(xMeva)T,i=1,2,3---(19)]]>
    首先,根据的真实类别构造目标结果矩阵:
    Rtrue=p11-p1p21-p2......pi1-pi......pMeva1-pMevaT,]]>若yi=ω1则pi=1,否则pi=0(20)
    其次,计算每个特征子空间下的SVM分类器的误差:
    Ei=||Rtrue-Ri||22,i=1,2,3---(21)]]>
    再次,根据每个特征子空间SVM预测器在评估集合上的预测误差构造不同子空间SVM预测器的权重:
    wi=(Meva-Ei)Σk=13(Meva-Ek),i=1,2,3---(22)]]>
    其中,Meva表示完全被分错时的误差;
    最后,根据在评估样本集合上计算得到权重集成不同子空间的SVM预测器:
    S=Σi=13wi·Si---(23)]]>
    得到如上式(23)融合后的SVM预测器。
    进一步的实施例中,在步骤5中,使用融合后的SVM预测器对待预测的蛋白质进行蛋白质-维他命绑定位点预测:
    对于待预测蛋白质中的每一个氨基酸残基,根据步骤1产生氨基酸残基在原始特征空间中的特征;然后对氨基酸残基的原始特征分别使用步骤2所述的三个特征选择算法产生三个子空间特征;再将三个子空间特征输入到步骤3所对应的三个SVM预测器S1、S2和S3得到三个以绑定维他命概率形式给出的预测结果,将这三个预测结果输入按照步骤4的加权平均方法集成后的SVM预测器中,输出氨基酸残基绑定或不绑定维他命的概率;最后以最大化马修斯相关性系数(matthews correlation coefficient)的阈值T作为判断基准进行绑定判断:所有绑定概率大于等于T的氨基酸残基预测为绑定残基;其他氨基酸残基即绑定概率小于阈值T的氨基酸残基则预测为非绑定残基,其中T∈[0,1]。
    由以上本发明的技术方案可知,本发明的有益效果在于:
    1、提高训练速度、预测速度及预测精度:使用基于特征选择算法的子空间融合技术,可 以构建更紧密的特征子空间,有效解决特征之间存在的互斥性的现象,降低特征空间的维度,从而提高训练速度、预测速度以及预测精度;
    2、提升模型的可解释性:使用了子空间融合技术后,对蛋白质与不同类别维他命绑定位点预测问题,选择的特征子空间是不一样的,更好的表达了蛋白质与不同种类维他命绑定位点预测问题之间的差异性,提升了模型的可解释性。
    附图说明
    图1为本发明一实施方式基于子空间融合的蛋白质-维他命绑定位点预测方法的原理示意图。
    具体实施方式
    为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
    如图1所示,根据本发明的较优实施例,基于子空间融合的蛋白质-维他命绑定位点预测方法,首先,使用PSI-BLAST、PSIPRED分别获取蛋白质的PSSM矩阵(即进化信息矩阵)、二级结构概率矩阵,以及根据蛋白质-维他命绑定位点倾向表生成的蛋白质的绑定倾向性矩阵;其次,使用滑动窗口和串行组合从PSSM矩阵、二级结构概率矩阵和蛋白质-维他命绑定位点倾向表构建每个氨基酸残基的特征向量;然后,使用Joint Laplacian Feature Weights Learning(算法1)、Fisher Score(算法2)和Laplacian Score(算法3)三个特征选择算法构建具有同一空间内特征不互斥、不同空间之间互补特性的三个特征子空间,在每个子空间上训练一个SVM预测器;最后,使用加权平均方法对多个SVM预测器使用集成技术形成最终的预测模型进行蛋白质-维他命绑定位点预测。
    所谓绑定位点,就是绑定了维他命的氨基酸残基。
    下面结合图1所示,详细说明本实施例的上述各步骤的具体实现。
    作为可选的方式,所述步骤1中,对于训练蛋白质的特征抽取和串行组合包括以下步骤::
    步骤1-1、对于一个由l个氨基酸残基组成的蛋白质,通过PSI-BLAST算法获取其位置特异性得分矩阵,该矩阵为一个l行20列的矩阵,从而将蛋白质一级结构信息(即进化信息)转换为矩阵形式表示:

    其中:A、C...Y表示20种氨基酸残基,pi,j表示蛋白质第i个氨基酸残基在进化过程中突变成上述20种氨基酸残基(A、C...Y)的第j个氨基酸残基的可能性;
    然后对PSSM中的每个值利用下述公式(2)进行逐行标准化处理:
    f(x)=11+e-x---(2)]]>
    标准化后的PSSM如式(3):

    之后,再使用大小为W的滑动窗口,提取每个氨基酸残基的特征矩阵:

    最后,将上述特征矩阵(4)按行优先的方式组合成维数为20*W的特征向量:
    fi=(pi,1normalized,pi,2normalized,...,pi,20Wnormalized)T---(5)]]>
    步骤1-2、对于一个由l个氨基酸残基组成的蛋白质,通过PSIPRED获取其二级结构概率矩阵,该矩阵为一个l行3列的矩阵,如下式(6)所示:

    其中,C、H...E表示蛋白质的三种二级结构:coil、helix、strand,si,1表示蛋白质中第i个氨基酸残基的二级结构是coil的概率,si,2表示蛋白质中第i个氨基酸残基的二级结构是 helix的概率,si,3表示蛋白质中第i个氨基酸残基的二级结构是strand的概率;
    然后,利用上述步骤1-1的滑动窗口提取以及按行优先的方式组合得到每个氨基酸残基的维数为3*W的特征向量,如下式(7)所示:
    fi=(si,1,si,2,…,pi,3W)T   (7)
    步骤1-3、对于一个由l个氨基酸残基组成的蛋白质,通过查找蛋白质-维他命绑定位点倾向表得到含有其绑定倾向性信息的矩阵,该矩阵为一个l行1列的矩阵,如下式(8)所示:
    b1...bi...bl---(8)]]>
    其中,bi表示蛋白质中第i个氨基酸残基绑定维他命的倾向性;
    然后,利用上述步骤1-1的滑动窗口提取以及按行优先的方式组合得到每个氨基酸残基的维数为1*W的特征向量,如下式(9)所示:
    fi=(bi,1,bi,2,…,bi,W)T   (9)
    步骤1-4、将上述步骤得到的3个特征向量串行组合,得到长度为20*W+3*W+1*W的特征向量。
    作为可选的实施方式,所述步骤2中,使用所述三种特征选择算法构建多个特征子空间的具体实现包括以下步骤:
    步骤2-1、利用Joint Laplacian Feature Weights Learning算法对步骤1产生的原始特征空间进行特征选择,其包括:
    1)对于原始特征空间中的数据X=[x1,x2,…,xM]∈RN×M,使用下述式(10)和式(11)构造Laplacian矩阵HM×M与对角矩阵DM×M如下:

    Dii=∑jHij,1≤i≤M与1≤j≤M   (11)
    其中,RN×M表示X矩阵的规模,即X有M个有N维特征的元素,N表示特征维数,M表示样本数目即氨基酸残基数目;
    2)对上述步骤所得的Laplacian矩阵HM×M与对角矩阵DM×M求解广义特征值分解问题 Hy=λDy,得到一个1以下的最大特征值对应的特征向量y(Hy=λDy一定存在一个特征值为1,特征向量为y=[1,1,…,1]T,而这个y对于特征选择来说是无用的,所以需要一个特征值小于1的,特征向量不是y=[1,1,…,1]T);
    3)使用上述求得的特征向量y,根据下式(12)更新每一维特征对应的权重直到收敛为止:
    wit+1←23wit+13wit(2Xy+4ϵwt)i(2XXTwt+4ϵwt(wt)Twt)i,1iN---(12)]]>
    其中,w=[w1,w2,…,wi,…,wN]表示每个特征维度权重,T表示矩阵的转置,t表示迭代次数,ε表示控制w中零元素个数的松弛项(上述公式(12)是一个迭代公式,t表示第t次迭代,用t来标记w在不同的迭代次数中值不一样);
    4)在上述求得的权重向量w=[w1,w2,…,wi,…,wN],选择所有大于零的权重分量wi对应的样本特征维度(wi是w=[w1,w2,…,wi,…,wN]中的一个分量),最后将所有被选中的特征维度组合成的特征子空间输出,同时将子空间中特征维度的数目一并输出;
    步骤2-2、利用Fisher Score算法对步骤1产生的原始特征空间进行特征选择,其包括:
    1)对于具有c类原始样本的空间其中表示第i类的样本集合,表示特征向量,表示类别,M(i)表示第i类的样本数目,前述样本是指蛋白质的一个氨基酸残基;按照式(13)与式(14)计算每一类数据的每一维特征的均值和方差(值得一提的是:原始样本中的样本是表示一个具体事物;在本实施例中即蛋白质-维他命绑定位点预测中,一个样本就表示蛋白质的一个氨基酸残基,亦:一个样本即一个元素):
    un(i)=1M(i)Σj=1M(i)xjn(i),]]>1≤n≤N与1≤i≤c   (13)
    (σn(i))2=1M(i)Σj=1M(i)(xjn(i)-un(i))2,]]>1≤n≤N与1≤i≤c   (14)
    2)使用上述中计算得来的所有均值和方差对每一个特征维度按照式(15)计算Fisher Score:
    Hn=Σi=1cM(i)(un(i)-un)2Σi=1cM(i)(σn(i))2,1nN---(15)]]>
    其中,un表示第n维度特征在所有数据上的均值,Hn表示第n个特征维度的Fisher Score值,N个特征维度都有一个Fisher Score值;
    根据式(15)得到一个Fisher Score向量H,H=[H1,H2,…,Hn,…HN];
    3)对上述Fisher Score向量H=[H1,H2,…,Hn,…HN]中的每个值进行从大到小排序,然后选择前个Fisher Score值对应的样本特征,将所有被选中特征组合成的特征子空间输出,其中表示选择留下了特征的个数,由步骤2-1确定(如前述步骤2-1的分步骤4)中,同时输出了);
    步骤2-3、利用Laplacian Score算法对步骤1产生的原始特征空间进行特征选择,其包括:
    1)对于原始特征空间中的数据X=[x1,x2,…,xM]∈RN×M,使用式(16)和式(17)构造Laplacian矩阵HM×M与对角矩阵DM×M如下:

    Dii=∑jHij,1≤i≤M与1≤j≤M   (17)
    其中,RN×M表示X矩阵的规模,即X有M个有N维特征的元素,N表示特征维数,M表示样本数目即氨基酸残基数目,σ表示高斯参数,式(16)用于求得两个样本即氨基酸残基的核空间的距离,该σ用于控制核空间的宽度;
    2)使用上述构造的Laplacian矩阵HM×M与对角矩阵DM×M,根据式(18)计算每一个特征维度的Laplacian Score:
    Ln=Σi=1MΣj=1M(xin-xjn)2HijΣi=1M(xin-x‾n)2Dij,1nN---(18)]]>
    其中,xin表示第i样本的第n个维度特征的值,表示所有样本第n个维度特征的均值;Ln表示第n个特征维度的Laplacian Score值,N个特征维度都有一个Laplacian Score值,最后根据式(18)得到一个Laplacian Score向量L,L=[L1,L2,…,Ln,…,LN];
    3)对上述计算求得的Laplacian Score向量L=[L1,L2,…,Ln,…,LN]中的每个值进行从大到小排序,然后选择前个Laplacian Score值对应的样本特征,将所有被选中特征组合成的特征子空间输出,其中表示选择留下了特征的个数,由前述步骤2-1确定(如前述步骤2-1的分步骤4)中,同时输出了)。
    由于Fisher Score算法和Laplacian Score算法没有主动确定选择多少特征维数的能力,所 以本实施例中借助步骤2-1的算法自主确定选择特征维数的能力。
    作为可选的实施方式,在所述步骤3,根据前述原始样本在每一个特征子空间中的分布情况,分别使用LIBSVM中的SVC分类算法训练一个子空间SVM预测器;最终在三个特征子空间训练出了三个不同的SVM预测器。
    进一步的实施例中,在所述步骤4中,使用加权平均方法对步骤3所训练得到的三个不同特征子空间的SVM预测器进行融合,其包括:
    令ω1和ω2分别表示绑定位点类和非绑定位点类,S1、S2和S3分别表示三个不同特征子空间下的SVM预测器,表示评估样本集合,用于确定子空间对应的SVM模型的权重,其中评估样本集合的氨基酸残基是已知其类别的;对于每一个xi所表示的样本特征,S1、S2和S3将会输出三个2维的向量(s1,1(xi),s1,2(xi))T、(s2,1(xi),s2,2(xi))T和(s3,1(xi),s3,2(xi))T,每个2维向量的两个元素分别表示xi属于ω1和ω2的程度且两个元素和为1,故对于评估样本集合分别可以得到在S1、S2和S3上的预测结果矩阵:
    Ri=si,1(x1)si,2(x1)si,1(x2)si,2(x2)......si,1(xMeva)si,2(xMeva)T,i=1,2,3---(19)]]>
    首先,根据的真实类别构造目标结果矩阵:
    Rtrue=p11-p1p21-p2......pi1-pi......pMeva1-pMevaT,]]>若yi=ω1则pi=1,否则pi=0   (20)
    其次,计算每个特征子空间下的SVM分类器的误差:
    Ei=||Rtrue-Ri||22,i=1,2,3---(21)]]>
    再次,根据每个特征子空间SVM预测器在评估集合上的预测误差构造不同子空间SVM预测器的权重:
    wi=(Meva-Ei)Σk=13(Meva-Ek),i=1,2,3---(22)]]>
    其中,Meva表示完全被分错时的误差;
    最后,根据在评估样本集合上计算得到权重集成不同子空间的SVM预测器:
    S=Σi=13wi·Si---(23)]]>
    得到如上式(23)融合后的SVM预测器。
    本实施例中,上述评估样本集合和待预测蛋白质是不一样的,是两个不同的集合;待预测的蛋白质的氨基酸残基是不知道类别,而评估样本集合是知道类别的,但在本实施例中用它(即评估样本集合)来确定子空间对应的SVM模型的权重,其实际意义上还是属于用来构建模型的数据一部分。
    作为可选的实施方式,在步骤5中,使用融合后的SVM预测器对待预测的蛋白质进行蛋白质-维他命绑定位点预测:
    对于待预测蛋白质中的每一个氨基酸残基,根据步骤1产生氨基酸残基在原始特征空间中的特征;然后对氨基酸残基的原始特征分别使用步骤2所述的三个特征选择算法产生三个子空间特征;再将三个子空间特征输入到步骤3所对应的三个SVM预测器S1、S2和S3得到三个以绑定维他命概率形式给出的预测结果,将这三个预测结果输入按照步骤4的加权平均方法集成后的SVM预测器中,输出氨基酸残基绑定或不绑定维他命的概率;最后以最大化马修斯相关性系数(matthews correlation coefficient)的阈值T作为判断基准进行绑定判断:所有绑定概率大于等于T的氨基酸残基预测为绑定残基;其他氨基酸残基即绑定概率小于阈值T的氨基酸残基则预测为非绑定残基,其中T∈[0,1]。
    由以上本发明的一个示例性技术方案,在该实施例中提出的预测方法,其基于蛋白质的进化信息、二级结构信息以及绑定倾向性信息,采用基于多个特征选择算法的子空间融合技术及支持向量机(SVM)预测技术来进行蛋白质-维他命位点的预测,使用PSI-BLAST算法(A.A.Schaffer et al.,“Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements,”Nucleic Acids Res.,vol.29,pp.2994–3005,2001)来生成表示蛋白质的进化信息的位置特异性得分矩阵;使用PSIPRED算法(D.T.Jones,“Protein secondary structure prediction based on position-specific scoring matrices,”J Mol Biol,vol.292,no.2,pp.195-202,Sep17,1999)来提取蛋白质的二级结构信息;使用生成绑定倾向性算法(D.Yu,J.Hu,J.Yang et al.,“Designing template-free predictor for targeting protein-ligand binding sites with classifier ensemble and spatial clustering,”IEEE/ACM Transactions on Computational Biology and Bioinformatics,vol.10,no.4,pp.994-1008,2013)来生成蛋白质的绑定倾向性信息。使用多个特征选择算法(H.Yan,and J.Yang,“Joint Laplacian feature weights  learning,”Pattern Recognition,vol.47,no.3,pp.1425-1432,2014;Bishop,C.“Neural Networks for Pattern Recognition,”Clarendon Press:Oxford,1995.)来构造含有互补信息的子空间;使用加权平均的集成技术进行多预测器融合,最后使用基于软分类的阈值分割技术进行绑定位点的判定。与目前仅有的VitaPred预测器相比,具有更高的预测精度和更好的可解释性。
    下面以预测蛋白质2ZZA_A的不区分种类的维他命绑定位点为例,预测结果如表1所示。
    蛋白质2ZZA_A的氨基酸序列如下所示:
    >2ZZA_A
    VIVSMIAALANNRVIGLDNKMPWHLPAELQLFKRATLGKPIVMGRNTFESIGRPLPGRL NIVLSRQTDYQPEGVTVVATLEDAVVAAGDVEELMIIGGATIYNQCLAAADRLYLTHIELTTE GDTWFPDYEQYNWQEIEHESYAADDKNPHNYRFSLLERVX
    该蛋白质共有19个维他命绑定位点。
    首先根据步骤1所描述使用PSI-BLAST算法、PSIPRED算法和蛋白质-维他命绑定位点倾向表抽取蛋白质2ZZA_A中每个氨基酸残基的原始特征;其次使用步骤2中所描述的Joint Laplacian Feature Weights Learning(算法1)、Fisher Score(算法2)和Laplacian Score(算法3)三个特征选择算法对蛋白质2ZZA_A中每个氨基酸残基的原始特征进行子空间特征选择,形成三个子空间特征,再将三个子空间特征输入到步骤3所对应的三个SVM预测器S1、S2和S3得到三个以绑定维他命概率形式给出的预测结果,将这三个预测结果输入按照步骤4的加权平均方法集成后的SVM预测器中,得到最终的蛋白质2ZZA_A与维他命的绑定的预测情况,最终预测结果如表1所示:
    表1本实施例方法与目前仅有的蛋白质-维他命绑定位点预测器对2ZZA_A的预测结果对比

    由表1可以看出,使用本实施例的预测方法,正确预测数15个维他命绑定位点,0个假阳性维他命绑定位点,4个假阴性维他命绑定位点,预测结果明显优于目前现有技术中仅有的蛋白质-维他命绑定位点预测器。
    虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的?;し段У笔尤ɡ笫樗缍ㄕ呶?。

    关 键 词:
    基于 空间 融合 蛋白质 维他命 定位 预测 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:基于子空间融合的蛋白质维他命绑定位点预测方法.pdf
    链接地址://www.4mum.com.cn/p-6142919.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03