• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 15
    • 下载费用:20 金币  

    重庆时时彩综合版: 基于多组学丰度信息的蛋白质二级质谱鉴定方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201610737420.7

    申请日:

    2016.08.26

    公开号:

    CN106404878A

    公开日:

    2017.02.15

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G01N 27/62申请日:20160826|||公开
    IPC分类号: G01N27/62 主分类号: G01N27/62
    申请人: 中山大学中山眼科中心
    发明人: 谢尚潜; 肖传乐; 谢志
    地址: 510060 广东省广州市先烈南路54号
    优先权:
    专利代理机构: 广州华进联合专利商标代理有限公司 44224 代理人: 万志香
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610737420.7

    授权公告号:

    ||||||

    法律状态公告日:

    2019.03.19|||2017.03.15|||2017.02.15

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于多组学丰度信息的蛋白质二级质谱鉴定方法。该基于多组学丰度信息的蛋白质二级质谱鉴定方法包括如下步骤:1)利用转录组或翻译组多组学的丰度信息数据和实验图谱数据的初步鉴定结果,构建初步鉴定蛋白和多组学丰度信息的对应关系;2)通过初步关系评估多组学丰度信息的蛋白鉴定能力;3)将多组学丰度信息的蛋白鉴定能力融入到实验图谱和理论图谱的肽段打分中,选择得分最高的肽段作为此实验图谱的最终鉴定结果?;诙嘧檠Х岫刃畔⒌牡鞍字识吨势准ǚ椒ǖ募ㄓ行е势琢亢偷鞍字孰亩问哂谀壳暗乃惴?,同时能多核并行快速运行,鉴定效率大大提高。

    权利要求书

    1.一种基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在于,包括如下步骤:
    (1)将转录组或翻译组的二代测序碱基序列定位到参考基因组,根据定位到的位置获
    得每个基因的丰度信息;
    (2)将蛋白质的质谱实验图谱利用Proverb蛋白鉴定方法进行初步鉴定,统计每个蛋白
    的初步鉴定结果;
    (3)根据基因注释信息将基因和蛋白名称一一匹配,确定基因不同程度丰度信息初步
    鉴定蛋白数目,并计算得到每个丰度区间的初步蛋白的鉴定概率;
    (4)对丰度区间的丰度值和初步蛋白鉴定概率构建丰度信息的蛋白鉴定能力模型,根
    据模型获得每个基因对应丰度信息的蛋白鉴定能力;
    (5)在蛋白质谱的实验图谱与理论图谱的打分中融入蛋白相应基因的蛋白鉴定能力,
    将每张实验图谱的在理论图谱中的所有匹配得分进行排序,选择最高得分的肽段作为图谱
    鉴定结果,并对结果进行质量控制。
    2.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在
    于,步骤(1)所述的将转录组或翻译组的二代测序碱基序列定位到参考基因组,根据定位到
    的位置获得每个基因的丰度信息,具体包括如下步骤:
    (2.1)利用Fanse2软件获得多组学序列的比对结果信息,包括正反链、染色体名称和染
    色体位置信息,分别记为r_strand、r_chrom和r_pos,提取所有已知基因注释信息的染色体
    名、起始位置、终止位置和正反链,记为g_chrom、g_start、g_end和g_strand;
    (2.2)初始化每个基因的比对结果存储数组gene_read=0,读取一个序列的r_strand、
    r_chrom和r_pos信息,把该序列的信息与所有基因的信息比较,判断该序列是否位于基因
    上;如果以下三个条件的同时成立,则认为序列位于基因上,此时该基因的gene_read数加
    1;三个条件如下:r_strand=g_strand;r_chrom=g_chrom;r_pos>=g_start并且r_pos<
    =g_end;
    (2.3)逐个读取序列的信息,重复步骤2)直到处理一个样本的所有比对序列信息,其基
    因的存储数组中的值即为比对到各个基因上的序列数记为g_read,将数组的所有值累加即
    为总的序列比对数记为R_mapped,根据以下公式计算多组学基因的丰度信息FPKM值:FPKM
    =g_read×109/(R_mapped×g_length),其中基因长度g_length=g_end–g_start。
    3.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在
    于,步骤(3)具体包括如下步骤:
    (3.1)匹配利用Proverb方法鉴定到的蛋白和基因,得到每个基因对应蛋白的丰度信息
    FPKM值;
    (3.2)将丰度信息值分为步长为1的300等分区间,计算每个区间中初步鉴定到的蛋白
    个数,第i个区间的鉴定到蛋白个数记为Ni,初步鉴定到的所有蛋白数记为Nt,把鉴定到的
    蛋白个数(Ni)比上所有蛋白数(Nt)即为每个丰度信息区间的蛋白鉴定概率,计算方法为:
    Ni/Nt。
    4.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在
    于,步骤(4)具体包括如下步骤:
    (4.1)根据步骤(3)中每个区间的FPKM值和蛋白鉴定概率值建立两者关系的统计定量
    化模型,模型的关系式如下:
    <mrow> <mi>y</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>a</mi> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> </mrow> </mtd> <mtd> <mrow> <mi>x</mi> <mo>&le;</mo> <mi>L</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>a</mi> <mo>&CenterDot;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> </mrow> </mtd> <mtd> <mrow> <mi>x</mi> <mo>&gt;</mo> <mi>L</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
    其中x为基因的丰度信息FPKM值,y为相应FPKM值的蛋白鉴定概率;当x值大于L(L=
    300)时,取x恒等于300;
    (4.2)统计每一基因的FPKM值,并将其FPKM值代入步骤(4.1)中的关系模型中,根据计
    算获得的y值定量化基因丰度信息的蛋白鉴定能力。
    5.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在
    于,步骤(5)所述的打分过程具体包括如下步骤:
    (5.1)逐个读取实验图谱峰信息判断理论图谱和实验图谱是否匹配,如果理论图谱和
    实验图谱对应峰的荷质比之差小于等于质谱仪的测量误差,则认为这个峰匹配,之后记录
    其匹配的信息;
    (5.2)设E为产生的理论碎片个数,K为理论图谱和实验图谱的匹配个数,Q代表随机匹
    配概率事件,i为随机匹配概率,r为多组学丰度信息的先验概率,P为E个理论峰中有K个峰
    匹配的概率;则P由下面二项式分别概率密度函数计算:
    <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>Q</mi> <mo>=</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mi>f</mi> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mi>o</mi> <mi>r</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>P</mi> <mo>=</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>K</mi> </mtd> </mtr> <mtr> <mtd> <mi>E</mi> </mtd> </mtr> </mtable> </mfenced> <msup> <mi>Q</mi> <mi>K</mi> </msup> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>Q</mi> <mo>)</mo> </mrow> <mrow> <mi>E</mi> <mo>-</mo> <mi>K</mi> </mrow> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>
    其中factor=全局相对高峰个数/实验图谱的峰范围;
    (5.3)待分析实验图谱和理论图谱进行连续匹配峰的打分,设E1为理论图谱产生的理
    论连续匹配个数,K1为实验图谱实际连续匹配的个数,B_factor为背景值,B_factor=统计
    大量实验图谱连续匹配的平均值/统计大量对应理论图谱连续匹配的平均值,Q1反映了某
    一图谱在步骤(5.2)匹配情况下连续匹配的概率,P1在E1个理论连续匹配个数中实际存有
    K1个连续匹配的概率,由下面二项式分布概率密度函数计算:
    <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>Q</mi> <mn>1</mn> <mo>=</mo> <mrow> <mo>(</mo> <mi>B</mi> <mo>_</mo> <mi>f</mi> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mi>o</mi> <mi>r</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>r</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>K</mi> <mo>/</mo> <mi>E</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>P</mi> <mn>1</mn> <mo>=</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>K</mi> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mi>E</mi> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mi>Q</mi> <msup> <mn>1</mn> <mrow> <mi>K</mi> <mn>1</mn> </mrow> </msup> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>Q</mi> <mn>1</mn> <mo>)</mo> </mrow> <mrow> <mi>E</mi> <mn>1</mn> <mo>-</mo> <mi>K</mi> <mn>1</mn> </mrow> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>
    所述待分析实验图谱和理论图谱连续匹配个数具体是指图谱中两两连续匹配的对数;
    (5.4)对匹配峰强度信息进行分析,求得强度因子,具体过程为:
    设M_I为统计所有实验图谱中某两个氨基酸产生的峰大于等于最强峰的33%的个数,
    设M_E为期望总的离子的个数,则两个氨基酸中间的断裂概率Yi通过下式得到:
    Yi=M_I/M_E;
    进而得到强度因子Infactor为(1+Ym+Bm)/(1+0.155*m_p),其中Ym=∑Yi,Bm=∑Bi;
    Ym和Bm分别为实验图谱强度大于全局最强峰的33%的匹配峰Yi和Bi分值之和;m_p为一张
    实验图谱中强度大于最强峰的33%的匹配个数;0.155是理论平均匹配值;
    (5.5)结合上述步骤(5.2),(5.3)和(5.4)的打分方法,采用下面公式得到肽段的得分:
    PEP_S=Infactor*(-10)*log10(P*P1);
    (5.6)对计算的PEP_S分数去除背景值,首先设在真实库和随机库统计概率相等的背景
    值为其在某种情况下的背景值B_B,背景值B_B是经过贝叶斯网络学习得到的,计算去背景
    值肽段得分PEP_S_M:
    PEP_S_M=PEP_S-B_B;
    (5.7)取出下一个肽段,重复执行步骤(5.1)-(5.6),直到符合此图谱母离子误差的所
    有肽段均被打分处理;
    (5.8)对此图谱所有候选肽段的得分PEP_S_M进行排序,得分最高理论肽段作为当前图
    谱的鉴定结果。
    6.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在
    于,步骤(5)所述的鉴定结果采用FDR<=0.01进行质量控制,得出最终鉴定结果。
    7.根据权利要求6所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在
    于,所述质量控制具体包括如下步骤:
    1)统计待分析图谱所有二级图谱中的鉴定结果肽段得分最小值和最大值;
    2)统计在最小值和最大值之间,其中大于每个分值的鉴定结果中真实库和随机库肽段
    的个数,并计算每个分值为阀值时的FDR的值;
    3)按得分值从小到大寻找每个分值,直到找到FDR<=0.01时,此分值为待分析图谱的
    整体阀值;
    4)根据步骤3)找到整体阀值,以此阀值过滤待分析图谱的鉴定结果,小于此阀值的结
    果被过滤掉,其结果作为待分析图谱的最终鉴定结果。

    关 键 词:
    基于 多组学丰度 信息 蛋白质 二级 鉴定 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基于多组学丰度信息的蛋白质二级质谱鉴定方法.pdf
    链接地址://www.4mum.com.cn/p-6014541.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03