• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    重庆时时彩的登录网站: 一种用于16SRRNA基因的细菌群落组成和多样性分析的自动化方法.pdf

    关 键 词:
    一种 用于 16 SRRNA 基因 细菌 群落 组成 多样性 分析 自动化 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611187576.9

    申请日:

    2016.12.20

    公开号:

    CN106815492A

    公开日:

    2017.06.09

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 19/22申请日:20161220|||公开
    IPC分类号: G06F19/22(2011.01)I 主分类号: G06F19/22
    申请人: 上海派森诺生物科技股份有限公司
    发明人: 薛正晟; 寇文伯; 王慧娟; 姜丽荣; 孙子奎
    地址: 200231 上海市徐汇区银都路218号2号楼1、2层
    优先权:
    专利代理机构: 上海天翔知识产权代理有限公司 31224 代理人: 吕伴
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611187576.9

    授权公告号:

    ||||||

    法律状态公告日:

    2019.02.12|||2017.07.04|||2017.06.09

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开的一种用于16S??rRNA基因的细菌群落组成和多样性分析的自动化方法,其提供的16S??rRNA测序数据分析流程以测序原始序列数据作为输入,调用业界标准的分析工具(如:Mothur、QIIME等),最终对数据进行可视化,并得到易于解读的分析结果。本发明包含了目前流行的主流分析项目,同时分析内容实现??榛?,数据挖掘分析的方法更多样、更深入,可以根据不同的需要结合不同的分析??槟谌?,先后顺序的流程安排也更合理;此外,消除了测序深度不一导致的分析误差,使分析结果更全面、准确、可靠。

    权利要求书

    1.一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法,其提供的16S
    rRNA测序数据分析流程以测序原始序列数据作为输入,调用业界标准的分析工具,最终对
    数据进行可视化,并得到易于解读的分析结果,其特征在于,具体包括以下步骤:
    1)通过原始序列的测序质量值、模糊碱基数目、序列长度、引物序列和barcode序列的
    匹配度信息,对原始序列进行过滤和质量控制,并检查和剔除嵌合体,获得高质量序列;
    2)对步骤1)获得的高质量序列的长度分布进行统计;
    3)对步骤1)获得的高质量序列按97%的序列相似度进行归并和OTU划分,并选取每个
    OTU中丰度最高的序列作为该OTU的代表序列,随后,根据每个OTU在每个样本中所包含的序
    列数,构建OTU在各样本中丰度的矩阵文件;
    4)通过将OTU代表序列与对应数据库的模板序列相比对,获取每个OTU所对应的分类学
    信息;
    5)将丰度值低于全体样本测序总量0.001%的OTU去除,并将去除了稀有OTU的此丰度
    矩阵用于后续的一系列分析;
    6)根据获得的OTU丰度矩阵,计算各样本组共有OTU的数量,并通过Venn图直观地呈现
    各样本组所共有和独有OTU所占的比例;
    7)对OTU丰度矩阵中每个样本的序列总数在不同测序深度下依次随机抽样,以每个深
    度下抽取到的序列数及其对应的OTU数绘制稀疏曲线;
    8)对OTU丰度矩阵中每个样本所对应的OTU总数绘制Specaccum物种累积曲线;
    9)对OTU及其对应的丰度值经Log2对数转换绘制各样本的丰度等级曲线;
    对OTU丰度矩阵中的全体样本根据最低测序深度统一进行随机重抽样(即序列拉平处
    理),随后,分别对每个样本计算四种多样性指数;
    10)根据OTU划分和分类地位鉴定结果,可以获得每个样本在各分类水平的具体组成;
    11)获取各样本在指定分类水平上的组成和丰度分布表,并通过饼图、柱状图或面积图
    呈现分析结果,根据研究对象是单个或多个群落样本,绘图结果可能会以不同方式进行展
    示;
    12)获取各样本在指定分类水平上的组成和绝对丰度分布表,调用Metastats的统计学
    算法,对指定分类水平的各个分类单元在样本组之间的序列量即绝对丰度差异进行两两比
    较检验;
    13)获取各样本在指定分类水平上的组成和相对丰度分布表,进行LEfSe分析,筛选关
    键的生物标记物;
    14)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两组样
    本中的丰度分布差异进行Wilcoxon秩和检验或Welch’s t检验,从而获得在两组中存在显
    著性差异的分类单元;
    15)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两个样
    本中的丰度分布差异进行Fisher’s检验,从而获得在两个样本中存在显著性差异的分类单
    元;
    16)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在多组样
    本中的丰度分布差异进行ANOVA方差分析/Kruskal-Wallis H检验,从而获得在多组样本中
    存在显著性差异的分类单元;
    18)对前述OTU代表序列,通过PyNAST和MAFFT等工具进行多序列比对,之后通过
    FastTree工具构建OTU代表序列的系统发育树,该文件以Newick格式保存;
    19)根据前述OTU丰度矩阵和OTU划分和分类地位鉴定结果,将每个样本所含有的OTU的
    丰度信息和分类学组成数据映射至NCBI Taxonomy所提供的微生物分类等级树,统一呈现
    所有样本在各分类水平的具体组成;
    20)获取各样本在指定分类水平上的组成和相对丰度分布表,对样本总体在各分类水
    平的组成构建等级树,同时以不同颜色区分各分类单元,并通过节点大小反映它们的丰度
    分布;
    21)获取各样本在指定分类水平上的组成和丰度分布表,通过Krona软件进行群落分类
    学组成的交互展示;
    22)根据前述OTU丰度矩阵和OTU划分和分类地位鉴定结果,构建交互式OTU热图;
    23)获取各样本在指定分类水平上的组成和相对丰度分布表,对丰度前50位的分类单
    元进行聚类分析并绘制热图;
    24)获取各样本在指定分类水平上的组成和相对丰度分布表,对指定分类水平的群落
    组成结构进行PCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;
    25)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间
    的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像
    描述样本间基于微生物系统发育关系的群落空间分布特征;
    26)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间
    的距离矩阵,由加权及非加权距离矩阵分别进行NMDS非度量多维尺度分析,通过二维或三
    维排序图描述群落样本的结构分布;
    27)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间
    的距离矩阵,对加权及非加权距离矩阵分别进行UPGMA聚类分析;
    28)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间
    的距离矩阵,对加权及非加权距离矩阵分别进行组内和组间距离均值进行t检验,并通过
    1000次蒙特卡罗置换检验判断统计显著性,从而衡量组内和组间距离差异;
    30)获取各样本在指定分类水平上的组成和相对丰度分布表,通过三元相图分析显示
    出不同物种在各样本中的相对丰度差异;
    31)获取各样本在指定分类水平上的组成和相对丰度分布表,对指定分类水平的相对
    丰度矩阵进行RDA冗余分析,通过1000次置换检验确定统计显著性,并生成包含“样本—分
    类单元—影响因素”三种元素排序图;
    32)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间
    的距离矩阵,由加权及非加权距离矩阵分别进行CAP主坐标典型相关分析分析,并作1000次
    置换检验,确定组间差异是否具有统计学显著性,使用CAP分析得到的前两维数据生成CAP
    约束排序图;
    33)获取各样本在指定分类水平上的组成和相对丰度分布表和样本分组数据构建PLS-
    DA判别模型,并根据分析得到的前两维数据生成PLS-DA约束排序图;
    34)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间
    的距离矩阵,由加权及非加权距离矩阵分别进行Adonis/PERMANOVA分析,并作999次置换检
    验确定组间差异是否具有统计学显著性;
    35)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间
    的距离矩阵,由加权及非加权距离矩阵分别进行ANOSIM分析,通过对样本距离等级排序来
    判断样本组内和组间差异的大小,并通过置换检验评价原始样本组间差异的统计学显著
    性;
    36)根据前述对OTU丰度矩阵中的全体样本根据最低测序深度统一进行随机重抽样后,
    对重抽样OTU丰度矩阵使用随机森林算法挑取丰度分布在不同组间存在显著差异的OTU。挑
    取OTU时使用1000棵随机森林决策树进行建模,并以10倍交叉验证估计“基线”误差的大小
    随机森林分析;
    37)获取各样本在指定分类水平上的组成和相对丰度分布表,计算丰度位于前50位的
    分类单元之间的Spearman等级相关系数,对其中|rho|>0.8且P值<0.01的相关优势属构建
    关联网络,并进行可视化。
    38)根据前述对OTU丰度矩阵中的全体样本根据最低测序深度统一进行随机重抽样后,
    去除绝对丰度<2的OTU,进行二分网络分析,并进行可视化,样本和OTU根据弹簧镶嵌模型排
    布。
    39)对前述获得的高质量序列,使用PICRUSt软件,根据KEGG数据库中微生物代谢功能
    的类别对群落样本进行预测,并通过条形图展示各样本中编码的功能基因类别及其丰度。

    说明书

    一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法

    技术领域:

    本发明一般有关于分子生物学技术领域,特别涉及高通量测序数据分析技术领
    域,并且更具体地说,涉及一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化
    方法。

    背景技术:

    新一代高通量测序技术大幅度降低了测序的时间和成本,使得大规模测序逐渐成
    为常规的研究和检测手段,测序产生的数据量急剧增加。如何高效地分析这些数据,已成为
    迫切需要解决的问题。

    目前高通量测序数据分析工具很多,进行分析序列信息的生物信息学工具纷繁复
    杂,对于分析菌群微生态的大规模测序数据,也已开发产生多种成熟的分析工具可供使用。
    其中,针对于菌群多样性和组成谱检测这一广泛应用的研究策略,绝大多数基于微生物核
    糖体RNA(rRNA)基因的序列分析工具并不能一次性满足研究人员的大部分分析需求,往往
    需要多次调用不同的分析工具(甚至不同的计算机平台系统)以完成所有相关分析。

    当前用于rRNA基因序列分析的工具分为两大类:基于Web的工具和本地安装的工
    具?;赪eb的工具托管在服务器上,为用户提供Web界面。例如Ribosomal Database
    Project(RDP)的分类鉴定工具等;研究人员可以通过互联网上传测得的序列数据,并使用
    Web界面配置可选参数进行分析。但是对于一次上传的数据量存在限制,并受网络环境所约
    束,不适合大规模数据分析,并且远程用户无法根据自己的需求来自定义后端分析软件,并
    不方便。本地化的16S rRNA基因分析工具包括Mothur和QIIME等。使用这些本地工具时,不
    需要将数据上传到远程服务器,只需在Linux服务器/工作站合理配置安装即能投入使用。
    这些工具大多是开源形式,允许研究人员根据需要自定义软件。然而,很多情况下,根据不
    同的分析需求,实现一个完整的分析流程仍需要对众多工具进行整合。如何能正确高效地
    选择并整合这些工具已成为迫切需求。

    现有的16S rRNA基因的细菌群落组成和多样性分析流程中,分析内容较为基础和
    简单,未包含目前流行的多项主流分析项目:Specaccum物种累积曲线、LEfSe分析、
    Wilcoxon秩和检验等。在一些情况下,无法满足研究人员的分析需求。此外,原有分析流程
    在进行后续PCA、PCoA等比较分析时,未对数据进行拉平处理,由此将会引入测序深度不一
    导致的分析误差。

    发明内容

    本发明的一个目的是为了克服现有工具中固有的弱点并结合其优势,提供一种用
    于16S rRNA基因的细菌群落组成和多样性分析的自动化方法,该方法具有可靠的流程,已
    确保分析结果的准确。并满足多种分析需求。

    本发明的另一个目的是为了提供一种16S rRNA测序数据分析流程,实现各个环节
    的高效自动化管理和分析,从而节省时间成本,减轻研究人员的数据分析负担。

    为了实现上述目的,本发明所采用的技术方案如下:

    一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法,其提供的
    16S rRNA测序数据分析流程以测序原始序列数据作为输入,调用业界标准的分析工具(如:
    Mothur、QIIME等),最终对数据进行可视化,并得到易于解读的分析结果,具体包括以下步
    骤:

    1)通过原始序列的测序质量值、模糊碱基数目、序列长度、引物序列和barcode序
    列的匹配度信息,对原始序列进行过滤和质量控制,并检查和剔除嵌合体,获得高质量序
    列;

    2)对步骤1)获得的高质量序列的长度分布进行统计;

    3)对步骤1)获得的高质量序列按97%的序列相似度进行归并和OTU划分,并选取
    每个OTU中丰度最高的序列作为该OTU的代表序列,随后,根据每个OTU在每个样本中所包含
    的序列数,构建OTU在各样本中丰度的矩阵文件;

    4)通过将OTU代表序列与对应数据库的模板序列相比对,获取每个OTU所对应的分
    类学信息;

    5)将丰度值低于全体样本测序总量0.001%(十万分之一)的OTU去除,并将去除了
    稀有OTU的此丰度矩阵用于后续的一系列分析;

    6)根据获得的OTU丰度矩阵,计算各样本组共有OTU的数量,并通过Venn图直观地
    呈现各样本组所共有和独有OTU所占的比例;

    7)对OTU丰度矩阵中每个样本的序列总数在不同测序深度下依次随机抽样,以每
    个深度下抽取到的序列数及其对应的OTU数绘制稀疏曲线;

    8)对OTU丰度矩阵中每个样本所对应的OTU总数绘制Specaccum物种累积曲线;

    9)对OTU及其对应的丰度值经Log2对数转换绘制各样本的丰度等级曲线;

    对OTU丰度矩阵中的全体样本根据最低测序深度统一进行随机重抽样(即序列拉
    平处理),随后,分别对每个样本计算四种多样性指数;

    10)根据OTU划分和分类地位鉴定结果,可以获得每个样本在各分类水平(界/门/
    纲/目/科/属/种等)的具体组成;

    11)获取各样本在指定分类水平上的组成和丰度分布表,并通过饼图、柱状图或面
    积图呈现分析结果,根据研究对象是单个或多个群落样本,绘图结果可能会以不同方式进
    行展示;

    12)获取各样本在指定分类水平上的组成和绝对丰度分布表,调用Metastats的统
    计学算法,对指定分类水平的各个分类单元在样本组之间的序列量即绝对丰度差异进行两
    两比较检验;

    13)获取各样本在指定分类水平上的组成和相对丰度分布表,进行LEfSe分析,筛
    选关键的生物标记物;

    14)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两
    组样本中的丰度分布差异进行Wilcoxon秩和检验或Welch’s t检验,从而获得在两组中存
    在显著性差异的分类单元;

    15)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两
    个样本中的丰度分布差异进行Fisher’s检验,从而获得在两个样本中存在显著性差异的分
    类单元;

    16)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在多
    组样本中的丰度分布差异进行ANOVA方差分析/Kruskal-Wallis H检验,从而获得在多组样
    本中存在显著性差异的分类单元;

    18)对前述OTU代表序列,通过PyNAST和MAFFT等工具进行多序列比对,之后通过
    FastTree工具构建OTU代表序列的系统发育树,该文件以Newick格式保存;

    19)根据前述OTU丰度矩阵和OTU划分和分类地位鉴定结果,将每个样本所含有的
    OTU的丰度信息和分类学组成数据映射至NCBI Taxonomy所提供的微生物分类等级树,统一
    呈现所有样本在各分类水平的具体组成;

    20)获取各样本在指定分类水平上的组成和相对丰度分布表,对样本总体在各分
    类水平的组成构建等级树,同时以不同颜色区分各分类单元,并通过节点大小反映它们的
    丰度分布;

    21)获取各样本在指定分类水平上的组成和丰度分布表,通过Krona软件进行群落
    分类学组成的交互展示;

    22)根据前述OTU丰度矩阵和OTU划分和分类地位鉴定结果,构建交互式OTU热图;

    23)获取各样本在指定分类水平上的组成和相对丰度分布表,对丰度前50位的分
    类单元进行聚类分析并绘制热图;

    24)获取各样本在指定分类水平上的组成和相对丰度分布表,对指定分类水平的
    群落组成结构进行PCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;

    25)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样
    本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维
    图像描述样本间基于微生物系统发育关系的群落空间分布特征;

    26)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样
    本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS非度量多维尺度分析,通过二维
    或三维排序图描述群落样本的结构分布;

    27)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样
    本间的距离矩阵,对加权及非加权距离矩阵分别进行UPGMA聚类分析;

    28)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样
    本间的距离矩阵,对加权及非加权距离矩阵分别进行组内和组间距离均值进行t检验,并通
    过1000次蒙特卡罗置换检验判断统计显著性,从而衡量组内和组间距离差异;

    30)获取各样本在指定分类水平上的组成和相对丰度分布表,通过三元相图分析
    显示出不同物种在各样本中的相对丰度差异;

    31)获取各样本在指定分类水平上的组成和相对丰度分布表,对指定分类水平的
    相对丰度矩阵进行RDA冗余分析,通过1000次置换检验确定统计显著性,并生成包含“样
    本—分类单元—影响因素”三种元素排序图;

    32)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样
    本间的距离矩阵,由加权及非加权距离矩阵分别进行CAP主坐标典型相关分析分析,并作
    1000次置换检验,确定组间差异是否具有统计学显著性,使用CAP分析得到的前两维数据生
    成CAP约束排序图;

    33)获取各样本在指定分类水平上的组成和相对丰度分布表和样本分组数据构建
    PLS-DA判别模型,并根据分析得到的前两维数据生成PLS-DA约束排序图;

    34)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样
    本间的距离矩阵,由加权及非加权距离矩阵分别进行Adonis/PERMANOVA分析,并作999次置
    换检验确定组间差异是否具有统计学显著性;

    35)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样
    本间的距离矩阵,由加权及非加权距离矩阵分别进行ANOSIM分析,通过对样本距离等级排
    序来判断样本组内和组间差异的大小,并通过置换检验评价原始样本组间差异的统计学显
    著性;

    36)根据前述对OTU丰度矩阵中的全体样本根据最低测序深度统一进行随机重抽
    样后,对重抽样OTU丰度矩阵使用随机森林算法挑取丰度分布在不同组间存在显著差异的
    OTU。挑取OTU时使用1000棵随机森林决策树进行建模,并以10倍交叉验证估计“基线”误差
    的大小随机森林分析;

    37)获取各样本在指定分类水平上的组成和相对丰度分布表,计算丰度位于前50
    位的分类单元之间的Spearman等级相关系数,对其中|rho|>0.8且P值<0.01的相关优势属
    构建关联网络,并进行可视化。

    38)根据前述对OTU丰度矩阵中的全体样本根据最低测序深度统一进行随机重抽
    样后,去除绝对丰度<2的OTU,进行二分网络分析,并进行可视化,样本和OTU根据弹簧镶嵌
    模型排布。

    39)对前述获得的高质量序列,使用PICRUSt软件,根据KEGG数据库中微生物代谢
    功能的类别对群落样本进行预测,并通过条形图展示各样本中编码的功能基因类别及其丰
    度。

    本发明的有益效果是:

    改进后的流程包含了目前流行的主流分析项目,同时分析内容实现??榛?,数据
    挖掘分析的方法更多样、更深入,可以根据不同的需要结合不同的分析??槟谌?,先后顺序
    的流程安排也更合理;此外,消除了测序深度不一导致的分析误差,使分析结果更全面、准
    确、可靠。

    改进后的流程通过自动化脚本控制运行,一站式输出可视化图形和分析结果,简
    化了数据分析过程中的人工操作,提高了运行效率。研究人员只需导入数据及根据分析需
    求简单调整脚本即可完成操作,从而节省时间,减轻分析的工作负担。

    附图说明

    图1是根据本发明构造的的一个细菌16S rRNA测序数据分析流程图。

    具体实施方式

    在具体实施方式中,该方法如图1所示包括以下步骤:

    步骤1:对于Illumina Miseq平台原始双端测序数据,以原始下机数据作为输入数
    据执行MiSeqQuality16S.pl脚本,窗口大小为10bp,步长为1bp,从5’端第一个碱基位置开
    始移动,要求窗口中碱基平均质量≥Q20(即碱基平均测序准确率≥99%),从第一个平均质
    量值低于Q20的窗口处截断序列,并要求截断后的序列长度≥150bp,且不允许存在模糊碱
    基N。随后,利用FLASH软件,对通过质量初筛的双端序列根据重叠碱基进行配对连接:要求
    Read 1和Read 2两条序列的重叠碱基长度≥10bp,且不允许碱基错配。最后,以FLASH拼接
    输出序列和barcode序列作为输入文件,将执行MiSeqRawDataSplit.pl脚本,把连接后的序
    列识别分配入对应样本(要求Index序列完全匹配),从而获得每个样本的有效序列。

    对于Roche 454FLX+平台原始测序数据,以原始下机数据和barcode序列作为输入
    文件,以原始下机数据和barcode序列作为输入数据通过sfffile工具把序列识别分配入对
    应样本(要求Index序列完全匹配),以sfffile输出序列作为输入文件通过sffinfo工具输
    出FASTA格式文件和QUAL格式文件,随后通过QIIME进行过滤,要求碱基平均质量≥Q25,不
    允许存在模糊碱基,从而获得每个样本的有效序列。

    以上述有效序列和样本分组信息作为输入文件,执行seq_process.py脚本,调用
    QIIME首先识别疑问序列。要求序列长度≥150bp,剔除:1)5’端引物错配碱基数>1的序列;
    2)含有连续相同碱基数>8的序列。调用USEARCH检查和剔除嵌合体,获得高质量序列;调用R
    脚本计算高质量序列的长度分布,并输出可视化结果;对前述获得的高质量序列使用QIIME
    软件,调用UCLUST这一序列比对工具,按97%的序列相似度进行归并和OTU划分,并选取每
    个OTU中丰度最高的序列作为该OTU的代表序列。随后,根据每个OTU在每个样本中所包含的
    序列数,构建OTU在各样本中丰度的矩阵文件(即OTU table);同时,在QIIME软件中使用默
    认参数,通过将OTU代表序列与对应数据库的模板序列相比对,获取每个OTU所对应的分类
    学信息;此外,在QIIME软件中对OTU代表序列,通过PyNAST或者MAFFT工具进行多序列比对,
    之后调用FastTree工具构建OTU代表序列的系统发育树。

    步骤2:通过BIOM文件处理工具和modify_otu_table.R脚本,以步骤1输出OTU丰度
    矩阵作为输入文件将丰度值低于全体样本测序总量0.001%(十万分之一)的OTU去除。

    步骤:3:以步骤2输出OTU丰度矩阵和分组信息作为输入文件,通过creat_venn_
    map.py、plot_venn_graph.R脚本计算各样本(组)共有OTU的数量,并进行可视化。

    步骤4:以步骤2输出OTU丰度矩阵作为输入文件,通过create_table2_4_in_
    report.R、bar.R脚本,计算各样本中能分类至门、纲、目、科、属、种各分类水平的OTU数及可
    视化。

    步骤5:以步骤2输出OTU丰度矩阵作为输入文件,使用BIOM工具和QIIME软件绘制
    稀疏曲线。

    步骤6:以步骤2输出OTU丰度矩阵作为输入文件,通过species_curve.R脚本绘制
    Specaccum物种累积曲线。

    步骤7:以步骤2输出OTU丰度矩阵作为输入文件,通过plot_rank_abundance_
    graph.R脚本绘制各样本的丰度等级曲线。

    步骤8:以步骤2输出OTU丰度矩阵作为输入文件,通过normalize_rarefied_otu_
    table.sh脚本对全体样本根据最低测序深度统一进行随机重抽样100次,并计算平均值,剔
    除平均值<1的OTU,从而最大限度消除测序深度不一导致的分析误差并保证结果的准确性。

    步骤9:以步骤8输出OTU丰度矩阵作为输入文件,通过QIIME软件分别对每个样本
    计算四种多样性指数。

    步骤10:以步骤8输出OTU丰度矩阵作为输入文件,通过bar.R脚本对门、纲、目、科、
    属、种六个分类水平各自含有的微生物类群数可视化。

    步骤11:以步骤2输出OTU丰度矩阵作为输入文件,通过QIIME软件和bar-phylum.R
    脚本获取各样本在门、纲、目、科、属五个分类水平上的组成和丰度分布表及可视化。

    步骤12:以步骤11输出OTU丰度矩阵作为输入文件,通过metats.sh、diff_
    group2.R脚本,调用Metastats的统计学算法,对指定分类水平的各个分类单元在样本(组)
    之间的序列量(即绝对丰度)差异进行两两比较检验。

    步骤13:以步骤11输出OTU丰度矩阵作为输入文件,通过LEfSe本地工具进行LEfSe
    分析,筛选关键的生物标记物。

    步骤14:以步骤11输出OTU丰度矩阵和分组信息作为输入文件,通过wilcox_box.R
    脚本对各分类单元在两组样本中的丰度分布差异进行Wilcoxon秩和检验,从而获得在两组
    中存在显著性差异的分类单元并输出可视化结果。

    步骤15:以步骤11输出OTU丰度矩阵和分组信息作为输入文件,通过STAMP软件对
    各分类单元在两组样本中的丰度分布差异进行Welch’s t检验,从而获得在两组中存在显
    著性差异的分类单元并输出可视化结果。

    步骤16:以步骤11输出OTU丰度矩阵和分组信息作为输入文件,通过STAMP软件对
    各分类单元在两个样本中的丰度分布差异进行Fisher’s检验,从而获得在两个样本中存在
    显著性差异的分类单元并输出可视化结果。

    步骤18:以步骤11输出OTU丰度矩阵和分组信息作为输入文件,通过STAMP软件对
    各分类单元在多组样本中的丰度分布差异进行ANOVA方差分析/Kruskal-Wallis H检验,从
    而获得在多组样本中存在显著性差异的分类单元并输出可视化结果。

    步骤19:以步骤2输出OTU丰度矩阵作为输入文件,通过MEGAN软件将每个样本所含
    有的OTU的丰度信息和分类学组成数据映射至NCBI Taxonomy所提供的微生物分类等级树,
    统一呈现所有样本在各分类水平的具体组成。

    步骤20:以步骤11输出OTU丰度矩阵作为输入文件,通过graphlan.sh脚本对样本
    总体在各分类水平的组成构建等级树,同时以不同颜色区分各分类单元,并通过节点大小
    反映它们的丰度分布。

    步骤21:以步骤11输出OTU丰度矩阵作为输入文件,通过divide_sample_from_
    taxa.py脚本进行群落分类学组成的交互展示。

    步骤22:以步骤2和步骤11输出OTU丰度矩阵和分组信息作为输入文件,通过QIIME
    软件和Heatmap.R绘制热图。

    步骤23:以步骤11输出OTU丰度矩阵和分组信息作为输入文件,通过plot_pca_
    graph.R、plot_3d_pca_graph.R脚本对指定分类水平的群落组成结构进行PCA主成分分析,
    并且可视化。

    步骤24:以步骤8输出OTU丰度矩阵、步骤2输出系统发育数和分组信息作为输入文
    件,通过QIIME软件进行基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩
    阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系
    的群落空间分布特征;进行NMDS非度量多维尺度分析,通过二维或三维排序图描述群落样
    本的结构分布;进行UPGMA聚类分析;对加权及非加权距离矩阵分别进行组内和组间距离均
    值进行t检验,并通过1000次蒙特卡罗置换检验判断统计显著性,从而衡量组内和组间距离
    差异。

    步骤25:以步骤23输出nmds坐标和分组信息作为输入文件,通过plot_nmds.R脚本
    进行可视化。

    步骤26:以步骤11输出OTU丰度矩阵作为输入文件,通过make_ternary_plot.R脚
    本进行三元相图分析显示出不同物种在各样本中的相对丰度差异。

    步骤27:以步骤11输出OTU丰度矩阵、环境因子和分组信息作为输入文件,通过
    rda.R脚本对指定分类水平的相对丰度矩阵进行RDA冗余分析,通过1000次置换检验确定统
    计显著性,并生成包含“样本—分类单元—影响因素”三种元素排序图。

    步骤28:以步骤23输出距离矩阵和分组信息作为输入文件,通过R软件
    BiodiversityR软件包和ggplot2软件包进行CAP主坐标典型相关分析分析,并作1000次置
    换检验,确定组间差异是否具有统计学显著性。使用CAP分析得到的前两维数据生成CAP约
    束排序图。

    步骤29:以步骤11输出OTU丰度矩阵、环境因子和分组信息作为输入文件,通过
    PLSDA.R脚本构建PLS-DA判别模型并作图。

    步骤30:以步骤23输出距离矩阵和分组信息作为输入文件,通过QIIME软件进行
    Adonis/PERMANOVA分析,并作999次置换检验确定组间差异是否具有统计学显著性。

    步骤31:以步骤23输出距离矩阵和分组信息作为输入文件,通过QIIME软件进行
    ANOSIM分析,通过对样本距离等级排序来判断样本组内和组间差异的大小,并通过置换检
    验评价原始样本组间差异的统计学显著性。

    步骤32:以步骤8输出OTU丰度矩阵和分组信息作为输入文件,通过QIIME软件使用
    随机森林算法挑取丰度分布在不同组间存在显著差异的OTU。挑取OTU时使用1000棵随机森
    林决策树进行建模,并以10倍交叉验证估计误差的大小并完成随机森林分析。

    步骤33:以步骤11输出OTU丰度矩阵作为输入文件,通过network_spearman.R脚本
    和Cytoscape软件计算丰度位于前50位的分类单元之间的Spearman等级相关系数,对其中|
    rho|>0.8且P值<0.01的相关优势属构建关联网络及可视化。

    步骤34:以步骤8输出OTU丰度矩阵作为输入文件,通过QIIME软件和Cytoscape软
    件进行二分网络分析,并进行可视化,样本和OTU根据弹簧镶嵌模型排布。

    步骤35:以步骤1获得的高质量序列作为输入文件,使用PICRUSt软件,根据KEGG数
    据库中微生物代谢功能的类别对群落样本进行预测,并通过条形图展示各样本中编码的功
    能基因类别及其丰度。

    上述步骤中除少数步骤外,都可以通过linux操作系统,以命令行的形式整合到
    shell脚本中,从而方便一次性执行,实现整个分析流程的自动化,提高分析效率。也可以根
    据需要单独执行。

    关于本文
    本文标题:一种用于16SRRNA基因的细菌群落组成和多样性分析的自动化方法.pdf
    链接地址://www.4mum.com.cn/p-6021192.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 双色球走势图新浪爱彩一号店 时时彩开奖软件 2019年无错36码资料 双色球开奖结果查询询 大乐透30期走势图 网上代理什么赚钱 倍投稳赚 pk10滚雪球计划软件 江苏快三怎么才能稳赚 三肖必中码 扎金花玩法与技巧视频 苹果彩票 时时彩怎样才稳赚 11选5稳赚的方案 重庆时时计划手机软件 极速时时手机软件