• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 14
    • 下载费用:30 金币  

    重庆时时彩apk: 高通量测序数据质量过滤方法和过滤装置.pdf

    关 键 词:
    通量 序数 质量 过滤 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611236128.3

    申请日:

    2016.12.28

    公开号:

    CN106777262A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161228|||公开
    IPC分类号: G06F17/30; G06F19/16(2011.01)I 主分类号: G06F17/30
    申请人: 上?;阍粕锟萍加邢薰?
    发明人: 陈晨; 王震; 于伟文
    地址: 200335 上海市长宁区广顺路33号8幢490室
    优先权:
    专利代理机构: 北京邦信阳专利商标代理有限公司 11012 代理人: 金玺
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611236128.3

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种对高通量测序数据进行质量过滤的方法和装置,所述方法包括:根据所述高通量测序数据为并行计算做准备;通过并行计算过滤掉准备好的数据中质量不达标的数据。确定质量转换方式;数据切分;生成并行计算的执行实体。将第一文件和第二文件分别转换为第一RDD和第二RDD;将第一RDD和第二RDD分别切分为第一partition组和第二partition组;将第一RDD和第二RDD合并为第三RDD;将第三RDD切分为第三partition组。生成对第三partition组进行并行计算的执行实体task。采用本发明的技术方案,能够大大提高对高通量测序数据进行质量过滤的执行速度。

    权利要求书

    1.一种对高通量测序数据进行质量过滤的方法,其特征在于,所述方法包括:
    根据所述高通量测序数据为并行计算做准备;
    通过并行计算过滤掉准备好的数据中质量不达标的数据。
    2.根据权利要求1所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述根
    据所述高通量测序数据为并行计算做准备包括:
    根据所述高通量测序数据中的质量数据确定质量转换方式;
    对已确定质量转换方式的高通量测序数据进行切分;
    生成对切分后的数据进行并行计算的执行实体。
    3.根据权利要求2所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述对
    已确定质量转换方式的高通量测序数据进行切分包括:
    将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换为各
    自对应的第一RDD和第二RDD;
    将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition组;
    根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;
    将第三RDD切分为第三partition组。
    4.根据权利要求3所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述生
    成对切分后的数据进行并行计算的执行实体为:生成对第三partition组进行并行计算的
    执行实体task。
    5.根据权利要求2-4中任意一项所述的对高通量测序数据进行质量过滤的方法,其特
    征在于,所述通过并行计算过滤掉准备好的数据中质量不达标的数据包括:
    根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并行地
    进行过滤;
    根据预定序列长度阈值通过执行实体对保留下来的高通量测序数据并行地进行过滤。
    6.根据权利要求5对高通量测序数据进行质量过滤的方法,其特征在于,所述根据预定
    质量值阈值、所述质量值转换方式对所述高通量测序数据进行过滤包括:
    如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预定质
    量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一记录
    中的序列行中的对应位置及以后的数据。
    7.根据权利要求6对高通量测序数据进行质量过滤的方法,其特征在于,所述根据预定
    序列长度阈值对保留下来的高通量测序数据进行过滤包括:
    在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中有任
    意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文件和
    第二文件中相对应的这两个记录。
    8.一种对高通量测序数据进行质量过滤的装置,其特征在于,所述装置包括:
    并行准备???,用于根据所述高通量测序数据为并行计算做准备;
    质量过滤???,用于通过并行计算过滤掉准备好的数据中质量不达标的数据。
    9.根据权利要求8所述的对高通量测序数据进行质量过滤的装置,其特征在于,所述并
    行准备??榘ǎ?br />
    质量转换方式确定单元:用于根据所述高通量测序数据中的质量数据确定质量转换方
    式;
    数据切分单元:用于对已确定质量转换方式的高通量测序数据进行切分;
    执行实体生成单元:用于生成对切分后的数据进行并行计算的执行实体。
    10.根据权利要求9所述的对高通量测序数据进行质量过滤的装置,其特征在于,所述
    数据切分单元具体用于:
    将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换为各
    自对应的第一RDD和第二RDD;
    将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition组;
    根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;
    将第三RDD切分为第三partition组。
    11.根据权利要求10所述的对高通量测序数据进行质量过滤的装置,其特征在于,所述
    执行实体生成单元具体用于:生成对第三partition组进行并行计算的执行实体task。
    12.根据权利要求9-11中任意一项所述的对高通量测序数据进行质量过滤的装置,其
    特征在于,所述质量过滤??榫咛逵糜冢?br />
    根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并行地
    进行过滤;
    根据预定序列长度阈值通过执行实体对保留下来的高通量测序数据并行地进行过滤。
    13.根据权利要求12对高通量测序数据进行质量过滤的装置,其特征在于,所述质量过
    滤??橛糜诟菰ざㄖ柿恐点兄岛椭柿恐底环绞酵ü葱惺堤宥运龈咄坎庑蚴?br />并行地进行过滤包括:
    如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预定质
    量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一记录
    中的序列行中的对应位置及以后的数据。
    14.根据权利要求13对高通量测序数据进行质量过滤的装置,其特征在于,所述质量过
    滤??橛糜诟菰ざㄖ柿恐点兄岛椭柿恐底环绞酵ü葱惺堤宥运龈咄坎庑蚴?br />并行地进行过滤包括:
    在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中有任
    意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文件和
    第二文件中相对应的这两个记录。

    说明书

    高通量测序数据质量过滤方法和过滤装置

    技术领域

    本发明涉及生物和计算机领域,特别涉及通过大数据技术对高通量测序数据进行
    质量过滤的方法和装置。

    背景技术

    基于高通量测序数据寻找和致病基因、癌症治疗、个性化用药相关的染色体突变
    位点为临床应用提供了不可估量的前景。由于测序技术的不断进步,获取到的数据越来越
    多,如何快速地处理不断增加的高通量测序数据已成为亟待解决的问题。

    在获取到高通量测序数据后,需要对原始数据进行过滤,将低质量的数据过滤掉,
    保留高质量的数据进行下一步处理。目前常用的过滤软件Trime对1.1G X 2的高通量测序
    数据进行双端过滤需要九分钟以上,随着数据的不断增大,质量过滤需要的时间也越来越
    长。如何缩短质量过滤消耗的时间,让高质量的数据尽快地进入下游的分析环节,从而缩短
    科研人员、患者等待分析结果的时间,已成为亟待解决的问题。

    发明内容

    有鉴于此,本发明基于分布式计算框架提供了一种对高通量测序数据进行质量过
    滤的方法和装置,能够将低质量的数据过滤掉,与以往的过滤方法相比,大大提升了处理速
    度。

    本发明的实施例提供了一种对高通量测序数据进行质量过滤的方法,所述方法包
    括:

    根据所述高通量测序数据为并行计算做准备;

    通过并行计算过滤掉准备好的数据中质量不达标的数据。

    优选地,所述根据所述高通量测序数据为并行计算做准备包括:

    根据所述高通量测序数据中的质量数据确定质量转换方式;

    对已确定质量转换方式的高通量测序数据进行切分;

    生成对切分后的数据进行并行计算的执行实体。

    优选地,所述对已确定质量转换方式的高通量测序数据进行切分包括:

    将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换
    为各自对应的第一RDD和第二RDD;

    将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition
    组;

    根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;

    将第三RDD切分为第三partition组。

    优选地,所述生成对切分后的数据进行并行计算的执行实体为:生成对第三
    partition组进行并行计算的执行实体task。

    优选地,其特征在于,所述通过并行计算过滤掉准备好的数据中质量不达标的数
    据包括:

    根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并
    行地进行过滤;

    根据预定序列长度阈值通过执行实体对保留下来的高通量测序数据并行地进行
    过滤。

    优选地,所述根据预定质量值阈值、所述质量值转换方式对所述高通量测序数据
    进行过滤包括:

    如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预
    定质量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一
    记录中的序列行中的对应位置及以后的数据。

    优选地,所述根据预定序列长度阈值对保留下来的高通量测序数据进行过滤包
    括:

    在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中
    有任意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文
    件和第二文件中相对应的这两个记录。

    另一方面,本发明的实施例还提供了一种对高通量测序数据进行质量过滤的装
    置,所述装置包括:

    并行准备???,用于根据所述高通量测序数据为并行计算做准备;

    质量过滤???,用于通过并行计算过滤掉准备好的数据中质量不达标的数据。

    优选地,所述并行准备??榘ǎ?br />

    质量转换方式确定单元:用于根据所述高通量测序数据中的质量数据确定质量转
    换方式;

    数据切分单元:用于对已确定质量转换方式的高通量测序数据进行切分;

    执行实体生成单元:用于生成对切分后的数据进行并行计算的执行实体。

    优选地,所述数据切分单元具体用于:

    将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换
    为各自对应的第一RDD和第二RDD;

    将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition
    组;

    根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;

    将第三RDD切分为第三partition组。

    优选地,所述执行实体生成单元具体用于:生成对第三partition组进行并行计算
    的执行实体task。

    优选地,所述质量过滤??榫咛逵糜冢?br />

    根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并
    行地进行过滤;

    根据预定序列长度阈值通过执行实体对保留下来的高通量测序数据并行地进行
    过滤。

    优选地,所述质量过滤??橛糜诟菰ざㄖ柿恐点兄岛椭柿恐底环绞酵ü葱?br />实体对所述高通量测序数据并行地进行过滤包括:

    如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预
    定质量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一
    记录中的序列行中的对应位置及以后的数据。

    优选地,所述质量过滤??橛糜诟菰ざㄖ柿恐点兄岛椭柿恐底环绞酵ü葱?br />实体对所述高通量测序数据并行地进行过滤包括:

    在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中
    有任意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文
    件和第二文件中相对应的这两个记录。

    本发明提供的技术方案采用大数据处理技术Spark集群开发了用于对高通量测序
    数据进行质量过滤的软件工具Sfastq_filter,极大地提高了对高通量测序数据进行质量
    过滤的速度:Sfastq_filter在12核18G的配置环境下双端过滤1.1GX2的数据,只需要三分
    钟,与传统的Trime软件相比处理速度快两倍以上。如果机器配置更高,数据量更大,那么对
    比效果也会更加明显。

    附图说明

    图1为本发明实施例一提供的对高通量测序数据进行质量过滤的方法的示意图;

    图2为本发明实施例二提供的对高通量测序数据进行质量过滤的方法的示意图;

    图3为本发明实施例三提供的对高通量测序数据进行质量过滤的方法的示意图;

    图4为本发明实施例四至六提供的对高通量测序数据进行质量过滤的装置的示意
    图。

    具体实施方式

    为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附
    图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一
    部分实施例,而不是全部的实施例。

    在本发明的实施例中,相关名词解释如下:

    高通量测序数据:用高通量测序方法获得的数据;

    高通量测序:能够一次并行对几十万到几百万条DNA片段进行序列测定的测序方
    法;

    第一阈值:在本发明的实施例中为58,在实际应用中可以根据具体情况取适当的
    值;

    第二阈值:在本发明的实施例中为76,在实际应用中可以根据具体情况取适当的
    值;

    第一碱基质量值转换方式:将质量行中每一位置上的质量数据(即ASCII码字符的
    ASCII码值)减去第一阈值,得到对应碱基的质量值;

    第二碱基质量值转换方式:将质量行中每一位置上的质量数据(即ASCII码字符的
    ASCII码值)减去第二阈值,得到对应碱基的质量值。

    第一文件、第二文件:作为Sfastq_filter软件的输入文件成对出现的高通量测序
    数据文件;其中第一文件和第二文件中的记录是一一对应的。

    质量达标:如果第一文件和第二文件中一一对应的两个记录中的质量行某一位置
    及该位置以前的质量数据的质量值均大于等于预定质量值阈值,且这两个一一对应的记录
    中的序列行的碱基数均大于等于预定序列长度阈值,那么满足上述条件的高通量测序数据
    的记录称为质量达标。

    实施例一

    请参阅图1,在本发明的第一个实施例中,在根据测序后得到的高通量测序数据为
    并行计算做好准备后,对数据进行并行计算,过滤掉其中低质量的数据。

    S101、根据高通量测序数据为并行计算做准备。

    在包含高通量测序数据的FastQ文件中,每一个记录包括四行,分别为:

    以“@”开头后面附加测序介绍信息的标识行;

    由A、T、G、C四种碱基组成的序列行(测序仪无法识别的碱基用N表示);

    “+”行(或者“+”后面附带标识行中@后面的内容,但该内容一般被省略);

    由ASCII码字符组成的质量行(质量行和序列行长度相等且质量行中的ASCII码字
    符与序列行中的碱基一一对应,质量行中每一位置的质量数据为该位置碱基质量值的
    ASCII码字符表示方式)。

    用于Sfastq_filter软件的输入文件是成对出现的,包括第一文件和第二文件两
    个FastQ文件,其中第一文件和第二文件中的记录是一一对应的。将包含原始高通量测序数
    据的第一文件和第二文件切分为多个数据块,为并行计算做准备。

    S102、通过并行计算过滤掉准备好的数据中质量不达标的数据。

    根据预定阈值对准备好的数据进行过滤,去掉其中低质量的数据。预定阈值包括
    预定质量值阈值和预定序列长度阈值。

    根据预定质量值阈值同时过滤第一文件和第二文件中一一对应的两个记录。

    在经过预定质量值阈值过滤后保留下来的数据中,根据预定序列长度阈值同时过
    滤第一文件和第二文件中一一对应的两个记录。

    将经过预定质量值阈值和预定序列长度阈值过滤后保留下来的数据根据其原始
    数据来源分别输出到第一文件和第二文件各自对应的过滤结果文件中。

    实施例二

    请参阅图2,在本发明的第二个实施例中,使用Hadoop并行计算框架对高通量测序
    数据进行并行计算,从而过滤掉低质量的数据。

    在本实施例中,相关名词解释如下:

    Hadoop:由Apache基金会所开发的分布式并行计算框架。

    HDFS(Hadoop Distributed File System):由Hadoop实现的一个分布式文件系
    统。

    S201、根据所述高通量测序数据中的碱基质量数据确定碱基质量值转换方式。

    输入包含原始高通量测序数据的FastQ文件。用于Sfastq_filter软件的输入文件
    是成对出现的,包括第一文件和第二文件两个FastQ文件,其中第一文件和第二文件中的记
    录是一一对应的。根据读入的FastQ文件质量行中的碱基质量数据(即该位置碱基质量值的
    ASCII码字符表示方式)确定本文件对应的碱基质量值转换方式:

    如果读取到大于第一阈值且小于等于第二阈值的碱基质量数据,则忽略此值,继
    续读入下一位置的碱基质量值;

    如果读取到小于等于第一阈值的碱基质量数据,则确定本文件对应第一碱基质量
    值转换方式,选择碱基质量值转换方式的过程结束;

    如果读取到大于第二阈值的碱基质量数据,则确定本文件对应第二碱基质量值转
    换方式,选择碱基质量值转换方式的过程结束。

    S202、对已确定碱基质量值转换方式的高通量测序数据进行切分。

    HDFS将输入的FastQ文件根据一定的规则切分成小数据块并保存。切分规则如下:
    例如输入文件为3G,在Hadoop中将一个数据块的大小设置为128M,那么输入文件总共将被
    切分为3*1024/128=24块。

    S203、生成包含切分后的数据的执行实体。

    在hadoop集群中,参与并行计算的多台计算机并行地读取HDFS中的小数据块,并
    启动map job和reduce job,job为每一个小数据块生成一个map task。Map task的计算结
    果存储在中间结果文件中,中间结果文件保存在HDFS中。Reduce job 从HDFS中读取中间结
    果文件,并根据用户指定的数量生成多个reduce task。Map task和reduce task是并行计
    算的执行实体。

    S204、通过并行计算过滤掉准备好的数据中质量不达标的数据。

    Hadoop在参与并行计算的多台计算机上并行地运行map task和reduce task,先
    运行map task,然后运行reduce task。

    在hadoop集群中,通过多个map task进行并行计算:

    首先根据第一文件和第二文件已确定的质量值转换方式对每个记录的质量行中
    的每一个位置上的碱基计算其碱基质量值。

    然后根据预定质量值阈值和预定序列长度阈值对准备好的数据进行过滤,去掉其
    中的低质量数据,过滤过程如下:

    同时遍历第一文件和第二文件中一一对应的两个记录中的质量行,如果质量行中
    某一位置上碱基的质量值小于预定质量值阈值时,则过滤掉该位置及其以后的所有数据;
    同时过滤掉相应记录的序列行在对应位置及其以后的所有数据;将标识行和“+”行原样输
    出。

    在经过预定质量值阈值过滤之后保留的数据中,同时获取第一文件和第二文件中
    一一对应的两个记录中的序列行中的碱基数,如果这一对记录中的任何一个记录的碱基数
    小于预定序列长度阈值时,则将这一对记录全部过滤掉。

    Map task的中间计算结果存储在HDFS上的中间结果文件中,reduce job读取到中
    间结果文件后,根据用户指定的数量生成多个reduce task。

    在hadoop集群中,多个reduce task将经过预定质量值阈值和预定序列长度阈值
    过滤后保留下来的数据根据其原始数据来源分别输出到第一文件和第二文件各自对应的
    最终结果文件中。

    实施例三

    请参阅图3,在本发明的第三个实施例中,使用spark并行计算框架通过并行计算
    过滤掉高通量测序数据中质量不达标的数据。

    S301、根据所述高通量测序数据中的碱基质量数据确定碱基质量值转换方式。

    输入包含原始高通量测序数据的FastQ文件。用于Sfastq_filter软件的输入文件
    是成对出现的,包括第一文件和第二文件两个FastQ文件,其中第一文件和第二文件中的记
    录是一一对应的。在FastQ文件中,每一个记录包括四行,其中序列行由A、T、G、C四种碱基组
    成(测序仪无法识别的碱基用N表示);质量行中每一位置上的质量数据为该位置的碱基质
    量值的ASCII码表示方式,质量行和序列行长度相等。

    根据读入的FastQ文件质量行中的碱基质量值确定本文件对应的碱基质量值转换
    方式:

    如果读取到大于第一阈值且小于等于第二阈值的碱基质量数据,则忽略此值,继
    续读入下一位置的碱基质量值;

    如果读取到小于等于第一阈值的碱基质量数据,则确定本文件对应第一碱基质量
    值转换方式,选择碱基质量值转换方式的过程结束;

    如果读取到大于第二阈值的碱基质量数据,则确定本文件对应第二碱基质量值转
    换方式,选择碱基质量值转换方式的过程结束。

    S302、将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别
    转换为各自对应的第一RDD和第二RDD。

    在本实施例中:

    Spark:是UC Berkeley AMPLab开发的一种计算框架。

    RDD是指弹性分布式数据集(Resilient Distributed Datasets),它是可容错的
    并行数据结构,使用户能够显式地在内存中保存中间的运算结果,通过控制RDD的分区来优
    化数据的布局,并使用丰富的转换算子进行操作。

    在读取输入的FastQ文件时,spark将第一文件转换为第一RDD,将第二文件转换为
    第二RDD。

    S303、将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二
    partition组。

    在本实施例中,partition是指spark在计算过程中,生成的数据在计算空间内的
    最小单元。

    在生成RDD时,用户可以根据实际需要指定将RDD切分为partition的数量。例如输
    入文件为3G,设置将RDD切分为24个partition,那么每一个partition所占存储空间为3*
    1024/24=128M。实际生成的partition的数量最少为(该文件所占存储空间/128M),如果指
    定的partition数量少于(该文件所占存储空间/128M),则实际将生成(该文件所占存储空
    间/128M)个partition。Spark根据用户指定的partition数量将RDD切分成partition,每个
    RDD对应的所有partition即为一个partition组。

    在本实施例中,spark将第一RDD和第二RDD分别切分为各自对应的第一partition
    组和第二partition组。

    S304、根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三
    RDD。

    由于第一文件和第二文件中的记录是一一对应的,在将此二者转换为第一RDD和
    第二RDD后,第一RDD和第二RDD中的记录也是一一对应的。而在通过并行计算对数据进行质
    量过滤时,需要同时遍历第一RDD和第二RDD中对应的记录,所以为了提高并行计算的速度,
    在进行并行计算以前,根据其中一一对应的记录,将第一RDD和第二RDD合并为第三RDD,用
    于后续的并行计算。

    S305、将第三RDD切分为第三partition组。

    在生成第三RDD时,可以根据实际需要指定将第三RDD切分为partition的数量,该
    数值独立于第一RDD和第二RDD分别对应的partition组中包含的partition数量。例如,原
    来第一RDD对应的第一partition组中有四个partition,第二RDD对应的第二partition组
    中有六个partition,那么在将第一RDD和第二RDD合并生成第三RDD后,可以将第三RDD切分
    为五个partition,即第三partition组中有五个partition。

    S306、生成对第三partition组进行并行计算的执行实体task。

    在本实施例中:

    Job是指包在spark中由多个stage组成的并行计算,对RDD执行action操作后会生
    成job;

    Stage是指在spark中,一个job会根据处理过程需要而分成不同的阶段即stage,
    stage由多个task组成;

    Task是指被送到为某个应用启动的executor进程的工作单元。

    在spark中对RDD进行action操作时生成DAG Scheduler(有向无环图调度器),从
    而启动一个job。对一个job内的操作,根据处理过程需要分成不同的stage,并在每一个
    stage内产生一系列的task。通常一个RDD内的task数量与partition的数量相同。后续多个
    执行实体task将在多台计算机上对不同的partition执行并行计算过程。

    在本实施例中,spark首先生成与第三RDD对应的job,再根据job的处理需要生成
    stage,并在每个stage中生成对第三partition组进行并行计算的多个执行实体task。后面
    将在spark集群的多台计算机上通过多个执行实体task并行地对每个partition进行后续
    计算。

    S307、根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数
    据并行地进行过滤。

    首先,计算数据的质量行中每一位置的碱基质量值:

    如果本次并行计算数据对应的是第一碱基质量值转换方式,则将质量行中每一位
    置上的ASCII码字符的ASCII码值减去第一阈值即为对应的碱基质量值;

    如果本次并行计算数据对应的是第二碱基质量值转换方式,则将质量行中每一位
    置上的ASCII码字符的ASCII码值减去第二阈值,即为对应的碱基质量值。

    然后,同时遍历第一文件和第二文件中一一对应的两个记录中的质量行,如果质
    量行中某一位置上碱基的质量值小于预定质量值阈值时,则过滤掉该位置及其以后的所有
    数据;同时过滤掉相应记录的序列行在对应位置及其以后的所有数据;将标识行和“+”行原
    样输出。

    S308、根据预定序列长度阈值对保留下来的高通量测序数据并行地进行过滤。

    在经过预定质量值阈值过滤之后保留的数据中,同时获取第一文件和第二文件中
    一一对应的两个记录中的序列行中的碱基数,如果这一对记录中的任何一个记录的碱基数
    小于预定序列长度阈值时,则将这一对记录全部过滤掉。

    将经过预定质量值阈值过滤和预定序列长度阈值过滤后保留下来的数据根据其
    原始数据来源分别输出到第一文件和第二文件各自对应的过滤结果文件中。

    实施例四

    如图4所示,本发明的第四个实施例提供了一种高通量测序数据的质量过滤装置,
    所述装置包括:

    并行准备???10,用于根据高通量测序数据为并行计算做准备;

    并行计算???20,用于通过并行计算过滤掉准备好的数据中质量不达标的数据。

    在本实施例中,并行准备???10根据高通量测序数据为并行计算做准备,并行计
    算???20根据预定质量值阈值和预定序列长度阈值通过并行计算过滤掉准备好的数据中
    质量不达标的数据。

    实施例五

    如图4所示,本发明的第五个实施例提供了一种高通量测序数据的质量过滤装置,
    所述装置包括:

    并行准备???10,用于根据高通量测序数据为并行计算做准备;

    质量过滤???20,用于通过并行计算过滤掉准备好的数据中质量不达标的数据。

    所述并行准备??榘ǎ?br />

    质量转换方式确定单元4101:用于根据所述高通量测序数据中的质量值确定质量
    转换方式;

    数据切分单元4102:用于对已确定质量转换方式的高通量测序数据进行切分;

    执行实体生成单元4103:用于生成对切分后的数据进行并行计算的执行实体。

    在本实施例中,并行准备???10中的质量转换方式确定单元4101根据所述高通
    量测序数据中的碱基质量值确定碱基质量值转换方式。并行准备???10中的数据切分单
    元4102将已确定碱基质量值转换方式的高通量测序数据进行切分。并行准备???10中的
    执行实体生成单元4103生成包含切分后的数据的执行实体map task和reduce task。质量
    过滤???20通过并行计算过滤掉准备好的数据中质量不达标的数据。

    实施例六

    如图4所示,本发明的第六个实施例提供了一种高通量测序数据的质量过滤装置,
    所述装置包括:

    并行准备???10,用于根据高通量测序数据为并行计算做准备;

    质量过滤???20,具体用于:

    如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预
    定质量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一
    记录中的序列行中的对应位置及以后的数据;

    在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中
    有任意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文
    件和第二文件中相对应的这两个记录。

    所述并行准备??榘ǎ?br />

    质量转换方式确定单元4101:用于根据所述高通量测序数据中的质量值确定质量
    转换方式;

    数据切分单元4102:具体用于:

    将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换
    为各自对应的第一RDD和第二RDD;

    将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition
    组;

    根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;

    将第三RDD切分为第三partition组。

    执行实体生成单元4103:生成对第三partition组进行并行计算的执行实体task。

    在本实施例中,并行准备???10中的质量转换方式确定单元4101根据所述高通
    量测序数据中的碱基质量值确定碱基质量值转换方式。并行准备???10中的数据切分单
    元4102将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换为
    各自对应的第一RDD和第二RDD,将第一RDD和第二RDD分别切分为各自对应的第一
    partition组和第二partition组,根据第一文件和第二文件中对应的数据将第一RDD和第
    二RDD合并为第三RDD,将第三RDD切分为第三partition组。并行准备???10中的执行实体
    生成单元4103生成对第三partition组进行并行计算的执行实体task。如果所述高通量测
    序数据某一记录中的质量行中的某一位置上的质量值小于预定质量值阈值,则质量过滤模
    块420通过执行实体并行地过滤掉所述质量行该位置及以后的数据以及同一记录的序列行
    中的对应位置及以后的数据;在保留下来的高通量测序数据中,如果第一文件和第二文件
    相对应的两个记录中有任意一个记录中的序列行长度小于预定长度阈值,则质量过滤???br />420通过执行实体并行地过滤掉第一文件和第二文件中相对应的这两个记录。

    本领域普通技术人员可以理解,实现上述本发明实施例中的高通量测序数据统计
    方法和统计装置可以通过程序指令相关的硬件来完成,所述的程序可以存储于可读取存储
    介质中,该程序在执行时执行上述方法中的对应步骤。

    以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人
    员来说,在不脱离本发明原来的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
    视为本发明的?;し段?。

    关于本文
    本文标题:高通量测序数据质量过滤方法和过滤装置.pdf
    链接地址://www.4mum.com.cn/p-6021070.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 168彩票网址 捕鱼达人2金币修改 三分彩网站 2014德甲排名 表外业务靠什么赚钱 胜负彩十四场投注技巧 网球肘用什么药最有效 吉林快3专家预测今天 内蒙古十一选五遗漏号码 福彩东方6+1复式计算器 重庆百变王牌开奖势图 华彩彩票群 辽宁35选7走势图表 青海11选5中奖查询 11月17日篮彩分析 乒乓球横拍教学视频