测序数据的获取,格式转换和质控

0 人赞了该文章

测序数据的获取,格式转换和质控

所需要的软件:

数据下载软件 Aspera,SRAToolkit
数据质量评估软件  FastQC
数据过滤软件  Trimmomatic,Seqtk

使用aspera下载sra数据库中的数据 aspera的下载链接为:

wget https://download.asperasoft.com/download/sw/conne ct/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz

假设原地址为: ftp://ftp.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra 
则将其改为:
an![](/media/editor/3_20181206115645389695.png)onftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

这样就构造出来了aspera的下载地址

查看aspera的帮助文档: ![](/media/editor/3_20181206112821713808.png)


使用aspera批量下载sra数据: 文档里面已经有详细的介绍了,我一般会用这些参数:

-T disabled encryption
-i private key (在connect下的etc文件夹中含有私钥)
--mode  recv,send
--host  服务器主机
--user  huser
--file-list  文件列表
注意:NCBI的服务器为ftp-private.ncbi.nlm.nih.gov,用户名为anonftp
EBI的服务器为fasp.sra.ebi.ac.uk,用户名为era-fasp。

所以当你需要使用aspera批量下载sra数据的时候,你现在可以这样做:(将apsera加入PATH)

ascp  -T -i ~/.aspera/connect/etc/asperaweb_id_ds a.openssh --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list  文件名

SRA toolkit 它里面有很多工具,一一介绍。 sra toolkit下载:

wget https://ftptrace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2ubuntu64.tar.gz

当sra数据文件下载下来之后(.sra通常有几百兆到几G,所以推荐使用aspera来进行下载。) 当.sra文件下载完成之后,应该将数据文件解压成常用的格式,如fastq。 使用sra toolkit中的fastq-dump进行格式的转化,例如

fastq-dump --split-files SRR6232298.sra

fasq-dump的help文档为:


下一篇写二代测序流程。


接上

sanger测序 sanger是第一代测序,它是使用的链终止法。下面我来说说我的理解。 当你拿到你需要测定的测序后(一般sanger测序为几百bp),

  • 首先,加热变性使双螺旋解螺旋,然后将引物结合到一条链上,如图:

  • 将结合了引物的序列等量放入4个反应体系中,然后将dna聚合酶和dNTPs加入各个反应体系中;
  • 下一步,也是最关键的一步,在四个不同的反应体系中分别加入A,T,C,G四种带荧光标记的3'端被去OH的ddNTP,将体系混合(用来终止各个反应)
  • 将反应结束的四个体系进行电泳(这种电泳的精度很高,可以精确到1个bp),然后就可以根据结果来进行来确定dna序列的碱基序列(越轻的dna片段跑得越快,所以从下往上读)

不知道为什么,一个很简单的原理,网上很多地方都写的异常复杂,百度百科也是.....


illumina测序 illumina是二代测序的“代表人物”,下面讲一讲PE测序(双末端测序)的原理。 首先要知道一些二代测序的一些基本概念:在一个flowcell上一般有2个或者8个line,每个line被分成两列,每列大概有60个tile,而tile是荧光扫描时的最小单位,每个tile在每次循环的时候会被扫描4次,A,T,C,G各一次,下面讲具体过程:

将基因组切割成几百bp的小片段,然后用酶将不齐的末端对齐,之后在3'端加上一个碱基A,之后加上adapter,有两个点需要注意,一是文库中间的基因序是不同的,二是两端的接头是已知的。 此时,最好来一张图帮助理解: 接头的组成如上图所示。

在flowcell上面也有p5和p7接头,值得注意的是,他们是以共价键与flowcell相结合的。将已经接上接头的序列放到flowcell中,加入dna聚合酶和dNTPS,进行合成,反应完成之后,加入碱性溶液,使双链解旋。然后用水冲洗,中和碱性溶液,进行桥氏扩增,这样一直重复,最后使用化学反应去掉一个接头的所有序列,在板子上只留下一种类型的序列,然后加引物,加dna聚合酶,加带有不同荧光标记的NTP,同时他们的3'端具有使用illumina公司特定的方式进行了化学修饰,无法形成磷酸二酯键。所以在结合之后,用水洗掉多余的NTP和dna聚合酶,然后将板子用仪器来检测荧光,不同根据不同的荧光来确定序列上的碱基。一个循环结束,之后再加入特意处理的NTPs和dna聚合酶进行下一次反应。

一个板子有多个line,有上亿个接头,所以可以同时测定大量序列。 为了区分来自不同的sample,在adapter中的特定的地方加上一个特定的序列,叫做index(也叫barcode)。


评论

暂无评论