tophat2+cufflinks进行转录组的比对分析

0 人赞了该文章

在将原始数据和参考基因组数据处理好以后,就开始开始比对分析了

1.序列比对

序列比对用到tophat2软件,使用tophat软件的优点在于tophat2在将待测序列与参考基因组比对后,会直接生成bam文件,生成的bam文件直接可以给cufflinks构建转录本,从而避免了使用其他软件时生成的sam文件要转化成bam文件才能作为cufflinks的输入文件 代码如下

tophat -p 20 -o tophat_out GCA_000009725.1_ASM972v1_genomic SRR5399538_1.fastq

-p 指定线程

-o 指定输出目录

GCA_000009725.1_ASM972v1_genomic为利用bowtie2建立的索引文件

SRR5399538_1.fastq 为利用SAM toolkit将原始数据sra文件解压后的fastq文件

将待测基因分别于参考基因比对得到输出文件如图14463769-ae06fafab69ce1f0.png accepted_hits.bam reads排序的结果以bam格式生成文件,是后面cufflinks软件的输入文件

junctions.bed deletions.bed insertions.bed 这三个分别是:

tophat处理的junctions,删除和插入的结果

unmapped.bam 没有map上的序列

align_summary.txt 可以查看map上的reads所占的比例

2.利用cufflinks构建转录本

比对完后,cufflinks就可以把比对到基因组的序列组装成一个转录组了,组装好的转录组包含了可能的剪切信息和所有转录的表达量Counts,从而计算出FPKM值

代码如下

cufflinks -g GCA_000009725.1_ASM972v1_genomic.gtf -o cufflinks_out -p 8 accepted_hits.bam

-g 后面的为参考基因组的注释文件

-o 指定输出目录

-p 指定线程

accepted_hits.bam 为用tophat2比对后的bam文件

然后输出的cufflinks_out里面就会有四个文件如图image 下一步要用到的就是transcripts.gtf文件,这个文件就是样品的转录组

3.利用cuffmerge合并转录组

为了比较不同样品的差异,需要将实验组和对照组的转录组合并起来,cuffmerge不仅能用来合并,两个或多个转录组,还能把注释过后的基因组信息也合并起来,从而找到新的基因可变剪切提高合并转录组的质量 代码如下

cuffmerge -g GCA_000009725.1_ASM972v1_genomic.gtf -o merge_asm -p 8 accpted.txt

-g 后面为参考基因组的注释文件

-o 指定输出目录

accpted.txt 为所有要合并的转录组的绝对路径 例如

image 转录组拼接完成后会生成一个merged.gtf,这个文件就是合并好的转录组

4.利用cuffdiff进行基因表达差异分析

cuffdiff -o cuffdiff_out -L lable1,lable2,lable3,lable4 -p 10 -u merged_asm/merged.gtf tophat_out/SRR5399538/accepted_hits.bam  tophat_out/SRR5399539/accepted_hits.bam  tophat_out/SRR5399540/accepted_hits.bam  tophat_out/SRR5399541/accepted_hits.bam

-o 指定输出目录

-L 后面是bam文件的标签,有几个bam文件就取几个标签,由于我只有四个bam文件所以只有四个标签

-p 指定线程

-u 后面跟利用cuffmerge合并后的转录本

后面的是bam文件所在的绝对路径

cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了

cuffdiff输出如图

-o 指定输出目录

-L 后面是bam文件的标签,有几个bam文件就取几个标签,由于我只有四个bam文件所以只有四个标签

-p 指定线程

-u 后面跟利用cuffmerge合并后的转录本

后面的是bam文件所在的绝对路径

cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了

cuffdiff输出如图 14463769-f3aa5a8e8efacd57.png1.png FPKM tracking files cuffdiff计算每个样本中的转录本,初始转录本和基因FPKM

isoforms.fpkm_tracking 转录组的FPKM

gens.fpkm_tracking 基因的fpkm

cds fpkm_tracking 编码序列的fpkm

tss_groups.fpkm_tracking 原始转录组的FPKM

2.Count tracking files

评估每个样本中来自每个 transcript, primary transcript,和 gene的fragment数目

3.Read group tracking

计算在每个repulate中每个transcript, primary transcript和gene的表达量和frage数目

4.Differential expression test

对于splicing transcript, primary transcripts, genes,

and coding sequences.样本之间的表达差异检验。


评论

暂无评论