以部分集胞藻转录组为例用DESeq2做基因表达差异分析

0 人赞了该文章

DESeq2是在高通量数据分析过程中,基于count数据对其进行标准化处理,并对两个样本的差异做定量比较。在RNA-seq分析经常用到,以负二项分布的基础为模型测试差异表达。要使用DESeq2,安装此软件包,要先启动R再来进行操作。首先就要下载和安装R,之后安装DESeq2。 1.首先调入安装工具Bioconductor installer,并安装DESeq2。 2.然后测试DESeq2是否安装成功。这样的显示就是安装成功啦~ 3.将要做分析的集胞藻转录组基因从数据库中下载下来(可以从GEO下载RNA-seq的数据),以TXT的形式保存在桌面,并在R程序上新建一个工作目录用于存放分析的基因组和分析结果。 在文件中选择改变工作目录,找到R的所在地并新建一个文件夹命名为“tutorials”。之后可以将桌面的集胞藻的基因TXT拖动到该文件夹当中。(直接拖进来就可以啦) 4.用library来载入DESeq2包,用setwd来设置工作目录。(就是刚刚新建的文件夹并装有要测试的基因的)然后用CountMatrix1<-read.csv("命名的txt的文件名",sep=" ",row.names="行名") 读入文本的数据文件,并通过查看可数矩阵的头尾来查看整个矩阵的导入的情况。 如图可见,该矩阵是以名称来分列数,以不同的基因来分行数的。 5.我们还可以通过取子集来查看,如取该可数矩阵的2-4列的头矩阵来检查导入情况。 如图所示的就是第二列至第四列的前六行的矩阵数据。 6.然而数据矩阵还没有构建成功,DESeq2不接受有小数的数据,我们需要取其数据的整数。设置成功后还可以查看行名、列名,并统计行数和列数。 出现超级多的行名。。。 显示所有的列名,共有3426行和6列。 7.修改列名后再查看,没问题就开始构件dds矩阵。首先设置样本信息矩阵。设置前面读入的计数矩阵即表达矩阵的第一列为样本的名称,第二列为样本的处理情况。设置对照的信息并,查看柱状数据。没什么问题就用DESeq2的数据生成DESeqDataSet数据集dds矩阵,用dds查看数据集。 8.接下来就是对已经建立好的数据集进行差异表达计算和生成差异表达结果了。运行结束就可查看信息。 9.最后,就是将信息进行筛选后,提取差异分析结果生成EXCLE的文档啦。先统计统计padj(adjusted p-value)小于0.05的数目,让数据按padj排序,输出结果到csv文件。再筛选显著差异表达基因即padj小于0.01且FoldChange绝对值大于2的基因,查看筛选后的信息再输出csv文件中。这样以来,我们就会在我们之前设置的文件夹里面发现两个EXCLE文档,分别装着分析的结果和差异表达显著的结果啦。 10.最后的最后,戳开来看一下分析的成果。 终于完成了!


评论

暂无评论