本节主讲转录组,包括分析过程,文章,脚本等。

第一节:gffread的使用

gffread -h表示查看该软件运行命令

ubuntu@VM-0-2-ubuntu:~$ gffread -h
Usage:
gffread <input_gff> [-g <genomic_seqs_fasta> | <dir>][-s <seq_info.fsize>] 
 [-o <outfile.gff>] [-t <tname>] [-r [[<strand>]<chr>:]<start>..<end> [-R]]
 [-CTVNJMKQAFGUBHZWTOLE] [-w <exons.fa>] [-x <cds.fa>] [-y <tr_cds.fa>]
 [-i <maxintron>] 
 Filters and/or converts GFF3/GTF2 records.
 <input_gff> is a GFF file, use '-' if the GFF records will be given at stdin

将gff3文件输出为gtf文件,用作比对用

gffread gffread input.gff3 -T -o out.gtf
实例:
gffread Arabidopsis_thaliana.TAIR10.42.gff3 -T -o at_genome.gtf

看一下二者的区别,原始的gff3文件

转换后的gtf文件

gffread Arabidopsis_thaliana.TAIR10.42.gff3 -g ../Arabidopsis_thaliana.TAIR10.dna.toplevel.fa -x at.cds.fasta -y at.pep.fasta -w at.cdna.fasta

在构建有参时,需保持染色体一直,如genome.fasta中是chr1,那么你在genome.gtf中也是chr1,而不能是1/Chr1

第二节:如何下载转录组数据,请参考下列方法

或者是


https://mp.weixin.qq.com/s?__biz=MzU1Njg2MDQ2Ng==&mid=2247483769&idx=1&sn=c07e0ee3b4fa0ec3c8285ef238ba586d&chksm=fc3fd424cb485d3267768a407afd73d9b08fa8c296b3e8655d3959a728b31536b51357e92f77&scene=21#wechat_redirect

第三节:拿到数据为SRR*.SRA,需要转换为fastq文件,

首先在数据描述的位置可以知道这个数据是单还是双端测序!当然也可以按照这个作为条件进行筛选。

双端测序文件 fastq-dump --split-files SRRXXXXXXX.sra
单端测序文件 fastq-dump SRRxxxxxx.sra

这样就会形成SRR*_1.fastq; SRR*_2.fastq

如果是Clean_data就可以直接分析,如果不是,那就需要fastqc *.fastq查看一下质量如何,是raw_data就要进行质控。