基因组注释文件(2)| GFF和gtf文件格式描述
GFF和GTF是两种最常用的基因组注释格式。在信息分析中建立数据库时,除了fasta文件外,通常还需要它们,以便提取所需信息进行标注。
GFF(General Feature Format)是用来描述基因组特征的文件,我们现在使用的大部分文件都是第三版(gff3)。
除了gff1之外,gff文件由9列数据组成。三个版本的gff中前8列的信息是相同的,只是名称不同:
Gtf文件由9列组成,由tab键分隔。以下是各列对应的信息:
在GFF文件的开头,可以有一个以#开头的注释行,如下例所示。
对于不同的基因组特征,它们的属性是不同的。
染色体是基础,还有后续的基因、外显子等。都需要定位在染色体上。
假基因例子如下。
tRNA基因例子如下。
miRNA基因例子如下。
一个miRNA基因最终会形成两个成熟的miRNA。
lncRNA基因例子如下。
应该注意的是,由于可变剪接的存在,一个蛋白质编码基因可能有多个转录本。
查看第9列中有哪些注释信息:
gtf的全称是基因转移格式,主要用于注释基因。目前广泛使用的gtf格式是gtf2。以下均基于gtf2的描述。
Gtf与gff3非常相似,它有9列内容,如下所示:
示例:
GFF的全称是通用特征格式,主要用于注释基因组。
GTF的全称是基因转移格式,主要用于注释基因。
GTF的第九纵队,通常:
GFF的第九纵队通常是:
目前,两种文件可以很容易地相互转换:使用gffread。
UCSC GTF格式
/sinat _ 38163598/article/details/72851239