基因组注释文件(2)| GFF和gtf文件格式描述

GFF和GTF是两种最常用的基因组注释格式。在信息分析中建立数据库时,除了fasta文件外,通常还需要它们,以便提取所需信息进行标注。

GFF(General Feature Format)是用来描述基因组特征的文件,我们现在使用的大部分文件都是第三版(gff3)。

除了gff1之外,gff文件由9列数据组成。三个版本的gff中前8列的信息是相同的,只是名称不同:

Gtf文件由9列组成,由tab键分隔。以下是各列对应的信息:

在GFF文件的开头,可以有一个以#开头的注释行,如下例所示。

对于不同的基因组特征,它们的属性是不同的。

染色体是基础,还有后续的基因、外显子等。都需要定位在染色体上。

假基因例子如下。

tRNA基因例子如下。

miRNA基因例子如下。

一个miRNA基因最终会形成两个成熟的miRNA。

lncRNA基因例子如下。

应该注意的是,由于可变剪接的存在,一个蛋白质编码基因可能有多个转录本。

查看第9列中有哪些注释信息:

gtf的全称是基因转移格式,主要用于注释基因。目前广泛使用的gtf格式是gtf2。以下均基于gtf2的描述。

Gtf与gff3非常相似,它有9列内容,如下所示:

示例:

GFF的全称是通用特征格式,主要用于注释基因组。

GTF的全称是基因转移格式,主要用于注释基因。

GTF的第九纵队,通常:

GFF的第九纵队通常是:

目前,两种文件可以很容易地相互转换:使用gffread。

UCSC GTF格式

/sinat _ 38163598/article/details/72851239