关于DNA正负链的定义

最近做序列比对，目标是将一群exon系列比对到一批给定的转录本序列上面。用了NCBI的blast工具。发现结果当中每个exon在目标转录本上的匹配位置与这些exon在bed文件中的顺序是相反的。查了一下文献，整理如下。

首先，是一些定义，参考 https://www.biostars.org/p/3423/ 这个帖子当中的内容。

1，双链互补DNA分为为正链和负链。正链也叫forward链，负链也叫reverse链或者minus链条。reference基因组数据一般都只记录forward链,也就是说，平时我们从ucsc，esemble和NCBI上拿到的fasta文件都是forward链的碱基序列。

2，有些基因是定义在forward链上的，意思就是基因对应的转录本序列刚好和forward链上5‘到3’的碱基序列一致，而另一些基因定义在reverse链上，就是说，这些基因的转录本序列（以及对应的氨基酸序列）和reverse链上5‘到3’方向的序列一致。正链基因没啥好说的，举个负链的小例子吧。

mouse基因组中有个叫Suv39h2的基因，位于2号染色体3,373,087-3,392,258位置。这里的位置仍然是forward链上的位置。但是呢，它定义在minus链上，问题就来了，若是你直接找mm9 reference genome sequence chr2:3,373,087-3,392,258这段序列，就是这样滴：

TCTTTACATATGGTGTTTATTCTGTTATTAAAAAAAAAGCCCACTTTATAAAGCTTTA ...... GTGCCTTGGCCCTGGCCGCCGCCATCTTGCGGAGCTTTCATTCAAACTGGCGCGGTCAGCCCGAA

但是你去ncbi nucleotide database搜这个基因，得到的序列确是这样滴：

TTCGGGCTGACCGCGCCAGTTTGAATGAAAGCTCCGCAAGATGGCGGCGGCCAGGGCCAAGGCAC... ...TAGTTTCATGCCTACCTCAAAGTATGGTTTCATAGATTAAAGCTTTATAAAGTGGGCTTTTTTTTTAATAACAGAATAAACACCATATGTAAAGA

发现没？这两段序列反向互补。因为基因定义在负链上，负链上的5‘到3’与正链上的5‘到3’反向。也就是说要想从reference sequence上找位于负链上的基因序列，你需要：1，按照coordination抽出序列。2，得到互补碱基。3，reverse the bases。

下面说blast的事儿。一开头说到顺序相反，就是因为这个转录本定义在负链上。既然是负链基因，转录本序列自然是从reverse链5‘到3’记录的，而exon 在bed文件中却是按照其在forward链上5‘到3’的位置顺序排列的。结果自然就是exon1匹配到transcript的末段；exon2匹配到transcript的次末段......exonN匹配transcript的头段。

把序列与mRNA一致（只是T和U的区别）的核酸单链定为正链（+），不作模板转录，也称为有义链（sense strand）, 又称编码链（coding strand）;而将碱基序列与mRNA互补的核酸单链定为负链（-），作为模板转录，也称为反义链(antisense strand)或模板链(template strand)。在文献中，这条与mRNA序列一致的DNA单链序列（+）被用作基因序列。该序列的5’端称之为上游（upstream），3’端称之为下游（downstream）。