转录组之谜

问题来了:

这些问题后面会解释。

转录组广义上是指细胞在一定生理条件下所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA和非编码RNA;狭义上是指所有mRNA的集合。它将基因组的遗传信息与蛋白质组的生物学功能联系起来。我们通常使用的转录组测序一般是分析样本之间基因表达的差异,当然也可以发现可变剪切位点,发现新的转录本。

测序技术最早的应用是检测DNA分子的核酸组成,但后来人们想知道哪个成分比哪个成分多,这就是定量。基因表达的测定方法有很多,如基因芯片、qPCR等。

基因芯片的发展使得从一个基因组中一次获得大量的基因表达成为可能。基于芯片的转录组测序更准确。芯片就像模拟信号,而转录组测序是数字信号,可以检测更多的差异表达基因(即动态范围大)。

同工型可以翻译成“亚型/异构体”,基因同工型可以理解为一个基因的不同形式,即由同一位点产生的mRNA,该位点编码转录起始位点的蛋白质编码DNA序列,TSSs)。CDSs)和非翻译区,UTRs)不同,间接改变了基因的功能。

它的学名是选择性剪接,也称为选择性剪切。大多数真核基因转录产生的mRNA前体通常以一种方式剪接产生一种mRNA,结果只产生一种蛋白质。然而,一些基因产生的mRNA前体可以以不同的方式剪接,产生两种以上的mRNA。

编码蛋白质的成熟mRNA是mRNA前体被切掉了,外显子可以切掉它们的线性顺序,内含子可以保留不被切掉。因此,成熟mRNA中每一个外显子和内含子的存在都不是必然的。有五种类型:1,外显子跳跃或盒式外显子;2.内含子保留;3.替代供体5’位点;4.选择性受体3’位点;5.互斥外显子(如第一个或最后一个外显子)。

RNA反转录成cDNA(互补DNA),进行测量。通过测量cDNA的表达,可以推断出RNA的数量。看起来过程很简单,就是数一数有多少DNA片段。如果某种基因在一定条件下有很多cDNA片段,说明原始RNA的含量也高,即该基因的表达量高。但在实践中,如何计算和比较才是分析的本质。

建议至少设置三个,五个更好。关于样本重复和测序深度的选择,本文给出了一个解释:RNA-SEQ数据差异基因表达分析方法的综合评价。

总之,就寻找差异基因而言,建议样本多一些。但如果要研究变剪切,寻找新的转录本,还是需要测量深度,增加阅读次数。

看完这个你就明白了:有很多方案,几十上百个软件供你选择,很多都是有用的,但是不会有最好的流程,只有你自己去搭配。与其选择一个过程,不如熟悉原理,知道结果不合理时如何纠正。转录组的基本过程可以通过两种方式来熟悉。

一般来说是:质量控制-比对作图-阅读计数)-差异表达。当然,也有软件可以进行定量分析,无需对比。例如,kallisto说,它之所以能够跳过序列比较步骤,是基于一个已被证明的前提,即在哪里将一个读数与参考基因进行特异性比较不会影响最终的表达结果。Kallisto主要决定一个read属于哪个基因,并不关心read在基因上的位置。

比较环节有两个选项:一是比较参考基因组,可以帮助发现新的转录本和基因亚型;;二是比参考转录组更准确地量化样本中的信息,即在基因已知的前提下。

许多测序读数来自两个外显子的连接处(即切割位点)。如果要比较的话,我们会参考基因组,读码中间肯定会加一个空白(也就是原来的内含子)。相当于reads以前是脚踏两条船。现在两艘船要回家了,里德的腿开始分开了。因此,比较软件必须考虑到这一点,在读数比较后允许中间有一个大的间隙。

加入这种比较模式的软件是:

三种最常用的相对定量方法: