反座子
反座子可以分为两种类型
反座子可大致分为两类
逆转录病毒是典型的反座子,它们能编码逆转录酶和/或整合酶,因此能进行转座。转座子和逆转录病毒的区别在于转座子不能独立地感染其它细胞,但转座机制基本相似。这类番座子被称为病毒超家族(Viral superfamily) 。
另一类反座子是有独特的外部和内部特征,它们都来源于RNA 序列,虽然我们只能推测其DNA 拷贝的产生机制,但可以推测它们是某些其它系统的酶催化的转座靶序列,可能源于细胞转录。这类转座子并不编码有转座功能的蛋白质,称为非病毒超家族(Nonviral superfamily) 。
哺乳动物基因组含有很多相对短但彼此相关的序列,其重要部分包含转座子。大部分可归纳为两个家族,即长散布重复序列(LINES) 和短散布重复序列(SINES) 。这些成分当初曾被认为是一些分散重复序列:每个家族都包含许多成员分散在基因组中。LINES 和SINES 的一个更重要的区别是,LINES 是RNA 聚合酶Ⅱ的转录物,而SINES 则是RNA 聚合酶Ⅲ的转录物。
哺乳动物基因组包含20,000~0,000 拷贝的LINES ,称为L1。其典型结构大约6500bp 长,末端富含A,内部可能存在开放读框。例如,一个已经被测序的元件有两个开放读框,分别为1137bp 和3900bp,二者有14 个bp 重叠。已经发现它们能够被转录。就像在重复DNA 中一样,LINES 家族的每个成员都有所不同。但在一个物种中的家族成员比种系间表现出更大的同源性。
业已证明,活性Ty 元件具有转座活性。我们认为果蝇基因组中的copia 序列可能也同样具有转座活性。
LINES 元件和其它一些成员无LTR,LTR 是逆转录病毒的典型结构。这就提出了一个问题: 它们的逆转录是怎样进行的呢?它们不包括典型的tRNA 引物与LTR 的配对过程。这些元件中不存在涉及逆转录作用的开放读框,如编码蛋白质酶或者整合酶,但却含有类逆转录酶编码序列,其产物可能有内切核酸酶活性。
反转座子编码的核酸内切酶活性将靶基因位点切口。其相关RNA 产物结合到切口上。切口提供一个3¢-OH 末端,以此为引物,以RNA 为模板合成cDNA。然后打开DNA 的另一条链并产生缺口,接着或在RNA/DNA 杂交分子转变成双链DNA 后,将其到切口的另一末端。有些可移动内含子(Mobile intron)也使用相同的机制。
LINES 来源RNA 聚合酶Ⅱ转录,因此其相应基因组序列本质上应无活性:它们缺少转录需要的起始位点上游的启动子。它们通常具有成熟转录产物的特征,因此被称为加工假基因(Processed pseudogens) 。
RNA 聚合酶Ⅱ的任何转录产物都能产生假基因,这种例子很多,其中包括第一个被发现的珠蛋白假基因。
如果假基因DNA 序列确实来自RNA,它应该从相当于RNA 的5¢末端的位点开始。许多假基因是由剪切连接的外显子组成,但在DNA 中不存在识别内含子的机制,所以此过程可能时通过RNA 中间体来完成的。假基因通常以一段的A?T 序列结尾,推测它可能来源于poly(A) 尾。假基因的每一端都是短的同向重复序列,可能是由类转座(Transposon-like) 形成的。加工假基因的位置和原来基因的位置没有关系。
加工假基因不携带任何用来起始转录的信息(或者实现将RNA 逆转录的功能),加工过程能否被逆转录病毒改变呢?它是由异常的细胞系统所完成的么?被转录序列的末端是与转座子的末端序列相似也可能完全是偶然事件。
转座现在还在基因组中继续发生吗?还是我们发现的只是以前发生转座的遗迹?必须注意,转座子要存活下去就必须在生殖细胞中发生。当然,相似的事件可在体细胞中发生,但它们不能遗传给下一代。
最典型的SINES 由一个单一家族成员组成。它们非常短并且有很高的重复性,除其成员在整个基因组中散布分布而非成簇分布外,与简单序列DNA 非常相像。同时种内成员的相似性要大于种间的相似性。
在人类基因组中,大部分中度重复序列长约300bp ,并且分散于非重复序列中。至少大部分复性的双螺旋DNA 被限制酶AluⅠ消化后,能产生170bp 的产物。所有能被酶切的序列都是同一家族的成员,该家族称为Alu 家族(Alu family) 。在双倍体基因组中,大约有300,000 个成员(相当于每6kb 就由一个)。单个Alu 序列非常分散。相关序列也存在于小鼠 (有50,000 个成员被称为B1 家族)、中国大鼠(Hamaster ,称为Alu 等价家族)和其它动物。
每个Alu 家族的成员只是相关而不是相同。人类的Alu 家族可能有一个130bp 的序列随机加倍重复产生,其右端插入一个31bp 的无关序列。两个重复有时被称为Alu 左半部(Left half) 和右半部(Right half),Alu 家族的每个成员平均与共有序列有87% 相似性。小鼠B1 家族的重复单位长130bp,很像人类重复单位的一个单体,与人类的序列有70~80% 的同源性。
Alu 序列和7SL RNA 相关。7SL RNA 是信号识别颗粒的一个组分,其序列和Alu 序列的左半部类似,只是在中部有一个插入。所以7SL RNA 5¢端的90 个碱基和Alu 的左边末端是同源的。7SL RNA 的中部160 个碱基和Alu 并不同源,但其3¢端的40 个碱基和Alu 的右边末端是同源的。编码7SL RNA 的基因由RNA 聚合酶Ⅲ转录,因此。非活性的Alu 序列可能是这些基因(或者相关基因)产生的。
Alu 家族的成员和转座子类似,其两端都是短的同向重复。但它们表现出非同寻常的特征,家族中不同成员间的序列长度参差不一。此外,由于它们来源于RNA 聚合酶Ⅲ的转录产物,所以某些成员可能携带内源性活性启动子。虽然其多变性和广泛分布特性提供其功能的一些线索,但现在对其具体作用还知之甚少。
至少,Alu 家族的部分成员能被转录为RNA。中国大鼠Alu 类家族的一些成员(不是所有)似乎能在体内被转录,这类转录单位常位于其它转录单位附近。
Alu 家族成员可能存在于其它结构基因的转录单位内部,如存在于长的核RNA 中。在一个核RNA 分子上若存在Alu 序列的多个拷贝,则能使其产生二级结构。实际上哺乳动物核RNA 的二级结构多数是由Alu 家族成员的插入造成。