地球上的生物都是由细胞组成的,而细胞又可以按照进化阶段的先后和结构的复杂程度分为两大类:原核细胞和真核细胞。原核细胞的历史比真核细胞更为久远。在澳大利亚西部皮尔巴拉沉积岩(Pilbara terrane)中发现了叠层石是由蓝细菌(Cyanobacteria)的菌膜留下的结构,而皮尔巴拉岩层的形成年代在 35 亿年前的太古代(Archaeaneon),说明原核细胞在地球上至少有 35 亿年的历史。真核细胞大约出现在 20 亿年前,也就是原核生物诞生后约 15 亿年之后。在诞生之初,真核细胞也是单细胞生物,但比原核生物的细胞(大约 1微米)大得多,真核单细胞生物的大小从几微米到几百微米不等,平均几十微米。例如,酵母菌的直径约为 4 微米,长可达 50 微米;衣藻细胞长 10~100 微米,草履虫长 180~280 微米,变形虫的长度甚至达到 220~740 微米。假设将真核生物的细胞想象成一个房间,那么原核生物就相当于一个暖水瓶。在显微镜下,真核细胞最显著的特征就是有一个与周围细胞质明显分开、界限分明的细胞核。根据此特点,这些细胞被称为真核细胞,由这些细胞组成的生物也被称为真核生物(eukaryotes,其中词根 karyo-是“核”的意思,而前缀 eu-在这里就是“真正”的意思)。由于光学显微镜的分辨率受可见光波长(400~700纳米)的限制,无法看清 1 微米以下的结构,所以在更高分辨率的显微镜发明之前,真核生物细胞中能够被清晰辨认的结构就是细胞核。
电子显微镜的发明使得科学家能够看到细微至 0.2 纳米的微观结构。科学家使用电子显微镜发现,真核细胞的结构特点不仅仅是具有细胞核,还具有其他被膜包裹的一些结构,称为细胞器,其中包括线粒体、叶绿体、内质网、高尔基体、溶酶体、过氧化酶体等,有些真核微生物含有食物泡和收缩泡。对这些细胞器进行深入研究发现,它们各有自己的特殊功能。细胞核是遗传物质 DNA 的“栖身和工作之所”;线粒体是细胞的“动力工厂”,ATP 在这里合成;叶绿体是进行光合作用的场所;内质网和高尔基体是对蛋白质进行修饰、分类和转运的器官;溶酶体是细胞的“垃圾回收站”,处理废物,让物质循环使用;过氧化酶体处理对细胞有害的过氧化物等。
为了让这些细胞器“各司其职”、独立运转,所有的细胞器都由膜包裹,以防止内容物混入细胞质,就像工厂里不同的工序需要在不同的车间中进行。线粒体和叶绿体是进行能量转化的地方,需要膜结构维持跨膜的氢离子梯度;进入内质网和高尔基体的蛋白质将被运送到细胞膜上或细胞外,因此也需要膜防止它们进入细胞质;溶酶体中含有各种水解酶,而且 pH 在 5 左右,自然也需要膜保证酸性的内环境,并防止这些水解酶进入细胞质。
相比之下,细胞核由膜包裹就不太好解释。细胞核不过是储存DNA,并且将 DNA 中的基因转录为信使核糖核酸(mRNA)的场所,没有膜包裹也不妨碍这些功能。原核细胞就没有细胞核。在原核细胞里,DNA 是“漂浮”在细胞质中的,基因的转录、mRNA 指导蛋白质合成,都是在细胞质中进行的,这两个过程并没有在空间上区分开。而在真核细胞中,DNA 转录为 mRNA 在细胞核中进行,蛋白质的合成却在细胞质中进行,二者在空间上是分开的。DNA 转录为 mRNA后,蛋白质合成还不能开始,因为合成蛋白质的核糖体在细胞质中,需 mRNA 分子被转运到细胞质中,蛋白质合成才能开始。这样从DNA 转录为 mRNA 再到蛋白质合成,中间就有一个延后期。而且许多分子经过核膜上的孔进出细胞核时,还需要消耗能量(需要水解GTP)。真核细胞为什么要“自找麻烦”?换句话说,真核细胞中细胞核的功能究竟是什么?
这是因为真核细胞为蛋白质编码的基因中含有内含子,而原核细胞中为蛋白质编码的基因基本上没有内含子。这些内含子是线粒体带给真核细胞的“不速之客”,它的出现使得细胞核成为必然。要知道什么是内含子,就要从 1977 年美国两个实验室的意外发现说起。
在 20 世纪 70 年代以前,人们对基因的认识是很简单的:基因就是 DNA 分子上为蛋白质编码的区段,再加上控制基因表达的“开关”,即启动子(promoter);当启动子“开启”基因时,这段编码的DNA 序列就被转录为信使核糖核酸(mRNA),mRNA 再指导核糖体合成蛋白质;为蛋白质编码的 DNA 序列是连续的,mRNA 分子中为蛋白质编码的 RNA 序列也是连续的。在原核生物中情况确实如此。例如,在大肠杆菌中,合成 mRNA 的过程还没有完成,附近的核糖体就“迫不及待”地“抓住”mRNA,开始蛋白质合成了。所以在原核生物中,合成 mRNA 和合成蛋白质是在同一个场所,几乎同时进行。
这种“编码序列是连续的”的观念在 1977 年被打破了。1977 年,美国冷泉港实验室的里查德·罗伯兹(Richard J. Roberts)和麻省理工学院的菲利浦·夏普(Phillip A. Sharp)同时研究引起人类感冒的腺病毒(adenovirus)。这种腺病毒的主要蛋白称为六邻体(hexon),是包裹病毒 DNA 的表面蛋白质。他们先从被病毒感染的细胞中提取到六邻体的 mRNA,为了寻找病毒 DNA 中为六邻体蛋白编码的部位,他们让 mRNA 和病毒的 DNA“杂交”,即让 mRNA 的序列与 DNA 分子上的相应序列通过碱基配对彼此结合。出乎意料的是,六邻体 mRNA 和DNA 的 4 个区段结合,这 4 个区段之间没有与 mRNA 结合的部分则游离出来,形成 3 个环。这个结果使他们认识到,腺病毒 DNA 为六邻体蛋白质编码的序列不是连续的,而是分为许多段。在这些实验结果的基础上,美国科学家瓦尔托·基尔伯特(Walter Gilbert)于 1978 年提出了内含子(intron)的概念。内含子是阻断基因连续线性表达的DNA 序列,在 mRNA 合成后被“剪切”掉,不出现在成熟的 mRNA分子中。而负责为蛋白质编码的区段则被称为外显子(exon),它们被内含子分隔开,在转录过程中与内含子一起被转录。当 mRNA 分子中的内含子序列被剪切掉以后,外显子的序列就连在一起,使基因可以连续表达,从而指导蛋白质的合成,就像内含子未曾存在过一样。假设为蛋白质编码的 DNA 序列为几段不连续的红线,断开的部分由白线(内含子)连接,那么将白线剪掉,把断开的红线部分连起来的过程就叫作 mRNA 的剪接(splice)。罗伯兹和夏普的研究结果促使科学家开始系统研究真核生物的基因,发现许多基因中的编码序列也是不连续的,也就是说,很多真核生物的基因中含有内含子。这是基因结构观念上的大革命,罗伯兹和夏普也因此获得了 1993 年的诺贝尔生理学或医学奖。
内含子是如何起源的,至今学术界还没有统一的意见。一种假说认为,内含子在生命出现的早期,在 RNA 世界时就已出现了。当时DNA 还没有出现,RNA 分子则“身兼数职”:既要催化自身的合成,又要催化蛋白质的合成,还要用自己的核苷酸序列为蛋白质中的氨基酸序列编码。要使一个长长的 RNA 分子连续序列为蛋白质编码,合成的蛋白质又要具有生物活性,这种可能性非常小,就像把英文中的 26个字母随机地排列在一起会出现一段有意义的文字那样困难。比较可能的情况是 RNA 分子内有许多小的片段,每个片段分别负责给一些氨基酸编码,再有选择性地把这些区段结合起来,就有可能产生具有生物活性的蛋白质。这就像随机排列的字母不容易产生有意义的词和句子,但如果有选择性地去掉一些字母,就可以连成有意义的词和句子。由于 RNA 分子具有自我剪接的能力,这样的过程是有可能发生的。当然这是一个漫长和随机的过程,但最终是可以实现的。一旦这样的组合被固定下来,它们就可以在 DNA 出现后,被复制到 DNA 分子中,然后在 mRNA 阶段再进行剪接。现在原核生物以 RNA 为最终产物(如 tRNA 和 rRNA)的基因(即不为蛋白质编码的基因)中,就还有许多这样的片段,它们能够在 RNA 分子被合成后,自己把自己剪切掉,包括Ⅰ型和Ⅱ型内含子(这两种内含子的自我剪切方式不同)。经过几十亿年的时间,能够自我剪切的 RNA 内含子类型居然还有两种,说明内含子在 RNA 生命阶段就已出现的学说是有一定道理的。不过在原核生物出现后,这种为蛋白质编码的方式就不再理想了。因为在合成的 mRNA 分子中,有很大一部分是不为蛋白质编码,需要去除的“废物”。这些内含子既占据 DNA 的空间,使得原核生物在复制DNA 时要付出更多的“成本”,在合成 mRNA 时,细胞还要消耗资源合成这些废物,然后剪除它们。对于结构简单的原核生物来说,因为资源有限,还必须迅速繁殖才能与其他原核生物竞争。如果去掉这些“废物”,既能节省资源,又能加快繁殖速度,对于原核生物的生存无疑是非常有利的。经过亿万年的进化,原核生物基本上将内含子“清除”掉了。为蛋白质编码的 DNA 序列是连续的,生成的 mRNA 也不需要剪接,可直接用于指导蛋白质的合成,因此在原核生物中,存在转录和蛋白质合成同时同地进行的状况。在这种情况下,细胞核的存在也没有必要,因此原核生物绝大多数没有细胞核。原核生物的基因之间也有一些无效的 DNA 序列,不过一般只占 DNA 序列的 10%~15%,残余的内含子序列也基本上“躲”在这些地方。
另一方面,真核生物的 DNA 中却含有大量的内含子,而且越是高级的生物(如哺乳动物和开花植物),基因中内含子的数量越多。为蛋白质编码的基因几乎都含有内含子。例如,人类每个基因中平均含有8.1 个内含子,拟南芥(Arabidopsis thaliana)每个基因中平均含有 4.4个内含子。就连低等动物,如果蝇(Drosophila melanogaster),每个基因中也平均有 3.4 个内含子。而许多原核生物总共也只有几个内含子。也许有人会产生疑问:原核生物想尽量去掉的东西,真核生物怎么会让它存在并且让其繁荣?原因可能有两个:一是真核生物有线粒体提供能量,“财大气粗”,不在乎这点“废物”的存在。真核生物是以质量取胜,即通过自身强大多样的功能取胜,而不是像原核生物那样以数量取胜,所以不必拼命繁殖。二是真核生物巧妙地利用了内含子的存在,用于合成更多的蛋白质。在原核生物中,因为编码序列是连续的,没有“花样”可玩。编码序列什么样,蛋白质就什么样,一个编码程序只能生成一种蛋白质,即一个基因对应一种蛋白质。而在真核生物中,由于编码序列是最后“拼接”起来的,如果改变拼接方法,只使用其中的一些编码区段,让外显子以不同的方式结合,就可以利用同一个基因指导合成不同的蛋白质。这种拼接外显子的方法叫作选择性剪接(alternative splicing)。例如,果蝇的 dsx 基因是性别控制基因,该基因有 6 个外显子。如果把外显子 1、外显子 2、外显子 3、外显子 5、外显子 6 拼接在一起,就会形成一个使果蝇发育为雄性的转录因子(transcription factors,TFs),如果将外显子 1、外显子 2、外显子3、外显子 4 拼接在一起,就会形成一个使果蝇发育为雌性的转录因子。如此,同一个基因就能产生功能完全相反的两种蛋白质。指导合成蛋白质种类最多的基因,要数果蝇的 DSCAM 基因,该基因有 24 个外显子,可以形成 38 016 种不同的组合,即生成 38 016 种蛋白质!而果蝇的全部基因数才 15 016 个。在人类基因的全部 DNA 序列测定以后,发现其中只有大约 21 000 个基因。此结果出乎许多人的预料,甚至有人认为这是对人类的羞辱,因为那么低级的原核生物大肠杆菌(菌种 K-12)都有 4377 个基因,其中 4290 个基因为蛋白质编码。考虑到人体结构的复杂性远远超过大肠杆菌,人类理应至少有 100 000 个以上的基因才“合理”。其中的奥妙就在于人类的基因能够灵活地进行选择性剪接,所以 2 万个左右的基因可以指导合成 10 万种以上的蛋白质。这就可以解释为什么生物越高级,为蛋白质编码的基因中内含子越多。
为蛋白质编码的基因中出现内含子,转录的 mRNA 就无法直接在核糖体中指导蛋白质的合成,因为那样会把内含子序列误认为有效编码,合成出错误的蛋白质,所以必须先将 mRNA 中的内含子去除,然后才能用指导合成蛋白质。而去除内含子的剪接过程是比较慢的,怎样才能防止内含子去掉之前合成蛋白质的过程就已开始?唯一的办法就是阻止核糖体接触到尚未“加工”完毕的 mRNA。也就是说,转录和蛋白质合成的场所必须在空间上分开,这就是细胞核的作用。细胞核的核膜能够防止完整的核糖体进入细胞,而 mRNA 在剪接完成前都不会离开细胞核,这样核糖体接触到的就只能是加工完毕的 mRNA。事实上,真核生物在加工 mRNA 时还不只是去掉内含子,还要给mRNA“穿靴戴帽”,“穿靴”就是给 mRNA 分子加上一个由 100~250个由腺苷酸(A)组成的“尾巴”,这个“尾巴”叫作“多聚 A 尾巴”。“戴帽”是在 mRNA 的“头”(5'端)的鸟苷酸中的嘌呤(G)上加1 个甲基(—CH3 )。这两个修饰使得 mRNA 分子更加稳定,也等于是给 mRNA 分子戴上了离开细胞核的“放行徽章”。所以细胞核的出现,是内为蛋白质编码的基因中出现内含子的必然结果。
如果将各种真核生物同种基因中内含子的位置做比较,就会发现内含子的位置有许多是相同的。例如动物和植物之间有 17%的内含子位置相同,真菌和植物之间有 13%的内含子位置相同。甚至人类和开花植物拟南芥之间,都有 25%的内含子位置相同。这些事实说明,真核生物基因中的内含子出现的时间非常早,在所有真核生物的共同祖先中就出现了。根据各种模型的推测,在最早的真核生物中,为蛋白质编码的每个基因平均含有 2~3 个内含子。由于细菌 DNA 含有的内含子数量极少,在最初的真核生物形成时,一定有一个内含子数量突然大量增加的事件。由于原核生物经过 10 多亿年的进化,内含子已基本消除,真核生物的共同祖先又是从原核生物进化而来的,内含子的突然增加是如何发生的?2006 年,美国科学家尤金·库宁(Eugene V.Koonin)提出了一个假说,他认为是后来要变成线粒体的 α 变形菌进入寄主细胞后,其 DNA 中的内含子“入侵”寄主的 DNA 并在那里繁殖,使得最初的真核细胞基因中含有大量的内含子。
真核生物为了适应这种情况,进化出了细胞核将 DNA 和核糖体分【打印本页】【关闭窗口】 |