你的遗传密码,究竟来自何方?

jopen 10年前

            GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATA GCGTATATTAAAGTTGCTGCAGTTAAAAAG

        这看起来像是错按键盘打出的乱码,但这条 DNA 序列确实意义重大,它存在于你身体的每一个细胞中,在你养的猫狗体内,在你盘中的鱼、花园中的蜜蜂与蝴蝶,甚至你肠道的细菌中。事实上,你在地球上任何地 方找到的生物,从深海底沸腾的热泉生物到云端的冰冷细菌,都拥有这条 DNA 序列。甚至,在一些事实上并没有活性的物体,比如巨型病毒拟菌病毒中,你也能找到它。

        这条 DNA 序列分布如此广泛,是因为它是在所有生命的共同祖先体内演化而来的。它担负着一项决定性的任务,几乎从未改变。换一种方法说,你体内一些 DNA 的年龄不可思议地高达 30 亿岁,从你的几万亿祖先那里未经干扰地传递给了你。

        你的另一些 DNA 则是崭新的。你的基因组大约有 100 个基因突变是你父母没有的,小到仅仅一至两个核苷酸的改变,大到整条 DNA 的得与失。

        通过基因组对比,我们可以确认哪些 DNA 是新的,哪些是老的。例如,对比你跟兄弟姐妹的基因组,可以将崭新的基因突变揭示出来。将人类基因组与动物的作比较,则可以分辨基因的新老。

        我们的基因组不仅是造人的“秘方”,还是活的历史词典。基因组由 60 亿个核苷酸组成,足够写满一堆十米高的书藉,正因为它们是如此巨量,才能记录我们过去的点点滴滴,允许我们追溯从现在到生命之初的整个演化历史。

        在刚开始破译这些记录的时候,我们就发现自己的祖先不止面临着血肉相博的生存竞争,还经历了史诗般的基因组战役,这改变了基因组的工作方式,使我们成为现在的我们。

你的遗传密码,究竟来自何方?
从第一个生物细胞的形成,到人类出现的黎明,地球生命 30 多亿年来的演化历史,就隐藏在你的基因组中。图片来源:redorbit.com

        共同祖先

        最初存在的是 RNA,它是一种“多才多艺”的分子,不仅能存储信息,还能催化反应。这意味着,一些 RNA 可以自我复制。一旦一个或一群 RNA 开始自我复制,最早的基因便诞生了。

        RNA 的基部不是特别稳定,因此很早的时候,生命体就开始在另一种分子——DNA 上储存信息。DNA 有一个略微不同的化学骨架,更不容易断裂。蛋白质也将 RNA 当作催化剂,RNA 的作用逐渐弱化成了介质。DNA 存储制造蛋白质的信息,并向蛋白质工厂释放相应的 RNA 转录体。

        RNA 曾经主宰世界的许多痕迹,仍存在于我们的基因组中。比如文章开头提到的那段无处不在的基因序列,仍编码一种 RNA 酶的一部分。这种 RNA 酶在蛋白质的合成过程中仍然起着关键作用。

        大约 35 亿年前,出现了一种含有基因组的生命体,被称为所有生命的共同祖先(LUCA,Last Universal Common Ancestor of all life)。它的基因组由制造 RNA 和蛋白质的信息体组成。在美国马里兰州贝塞斯达国家卫生研究院研究生命演化的尤金·库宁(Eugene Koonin)说,至少 100 个基因确信源于 LUCA,而 LUCA 可能总共拥有超过 1000 个基因。

        虽然与我们所知的现代生命长得不一样,LUCA 拥有许多在现代生命中仍可找到的核心体系,包括蛋白质制造体系。一些研究者相信,LUCA 绝不是一个分离的、由膜包覆的细胞,而是由类似病毒的个体组织而成的复合体,在无生命的隔间(比如碱性热液喷口的孔洞)内不断复制。

        分离与重聚

        接下来可能发生的情况是,LUCA 类似病毒的部分机体,通过两次不同的契机,吸附了细胞膜而变成了简单的细胞。这可以解释两种截然不同的简单细胞,细菌和古菌,为什么会拥有完全不同的细胞 膜。库宁说:“这是非常引人注目的假设。”可以肯定的是,生命在很早之前就产生了分枝。

        细菌与古菌演化出了一些奇妙的分子机器,并且改变了地球,但仍然只是化合物构成的小小囊泡而已。直到发生了一件非同寻常的事件,将这两大分枝重新聚合成一个复杂细胞,即真核细胞。这一事件改变了基因组,也为第一批动物的出现铺平了道路。

        距今大约 10 亿年前,一只古菌“吞食”了一只细菌,但并没有杀死它。相反,它们携手形成了一种共生关系,细菌的后代逐渐担负起了一个重要角色——线粒体,成为了细胞内供应能量的工厂。

        如果没有这次重聚,复杂生命或许根本不会出现。我们倾向于假设,简单有机体向复杂个体演化是自然趋势,但单独的细菌和古菌至今在复杂程度上也没有太大变化。原因何在?

        据英国伦敦大学学院的尼克·莱恩(Nick Lane)说,这是因为它们遇到了一个能量瓶颈。所有的简单有机体都利用细胞膜产生能量。当它们变大时,相对表面积变小,因此不能产生足够的能量,所以简 单有机体必须维持微小体。同时,小细胞也没有足够的空间容纳大的基因组。通过提供模块化的完备能量源,线粒体突破了这一瓶颈。细胞只需要制造更多线粒体, 就能够变得更大。相应地,基因组得以扩充,信息存储能力也有效提高。

        除了让细胞从能量困境中摆脱出来,线粒体的祖先还是我们多达3/4 基因的源泉。最古老的细菌大约拥有 3000 个基因,它们中的大多数都随着时间流逝或消失,或进入主基因组中,只给现在的线粒体留下了少量的基因。

        尽管益处显而易见,但重聚也存在极大的危险。确切地说,线粒体祖先的基因被一些寄生 DNA 感染了。这些寄生 DNA 被称为转位子(transposon),除了不停复制自己之外什么都不做。有时它们在基因中段定位,携带大量不相干的 DNA 形成内含子(intron)。这就像在一本熬汤菜谱中夹了一段糕点配方一样。

        当然结果并不总会致病,因为内含子能在 RNA 离开细胞核(这是蛋白质生成的第一步)进行转译前自我剪接。但这个过程并不总会发生,因此内含子的存在是有害的。绝大多数细菌基因中没有内含子,因为细菌 数量众多,相互之间竞争激烈,自然选择会残酷地将有内含子的个体剔除。然而,早期真核细胞数量极少,因此自然选择作用较弱,古老线粒体上的寄生基因便开始 疯狂进行自我复制,最终导致基因组上有成百上千的内含子。

        现在,我们的每一个基因中都有约 8 个内含子,它们中的绝大多数可追溯至最早的真核生物——我们的祖先没有采取任何措施来摆脱它们。相反,祖先演化出了一些方法来应对它们,比如改变基因的结构以及细胞再生的方式。性,便是其中之一。

        性的优势

        性的关键作用不仅是不同个体基因的混合,同样重要的,还有将两个不同谱系的进化优势综合起来。单细胞生物早就在通过无性的方式交换基因了。

        性还涉及到一个过程,被称为再结合(recombination)——在分裂为精子或卵细胞之前,染色体会交换相应的单体。再结合将基因组中的许多基因像项链上的珠子那样串起来,从而解决了一个基本问题。

        想象一串项链上有一颗珍贵的珍珠,挨着另一颗有瑕疵的珍珠。如果不能对单颗珍珠进行替换,你就只有两种选择:要么将整串项链扔掉,要么全部留 下。同样的道理,如果有益突变邻近有害突变,要么一起扔掉有益突变,要么就连有害突变都一同保留,最终通过相邻细胞传染整个族群。

        再结合提供了一个交换单颗珍珠的机会。通过交换单颗珍珠,你可以得到一条完美项链和一条满是瑕疵的项链。同样的道理,你的一些后代会获得大量的优秀基因,另一些则会得到大量有害基因,甚至包含一些致命的内含子。不幸的个体极易死去,而优秀个体将存活下去。

        大族群中会产生大量突变,其中总有一些能够抵消有害基因的影响,因此不太需要借助再结合之力。对于小族群而言,性就胜出了。也正因为如此,性成 了最早的真核生物及其绝大部分后代的标准配置。因此,下一次你在享受鱼水之欢的时候,一定不要忘记感谢古老的细菌祖先将性爱之乐的寄生基因保留至今。

你的遗传密码,究竟来自何方?
我们的基因中有许多外来的入侵序列,但这些序列也为演化打开了一条新的途径。图片来源:《新科学家》

        到了性演化出现的时候,已经有太多的内含子需要摆脱。因此早期真核生物很快就面临了另一个严重问题:随着内含子获得越来越多的变异,自我剪接机 制开始失效。相应地,早期真核生物演化出了一种特殊机制,被称做“剪接体”(spliceosome),会将内含子从转录后的 RNA 上剪下来。

        剪接体是演化产生的一种不够“灵光”的解决方法:从 RNA 上剪下基因的无用片段,比直接从 DNA 上剪下来,效率要低得多。更严重的是,剪接体反应较慢,许多 RNA 都已经到达蛋白质工厂了,内含子仍未剪掉,便导致了缺陷蛋白质的产生。

        库宁推测,这就是细胞核出现的原因。一旦一个细胞的 DNA 被封闭在一个相对隔绝的空间中,远离蛋白质工厂,只有剪接过的 RNA 可以进出,就可以防止细胞浪费能量去制造无用的蛋白质。

        但这也无法解决所有问题,剪接体常常误将已编码的基因片段(被称为外显子)剪掉,从而产生蛋白质的突变体。库宁说:“选择性剪接不是一种适应,而是有机体不得不去应付的一件事情。”

        因此,我们的古老祖先演化出了一层又一层的复杂机制,以对抗内含子的增生,但这无法解决它们引起的所有问题。不过,与简单细胞不一样,它们能量充裕,已能负担得起这样的浪费。同时,长远来看,这样的复杂化也蕴育了新的良机。

        多功能与调控

        内含子与外显子的存在,能够使基因更加模块化。在一个连续不间断的基因中,基因片段得失而产生的突变,往往会改变剩余基因的读取,从而产生混乱。相反,外显子的移除却不会干扰其他基因。于是,基因现在可以通过杂合外显子而演化了。

        例如,偶然的突变将一个额外的外显子添加到一个基因上。由于选择性剪接的存在,原始版本的蛋白质仍能被制造出来,但这也意味着该基因还能产生一 种新的蛋白质。这一突变可能没有太多影响,因此不会被自然选择剔除。但久而久之,新种蛋白质有可能承担新的作用。极其偶然的情况下,真核生物这种不“灵 光”的应对内含子的方法,让它们的基因变得功能更加多样化,也更容易演化了。

        如果关于复杂细胞演化的这种观点是正确的,我们基因组的诸多关键特征,从模块化基因到性,就都是线粒体寄生基因存在的直接结果。其他学说无法被完全否定,但这是最漂亮的解释。库宁说:“这是我最喜欢的场景。”

        所有这些新奇的特征导致了演化变革的大爆发,真核生物不仅生存了下来,还开始多样性分异。尽管如此,它们仍然面对着新型寄生 DNA 及病毒入侵的猛烈攻击。不过,在超越简单细胞的大小限制之后,复杂生命体能自由演化出越来越复杂的防御体系。

        其中之一便是给 DNA 加标记,使转位子的寄生基因失去活性,从而阻止 RNA 拷备的出现——这被称为甲基化作用(methylation)。另一种方法是,破坏入侵病毒的 RNA 来禁止其自我复制。这些防御方法仅部分有用。现在,约5% 的人类基因由病毒的残余及变异片段组成,其中残余片段占大多数。令人惊讶的是,有多达 50% 的人类基因由转位子的残余组成——这也足以证明,有多少次这些寄生物设法闯入了我们祖先的基因组,并肆虐开来。

        这些防御体系很快就被委以另一项重任:调控细胞自身基因的活性。加拿大圭尔夫大学的瑞安·格雷戈里(Ryan Gregory)是研究基因组演化的专家,他说:“原本调控转位子的机制成了调控基因的机制。”

        塑造身体

        大约在 8 亿年前,演化进入到一个新的阶段,细胞开始了从未有过的密切合作关系。虽然有少量细菌是多细胞的,但复杂程度上的限制使它们绝不会在复杂化道路上走得太 远。相反,真核生物则利用一系列的契机进入了多细胞演化阶段,最终产生了高度复杂的有机体,如真菌、水藻、陆生植物,还有动物。

        原因之一便是它们越来越丰富和大型化的基因组,这些基因组被委以新的重任,比如将细胞联接起来并相互交流。更重要的是,这些基因组的本质属性允 许快速演化的发生。例如,将细胞联接起来的蛋白质由横跨细胞膜的和向外突出的两部分组成。由于基因的模块化,所有蛋白质的向外突出部分都可以任意与横跨细 胞膜的部分锚接起来,就像真空吸尘器上粘附着不同的物品。许多控制多细胞性的关键基因,都是通过外显子的混杂演化出来的。

        另外,真核生物控制基因的复杂机制能够使细胞更加专业化。通过控制不同基因的表达与否,不同的细胞群可以扮演差异极大的角色。于是,有机体开始发展出不同类型的组织,使早期生命从简单的水绵类生物逐渐演化为拥有复杂体征的动物。

        接下来的跳跃式演化,是一系列基因“事故”的结果。繁殖过程发生错误时,有时整条基因都可能被重复复制——在所有脊椎动物的祖先身上,这样的偶然事件不止发生了一次,而是两次。

        这些基因的复制品产生了大量额外的基因拷备,其中的绝大多数都遗失了,另外一些却承担起了新的角色。确切地说,这样的重复复制产生了 4 组 Hox 基因,这是一种在发育过程中塑造身体的主宰基因,在内骨胳的演化过程中扮演着极为关键的角色。

        整个基因组的重复复制是少见的,绝大多数新基因都来自较小的重复复制,或外显子的混杂,或二者兼有。演化会利用任何有用的基因,而不管它们从何而来,一些关键基因源于垃圾 DNA,另一些则来自其他地方。

        例如,大约在 5 亿年前,我们祖先的基因组被一种称作 hAT 转位子的寄生基因入侵。它能通过一种“剪切与粘贴”机制来复制自己。这种“剪切”的过程,由与特定 DNA 序列联结的两种酶来实现。

        早期脊椎动物演化到某一时间点,这种与 DNA 剪切酶相关的序列进入到了一个基因当中(或是出现在了它的附近),这个基因与辨识入侵的细菌与病毒有关。结果便是,在个体的整个生活史中,只要它的细胞进 行复制,hAT 酶就会剪切掉这个基因的一部分。关键是,在不同的细胞谱系中,被剪切掉的部分不相同,这便形成了大量不同的蛋白质变异体。

        在某些情况下,这种变化是救命的,因为变异蛋白质更适合锁定入侵病原体。很快,一种用于辨识最有效细胞并促进其快速复制的机制产生了,这就是免 疫系统。现今人类的免疫系统复杂得难以置信,但其中的两种调控剪切与重排基因的酶正是 hAT 酶的直系后裔,是靶定入侵者的关键环节。所以,我们要感谢那种古老的“寄生虫”,带给了我们防御疾病的最有效武器。

你的遗传密码,究竟来自何方?
人类拥有 23 条染色体。图片来源:bubblews.com

        人类基因组

        配备了这些先进武器,再加上能够产生各种身体形状的基因组,早期脊椎动物异常成功。它们占领了海洋,攻陷了陆地,攀上了树木,最后从树上下来,用两条腿直立行走。

        是什么使我们与其他猿类差异甚大?最主要的区别在于:我们拥有 23 条染色体,而不是猿类祖先的 24 条。但是染色体本质上是基因库:只要我们需要的基因还在,染色体在分离或合并时就只会产生出极小的差异。更确切地说,一系列小变化的积累才逐渐改变了我们 的大脑与身体。我们已经辨识出了一些关键变异,但仍有成千上万个没被发现。

        我们可以清楚地看出,细胞和身体复杂性的增加始于基因组复杂性的增加。不过让人震惊的是,最初基因复杂性的增加是由于自然选择的缺失,而非受其引导。格雷戈里说:“基因层面上发生的绝大多数事情,可能都是中性的。”

        换句话说,变异的出现不会产生任何影响,比如某个基因的重复复制。在大族群中,这种变异很快就会丢失。但在小族群中,它能通过遗传漂变随机传 播。库宁说:“这是群体遗传不可避免的结果。”只有到后来,比如重复复制的这个基因获得新的功用之时,这样的复杂性才会被自然选择所选中。

        许多人类史上的关键事件,如产生 Hox 基因的基因重复复制,可能是某个小族群在没有什么选择压力的情况下出现的。事实上,正是人类出现之初种群数量上的一次“瓶颈”事件(即全部人类的数量下降 到某个极小数值),能够解释引起人类与猿类巨大差异(比如肌肉力量的降低)的变异为何能够分布得如此广泛。

        另一个惊人事实就是,病毒与寄生基因也发挥着重要的作用。我们基因组的许多主要特征,从性到甲基化,都演化自对病毒与寄生基因入侵的抵抗。更有 甚者,我们体内相当数量的基因和外显子,如免疫酶类,都直接来自于这些入侵者。库宁说:“在最开始,病毒就是细胞生命的必要组成部分。”

        虽是必要,却并不舒服。我们的演化付出了巨大的代价。他们都说历史是由胜利者书写的,那么好吧,我们的基因组就是一部充满了各种实验的胜利史。 这些实验要么是成功的,要么至少没把祖先杀死。我们是一长串“乐透”彩票中奖者的后裔,这个“乐透”彩票的奖品,就是生产能够继续繁衍后代的后代。在这条 道路上,有不计其数的失败者,超过万亿的动物都没能存活下来。

        我们的基因组离优秀与完美还相差很远,相反,它是将遗传“事故”的残余与古寄生物的遗存简单拼接起来的产物,它是某种会受到伦理学范畴批判的疯 狂、无序实验的产物。这个过程持续至今:去到任何一家医院,您都会发现死于可怕遗传疾病的婴儿,但死亡率已不像过去那么高了。多亏了胎儿扫描之类的技术, 我们开始有能力控制人类基因组的演化了。

        一个新的纪元,即将来临!

        编译自:《新科学家》,A brief history of the human genome

来自: 果壳网