人类基因组包括细胞核内的基因组及细胞质内线粒体基因组,它们大致结构如图3-8。
图3-8 人类基因组结构
每条染色体含1个DNA分子,1个细胞的全部遗传信息(基因)都编码在线状的DNA分子上。由于每个体细胞中有2套染色体(2n),故所含的DNA是由两个基因组(genome)构成。每个单倍体基因组约含3.2×109bp。人类基因的平均长度为1-1.5kb,所以基因组以足以编码1.5×106蛋白质,但实际上编码蛋白质的结构基因只不过5万-10万个,仅占总基因组的2%-3%。其余的DNA顺序包括基因之间的间隔顺序、基因内插入顺序、重复顺序等。目前,对它们的功能知之甚少,绝大多数重复顺序只不过是过剩的DNA。但是,其中一些则有着特殊的功能,包括:调节基因的表达,增强同源染色体之间的配对和重组,维持染色体结构,调节前mRNA的加工以及参与DNA的复制等。
(一)单一顺序
单一顺序(uniquesequence)约占基因组的60%-65%,这种顺序在一个基因组中一般仅有单个或几个拷贝,大多数编码蛋白质和酶基因属于此类。单一顺序还以间隔顺序和散在分布在重复顺序构成侧翼。
(二)重复顺序
重复顺序(repetitivesequence)是指在一个基因组中有很多拷贝,又可分为几类:
1.高度重复顺序(highly repetitive sequence) 其长度可能2、4、6、8等几个bp,较长的顺序可达200bp,但是重复拷贝数可达106次以上,例如染色体着丝粒、端粒和Y染色体长臂上的异染区就是由高度重复顺序的卫星DNA(satellite DNA)构成的,高度重复顺序不能转录,它们参与染色体结构的维持,形成结构基因间隔,可能与减数分裂时同源染色体的联会配对有关。
2.中度重复顺序(moderately repetitive sequence) 其长度300-7000bp,一般都是不编码的顺序。据认为在基因调控中起重要作用,包括开启或关闭基因,促进或终止转录,DNA复制的起始,参与前mRNA加工等。例如人类Alu家族(Alu family),占人类基因组的3%-6%,由300bp构成,在第170位附近都AGCT顺序,可被内切酶AluⅠ所切割(AG↓CT)故得名。这些顺序在基因中重复达30-50万次,平均5kbDNA就有一个Alu顺序。此外还有KpnⅠ家族(KpnⅠfamily),约占基因组的3%-6% ,由3000-4800个拷贝构成,其功能不详。此外,还有小卫星DNA和微卫星DNA(参阅第十三章)。
3.基因家族和基因簇真核基因组中有许多来源相同.结构相似.功能相关的基因,这组基因称为基因家族(genefamily)。基因家族的成员可以分布于几条不同染色体上,也可集中于一条染色体上。集中成簇的一组基因称为基因簇(gene cluster)。例如人类白细胞抗原(HLA)系统的7个连锁基因座位,排列成A-C-B-D-DR-DQ-DP,形成一个基因簇。此外,人类的类α和β珠蛋白基因簇分别集群串联排列于16p13和11p15上,而组蛋白基因簇则群集于7q32-q36。有些基因家族的成员并不集中排列为基因簇,而是散布在基因组中不同部位,如微管蛋白基因家簇,微管相关蛋白2(MAP2)定位于2q34-q35,微管相关蛋白tau,β(MAPT1)定位于17q21,微管相关蛋白tau-2(MAPT2)定位于6q21。
(三)假基因
在基因家族中的某些成员并不产生有功能的基因产物,称为假基因(pseudogene),如Ψξ、Ψα、Ψβ等。假基因起始也可能有功能,后来由于缺失、倒位或点突变等原因使这些基因成为无功能的基因。假基因可以与有功能基因连锁,也可以由于染色体易位或作为转座子,从一部位移到另一新的部位。
此外,人类基因组中还有一些特殊的短顺序位于各基因的侧翼,它们是起到调控作用的调节顺序(启动子、增强子等)。有的是与细胞恶性转化有关的原癌基因(proto-onco-gene)等构成了五花八门的人类基因组结构。
人类线粒体DNA(mitochondrial DNA,mtDNA)是独立于细胞核染色体外的又一基因组,它能自主复制,由16569个碱基对组成,每一个mtDNA分子为环状双链DNA分子,外环为重链,内环为轻链。基因组含有37个基因,其中13个为蛋白质基因(包含1个细胞素b基因,2个ATP酶复合体组成成分基因,3个细胞色素c氧化酶亚单位的基因及7个呼吸链NADH脱氢酶亚单位的基因),2个为rRNA基因,还有22个tNRA基因(图3-9)。
图3-9 人类线粒体基因组 H:重链;L:轻链
ND1-ND6:基因编码NADH脱氢酶亚单位CO1-CO3:基因
编码细胞色素C氧化酶亚单位1-3CYB:基因编码细胞色素b
人类线粒体基因组具有下列特点:
1.人类线粒体的基因排列得非常紧凑,除与mtDNA复制及转录有关的一小段区域外,无内含子序列。在37个基因之间,基因间隔区总共只有87bp,只占DNA总长度的的0.5%,有些基因之间没有间隔,有时基因有重叠,即前一个基因的最后一段碱基与下一个基因的第一段碱基相衔接。因此,mtDNA的任何突变都会累及到基因组中一个重要功能区域。
2.mtDNA为高效利用DNA。有5个阅读框架,缺少终止密码子,仅以U或UA结尾。
3.mtDNA的突变率高于核中DNA,并且缺乏修复能力。
4.mtDNA为母系遗传。
5.部分mtDNA的密码子不同于核内DNA的密码子。
遗传密码是在长期进化中形成并保持不变的,因此细胞核内所列的密码是一种通用密码,但是真核生物线粒体的密码却有若干处不同于通用密码。以人类线粒为例:①UGA不是终止密码子,而是色氨酸的密码子;②AGA、AGG不是精氨酸的密码子而是终止密码子。这样,加上通用密码中的UAA和UAG,线粒体共有4个终止密码子;③内部甲硫氨酸密码子有2个,即AUG和AUA,起始甲硫酸密码子有4个,即AUN。
总之,线粒体的密码表排列得比较整齐,各种氨基酸的密码子以及起始和终止密码子的数目或是2,或是4,或是6。
目前,由于发现有些遗传病如Leber遗传性视神经病,肌阵挛性癫痫等与线粒体基因突变有关,因而它的基因结构引起普遍关注。