水稻基因组物理图的构建(洪国藩)
本文试图用比较通俗的语言,来讲述我们在构建水稻基因组物理图时所采用的战略和物理图的意义。有关构建物理图的详细科学内容,如酶解反应及一系列相关生物技术的改进和计算机数据处理等,有兴趣者可见已发表的论文。
基因组计划
|
水稻基因组(rice genome)有12条染色体,总长4.3亿个核苷酸,包含着水稻的全部遗传信息。这些遗传信息,决定了水稻从种子萌发到幼苗生长直至植株成熟的全部生长过程,当然也决定了水稻的产量和质量,包括水稻对外部环境的适应能力。
从原则上讲,基因组计划,指的是以整个基因组为对象的研究。例如,水稻基因组计划的研究对象,就是总长为4.3亿个核苷 |
酸的全部12条染色体。由于研究对象涉及生命体的全部遗传信息,因此也有人称这类研究为全生物学研究(complete
biology)。此项研究的工作量特别庞大,体系极其复杂,并涉及多种学科,如分子生物学、遗传学、计算机科学等。长期以来,人们就知道基因组计划的重要性,但这类研究1990年初才真正开始,那就是美国的人类基因组计划。因为相关的科学技术到这一阶段才开始在总体上成熟,使科学家能够着手进行基因组计划。
基因组计划基本上可分为三项内容:构建基因组的遗传图;构建基因组的物理图;测定基因组的DNA全序列。这三者之间都有一定的关联,各自研究的进程和结果,又都可促进相关应用科学的发展。
水稻基因组物理图
1992年下半年,中科院国家基因研究中心开始从事有关的水稻基因组研究。经过一番艰苦探索,并在日本于1994年底已完成水稻基因组高密度遗传图的背景下,我们决定全力构建水稻基因组物理图(以下简称“物理图”)。
|
| 物理图有两个重要意义:第一,利用物理图和遗传研究所得的有关信息,人们就可望获得预期的有用基因。这些有用基因可被育种家用来改造水稻,以培育高产优质的水稻新品种。全球和中国人口的一半都以水稻为主食,因此,不断获得新品种,对满足全球和我国高速增长的粮食需求将起到重要的作用。第二,物理图为测定水稻基因组DNA全序列提供了必不可少的“骨架”。基因组DNA全序列的测定,就能使人们最终在分子(核苷酸)水平上理解水稻的遗传奥秘,从而更有效地改造生命,造福人类。 |
|
|
我们可将物理图想象为由一条条的横线构成,而相邻的横线之间存在着部分重叠。每一条横线代表一段由限制性酶切产生的DNA片段,其长度约为12万个核苷酸。于是一条由几千万个核苷酸组成的染色体,就可被看作是由许多部分重叠的小片段所构成。而决定水稻生命活动的各类基因,就包含在这些DNA片段之中。
“分子标记”指的是可与染色体上特定DNA序列结合的DNA小片段。假如已知一条染色体物理图上某一区段由编号为
l~9的9个DNA片段组成,又知道分子标记M1和M2分别定位在DNA片段3和7上,通过遗传研究还知道,有一个决定水稻产量的基因位于分子标记M1和M2之间;那么只要查看一下物理图,便可获知这个基因一定位于DNA片段3、4、5、6、7所构成的区域内;逐一对这些DNA片段的功能进行分析,就能确定那个决定产量的基因究竟位于哪一个DNA片段上,于是就得到了预期的有用基因。因此,对基因的正确获取,物理图的作用是显而易见的。
鉴于现在的科学技术水平,人们还无法对一条完整的染色体进行直接测序,因为它太长了。要测定染色体的DNA序列,必须先将它切成一定长度的较小的DNA片段,然后对这些小片段分别进行测序。物理图正好满足了这一要求,因为它正是由DNA小片段相互部分重叠所构成的。因此,只要完成对物理图上各个DNA片段的序列测定,也就完成了对整条染色体的DNA测序。 |
|
构建物理图的战略
构建物理图之前,我们先制订了构建物理图的总战略,我们称之为“BAC-指纹-锚标”战略。这个战略的第一步是建立水稻基因组库(以下简称“库”)。简单地讲,将庞大的基因组DNA切割成许多小片段,并将它们分别装入载体中,这就建成了所谓的库。由于水稻的DNA小片段已装人载体中,它们就能被复制而扩增了。为便于表达,我们将每一个载体所含的水稻DNA片段以物理图中的一条短横线来表示。
载体的选择甚为重要。有两种载体可用以建立库:YAC和BAC。载体YAC是人造酵母染色体的简称,载体BAC是人造细菌染色体的简称。用BAC构成的库要比用YAC的好得多。YAC转化率低,分离得到DNA难,使构建物理图的工作量大增;更伤脑筋的是,YAC重组率高,这不仅使构建物理图的难度增加,而且更容易引入误差。YAC的优点是插入的DNA片段的长度比BAC的长。不过,根据水稻基因组的长度,用BAC已足够了。经综合考虑、分析,我们采用了BAC体系,放弃了当时美国、日本采用的YAC体系。
怎样将DNA片段连成物理图?这就涉及到构建物理图的具体战略了。有两种战略可供选择:一种称为杂交法,一种称为指纹法。构建物理图时通常仅采用其中一种方法,尤以杂交法用得多些。我们决定采用指纹法,再辅以杂交法,制订了具体的“指纹-锚标”战略。
首先,我们用指纹战略将相邻的DNA片段重叠相连。为了说明相邻的两个DNA片段是如何重叠的,先介绍一下指纹法的基本原理。物理图中相邻的两个片段经酶解后,各自产生更小的片段,这些更小的片段经电泳后按长度的大小排列。结果,这两组更小的片段中有几个长度相同的片段在电泳图上处于相同的位置,它们就是物理图上相邻两个片段之间的重叠部分,也称“相同片段分布谱”。于是,它们就重叠连接起来了。但这只是一种极为简化的表示,仅给出一种概念。实际上电泳图是很复杂的,用肉眼根本无法看出是否存在相同片段分布谱。要从这么复杂的电泳图中找出哪两个DNA片段相连完全得靠计算机。经扫描机将电泳图输入计算机,然后经过计算机的繁复运算,才能找出哪两个片段相重叠。这涉及到极为复杂的概率论计算。根据初步统计,我们为作出这张物理图,所完成的全部指纹信息分析计算高达近2000亿次! |
经指纹酶解反应后,一般一个片段所产生的酶解小片段数超过20个。小片段越多,由长短片段所造成的复杂性就增加,于是片段重叠的可靠性也就增大。另外,实际的物理图上并不只是由许多两两相邻的片段相互重叠所构成,而是在任何相邻区域内都有许许多多片段相互重叠。这种重复重叠造成了物理图的“深度”。正是这个“深度”才使片段间的重叠具有可靠性。对于由4.3亿个核苷酸组成的复杂的水稻基因组而言,任何仅由两个片段相重叠作出的物理图,很难说就是正确的。
用指纹法构建物理图是一个随机的过程。也就是说,物理图上每一点的深度是无法预测的。为了使物理图达到应有的深度,所选用的办法是增加DNA片段的绝对数量。因此在构建物理图时,我们使用了约22000个DNA片段。每一片段的平均长度为l2万个核苷酸,于是片段总长达26.4亿个核苷酸。这个长度是水稻基因组总长(4.3亿个核苷酸)的6倍多,即这些片段的总长能覆盖水稻基因组6次。显然,这使构建物理图的工作量十分庞大,计算机的分析也极其繁复,对计算机软件的要求也很高,但这是保证物理图精确性的关键。
指纹法是一项被证明为可靠而又巧妙的方法。特别是英国桑格中心的科学家们已用此法构建了线虫基因组的物理图,并根据此图进行了大规模的DNA测序工作(这是证明物理图可靠性的最好办法),结果证明用指纹法构建的物理图十分可靠。我们构建水稻基因组物理图用的正是这个指纹法,但有三点与他们不全相同。一是线虫基因组总长约
l亿个核苷酸,水稻基因组的长度是它的4倍多,构建物理图的复杂性和工作量显然增加了。二是构建线虫基因组物理图时用的是粘粒库,我们用的是BAC库;粘粒
|
|
|
|
库的插入长度约为4.5万个核苷酸,而BAC库的插入长度约为12万个核苷酸,这就造成指纹信息量的不同。三是水稻基因组含有高达50%的重复
顺序,超过线虫基因组的重复顺序,而重复顺序是引起物理图误差的可能因素。经与指纹法的发明者之一、英国桑格中心科学家库尔森(A.
Coulson)博士详细深入的分析,我们认为,将指纹法用于分析水稻基因组在理论上没有问题。同时,我们还做了近400个DNA片段的前期探索,证明指纹法的确适用。但为了谨慎起见,我们又设计了锚标法来进一步检定由指纹法获得的物理图的精确性。 |
|
| 所谓“锚标”指的是用分子标记与全部22000个DNA片段杂交以获得阳性片段,然后将阳性片段定位在物理图上。每个分子标记在整个水稻基因组中只出现一次。换句话说,如果用某一个分子标记与整个水稻基因组DNA杂交,那么这个分子标记只能定位于染色体的某一个特定的位置上(实际情况比这复杂得多,而且分子标记在水稻基因组上出现的位点也往往不止一个,但这并不影响锚标的运用。为了描述方便,这里仍假设分子标记只能定位在水稻基因组的某一个特定的部位)。现在,我们把分子标记与覆盖水稻基因组6次以上的22000个DNA片段杂交。共使用了近1000个分子标记。从理论上讲,每一个分子标记都要分别与所有的DNA片段逐一杂交,才能找到应有的全部阳性片段。因此,相互杂交的次数达2000多万次!
可见工作量之庞大。 |
| 每个分子标记与所有的DNA片段杂交后所产生的阳性片段的数目是不等的,一般从几个到十几个,个别分子标记可产生更多的阳性片段。但是,一个特定的分子标记所产生的阳性片段数目是恒定的。现在的关键,是每一个分子标记所产生的全部阳性DNA片段在物理图上的定位。由于分子标记在物理图上只定位于一个特定的位点,因此,不管每一个分子标记能产生多少个阳性片段,它们必须全部集中在一处,而不能有一个片段分散在别处,这是极为严格的条件。实验结果证实了这一点。于是用指纹法构建出来的水稻基因组物理图的可靠性就得到了验证,“指纹-锚标”战略取得了成功。 |
|
|
|
获取基因和大规模测序
随着物理图的建立,数百个分子标记之间的物理距离也被测定出来。这是个重要的数据,因为有了实际的物理距离,基因才能被确定在一个特定的位置上,这个基因的获取也就比较容易了。物理图上的分子标记越密,基因就能更准确地定位在窄小的范围内,人们获取所需基因进行定向育种,也就更容易了。
在单子叶植物中,存在着同线性现象,即不仅许多分子标记的前后次序在水稻、玉米、小麦等作物的基因组中是相同的,功能类同的基因的次序在这些作物中也是相同的。因而一旦确定了水稻分子标记间的基因次序,就能有效地帮助找出其他禾本科作物的相关基因,反之亦然。
物理图上分子标记间的距离,是比较精确的物理距离。因此,原来在遗传图上处于同一位置的两个分子标记,在物理图上就被解开了,它们之间的物理距离也随之被确定。这对确定并获得这些分子标记之间的基因十分有利。
水稻基因组物理图中尚有些空隙需要填平。我们采用的分子标记主要来自美国,也有少量来自日本。这两类分子标记属于不同的水稻品系,它们之间的相对次序在物理图上尚不能确定。因此,暂将来自日本的分子标记放于有关染色体的末端。从物理图概念出发,当空隙填平时,分子标记的次序也就确定下来了。物理图的可靠性虽经过指纹和锚标两次检测,但同当今其他数亿个核苷酸以上的大基因组物理图(如最近在美国《科学》周刊上发表的人类基因组物理图)一样,存在一定程度的误差是可能的。不过,作为基因组计划的必然延伸,继物理图构建之后的工作,一定是根据物理图对基因组进行DNA全序列测定。物理图为大规模测定基因组序列建造了“脚手架”。在物理图的精化、应用和测序过程中,存在的误差既可被发现,也可得到纠正。 |
|
精化物理图,应用物理图,以及根据物理图测定水稻基因组的DNA全序列,是我们下一阶段面临的重点任务。
(本研究项目由国家科委、中国科学院和上海市人民政府支持,得到国内外科学家的帮助。研究工作由中科院国家基因研究中心完成。)
[1] Hong G F, Qian Y M, et al. The Journal of
DNA Sequencing and Mapping, 1997,7:319
[2] [2] Hong G F. Plant Mol Biol, 1997, 35:129
[3] [3] Hudson T J, et al. Science, 1995, 270:1945 |
|
|
|