■中国科学家说这只是认识人类自身的一小步。
“我为什么是我? 几千年来人们对于自身已经疲于发问。除了哲学家们几句经典的超然物外和类似个人宣言式的“我就是我”,人们还没有更响亮的答案。
说起来有些危言耸听,人和猪其实差别很小,在基因组上只差百分之几,人和猩猩的基因组也只有百分之二的差别,人与人之间的基因组就更小了,只有0.2%是不同的,但这基因组上的毫厘之别却造成了你我之间不同的相貌、不同的喜悦与痛苦,不同的心跳和不同的命运。
神秘的基因到底在给每个人念着怎样的梵语?我们已经知道控制人类生老病死的物质是基因,但是我们无法了解人体所含的10万个基因存在的具体地点,以及它们在控制着生命的哪一方面:是与肿瘤有关、与肥胖有关,还是与心血管疾病或是精神疾病有关。
1990年,可以与阿波罗登月相媲美的人类基因组计划正式启动,我们因此进入了又一个不平凡的年代。科学家们要联手破解基因上的遗传信息,读懂基因对于每个人怎样地发号施令。迄今为止,美国、德国、日本、英国、法国和中国6个国家的科学家加入了这一行列。科学家的第一个步骤就是要找出所有的基因密码,这就是基因组的测序工作,不久的将来“我为什么是我”将不再是一个难以面对的问题。
由中国承担该计划1%的序列测定任务,已经与国际同步完成,结果已经递交国际基因数据库。为此,记者采访了参与这一过程的专家———中国科学院生物物理研究所陈润生教授。陈教授指出,揭开基因之谜必须经过测序、组装、标示、读懂几大步骤,从进程上看目前人类基因组的研究刚刚迈出了一小步。
没有看不好的病只有修不好的基因
现在的人们上医院可能是去看感冒、看胃病,而今后人们去医院也许为了修复基因。看看哪一段基因密码不太好,可能会得哪种疾病。
每一个基因片段决定着一个新个体的某一生理特征,正如一幅建筑图纸的每一部分将决定建筑物竣工后相应部分的具体状况一样,所以破解每一个基因片段,就如同掌握建筑图纸每一个具体细节。如果将这一片段“切割”出来,加以研究,便可以揭开导致人类先天疾病的基因的密码,找到医治这类疾病的方法和技术;或是单独培养,得到新生体一个个器官或组织,再加以推广利用,便可以为先天性生理缺陷的病人单独“培植”其缺陷部分,从而达到器官移植、治病救人的效果。现在,有人把“负责”心脏的基因片段移植到与人体器官大小差不多但长得快的“猪”的身上,结果猪长出的心脏,可以作为人类心脏病患者的替代品。而用基因重组制成的药物,如基因乙肝疫苗、红细胞生产素等有极强的医疗作用。
目前人们已经知道了3万多个基因的具体位置,但是,在遗传密码没有彻底揭开之前,人们不可能了解基因之间的相互关系。通常一种病不是一个基因的变化,而是一组基因的变化,只有对基因全面了解以后才能知道整个基因调控网络的运行情况。
陈教授也指出,人们依靠基因之谜的揭底会生活得更加健康、幸福,但这并不代表人类会长生不老,认识组织机构变衰老的问题是一个系统间的问题,不是靠修复一个基因就能解决的。
最后一刻中国进了基因测序俱乐部
1999年9月,在英国伦敦举行的第五次人类基因组测序战略会议上,来自中国人类基因组学界的代表承担了对人体3号染色体(染色体是按照大小来排列的)上一部分,约3000万个碱基区域进行测序的任务。这大约相当于人类基因组全部测序30亿个碱基任务的1%。承担这任务的是中科院遗传所人类基因组中心、国家北方基因组研究中心。
而用来测序的染色体是由国际人类基因组织统一分配的,可能来自于4个人,从而作为基因的标准样本。
在参与到基因测序的任务的同时,中国也理所当然地获得平等地使用人类基因组计划的资源、技术与结果的权利,为中国生物技术的产出化发展拉开了序幕。
据陈教授讲,我国3号染色体的基因可能会与尿毒症、急性骨髓性白血病等疾病有关。
基因成了谁都想抢的财源
凡是有人的地方就需要药物来治病,因此,药物的经济效益极高,在美国,一年的医药费达到7000亿美元以上。
人类基因组完成后将绘制出一幅最标准的基因范本,参照此基因范本的基因诊疗将是具有革命性的新医学。6000多种人类遗传性疾病以及严重危害人类健康的恶性肿瘤、老年痴呆、糖尿病的基因将会被发现和克隆,这些疾病将因此而得到更早、更快捷、更准确的预测和诊断。目前,世界上的热门生物芯片诊断、亲子鉴定、基因制药都依赖于基因图谱引路。21世纪的药物将是基因药物,因此基因就是财源,每个基因,都有极强的经济价值。许多国家和公司都在基因研究上投入巨资支持,多方面的力量也已经加入到基因产业中来,都希望能抢搭上这辆开往基因时代的列车。
遗传密码成了被撕碎的报纸
这是人类了解基因的第一步。
今年4月,美国塞雷拉公司公布了一则消息,称他们已经完成了一个人的人体基因的测序工作。有的人对于这条新闻欣喜若狂,以为基因之谜的揭开指日可待,有的人却认为这其实什么也不代表。那么基因测序工作的完成到底意味着什么?
陈教授表示,DNA测序工作无论是私人的生物公司还是政府支持的人类基因组研究部门,都能较容易地完成。但难题是你怎样把那么长的遗传密码按照原样拼接起来。
遗传密码的测序工作不可能一下子完成,科学家需要把它分成许多小的片段。在国际上习惯以几十万个“字符”为一段,但这几十万个字符也要切成许多小的片段进行测量。也就是说,染色体被分成大片段,大片段再分成数以千计的小片段,从小片段测序做起,再把小片段组合成大片段,大片段组合成整个染色体。对遗传密码只测一遍是不可能接上的,就像一张纸条,被撕开后没有任何标记,是不可能拼接上的,所以通常要测十几遍,找到有重合的地方才能粘接在一起,这就是非常烦琐的组装。
测序相对来说是很基本的工作,组装才是更为重要的环节。陈教授说,现在我们得到的密码就像一张被撕碎的报纸,每个字符我们都有,但我们非常难知道谁和谁在一起,也就是说,我们现在只是得到了一地的碎片,还没能把它恢复成报纸的面目,更别说去看每一段的意思了。
基因密码拆了容易装起来太难
陈教授说,基因的测序和组装是在2000年到2003年都在持续进行的工作。我们已经知道遗传密码要测许多遍,每测一遍就有一些新的数据,就可以重新进行一遍拼接,这个非常重要的组装过程是靠生物信息学与计算机共同完成的。陈润生教授正带领他的研究小组编写和修改这方面的程序。
但是遗传密码中仍然存在着我们测不到的“角落”。为了把遗传密码分割成一个个便于测量的段落,科学家们往往使用特殊的酶把染色体剪断或者用一种物理的方式把染色体拉断。这就涉及到遗传密码这条长链上有的地方非常脆弱,酶总是找一个地方去切断或者物理的拉力也总是把一个地方拉断,这样科学家会缺少这种拼装的信息,遗传密码出现难以连接的空隙。所以到今年为止,工作草图只需要组装成90%的精确度,到了2003年,“精确图”将替代“草图”,达到99%的精确度。届时,人类的基因密码图谱就像是一张30亿个G、T、A、C精确排列的“地图”。
基因明白了还有更多不明白的
既然说基因和非编码区都是由G、T、A、C四个字符排列组成的,那么科学家又是靠什么从一堆枯涩的字符中慧眼识基因的呢?
据陈教授讲,其实识别基因的方法有很多,理论预测新基因的方法涵盖了数学、物理学、信息科学中发展起来的许多算法和分析技术,在DNA序列上完成不同功能的序列。它的编码方式也不同,因而G、T、A、C的出现频率也不同。与编码区一个字符代表一个意思不同,基因是以3个字母连在一起作为一个密码使用的。4个字符3个连在一起的方式有64种,按照统计学的方法,算出这种3联体密码在每个区域分布的频率就能大致估计出这一部分是否是基因,这种方法对于微生物基因组可以成功地识别出97%以上的基因。
把人体大约含有的10万个基因挑选出来,搞清楚它在遗传密码上的准确位置,翻译出它到底在说什么,就是所谓的标示,这一过程预计会在未来几年内完成。
但是,了解基因并不是读懂遗传密码。人体10万个基因长度只占遗传密码长度的5%,剩下的95%就是非编码区了,这实际上是一个目前我们还没有认知的领域,而且是更为重要的领域。
如果一个基因对应着长头发的角蛋白,那么在非编码区就可能隐藏着一种信息控制着头发什么时候生长、什么时候脱落、能长到多长。只有把这95%的区域所包含的秘密也弄清楚,才是真正读懂了遗传密码,但这就要等到几十年以后了。
遗传密码
是本天书
遗传密码、DNA、染色体、碱基对,谈起基因组计划,有一堆抽象的名词挡在我们眼前,它们和基因是什么样的关系?
陈教授告诉记者,本世纪50年代有一项鼓舞人心的工作就是发现了遗传密码是存在在DNA这样一个很长的分子上。可以说,遗传密码就是一个非常长的链条,而上面无非是G、T、A、C四种符号(专业上称碱基),这四个符号不同的排列组合代表着不同的意思,但也分成了两大类,一种叫编码区就是俗称的基因,另一种叫非编码区。
在生物体的每一个细胞里都含有这样一套遗传密码,但值得注意的是,一个细胞的直径才有几微米,而装着遗传密码的DNA分子有多长?大约有1到2米,它要想在细胞里存在就不得不把自己蜷缩起来。在人体中,遗传密码是分为23段来缠绕的,它绕来绕去就把DNA分子缩短了几千倍,这23段卷曲的遗传密码就是人体的23个染色体。也就是说23个染色体如果被拉直连起来就是人体的一整套遗传密码。由此,听起来很虚幻的遗传密码就成了显微镜下清晰可见的染色体,成为了一种看得见摸得着的东西。
尽管如此,遗传密码在我们看来简直就是无法读懂的天书,它是由30亿个G、T、A、C四个字符排来排去组成的,如果有一本100页的书,每页有3000字,那么人类的遗传密码将写满1万本。这样大型的工作量需要依靠大量的人力,于是国际基因组组织就给每个国家分配了不同的部分,需要科学家一起寻找所有30亿个字符,并且按照密码在基因中的正确顺序排好。