**章 概论
1.1 生物信息学产生的背景
诺贝尔生理学或医学奖得主R.Dulbecco 1986年3月在Science上发表文章《癌症研究的转折点:测序人类基因组》,认为要彻底阐明癌症的发生、演进、侵袭和转移的机制,必须对人体细胞的基因组进行全测序。经过3年多的讨论,美国政府于1990年10月正式启动一项耗资30亿美元的15年计划,预期到2005年完成人类基因组大约30亿个碱基的全序列测定,这就是被称为生命科学“登月计划”的人类基因组计划(Human Genome Project,HGP)。到2006年5月28日,英美科学家宣布完成了人类1号染色体的基因测序图,这标志着历时16年的人类基因组计划的完成。
HGP的主要任务是:人类基因组以及一些模式生物体(细菌、酵母、线虫、果蝇等)基因组的作图、测序和基因识别。该计划一经提出,很快扩展成为世界范围的研究计划,并以惊人的速度前进。经过美、英、日、法、德和中国科学家的共同努力,至2000年6月26日完成了工作草图;至2003年4月14日宣布人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现。这是人类科学史上又一个里程碑式的事件,它预示着完成人类基因组计划已经指日可待。生物信息*基本的表达形式是一维的分子排列顺序,即序列,包括核酸序列和氨基酸序列。其中,*基本的仍是DNA序列。截至2004年为止,仅登录在美国GenBank数据库中的DNA序列总量已超过44 575 745 176碱基对。基于CDNA序列测定所建立起来EST数据库的记录也已达数百万条。在这些数据的基础上派生、整理出来的数据库已达500余个。与其同步的蛋白质的一级结构,即氨基酸序列也飞速增长。除此之外,还有对蛋白质**结构的分析,迄今,已有几万种蛋白质的空间结构以不同的分辨率被测定。这一切构成了一个生物学数据的海洋。这种科学数据巨大的积累规模,在人类的科学研究历史中是**的。
……