第1章 定义生物信息学与结构生物信息学
1.1 什么是生物信息学?
生物信息学的准确定义不无争议。有人将其狭义定义为开发用于存储和处理基因组信息的数据库。另有人将其定义拓宽到包括计算机生物学的全部。基于在当前科学文献中的应用,生物信息学可以定义为对分子生物学中两类信息流的研究(Altman,1998)。其中**类信息流源于分子生物学的**法则:DNA序列被转录为mRNA序列,后者被翻译为蛋白质序列。蛋白质序列继而折叠为具功能的三维(3D)结构。按照达尔文理论,这些功能被生物体的环境所选择,从而驱动群体中DNA序列的进化。因此,**类的生物信息学应用关注于**法则中任一阶段的信息传递,包括DNA序列中基因的组织与控制、确定DNA中的转录单位、从序列预测蛋白质结构以及分子功能分析。
第二类信息流是基于科学方法:提出关于生物学活动的假设,设计实验以验证这些假设,评估结果与假设的相容性,然后根据实验数据对原假设作扩展或修正。第二类的生物信息学应用关注于这**程中的信息传递,包括产生假设、设计实验、通过数据库将实验结果组织起来、检验数据与模型的相容性以及修正假设的各个系统。
尽管其应用仍在演化中,但通常不用生物信息学来描述针对生物学中细胞水平之上的问题的计算方法。那些以高通量形式产生数据的实验技术——如DNA测序、质谱、微阵列表达分析(Miranker,2000;Ahman和Raychaudhuri,2001;GISC,2001;Venter等,2001)——的出现驱动了对生物信息学兴趣的骤增。生物信息学依存于那些由于过于复杂而无法进行手工分析的大数据集的可获得性。如蛋白质数据库(Protein Data Bank或PDB0,参见第9章;Berman等,2000)等数据库中3D大分子结构数目的快速增加推动了生物信息学的一个分支——结构生物信息学的出现。结构生物信息学是生物信息学中关注于在原子和亚细胞空间尺度上结构信息表述、存储、获取和分析的分支。
……