前言
生物信息学是随着生命科学,特别是分子生物学研究的深入和大规模生物工程技术的快速发展而逐步兴起和繁荣的一门交叉学科。生物信息学研究的起源可以追溯到孟德尔豌豆杂交实验的数据统计。之后,随着生物技术的发展,生物学研究中产生了复杂的影像数据(例如电子显微镜)和波谱数据(例如核磁共振)等,需要利用复杂的计算方法,根据其物理化学原理和数学模型,复原其中包含的生物信息。而真正促使生物信息学正式诞生的则是基因组测序研究的大规模开展,其标志性事件是“人类基因组计划”。大规模测序数据的产出,使研究人员认识到,生物数据的存储、处理和共享等工作已不再是简单的辅助,而需要一个专门的学科,充分结合生物技术、信息科学与计算方法,去挖掘海量生物数据中蕴含的知识宝藏。
由于生命科学的快速发展,新的观点、理论和原理不断涌现,各种技术方法和手段层出不穷,呈现螺旋式上升的趋势。在此背景下,生物信息学的研究内容也在不断扩展。从早期以基因组序列分析为主,到各种组学数据的分析和处理,再到系统生物学层面的分子网络建模与分析,生物信息学需要解决越来越复杂的系统性问题。从发展的眼光来看,我们认为,生物信息学至少包括如下3个层次的研究内容。
① 实验数据的分析,目的是从观测数据中*大限度地还原和提取有效的生物信息,其中包括各种组学研究的数据分析;
② 对基于序列、相互作用等已经整理的数据进行规律发现,解读生命运行的规律,例如基因模体的发现、蛋白质亚细胞定位的预测等;
③ 利用尽可能多的观测数据,建立不同层次的生物系统模型,开展生物系统仿真和设计的理论研究。
作为一门典型的交叉学科,每个相关学科方向的研究人员都可以从本学科的角度介入生物信息学研究。例如,生物实验人员可以将实验设计、实验数据处理的操作规程、实验参数优化等问题作为其生物信息学研究方向;模式识别和机器学习方面的研究人员可以将很多问题归结为特征提取、模型训练和评估的研究;计算机方面的研究人员可以将建设高质量数据库,开发**、易操作的软件,利用高性能计算技术完成高复杂度的生物信息计算等问题作为其研究**;物理学、化学方面的研究为生物实验提供了丰富的手段,同时也提出了很多待解决的理论和应用问题,这个方向的研究人员可以从实验原理分析和仪器优化设计的角度来介入生物信息学研究;而系统建模、分析和设计作为控制学科的基本研究内容,也可以用于模拟生物系统行为,适合作为该方向研究人员对生物信息学的介入点。可以说,生物信息学为不同学科的人才搭建了充分展示的舞台,以其开放性和前沿性提供了丰富的待研究问题和产生重大突破的可能。
可以发现,生物信息学的研究内容非常丰富,而且其进展快速,不断有新的研究问题和方法涌现。这种特点使得生物信息学的教材内容比较难以组织。但是我们认为,生物信息学的根源是生物学,其所有的问题都来源于生物学研究的需要,其所有的成果也必须经由生���学的检验才能体现其价值。生物信息学的核心是用数学的语言来描述生物学问题,用计算机方法和信息技术来解决问题。因此,本书没有将现有的生物信息学数据库、工具作为介绍**,而是以生物学问题为导向,依次介绍了生物信息学在基因组、转录组、蛋白质组、生物网络和系统生物学中的应用,以具体的案例来演示如何发现和解决各种生物学问题,并对目前研究中存在的问题和未来的发展方向进行展望。或许哪**,某一个数据库不再更新,某一个工具不再适用,但是生物信息学的研究思路不会改变,那就是从生物中来,到生物中去。只有深入地思考生物学问题,掌握计算机和信息技术的利器,把握科学研究的一般规律,才能一直处于生命科学的前沿阵地。
本书总体编排如下: 第1章介绍生物信息学的研究历史和发展现状;第2章讨论相关生物学基础,侧重于介绍生物信息学相关的分子生物学内容;第3章介绍算法方面的相关技术,包括统计分析、机器学习和模型评估方法;从第4章开始,分专题介绍各种组学研究,包括基因组学、转录组学、蛋白质组学、生物网络和系统生物学。*后以案例方式介绍生物信息学在**研发中的应用。本书没有涵盖代谢组学和糖组学方面的内容。
本书是生物信息学相关专业的研究生教材,也可以作为生物信息学相关研究人员的参考书。感谢国防科技大学和北京蛋白质组**的生物信息学研究课题组为本书编写提供的帮助,希望本书对于系统了解生物信息学技术能够有所助益,欢迎学术同仁不吝赐教。
刘伟 张纪阳 谢红卫2013年1月19日