蛋白质由氨基酸残基线性序列构成,折叠成特定的空间构象后,蛋白质就具有相应生物学活性和功能。了解氨基酸残基序列与其空间结构的关系,是全面认识蛋白质结构和其生物学功能的关系的重要前提。近些年来,蛋白质序列数据库的数据积累速度非常快,与之相比,蛋白质结构数据库的数据积累速度远不及序列数据库的数据积累速度。尽管蛋白质结构测定技术有了较为显著的进展,但是通过实验方法确定蛋白质结构的过程仍然非常复杂,实验周期很长。
另外,随着DNA测序技术的发展,人类基因组及很多模式生物基因组已经或将要完全测序,DNA序列数量将会急增。由于DNA序列分析技术和基因识别方法的进步,人们可以从DNA序列直接推导出大量的蛋白质序列,这将导致蛋白质序列数据数量急剧增加。了解了这些序列的结构,可以使它们直接为人类服务。
氨基酸残基序列的结构分析是对生物学家的极大挑战。20世纪60年代后期,Anfinsen首先发现去折叠蛋白或者说变性蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然结构对于蛋白质行使生物功能具有重要作用,蛋白质只有在折叠成其天然结构的时候才能具有完全的生物活性。因此Anfinsen提出了蛋白质折叠信息隐含在蛋白质N--NN构中的观点。以这种观点为基础,通过对蛋白质一级结构的研究,发现其折叠密码后,仅通过一级结构信息就能预测蛋白质空间结构。
蛋白质结构预测主要有两大类方法。一类是蛋白质分子特性理论分析方法或从头算方法,通过理论计算(如分子力学、分子动力学计算)进行结构预测。该类方法假设折叠后的蛋白质取能量*低的构象。从原则上来说,人们可以根据物理、化��原理,通过计算来进行结构预测。另一类蛋白质结构预测的方法是统计学方法。该类方法对已知结构的蛋白质进行统计分析、建立序列到结构的映射模型、进而根路映射模型对未知结构的蛋白质直接从氨基酸序列预测结构。这是进行蛋白质结陶预测较为成功的一类方法。这类方法包括经验性方法、结构规律提取方法、同源漠型化方法等。统计学方法本身就是不确定性方法,目前虽然还不能完全替代**类方法而成为预测蛋白质结构的主要方法,但是发展前景很广阔。其中以统计学习哩论为基础的支持向量机预测蛋白质结构的方法发展非常迅速。
统计学习理论是在20世纪90年代逐渐成熟的机器学习理论,以这种理论为基础的支持向量机与以往的学习机器相比具有支持小样本、不会陷入局部势井、具有很好的鲁棒性以及运算成本低等优势。