**篇 基因工程基础
**章 基因工程概况
**节 基因与基因工程
一、基因的概念
1.基因概念的提出与发展
基因概念的提出已有100 多年的历史, 在这期间我们逐渐认识、深化了这个概念。
遗传学奠基人Mendel 于1865 年2 月在奥地利自然科学学会会议上报告了自己植物杂交试验的研究结果, 次年在该学会期刊上发表了**的《植物杂交试验》的论文。文中指出, 生物的每一个性状都是通过遗传因子来传递的, 遗传因子是独立的遗传单位。这样就把可观察的遗传性状和控制其内在的遗传因子区分开来, 遗传因子作为基因的雏形名词诞生了。
1909 年, 丹麦遗传学家Johansen 首先提出“基因(gene)” 的概念, 它不包含特殊的物质基础, 只是用来描述传递和表达特定的生物性状的可遗传因子, 以此替代孟德尔假定的“遗传因子” 。
1911 年, Morgan 指出基因定位于染色体上, 建立了**的基因学说, 还绘制了果蝇的基因位置图, **完成当时*新的基因概念的描述, 即基因以直线形式排列, 它决定着某一特定的性状, 而且能发生突变, 并随着染色体同源节段的互换而交换。它不仅是决定性状的功能单位, 而且是一个突变单位和交换单位。
20 世纪40 年代末至50 年代初, 基因的化学本质被证实。1944 年, Avery 及其同事MacLeod 和McCarty 在肺炎链球菌转化研究中, **通过实验证实DNA 是遗传信息的载体。1952 年, Hershey 和Chase 用放射性同位素标记噬菌体注入细菌细胞的实验, 进一步证明遗传物质是DNA 而不是蛋白质。
1953 年, 美国分子生物学家Watson 和英国分子生物学家Crick 根据X 射线衍射分析, 提出了DNA 双螺旋结构模型, 进一步说明基因的成分就是DNA , 它控制着蛋白质合成。在基因位于染色体上, 并且能用重组方法作图定位的概念建立后, 人们逐渐认识到单个基因是遗传信息结构和功能的基本且不可分割的单位; 从结构和功能来看, 它们以线性的形式相互连接(串珠理论, the beads on a string theory) 。
1957 年, 法国遗传学家Benzer 以T4 噬菌体作为研究材料, 分析了基因内部的精细结构, 提出顺反子学说。该学说打破了过去关于基因是突变、重组、决定遗传性状的“三位一体” 概念及基因是*小的不可分割的遗传单位的观点。Benzer 认为顺反子为基因功能不可分割的单位。能产生一种多肽的是一个顺反子, 顺反子也就是基因的同义词。但一个顺反子可以包含一系列突变单位——突变子。突变子是DNA 中构成基因的一个或若干个核苷酸。由于基因内的各个突变子之间有一定距离, 所以彼此间能发生重组,重组频率与突变子之间的距离成正比,距离近,重组频率低;距离远,重组频率就高。顺反子概念把基因具体化为DNA 分子的一段序列, 它负责遗传信息传递, 是决定一条多肽链的完整性的功能单位; 但它又是可分的, 组成顺反子的核苷酸可以独自发生突变或重组,而且基因与基因之间还有相互作用。基因排列的位置不同,会产生不同的效应。
1961 年, 法国科学家Jacob 和Monod 在研究大肠杆菌乳糖代谢的调节机制中, 发现有些基因不起蛋白质合成模板的作用, 只起调节或操纵作用, 提出了操纵子学说。从此, 根据基因功能把基因分为结构基因、调节基因和操纵基因。
2.基因的现代概念
20 世纪70 年代以后, 随着分子生物学研究的深入, 人们能够在分子水平上认识基因的结构与功能, 陆续发现了移动基因、断裂基因、重叠基因及假基因等, 对基因的认识有了进一步深化。
(1) 移动基因(movable gene)
1951 年,美国遗传学家McClintock 提出了可移动的遗传基因学说, 即跳跃基因(jumping gene) 。该学说认为基因可从染色体的一个位置跳跃到另一个位置,甚至从一条染色体跳跃到另一条染色体上,为研究遗传信息的表达与调控、生物进化与癌变提供了线索。
(2) 断裂基因(spliting gene)
断裂基因*初是Roberts 和Sharp 在腺病毒研究中发现的(图1-1) 。过去人们认为, 基因的遗传密码子连续不断地排列在一起, 形成一条没有间隔的完整的基因实体。事实上, 一个基因可分隔成不连续的若干区段,我们称这种编码序列不连续的间断基因为断裂基因。根据当前的研究, 所有哺乳动物、脊椎动物和高等植物以及简单的真核生物(如酵母) , 甚至少数原核生物中都存在断裂基因。
(3) 重叠基因(overlapping gene)
传统的基因概念把基因看成是互不重叠、单个分离的实体。在人们的观念中, 一直认为同一段DNA 序列内不存在重叠的读码结构。1973 年, 哈佛大学的Weiner 等在研究感染大肠杆菌的Qβ病毒时, 发现有两个基因在编码生成蛋白质时是从同一起始点开始的。1977 年, Sanger等测定了噬菌体ΦX174 DNA 全序列的5735 (现为5737 ) 个核苷酸, *多能编码1795 个氨基酸, 所合成的全部蛋白质的总相对分子质量*多为197 000 (以每个氨基酸平均相对分子质量为110 计算) , 可实际测定相对分子质量却是262 000 。这是因为不同基因的核苷酸序列有时是可以共用的, 同一段DNA 能够编码两种甚至三种蛋白质分子(图1-2) , 我们称这样的两个基因为重叠基因。
(4) 假基因(pseudogene)
1977 年, Jacq 等根据对非洲爪蟾5S rRNA 基因簇的研究, **提出假基因的概念, 该基因的5′端有16bp 的缺失以及另外14bp 的错配。随着大量不同家族的假基因的发现, 假基因被明确限定为与功能基因相关的、有缺陷的核苷酸序列。假基因一度由于与正常基因存在结构上的差异, 或不能转录或翻译, 或产生有缺陷的蛋白质而失去原有功能, 被认为是“死亡基因” 。随着对非表达序列的深入研究, 假基因的重要性比我们想象的要大, 有的对生存至关重要。
随着生命科学日新月异的发展,新的基因存在形式不断被发现, 基因的内涵也在不断发生变化, 我们对基因的理解也在不断地发展和深化。但基因的本质仍然是遗传信息的结构与功能单位, 有人用基因就是一套与转录相关的顺式遗传指令来概括基因的概念。这类顺式遗传指令可以转录, 也可以不转录; 在DNA 结构上可连续, 也可不连续; 转录本可以是一种, 也可以是几种(表现在转录的起始、终止或剪辑的差异上) ;翻译后的加工也会造成产物的多样性, 强调了基因编码产物形式的多样性。基因有如此多的内涵和形态, 与生命的进化和满足不同生理活动的需要是分不开的。
二、基因工程的概念
基因工程(gene engineering) 是以遗传学、生物化学和分子生物学等学科为基础,引入工程学的一些概念, 通过周密的实验设计, 进行**的实验操作, 在体外通过人工“剪切” 和“拼接” 等方法将核酸分子进行改造, 然后插入病毒、质粒或其他载体分子,构成遗传物质的新组合, 并使之掺入原先不含有该分子的宿主细胞内, 而且能持续稳定地繁殖, **率地达到预期目的。
基因工程在理论上可自成体系, 称为基因工程学, 从方法上又是一门成熟、应用广泛的实验技术, 正是由于其双重性, 相关术语很繁杂,未很好地统一, 在文献中常见的有遗传工程(genetic engineering ) 、基因工程(gene engineering ) 、基因操作(genemanipulation) 、重组DNA 技术(recombinant DNA technology ) 以及基因克隆(gene cloning) 、分子克隆(molecular cloning ) 等。这些术语所代表的具体内容都是彼此相关的, 在许多场合下被混用, 很难严格区分。从某种意义上讲, 它们之间的差别, 仅仅是各自考虑的角度和强调的侧**不同。
在英语中“clone (克隆)” 一词当名词使用时, 是指从一个共同祖先经无性繁殖得到的一群遗传上同一的DNA 分子、细胞或个体所组成的特殊的生命群体; 而当“clone” 作动词使用时, 则是指从同一个祖先产生这类同一的DNA 分子群体、细胞群体或个体群体的过程。所以要注意在不同的场合, 克隆一词有不同的含义。在体外重新组合DNA 分子的过程中, 是通过能够独立自主复制的载体分子质粒或噬菌体为媒介,将外源DNA 引入宿主细胞进行增殖, 从而为遗传上同一的生物品系(它们都带有同样的重组DNA 分子) 成批地繁殖和生长提供了有效的途径。故此, 习惯上也把基因工程称为基因克隆或DNA 分子克隆。
在中文文献中, 曾将“DNA cloning” 直接译为DNA 纯系繁殖, 实质上它是特指利用微生物制备大量纯一的特定DNA 片段的一种方法。由于运用重组DNA 技术能够按照人们预先的设计创造出许多新的遗传结合体、具有新奇遗传性状的新型生物, 因此有时人们又把基因工程笼统地称为遗传工程或遗传操作。其实这种将“遗传工程” 和“基因工程” 两个术语不加区分地使用, 甚至认为两者完全等同的认识是不准确的。严格地说, 遗传工程是指以改变生物有机体性状特征为目标的遗传信息的操作(the manipulation of the information content ) , 它既包括常规的选择育种, 也包括相对复杂的基因克隆等不同的技术层次。因此, 遗传工程虽然包括了基因工程的内容, 但它所涉及的内容却比基因工程要广泛得多, 两者之间是有差别的。
三、基因工程的操作流程
基因工程的主要步骤为: 切— 接— 转— 选— 表达(图1-3) , 具体操作流程如下。
(1) 分离或合成基因(isolation or synthesis of gene)
从复杂的生物有机体基因组中, 经过酶切消化或PCR 扩增等步骤, 分离出带有目的基因的DNA 片段, 这种DNA 片段被称为“目的基因” 。
(2) 体外重组(recombination of DNA in v itro)
在体外, 将带有目的基因的外源DNA 片段连接到能够自我复制并具有选择标记的载体分子上, 形成重组DNA 分子。
(3) 外源DNA 导入细胞中(introduction of foreign DNA into cell)
将重组DNA 分子转移到适当的受体细胞(亦称宿主细胞) , 并与之一起增殖。
(4) 筛选(selection of recombinant DNA )
从大量的细胞繁殖群体中, 筛选出获得重组DNA 分子的受体细胞克隆。目的基因的导入过程是肉眼看不到的, 因此, 要知道导入是否成功, 应事先找到特定的标志。例如, 我们用一种经过改造的抗四环素质粒pSC100 作载体将一种基因转入自身无抗性的大肠杆菌时, 如果基因转入后大肠杆菌不能被四环素杀死, 就说明转入获得成功。
(5) 鉴定(identification and analysis of cloned gene)
从筛选出来的受体细胞克隆中提取出已经得到扩增的目的基因, 供进一步分析研究使用。
(6) 表达(expression of cloned gene)
将目的基因克隆到表达载体上, 导入**、稳定的具有功能性表达能力的基因工程细胞, 使之在新的遗传背景下实现功能表达, 产生出所需要的目标产物。
(7) 分离表达产物(isolation of product)
利用工程技术大规模培养上述基因工程细胞, 获得大量的外源基因表达产物并分离、纯化, 获得所需的基因工程产品。
上述步骤可归并为两大部分, 分属上游技术(步骤1~5 ) 和下游技术(步骤6 、7) 。上游技术具有一定的共性, 下游技术具有较强的个性, 两大部分有机结合成为一个整体。上游技术是基因克隆的核心与基础, 但必须与下游技术密切联系才有生命力, 所以上游设计中应以简化下游工艺和装备为指导思想。下游技术必须依赖上游技术才能不断开拓、发展、壮大, 下游技术是上游基因克隆蓝图的体现和保证, 是克隆基因产业化的关键, 两者必须兼顾。我国在上游技术方面与发达**差距较小, 下游技术方面差距较大。加强下游技术的创新研究是今后努力的方向。
四、人类基因组计划
1.人类基因组计划(human genome project , HGP)
对基因组核苷酸全序列的测定与分析, 是重组DNA 技术促进基础生物学研究的出色范例。英国分子生物学家Sanger 领导的研究小组, 于1977 年首先完成了全长5387bp 的ΦX174 噬菌体基因组全序列测定工作, 揭开了大规模基因组测序工作的序幕。日本科学家先后于1987 年完成了全长155 844bp 的烟草叶绿体基因组全序列的测定, 1988 年完成了全长121 024bp 的地钱叶绿体基因组全序列的测定, 1989 年又完成了全长134 525bp 的水稻叶绿体基因组全序列的测定。然而这些细胞器的基因组无论在大小还是在复杂性方面, 都是无法同人类基因组相比拟的。
1985 年, 美国科学家首先提出了研究人类基因组的设想。在经过长达4 年的调查和论证的基础上, 1988 年, 美国国会批准了人类基因组作图和测序计划。同年9 月,DNA 双螺旋结构发现者之一Watson 在众望所归之下, 接受了美国卫生研究院的邀请,出任人类基因组计划的负责人, 开始了令全世界瞩目的基因组研究。该计划旨在阐明人类基因组30 亿个碱基对的序列, 发现所有的人类基因, 并明确其在染色体上的位置,破译人类全部遗传信息, 使人类**次在分子水平上全面地认识自我。该项被新闻界喻为“基因圣战” 的、规模**的科研计划总投资达30 亿美元。
由于人类基因组计划具有的重要意义和深远影响, 其一经提出, 便立即引起许多**科技界与政府机构的高度重视和强烈反响。特别是西欧和日本等一些经济发达的**, 纷纷表示要独立开展或参与国际合作研究。**的遗传学家谈家桢教授等人也积极倡议中国迅速参与人类基因组的国际合作研究。美国于1990 年正式启动人类基因组计划后, 德国、日本、英国、法国、中国5 个**的科学家先后正式加入, 中国的人类基因组计划是于1994 年初在吴旻院士、强伯勤院士、陈竺院士和杨焕明教授的倡导下启动的, 1999 年9 月正式加入该计划, 承担了1% 的人类基因组(约3000 万bp) 的测序任务, 是参与该计划**的发展中**。有科学家认为, 人类基因组计划是与曼哈顿原子计划、阿波罗登月计划并列的人类科学史上的重大工程, 是一项改变世界、影响到每一个人的科学计划。
人类基因组计划的科学宗旨与“定时、定量、定质” 的具体目标, 是测定组成人类基因组的上亿个核苷酸的序列, 从而阐明人类基因组及所有基因的结构与功能、解读人类的全部遗传信息、揭开人体奥秘的基础, 将把人类带入基因医学的新时代。生命物质的一致性与生物进化的连续性以及人类基因组计划所建立的策略与技术的通用性, 意味着人类基因组计划可以奠定揭开生命*终奥秘的基础, 由此带动生物信息学等一批相关学科的形成和发展, 促进学科交叉与重组, 其带来的潜在经济效益也是惊人的。
2003 年4 月, 美国人类基因组研究项目**科学家Collins 博士在华盛顿隆重宣布, 美国、英国、日本、法国、德国和中国科学家经过13 年努力共同绘制完成了人类基因组序列图, 人类基因组计划的所有目标全部实现, 标志人类基因组计划胜利完成。
2.基因组学(genomics)
1920 年, 德国汉堡大学教授Hans Winkler **使用基因组(genome) 这一名词。一个生物体的基因组是指整套染色体所含有的完整的DNA 序列, 包括编码序列和非编码序列在内的全部DNA 序列。基因组一词可以特指整套核DNA (如核基因组) , 也可以特指细胞器基因组, 如线粒体基因组或叶绿体基因组。所有生命都具有指令其生长与发育、维持其结构与功能所必需的遗传信息, 现在认为, 基因组包含生物所具有的携带遗传信息的遗传物质的总和。