0 引言
人类基因组计划(HGP, human genome project)完成以后, 获得了大量的关于染色体DNA的基因序列的信息. 这些基因序列, 大部分(99%以上)是没有编码功能的重复基因序列, 编码基因序列还不到整个基因组长度的百分之一. 怎样确定编码基因序列, 怎样确定新基因编码的蛋白质的结构与功能, 怎样研究编码基因的表达与调节, 怎样确定编码产物的生物学与医学的意义, 等等, 都是摆在我们面前的迫切任务[1]. 所有这些内容, 都是后基因组计划(post-HGP)的基本内容, 也是在今后相当长的一段时间内, 基因的分子生物学研究领域的主要任务和内容[2]. 目前, 以基因的克隆化为主要目的综合的分子生物学技术结合生物信息学(bioinformatics)技术, 是完成这一阶段性任务的重要策略. 分子生物学技术研究的结果与数据库技术和计算机分析技术的结合, 直接导致了生物信息学技术的产生, 并随着分子生物学技术的开展, 生物信息学技术不断完善; 另外, 生物信息学技术的出现, 又极大地推动了分子生物学研究的快速发展[3].
1 编码基因序列的研究
在基因克隆化的创新性科研工作中, 首先必须得到感兴趣的编码基因片段. 目前有几种技术手段可以应用. 特种组织细胞cDNA文库的构建及大规模测序, 基因芯片技术高通量筛选技术的应用, 既是人类基因组计划的主要工具, 也是后基因组计划必不可少的技术途径[4]. 但是, 由大规模随机测序获得的基因序列, 一般来说得到的不是基因的全长序列, 更谈不上基因的编码产物及功能. 因此, 在人类基因组计划基本完成以后, 这些技术途径已经不再是主要的技术手段. 相反, 一些虽然不具备高通量筛选规模, 但是功能筛选与基因的克隆化相耦联的研究技术显示出广阔的应用前景[5]. 例如, 以研究蛋白-蛋白相互结合作用的酵母双杂交技术及酵母三杂交(yeast three-hybrid)技术, 由此发展而来的哺乳动物细胞的双杂交技术, 就是研究蛋白-蛋白结合功能, 同时又是克隆相关基因的技术途径[6-8]. 应用这种技术, 不仅可以获得蛋白质之间相互结合的功能研究信息, 而且还能获得相应的基因序列, 因而简洁高效. 通过这种技术途径获得的新基因序列, 虽然其功能的研究还需要进行许多工作, 但是至少可以知道这种新蛋白与已知蛋白之间的结合关系;而蛋白-蛋白之间结合的关系, 是研究新基因和新蛋白结构与功能的重要的突破线索.
在分子生物学研究领域, 经常会遇到研究两个极为相似领域差异表达基因的筛选. 例如, 肿瘤组织和正常组织之间基因表达谱的差别, 同一种细胞类型受到细胞因子或其他刺激因素作用之后基因表达谱发生的变化, 一种基因转染细胞和仅转染空白表达载体之间基因表达谱的差别, 发育不同阶段相同组织之间基因表达的不同, 病变组织和正常组织之间基因表达的差别等. 对于研究的基因类型没有事先的限制和先决条件, 因此可以筛选得到已知和未知功能的基因. 能够应用的技术类型包括抑制性消减杂交技术(SSH)、任意引物差异显示逆转录多聚酶链反应(AP-DD-RT-PCR, arbitrary primer differential display reverse transcription polymerase chain reaction)、代表性差异分析技术(RDA, representative differential assay)等[9-12]. 随着噬菌体表面展示技术的不断发展, 以及噬菌体展示文库构建及应用的拓展, 这种技术不仅可以应用到抗体基因的筛选、模拟表位的筛选、抗独特型单链可变区抗体的筛选等, 而且可以应用于蛋白结合蛋白的筛选和DNA/RNA结合蛋白的筛选[13-22]. 应用上述一些分子生物学技术筛选得到的基因片段, 虽然只是编码基因区的基因片段, 但是为阐明其功能奠定了基础. 筛选DNA结合蛋白的技术还包括酵母单杂交技术以及其他一些蛋白质化学技术等.
无论采用的是酵母双杂交技术、酵母单杂交技术、抑制性消减杂交技术、基因芯片技术、还是噬菌体表面展示技术, 筛选得到的基因一般都是编码基因的部分片段, 要想进一步研究这些新基因的生物学功能和医学意义, 必须首先获得编码基因的全长序列. 获得全长编码基因的途径, 一是分子生物学途径, 一是生物信息学结合分子生物学途径, 后者在研究中更为有效[23-31]. 既往对于已知基因序列两端未知基因序列的克隆化, 根据多聚酶链反应(PCR)技术的原理, 设计了特殊的技术方法, 如5'-cDNA末端快速扩增法(5'-RACE)和3'-cDNA末端快速扩增法(3'-RACE). 这些技术在扩增cDNA片段两端的未知基因序列克隆中发挥过十分重要的作用. 但目前则是生物信息学分析结合分子生物学技术的时代. 利用美国国立生物工程信息学中心(NCBI)建立的核苷酸序列数据库, 进行同源基因序列的比对, 可以发现与已知功能或推断基因序列的同源基因. 如果在这些数据库中没有发现同源的基因序列, 还可以与表达序列标签(EST)数据库中的序列进行比对, 可以人工拼接成为更长的cDNA片段[32]. 酵母双杂交技术和噬菌体表面展示技术中, 由于文库构建过程中基因编码的框架结构是固定的, 因此, 结合基因序列的比对, 以及根据Kozack原则, 很容易确定该基因的全长编码序列.
利用5'-RACE或3'-RACE技术, 或者结合生物信息学技术, 首先确定新基因片段以及新型基因全长编码序列. 此时, 对于新基因的功能, 我们还是知之甚少. 此时, 除了应用生物信息学技术对于该基因编码的产物进行一级结构和高级结构的预测, 或者对于蛋白质分子结构中保守的功能位点进行预测之外, 还可以应用前述的酵母双杂交技术, 对于新型蛋白结合的蛋白进行筛选, 获得重要功能的提示, 或构建真核表达载体, 利用细胞转染技术, 结合DNA芯片和SSH技术, 对于这种新型蛋白上调或下调的靶基因进行研究, 获得新的线索, 为进一步的实验研究设计, 提供理论依据, 最终阐明该新基因的生物学功能和医学意义[33].
如果筛选的是人的基因文库, 那么首先得到的是人的cDNA序列. 利用人类基因组DNA序列的数据库(htgs)同源序列进行比对, 以及依据Chambon原则, 可以确定其基因组DNA的序列结构, 确定外显子(exon)和内含子(intron)的结构. 同时, 利用生物信息学技术, 结合分子生物学技术, 设计特异性核苷酸引物, 利用逆转录多聚酶链反应(RT-PCR)技术获得人、小鼠、大鼠、牛等生物品系的相应的全长编码的cDNA, 并进行序列分析. 同样, 利用生物信息学技术, 结合分子生物学技术, 设计特异性核苷酸引物, 利用PCR技术获得人、小鼠、大鼠等生物品系的相应的全长的基因组DNA, 并进行序列分析[34]. 这样, 通过分子生物学技术及生物信息学技术, 就可以发现或确定新型基因的全长编码基因序列, 并可以初步确定这些新基因编码产物的生物学意义或医学意义.
简单生物分子生物学的研究, 也是新基因克隆化技术和思想的重要来源. 例如: 美丽线虫(C. Elegans)、果蝇(Dros. phila)、拟介南等在西方发达国家的分子遗传学研究中具有重要地位. 2002年诺贝尔医学奖的三位获得者, 因其在细胞程序化死亡(programmed cell death), 即细胞凋亡(apoptosis)的研究领域中成绩卓著而获奖. 正是这一重要领域, 以美丽线虫作为研究模型, 从而为哺乳动物细胞的细胞凋亡研究开辟了新的领域. 首先, 从美丽线虫的细胞凋亡分子调节机制中发现, Ced-3基因是促进美丽线虫细胞凋亡的重要基因, 即细胞自杀基因(suicide gene). 利用生物信息学技术, 对于当时核苷酸序列数据库中收录的基因序列和结构特点进行同源性分析, 最终发现人白介素-1β转换酶(ICE, interleukin-1β converting enzyme)的结构与之类似, 其序列的同源性达到26 %. 这在线虫与人的这二种遗传背景相距甚远的生物中是绝无仅有的. 经过随后的一系列结构与功能的研究, 证实ICE基因也是主导哺乳动物细胞凋亡的基因, 从而发现了人细胞中的第一个自杀基因. 类似的例子还很多. 关于线虫、果蝇、拟介南等生物的研究目的也是如此. 因此, 低等、简单生物系统的分子生物学研究, 也是人类新基因克隆化的重要思路和指示源泉.
2 调节基因序列的研究
人类基因组计划获得大量的有关人类染色体基因序列的信息, 为编码基因序列的确定提供了很大的帮助, 同时为调节基因序列的确定也奠定了坚实的基础. 利用分子生物学技术结合生物信息学技术, 可以很容易地确定编码基因序列上游具有调节功能的基因序列. 调节基因序列的确定是第一步, 还必须采取综合的研究策略, 对于其调节的特点及其调节的结构基础和机制进行研究. 因为生物信息学技术的预测结果还是初步的, 因此, 其预测结果仅具有一定的参考价值[35].
首先, 以发现的新基因的编码基因序列作为参照, 对人的基因组DNA序列进行同源基因序列的比对, 寻找与之同源的基因组DNA序列, 然后根据确定的翻译起始位点ATG三联体密码子, 上朔约3000 nt的基因序列, 该基因的调节序列, 特别是核心启动子的结构序列, 基本上就位于其中. 因为大部分的基因调节序列都位于翻译起始位点上游这一部分序列之中, 但是也有例外, 例如有些基因的增强子(enhancer)调节基因序列, 其位置离翻译起始位点可以很远, 甚至在编码基因序列之中. 根据生物信息学分析结果, 确定启动子等主要调节基因序列以后, 就可以着手设计序列特异性引物, 应用PCR技术扩增获得这一基因片段. 然后按照正确的方向, 将调节基因序列插入没有启动子序列的报告基因表达载体的上游, 构建新的报告基因表达载体, 利用真核细胞的转染技术, 证实这一段基因序列中存在的启动子序列对于下游报告基因表达的指导作用. 但是, 这种证实的结果只是初步的, 还要进行更为细致的研究. 例如, 利用分子生物学技术, 进行系列缺失突变体的构建, 结合细胞转染和报告基因表达水平的检测, 阐明核心启动子DNA序列的结构基础, 为下一步更为细致的研究奠定基础[36].
真核细胞基因表达的调节机制是多水平的、复杂的, 但主要是转录水平的调节. 转录水平调节的结构基础就是启动子DNA序列和与之结合的蛋白质因子, 即细胞核内存在的转录因子蛋白. 通过DNA序列的缺失突变体的构建, 可以确定启动子DNA序列的基本核心结构, 对于其结合的蛋白质转录因子的类型及其作用机制, 有许多研究途径. 例如经典的研究技术就是同位素标记的DNA探针与细胞核蛋白结合的实验研究. 这种技术涉及蛋白质的分离纯化技术, 对于阐明启动子的结合蛋白研究虽然有用, 但效率不高. 酵母单杂交技术, 在筛选启动子DNA结合蛋白方面更为有效, 已经有许多成功的研究报道. 另外, 随着噬菌体表面展示技术的不断进步, 结合高质量噬菌体表面展示cDNA文库的构建及应用, 利用噬菌体表面展示技术研究启动子DNA结合蛋白业已成为可能. 利用引物合成的生物素化, 配合链亲和素的固相包被, 利用生物素-亲和素之间特异性的结合, 很容易实现启动子DNA的固相化, 结合表达型cDNA噬菌体文库的筛选, 可以筛选得到特定启动子DNA的结合蛋白, 阐明特定基因启动子序列的调节基础[37]. 目前关于启动子DNA序列与转录因子蛋白结合的多样性资料已积累了不少, 并且根据这些资料建立的数据库和生物信息学技术也已经出现, 但是, 由于目前关于启动子DNA和转录因子蛋白之间结合的研究资料有限, 而且还因为转录因子蛋白及其结合的DNA序列的多样性, 目前根据生物信息学技术对于启动子序列与结构的预测、潜在的结合的转录因子蛋白类型的预测结果, 都是十分初步的, 仅供参考, 需要有更为合适的实际的分子生物学技术研究结果进行证实. 研究启动子DNA和转录因子蛋白的结合, 有用的研究技术还包括凝胶迟滞(gel retardation)试验, 即电泳迁移率漂移分析(EMSA, electrophoresis mobility shift assay), 以及超级迁移率分析(super shift assay)等[38,39]. 这些都是证实启动子DNA与转录因子蛋白特异性结合的有效技术方法.
3 蛋白质分子结构与功能的分析
利用常规的分子生物学技术扩增、克隆一些编码基因, 甚至是采用综合的分子生物学技术获得未知功能的新基因, 目前也不是一件很难的事情. 但是, 获得新的编码基因序列之后, 新蛋白的生物学功能, 甚至其医学意义的研究, 目前仍然是分子生物学研究领域中最有挑战性的任务. 从目前可能实现的分子生物学技术途径来说, 只能是一步一步进行研究, 逐渐积累对于新蛋白功能的认识, 争取在达到一定程度时获得对于这种新蛋白生物学功能认识的突破. 利用Northern blot杂交技术, 可以阐明组织细胞的分布特点, 以及生理和病理状态下这种基因表达的方式和表达的水平, 从而据此可以推测这种新基因和新蛋白的生物学和医学意义. 也可以利用酵母双杂交技术, 首先阐明在自然状态下, 这种新型蛋白在细胞内的结合蛋白对象是什么, 因为细胞内蛋白的生物学功能, 蛋白与蛋白之间结合是十分重要的基础, 因此, 如果可以阐明在细胞内结合蛋白的类型, 对于其生物学功能的认识将提供十分重要的线索. 构建这种新型基因的真核表达载体, 转染合适的细胞系, 利用研究差异表达基因的SSH技术、表达谱基因芯片技术等, 研究这种新蛋白的表达对于靶细胞中基因表达谱的影响, 如果可以阐明这种蛋白上调或下调的靶基因类型, 将为研究新基因的生物学功能提供重要的线索和研究方向.
建立转基因动物(transgenic animal)模型、基因敲除(gene knock-out)模型、基因敲除细胞系等都是研究新基因生物学功能的重要研究技术手段. 对于某些重要功能基因的敲除模型研究, 一定要清楚某些重要基因的缺乏, 可能会导致胚胎发育的重要障碍, 以至于不能顺利建立该基因的基因敲除动物模型, 因此, 必须对于适龄转基因动物胚胎研究, 为阐明新基因的生物学功能提供突破口. 利用生物信息学技术对于新蛋白一级结构进行预测, 可以获得蛋白质一级结构中疏水位点的结构信息, 据此可以设计出抗原多肽, 人工合成抗原多肽以后, 可以进行动物免疫制备相应的多克隆抗体, 或者利用人源化单链可变区抗体(ScFv)的噬菌体文库的筛选, 获得特异性的人源化ScFv. 具备抗体之后, 就可以开展许多研究工作, 例如Western blot杂交, 免疫组织化学研究, 阐明这种蛋白表达水平、表达方式与临床疾病演变之间的相互关系, 从而赋予新基因和新蛋白的生物学和医学意义[40-45]. 虽然利用上述研究技术和研究途径, 不一定完全阐明该基因和蛋白的生物学功能, 但是, 这些结果的获得, 必然为新基因和新蛋白的生物学功能和医学意义研究奠定坚实的基础, 或者提供进一步研究的重要线索, 为最终阐明其生物学作用探索出研究技术途径.
基因的分子生物学研究, 不仅要发现新的编码基因, 而且要阐明新基因的表达与调控机制及其编码产物的生物学功能和医学意义, 这是目前基因分子生物学研究领域中最具挑战性的工作. 基因分子生物学研究已经积累了大量、丰富的数据资料, 在此基础上, 结合数据库的建立和计算机分析技术的应用, 产生了生物信息学技术这一崭新的交叉学科[46-50]. 分子生物学技术和生物信息学技术相互联系, 相互促进. 生物信息学技术本身就是从分子生物学技术发展起来的边缘交叉学科, 同时生物信息学技术又为分子生物学技术的发展提供理论预测, 提高了分子生物学技术的工作效率[51-54]. 但是还应看到, 生物信息学技术的出现历史尚短, 还很不完全, 但相信随着分子生物学技术的不断发展, 基因的分子生物学资料的不断积累和数据库的不断扩大, 计算机分析技术的不断改进, 将产生更为强有力的生物信息学技术, 到时反过来促进基因的分子生物学技术的发展, 为最终揭秘人体基因组的结构和功能, 阐明发病机制, 探索新型的疾病治疗和预防技术, 为人类的健康事业做出应有的贡献[55-57].