述评 Open Access
Copyright ©The Author(s) 20???. Published by Baishideng Publishing Group Inc. All rights reserved.
世界华人消化杂志. 2018-12-08; 26(34): 1966-1978
在线出版日期: 2018-12-08. doi: 10.11569/wcjd.v26.i34.1966
基因表达谱技术从消化道肿瘤基础研究到临床转化
陆建波, 李汝懿
陆建波, 昆明医科大学第一附属医院病理科 云南省昆明市 650032
陆建波, 主任医师, 主要从事肿瘤病理基础及临床研究.
李汝懿, 昆明医科大学第二附属医院病理科 云南省昆明市 650032
ORCID number: 陆建波 (0000-0003-4820-4910); 李汝懿 (0000-0003-1717-398X).
作者贡献分布: 课题由陆建波设计; 研究过程由陆建波与李汝懿共同完成, 并完成文献查询、文献下载、数据分析、全文撰写和定稿.
通讯作者: 陆建波, 主任医师, 650032, 云南省昆明市西昌路295号, 昆明医科大学第一附属医院病理科. kmlujianbo@163.com
电话: 0871-65324888-2691
收稿日期: 2017-11-29
修回日期: 2018-09-28
接受日期: 2018-10-08
在线出版日期: 2018-12-08

基因表达谱技术是进行全基因组功能研究的一种新技术新方法, 也是生命科学与信息科学相结合的一种综合性研究技术手段. 基因表达谱在消化道肿瘤研究中, 就针对其基因功能、发病机制、基因网络调控及生物学特性等方面进行了深入的基础性研究, 同时也已转化应用于临床病理诊断、鉴别诊断、分子分型、靶向治疗等方面的探讨. 但要对这一转化过程中不断产生的海量数据进行充分的挖掘与利用, 对现有基因表达数据库进行有效的规范化建设与管理, 应逐步实现数据共享, 加强基因表达谱技术质量控制, 才能使基因表达谱技术在未来的研究中得到健康、稳定和快速的发展.

关键词: 消化道肿瘤; 基因表达谱; 基因芯片; 生物信息学; 转化医学

核心提要: 基因表达谱已广泛应用于消化道肿瘤特定基因功能、发病机制、基因网络调控及临床病理诊断鉴别诊断、分子分型、靶向治疗等方面研究. 但要充分挖掘利用, 规范化建设与管理, 才能使这项技术能够得到健康稳定快速的发展.


引文著录: 陆建波, 李汝懿. 基因表达谱技术从消化道肿瘤基础研究到临床转化. 世界华人消化杂志 2018; 26(34): 1966-1978
Gene expression profiling in digestive tract tumors: From basic research to clinical practice
Jian-Bo Lu, Ru-Yi Li
Jian-Bo Lu, Department of Pathology, The First Affiliated Hospital of Kunming Medical University, kunming 650032, Yunnan Province, China
Ru-Yi Li, Department of Pathology, The Second Affiliated Hospital of Kunming Medical University, kunming 650032, Yunnan Province, China
Corresponding author to: Jian-Bo Lu, Chief Physician, Department of Pathology, The First Affiliated Hospital of Kunming Medical University, 295 Xichang Road, kunming 650032, Yunnan Province, China. kmlujianbo@163.com
Received: November 29, 2017
Revised: September 28, 2018
Accepted: October 8, 2018
Published online: December 8, 2018

Gene expression profiling is a new method that can be used to study the whole genome function. It is also a comprehensive research technique combining life science with information science. Gene expression profiles have not only been thoroughly and fundamentally studied in digestive tract tumors with regard to gene function, pathogenesis, gene network regulation, and biological characteristics, but also been applied to clinical diagnosis, differential diagnosis, molecular typing, targeted therapy, and other aspects. However, it is still necessary to fully mine and utilize the huge amount of data generated continuously in this process, effectively standardize the construction and management of the existing gene expression database, gradually realize data sharing, and strengthen the quality control of gene expression profiling technology in order to make the gene expression profiling technology become more stable and rapid in the future research.

Key Words: Digestive tract neoplasms; Gene expression profile; Microarray; Bioinformatics; Translational medicine


0 引言

基因表达谱是后基因组时代最先发展起来的一项高通量分析技术, 可用于全基因功能的研究, 基因表达谱薀含着丰富的基因活动信息, 揭示特定的条件下的基因功能表达模式, 是目前获得生物信息最全面的方法之一. 无任在肿瘤疾病基础研究中, 还是在临床医学转化实际工作中, 都有着其他技术不可替代的重要学术价值和临床实际应用意义[1,2]. 随着这些生物大数据信息的到来, 如何从大量实验数据中去了解相关基因的结构与功能信息, 找到在功能上相互联系的基因, 并对此所产生的海量信息进行有效的处理, 科技工作者们还需要在这艰难的道路上不断探索.

1 基因表达谱在消化道肿瘤基础医学研究中的应用
1.1 基因功能及肿瘤的发病机制

高通量基因检测只有与生物信息学结合起来, 才能够被深刻的理解和广泛的使用, 才可以对成千上万个基因所组织的庞大基因库进行深入的研究, 再进行基因相关联性检测. 但面对如此庞大的芯片检测数据, 如何解读就是一道难题. 目前就是要让这些晦涩难懂的数据便于理解, 以通俗的方式呈现给临床医生, 使得这项技术真正能从实验室走出来, 为临床所用.

就基因芯片技术而言, 按照载体上所有点的DNA的种类不同, 将基因芯片分为寡核苷酸芯片和cDNA芯片两种[3]. 这两种芯片均可用于表达谱分析, 但寡核苷酸芯片或寡核苷酸微阵列主要用于测序、点突变检测及SNP分析等. 而cDNA芯片靶基因检测特异性好, 主要还是用于表达谱的研究. 基因表达谱可根据肿瘤个体特异性、组织特异性和病变特点等进行分析判断, 确立各基因具有的特异性或相对特异性的功能. 而作为肿瘤基因则具有多功能作用, 每个基因又参与多种细胞生物活动过程, 在不同的条件下发挥不同的作用. 对单个基因功能来说有时很难将其进行完全准确的分类. 事实上任何一个基因的表达都是作为众多基因同时表达的一部分. 目前对肿瘤研究也仅仅是从了解单个基因逐步走向探讨多个基因构成表达模式的过渡.

恶性肿瘤细胞不同于正常细胞, 就在于恶性肿瘤组织的分化程度低, 增殖侵袭能力强和容易发生移转, 并且较其相同或类似组织在生理状况下的基因表达数量、水平及种类上有所不同. 消化道肿瘤的发病机制比较复杂, 演进过程中有多个基因参与, 涉及多个基因通路. 洪朝金等[4]在基因表达谱研究时采用基因芯片技术对4例结直肠癌(colorectal carcinoma, CRC)组织及癌旁正常组织的基因表达谱进行检测, 在CRC肿瘤组织中差异表达基因共5042条, 其中上调基因有3399条, 下调基因有1643条. 在这些差异表达基因中部分癌基因呈持续激活状态, 不断发挥其生物学效应, 且肿瘤组织中差异表达基因涉及多条与癌症发生发展相关的通路, 如Cell cycle、DNA replication、Purine metabolism、Mismatch repair、P53 signaling pathway、MAPK signaling pathway及Wnt signaling pathway等. 若表达谱芯片仅从基因的种类和数量上研究基因表达情况, 而没有结合基因是否发生了突变等基因本身结构的变化, 那么对此基因表达量的研究很有可能变得没有意义, 甚至发生严重的导向错误.

在结肠癌与正常结肠组织基因表达谱的过往研究中, 不仅出现同一类肿瘤基因表达的不同, 表现出一些基因表达下调和上调, 即使同一基因在不同的肿瘤中发挥的作用也不尽相同. 如抑癌基因编码的蛋白在翻译的过程中可能出现变异, 引起功能上的变化, 对肿瘤的调节机制可能发挥的作用不同, 甚至完全相反. 如野生性P53是共认的一种抑癌基因, 但它的抑癌功能常因突变而消失, 使肿瘤细胞无限分裂增殖, 导致癌症的发生[5]. 还有抑癌基因D4-GDI(Rho GDP解离抑制因子)在肿瘤的调节通路中发挥不同的作用, 在一些肿瘤中呈现抑癌作用, 而在另一肿瘤中反而促进肿瘤的不断发展. Cho等[6]与Gildea等[7]发现RhoGDI2蛋白基因在胃癌组织中表达上调, 并能促进胃癌的增生与转移, 而在膀胱癌、肺癌等组织中RhoGDI2蛋白基因也表达上调, 并不影响肿瘤形成, 但却发挥抑制肿瘤细胞转移的作用. 所以, 不能简单地根据实验中基因表达水平的高低去确定其功能状态, 并不是表达上调的基因就会促进肿瘤的发展, 下调的基因就是抑癌基因. 基因表达的功能是复杂的, 在特定的条件下, 往往需要大量的病例进行重复试验. 而在实验中对于差异表达基因变化倍数为2倍以下的基因(一般基因变化倍数为2倍以上), 如fold change<1.5, 一般称为弱差异基因. 这些基因在多数情况下易被忽略或剔除, 这些基因是否真的是无关基因. 对此, 以前并没有确切的证据. 孙伟等[8]在胃癌弱差异基因表达谱中得到能够识别样本类别的胃癌和癌旁组织的62个分类特征基因和4个分类能力较强的基因, 并证实这组基因也参与了细胞粘附、细胞吞噬、免疫调节、基因甲基化、转录调控等重要生物学作用. 有研究者认为[9]这些弱差异表达基因可能在进展期胃癌的发生发展过程和临床靶向治疗中有着更为重要的功能.

对于基因功能的研究, 目前主要通过差异基因表达来分析同一基因在不同的肿瘤、肿瘤不同的发展阶段和某种特定的微环境条件下所发挥的不同功能作用. 若将特定基因与某些疾病联系起来, 就可进一步了解疾病发生与基因表达之间的相互关系. 恶性肿瘤其实是一种多基因分子疾病, 其中基因的功能并不完全独立. 一个基因的表达上调或下调, 往往会影响到它的上游或下游几个基因的转录及表达水平改变. 因此对基因功能研究, 不仅需要信息生物学、分子生物学乃至临床医生的共同的艰苦努力, 并通过大样本逐一去验证这样的基因在不同情况下的特定功能. 随着现代分子生物学的发展, 可利用大规模的基因表达谱技术来研究肿瘤的发病机制, 从整体上对肿瘤及肿瘤相关基因进行类别分析, 并在不同层次上揭示多基因协同作用的肿瘤形成过程. 但迄今尚未发现某一特定基因可直接导致肿瘤的发生. 生物学基础研究及临床医疗实践也已证明, 肿瘤的发生是一个连续过程, 在内外环境因素作用下, 每个阶段都可能存在不同的基因在不同的时间发挥了不同的作用, 最终因基因变化的累积而导致肿瘤的发生. 而追溯源头的某些特定基因改变, 则可为预防和治疗肿瘤提供线索, 是目前研究肿瘤的关键之点和困难所在.

1.2 肿瘤增殖与浸润转移机制

肿瘤主要生物学特性之一, 就是具有正常组织细胞所不具有的异常增殖能力, 表现出一般组织细胞不同的基因表达特点. 兰斌等[10]利用cDNA基因芯片检测胃癌MKN45肿瘤细胞处于G2/M交界点、M2/M过渡期、G1早期、G1晚期、G1/S交界点、S早期、S晚期、G2早期和G2末期等不同细胞周期阶段的基因表达谱. 通过聚类分析, 分别检测到9个时间点2001个基因, 其中959个基因出现改变(上调或下调), 在G1期末或G2期上调379个, S期和M期上调40个. 在G1末期上调基因中主要与DNA代谢、转录与翻译、蛋白质转运, 泛素化和信号转导相关联, 而G2期上调基因则主要与RNA合成与加工、凋亡与抑凋亡、信号传导、有丝分裂调节等相关联. 证实胃癌细胞在周期演进过程中, DNA复制及染色体分离所需的各种物质储备分别在G1末期及G2期完成, 说明多种类基因是推动MKN45细胞周期循环的主要动力, 其中部分基因可能与肿瘤的过度增殖有关. Ganepola等[11]采用基因表达谱来研究结肠癌肝转移的肿瘤基因表达谱, 发现转移性肿瘤比原发部位肿瘤相关的增殖基因表达降低, 其增殖能力下降, 免疫组化Ki-67和Cyclin D1检测也证明了这一点, 这对指导临床治疗具有重要意义.

而肿瘤转移是恶性肿瘤固有的生物学特点, 不同理论对肿瘤转移的机制作出了不同的解释. 经典的肿瘤转移理论认为, 转移是肿瘤细胞克隆性选择的结果, 在肿瘤内部的不同部位肿瘤细胞可能具有不同的转移潜能, 仅有少数克隆肿瘤细胞发生了转移, 且转移发生在肿瘤进展的晚期, 转移也是随机性的. 但近年来则认为[12]恶性肿瘤转移基因的改变起源于恶性肿瘤的初始阶段, 并非恶性肿瘤的晚期, 而原发肿瘤中的大部分细胞具有转移潜能, 并非少数. 在肿瘤体内存在不同肿瘤转移能力的细胞亚群, 且肿瘤转移具有一定器官或组织的倾向性. 齐鲁等[13]通过大肠癌基因表达谱数据筛选早期转移相关差异表达基因共16个, 其中表达上调的9个, 即VSNL1, PSAT1, KITT1199, ABHD7, MMP7, JUB, CLDN1, KRT23FOXQ1. 表达下调的7个, 即SFRP1, SLC4A4, CHGA, GCG, GUCA2B, CLDN8和CD117, 这上调的9个基因和下调的7个基因在早期大肠癌转移分子机制中起到关键作用, 而与肿瘤组织分化程度相关的基因仅有PSAT1JUB. Xu等[14]研究发现食道癌早期癌基因改变不大, 由于细胞异常增殖、分化与凋亡途径受阻, 导致细胞生死动态失衡, 以致肿瘤发生及体积逐渐增大, 而晚期食道癌则涉及多基因改变和不断累积, 如粘附分子、细胞外基质类的上调, 细胞周期类和细胞间信号分子的下调, 此时增殖能力作用相对减弱, 这种因细胞凋亡受阻, 导致细胞增殖与凋亡的动态失衡, 肿瘤体积不增有可能有所减小, 加速了肿瘤浸润与转移. 同样有实验证明了在肿瘤发生发展过程中, 不同阶段的肿瘤细胞增殖、凋亡及侵袭转移的能力都会呈现不一致的现象, 在肿瘤癌变的早期阶段往往以增殖为主[15], 而在肿瘤转向恶性过程中, 增殖能力可能下降, 浸润转移呈增高趋势[11]. 对于肿瘤的浸润转移不应该仅仅看成是"细胞事件", 而分子调控、生物诱导和血管新生等在其中担有重要的角色. 肿瘤转移发生的过程中基因调控发挥着主导作用, 而转移相关基因的表达和调控的结果可能是出现新的转移表型和肿瘤细胞形态一系列变化的又一轮新周期变化的开始. 目前研究多个肿瘤转移相关基因, 探索基因间的相互关系及其对肿瘤的调控作用, 已在多种肿瘤研究中得到应用. Nadauld等[16]就在弥漫性胃癌的卵巢转移灶与原发灶的比对研究中发现, TGFBR2突变在转移发生过程中具有重要的作用, 并通过体外类器官模型中的实验, 验证了该基因对转移的关键作用. Ojetti等[17]利用cDNA芯片将正常胃粘膜与胃癌进行基因表达谱对比分析. 在29例胃癌切除标本中, 淋巴结转移阳性的标本有52个差异表达基因, 淋巴结转移阴性的标本有50个差异表达基因. 有55个基因在转移阳性和阴性淋巴结中的表达相类似, 有12个基因在淋巴结转移阳性和阴性中呈差异表达. 而发现7个基因在胃癌淋巴结转移中表达, 即Egr-1上调, Claudin-18、AKRIC2、Cathepsin E、CA Ⅱ、TTF 1下调, 5个基因在淋巴结转移阴性的胃癌中表达, 这12个基因可能与胃癌淋巴结转移有关.

1.3 基因调控网络

疾病发生, 特别是肿瘤的侵害, 往往为一个或多个功能基因群共同作用的结果. 以往的研究只能检测有限的几个基因, 无法做到平行化和同期的大量的基因检测, 更无法系统地了解肿瘤细胞代谢和整个机体调控网络是如何发挥作用的. 而表达谱基因芯片恰恰能够同时检测成千上万个基因, 使人们有可能对肿瘤细胞或组织乃至机体在某一特定时间点所有基因表达进行检测, 并通过实验进一步证实肿瘤细胞的转录调控、级联反应、铁离子通道等信号通路网络, 了解相关基因群的功能作用[18]. 基因表达谱芯片的使用大大加快了基因调控网络研究的进程, 从而明确肿瘤细胞在某个阶段的调控网络或对某种刺激的反应通路, 这也是研究肿瘤分子机制的重要途径之一. 通过分析基因共表达网络中具有相似功能的基因, 可以寻找未知基因的功能, 为发现新基因提供线索. 因此基因共表达网络也越来越多地运用于系统生物水平基因功能的研究. miRNA是一类具有调控功能的非编码RNA, 它们在肿瘤细胞中常常是差异表达, 通过调控基因转录后表达来影响细胞增殖、细胞凋亡、细胞进化与分化等生物过程[19]. miRNA与其靶基因间调控关系为多对多, 如1个miRNA可能调控上千个miRNA, 而1个mRNA可能调控多个miRNA[20]. miRNA-gene调控网络基于这个理论建立, 意味miRNA不管在生理情况下还是处在疾病过程中的调控机制十分复杂. 由于目前实验方法的局限性, 从miRNA与靶基因间的多层次调控关系中研究和发现miRNA的调控机制及其生物功能十分困难, 但miRNA-gene调控网络研究机制则提供了系统的、综合性的观点. miRNA-gene调控网络能够清晰地反映miRNA在网络中发挥的功能, 由此可以揭示其对肿瘤基因的关键调控原理.

基于不同类型的数据构建的肿瘤基因调控网络其类型及特征各有所不同. 一般以调控子的集合作为网络节点, 基因相互之间的关系则作为网络的边, 从而构成基因网络. 在对癌症相关网络中的众多基因研究中发现, 许多基因的表达变化是被动的或伴随的, 只有少数基因才发挥"始动"作用, 具有始动作用的基因才是研究的关键所在. 而目前研究认为, 癌症相关差异表达基因中, 同时具有相应基因组结构变化(突变、扩增、缺失等)者才可能是癌症形成的"始动"因素[21-23]. 苗华等利用Meta分析技术[24]从既往5项研究中寻找CRC发生相关差异表达基因, 构建差异表达基因共表达网络, 并发现表达网络中的核心亚网路, 分析其生物功能和基因节点, 最后确定CRC发生中的核心通络和驱动分子. 共发现差异表达基因2073个, 其中在癌组织中表达一致上调的1174个, 一致下调的899个. 这些基因在CRC样本中形成的共表达网络, 包括798个基因节点和1462条边, 存在22个核心亚网络. 最大核心亚网络是由77个基因节点和436条边组成, 功能涉及细胞周期和增殖信号调控. UBE2C、MYBL2、FAM83D, AURKA、TPX2等11个基因被预测为该信号功能的驱动基因. 在肿瘤调控网络的研究中, 通过系统监测肿瘤发生过程中机体或主要靶器官、组织的基因表达变化, 揭示肿瘤发生过程中的多个作用环节及发病机制. 共表达网络是一种探索疾病相关基因间正向或负向相关变化的有效方法, 许多有共表达关系的基因更倾向于形成生物学通路信号[25]. 而在基因表达调控的研究中, 多个基因表达水平同步升高或降低预示它们共表达或协调表达. 而在信号传导通路的研究中, 某些基因表达量的变化节点可以提示信号传导通路是否激活, 预示着基因调控网络在何时何点发挥其功能, 这对肿瘤发病机制的研究有及其重要的作用.

2 基因表达谱在消化道肿瘤临床病理研究中的应用
2.1 肿瘤的临床病理诊断与鉴别诊断

疾病诊断是基因芯片最具有重要的商业应用价值之一. 通过基因表达谱来发现肿瘤有价值的标记物, 实现对肿瘤性疾病的病理诊断. 经典的分析策略是通过比较不同的癌组织与正常组织基因的差异表达, 从而发现有意义的差异表达基因或找到某些相关信号通路. 亦可模拟肿瘤发生的过程或通过外加各种因素(如致癌物等)模拟生物进程, 然后比较作用前后的差异, 找到特异性标记物. 并利用基因表达谱数据对基因进行聚类分析, 将基因分成不同的功能群. 这与过去常规单基因检测方法相比较, 高通量基因芯片检测速度快、效率高, 更适合临床的需求. 虽然目前尚未发现有单个基因可作为合适的肿瘤标志性基因, 但许多实验研究已表明, 可以联合检测一组/或以上基因以预测肿瘤的发生. 在实际研究中若不对条件加以严格限定, 筛选出的差异表达基因将会有数千甚至上万个, 基因数量过多, 会干扰研究的方向和目标. 由于恶性肿瘤基因表达牵涉到诸多分子事件, 但严格筛选条件, 又会失去许多差异表达基因所包含的可能重要信息. 而且基因表达的变化又反映出肿瘤细胞功能不同的变化,也不是少数几个基因的差异表达所能够阐明的. 并且在肿瘤诊断中, 应企望以最少的分子标签达到联合诊断的目的. 因此严格限定筛选条件能够使筛选出的差异表达基因更具有针对性. 若对筛选的关键基因进行分析, 重点是明确关键基因在恶性肿瘤中所起的重要作用, 并进一步验证这些差异表达基因在恶性肿瘤中的特异性. 这些关键基因就可能对提供恶性肿瘤的诊断鉴别诊断, 以及转移及相关药物治疗靶点关键指标, 则具有更为重要的指导意义.

目前临床对恶性肿瘤的病理诊断都是以恶性肿瘤的基因表型改变为依据, 其敏感性不高, 且对恶性肿瘤的早期诊断价值有限. 由于肿瘤早期或出现癌前病变时即已发生多种基因异常, 这些异常改变的基因往往先于临床症状的出现, 并在一定程度上成为早期恶性肿瘤的分子标志物. 这是基因芯片在肿瘤分子病理诊断方面比病理组织形态学诊断更具有的独特优势. 而且基因芯片还可在一张芯片上同时对多个病人进行多种肿瘤的检测, 用少量的样本, 在极短时间内即可向临床医生提供大量的疾病诊断信息, 为疾病早期诊断的临床应用开辟了一个新的应用领域. 有临床研究发现[26], 7例结肠腺瘤和16例结肠癌的基因表达谱, 选择出335个具有恶性特征的克隆, 应用恶性状态诊断算法(algorithm for diagnosing malignant state method, ADMS)方法又对另外12个病例进行了分析(其中5例为早期癌并转移, 7例为转移癌). 16例结肠癌和12例转移肿瘤均被确诊为"恶性", 7例腺瘤中有3例被诊断"有恶性特征", 其中2例被认为有恶性潜能. 所选择的335个克隆中有135个是已知的结肠癌相关基因, 包括抑癌基因和生长因子相关基因. 由于癌前病变或轻度不典型增生的部分基因异常具有可逆性, 若早期诊断并指导癌前病变患者脱离致癌物或进行化学干预, 有可能阻滞或逆转癌前病变的进一步发展. 因此, 将癌症治疗对象从有临床症状的中晚期患者逐渐转向无症状的早期或癌前病变患者, 已成为预防医学领域内一项重要任务, 这也是寻求癌症实现早期治疗的又一突破关键节点.

在肿瘤的诊断鉴别诊断中, 虽然胃癌与食道癌同属于上消化道系统肿瘤, 其差异表达基因存在一些相似性, 但大多数和肿瘤发生发展过程相关的基因都不同, 这两种肿瘤可能有不同的个体遗传学特点、环境影响因素或具有不同发生发展的通路. 如果将这些筛查出来的肿瘤特征性基因制成基因芯片, 就可以通过它们的基因表达谱分析来完成肿瘤的识别, 这种用较少量的特异性基因来区分肿瘤组织的方法可能对基因诊断与鉴别诊断有一定的参考价值. 如果对多种肿瘤基因表达谱进行检测, 各种肿瘤的基因表达模式都会呈现不可能有完全一致的表达谱, 但它们有可能有相似的表达谱特征, 这足以说明这项技术存在用于肿瘤诊断与鉴别诊断可行性. 赫近等[27]分析3例胃癌和3例食道癌、正常胃及正常食道组织的基因表达谱时发现, 胃癌上调基因15个, 下调基因19个, 食道癌有13个基因上调, 8个基因下调. 通过聚类分析将51个基因, 分成食道癌一簇、胃癌一簇、正常食道组织和正常胃组织各一簇. 从4簇关系来看, 可将正常组织与癌组织, 胃癌与食道癌区分开. 如果将筛选出来的这部分肿瘤特征性基因制成基因芯片, 就可能通过它们的基因表达谱分析来完成这两种肿瘤的诊断与鉴别诊断.

在不明原发灶转移性恶性肿瘤定位诊断研究中, 发现同质肿瘤性基因表达谱之间也存在明显的差异, 这种差异恰能够很好区分原发癌与转移癌, 因而具有重要的临床转化应用价值. 一项对92个基因(RT-PCR)芯片实验测试中, Greco等[28]发现, 对25种类型171例不明原发灶恶性肿瘤进行检测, 其原发部位肿瘤诊断准确性达到75%. Hainsworth等[29]通过92个基因进行RT-PCR基因芯片检测, 从289例不明原发灶病例中成功预测到247例, 准确性到达98%. 其中最常见的是胆管癌18%、其次是尿路上皮癌11%、CRC 10%和非小细胞癌7%. 目前, 有人认为原发灶与转移灶肿瘤虽然同属一类肿瘤, 肿瘤细胞之间具有相似的克隆关系, 但他们之间所表达的基因有许多不同之处. 而且随着原发灶与转移灶发生转移之间的间隔时间越长, 两者之间这种遗传特征一致性总会随着时间的延长显示差异越来越大. 这对探明不明原发灶转移性肿瘤的原发部位具有重要的价值.

人类许多疾病与遗传基因密切相关, 而导致疾病发生的基因可能会有许多与疾病性状相关联的特定基因突变, 如神经内分泌癌相关的CPLX2[30]. 从目前所知肿瘤基因表达谱技术特点出发, 每一肿瘤都会有区别其他肿瘤的肿瘤疾病性状相关联的特定基因可作为肿瘤分子标记物, 这就可以作为一定的肿瘤诊断与鉴别诊断的参考依据. 从这个意义上讲, 基因诊断在人类未来疾病的诊断中, 具有广阔的应用空间和非常诱人的前景, 可突破常规病理组织形态学诊断中繁琐复杂的组织染色制片过程的限制, 可大大降低依靠显微镜下个人经验诊断的依赖性, 从而进入分子病理智能化诊断的理想境界. 在未来解决疑难性疾病、遗传学疾病、特别是肿瘤性疾病等诊断方面发挥独特的作用, 基因芯片技术无疑是实现这一目标的理想工具, 当然这可能是一个漫长的过程.

2.2 肿瘤的分子分型

沿用至今的恶性肿瘤TNM分期在肿瘤的治疗效果及患者预后评估上已发挥了巨大的作用. 为了进一步提高治疗效果, 实现更实际更有效的个体化治疗, 而寻找能预测治疗反应的更为精准的指标是关键. 肿瘤是公认的一类高度异质性疾病, 存在明显的个体差异, 这种差异被认为是关键基因的异常表达所造成的. 通过对大量基因表达谱分析, 找到肿瘤不同亚型之间的分子特征, 这不仅有助于研究各种肿瘤和肿瘤不同亚型的组织起源, 还可以发现新的亚型. 近年来乳腺癌的分子分型和肿瘤分子生物学检测指导下的分子靶向治疗所取得的突破就是一个很好的例证, 分子分型可利用芯片技术从一系列形态类似的样品中分离出不同的亚型. 对于依靠传统组织病理学分型而归类的同一类型肿瘤患者, 其肿瘤组织彼此间仍然存在显著的分子生物学差异. 精确、精细的肿瘤分型需要相应的亚型"基因标签"即特征基因. 传统的方法是采用观察样本组织形态学特点, 并结合免疫组化表达特点来分型, 而分类特征少, 精度太低. 人们现在可以同时获得给定样本在某实验条件下全部所得基因的表达状况, 使用基因表达谱数据来进行肿瘤分型. 从理论上讲在诊断的肿瘤分类中, 每个癌症患者都应具有一个独一无二的肿瘤类型, 都有一个特别的基因表达谱. 但是从目前的技术手段获得的数据初步特征来看, 还无法将每个个体作为一个亚型来处理, 也就是说, 目前希望用比较细的尺度来分析肿瘤的亚型, 但是这个尺度细到一定水平, 往往信号就被背景的噪声淹没了. 目前肿瘤的分子分型研究的基本路线是, 在临床实践中发现问题并提出问题, 临床医生和从事基础研究的研究者充分研讨论证后凝练出科学假设, 共同设计出有预实验支持的合理、严谨的可行性方案并加以实施.

Cristescu等[31]通过对300例全胃或部分胃切除的肿瘤标本, 包括对49例肿瘤样本进行全基因测序, 以及对另外的251例原发肿瘤样本进行基因表达谱分析. 确定以下4种胃癌的分子分型: (1)MSS/EMT亚型常见于(>80%)弥漫浸润型胃癌(Ⅲ-Ⅳ期), 发病年龄早, 预后最差, 复发率(63%)最高, 该亚型的突变率较其它MSS群体低; (2)MSI亚型主要发生在胃窦部(75%), 60%以上为肠型, 是4种亚型中预后最好且复发率最低(22%)的亚型; (3)MSS/TP53+亚型; (4)MSS/TP53-亚型预后和复发率居中, 其中MSS/TP53+亚型具有更好的预后. EBV病毒在MSS/TP53+亚型中的感染率要高于其他3型, MSS/TP53-亚型中TP53基因突变最高(60%). MSS/TP53+亚型中其它基因(如APC, ARID1A, Kras, PIK3CASMAD4)具有更高的突变率. Bass等[32]收集了295例未接受过放化疗的原发性胃癌患者组织和血液标本, 采用6种分子技术对样本进行分析, 提出了另一种胃癌分子分型. EBV感染型(positive for Epstein Barr virus): 其PIK3CA频发突变、DNA超甲基化、JAK2、PD-L1PD-L2扩增. MSI (microsatellite instable)型: 高突变率, 发生编码癌基因信号通路蛋白的激活性基因突变. 基因组稳定(genomically stable)型: 多为Lauren分型中弥漫性, 多有RHOA突变或RHO家族GTP酶活化蛋白基因融合现象, RHOA突变是此型的特征突变. 染色体不稳定(chromosomal instability)型: 具有标志性的异倍染色体和受体酪氨酸激酶(RTKs)原位扩增. Samadder等[33]则根据微卫星稳定和不稳定程度的高低、CpG岛甲基化程度, CpG岛甲基化表型阴性、BRAF和/或KRAS突变的阴性和阳性, 将CRC患者分为经典型、替换型、锯齿形、未定义型. 又有研究者[34]提出有助于CRC治疗的分子分型方案: 杯状细胞样型(goblet-like)、肠囊性型(enterocyte)、干细胞样型(stem-like)、炎症型(inflammatory)、扩增型(transit-amplifying). 到目前为止还未发现在胃及CRC患者的临床病理特征与分子分型之间确切存在完全一致性, 也未找到一种全面评估胃和CRC诊断、治疗与预后的分子分型标准.

通过不同肿瘤之间基因表达谱的比较所得差异表达基因, 结合该肿瘤病理形态学特征, 分析这些基因中所具有的不同生物学功能, 已为临床肿瘤分子分型奠定了良好的基础. 今后应针对这些基因并结合临床特征而进行进一步科学的分子分型, 进一步提高临床个体化治疗水平, 从而实现对肿瘤更为精准的治疗.

2.3 肿瘤的精准治疗或靶向治疗

就肿瘤的发病机制而言, 目前为止, 还没有真正针对肿瘤病因机制的绝对有效手段. 实际工作中采用单纯外科手术切除也并不能完全治愈该疾病, 往往术后很快复发并发生远处转移. 因此如何使机体恢复正常的生理功能状态和阻断肿瘤继续发展的生物学过程, 应成为肿瘤治疗和预防的研究方向. 对肿瘤耐药机制的探索和使用大剂量冲击治疗的方法应该进行适当的调整. 关注病人的整体生理状况, 实现生理调控能力的保护, 多种医学手段的有机整合利用, 避免医源性的过度治疗损害, 理应成为现有医学条件下肿瘤治疗的新模式.

精准医学[35]指基于每个个体的遗传性基因信息和环境因素影响差异而制定的个体化治疗方案. 将对不同个体或患者进行基因测得的分子生物学信息而建立一个庞大的医学数据信息库, 然后通过分析对比不同个体的基因信息, 了解各种疾病的共有和特有的分子特征, 从而开发出针对特定致病基因的靶向药物和治疗方法. 基因表达谱技术绝对不是取代传统病理学诊断技术, 而是在丰富肿瘤的诊断手段, 越来越多地将分子诊断应用于临床实践, 将传统的组织学诊断和分子病理诊断互相结合和互相补充, 综合性应用于诊断. 现在已知有些异常基因表达产物, 不但可用于肿瘤诊断, 而且还可以预测患者的预后和对治疗的反应, 也可用这些特异的分子靶点开发药物, 用于肿瘤的靶向治疗[36]. 目前分子靶向治疗针对的可能导致细胞癌变的某个环节, 如细胞信号传导通路、能量传递相关通路、原癌基因和抑癌基因、细胞因子及受体、肿瘤血管形成等, 从分子水平来逆转肿瘤细胞恶性生物学行为, 从而抑制其生长, 使其完全消退或停止生长, 这是一种全新的生物治疗模式[37-39]. 分子靶向治疗仅针对的是肿瘤细胞, 对正常细胞影响小或甚至无影响, 这无疑是一种理想状态. 近年来, 多种恶性肿瘤的靶向治疗在临床上均显示出明显的缓解率, 但患者在使用靶向治疗药物前, 需要检测相关分子靶点状态, 以免无效治疗. 今后肿瘤治疗可能不再以肿瘤类型如肺癌、食道癌、乳腺癌等来划分, 而是以基因变化的类型如EGFR、HER2等来划分, 这无疑是一个巨大的转变, 意味着一个特定基因改变的胃癌患者可能不再与其他同类胃癌患者接受同样的治疗, 而是和有着相同基因改变的其他器官肿瘤患者采用同样的治疗策略.

在个体化疗中利用基因芯片技术来指导临床实践, 应该建立一套简单公认符合客观要求的个体化药物敏感性的评分方法, 这是当务之急. 目前肿瘤治疗面临的挑战是发现肿瘤特定阶段或特定部位异常表达的基因或基因群, 可能造成的截然不同的临床治疗效果. 要研究这些差异表达基因的功能和干预这些基因表达的结果, 最终将这些信息转化成新的诊断和治疗策略. Park等[40]利用14081条胃癌细胞系基因组成KUGI 14K cDNA芯片, 分析5-FU 化疗敏感及化疗抵抗的胃癌细胞基因表达谱, 实验结果显示13条异常基因和5-FU作用机制有关, 其中11条基因对化疗敏感上调起正调节作用, 而2条基因对化疗不敏感或化疗抵抗均下调而呈现负调节作用. 实验证明, 通过基因表达谱研究, 可以预测5-FU 对胃癌细胞的敏感性, 可以作为预测靶向治疗敏感性的一项重要指标. 而另一项[41]通过低剂量和长期紫杉醇治疗食道鳞状细胞癌(ESCC)诱导产生耐药性的研究, 利用群体RNA-序列和单细胞RNA序列测量基因表达谱, 发现蛋白酶体抑制剂carfilzomib(CFZ)可以激活HIF-1信号来减弱紫杉醇-R癌细胞对紫杉醇抗性. 为以后包括ESCC在内的癌症治疗方法的改进开辟出一条新的研究方向. ,

恶性肿瘤的发病机制极其复杂, 多数肿瘤的发生发展都受到多层面、多层次和多个因素的影响, 而且目前所使用的靶向药物多针对单一靶点, 阻断一个受体, 无法阻断全部信息的传导. 因而在一定程度上导致了靶向药物的治疗无效或效果不尽人意. 目前大部分靶向治疗药物的有效率比较低, 疗效不甚理想, 还存在靶向药物对肿瘤治疗靶点的选择性不够高, 存在"非靶向作用", 如过敏、心脏毒性等不良反应, 有时十分严重; 另外靶向药物在治疗过程中也出现耐药性现象, 在一定时间内难以大范围推广应用. 随着对肿瘤发病机制研究进展, 新的靶向药物会不断涌现, 一方面可通过靶向药物的联合应用来增强疗效, 降低药物耐药性; 另一方面又可通过研发多靶点的分子靶向药物, 来达到增强疗效的目的.

最近生物学领域研究一项新成果, 即体细胞重编程研究[42]. 有望不久于将来用于肿瘤的治疗. 不同类型分化细胞之间的转化在自然条件下是不会自然发生, 而通过实验手段(如核移植、胞质孵育、细胞融合及转录因子过表达来诱导转分化)可以逆转细胞分化的进程, 使之改变状态, 从一种基因表达谱转换成另一种基因表达谱, 从而实现细胞类型的转化即重编程. 虽然体细胞一般处于终末期分化状态, 但通过实验手段可以将体细胞或体细胞核重编程至广泛的发育可塑状态, 使分化处于终末期阶段的细胞变成初始化可分化的细胞. 重编程的关键是有效开启基因组, 使得重编程因子与调节区域结合, 便于染色体重构, 介导基因表达改变, 在肿瘤的治疗中发挥作用. 重编程细胞的目标之一, 就是可以通过重编程诱导一种细胞如成纤维细胞转变成肌纤维、前T细胞转变成巨噬细胞、成纤维细胞转变成功能性神经细胞、胰腺外分泌细胞转化为肝细胞等, 并可以建立长期稳定传代的人特异的细胞系, 用以进行个体化药物筛选. 但是重编程过程是一个复杂的网络化的协作过程, 仍需要基因表达谱技术深度的协助和支撑.

3 基因表达谱从基础研究到临床转化过程中亟待解决的问题
3.1 实验室研究与临床应用的双向转化

虽然现代科学技术已取得了巨大进步, 但在解决人类所面临的重大疾病, 特别是肿瘤疾病的早期发现、早期诊断与早期治疗等方面与人们期望值仍相距甚远. 后期提出的转化医学新概念[43,44], 实际上就是要求基础研究和临床实践相结合, 并以此解决复杂疾病, 特别是肿瘤疾病的临床诊断与治疗等问题. 对于转化医学强调的是将"实验室基础研究"成果转化为"临床实际应用"的问题, 目前转化医学已被广泛认知接受, 但事实是人们更加重视实验室到临床这一过程, 而忽略了临床对基础医学研究的反馈作用, 阻碍了实验室与临床更好的结合, 而这恰恰是临床发展非常重要的推动力量. 要获得深化的研究动力, 就需要让更多的基础研究成果能尽快的进入临床, 同时让更多的临床样本和数据服务于基础研究. 还需要加强研究机构、临床医疗机构和技术应用单位的通力合作, 以及政府政策的指导, 开展多学科多领域的合作.

3.2 基因表达谱技术的质量控制和标准化

任何一项实验技术都存在一定的误差, 包括人为及系统误差, 基因芯片技术同样也都会发生, 因此提醒研究者对芯片结果的解释与应用须慎重. 对于基因表达谱的系列实验所获得的成千上万个基因表达数据, 如果没有一个合理分析和准确判断, 很可能造成差之毫厘, 谬以千里. 基因芯片制作、基因芯片实验过程、基因表达谱分析判断和应用的规范化及标准化的质量控制是当今务必要尽快解决的问题.

随着基因芯片的广泛应用和表达谱产生的大量数据, 而表达谱数据的公开化及加快公共数据库的建设就显得十分必要, 尤其是在基因芯片的定制使用过程中要应有靶基因对照, 对标准化样品的选择、提取、标记及杂交检测进行严格的限制, 特别是因为不同部位来源的肿瘤组织可能具有不同的表达谱. 组织采样应统一标准, 并且尽可能使肿瘤细胞所携带的基因差异表达信息不要淹没在大量非肿瘤细胞所表达的无关信息中. 由于各种肿瘤的临床症状、体征、化验、影像学、病理检测数据资料本身来说, 其适应性差和难以重复, 而且数量大和数据具有的多样性, 又不同程度地影响到基因表达谱所得结果的注释, 所以对结果的判定应严格遵循科学研究的均衡对比的一般原则. 目前所有这些操作还没有一个统一的规范和标准, 这均会导致不同实验室、不同研究者甚至是同一研究者不同时间所做的同一个实验会产生不同的结果, 而无法实现数据共享. Shi等[45]提出对基因芯片质量控制项目制定的质控标准将有利于推动基因表达谱等生物大数据收集标准化. 今后, 应极力推荐在发表文章时必须提供相关实验的最低信息标准, 同时建议将相关数据按一定的标准释放到公共数据库内. 还可以基于科学研究的成果制定出专家共识、指导临床实践, 从而在提高质量方面发挥出更大的作用.

3.3 基因表达芯片数据的挖掘与利用

基因芯片分析的规则是把原始数据按一定的标准精简、归类, 然后从中寻找有实际生物学意义的结果, 再进一步分析. 数据挖掘是指从大量数据中获取有效的及有价值的, 最终可理解的方式的过程. 基因表达芯片应用则包括数据下载、预处理及之后对数据进行差异表达分析. 差异表达基因的识别是微阵列数据处理的首要任务, 为研究致病基因、肿瘤基因的分类以及信号通路分析等后续工作提供重要线索. 差异表达基因获取后, 研究人员可依据各自的需求, 借助各种展示平台对差异表达基因进行更详细和更深入的探讨, 如基因本体论(gene onlogy, GO)富集分析[46]、京都基因和基因组百科全书(Kyto encyclopedia of genes and genomics, KEGG, http://www.kegg.jp/)分析, 以及进行蛋白质相互作用分析等[47]. 生物信息学常用的分析方法包括差异基因表达分析、聚类分析和判别分析等. 其中差异基因表达分析是最基本的分析方法, 展示出不同标本的所有基因表达水平, 进行比较和筛选. 肿瘤的差异表达基因, 通常是将肿瘤组织与相应正常组织基因表达进行比较, 确定有意义的差异表达P值<0.05, 即差异倍数FC≤0.05(下调), 差异倍数≥2(上调)的基因[48]. 但这种方法很难从大量的数据中揭示数据之间, 特别是数据与生物学意义上的关联. 对基因表达谱数据分析一般通过纵向比较(比较同一标本中各基因的表达水平)和横向比较(比较各标本间或不同时间、不同条件下的基因表达差异情况). 两个或多个基因的表达情况相似或出现关联, 可以假设二者受到相似的调节, 然后结合临床进一步验证和研究. 不同标本之间的比较可以找到差异基因, 并发现肿瘤标记物或者相关的致病机制. 在基因表达谱与功能之间可能存在着某种联系. 为进一步验证提供线索和依据[49], 常用差异基因表达分析方法有: 参数分析(倍数分析、t检验、方差分析等)、非参数分析(非参数t检验、Wilcoxon秩和检验、经验贝叶斯法、芯片显著性分析、混合模型法等)或具有参数和非参数分析特点的回归分析. 根据研究基因的表述特点将分析方法又分为监督和非监督算法. 非监督算法即聚类分析, 其分析网站Panther(http://www.pantherdb.org)在芯片数据的分析中最为常用. 是通过建立各种不同的数学模型, 把相似数据特征的变量或样本组合在一起. 归为一个簇的基因在功能上可能相似或关联, 从而找到未知基因的功能信息或已知基因的未知功能, 这有助于更准确地发现基因之间的调控关系. 该方法可在没有任何外部信息的情况下将基因聚类, 具体分为: 分层聚类hierarchical clustering、K-means聚类分析、K-medoids法、自组织图映射SOM, Self-Organizing Map. 还有改进的聚类分析, 即主成分分析、基因网路分析等. 这都是研究基因表达谱的下游一个策略. 监督聚类在处理基因芯片数据时, 往往事先对待测基因或分组情况已经有了一定程度的了解, 并且这些信息与基因芯片实验本身无关. 但应注意未必聚类的基因都有一定生物学意义. 此时可以用监督算法来指导分类, 并利用所建立的分类对未知样品的功能和状态进行预测, 即判别分析(如线性判别分析Linear discriminiant analysis、支持向量机support vector machine、k-最邻近分类法k-nearest neighbor classifiers、决策树decision trees、人工神经网络法artificial neural network)、贝叶斯分类(Bayesian classification)等.

数据挖掘是基因表达谱研究和应用的重要组成部分. 如何从这些基因表达谱数据中, 提取出可供分析有用的生物学信息, 是一项十分艰巨任务且具有挑战性的工作. 如果从信息学角度出发寻找肿瘤相关基因, 发现肿瘤基因表达特征将会对肿瘤的诊断和治疗具有重要的生物学意义. 根据多类别肿瘤基因表达谱, 提出了一种自动特征选择方法, 选出具有高分辨能力特征基因子集. 这种选择应该是利用尽可能少的典型基因组, 获取有用的信息. 同时对肿瘤基因表达谱进行特征基因选择时必须有效性去除冗余基因. 因为冗余基因的存在并不能使实验获得更多有用的信息, 反而会增加计算的复杂度和导致分类能力降低. 基因特征选择的另一个重要目的是检验基因是否具有分辨能力, 即检验这些基因在肿瘤与正常组织样本中的表达水平是否存在显著不同, 就是在不降低分辨能力的前提下, 选择最少的、可作为判断指标功能的, 且能够代表整个基因全集的特征子集. GO分析方法是属于基因功能国际标准分类体系[46], 即基因本体论将基因分为三大类, 包括生物过程、分子功能和细胞成分. 每大类又分为低一级及更低一级的分支, 每一分支包含不同数量的基因, 而每一个基因可能属于不同的类. 分级的多少与对该领域了解认知程度相关, 研究越深入、越透彻, 那么它的分级就越细. 根据实验目的筛选出差异基因后, 研究差异基因在GO中的分布特点, 进而阐明其相应的生物学功能. GO分析在对表达基因研究过程中, 可进一步阐明病理条件下机体的生理改变, 从而寻找新的致病基因. 基因集合富集分析对于具有相同生物学功能、染色体定位, 并对具有相同表达模式的一组基因进行综合分析, 将具有相同或不同调节方向的基因集合, 以及重要的转导通路中的多个基因成分都要进行综合性分析. 并可直接利用公用数据库的数据进行相对应功能查询. 新基因的共表达就有助于推断许多缺乏相关信息的基因的功能. 这种方式已改变了在基础研究中仅对单个基因进行分析, 但也可能会错过一些重要的旁路效应. Pathway分析方法: 是指结合KEGG(基因通路网站KEGG http://www.genome.ad.jp/kegg/)和Gene Mapp等公共数据库对筛选出的差异基因进行信号通路分析, 通过检测实验组之间具有显著差异的信号通路, 可进一步推断各种通路间可能的相互关系, 并确定与生物学性状改变相关的基因. 在通路基因基础上基因富集分析已成为基因芯片表达谱分析和生物信息挖掘的主要分析方法, 由过去的显著表达分析法、功能性类别得分到最近的以拓扑学为基础的分析方法. 在分析过程中随着研究因素不断增加, 从数据库中挖掘到的信息也逐渐与真实生物学现象相吻合. 在不同肿瘤的细胞类型和细胞病理生理状态下, 基因具有不同的表达水平. 很多功能相关的基因是共表达的,根据分析结果可以揭示出很多的调控机制. 而分析基因的表达模式, 可以实现基因功能的进一步生物学分类. 目前已研发出全自动分析芯片数据与信号通路的软件MAPPFinder(http://www.genmapp.org), 可高效快速的分析芯片数据中GO基因本体信息及信号转导通路信息[50]. 为延伸数据库应用又提供了强力有力的工具.

在临床应用方面, 对于数据的解读. 基因芯片所能得到的结果就是表达数据, 直观上难于理解, 须要有配套的注释数据使得结果更加具有可读性, 才能进一步阐明生命特征和规律, 以及基因的功能. 基因芯片数据功能研究首先要经过初步处理如聚类、判别等分析, 将差异表达的基因归到不同的组别中, 形成不同的表达谱或分类器. 再从整体的研究角度出发, 依其组别对基因可能具有的生物学功能进行全面深入研究. 基因芯片技术近年来发展迅速, 而最新的研究进展主要体现在基因芯片的应用领域,尤其是差异基因的功能分析注释, 而分子功能注释系统(molecular analysis system, MAS)就是一个对高通量生物实验数据提供全面生物学功能注释的分析平台(NCBI Gene基因注释网站http://www.ncbi.nlm.nih.gov/gene/). MAS整合多种生物信息学公共数据库信息, 提供包括基因、蛋白、功能、调控、疾病等生物学信息的查询. 这方面应该是生物学研究者协同临床医生、计算机技术及人工智能方面的专家共同努力, 才会有未来更好的发展.

3.4 基因表达芯片数据库

基因表达谱数据库就是把高通量技术得到的组织或/细胞基因表达谱数据经过加工、存储, 形成完整的利于应用的电子传播的一类生物信息数据库. 近几年来已积累了大量的表达谱信息资料, 但由于数据共享和数据挖掘却发展相对迟后, 这些资料未能得到充分的利用. 当今正是计算机技术和数据库技术发展最好最快的时机. 目前根据数据的利用程度[51], 将数据库分为一级数据库(如斯坦福大学的基因芯片数据库)、二级、三级数据库(如美国生物学信息中心的GEO数据库). 而现在已成为最大、最全面的公共基因表达谱数据库, 且大部分都是免费共享的. 如从基本原理和应用出发, 对表达谱数据库又可分为三类: 表达序列标签文库(Expression sequence tag library, EST library)、基因表达系列分析文库(serial analysis of gene expression library, SAGE library)和cDNA微阵列数据库(cDNA microarray database). EST文库是最早建立的一类表达谱数据库, 建立的首先是非消减的cDNA文库, 这样的文库就带有样本的全部表达信息. 这三类表达谱数据库各有优缺点, 不可互相替代, 但可互相结合使用. 目前从存储数据源的疾病类型出发, 基因表达微阵列数据库则包括综合性和肿瘤专业性数据库. 而综合性数据库又分为, ArrayExpress数据库、Gene Expression Omnibus数据库和Stanford Microarray Database数据库, 这同为三大国际公共功能基因组数据库. 接受符合MIAME (minimum information about a microarray experiment)原则提交的数据和实验记录, 并对其进行评分[52-54]. 而肿瘤相关基因表达微阵列专业性数据库(The Cancer Genome Atlas, TCGA)[55](http://cancergenome.nil.gov/)通过将人类全部肿瘤的基因组变异图谱绘制出来, 找到所有致癌和抑癌基因的微小变异, 依此了解癌细胞发生和发展的机制, 这是目前最大的肿瘤基因信息数据库. 而国内目前建立的首个中国人脑胶质瘤基因组学专业数据库(Chinese Glioma Genome Atlas, CGGA)[56], 也属于此类数据库, 并已面向全世界肿瘤研究者公开(http://www.cgga.org.cn). 还有CanGEM, 包含多种肿瘤的微阵列数据(http://www.cangem.org/)[57], 侧重肿瘤微阵列基因拷贝数的变化及临床信息等.

4 基因表达谱数据库管理与利用

表达谱数据库最主要的特点是共建和共享, 即满足给定条件下的任何人都可以添加信息和免费使用信息. 但其中遇到数据管理的一个难题: 如粗放的管理则不利于信息的检索和质量控制, 而严格的管理又使得许多数据信息无法记录. 因此, 表达谱数据库的建立和使用面临的关键问题是如何确定适宜的标准和分类, 在数据录入时基本应符合MIAME标准, 以便共享交流, 而且以利数据的整合, 使数据库方便使用并能快速发展; 但表达谱数据库的使用还需要生物信息学的进一步支持, 数据库资料相对较少, 仍需要提高效率、扩展容量; 目前有多种软件可进行表达谱数据库内部的分析, 这类软件最大的问题是操作不便, 软件分析得到的结果及数字往往不易理解, 图表不易看懂; 微阵列网络数据种类繁多, 涉及基因表达、基因拷贝数变化、单核苷酸多态性、microRNA和表观遗传等众多研究领域; 目前仍需要研制新的基因芯片检测系统和分析软件, 根据新的需求构建基因芯片标准数据库, 对已有的数据库进行必要的梳理, 整合和形成系列化, 促进芯片数据的存储、分析交流, 以便更有效的利用和共享资源; 而微阵列网络数据的查询、下载、分析应用和基因功能等应有相应注释; 基因芯片检测的特异性及灵敏度有待提高; 样品的制作及标记操作需简化; 要不断地开发和研制更高集成化的基因芯片, 以满足临床大样本检测的需求; 根据临床需要研制新的应用芯片, 进一步减低检测成本等.

5 前景与展望

近年来, 随着分子生物学技术的迅速发展, 以高通量为特点的基因微阵列分析技术被广泛应用, 加快了对肿瘤疾病机制的研究, 特别是在肿瘤相关研究领域如肿瘤诊断与鉴别诊断、精准个体化治疗等方面研究的步伐. 微阵列技术的蓬勃发展也使得基因表达数据量不断增加, 检测的肿瘤类型增多. 为了实现国际人类基因组计划传递的数据共享精神, 研究者应将大量的基因微阵列研究数据上传至公共数据库, 让全球共享, 从而加深了对人的机体和细胞生物学功能及肿瘤等疾病本质更深刻、更全面的认知. 但决不能仅靠检测几个基因或开发几块芯片就能解决问题, 还而需要开发更新的基因芯片和更多的团队加入创新性合作研究来实现. 基因表达谱等技术也必须尽快走向临床, 作为一种常规的、快速的、准确有效的方法应用到临床实践中. 基因表达谱数据库的建立正是整体研究基因功能的一次难得的机遇. 加深了对后人类基因组计划的发展和科研思维方法的创新性思维. 目前虽然基因表达谱技术仍处于早期发展阶段, 还面临诸多挑战, 但只要不忘初心才能方得始终.

中国作为民族众多、肿瘤谱复杂的人口大国, 有着丰富的遗传信息资源, 应加以充分利用. 应建立起国家或地区性生物学信息中心, 形成多功能、多类别专业类型的基因表达数据库, 逐步实现有条件的数据共享. 并且要加快基因表达谱技术的质量控制和标准化建设, 从而使得这项在应用中能够得到健康、快速和稳定的发展. 使得更多的患者从中获益.

学科分类: 胃肠病学和肝病学

手稿来源地: 云南省

同行评议报告分类

A级 (优秀): 0

B级 (非常好): B, B, B

C级 (良好): C

D级 (一般): 0

E级 (差): 0

编辑:马亚娟 电编:张砚梁

1.  Kalia M. Biomarkers for personalized oncology: recent advances and future challenges. Metabolism. 2015;64:S16-S21.  [PubMed]  [DOI]
2.  Yn J. Ten years after the Human Genome Project: from genome biology to precision medicine. Chin J Nat. 2013;35:326-331.  [PubMed]  [DOI]
3.  Dudda-Subramanya R, Lucchese G, Kanduc D, Sinha AA. Clinical applications of DNA microarray analysis. J Exp Ther Oncol. 2003;3:297-304.  [PubMed]  [DOI]
4.  洪 朝金, 卢 丽琴, 郭 勇, 钦 志泉. 大肠癌组织与癌旁正常组织基因差异表达图谱及信号通路研究. 浙江医学. 2017;39:703-707.  [PubMed]  [DOI]
5.  Tullo A, D'Erchia AM, Sbisà E. Methods for screening tumors for p53 status and therapeutic exploitation. Expert Rev Mol Diagn. 2003;3:289-301.  [PubMed]  [DOI]
6.  Cho HJ, Baek KE, Park SM, Kim IK, Choi YL, Cho HJ, Nam IK, Hwang EM, Park JY, Han JY. RhoGDI2 expression is associated with tumor growth and malignant progression of gastric cancer. Clin Cancer Res. 2009;15:2612-2619.  [PubMed]  [DOI]
7.  Gildea JJ, Seraj MJ, Oxford G, Harding MA, Hampton GM, Moskaluk CA, Frierson HF, Conaway MR, Theodorescu D. RhoGDI2 is an invasion and metastasis suppressor gene in human cancer. Cancer Res. 2002;62:6418-6423.  [PubMed]  [DOI]
8.  孙 伟, 高 芳, 龙 启福, 王 晓龙, 朱 德锐, 顾 存林, 安 娟, 党 国全, 吴 穹. 胃癌弱差异基因表达谱建立的生物学意义. 世界华人消化杂志. 2013;21:2717-2723.  [PubMed]  [DOI]
9.  Bizama C, Benavente F, Salvatierra E, Gutiérrez-Moraga A, Espinoza JA, Fernández EA, Roa I, Mazzolini G, Sagredo EA, Gidekel M. The low-abundance transcriptome reveals novel biomarkers, specific intracellular pathways and targetable genes associated with advanced gastric cancer. Int J Cancer. 2014;134:755-764.  [PubMed]  [DOI]
10.  兰 斌, 刘 炳亚, 陈 雪华, 张 济, 王 侃侃, 朱 正纲. 胃癌细胞周期基因表达谱的变化. 中华肿瘤杂志. 2006;28:568-571.  [PubMed]  [DOI]
11.  Ganepola GA, Mazziotta RM, Weeresinghe D, Corner GA, Parish CJ, Chang DH, Tebbutt NC, Murone C, Ahmed N, Augenlicht LH. Gene expression profiling of primary and metastatic colon cancers identifies a reduced proliferative rate in metastatic tumors. Clin Exp Metastasis. 2010;27:1-9.  [PubMed]  [DOI]
12.  Ramaswamy S, Ross KN, Lander ES, Golub TR. A molecular signature of metastasis in primary solid tumors. Nat Genet. 2003;33:49-54.  [PubMed]  [DOI]
13.  齐 鲁, 丁 彦青. 基于差异表达基因探索大肠癌早期转移相关分子机制. 中国科学: 生命科学. 2013;43:579-588.  [PubMed]  [DOI]
14.  Xu SH, Qian LJ, Mou HZ, Zhu CH, Zhou XM, Liu XL, Chen Y, Bao WY. Difference of gene expression profiles between esophageal carcinoma and its pericancerous epithelium by gene chip. World J Gastroenterol. 2003;9:417-422.  [PubMed]  [DOI]
15.  崔 阳阳, 陆 建波, 王 京晔, 沈 剑, 习 杨彦彬, 王 春艳. 结肠腺癌发生发展过程中增殖能力和抗凋亡因素的变化特点. 肿瘤研究与临床. 2013;25:316-319.  [PubMed]  [DOI]
16.  Nadauld LD, Garcia S, Natsoulis G, Bell JM, Miotke L, Hopmans ES, Xu H, Pai RK, Palm C, Regan JF. Metastatic tumor evolution and organoid modeling implicate TGFBR2 as a cancer driver in diffuse gastric cancer. Genome Biol. 2014;15:428-445.  [PubMed]  [DOI]
17.  Ojetti V, Persiani R, Cananzi FC, Sensi C, Piscaglia AC, Saulnier N, Biondi A, Gasbarrini A, D'Ugo D. cDNA-microarray analysis as a new tool to predict lymph node metastasis in gastric cancer. World J Surg. 2014;38:2058-2064.  [PubMed]  [DOI]
18.  Moric-Janiszewska E, Hibner G. Microarray analysis in cardiac arrhythmias: a new perspective. Pacing Clin Electrophysiol. 2013;36:911-917.  [PubMed]  [DOI]
19.  Bartel DP. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell. 2004;116:281-297.  [PubMed]  [DOI]
20.  Lewis BP, Burge CB, Bartel DP. Conserved seed pairing, often flanked by adenosines, indicates that thousands of human genes are microRNA targets. Cell. 2005;120:15-20.  [PubMed]  [DOI]
21.  Akavia UD, Litvin O, Kim J, Sanchez-Garcia F, Kotliar D, Causton HC, Pochanard P, Mozes E, Garraway LA, Pe'er D. An integrated approach to uncover drivers of cancer. Cell. 2010;143:1005-1017.  [PubMed]  [DOI]
22.  Mine KL, Shulzhenko N, Yambartsev A, Rochman M, Sanson GF, Lando M, Varma S, Skinner J, Volfovsky N, Deng T. Gene network reconstruction reveals cell cycle and antiviral genes as major drivers of cervical cancer. Nat Commun. 2013;4:1806-1829.  [PubMed]  [DOI]
23.  Campbell PJ, Yachida S, Mudie LJ, Stephens PJ, Pleasance ED, Stebbings LA, Morsberger LA, Latimer C, McLaren S, Lin ML. The patterns and dynamics of genomic instability in metastatic pancreatic cancer. Nature. 2010;467:1109-1113.  [PubMed]  [DOI]
24.  苗 华, 曹 付傲, 赵 权权, 缪 宗原, 叶 淳, 徐 小雯, 王 汉涛. 基于系统生物学整合技术挖掘结直肠癌形成中的核心通路和驱动基因. 第二军医大学学报. 2015;36:619-626.  [PubMed]  [DOI]
25.  Watson-Haigh NS, Kadarmideen HN, Reverter A. PCIT: an R package for weighted gene co-expression networks based on partial correlation and information theory approaches. Bioinformatics. 2010;26:411-413.  [PubMed]  [DOI]
26.  Ichikawa Y, Ishikawa T, Takahashi S, Hamaguchi Y, Morita T, Nishizuka I, Yamaguchi S, Endo I, Ike H, Togo S. Identification of genes regulating colorectal carcinogenesis by using the algorithm for diagnosing malignant state method. Biochem Biophys Res Commun. 2002;296:497-506.  [PubMed]  [DOI]
27.  赫 近, 聂 萌, 杜 蓬, 陈 超. 基因芯片对胃癌和食道癌基因表达谱的对比研究. 西北大学学报. 2008;38:447-450.  [PubMed]  [DOI]
28.  Greco FA, Lennington WJ, Spigel DR, Hainsworth JD. Molecular profiling diagnosis in unknown primary cancer: accuracy and ability to complement standard pathology. J Natl Cancer Inst. 2013;105:782-790.  [PubMed]  [DOI]
29.  Hainsworth JD, Rubin MS, Spigel DR, Boccia RV, Raby S, Quinn R, Greco FA. Molecular gene expression profiling to predict the tissue of origin and direct site-specific therapy in patients with carcinoma of unknown primary site: a prospective trial of the Sarah Cannon research institute. J Clin Oncol. 2013;31:217-223.  [PubMed]  [DOI]
30.  Makuuchi R, Terashima M, Kusuhara M, Nakajima T, Serizawa M, Hatakeyama K, Ohshima K, Urakami K, Yamaguchi K. Comprehensive analysis of gene mutation and expression profiles in neuroendocrine carcinomas of the stomach. Biomed Res. 2017;38:19-27.  [PubMed]  [DOI]
31.  Cristescu R, Lee J, Nebozhyn M, Kim KM, Ting JC, Wong SS, Liu J, Yue YG, Wang J, Yu K. Molecular analysis of gastric cancer identifies subtypes associated with distinct clinical outcomes. Nat Med. 2015;21:449-456.  [PubMed]  [DOI]
32.  Cancer Genome Atlas Research Network. Comprehensive molecular characterization of gastric adenocarcinoma. Nature. 2014;513:202-209.  [PubMed]  [DOI]
33.  Samadder NJ, Vierkant RA, Tillmans LS, Wang AH, Weisenberger DJ, Laird PW, Lynch CF, Anderson KE, French AJ, Haile RW. Associations between colorectal cancer molecular markers and pathways with clinicopathologic features in older women. Gastroenterology. 2013;145:348-356.e1-2.  [PubMed]  [DOI]
34.  Sadanandam A, Lyssiotis CA, Homicsko K, Collisson EA, Gibb WJ, Wullschleger S, Ostos LC, Lannon WA, Grotzinger C, Del Rio M. A colorectal cancer classification system that associates cellular phenotype and responses to therapy. Nat Med. 2013;19:619-625.  [PubMed]  [DOI]
35.  Reardon S. Precision-medicine plan raises hopes. Nature. 2015;517:540.  [PubMed]  [DOI]
36.  Jürgensmeier JM, Eder JP, Herbst RS. New strategies in personalized medicine for solid tumors: molecular markers and clinical trial designs. Clin Cancer Res. 2014;20:4425-4435.  [PubMed]  [DOI]
37.  Hait WN. Forty years of translational cancer research. Cancer Discov. 2011;1:383-390.  [PubMed]  [DOI]
38.  Slattery ML, Pellatt DF, Mullany LE, Wolff RK, Herrick JS. Gene expression in colon cancer: A focus on tumor site and molecular phenotype. Genes Chromosomes Cancer. 2015;54:527-541.  [PubMed]  [DOI]
39.  Zhong S, Wu B, Dong X, Han Y, Jiang S, Zhang Y, Bai Y, Luo SX, Chen Y, Zhang H. Identification of Driver Genes and Key Pathways of Glioblastoma Shows JNJ-7706621 as a Novel Antiglioblastoma Drug. World Neurosurg. 2018;109:e329-e342.  [PubMed]  [DOI]
40.  Park JS, Young Yoon S, Kim JM, Yeom YI, Kim YS, Kim NS. Identification of novel genes associated with the response to 5-FU treatment in gastric cancer cell lines using a cDNA microarray. Cancer Lett. 2004;214:19-33.  [PubMed]  [DOI]
41.  Wu HJ, Chen S, Yu J, Li Y, Zhang XY, Yang L, Zhang HF, Hou Q, Jiang MF, Brunicardi FC. Single-cell Transcriptome Analyses Reveal Molecular Signals to Intrinsic and Acquired Paclitaxel Resistance in Esophageal Squamous Cancer Cells. Cancer Lett. 2018;420:156-167.  [PubMed]  [DOI]
42.  李 鑫, 王 加强, 周 琪. 体细胞重编程研究进展. 中国科学: 生命科学. 2016;46:4-15.  [PubMed]  [DOI]
43.  Choi DW. Bench to bedside: the glutamate connection. Science. 1992;258:241-243.  [PubMed]  [DOI]
44.  Zerhouni E. Medicine. The NIH Roadmap. Science. 2003;302:63-72.  [PubMed]  [DOI]
45.  Shi L, Campbell G, Jones WD, Campagne F, Wen Z, Walker SJ, Su Z, Chu TM, Goodsaid FM, Pusztai L. The MicroArray Quality Control (MAQC)-II study of common practices for the development and validation of microarray-based predictive models. Nat Biotechnol. 2010;28:827-838.  [PubMed]  [DOI]
46.  Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet. 2000;25:25-29.  [PubMed]  [DOI]
47.  Kanehisa M, Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 2000;28:27-30.  [PubMed]  [DOI]
48.  Companioni O, Sanz-Anquela JM, Pardo ML, Puigdecanet E, Nonell L, García N, Parra Blanco V, López C, Andreu V, Cuatrecasas M. Gene expression study and pathway analysis of histological subtypes of intestinal metaplasia that progress to gastric cancer. PLoS One. 2017;12:1-18 e0176043.  [PubMed]  [DOI]
49.  吴 斌, 沈 自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志. 2006;14:68-74.  [PubMed]  [DOI]
50.  Doniger SW, Salomonis N, Dahlquist KD, Vranizan K, Lawlor SC, Conklin BR. MAPPFinder: using Gene Ontology and GenMAPP to create a global gene-expression profile from microarray data. Genome Biol. 2003;4:R7.  [PubMed]  [DOI]
51.  Rustici G, Kolesnikov N, Brandizi M, Burdett T, Dylag M, Emam I, Farne A, Hastings E, Ison J, Keays M. ArrayExpress update--trends in database growth and links to data analysis tools. Nucleic Acids Res. 2013;41:D987-D990.  [PubMed]  [DOI]
52.  Parkinson H, Kapushesky M, Shojatalab M, Abeygunawardena N, Coulson R, Farne A, Holloway E, Kolesnykov N, Lilja P, Lukk M. ArrayExpress--a public database of microarray experiments and gene expression profiles. Nucleic Acids Res. 2007;35:D747-D750.  [PubMed]  [DOI]
53.  Parkinson H, Kapushesky M, Kolesnikov N, Rustici G, Shojatalab M, Abeygunawardena N, Berube H, Dylag M, Emam I, Farne A. ArrayExpress update--from an archive of functional genomics experiments to the atlas of gene expression. Nucleic Acids Res. 2009;37:D868-D872.  [PubMed]  [DOI]
54.  Petryszak R, Keays M, Tang YA, Fonseca NA, Barrera E, Burdett T, Füllgrabe A, Fuentes AM, Jupp S, Koskinen S. Expression Atlas update--an integrated database of gene and protein expression in humans, animals and plants. Nucleic Acids Res. 2016;44:D746-D752.  [PubMed]  [DOI]
55.  Giordano TJ. The cancer genome atlas research network: a sight to behold. Endocr Pathol. 2014;25:362-365.  [PubMed]  [DOI]
56.  江 涛, 王 任直. 基于基因组学数据库的脑胶质瘤分子分析. 中华医学杂志. 2013;93:3-4.  [PubMed]  [DOI]
57.  Scheinin I, Myllykangas S, Borze I, Böhling T, Knuutila S, Saharinen J. CanGEM: mining gene copy number changes in cancer. Nucleic Acids Res. 2008;36:D830-D835.  [PubMed]  [DOI]