应用CGH数据和树模型探索癌症的发病机理
- 格式:pdf
- 大小:275.46 KB
- 文档页数:6
应用FISH技术鉴定肿瘤CGH微阵列BAC克隆赵佳;朱玉琢;高久春;庞慧民;稻泽让治【期刊名称】《吉林大学学报(医学版)》【年(卷),期】2006(032)004【摘要】目的:鉴定用于肿瘤比较基因组杂交(CGH)微阵列细菌人工染色体(BAC)克隆的质量.方法:常规法制备健康自愿者外周血染色体标本;BAC(获自RPCI-11文库和CTC文库)定位信息参考UCSC和 NCBI资源数据库编辑;探针用切口平移法分别标记上生物素-16-dUTP或地高辛-11-dUTP;各BAC克隆的精确定位在正常人中期分裂相,应用荧光原位杂交(FISH)技术进行确认.选择在肿瘤发生、发展过程中有意义的223种BAC克隆,分析它们在染色体相应区域的拷贝数和分子构成.结果:FISH分析表明:正常BAC克隆占81.62%(186/223),出现额外FISH杂交信号的BAC克隆占13.45%(30/223),定位信息错误的BAC克隆占3.58%(8/223),BAC克隆大肠菌扩增失败占1.35%(3/223).结论:BAC克隆作为探针点样制备CGH微阵列时,FISH法鉴定是必要的.【总页数】3页(P629-631)【作者】赵佳;朱玉琢;高久春;庞慧民;稻泽让治【作者单位】吉林大学基础医学院医学遗传学教研室,吉林,长春,130021;吉林大学基础医学院医学遗传学教研室,吉林,长春,130021;吉林大学基础医学院细胞生物学教研室,吉林,长春,130021;吉林大学基础医学院医学遗传学教研室,吉林,长春,130021;东京医科齿科大学难治疾患研究所分子细胞遗传,日本,东京,113-0034【正文语种】中文【中图分类】R73【相关文献】1.利用cDNA微阵列-CGH筛选支气管上皮细胞恶性转化中的扩增基因 [J], 茹莉莉;张开泰;吴德昌2.利用生物信息数据库筛选乳腺癌CGH微阵列BAC克隆 [J], 赵佳;郭华;郭飞马3.半滑舌鳎含sox9基因BAC克隆的筛选及BAC-FISH定位 [J], 孙建;陈松林;谢明树;邵长伟4.微阵列比较基因组杂交技术(Array-CGH)在产前诊断中的应用 [J], 廖灿5.安捷伦科技庆祝CGH微阵列芯片创新技术推出10周年 [J], 刘晶晶因版权原因,仅展示原文概要,查看原文内容请购买。
生物大数据技术在肿瘤病理分析中的应用介绍随着科学技术和信息时代的发展,生物大数据技术在医学领域的应用越来越广泛。
其中,肿瘤病理分析是生物大数据技术在医学领域中的一个重要应用方向。
通过对肿瘤组织样本进行高通量、高精度、多层次的分析,可以帮助医生更好地理解肿瘤的发生机制、预测患者的预后和选择最佳的治疗方案。
生物大数据技术在肿瘤病理分析中的应用主要包括以下几个方面:1. 基因组学分析:通过对肿瘤组织样本中的基因组进行全面的测序,并结合生物信息学方法对基因的突变、拷贝数变异、结构变异等进行分析,可以帮助医生找出与肿瘤发生和发展相关的关键基因。
同时,基因组学分析还可以预测患者的预后和响应特定治疗的潜力。
2. 转录组学分析:通过对肿瘤组织样本中mRNA的高通量测序,可以获取肿瘤细胞中主要转录本的信息,并帮助研究人员了解肿瘤细胞的表达特点和调控机制。
转录组学分析还可以识别出与肿瘤具体类型相关的特定基因表达模式,从而为肿瘤的诊断和治疗提供重要参考。
3. 蛋白质组学分析:通过质谱等技术对肿瘤组织样本中蛋白质的表达进行全面分析,可以识别出与肿瘤相关的蛋白质标志物。
蛋白质组学分析还可以揭示肿瘤细胞中蛋白质的修饰和亚细胞定位信息,有助于深入研究肿瘤细胞的功能和代谢特点。
4. 细胞组学分析:通过对肿瘤组织样本进行单细胞水平的高通量分析,可以研究特定类型的肿瘤细胞亚群的特征和功能,以及不同亚群之间的相互作用。
细胞组学分析还可以帮助寻找特定亚群的抗原表达和免疫逃逸机制,指导个体化的免疫治疗。
5. 数据整合与挖掘:生物大数据技术为肿瘤病理分析提供了大量的数据,如何对这些数据进行整合和挖掘,是肿瘤研究中的一个挑战。
通过整合不同类型的数据,如基因组学、转录组学、蛋白质组学和临床数据,可以深入探索肿瘤的复杂性。
同时,应用机器学习和人工智能等方法对数据进行分析,可以发现新的特征和模式,为肿瘤的识别和治疗提供更准确的预测。
总之,生物大数据技术在肿瘤病理分析中的应用可以帮助医生更全面、准确地了解肿瘤的特征和功能,为精准医疗提供重要支持。
癌固有免疫细胞数学模型癌症是一种严重的疾病,固有免疫细胞在体内对抗癌细胞起着至关重要的作用。
为了更好地理解和研究这一过程,数学模型在研究固有免疫细胞与癌症之间的相互作用中发挥着重要作用。
下面将从不同角度对癌症、固有免疫细胞以及数学模型的关系进行详细分析。
1.癌症是指由体内细胞发生恶变,失去正常生长调控机制而形成的恶性肿瘤疾病。
2.癌细胞具有无限增殖的能力,可以不受体内免疫系统的干扰而生长和扩散。
3.固有免疫细胞是机体内最早出现的免疫细胞,主要包括巨噬细胞、自然杀伤细胞和树突状细胞等。
4.固有免疫细胞通过吞噬、杀伤和识别异常细胞来保护机体免受病原体和肿瘤细胞的侵害。
5.在癌症的发展过程中,固有免疫细胞扮演着重要的抗癌角色。
6.数学模型可以帮助科学家们更好地理解固有免疫细胞对癌症的作用机制。
7.数学模型可以通过建立数学方程和计算模拟来模拟固有免疫细胞在体内的活动状态。
8.数学模型可以通过定量分析不同因素对固有免疫细胞活性的影响,进而指导临床实践和治疗方案的制定。
9.数学模型可以帮助预测固有免疫细胞的应答速度和效果,为个性化治疗提供参考。
10.数学模型可以帮助科学家们优化固有免疫细胞免疫疗法的设计和实施过程。
11.数学模型可以通过系统性建模和仿真,探索固有免疫细胞与癌症之间的相互作用机制。
12.数学模型可以帮助科学家们预测不同治疗方法对固有免疫细胞活性的影响,并选择最佳治疗方案。
13.癌症的发展过程中,固有免疫细胞会受到多种因素的调控,包括免疫抑制因子和炎症介质等。
14.数学模型可以帮助科学家们定量分析不同因素对固有免疫细胞功能的影响,并提出相应的调控策略。
15.数学模型可以帮助科学家们预测固有免疫细胞在不同病理状态下的活性水平,为临床诊断和治疗提供依据。
16.数学模型可以帮助科学家们优化固有免疫细胞激活和增强的方法,提高其在抗癌过程中的效果。
17.固有免疫细胞在体内的活动状态受到多种因素的影响,包括癌症类型、肿瘤大小和部位等。
生物数据挖掘技术在癌症预测中的应用研究随着生物学研究的发展,生物数据挖掘技术逐渐成为了癌症预测的重要工具。
生物数据挖掘技术通过对大量生物数据的分析和运用,可以发现潜在的癌症标记物、预测个体癌症风险以及指导癌症治疗方案的选择等。
本文将探讨生物数据挖掘技术在癌症预测中的应用研究。
首先,生物数据挖掘技术可以帮助鉴定潜在的癌症标记物。
癌症标记物是指能够指示癌症发生、进展或治疗效果的生物分子,如蛋白质、基因和代谢产物等。
通过对大量的癌症患者和正常人群的基因表达数据进行分析,可以发现在癌症患者中特异性高表达或低表达的基因,这些基因可能成为潜在的癌症标记物。
例如,通过对乳腺癌患者和正常人群的基因表达数据进行分析,研究人员发现一些基因的表达与乳腺癌患者的生存期密切相关,这些基因可能作为乳腺癌的预测标记物。
其次,生物数据挖掘技术可以预测个体的癌症风险。
癌症的发生与个体的遗传背景和环境因素有关,因此预测个体癌症风险对于早期发现和预防癌症具有重要意义。
生物数据挖掘技术通过对个体的基因组数据、代谢组数据和环境因素数据进行综合分析,可以构建个体癌症风险预测模型。
例如,在乳腺癌预测中,研究人员通过对基因组数据和环境因素数据的分析,构建了一个能够准确预测个体乳腺癌风险的预测模型。
通过这种个体化的癌症风险预测,可以实现早期干预和个体化的癌症预防,提高预防和治疗的效果。
最后,生物数据挖掘技术可以指导癌症治疗方案的选择。
癌症患者个体差异较大,对相同的治疗方案可能会有不同的治疗效果。
通过对大量癌症患者的基因组数据、表观基因组数据和临床特征数据进行分析,可以发现不同患者的分子特征和治疗反应之间的关联。
这些关联信息可以用于设计个体化的治疗方案。
例如,在癌症耐药性的研究中,研究人员通过对耐药患者和敏感患者的基因组数据进行分析,发现一些关键基因与耐药性的发生密切相关。
通过这些基因标记物,可以预测患者对一些药物的耐药性,并根据个体的分子特征制定个体化的治疗方案,提高治疗效果。
医疗大数据挖掘技术在癌症诊断中的应用研究引言:癌症是当今世界上最严重的健康问题之一,据世界卫生组织统计,每年有数百万人因癌症而死亡。
诊断癌症是治疗和管理的关键一步。
然而,由于癌症本身高度复杂且异质性,传统的诊断方法面临着许多挑战。
随着医疗大数据的快速发展,利用大数据挖掘技术在癌症诊断中的应用已经引起了广泛关注。
1. 癌症诊断中的挑战:癌症是一组疾病的总称,其病因和发展机制极其复杂。
传统的癌症诊断依赖于医生的经验和少量有限的医疗数据,诊断结果容易受主观因素的干扰。
此外,不同癌症类型的特征和变异性使得早期诊断和个性化治疗变得复杂。
传统诊断方法的准确性和效率存在一定局限性。
2. 医疗大数据的崛起:近年来,随着电子健康记录(Electronic Health Records, EHRs)和生物医学成像(Biomedical Imaging)技术的广泛应用,医疗大数据的生成和积累呈指数级增长。
医疗大数据包括患者的临床指标、基因组学数据、生物标志物、影像数据等多种信息。
这些数据提供了大量的患者信息,在指导癌症的早期诊断和治疗中具有重要的价值。
3. 大数据挖掘技术在癌症诊断中的应用:医疗大数据挖掘技术通过对大数据的分析和挖掘,可以从庞大的数据集中提取出有意义的知识和模式。
在癌症诊断中,大数据挖掘技术可应用于以下几个方面:3.1. 疾病风险评估:根据大规模的个体数据,可以建立癌症风险评估模型,帮助医生判断患者是否患有癌症,并评估其发病概率。
这可以帮助医生更早地发现癌症,并采取相应的预防措施。
3.2. 早期癌症诊断:大数据挖掘技术可以分析大量的生物标志物和基因组学数据,识别患者早期癌症的特征模式。
通过建立模型,可以帮助医生在早期阶段诊断癌症,从而提高治疗的成功率。
3.3. 个性化治疗:医疗大数据挖掘技术可以分析患者的临床数据和基因组学数据,预测患者对某种特定治疗方法的反应。
这有助于医生为患者量身定制个性化的治疗方案,提高治疗效果和生存率。
多组学技术在癌症研究中的应用概述癌症是一种严重威胁人类健康的疾病,在世界范围内造成了巨大的负担。
随着科技的进步,多组学技术逐渐引起了人们对于癌症的关注。
多组学技术是利用高通量测序等手段同时检测基因组、转录组、蛋白质组和代谢物组等不同层次的数据,并利用生物信息学分析方法对这些数据进行综合分析。
本文将介绍多组学技术在癌症研究中的应用,包括基因表达谱分析、蛋白质标志物发现和代谢组学分析。
基因表达谱分析基因表达谱分析是多组学技术在癌症研究中最常见的应用之一。
通过测定肿瘤细胞与正常细胞之间的基因表达差异,我们可以找到与肿瘤发生发展相关的关键基因。
例如,以肺癌为例,采用RNA测序技术可以获得全转录组水平上几千个基因的表达数据。
通过与正常肺组织进行比较分析,我们可以找到与肺癌发生发展密切相关的基因。
蛋白质标志物发现蛋白质是细胞内多种功能活动的执行者,也是许多药物靶点的组成部分。
通过利用质谱等技术对肿瘤组织和正常组织中蛋白质表达差异进行分析,可以发现与癌症相关的蛋白质标志物。
这些标志物不仅能够帮助早期诊断和疾病预后评估,还有助于指导个性化治疗方案的制定。
例如,乳腺癌患者中HER2阳性表达与HER2阴性表达是治疗策略选择的重要依据之一。
代谢组学分析代谢组学是多组学技术在癌症研究中较为新颖的应用领域。
它主要关注肿瘤细胞内代谢产物的变化,并通过分析这些变化,找到与肿瘤特征相关的代谢通路和标志物。
代谢通路异常活跃可能会促进肿瘤生长和转移,并且代谢物组分也可以作为潜在的治疗靶点。
例如,近年来研究发现某些癌症细胞喜欢代谢葡萄糖,并通过改变细胞核酸和脂质合成来支持肿瘤生长。
这一发现为针对代谢通路的抗癌治疗提供了新的思路。
多组学技术的挑战与前景虽然多组学技术在癌症研究中具有巨大的潜力,但也面临着一些挑战。
首先是数据分析和解读的困难。
多组学技术产生的数据量庞大、复杂,需要借助先进的生物信息学方法进行分析,以找到与癌症特征相关的信息。
数学模型在癌症研究中的应用癌症是一种严重威胁人类健康的疾病,对于其治疗和预防一直是医学领域的重要课题。
近年来,数学模型在癌症研究中得到了广泛的应用和重视。
本文将探讨数学模型在癌症研究中的具体应用,以及这些模型对癌症治疗和预防策略的指导意义。
1. 癌症细胞增殖模型癌症的特征之一是细胞的异常增殖和扩散。
数学模型可以帮助研究人员理解癌细胞增殖的动力学过程,并根据这些模型进行预测和研究。
其中,最常用的数学模型之一是Gompertz增长模型。
该模型基于对癌症细胞生长速率和大量细胞凋亡的观察,可以描述癌症的生长速率相对于时间的变化。
通过这种模型,研究人员可以预测癌症细胞的扩散速度,为癌症患者的治疗和预后提供指导。
2. 癌症治疗策略优化数学模型在癌症治疗策略的优化中也发挥着重要作用。
通过建立数学模型,研究人员可以模拟不同治疗方案对肿瘤生长的影响,并选择最佳的治疗方法。
例如,药物输送模型可以帮助研究人员预测药物在人体内的输送速度和浓度分布,从而确定最佳的给药方案。
此外,数学模型还可以用于预测放射治疗对肿瘤的破坏程度和对正常组织的损伤程度,以帮助医生制定个性化的治疗方案。
3. 癌症预后预测预测癌症患者的预后是临床治疗中的一个重要任务。
数学模型可以根据患者的临床特征、基因表达和遗传变异等信息,来评估患者的预后。
其中,最常使用的模型是生存分析模型,如Kaplan-Meier生存分析和Cox比例风险模型。
这些模型可以用于估计患者的生存率和预测治疗效果,以指导患者的治疗方案选择。
4. 新药研发和药物抗性预测通过数学模型,研究人员可以预测新药物对癌症细胞的抑制效果,并评估其在临床治疗中的潜在应用。
此外,数学模型还可以帮助预测药物抗性的发展和演化规律。
对于现有的药物抵抗性问题,数学模型可以提供一种推测和评估新治疗方案的方法,以寻找新的药物组合和调整用药方案。
总结起来,数学模型在癌症研究中的应用不仅可以帮助研究人员更好地理解癌症的发生和发展机制,还可以指导癌症治疗和预后预测。
用数学模型研究癌细胞的扩散与生长癌症是当今社会面临的重大挑战之一。
在全球范围内,数以百万计的人因癌症而失去生命。
因此,对癌症的研究和治疗已经成为当今医学界的焦点之一。
数学模型是一种有效的工具,可用于研究癌细胞的扩散和生长。
数学模型是指将疾病的生理学、分子学、细胞学等方面的知识用数学语言描述,并用数学方程表达在其生命周期内进行的关键事件的过程。
这些数学方程可以用来预测疾病的进程、模拟疾病的演化、评估疾病的治疗效果等。
癌症是一种由不受控制的细胞增殖和无序生长引起的疾病。
这些异常细胞可以通过血液或其他途径传播到身体的其他部位,形成远处转移瘤。
癌症的早期发现和治疗是预防和治疗这种疾病的重要措施之一。
然而,癌细胞的扩散和生长过程非常复杂,包括细胞迁移、细胞增殖、基质侵袭等多个因素。
因此,构建一个可靠的数学模型来描述这些生理过程非常关键。
近年来,许多研究人员已经成功地建立了用于研究癌症扩散和生长的数学模型。
一个经典的癌症数学模型是扩散-反应-生长(DRG)模型。
该模型将肿瘤的生长和传播过程分为三个主要方面:细胞扩散、生长和代谢(反应)。
此外,目前还有一些其他的模型如连续时间莫尔-格道模型、孪生-性状扩散模型等,这些模型使用不同的算法和假设,以更准确地描述癌细胞的生长和扩散。
数学模型可以使用大量的实验数据来验证它的可靠性和准确性。
这些实验室数据包括肿瘤和生物学上的成像分析、细胞培养、活体成像等。
通过实验数据的配合,数学模型可以更加精确地预测疾病的进展和治疗效果,这对疾病的治疗和诊断具有重要作用。
基于数学模型的研究已经取得了许多重要的成果。
研究人员可以使用数学模型来研究癌细胞的扩散、转移和生长,以推测患者的预后和治疗结果。
此外,数学模型还可以帮助科学家发现新的治疗方法和药物,以及改进现有的治疗方法。
总之,数学模型是一种有效的工具,可用于研究癌细胞的扩散和生长。
通过对癌症的生理、分子和细胞学的深入了解,构建可靠的数学模型可以帮助科学家更好地理解疾病的发展和治疗过程,为找到有效的治疗方法提供更有力的支持。
基于多组学数据整合的癌症生物标志物研究癌症是一种严重危害人类健康的疾病,它可以在人体内的各个器官和组织中发生,导致细胞增生失控,同时还会侵犯周围结构和器官系统,导致功能障碍。
癌症发生的原因非常复杂,其中既包括基因突变等遗传因素,也包括生活方式、环境污染、营养不良等非遗传因素的影响。
因此,针对癌症的研究应该是一项多学科、多领域的工作,需要结合生物学、化学、物理等一系列学科的研究成果。
癌症生物标志物是指在癌症发生、发展过程中在人体内出现的一些生物分子,例如基因、蛋白质等,它们可以被用来预测癌症的风险、诊断癌症的类型、判断癌症疗效、以及进行个体化的治疗方案设计等。
目前,随着生物技术、计算技术的飞速发展,越来越多的癌症生物标志物被发现和应用于临床实践中。
多组学是指从分子层面出发,通过多种手段,例如基因组学、转录组学、蛋白质组学、代谢组学等,对具有相同或不同目的的分子特征进行综合分析的一种学科。
利用多组学技术,可以从不同维度对生物系统进行全面的描述和解析,探究分子之间的相互作用关系,推断出生物体内的关键分子和信号通路,并从中发现癌症生物标志物。
在基于多组学数据的癌症生物标志物研究中,需要经历如下步骤:首先,通过获取患者的组织样本或者体液,对样本进行高通量测序、蛋白质组学、代谢组学等技术的分析,得到海量数据;然后通过生物信息学手段,对这些数据进行清洗、规范化、标准化等操作,确保数据的精确性和可比性;接着,运用机器学习、网络分析等方法,对数据进行模型构建和分析,挖掘出与癌症相关的分子标志物;最后,通过实验验证和临床试验,确定这些标志物在癌症预测、诊断和治疗中的应用效果。
以代谢组学为例,代谢组学是研究生物体内代谢物的组成和变化的学科。
代谢产物可以反映生物体内代谢的情况,因此被广泛应用于癌症生物标志物的研究中。
通过代谢组学技术,可以同时分析数千种代谢产物的变化情况,进而发现与癌症相关的代谢路径和代谢标志物。
例如,一项代谢组学的研究发现,乳腺癌患者血液中的天冬氨酸和丙氨酸水平显著升高,同时丙酮酸水平降低,这些代谢产物的变化与乳腺肿瘤的恶性程度和预后密切相关。
利用生物信息学研究癌症的成因生物信息学(bioinformatics)是生物学和计算机科学的交叉学科,致力于生物学数据的获取、存储、管理、分析和应用。
随着生物学和医学的发展,生物信息学在癌症研究领域的应用越来越广泛。
癌症是一类复杂的疾病,在病因学、发病机制、诊断和治疗等方面都具有挑战性,而生物信息学能够帮助科学家们更深入地了解癌症的成因。
一、生物信息学在癌症研究中的应用生物信息学的应用有很多方向,其中在癌症研究中主要包括以下几个方面:1. 基因测序和全基因组测序基因是指遗传信息的基本单位,而基因测序则是指对DNA序列进行测定以了解它含有哪些基因和碱基对。
而全基因组测序则是指测定某个生物体的全部基因组DNA序列。
通过这些测序技术,科学家可以了解癌症中可能存在的突变和后代基因,进而进行更加深入的癌症生物学研究。
2. 基因表达分析基因表达是指基因转录和翻译成蛋白质的过程,而基因表达数据则是指对基因表达水平的测量。
基因表达数据可以帮助科学家了解某个生物体在某些条件下基因表达的变化情况。
与正常人体细胞的测量对比,癌症细胞的基因表达会出现一些不同,这些差异具有重要的生物学意义。
3. 代谢组学代谢组学是指针对一个生物体的代谢产物(代谢物)所进行的全面分析。
代谢物可以是小分子有机物、离子和代谢通路中的中间体等。
与基因表达数据不同,代谢组学可以实际反映生物体的功能状态,因此它能够全面反映癌症发生和进展过程中的代谢变化,为基于代谢物治疗的癌症治疗提供新的思路。
二、利用生物信息学测序技术分析癌症的成因癌症是人类面临的最严重的健康问题之一。
经过多年的临床实践和基础研究,我们已经了解了很多有关癌症发生和发展的信息。
然而,要全面理解癌症的成因是非常困难的,尤其是对于那些将来可能得癌症的人。
生物信息学的测序技术可以帮助科学家们发现癌症发生和进展的重要遗传突变,这些突变可能为癌症的预防和治疗提供新的思路。
1. 基因突变癌症的发生和发展通常会伴随着多种基因的突变。
HEREDITAS (Beijing) 2008年4月, 30(4): 407―412 ISSN 0253-9772 综 述收稿日期: 2007−09−17; 修回日期: 2008−01−20作者简介: 国家自然科学基金项目(编号: 30371605)资助[Supported by the National Natural Science Foundation of China (No. 30371605)] 作者简介: 李小波(1969−), 男, 浙江人, 博士研究生, 讲师, 专业方向:医学生物信息学。
Tel: 0571- 88208208; E-mail: oboaixil@ 通讯作者: 来茂德(1960−), 男, 浙江人, 博士, 教授, 研究方向:肿瘤病理学。
Tel: 0571- 88208208; E-mail: lmd@DOI: 10.3724/SP.J.1005.2008.00407应用CGH 数据和树模型探索癌症的发病机理李小波1,2, 陈俭1, 吕炳建1, 来茂德11. 浙江大学医学院病理学与病理生理学系, 杭州 310058;2. 浙江教育学院信息学院, 杭州 310012摘要: 比较基因组杂交技术(comparative genomic hybridization, CGH)主要用于检测肿瘤的染色体缺失和扩增, 迄今已积累了大量的实验数据, 为全基因组分析肿瘤的发生机制提供了可能。
树模型在生物信息学领域通常被用于研究生物形成和进化的历史, 物种之间的进化关系常以系统发生树来表示。
树模型同样可以作为一种有力的生物信息学工具来分析CGH 数据, 探索癌症的发病机理。
文中介绍了两种常见的树模型——分支树和距离树,详细叙述了重建树模型的基本原理和方法, 分析了创建树模型时要注意的几个技术问题, 并对其在肿瘤研究中的应用进行了回顾和总结。
肿瘤的树状模型作为单路径线性模型的泛化, 克服了以往单路径线性模型的缺点, 理论上能更加精确地概括到肿瘤的多基因、多路径、多阶段的发生发展模式, 从不同角度探讨肿瘤发生发展的分子机制。
该模型除可用于分析肿瘤的CGH 数据外, 还可用于分析其他多种类型的数据, 包括微阵列CGH(array-CGH)技术等产生的高分辨率数据。
关键词: 癌症发病机理; 比较基因组杂交(CGH); 树模型; 分支树; 距离树Exploration of carcinogenesis based on tree models using CGH dataLI Xiao-Bo 1,2, CHEN Jian 1, LV Bing-Jian 1, LAI Mao-De 11. Department of Pathology & Pathophysiology , School of Medicine , Zhejiang University , Hangzhou 310058, China ;2. School of Informatics , Zhejiang Education Institute , Hangzhou 310012, ChinaAbstract: Comparative genomic hybridization (CGH) can detect chromosomal deletions and amplifications of tumors, and various laboratories and public databases have accumulated a large number of CGH data, providing the opportunity to ana-lyze the molecular mechanism of tumorigenesis in the whole genome. Tree models are generally used to study the history of biological formation and evolution in the field of bioinformatics, and evolutionary relationships between species are usually represented using phylogenetic tree. Tree models are also powerful bioinformatics tools to analyze CGH data and explore carcinogenesis. Two common tree models, the branching tree and the distanced-based tree, as well as their basic principles, methods are introduced detailedly, several technical problems in construction of tree models are discussed, and their appli-cations in cancer research are reviewed systematically in this paper. As a generalization of single path linear model, tree models can more accurately conclude multigene, multistep, multipathway process of tumorigenesis, exploring the molecular mechanism of tumorigenesis from different angels. Apart from CGH data, tree models can be used to analyze various types408 HEREDITAS(Beijing) 2008第30卷of data, including high-resolution data (e.g., array-CGH data).Keywords: carcinogenesis;comparative genomic hybridization;tree model;branching tree; distance-based tree近几十年来, 分子生物学的研究表明, 肿瘤的形成和发展是基因改变的结果, 并且这些基因改变往往不只是单个基因, 而是不断累积的多基因改变。
在已提出的肿瘤发生模型中, 以Vogelstein等[1]提出的单路径线性模型最为大家所接受, 然而该模型仍然存在着相当大的缺陷。
实际上, 结直肠癌的发生发展除Vogelstein模型之外, 还有其他多条通路, 由于肿瘤的遗传异质性, 其他类型的肿瘤也存在类似的情况。
比较基因组杂交技术[2](comparative genomic hybridization , CGH)能够一次测出整个染色体组所有染色体片段的缺失和扩增, 不仅快捷, 而且劳动强度低, 因此, 作为研究工具得到了广泛应用。
CGH 技术建立的10余年间, 各实验室和公共数据库已积累了大量的CGH数据[3], 如何对这些数据进行有效的分析, 并用以解释肿瘤的发生机制, 已成为一个亟待解决的问题。
然而, 在以往的研究中, 分析CGH 数据往往只是判定某个染色体区带的改变是否为非随机事件, 并不能揭示这些重要事件之间的关联。
鉴于单路径线性模型的缺陷, Desper等[4,5]设计了树模型软件oncotrees (http: //www.ncbi.nlm.nih. gov/CBBresearch/Schaffer/), 试图通过分析大量的CGH数据重建树模型来阐明肿瘤发生发展的分子机制。
作为单路径线性模型的泛化, 树状模型能更加精确地概括到肿瘤的多基因、多路径、多阶段的发生发展模式[6]。
1原理和方法1.1CGH原理CGH是由荧光原位杂交(florescence in situ hy-bridization, FISH)技术衍生出来, 它采用了不同颜色的荧光标记方法标记样本DNA和参照DNA, 然后, 这两种标记DNA的混合物与有丝分裂中期的细胞染色体进行竞争性杂交。
若样本染色体某一片段存在缺失, 则参照DNA优先与中期染色体杂交;若样本染色体某一片段存在扩增,则样本DNA优先与中期染色体杂交; 若样本染色体是平衡的, 即不存在缺失和扩增, 样本DNA和参照DNA等量与中期染色体杂交。
杂交形成的图像再经计算机软件处理, 通过定量精确分析染色体上的荧光分布, 就可以从全基因组范围内观察有丝分裂中期细胞的大片段DNA拷贝数的不平衡, 即DNA拷贝数的增多或减少。
1.2树模型CGH的实验结果是一系列反映全基因组DNA 拷贝数差异(copy number aberrations, CNAs)的数据集, 每一个肿瘤组织产生一条数据记录。
该数据集可被用来重建树模型。
可以证明, 只要样本量足够大, 重建的树模型可以描述该数据集中CNAs的真实分布情况。
常见的树模型有分支树和距离树两种。
1.2.1 树模型的重建问题假设树模型T=(V, E, r, p, L)是有根树, V表示树中各节点的集合, E是成对事件的集合, r表示根节点(该节点不属于L, 代表细胞的正常状态), 边e∈E, p(e)是该边的概率, 重要事件集合L是节点的独立非空集合, L V。
树模型T在空间2L产生一个概率分布p T。
树模型重建可以表述为:⊆输入:・重要事件集合L・个样本, 在空间2L有概率分布pk输出:・树模型T =(V, E, r, p, L), 使得p T最接近真实的概率分布p。
1.2.2 分支树模型[4]在分支树模型中, 树中的所有节点都必须属于集合L。
从事件i到事件j的有向边的权重函数可以定义为w ij=log(p ij)−log(p i+p j)−log(p j)假设包括根节点在内共有n个事件, 那么共有n*(n−1)个可能的有向边, 但最终的树模型只有n−1个边, 重建的树模型将使得该树的所有有向边的权值之和为最大, 该树称为最大分支树。
分支树模型以一个节点为根, 而其他节点代表各个重要事件, 在同一分支上, 边i>j表示一个假定的因果关系, 即事件i的发生使得事件j的发生变第4期李小波等: 应用CGH数据和树模型探索癌症的发病机理 409得更为可能。