TCGA数据库临床资料官方大全
- 格式:docx
- 大小:57.27 KB
- 文档页数:4
TCGA标准是指通过大规模基因测序和生物信息学分析,对癌症样本进行全面的基因组、转录组、蛋白质组等多层次分析,以揭示癌症发生、发展的分子机制和潜在治疗靶点。
TCGA标准在癌症研究领域具有重要地位,为癌症的诊断、治疗和预后评估提供了重要的科学依据。
TCGA标准包括多个方面的内容,如样本采集和处理、测序数据分析、基因变异注释、分子亚型分类等。
通过遵循TCGA标准,可以获得更加准确、全面的癌症分子特征信息,为癌症研究和治疗提供有力支持。
TCGA Data Primer TCGA数据入门Added by Anna Chu, last edited by Jillaine Hadfield on Oct 27 2011 翻译:任重鲁TCGA数据入门提供了对TCGA和数据的高水平描述,这些数据同样提供给研究团体。
这个入门介绍了TCGA数据,数据流程以及数据应用。
数据入门一共包括以下几个部分:1. TCGA简介;2. TCGA数据概述;3. TCGA数据档案;4. 数据访问;5. 处理TCGA数据。
第一、TCGA数据简介本章节提供对于TCGA及其产生的数据的高水平描述,分为以下四个部分:1. TCGA概观;2. 隐私策略;3. TCGA数据流程;4. TCGA主要标示符。
1.TCGA概观The Cancer Genome Atlas(TCGA)癌症基因组图谱是企图全面的并列的去努力地加速理解癌症的分子基础,它通过利用包括大规模基因组测序的基因组分析技术来实现。
TCGA的总体目标是提高我们对癌症的诊断、治疗和预防的能力。
为了以科学严谨的方式达到这个目标,美国国立癌症研究所(National Cancer Institute NCI)和美国国立人类基因组研究所(National Human Genome Research Institute NHGRI)用分阶段的策略来启动TCGA。
试点项目开发并测试了系统地探究人类20多种癌症中全基因组图谱的改变所需的研究框架。
查看TCGA来获得关于这个项目更多的信息。
2.隐私策略TCGA项目在从人类癌症参与者中收集的样本里生产出大量的基因组信息。
项目同样收集了这些样本的大量临床信息。
汇总的数据对每一个个体都是独一无二的,尽管数据里缺少任何直接识别个体的信息,但是仍然存在被生物信息学方法和/或第三方数据库重新识别出个体的风险。
因为参与者隐私保护是NIH,NCI和TCGA最为关注的,人的主体性的保护和数据访问政策的执行,用来使得捐助人隐私风险最小化并且他们数据的机密性也有所妥协。
tcga转录组数据标准化-回复TCGA(The Cancer Genome Atlas)转录组数据标准化是指对TCGA 数据库中的转录组数据进行预处理和标准化的过程。
这一过程非常重要,因为不同样本之间可能存在不同的测量平台、批次效应以及技术偏差,这些因素都会对数据的准确性和可靠性产生影响。
本文将逐步介绍TCGA转录组数据标准化的步骤和方法。
首先,我们需要了解TCGA数据库的背景和数据结构。
TCGA数据库是一个包含了多种癌症类型的大规模、临床关联的高通量分子学数据集。
其中包括了转录组、基因组、表观遗传组、蛋白质组等不同的数据类型。
对于转录组数据的标准化,主要关注的是基因的表达水平。
第一步是数据获取和预处理。
我们需要从TCGA数据库中下载所需的转录组数据,这些数据以原始RNA测序数据(raw RNA-Seq data)的形式存储。
然而,由于原始RNA测序数据质量有限和数据体积大,我们通常会选择已经经过预处理并且是基因表达定量结果(gene expression quantification)的数据。
这些数据可以通过TCGA的数据门户网站或者TCGA的API进行下载。
第二步是批次效应和技术偏差的校正。
由于TCGA数据库中的数据可能来自不同的实验室、测量平台或批次,因此可能存在不同的技术偏差和批次效应。
为了消除这些影响,我们需要将数据进行校正。
常用的方法包括使用ComBat方法或Limma包中的removeBatchEffect函数进行批次效应的校正,以及使用SVA(Surrogate Variable Analysis)或RUV方法校正其他潜在的技术偏差。
第三步是基因表达量的归一化。
归一化是为了使得不同样本之间的基因表达量具有可比性。
常见的归一化方法包括TMM(Trimmed Mean of M values)方法、RPKM(Reads Per Kilobase per Million mapped reads)方法、FPKM(Fragments Per Kilobase per Million mapped reads)方法以及TPM(Transcripts Per Million mapped reads)方法等。
TCGA-临床信息中英文对照4Clinical_data.history_of_colon_polypsclinical_data.history_of _colon_polyps是/否指示器,用于描述受试者是否有病史/体检报告或以前的内窥镜检查报告中提到的结肠息肉病史。
Yes/No indicator to describe if the subject had a previous history of colon polyps as noted in the history/physical or previous endoscopic report(s).新辅助治疗的Clinical_data.history_of_neoadjuvant_therapyclinical_data.history _of_neoadjuvant_treatment描述患者新辅助治疗史和肿瘤切除术前治疗方法的文字术语。
Text term to describe the patien t’s history of neoadjuvant treatment and the kind of treament given prior to resection of the tumor.Clinical_data.history_of_prior_malignancyclinical_data.histor y_of_prior_malignancy用于描述患者先前癌症诊断的历史以及任何先前癌症发生的空间位置的文本术语。
Text term to describe the patient’s h istory of prior cancer diagnosis and the spatial location of any previous cancer occurrence.Clinical_data.hpv_callsclinical_data.hpv_callsHPV测试结果。
TCGA多癌种数据分析整合分析写在前⾯⾸先这个数据库可以做可以做多个TCGA多个癌种的整合分析。
例如我们想要把COAD和READ两个肠癌的数据进⾏整合分析的话,上⾯两个数据库只能单个分析来看。
但是这⾥的话,可以整合到⼀起来分析。
另外的话,基本上⼀些常见的好看的图和分析都可以在这⾥⾃动的获得。
数据库操作1. 数据集的选择由于可以做癌种数据库的分析。
所以这个数据库在分析的第⼀步就是来选择我们的TCGA的癌症。
这⾥数据库提供了三种筛选数据集的⽅式:(i)癌种的筛选;(ii)基于临床信息的筛选; (iii)基于分⼦分型的筛选。
在癌种这⾥我们就按照上⾯说的选择TCGA-READ以及TCGA-COAD的数据。
在临床信息筛选这⾥的话,我们可以基于癌症的STAGE;Grade; Gender; Race; Age来进⾏进⼀步的筛选。
在分析分型筛选的部分,我们可以进⾏⼀些基于TMB;突变;拷贝数;某⼀个基因的mRNA表达;某⼀个基因的蛋⽩表达来进⾏筛选。
以上的数据筛选的过程第⼀步是必须的,剩下的其实都是可以不进⾏筛选的。
在我们筛选完之后,我们点击 Submit就可以提交⾃⼰选择的数据集了。
提交完之后,我们需要对⾃⼰⾃定义的数据集进⾏命名。
保存完之后,我们就可以选择是对这个数据集来进⾏分析,还是说⽐较这个数据集和另外⼀个数据集的区别。
如果我们单纯分析这个数据集,那就可以往下分析。
如果我们需要⽐较另外⼀个数据集,那就需要再定义⼀个数据集。
基本过程和上⾯是⼀样的。
2. 单个数据集分析结果对于单个数据集的分析,主要是从四个⽅⾯来展⽰结果的。
分别是:DNA基因组分析、mRNA分析、蛋⽩分析以及临床数据分析。
这个数据结果的展⽰主要还是通过图形来展⽰的。
另外如果想要分析的原始数据的话,这个数据库提供了RData(R语⾔保存数据的格式)。
我们可以来下载。
1.DNA基因组⽅⾯的分析,主要是可以进⾏突变频率展⽰(oncoplot、曼哈顿图)、TMB相关分析、驱动基因分析等等很多⽬前可以做的分析。
TCGA数据库在线使⽤本⽂包括了TCGA本站中数据的浏览、下载,尤其是TCGA改版后的功能介绍(增加了OncoGrid展⽰),然后是cBioPortal,TCGA数据在线提供的分析类型最多的⼀个平台,再是FIREBROWSE,⽐较不错的在线展⽰和⽅便的数据下载功能。
TCGA主站TCGA分析了11,000个病⼈的33种肿瘤的7个不同层⾯的数据,共获得2.5 PB数据。
意在解析癌症发⽣的分⼦接触、肿瘤的亚型和治疗靶点等。
TCGA⽹站主要提供的是数据的浏览和下载功能,可以根据项⽬、个体、数据类型、肿瘤类型等筛选需要的数据,使⽤TCGA提供的⼯具下载,进⼀步分析。
TCGA项⽬促成了不少的⾼⽔平⽂章,对这些⽂章的阅读是对癌症知识的学习,也可以很好的扩展研究思路。
如果你需要帮助,WIKI是最好的伙伴。
最新版的TCGA 增加了⼀些分析的功能,主要是展⽰基因的信息、突变频率、突变位点分布、OncoGrid信息等。
在搜索框搜索基因,癌症类型,个体编号会有不同的结果体验。
查看基因在哪种癌症中突变最频繁突变位点在基因和功能域的分布,纵轴表⽰突变个体数⽬。
基因每个位点的突变频率,为上图纵轴信息的表格展⽰。
乳腺癌中突变频率最⾼的基因和病⼈⽣存曲线500个突变最多的个体和50个最⾼突变的基因,顶部柱状图代表每个个体中这50个基因的突变位点数⽬,右侧柱状图表⽰含有每个基因突变位点的个体数⽬,热图不同颜⾊代表不同的突变类型,下⽅2个颜⾊条代表临床信息和数据类型,右侧的第⼀个颜⾊条代表该基因是否是Cancer Gene Census (The Cancer Gene Census is a list of genes with substantial published evidence in Oncology.),第⼆个颜⾊条代表突变影响到的个体数。
cBioPortal功能强⼤的TCGA再分析平台cBioPortal可查询选定的癌症中某⼀通路的基因或⽤户⾃定义的多个基因的信息,多个基因的结果部分合并展⽰,部分独⽴展⽰。
手把手教学:轻松玩转TCGA何为TCGA?人类基因组计划(HGP)完成后,癌症研究也早已步入基因组学时代,多维、海量数据产生的速度远远超过理解、分析、处理数据的速度。
在这样的大背景下,美国国家癌症研究院(NCI)和美国国家人类基因组研究院(NHGRI)于2005年发起TCGA (TheCancerGenomeAtlas)项目。
和人类基因组计划(HGP)相似,TCGA是另一项以基因组为基础的大科学研究计划,它以人类基因组计划的成果为基础,研究癌症中基因组的变化。
与HGP专注于疾病的遗传因素(与生俱来)不同,TCGA更关心人类出生后细胞中的基因变化(后天变异)。
图为NBCI历年“TCGA”相关文章数量TCGA数据库包含11,000个病人的33种肿瘤的7个不同层面的基因数据(包括基因表达、CNV,SNP,DNA甲基化,miRNA,外显子组等)和临床数据,意在解析癌症发生的分子机制、肿瘤的亚型和治疗靶点等。
TCGA中的数据可谓包罗万象,常见的有转录组(RNASeq或表达谱芯片)、基因组(外显子或全基因组测序)、表观遗传(甲基化芯片)、蛋白组等多组学数据,最重要的,TCGA中的每个样本都有丰富、准确的临床数据,包括生存时间、肿瘤分期、病理类型等重要临床信息显著优于其他肿瘤数据库。
我们知道,肿瘤的发生与基因突变有很大关系,相关基因的点突变、小片段缺失和插入,引起了密码子的同义、错义、终止和移码的突变现象,导致基因表达的蛋白质由于序列的改变使其相关功能丧失,最终引发细胞的恶变与增殖,产生肿瘤。
太多太多的文章都在研究和肿瘤相关的驱动基因(drivergene)或者体细胞突变(somaticmutation),试图分析基因突变与肿瘤发生发展之间的相关性。
以往的研究中,我们可能要沿着“收集样本-DNA抽提-建库测序-数据分析”这一流程从头到尾走一遍,找几个人合作,再花个几年时间摸索,等到花都谢了,才能得到最终的结果。
tcga表达矩阵的基因名【实用版】目录1.TCGA 表达矩阵的概述2.TCGA 表达矩阵的基因名列表3.TCGA 表达矩阵的应用正文1.TCGA 表达矩阵的概述TCGA(The Cancer Genome Atlas)表达矩阵是一种用于描述基因在特定条件下表达水平的数据结构。
它包含了大量的基因名及其对应的表达值,这些表达值可以反映基因在特定条件下的活性。
TCGA 表达矩阵广泛应用于癌症研究、基因功能鉴定等领域。
2.TCGA 表达矩阵的基因名列表TCGA 表达矩阵包含了许多基因名,这些基因名代表了在特定条件下被检测到的基因。
以下是一些 TCGA 表达矩阵中的基因名示例:- ACTB- ACTC1- ACTG2- ACTR1A- ACTR1B- ACTR1C- ACTR1D- ACTR1E- ACTR1F - ACTR1G - ACTR1H1 - ACTR1H2 - ACTR1H3 - ACTR1H4 - ACTR1H5 - ACTR1H6 - ACTR1H7 - ACTR1H8 - ACTR1H9 - ACTR1H10 - ACTR1H11 - ACTR1H12 - ACTR1H13 - ACTR1H14 - ACTR1H15 - ACTR1H16 - ACTR1H17 - ACTR1H18 - ACTR1H19 - ACTR1H203.TCGA 表达矩阵的应用TCGA 表达矩阵在生物信息学领域具有广泛的应用,包括但不限于以下几个方面:- 基因功能鉴定:通过分析基因在特定条件下的表达水平,可以推测基因在生物体内的功能。
- 基因调控关系分析:通过研究基因之间的表达相关性,可以揭示基因之间的调控关系。
- 基因表达模式分析:通过研究基因在不同条件下的表达模式,可以了解基因在生物过程中的作用。
- 癌症相关基因发现:通过分析癌症样本与正常样本之间的基因表达差异,可以发现与癌症相关的基因。
序号话题: TCGA GDC中lncRNA或蛋白编码一、引言随着生物信息学和基因组学技术的迅猛发展,越来越多的人们开始关注非编码RNA和蛋白编码RNA在肿瘤发生和发展中的作用。
TCGA (The Cancer Genome Atlas)和GDC(Genomic Data Commons)是两个致力于肿瘤基因组学研究的重要数据库,其丰富的数据使得研究者可以深入探索lncRNA和蛋白编码RNA在肿瘤中的功能和作用机制。
二、lncRNA在肿瘤中的作用1. lncRNA的概念和特点长链非编码RNA(lncRNA)是一类长度超过200 nt的RNA分子,其在细胞中广泛存在,并且在调控基因表达和蛋白合成中起着重要作用。
2. TCGA和GDC中lncRNA数据的应用通过分析TCGA和GDC中的大量数据,研究者可以发现在肿瘤组织中表达丰富的lncRNA,并进一步研究其在肿瘤发生和发展中的作用。
3. lncRNA在肿瘤中的作用机制研究表明,lncRNA可以通过调节miRNA、蛋白质、DNA甲基化等多种方式参与肿瘤的发生和发展,对肿瘤细胞的增殖、转移、凋亡等过程产生重要影响。
三、蛋白编码RNA在肿瘤中的作用1. 蛋白编码RNA的特点蛋白编码RNA是指能够编码蛋白质的RNA分子,其在肿瘤中的表达和功能对肿瘤的发展起着至关重要的作用。
2. TCGA和GDC中蛋白编码RNA数据的应用TCGA和GDC中包含大量肿瘤样本的基因组数据,研究者可以利用这些数据来寻找在肿瘤中高表达的蛋白编码RNA,并进一步研究其调控机制和生物学功能。
3. 蛋白编码RNA在肿瘤中的调控网络研究发现,很多蛋白编码RNA可以通过调节信号转导通路、促进细胞增殖和抑制细胞凋亡等方式参与肿瘤的发生和发展。
四、结合TCGA和GDC的研究进展1. lncRNA和蛋白编码RNA的共同作用越来越多的研究表明,在肿瘤中lncRNA和蛋白编码RNA之间存在着复杂的调控网络,二者相互作用导致了肿瘤细胞的异常增殖和转移等生物学行为。
TCGA数据库的利用(三)—做差异分析的三种方法差异分析是利用TCGA数据库进行分析的重要步骤之一、它可以帮助研究者发现不同生物样本、疾病类型或基因表达模式之间的差异,进一步揭示疾病的发生机制和潜在药物靶点。
在本文中,我将介绍TCGA数据库中常用的三种差异分析方法。
1. 基因差异分析(Differential Gene Expression Analysis):基因差异分析是最常见的差异分析方法之一,它通过比较不同组别的基因表达水平来识别差异表达的基因。
在TCGA数据库中,可以使用RNA-seq测序数据或芯片数据来进行基因差异分析。
常见的基因差异分析方法包括t检验、方差分析(ANOVA)和非参数检验等。
具体分析流程包括数据预处理、差异表达基因筛选和功能富集分析。
通过基因差异分析,可以发现在不同组别中表达显著差异的基因,进一步研究其生物学功能和调控网络。
2. DNA甲基化差异分析(Differential DNA Methylation Analysis):DNA甲基化是一种常见的表观遗传修饰方式,通过添加甲基基团在DNA上实现基因表达的调控。
差异甲基化的DNA区域可以识别不同疾病状态之间的差异。
TCGA数据库中的甲基化数据可以通过甲基化芯片或测序数据进行分析。
常见的DNA甲基化差异分析方法包括差异甲基化位点的寻找、甲基化区域的聚类分析和功能富集分析等。
通过DNA甲基化差异分析,可以发现在不同组别之间甲基化状态显著差异的基因或区域,揭示DNA甲基化在疾病发生过程中的重要作用。
3. 融合基因差异分析(Differential Fusion Gene Analysis):融合基因是指两个或更多基因在一些生理或病理条件下融合在一起形成新的转录本或蛋白质。
融合基因常常与肿瘤的发生和发展相关,因此融合基因分析在癌症研究中具有重要意义。
在TCGA数据库中,可以利用RNA-seq测序数据进行融合基因差异分析。
常见的融合基因差异分析方法包括融合基因的检测和差异融合基因的分析。
TCGA数据库临床资料官方大全
简称为:TCGA Pan-Cancer Clinical
Data Resource (TCGA-CDR)
前面我们推送过另外两个大全:
TCGA数据库maf突变资料官方大全
TCGA的pan-caner资料大全(以后挖掘
TCGA数据库就用它)
因为TCGA计划跨时太长,纳入研究的病人数量太多,或多或少有点资料继续错误或者不完整,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的公布了权威的临床资料。
依托于文章 Cell. 2018 Apr 5 :[An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics]() Cell , April 2018 10.1016/j.cell.2018.02.052(link is external)
To ensure proper use of this large
clinical dataset associated with genomic
features, we developed a standardized
dataset named the TCGA Pan-Cancer
Clinical Data Resource (TCGA-CDR), which
includes four major clinical outcome
endpoints.
下载链接:TCGA-CDR
看起来是乱码,但的确是真实的下载地址:/data/1b5f413e-a8d1-4d10-92eb-7c4ae739ed81
题外话:关于不同数据源的TCGA临床资料冲突的讨论
关于生存分析的冲突问题,我们多次讨论了:
o集思广益-生存分析可以随心所欲根据表达量分组吗
o寻找生存分析的最佳基因表达分组阈值
比如下面的代码比较两个数据源;
rm(list = ls())
options(stringsAsFactors = F)
# 不同来源的生存信息,差异有点大。
## 来源于 XENA 数据源:
# /download/TCGA-LAML/Xena_Matrices/TCGA-
LAML.survival.tsv.gz
clin1=read.table('../data/TCGA-
HNSC.survival.tsv.gz',header = T)[,2:4]
clin1$pid=substring(clin1[,2],1,12)
head(clin1)
clin1[,3]=clin1[,3]/30
clin1[clin1[,3] <0,3]=0
#重新读入TCGA-CDR数据
clin3=read_excel("./TCGA-CDR-
SupplementalTableS1.xlsx",sheet=3,na="NA")
clin3 = as.data.frame(clin3)
rownames(clin3) = substring(clin3[,2],1,12)
clin3 = clin3[, -c(1:3)]
我在比较这两个文件的时候发现了不一致,然后搜索解决方案居然找到了我以前华西医学院的学生的分享;https:///p/0a4a492b130e
会发现出现这样的差异,是因为对终点事件不统一造成的。
在Xena的survival.tsv中定义的结局事件是死亡,在TCGA-CDR中,PFI.1定义的终点事件是疾病进展,包括死亡、复发、转移等。
具体到病人TCGA-BA-5151,他可能是在术后517天发现有肿瘤复发,第722天失访,那么在Xena的生存分析中是定义为722天截尾,但是在TCGA-CDR中是517天事件发生。
所以这两个变量不一致。
散点图也反映了这一区别,CDR的PFI1.time总是不大于Xena的time2event。
这一点在TCGA-CDR的表格文件中有解释
关于生存分析该选择哪个时间点
这不是一个选择题,既然人家TCGA组织整理了four major clinical outcome endpoints. 那么这些时间点都可以,不同的选择得到的结果的生物学解释不一样。
DSS: disease-specific survival event, 1 for patient whose vital_status was Dead and tumor_status was WITH TUMOR. If a patient died from the disease shown in field of cause_of_death, the status of DSS would be 1 for the patient. 0 for patient whose vital_status was Alive or whose vital_status was Dead and tumor_status was TUMOR FREE. This is not a 100% accurate definition but is the best we could
do with this dataset. Technically a patient could be with tumor but died of a car accident and therefore incorrectly considered as an event.
DSS.time: disease-specific survival time in days, last_contact_days_to or death_days_to, whichever is larger.
DFI: disease-free interval event, 1 for patient having new tumor event whether it is a local recurrence, distant metastasis, new primary tumor of the cancer, including cases with a new tumor event whose type is N/A. Disease free was defined by: first, treatment_outcome_first_course is "Complete Remission/Response"; if the tumor type doesn't have "treatment_outcome_first_course" then disease-free was defined by the value "R0" in the field of "residual_tumor"; otherwise, disease-free was defined by the value "negative" in the field of "margin_status". If the tumor type did not have any of these fields, then its DFI was NA.
DFI.time: disease-free interval time in days, new_tumor_event_dx_days_to for events, or for censored cases, either last_contact_days_to or death_days_to, whichever is applicable.
PFI: progression-free interval event, 1 for patient having new tumor event whether it was a progression of disease, local recurrence, distant metastasis, new primary tumors all sites , or died with the cancer without new tumor event, including cases with a new tumor event whose type is N/A.
PFI.time: progression-free interval time in days, for events, either new_tumor_event_dx_days_to or death_days_to, whichever is applicable; or for censored cases, either last_contact_days_to or death_days_to, whichever is applicable.。