基因表达谱公共数据库
- 格式:docx
- 大小:27.16 KB
- 文档页数:6
α-烯醇化酶在肝癌组织中的表达及临床意义朱威威;崔光莹;张敏敏;余祖江;陈晓龙;陈建安;何玉婷;余炎;胡秋月;孙冉冉;任志刚;李娟【摘要】目的:探究α-烯醇化酶(ENO1)在肝细胞癌(HCC)组织中的表达及临床意义.方法:利用TCGA和GEO公共数据库肝癌表达谱数据,分析HCC组织中ENO1 mRNA的表达;依据ENO1 mRNA的表达水平将TCGA数据库中的肝癌样本分为ENO1 mRNA低表达组和高表达组,然后下载目标分析基因集进行富集分析;K-M 法绘制生存曲线,比较两组总体生存期(OS)和无进展生存时间(PFS).采用免疫组化染色方法检测93例HCC及87例癌旁正常组织中ENO1蛋白的表达;将肝癌样本分为ENO1蛋白低表达组和高表达组,对两组进行生存分析.结果:HCC组织中ENO1 mRNA和蛋白表达水平均高于癌旁正常组织(P<0.05);TNMⅢ、Ⅳ期HCC组织中ENO1 mRNA和蛋白表达水平高于TNMⅠ、Ⅱ期组织(P<0.05),病理分级3、4级的HCC组织中ENO1 mRNA表达水平高于1、2级组织(P<0.05).ENO1 mRNA 低表达组中位OS和PFS均大于高表达组(P<0.05);ENO1蛋白低表达组中位OS 大于高表达组(P<0.05).与HCC预后不良相关的基因富集在ENO1 mRNA高表达组,与预后良好相关的基因富集在ENO1 mRNA低表达组.结论:ENO1与HCC的发生发展有关,有望成为HCC诊断及治疗的新靶点.【期刊名称】《郑州大学学报(医学版)》【年(卷),期】2018(053)004【总页数】5页(P412-416)【关键词】α-烯醇化酶;肝细胞癌【作者】朱威威;崔光莹;张敏敏;余祖江;陈晓龙;陈建安;何玉婷;余炎;胡秋月;孙冉冉;任志刚;李娟【作者单位】郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052;郑州大学第一附属医院感染科郑州450052【正文语种】中文【中图分类】R735.7原发性肝癌居目前我国常见恶性肿瘤的第四位及肿瘤致死病因的第三位[1-2],在全世界恶性肿瘤发病率中占第六位[3]。
单细胞数据提取注释信息是单细胞RNA测序(single-cell RNA-sequencing,scRNA-seq)数据分析的一个重要步骤。
在单细胞RNA测序实验中,通常会获得大量的单细胞数据,每个数据点代表一个细胞的基因表达水平。
为了更好地理解这些数据,需要对每个细胞进行注释,以提供关于细胞类型、细胞状态、细胞来源等信息。
以下是一些常用的方法来提取和注释单细胞数据:
1. 细胞类型注释:
通过已知的细胞标记基因来识别和注释细胞类型。
例如,可以通过与已知细胞类型相关的基因表达模式来识别神经细胞、肌肉细胞等。
2. 细胞状态注释:
对于处于不同分化阶段或不同生理状态的细胞,可以通过检测特定基因的表达水平来判断其分化阶段或生理状态。
3. 细胞来源注释:
在多细胞生物中,不同组织或器官的细胞可能具有独特的基因表达模式。
通过比较细胞表达谱与已知组织或器官的特异性基因表达模式,可以推断细胞的来源。
4. 分子途径分析:
通过分析细胞中特定信号通路或代谢途径的相关基因表达水平,可以推断细胞的功能和特性。
5. 聚类分析:
通过对细胞的基因表达谱进行聚类分析,可以将具有相似基因表达模式的细胞分为一组,从而揭示细胞的相似性和差异性。
6. 整合外部知识:
利用公共数据库中的细胞类型特异性基因标记和知识,可以对单细胞数据进行注释。
例如,可以利用CellMarker、CellNet等数据库来识别和注释细胞类型。
7. 使用生物信息学工具:
利用各种生物信息学工具和软件,如Seurat、Scanpy等,可以帮助分析单细胞数据,并提取有用的注释信息。
《基于生物信息学发现肝细胞癌标志性miRNA及作用与机制研究》篇一一、引言肝细胞癌(Hepatocellular Carcinoma,HCC)是一种常见的恶性肿瘤,其发病率和死亡率均较高。
由于HCC的早期诊断困难,治疗手段有限,因此寻找有效的诊断标志物和治疗方法成为当前研究的重点。
近年来,随着生物信息学的发展,microRNA (miRNA)在肿瘤发生、发展及转移中的作用逐渐受到关注。
miRNA是一种非编码单链小分子RNA,能够通过调控基因表达参与多种生物学过程。
本研究基于生物信息学方法,旨在发现肝细胞癌标志性miRNA及其作用与机制。
二、研究方法1. 数据收集与处理我们首先从公共数据库中收集了肝癌患者的miRNA表达谱数据,并进行了预处理,包括数据清洗、归一化等。
2. 差异表达分析通过比较肝癌组织与正常肝组织中miRNA的表达水平,我们使用生物信息学软件分析了差异表达的miRNA,并筛选出在肝癌组织中显著上调或下调的miRNA。
3. 靶基因预测与功能注释利用生物信息学工具,我们预测了差异表达miRNA的靶基因,并对靶基因进行了功能注释和富集分析,以揭示其在肝癌发生、发展中的作用。
4. 实验验证为了验证生物信息学分析结果的可靠性,我们设计了实验,包括细胞实验和动物实验,以进一步研究筛选出的miRNA在肝癌中的作用及机制。
三、结果与分析1. 差异表达miRNA的筛选通过生物信息学分析,我们筛选出在肝癌组织中显著上调的miRNA和显著下调的miRNA。
其中,miR-XXX和miR-YYY在肝癌组织中的表达水平最高。
2. 靶基因预测与功能注释我们预测了miR-XXX和miR-YYY的靶基因,并进行了功能注释和富集分析。
结果显示,这些靶基因主要参与细胞增殖、凋亡、侵袭和转移等生物学过程。
其中,某些靶基因与肝癌的发生、发展密切相关。
3. 实验验证通过细胞实验和动物实验,我们验证了miR-XXX和miR-YYY在肝癌中的作用及机制。
可能是最全的单细胞数据库汇总(2023更新版本)1.Jingle Bells: Jingle Bells(铃儿响叮当)这首歌恐怕是最为人们熟悉的圣诞歌曲,此处被用于数据库名称。
该数据库是一个用于从单细胞水平可视化分析RNA-Seq数据的标准化单细胞数据集库,根据文献研究对象将单细胞数据划分为免疫和非免疫类。
2.CancerSEA: CancerSEA是第一个旨在以单细胞水平全面解码肿瘤细胞不同功能状态的数据库,用途包括:①提供肿瘤单细胞功能状态图谱,涉及25种肿瘤类型的41900个肿瘤单细胞的14种功能状态;②查询基因(包括PCG 和 lncRNA)或感兴趣的基因列表与不同肿瘤类型相关的功能状态;③以单细胞分辨率提供与功能状态高度相关的pCG/lncRNA库。
14种肿瘤相关功能状态可以当作14种表型,包括细胞干性、侵袭、转移、增殖、EMT、血管生成、凋亡、细胞周期、分化、DNA 损伤、 DNA 修复、缺氧、炎症和静止。
通过表征每个肿瘤细胞的这些功能状态活动,CancerSEA提供了肿瘤单细胞功能状态的图谱,并将蛋白编码基因、PCG和lncRNA与单细胞水平的这些功能状态相关联,以促进对肿瘤机制的理解。
3.DISCO: DISCO整合了来自4593个样本的超过1800万个细胞,涵盖107个组织、细胞系或类器官、158种疾病和20个平台,数据以模块化形式呈现。
该数据库提供了三种在线工具,即Online FastIntegration、OnlineCELLiD和CellMapper,用于单细胞RNA-seq数据的集成、注释和投影到选定的图集中。
4.PanglaoDB: PanglaoDB是一个面向对探索小鼠和人类单细胞RNA测序结果分析的单细胞转录组数据库。
其中包含超过1000个单细胞实验的预处理和预分析结果,涵盖大多数单细胞平台数据的分析流程,基于来自各种组织和器官超过400万个细胞。
同时包含6000多个marker基因,是一个主要用于细胞分群注释的marker数据库。
发掘新的生物标志物可能为恶性肿瘤诊治提供新的思路,从而改善疾病预后。
癌症基因组图谱(The Cancer Genome Atlas,TCGA)计划是迄今为止世界上最大的癌症基因信息数据库,为肿瘤基础医学和转化医学研究者提供海量的基因组数据和与其关联的临床数据,为寻找恶性肿瘤生物标志物,甚至为药物靶标的筛选,提供重要线索[4]。
UALCAN数据库是由哈佛大学医学院附属丹娜法伯肿瘤研究院开发和维护更新,使用TCGA的3级RNA-seq数据,对30余种不同肿瘤类型中约20500个蛋白质编码基因进行基因表达和生存分析的数据库网站[5]。
近年研究表明,BRCA1相关蛋白1(BRCA1associ-ated protein1,BAP1)与肿瘤的发生发展有一定的关系。
BAP1是一种泛素羧基末端水解酶(ubiquitin carbox-yl-terminal hydrolase,UCH)[6],其与许多肿瘤的发生发展关系密切。
BAP1通过去泛素化作用,参与基因转录调控、表观遗传调控、DNA损伤修复等过程[7],发挥抑癌作用[8]。
临床实践工作中NGS检测发现肝癌患者存在BAP1基因突变的病例,但病例数量十分有限。
查阅文献,有学者曾分析TCGA中364例HCC患者有效数据,与正常组织相比,BAP1在HCC样本中突变差异显著,男性高于女性,BAP1高表达提示生存预后差[9]。
本文进一步扩大研究广度和深度,利用TCGA、UALCAN等数据库,采用生物信息学分析方法,旨在探讨BAP1在LIHC中的表达及其与预后的关系,并初步分析BAP1在泛肿瘤和正常组织的表达与预后情况,为寻找新的LIHC生物标志物及有效的靶向精准治疗提供研究基础。
1资料与方法1.1数据资料下载及处理从UALCA获得TC-GA数据库中LIHC(即TCGA-LIHC)的BAP1mRNA 表达水平及临床数据。
包含癌组织样本371例,正常组织样本50例。
BAP1的mRNA表达数据均进行log2(TPM+1)或log2(FPKM+1)的形式转换。
结肠癌是消化道常见的肿瘤之一,主要发生于肠黏膜,并向邻近脏器扩散[1]。
虽然接受根治性切除术的早期结肠癌患者的5年生存率超过90%,但大多数患者被诊断为晚期或转移,导致5年生存率下降到10%[2]。
目前临床上治疗结肠癌的方法主要有手术、放疗、化疗、靶向治疗等,这些治疗方法已经取得了相当大的进展。
但由于诊断晚、发展快、转移频率高,患者预后仍较差,远METTL27is a prognostic biomarker of colon cancer and associated with immune invasionWANG Kang,ZHANG Jun,DENG Muwen,JU Yongle,OUYANG ManzhaoDepartment of Gastrointestinal Surgery,Shunde Hospital,Southern Medical University,Foshan 528308,China摘要:目的探讨甲基转移酶样蛋白27(METTL27)在结肠癌中的表达、基因功能、免疫浸润和临床预后意义。
方法运用R 语言,通过公共数据库TCGA 、GEO 、HPA 数据库分析33种癌谱METTL27表达水平,并鉴定结肠癌中METTL27的差异基因,通过基因功能注释和富集分析鉴定相关信号通路;应用GSV A 中的ssGSEA 算法进行免疫浸润分析;Wilcoxon 秩和检验(连续变量)、Logistic 分析评价METTL27表达与临床病理特征的相关性;Kaplan-Meier 分析、单因素和多因素Cox 回归分析,构建列线图和校准图分析评价METTL27表达与临床预后的相关性。
qPCR 及Western blot 实验验证METTL27在肠癌细胞株以及16例肠癌组织中的表达水平。
结果METTL27在21种肿瘤中显著高表达,结肠癌中METTL27的表达明显高于癌周组织(P <0.001);METTL27进行差异分析,并鉴定了METTL27相关的差异基因,绘制了差异表达正负相关前10基因(P <0.001);通过鉴定了METTL27的差异表达基因,初步对其进行了基因功能注释,发现METTL27在跨膜物质转运以及脂质代谢进程中显著富集,进一步GSEA 识别了与之相关的5条信号通路;同时分析了METTL27表达与辅助T 细胞、辅助T 细胞2型、中央记忆型T 细胞呈负相关关系(P <0.001);在临床特征与预后分析中,METTL27mRNA 高表达的患者OS 、DSS 较差,Cox 回归分析显示,METTL27表达是OS 的独立预后因素;修改为:在不同肠癌细胞株以及16例肠癌组织样本中,METTL27的mRNA 表达水平高于正常细胞及组织(P <0.05);配对的4例肠癌组织蛋白检测也证实这一结果(P <0.001)。
·论著·基于GEO数据库的生物信息学分析筛选抑郁症诊断标志物张敏,和申,丁蕾,金锋,黄佳,蔡亦蕴,彭代辉 摘要: 目的:通过生物信息学分析方法筛选潜在的抑郁症诊断标志物,探讨这些基因在抑郁症疾病过程中的生物作用。
方法:GSE98793数据集包含128位抑郁症患者,64位健康对照的外周血表达谱芯片数据,采用R语言Limma包,以|log2FC|>0.1,P<0.05为标准,分析数据集中的差异表达基因,并使用在线网站Metascape分析基因功能,对这些差异表达基因进行批量ROC分析,筛选出AUC最大的前30个差异表达基因,通过Lasso回归和多元逻辑回归构建抑郁症诊断模型,并采用Bootstrap方法进行内部验证。
结果:构建出包含GZMK,RETN,CD48,LOC153684,FZD5,DAO,SERTAD2这7个差异基因在内的抑郁症诊断模型,其AUC=0.8861(95%CI=0.84~0.93),模型内部验证证实其具有较好的区分度及校准度。
结论:本研究通过基因表达谱数据分析,获得包含7个基因在内的抑郁症诊断模型,并发现该模型具有较高的诊断价值。
关键词: 生物信息学; 抑郁症; 差异表达基因; 诊断模型中图分类号: R749.4 文献标识码: A 文章编号: 1005 3220(2023)04 0276 04ScreeningofdepressiondiagnosticmarkersbasedonbioinformaticsanalysisofGeneExpressionOmnibusdatabase ZHANGMin,HEShen,DINGLei,JINGFeng,HUANGJia,CAIYi yun,PENGDai hui.DepartmentofMoodDisorders,ShanghaiMentalHealthCenter,ChinaAbstract: Objective:Tofindthepotentialdiagnosticmarkersofdepressionbybioinformaticsanalysistoexplorethebiologicalrolesofthesegenesintheprocessofdepression. Method:TheGSE98793datasetcontainstheperipheralbloodexpressionprofilechipdataof128depressionpatientsand64healthycontrols.Thisstudyidentifiedthedifferentialexpressedgenes(DEGs)inthedatasetwith|log2FC|>0.1,P<0.05asthecriterion,andusedtheonlinewebsiteMetascapetoanalyzethegenefunction.Batchreceiveroperatingcharacteristic(ROC)curveanalysiswasperformedontheseDEGs,andthetop30DEGswiththelargestAUCwerescreenedout,thenadepressiondiagnosismodelwasconstructedbyLassoregressionandmultiplelogisticregression,Bootstrapmethodwasusedforinternalvalidation. Results:AdepressiondiagnosticmodelincludingGZMK,RETN,CD48,LOC153684,FZD5,DAO,andSERTAD2wasconstructed,withAUC=0.8861(95%CI=0.84-0.93),andtheinternalvalidationofthemodelindicatedthatthemodelhadgooddiscriminationandcalibration. Conclusion:Thisstudyobtainedadepressiondiagnosismodelincluding7geneswhichhashighdiagnosticvalue.Keywords: bioinformatics; depression; differentialexpressedgenes; diagnosticmodels 抑郁症是一种严重的精神障碍,有预测表明[1],到2030年抑郁症将成为全球疾病负担的主要原因之一。
阮先乐.基于GEO数据库分析水稻低温胁迫关键基因[J].江苏农业科学,2024,52(3):61-66.doi:10.15889/j.issn.1002-1302.2024.03.009基于GEO数据库分析水稻低温胁迫关键基因阮先乐(周口师范学院生命科学与农学学院,河南周口466001) 摘要:为了筛选水稻在低温胁迫下的关键基因,从GEO数据库下载水稻4个数据集中的70个样本。
利用在线分析程序GEO2R进行共同差异表达基因分析,并对这些差异表达基因进行GO、KEGG分析,构建蛋白质互作网络,对关键基因构建热图。
结果表明,获得共同差异表达基因51个,其中上调表达基因1个,下调表达基因50个。
上述基因的GO分析结果表明,其细胞组成主要集中在细胞、细胞要素和细胞器上;在分子功能上,上述基因的功能主要集中在结合、催化活性上;在生物过程中,上述基因的功能主要集中在细胞过程、代谢过程和生物调控上。
KEGG信号通路分析结果表明,上述基因主要参与植物激素信号转导等通路。
在构建的共同差异表达基因的蛋白质网络中,有29个节点。
另外,得到10个关键基因、2个关键子网络。
研究结果为进一步研究水稻低温胁迫关键基因奠定了基础,也有利于水稻低温育种。
关键词:水稻;GEO数据库;低温胁迫;共同差异表达基因;GO功能分析;KEGG信号通路分析 中图分类号:S511.01;S126 文献标志码:A 文章编号:1002-1302(2024)03-0061-06收稿日期:2023-04-10作者简介:阮先乐(1977—),男,河南淮阳人,硕士,讲师,主要从事植物育种和生物信息学研究。
E-mail:ruanxianle@126.com。
水稻(OryzasativaL.)起源于热带与亚热带,是低温敏感型作物。
低温严重影响了水稻的产量和品质,也限制了水稻向高海拔、高纬度地区扩展[1]。
从全球范围来看,目前有24个国家约1500万hm2的水稻受到低温影响,在亚洲南部、东南部,约700万hm2的土地由于受到低温影响而无法种植水稻[2]。
生物信息学数据库的种类1.引言1.1 概述生物信息学数据库是由生物学和计算机科学相结合的一个重要领域。
随着高通量测序技术的快速发展, 生物学研究已经进入了“大数据”时代。
生物信息学数据库的出现, 解决了这些海量生物信息的存储和管理问题, 为生命科学研究提供了重要的工具和资源。
生物信息学数据库可以存储和管理各种类型的生物信息数据, 对于科学家和研究人员来说, 这些数据库包含了大量的基因组序列、蛋白质序列、基因表达数据等重要信息。
通过对这些数据的分析和挖掘, 科学家们可以更深入地研究生物体的组成、功能和进化等方面。
在当前的生物信息学数据库中, 可以根据数据类型进行分类。
常见的生物信息学数据库包括序列数据库、结构数据库、基因表达数据库、蛋白质互作数据库、药物数据库、多样性数据库、基因组数据库、疾病数据库和转录因子数据库等。
每种类型的数据库都有其独特的特点和应用领域。
随着生物学研究的不断深入和技术的不断进步, 生物信息学数据库也在不断发展。
未来的数据库将更加注重数据的互联互通, 提供更完整、准确和可靠的生物信息。
同时, 数据分析和挖掘的算法和工具也将不断更新和完善, 为科学家们的研究提供更加强大的支持。
总之, 生物信息学数据库是生物学研究中不可或缺的重要工具和资源。
通过这些数据库, 科学家们可以更加高效地存储、管理和分析生物信息,推动生命科学领域的发展。
未来, 随着生物学研究的不断进步, 生物信息学数据库将不断发展和完善, 为科学家们带来更多的可能性和突破。
1.2 文章结构本文将分为三个部分来详细介绍生物信息学数据库的种类。
首先,在引言部分,我们将提供对本文的概述,介绍生物信息学数据库的基本概念和作用,并说明文章的目的。
接下来,在正文部分,我们将详细介绍九种不同类型的生物信息学数据库,包括序列数据库、结构数据库、基因表达数据库、蛋白质互作数据库、药物数据库、多样性数据库、基因组数据库、疾病数据库和转录因子数据库。
如何挖掘HPA数据库中研究数据并生成结果表达图
苏永发;陈金图
【期刊名称】《实验与检验医学》
【年(卷),期】2022(40)5
【摘要】目的介绍HPA(Human Protein Atlas)即人类蛋白质图谱数据库的架构及功能。
方法结合实际案例实践操作HPA数据库,分析癌症和正常基因表达谱。
结果本文简单化HPA网页式的交互界面使用,帮助对公共数据感兴趣的研究者了解HPA数据库。
结论HPA的使用为广大研究者提供了宝贵的大数据资源。
从而减轻科研工作者压力,提高工作效率。
【总页数】6页(P534-539)
【作者】苏永发;陈金图
【作者单位】福建医科大学附属泉州第一医院检验科
【正文语种】中文
【中图分类】R197.323.6
【相关文献】
1.多数据库挖掘中独立于应用的数据库分类研究
2.地质图空间数据库建设数据质量控制研究与实践--以1:25万区域地质图空间数据库建设为例
3.如何挖掘GEPIA 数据库中研究数据并生成分析结果表达图
4.基因表达数据库中肺结核芯片数据的挖掘和分析
5.国土空间规划数据库建设研究——以规划方案在数据库中的表达及图数一致性为例
因版权原因,仅展示原文概要,查看原文内容请购买。
基因表达谱公共数据库 (2010-04-17 11:17:21)转载▼ 标签: 教育 分类: 系统生物学 gene expression profiles: NCBI: GEO EBI ArrayExpress 和 SMD
功能基因组相关信息分析 功能基因组学是后基因组研究的核心内容,它强调发展和应用整体的(基因组水平或系统水平)实验方法分析基因组序列信息阐明基因功能,特点是采用高通量的实验方法结合的大规模数据统计计算方法进行研究,基本策略是从研究单一基因或蛋白上升到从系统角度一次研究所有基因或蛋白。随着功能基因组实验研究的深入,大量的数据不断涌现,生物信息学将在功能基因组学研究中的扮演关键角色。 7.1 大规模基因表达谱分析 随着人类基因组测序逐渐接近完成,科学家发现即使获得了完整基因图谱,对了解生命活动还有很大距离。我们从基因图谱不知道基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的,等一系列问题。这些问题的实质是不了解按照特定的时间、空间进行的基因表达谱。获得基因表达的信息是比DNA序列测定艰巨得多的任务,因为基因表达是依赖于许多因素的动态过程。 国际上在核酸和蛋白质两个层次上发展了分析基因表达谱的新技术,即核酸层次上的 cDNA 芯片(cDNA微阵列)技术和蛋白质层次上的二维凝胶电泳和测序质谱技术,即蛋白质组(proteome)技术。DNA芯片技术能够在基因组水平分析基因表达,检测许多基因的转录水平。 对大规模基因表达谱的分析存在新的方法学问题,它们从数学角度看不是简单的NP问题、动力系统问题或不确定性问题,而是基因表达网络,因此需要发展新的方法和工具。同时,在芯片等的设计上,也需要从理论到软件的支持 下面主要围绕cDNA芯片相关的数据管理和分析问题进行讨论。 1.实验室信息管理系统 cDNA芯片实验的目的是要在一次实验中同时得到成千上万个基因的表达行为,这样的实验需要有管理实验前后大量数据的能力。设计构建检测基因表达的微阵列需要获得生物体基因的所有序列、注释和克隆。在杂交反应和扫描后,收集到的数据必须以某种方式保存,以便很容易进行图象处理和统计及生物学分析。因此需要建立与大规模高通量实验方法相匹配的实验材料和信息管理系统。 该系统除用来定位和跟踪材料来源(例如,克隆,微阵列,探针)外,还必须管理实验前后大量的数据。此外,还包括实验室设备软件系统,如斯坦福大学Brown实验室免费的控制自制机器点样设备软件(http://cmgm.standford.edu/pbrown) 芯片图象处理已有各种软件工具,基本的功能是将不同信号强度点的图像转换为每个点的强度数值。这方面没有一致的方法,许多研究小组仍在开发这类软件。图象分析软件的质量对精确解释玻片和膜上的信号非常关键。NHGRI的Yidong Chen开发了一种复杂的图象分析程序,deArray,可免费获取。 美国国立卫生研究院人类基因组研究所(NHGRI)开发的免费的cDNA芯片数据管理分析系统ArrayDB,涉及微阵列的设计、实验室信息管理、实验结果的处理和解释。下面加以简单介绍。 ArrayDB ArrayDB是用来储存、查询和分析cDNA芯片实验信息的实验室管理系统。ArrayDB整合了cDNA芯片实验中的多个方面,包括数据管理、用户介面、机器自动点样、扫描和图象处理。ArrayDB中保存的数据包括实验来源、实验参数和条件以及原始的和经处理的杂交结果。ArrayDB依托的关系数据库储存了芯片上每个克隆的相关信息,包括基因的简单描述、GenBank号、IMAGE克隆识别号、代谢途径号和实验室内部克隆号。ArrayDB还储存了与cDNA芯片制造和实验条件的信息。包括点样相关数据(点样机器的参数)、环境条件(温度、湿度、点样针冲洗条件)等数据。此外,还保存了杂交探针和实验条件,包括研究者的姓名,研究目的和实验条件、组织细胞类型的文本描述。有关杂交的结果的信息包括扫描图象(“原始”结果)、信号强度数据、信号强度比值和本底值。 ArrayDB的设计允许灵活地提取数据信息。设计策略允许不同来源的数据输入,大多数克隆信息来自Unigene数据库(包括序列的命名和获取号)。也允许新分离的还没有获取号及名称的克隆的输入。许多数据输入和处理过程是自动的。软件会自动扫描目录查找新输入数据库中的信号强度数据无须人工辅助,其它自动处理包括很方便地整合信号强度数据和克隆数据。 ArrayDB的Web界面能很方便地进行不同类型信息的查询,从克隆信息到信号强度值到分析结果。ArrayDB支持各种字段的数据查询,例如克隆ID、标题、实验编号、序列获取号、微量滴定板编号以及相关克隆的结果。每个克隆的更多信息通过超文本链接至其他数据库如dbEST、GenBank或Unigene,代谢途径信息也可通过链接至KEGG得到。 通过序列相似性搜索可以有效地寻找目的基因。ArrayDB支持对10K/15K数据(软件自带数据)进行BLASTN搜索以便确定目的基因是否已包含在芯片中。 ArrayDB能分析单个和多个实验产生的信号强度比值的类型和关系。ArrayViewer工具支持查询和分析单个实验;MultiExperiment viewer工具支持多个实验数据。在下述网站可得到更详细信息和相关软件。 DeArray和ArrayDB网址: http://www.nhgri.nih.gov/DIR/LCG/15K/HTML
基因表达公共数据库 数据库用途 (1)基础研究将来自各种生物的表达数据与其它各种分子生物学数据资源,如经注释的基因组序列、启动子、代谢途径数据库等结合,有助于理解基因调控网络、代谢途径、细胞分化和组织发育。例如,比较未知基因与已知基因表达谱的相似性能帮助推测未知基因的功能。 (2)医学及药学研究例如,如果特定的一些基因的高表达与某种肿瘤密切相关,可以研究这些或其它有相似表达谱的基因的表达的影响条件,或研究能降低表达水平的化合物(潜在药物)。 (3)诊断研究 通过对数据库数据进行基因表达谱的相似性比较对疾病早期诊断具有临床价值。 (4)毒理学研究 例如,了解大鼠某种基因对特定毒剂的反应可帮助预测人的同源性基因的反应情况。 (5)实验质量控制和研究参考实验室样本与数据库中标准对照样本比较能找出方法和设备问题。此外,还能提供其他研究者的研究现状,避免重复实验,节约经费。 数据库的特点和难点 目前急需建立标准注释的公共数据库,但这是生物信息学迄今面临的最复杂且富有挑战性的工作之一。主要困难来自对实验条件细节的描述,不精确的表达水平相对定量方法以及不断增长的庞大数据量。 目前所有的基因表达水平定量都是相对的:哪些基因差异表达仅仅是与另外一个实验比较而言,或者与相同实验的另一个基因的相比而言。这种方法不能确定mRNA的拷贝数,转录水平是总的细胞群的平均水平。结果导致采用不同技术进行基因表达的检测,甚至不同实验室采用相同技术,都有可能不能进行比较。对不同来源数据的进行比较有必要采取两个步骤:首先,原始数据应避免任何改动,比如采取数据标准化(data-normalization)的方法。其次,在实验中设计使用标准化的对照探针和样本以便给出参考点至少使来自同一实验平台的数据标准化。 另一难点是对实验条件的描述,解决方法是对实验方法用采用规范化词汇的文件描述:如基因名称,物种,发育阶段,组织或细胞系。还要考虑偶然的不受控制实验因素也可能影响表达:例如空气湿度,甚至实验室的噪音水平。目前建立一种结构能对将来实验设计的所有细节进行描述显然是不可能的。比较现实的解决办法是大部分采用自由文本描述实验,同时尽可能加上有实用价值的结构。DNA芯片实验的标准注释必须采用一致的术语,这有待时间去发展。但目前,就应采用尽可能合理的标准用于DNA芯片数据及其注释。 标准化的基因表达公共数据库要有五类必要的信息: (1)联系信息:提交数据的实验室或研究人员的信息。 (2)杂交靶探针信息:对阵列上的每个“点”,应有相应的DNA序列在公共数据库中的编号。对cDNA阵列,克隆识别号(如IMAGE clone_id)应给出。 (3)杂交样本:细胞类型和组织来源用标准语言描述。常规诊断病理中使用的组织和组织病理词汇可被采用,还可采用胚胎发育和器官发生中的标准词汇。样本来源种属的分类学名称(如Saccharomyces cerevisiae,Homo sapiens),应当提供。对有些生物体如啮齿类动物和微生物,品系资料需要提供。关于实验中生物体状况的资料,如用药或未用药非常关键,也需提供。“肿瘤与正常”或不同发育阶段也该注明。细胞或生物体的遗传背景或基因型在特定例子中也应是重要的,如酵母基因缺失和转基因鼠。最后,由于组织处理的会引起差别,故应包括相关的详细处理方法。 (4)mRNA转录定量:这方面非常关键,很难通过一组“持家基因”做内参照进行标准化,有关的具体定量方法应提供。 (5)统计学意义:理想地,应经济合理地有足够的次数重复一个实验以便给出基因表达测定的变异情况,最好能提供合理的可信度值。 上述表达数据记录的前两个要求是简单的,第三个要求较困难需有标准术语协议,但这并不只是表达数据的要求,类似的要求已在公共序列数据库或专业化的数据库中得到成功解决。目前基因表达数据最富有挑战性的方面是最后两个方面。 现状和计划 几个大的芯片实验室如斯坦福大学和麻省理工学院Whitehead研究所等,在发展实验室内部数据库;大的商业化芯片公司如Affymetrix, Incyte,GeneLogic,正在开发基于Affymetrix芯片技术平台的商业化基因表达数据库。哈佛大学已经建立了一个的数据库,数据来自几个公共来源并统一格式。宾夕法尼亚大学计算生物学和信息学实验室正在整合描述样本的术语。 目前至少有3个大的公共基因表达数据库项目:美国基因组资源国家中心的GeneX;美国国家生物技术信息中心(NCBI)的Gene Expression Omnibus;欧洲生物信息学研究所(EBI)的ArrayExpress. 欧美专家合作提出有关数据库的初步标准:实验描述和数据表示的标准;芯片数据XML 交换格式;样本描述的术语;标准化、质量控制和跨平台比较;数据查询语言和数据挖掘途径。(http://www.ebi.ac.uk/microarray/)。EBI与德国癌症研究中心正在开发ArrayExpress , 一种与目前推荐标准兼容的基因表达数据库。该数据库将利用来自合作方的的数据,可操作的数据库将于近期建立(http://www.ebi.ac.uk/arrayexpress)。