基于R_Bioconductor进行生物芯片数据分析
- 格式:ppt
- 大小:1.62 MB
- 文档页数:21
生物信息学中的基因表达数据分析教程基因表达数据分析是生物信息学中的重要研究领域,它帮助我们理解基因在不同条件下的表达模式,揭示基因功能和调控机制。
本篇文章将为您介绍基因表达数据分析的基本流程和常用的方法。
一、基因表达数据基因表达数据是指基因在细胞或组织中的相对或绝对表达水平。
它可以通过不同的实验方法获得,如基因芯片(microarray)和高通量测序(high-throughput sequencing)技术。
这些技术产生的数据量庞大,需要通过生物信息学的方法进行分析和解释。
二、常用的基因表达数据分析方法1. 数据清洗和预处理基因表达数据分析的第一步是对原始数据进行清洗和预处理。
这包括数据质量控制、噪声去除、基因表达量的归一化和批次效应的去除等。
这些步骤有助于提高数据的准确性和可靠性。
2. 异常值检测在基因表达数据中,可能存在异常值或离群点。
这些异常值可能是实验误差、生物学变异或技术偏差导致的。
通过统计学和可视化方法,我们可以检测和处理这些异常值,以避免其对后续分析结果的影响。
3. 差异表达分析差异表达分析是基因表达数据分析的核心内容之一。
它可以帮助我们发现在不同生物条件下表达差异显著的基因。
常用的差异表达分析方法有t检验、方差分析、贝叶斯方法等。
这些方法可以对基因的差异表达进行统计检验,并筛选出差异表达显著的基因。
4. 功能富集分析功能富集分析可以帮助我们理解差异表达基因的功能和参与的生物过程。
通过将差异表达基因与公共数据库中的功能注释进行比较,我们可以发现这些基因所参与的通路、功能和生物过程。
常用的功能富集分析工具包括DAVID、GOstats、KEGG等。
5. 聚类和可视化聚类分析可以帮助我们将基因表达数据划分为不同的表达模式,从而揭示基因之间的关联和功能聚类。
常用的聚类方法包括层次聚类、k均值聚类、PCA等。
可视化还可以通过图表、热图和网络图等方式直观地展示基因表达模式和差异表达基因。
6. 基因网络分析基因网络分析可以帮助我们理解基因之间的相互作用和调控关系。
国外几套再分析资料的对比与分析随着科技的发展和数据分析的普及,再分析资料在许多领域的应用越来越广泛。
在国外,有许多再分析资料可供研究人员选择。
本文将对其中几套进行对比与分析,帮助读者更好地了解这些资料的特点和应用场景。
CRAN和Bioconductor是R语言环境中常用的两大软件包。
CRAN是R 语言最主要的软件包仓库,提供了大量的统计和机器学习等领域的工具包。
而Bioconductor则是一个以生物信息学分析为主的R包集合。
CRAN软件包更新较快,且有着庞大的社区支持和文档,方便用户进行二次开发和问题解决。
但同时由于更新较快,部分新版本的包可能在一些老版本的R语言中存在兼容性问题。
Bioconductor在生物信息学领域具有很高的权威性,对于生物医学研究人员来说,其软件包更加全面和细致。
但相比CRAN,其更新速度较慢,且文档相对较少。
Docker和Singularity是两种常用的容器化技术,可帮助用户在云端或服务器上运行分析任务。
Docker的优势在于其社区极为活跃,生态系统也比较完善。
它支持多种语言和框架,可以轻松地构建和发布复杂的分析流程。
但Docker 对系统的资源要求相对较高,且在某些场景下可能存在安全性和隐私问题。
Singularity是专门为科学计算和分析设计的容器化技术,对于科学计算和数据分析任务有很好的支持。
同时,Singularity更加轻量级,对系统资源的要求较低。
但相比Docker,其生态系统和支持的广泛性可能略有不足。
Jupyter Notebook和Google ColabJupyter Notebook和Google Colab都是基于Web的交互式计算环境,可方便研究人员进行数据分析和机器学习等任务。
Jupyter Notebook具有强大的社区支持和丰富的扩展性,用户可以自由地编写Python、R、Julia等语言的代码,并进行实时的可视化输出。
但其也存在一定的学习曲线,且对于非程序员来说,可能需要一些时间来熟悉其交互方式。
bioconductor分析芯片数据教程wangpeng905 2017.04.21 09:21* 这是我在The Bioinformatics Knowledgeblog 上看到的一篇教程,原文在这里,教程条理清晰,对我理解芯片数据分析流程帮助很大,就把它翻译了过来。
介绍芯片数据分析流程有些复杂,但使用R 和Bioconductor 包进行分析就简单多了。
本教程将一步一步的展示如何安装R 和Bioconductor,通过GEO 数据库下载芯片数据,对数据进行标准化,然后对数据进行质控检查,最后查找差异表达的基因。
教程示例安装的各种依赖包和运行命令均是是在Ubuntu 环境中运行的(版本:Ubuntu 10.04,R 2.121),教程的示例代码和图片在这里。
安装R 和Bioconductor 包打开命令终端,先安装R 和Bioconductor 的依赖包,然后安装R.$ sudo apt-get install r-base-core libxml2-devlibcurl4-openssl-dev curl$ R之后在R 环境中安装Bioconductor 包> # 下载Bioconductor 的安装程序> source("/biocLite.R")> # 安装Bioconductor 的核心包> biocLite()> # 安装GEO 包> biocLite("GEOquery")如果你没有管理员权限,你需要将这些包安装到你个人库目录中。
安装Bioconductor 需要一段时间,GEOquery 包也需要安装,GEOquery 是NCBI 存储标准化的转录组数据的基因表达综合数据库GEO 的接口程序。
下载芯片数据本教程中我们使用Dr Andrew Browning 发表的数据集GSE20986。
使用生物大数据技术进行表观遗传学修饰分析的常见问题解答表观遗传学修饰是一类重要的基因组调控机制,对生物发育、生理功能和疾病进展有着重要影响。
近年来,随着生物大数据技术的发展,越来越多的研究者开始运用生物信息学方法进行表观遗传学修饰分析。
本文将回答一些使用生物大数据技术进行表观遗传学修饰分析时常见的问题。
问题一:什么是表观遗传学修饰?表观遗传学修饰是指对基因组DNA和相关蛋白质的化学修饰,而这些修饰可以影响基因的表达和功能而不改变DNA序列本身。
常见的表观遗传学修饰包括甲基化、组蛋白修饰、DNA甲基化以及非编码RNA等。
这些修饰可以通过转录因子、染色质结构的改变和非编码RNA等一系列机制实现。
问题二:生物大数据技术有哪些常用的分析方法?生物大数据技术在表观遗传学修饰分析中扮演了重要角色,常用的分析方法包括但不限于以下几种:1. 基因表达分析:通过RNA测序数据分析,确定基因的表达水平,以及表观遗传学修饰与基因表达之间的关系。
2. 甲基化分析:通过甲基化芯片或甲基化测序数据分析DNA甲基化的程度和分布情况,以及甲基化与基因表达及其他表观遗传学修饰的关联。
3. 染色质高级结构的研究:通过基于Hi-C等技术的连接图谱数据分析,研究染色质的高级结构,如顶域的形成以及基因调控因子和基因座之间的相互作用。
4. 序列特征分析:利用DNA序列或其他相关信息,进行识别和注释表观遗传学修饰相关的序列特征,如启动子、增强子、染色质开放区域等。
问题三:如何获取生物大数据和运用于表观遗传学修饰分析?获取生物大数据主要依赖于公开数据库,如NCBI、ENCODE、GEO和TCGA 等。
这些数据库收集了大量的表观遗传学修饰相关的数据,包括甲基化、组蛋白修饰、转录因子结合位点等信息。
研究者可以通过访问这些数据库并下载相关数据进行分析。
运用生物大数据进行表观遗传学修饰分析需要一定的分析软件和编程技能。
常用的数据分析工具包括R、Python、Bioconductor等,它们提供了丰富的数据分析函数和算法。
R语⾔实例操作分析GEO数据库甲基化芯⽚⼩伙伴们,上次为⼤家解读了⼀篇GEO甲基化芯⽚相关的SCI⽂献(Aberrantly methylated-diferentially expressed genes and pathways in colorectal cancer),今天,⼩编打算带领⼤家⽤R软件实例操作分析GEO甲基化芯⽚。
作为⽬前最⼤的芯⽚数据库,GEO数据库提供给我们了海量的数据,但是,错综复杂的数据交织在⼀起,如何选择数据是摆在我们⾯前最重要的问题,读完今天这篇⽂章,我相信⼤家都能学会GEO甲基化芯⽚的分析。
下⾯,就和⼤家⼀起跑⼀遍R,希望⼤家喜欢这篇⽂章!⾸先是GEO甲基化芯⽚的下载和预处理。
进⼊GEO数据库主页,也可以通过NCBI官⽹的GEO DataSets或GEO Profiles进⼊(进⼊NCBI数据库后下拉搜索框)。
主页搜索框输⼊关键词“Methylation”,点击search,出来两⾏英语,⼀般选择第⼀⾏的数字,点进去。
页⾯跳转到GEO DataSets,这和NCBI中直接进⼊是⼀样的,直接输⼊需要检索的肿瘤,或者如下图点击Advanced后,在⾼级检索中分别输⼊“Colorectal cancer”和“Methylation”,根据⾃⼰的需要选择合适的甲基化芯⽚。
如果⼤家知道芯⽚的GSE号,也可以直接根据GSE号来检索。
例如,本帖根据研究内容选择了“GSE29490”这张芯⽚。
点击芯⽚标题,则可弹出这张芯⽚的全部注释信息。
下拉该页⾯,可以看到该芯⽚的探针平台信息,样本信息,以及矩阵⽂件(名字Series MatrixFile(s)的TXT格式)和原始⽂件(TAR格式的⽂件)。
⼀般选择下载矩阵⽂件,如果下载原始⽂件,需要我们⾃⾏整理矩阵⽂件,还是⽐较⿇烦的!点击Series Matrix File(s)后,选择⽂件的路径点击保存。
对下载好的矩阵⽂件解压,使⽤EXCEL表格打开,如下图,其中感叹号开头的是注释⽂件,将其删除。
GSAR_基因集分析_Bioconductor⽤R语⾔做基因集分析—— GSAR软件包Gene Set Analysis in R -- the GSAR PackageYasir Rahmatallahand Galina GlazkoDepartment of Biomedical Informatics,University of Arkansas for MedicalSciences,Little Rock, AR 72205.yrahmatallah@/doc/b3ea1b47a9114431b90d6c85ec3a87c241288a15.html , gvglazko@/doc/b3ea1b47a9114431b90d6c85ec3a87c241288a15.htmlGSAR版本1.10.0 最新修改2017-01-03GSAR version 1.10.0 (Last revision 2017-01-03)翻译:任重鲁南⽅医科⼤学南⽅医院,renzhonglu@/doc/b3ea1b47a9114431b90d6c85ec3a87c241288a15.html , 2017-07-13⽬录1 简介 22 最⼩⽣成树(MST) 32.1 First MST 32.2 MST2 for correlation and PPI networks 43 统计⽅法 63.1 Wald-Wolfowitz 检验 63.2 Kolmogorov-Smirnov 检验 63.3 均值偏差检验Mean deviation test73.4 凝聚的F检验Aggregated F-test83.5 基因集⽹络相关性分析83.5.1 ⽅法83.5.2 零标准偏差存在的问题94 处理RNA测序计数数据的注释95 个案研究Case studies 105.1 p53数据集105.1.1 简介105.1.2 数据过滤和标准化105.1.3 GSA105.2 急性粒细胞⽩⾎病数据集(ALL)135.2.1 简介135.2.2 数据过滤和标准化135.3 Pickrell数据集155.3.1 简介155.3.2 数据过滤和标准化165.3.3 检验选定的通路176 会话信息(Session info)187. 参考⽂献(References)191.简介(Introduction)本⼿册提供了R平台下的GSAR软件包的简要介绍,GSAR包提供了⼀系列对⾃包含基因集分析(self-contained gene set analysis)的多元统计检验⽅法。
Bioconductor包的使用方法1. 什么是Bioconductor包?Bioconductor是一个用于生物信息学和计算生物学的开源软件项目,旨在提供生物学数据的分析和可视化工具。
Bioconductor项目提供了大量的R语言包,用于处理、分析和可视化生物学数据。
这些包涵盖了多个领域,包括基因表达、基因组学、蛋白质组学、代谢组学等。
Bioconductor包的使用方法可以帮助生物学家、生物信息学家和计算生物学家更好地利用Bioconductor项目提供的工具和资源,进行生物学数据的分析和解释。
2. 安装Bioconductor包要使用Bioconductor包,首先需要安装Bioconductor。
安装Bioconductor的方法如下:if (!requireNamespace("BiocManager", quietly = TRUE))install.packages("BiocManager")BiocManager::install()上述代码会安装BiocManager包,然后使用BiocManager::install()函数安装Bioconductor。
3. 查找Bioconductor包Bioconductor提供了一个网站,可以用于查找和浏览Bioconductor包。
该网站的网址是,可以在搜索框中输入关键词来查找相关的包。
在R中,可以使用BiocManager::available()函数来列出所有可用的Bioconductor 包。
可以使用BiocManager::search()函数来搜索包含指定关键词的包。
# 列出所有可用的Bioconductor包BiocManager::available()# 搜索包含指定关键词的Bioconductor包BiocManager::search("gene expression")4. 安装Bioconductor包要安装Bioconductor包,可以使用BiocManager::install()函数。
基因芯片技术的新发展及其应用随着科技的不断发展,基因芯片技术又迎来了新的发展。
基因芯片技术是一种高通量的分析方法,可以在短时间内高效地检测大量基因信息,是生物医学研究、疾病诊断、药物研发和个性化医疗等领域中不可或缺的一项技术手段。
一、基因芯片技术的基础基因芯片技术的基础是DNA芯片技术。
DNA芯片是一种基于微电子工艺的生物芯片,利用集成电路技术将数百万个或数千万个碱基序列植入到一个小小的芯片上,从而可以在芯片上同时检测DNA样本中的成千上万个基因。
基因芯片技术可以高通量地检测基因的表达量、基因型信息等,极大地提高了对生物学过程的理解和分子生物学研究的速度和效率。
二、基因芯片技术的发展目前,基因芯片技术已经发展出许多不同类型的芯片,如基因表达芯片、SNP芯片、CNA芯片等。
其中,基因表达芯片可以检测不同实验条件下RNA的表达水平,是最常用的一种芯片类型。
SNP芯片可以针对单核苷酸多态性(SNP)进行检测,其中某些SNP位点与疾病的关联已经被证实。
CNA芯片可以检测染色体数目异常(例如失活、扩增)或基因重排等基因变异,对于肿瘤等疾病诊断和治疗具有重要作用。
基因芯片技术的发展还带来了相应的算法和分析软件。
常用的数据分析软件包括R、Bioconductor、MATLAB等。
这些软件可以对芯片数据进行预处理、质量控制、差异分析、聚类分析、生物通路分析、基因功能富集分析等。
这些算法和软件在加速了数据分析处理的同时,也对基因芯片技术的应用和发展提供了帮助。
三、基因芯片技术的应用基因芯片技术在临床、药物研发和生态学等领域具有广泛的应用。
以下是几个具体应用案例:1. 临床诊断临床诊断中,基因芯片技术可以实现癌症早期诊断、疾病预测和治疗方案的个性化设计。
例如,肺癌基因芯片可以检测肺癌患者的基因表达信息,从而帮助医生进行疾病分级和个性化治疗。
2. 药物研发在药物研发中,基因芯片技术可以快速筛选有潜力的药物靶点和药物分子,并监测药物分子与基因的相互作用。
沙龙第⼋期:⽣信免编程genespring实操——万能芯⽚数据分析现场答疑通知:freescience周末沙龙直播使⽤腾讯课堂,关注每⽇推送和群通知报名参加。
课程是meta与⽣信专题周轮替,并设有答疑环节,解决读者和群友提出的问题。
⼩伙伴们,免编程找差异的genespring软件好⽤吗?赵⽼师写了⼀整个系列,⽤还原⽂献的⽅式介绍了genespring的使⽤(发送⼤数据到后台,领说明书+查看整个系列)。
发送沙龙到后台,复习前⼏期的沙龙内容。
上周六,赵⽼师为⼤家在线讲解了免编程学⽣信-genespring找差异分⼦案例实践--万能芯⽚数据分析,并现场解答群友提出的相关提问(qq群463367325)。
(*  ̄3)(ε ̄ *)感谢⼩编编组假期的⾟苦⼯作,⼤家可以领视频了!发送 GSNX 到后台,马上得全套现场课程+答疑视频,开始⼩⽩的历练之路吧~最近提过问题但错过现场答疑的同志,仔细看推送中有没有⾃⼰的提问,领到录像好好学习……要是有追问,可以组织语⾔在群⾥求助(提问前请仔细阅读这篇求助得回应秘诀),如果没有解答,周六统⼀直播回答。
点这⾥查看什么是优质的提问~发送到有道云笔记的优质提问将获得专场解答,将问题写在有道云笔记⾥,进qq群463367325,把有道云笔记链接私信发给⼩觅0号(点这⾥看欧阳同学整理的有道云使⽤⼼得)。
问答版与现场答疑内容仅供参考,并⾮标准答案,欢迎⼤家深⼊思考,提出不同的见解。
赵⽼师的⽣信沙龙问答版问:genespring在哪提供配对信息???赵忻艺部分⽂字回答:见之后操作课程演⽰问:1.可以直接⽤GSE的soft⽂件进⾏临床相关性分析吗?赵忻艺部分⽂字回答:soft和临床相关性⽆关系2.散点图可以放在⽂章中吗?赵忻艺部分⽂字回答:问题表达不清⽆法回答3.进⾏临床相关性分析时,数据需要进⾏Z-score处理吗?赵忻艺部分⽂字回答:Z-score与临床相关性⽆关系4.GEO的数据有包含⽣存资料的吗?赵忻艺部分⽂字回答:⼤部分不包含,部分包含问:想问⼀下,如何预测两个基因之间的关系?赵忻艺部分⽂字回答:ppi和⽪尔森相关系数问:毕业论⽂中的第⼀部分和第⼆部分某些⽅法学完全⼀样,能不能再复制⼀遍凑字数?赵忻艺部分⽂字回答:⽆法回答。
急性心肌梗死后心室重构相关基因的生物信息学分析目的通过生物信息学分析探讨急性心肌梗死后心室重构的相关基因及功能。
方法分析基因表达数据库中与心梗后心室重构有关的数据集。
结果在GSE47495数据集中共筛选出611个差异表达基因(DEG)。
在基因本体论分析中对DEG按照生物途径、分子功能、细胞定位注释。
对DEG涉及的信号通路进行Pathway分析。
蛋白与蛋白互相作用网络确定的核心基因有:酰基辅酶A 氧化酶1(Acox1)、膜联蛋白A1(Anxa1)、凝血因子XⅢA1链(F13a1)。
药物筛选结果表明棕榈油、姜黄素可能调节这些基因。
结论在心肌梗死后心室重构的发生过程中,出现表达变化的基因功能主要集中在代谢、细胞外基质、炎症、凝血方面,其中Acox1、Anxa1、F13a1可能发挥着重要作用,棕榈油、姜黄素可能调节这些基因,发挥改善心室重构的作用。
[Abstract] Objective To identify the molecular mechanisms underlying ventricular remodeling after myocardial infarction using bioinformatics methods. Methods Microarray data about ventricular remodeling after myocardial infarction were searched from GEO database. Results The array data of GSE47495 were obtained. A total of 611 DEG were identified. Gene ontology analysis showed that the DEG significantly enriched in biological processes,molecular function,and cell component. Pathway analysis showed the DEGs were involved in signaling pathways. The top 3 hub genes,Acox1,Anxa1,and F13a1 were identified from protein-protein interaction network. Results from drug screening indicated that palm oil and curcumin may regulate the above genes. Conclusion During post infarction ventricular remodeling,the identified DEG are mainly enriched in metabolism,extracellular matrix,inflammation,and coagulation. The hub genes,Acox1,Anxa1,and F13a1 provid potential targets for treatment of ventricular remodeling. Palm oil and curcumin may improve the ventricular remodeling through the regulation of these genes.[Key words] Acute myocardial infarction;Ventricular remodeling;Gene;Bioinformatics有研究表明,急性心肌梗死(簡称“心梗”)患者在住院期间的病死率已有所下降[1]。
作者简介:周颖(1991-),在读硕士,主要从事自身免疫性疾病所致的皮肤病研究㊂ ә 通信作者,E -m a i l :2643535532@q q.c o m ㊂㊃生物信息学㊃ d o i :10.3969/j.i s s n .1671-8348.2020.23.031网络首发 h t t ps ://k n s .c n k i .n e t /k c m s /d e t a i l /50.1097.R.20201117.1821.004.h t m l (2020-11-18)系统性红斑狼疮关键基因及通路的生物信息学分析周 颖1,2,蔡昕添1,贾雪松2,曾 佳2ә(1.石河子大学医学院,新疆石河子832000;2.石河子大学医学院第一附属医院皮肤科,新疆石河子832008) [摘要] 目的 通过生物信息学方法探究系统性红斑狼疮患者的全血细胞差异表达基因及其相关信号通路,寻找潜在的系统性红斑狼疮特异性分子标志物㊂方法 利用R 语言软件校正㊁分析基因芯片G S E 61635并筛选差异表达基因(D E G s ),利用一系列生物信息学大数据库分析D E G s 并获得其G O 富集分析和K E G G 信号通路分析的结果㊂利用S T R I N G 数据库构建蛋白质互作网络,再将结果导入C y t o s c a pe 软件中筛选关键基因并绘制蛋白质互作网络图,并利用G S E 72754芯片对关键基因进行验证㊂结果 筛选获得了626个D E G s,其中表达上调的基因429个,表达下调的基因197个㊂G O 富集分析显示,D E G s 主要参与了细胞对Ⅰ型干扰素的反应㊁病毒基因组复制的负调控和Ⅰ型干扰素信号通路调节等生物学过程,K E G G 信号通路分析主要包括了R I G -Ⅰ样受体信号通路㊁胞质D N A 传感通路和单纯疱疹病毒感染通路㊂D e gr e e 算法分析获得了10个关键基因分别为O A S L ㊁O A S 1㊁O A S 2㊁O A S 3㊁I F I T 1㊁I F I T 3㊁M X 1㊁D D X 58㊁R S A D 2和I R F 7,经验证证实上述关键基因在G S E 72754芯片中表达仍明显上调㊂结论 通过生物信息学分析获得系统性红斑狼疮的D E G s㊁关键基因㊁生物学功能和信号通路等信息,为探究系统性红斑狼疮致病相关分子机制㊁发掘潜在诊断标志物及开发治疗新靶点提供理论依据与新的方向㊂[关键词] 红斑狼疮,系统性;差异表达基因;计算生物学;信号通路[中图法分类号] R 593.241[文献标识码] A[文章编号] 1671-8348(2020)23-4001-07B i o i n f o r m a t i c s a n a l y s i s f o r k e y g e n e s a n d p a t h w a ys i n s y s t e m i c l u p u s e r yt h e m a t o s u s Z H O U Y i n g1,2,C A I X i n t i a n 1,J I A X u e s o n g 2,Z E N G J i a 2ә(1.S c h o o l o f M e d i c i n e ,S h i h e z i U n i v e r s i t y ,S h i h e z i ,X i n j i a n g 832000,C h i n a ;2.D e p a r t m e n t o f D e r m a t o l o g y ,t h e F i r s t H o s p i t a l A f f i l i a t e d t o S c h o o l o f M e d i c i n e o fS h i h e z i U n i v e r s i t y ,S h i h e z i ,X i n j i a n g 832008,C h i n a ) [A b s t r a c t ] O b je c t i v e T o e x p l o r e t h e d if f e r e n t i a l l y e x p r e s s e dg e n e s ,a s s o c i a t e d s i g n a l i n g p a th w a y si n c o m p l e t e b l o o d c e l l o f p a t i e n t s w i t h s y s t e m i c l u p u s e r y t h e m a t o s u s (S L E )b y b i o i n f o r m a t i c s a n a l y s i s a n d t o i -d e n t i f y p o t e n t i a l s y s t e m i c l u p u s e r y t h e m a t o s u s -s p e c i f i c m o l e c u l a r m a r k e r s .M e t h o d s T h e g e n e c h i pG S E 61635w a s c o r r e c t e d a n d a n a l y z e d b y R s o f t w a r e ,a n d d i f f e r e n t i a l l y e x pr e s s e d g e n e s (D E G s )w e r e s c r e e n e d .A s e r i e s o f b i o i n f o r m a t i c s d a t a b a s e s w e r e u s e d t o a n a l yz e D E G s a n d o b t a i n t h e r e s u l t s o f i t s G O e n -r i c h m e n t a n a l y s i s a n d K E G G s i g n a l i n g p a t h w a y a n a l y s i s .A p r o t e i n i n t e r a c t i o n n e t w o r k w a s c o n s t r u c t e d u s i n ga S T R I N G d a t ab a s e ,a n d t h e r e s u l t s w e r e i m p o r t e d i n t o C y t o sc a p e s o f t w a r e t o s c r e e n k e y g e n e s a nd m a p th e p r o t e i n i n t e r a c t i o n n e t w o r k .T h e k e y g e n e s w e r e v e r i f i e d b y G S E 72754c h i p.R e s u l t s A t o t a l o f 626D E C s w e r e o b t a i n e d ,o f w h i c h 429w e r e u p -r e g u l a t e d a n d 197w e r e d o w n -r e g u l a t e d .G O e n r i c h m e n t a n a l ys i s s h o w e d t h a t D E G s w a s m a i n l y i n v o l v e d i n b i o l o g i c a l p r o c e s s e s s u c h a s c e l l r e s p o n s e t o t y p e Ⅰi n t e r f e r o n ,n e g a t i v e r e g-u l a t i o n o f v i r a l g e n o m e r e p l i c a t i o n a n d r e g u l a t i o n o f t y p e I i n t e r f e r o n s i g n a l i n g p a t h w a y .K E G G s i g n a l i n gp a t h w a y a n a l y s i s m a i n l y i n c l u d e d R I G -Ⅰ-l i k e r e c e p t o r s i g n a l i n g p a t h w a y ,c y t o p l a s m i c D N A s e n s i n g p a t h w a ya n d h e r p e s s i m p l e x v i r u s i n f e c t i o n p a t h w a y .D e g r e e a l g o r i t h m a n a l y s i s ob t a i n e d 10k e y ge n e s :O A S L ,O A S 1,O A S 2,O A S 3,I F I T 1,I F I T 3,M X 1,D D X 58,R S A D 2a n d I R F 7.I t w a s c o nf i r m e d ag a i n th a t t h e e x p r e s si o n o f t h e s e k e yg e n e s i n G S E 72754c h i p w a s s t i l l s i g n i f i c a n t l y u p -r e g u l a t e d .C o n c l u s i o n T h r o u g h b i o i n f o r m a t i c s a n a l ys i s ,D E G s ,k e y g e n e s ,b i o l o g i c a l f u n c t i o n s ,s i g n a l i n g p a t h w a y s a n d o t h e r i n f o r m a t i o n o f s y s t e m i c l u p u s e r yt h e m a t o s u s c a n b e o b t a i n e d t o p r o v i d e t h e t h e o r e t i c a l b a s i s a n d n e w d i r e c t i o n f o r e x p l o r i n gt h e m o l e c u l a r m e c h a n i s m r e l a t e d t o p a t h o g e n e s i s o f s y s t e m i c l u p u s e r y t h e m a t o s u s ,e x p l o r i n g t h e p o t e n t i a l d i a g n o s t i c m a r k e r s a n d d e v e l o p i n g ne w 1004重庆医学2020年12月第49卷第23期t h e r a p e u t i c t a r g e t s.[K e y w o r d s]l u p u s e r y t h e m a t o s u s,s y s t e m i c;d i f f e r e n t i a l l y e x p r e s s e d g e n e s;c o m p u t a t i o n a l b i o l o g y;s i g-n a l i n g p a t h w a y系统性红斑狼疮(s y s t e m i c l u p u s e r y t h e m a t o s u s, S L E)是一种慢性多系统性自身免疫性疾病,其症状因人而异,常见症状包括发热㊁脱发㊁口腔溃疡㊁面部皮疹[1]㊂S L E的病因尚不清楚,但目前认为其病因主要涉及遗传因素和环境因素[2]㊂越来越多的研究发现S L E患者体内存在的某种遗传易感性是其起病的基础[3-4]㊂因此,需要更好地理解S L E致病相关分子机制,以促进对疾病的诊断㊁分期和探索新的治疗靶点,从而更好地改善患者的预后㊂当前,高通量测序技术的应用为广大科研工作者提供了海量的微阵列数据信息,同时随之而产生的生物信息学分析方法也为分析这样的大数据集提供了一种高效㊁可行的方法㊂因此,本研究通过分析美国国家生物技术信息中心旗下的基因表达数据库(G E O)中S L E相关基因芯片数据集㊂通过R语言软件筛选差异表达基因(D E G s),并利用一系列生物信息学大数据库检索芯片数据集中D E G s的G O富集分析㊁K E G G信号通路分析,最后使用C y t o s c a p e软件进行分析并筛选关键基因㊂从遗传基因组层面深入探究S L E致病相关分子机制,发掘潜在诊断标志物及开发治疗新靶点㊂1材料与方法1.1微阵列数据的获取在本研究中所探究的基因芯片列阵数据集检索G E O数据库(h t t p s://w w w.n c b i.n l m.n i h.g o v/ g e o/)[5]㊂以如下检索式进行检索:S L E[A l l F i e l d s] A N D H o m o s a p i e n s [p o r g n]A N D( g s e [F i l t e r] A N D E x p r e s s i o n p r o f i l i n g b y a r r a y [F i l t e r]),最终获得由G R E I D I N G E R等提交的基于G P L570芯片平台(A f f y m e t r i x H u m a n G e n o m e U133P l u s2.0A r-r a y)的G S E61635芯片数据(h t t p s://w w w.n c b i. n l m.n i h.g o v/g e o/q u e r y/a c c.c g i?a c c=G S E61635)和D U C R E U X等提供的同样基于G P L570芯片平台的G S E72754芯片数据(h t t p s://w w w.n c b i.n l m. n i h.g o v/g e o/q u e r y/a c c.c g i?a c c=G S E72754)㊂G S E61635基因芯片和G S E72754基因芯片均采用全血细胞为研究样本㊂G S E61635芯片数据作为发现组,来自另一队列的G S E72754芯片数据作为验证组㊂G R E I D I N G E R等共检测了129个样本的全血m R N A,其中包括来自同一S L E患者队列的99例样本及来自健康人群队列的30例样本㊂D U C R E U X等共检测了52个样本的全血m R N A,其中包括S L E患者队列的42例样本及来自健康人群的10例样本㊂1.2方法1.2.1 D E G s的数据处理基于R语言环境下使用B i o c o n d u c t o r芯片数据分析包中的i m p u t e包[6]对所获取的芯片数据通过使用k最近邻算法进行缺失值的补全㊂对补全后的数据进行背景校正和归一化处理并绘制出处理前后的芯片数据值分布效果的箱体图,并利用主成分分析来对一系列可能相关的变量的观测值进行线性变换降维处理和分析疾病组与对照组整体数据之间有无显著性差异㊂最后通过l i mm a包[7]使用线性回归模型来评估多因素设计实验背景下的差异表达,拟合构建对比模型并筛选D E G s㊂D E G s筛选标准要求为:(1)差异倍数绝对值大于或等于2(|l o g F C|ȡ2);(2)错误发现率(F D R)<0.05㊂筛选后的D E G s数据可视为表达具有显著性差异的D E G s㊂使用R语言中的g g p l o t2包[8]绘制D E G s的火山图,p h e a t m a p包绘制出D E G s的聚类分析热图㊂1.2.2 G O富集分析和K E G G信号通路分析G O[9]富集分析是大规模功能富集研究的常用方法,G O数据库可分别从生物学过程(B P)㊁分子功能(M F)和细胞内定位(C C)对基因产物进行标准化的描述㊂K E G G[10]数据库是一个被广泛使用的数据库,其中存储了大量关于基因组学㊁蛋白组学和生物学通路相关的数据㊂笔者使用在线工具D A V I D6.8[11]和E n r i c h r[12]㊂1.2.3蛋白质互作网络的建立和关键基因鉴定通过构建蛋白质互作网络分析蛋白质互作信息并进一步挖掘网络图中的关键基因㊂利用S T R I N G 11.0[13]将之前筛选出来的D E G s导入S T R I N G数据库,综合得分大于0.4则认为蛋白-蛋白之间相互作用明显㊂随后,利用C y t o s c a p e软件(3.6.1版)将从S T R I N G数据库检索出的蛋白质互作网络绘制成图㊂利用分子复合检测算法(M C O D E)[14]对基于已知蛋白质互作网络中可能影响S L E发生㊁发展的候选基因模块进行了预测,根据聚类得分鉴定出最重要的M C O D E聚类模块㊂最后,使用C y t o s c a p e插件C y t o-H u b b a(3.4.0版)[15]对网络中的连通度进行了统计分析,以获取蛋白质互作网络中的重要节点或中心基因㊂1.2.4核心基因的再次验证利用G S E72754芯片中的数据对筛选出的核心基因在S L E患者和健康成年人中的表达情况进行验证㊂使用t检验(对于正态分布的数据)或非参数检验(对于非正态分布的数据)评估各组之间定量参数的差异㊂使用G r a p h P a d P r i s m6.1软件建立图表㊂2结果2.1 D E G s的筛选使用基于R语言对G S E61635原始芯片数据进行背景校正和归一化处理并绘制出处理前后的芯片数据值分布的箱体图,见图1㊂2004重庆医学2020年12月第49卷第23期A :校正前;B :校正后㊂图1 背景校正和归一化处理前后芯片数据值分布的箱体图利用主成分分析使用正交变换法来对一系列可能相关的变量的观测值进行线性变换降维处理并绘制二维图显示两组整体数据之间存在显著性差异,见图2㊂H C :健康对照组;S L E :系统性红斑狼疮组㊂图2 主成分分析二维图初步筛选发现,G S E 61635芯片共有626个表达改变明显的D E G s ,含429个上调基因,197个下调基因,G S E 61635芯片D E G s 的火山图与聚类分析热图分别见图3㊁4㊂红色:上调基因;绿色:下调基因㊂图3 D E G s的火山图红色:上调基因;绿色:下调基因;H C :健康对照组;S L E :系统性红斑狼疮组㊂图4 D E G s 的聚类分析热图2.2 G O 富集分析和K E G G 信号通路分析应用在线生物信息学数据库D A V I D 对上述626个D E G s 进行G O 富集分析,主要涉及细胞对Ⅰ型干扰素的反应㊁病毒基因组复制的负调控和Ⅰ型干扰素信号通路调节,见图5㊁6㊂图5 分类柱状图3004重庆医学2020年12月第49卷第23期红色:病毒防御反应;黄色:抵抗病毒感染;绿色:Ⅰ型干扰素信号通路;蓝色:细胞对Ⅰ型干扰素的反应;紫色:对Ⅰ型干扰素的反应㊂图6富集和弦图同样运用在线分析数据库D A V I D对上述626个D E G s进行K E G G信号通路分析,D E G s主要参与R I G-Ⅰ样受体信号通路㊁胞质D N A传感通路和单纯疱疹病毒感染等通路,见图7㊂图7 D E G s的K E G G信号通路分析2.3蛋白质互作网络与模块化分析为了更好地了解哪些D E G s最有可能成为S L E 致病最核心的关键基因,笔者选择了蛋白间互作评分大于或等于0.7的蛋白节点㊂使用C y t o s c a p e软件将不相连的节点去除,绘制出最终的蛋白质互作网络图,见图8㊂使用M C O D E插件对蛋白质互作网络进行了模块化分析,根据M C O D E聚类条件筛选出评分最高的核心模块㊂再使用C y t o H u b b a插件的D e g r e e算法(图9中颜色越深D e g r e e算法所计算得分越高)对该核心模块进一步分析,最终得到10个关键基因,其中包括:O A S L㊁O A S1㊁O A S2㊁O A S3㊁I F I T3㊁M X1㊁I F-I T1㊁D D X58㊁R S A D2㊁I R F7㊂这些基因在整个蛋白质互作网络中相对于其他基因而言存在着更强的互作关系,因此相对于其他基因而言它们在S L E的发病过程中可能发挥着更加决定性的作用㊂红色菱形:表达上调蛋白;绿色六边形:表达下调蛋白㊂图8 D E G s的蛋白质互作网络分析图9根据D e g r e e算法获得最终的10个关键基因2.4核心基因的验证利用G S E72754芯片中的数据对筛选出的核心基因在S L E患者全血细胞和健康成年人全血细胞中的表达情况进行验证,10个关键基因表达仍明显上调㊂3讨论目前,S L E的确切病因尚未完全阐明,普遍认为该病是在特定遗传背景的基础上,因激素水平变化和环境因素(如感染㊁药物㊁紫外线㊁饮食等)或某些未知因素的参与,通过表观遗传修饰破坏免疫系统的平衡,导致免疫细胞异常增殖,活化产生大量的自身抗体,最终导致多脏器损伤[1,16]㊂所以,遗传因素对于明确S L E的发生和发展过程至关重要㊂但是,目前尚未发现单个因果基因,相反,目前越来越多的研究发现在S L E的发生㊁发展过程中多基因之间的相互作用与该病的发病及多器官系统受累的情况密切相关[3-4]㊂微阵列芯片和高通量测序可用于同时大批量地定量测定基因组的表达水平,并结合生物信息学分析鉴定与疾病相关的生物途径和关键基因㊂本研究使用G S E61635芯片中包含的基因表达谱,共有626个4004重庆医学2020年12月第49卷第23期D E G s在S L E疾病组中的表达与健康对照组相比有着明显不同㊂O A S L㊁O A S1㊁O A S2和O A S3是一类受I F N调控的基因,属于2'-5'-寡腺苷酸合成酶家族成员且均位于12号染色体上,相互之间均具有较高程度的连通性㊂O A S具有不同的亚型:O A S1㊁O A S2㊁O A S3和O A S L,它们被认为是参与机体对病毒感染的固有免疫反应的必需蛋白[17]㊂它们可在干扰素的诱导下进行蛋白质的编码,并在2'-特异性核苷酸转移反应中使用三磷酸腺苷合成2',5'-寡腺苷酸㊂这些分子可激活潜在的R N a s e L,从而导致病毒和细胞内源R N A的降解,并抑制病毒复制[18]㊂在一项评估S L E 和病毒感染患者的研究中发现,在活动期S L E患者中,O A S1㊁O A S2㊁O A S3和O A S L m R N A的转录水平与病毒感染患者及健康人相比明显增加[19]㊂对于非活动期S L E和病毒感染患者,O A S1升高但O A S L 降低;而高水平的O A S L与合并病毒感染的S L E患者则呈现出负相关关系,这意味着O A S1和O A S L或许能作为病毒感染和狼疮活动的鉴别指标㊂这再次证实了先前的研究,病毒感染和抗病毒相关免疫反应极大地促进了S L E的发生㊁发展[20]㊂I F I T1是经干扰素诱导产生的抗病毒R N A结合蛋白之一,其可特异性结合带有5'-三磷酸基团(P P P-R N A)的单链R N A,从而充当病毒单链R N A的传感器并抑制病毒信使R N A的表达[21]㊂I F I T1是第一个被认为可作为S L E潜在致病因素的基因㊂目前已有研究指出I F I T1能够与R h o/R a c鸟嘌呤核苷酸交换因子相互作用,调节R h o/R a c蛋白的活化并进一步加重S L E病情的恶化[22]㊂I F I T3是一种蛋白质编码基因,该基因与I F I T1互为重要旁系同源物,且均为I F N诱导产生的抗病毒蛋白[23]㊂I F I T3可作为细胞和病毒过程㊁细胞迁移㊁增殖㊁信号传导和病毒复制的抑制剂,可通过充当将T B K1桥接至MA V S的衔接子来增强MA V S介导的宿主抗病毒反应,从而导致T B K1激活和I R F3磷酸化,磷酸化I R F3易位进入细胞核以促进抗病毒基因转录㊂通过上调细胞周期负调节剂C D K N1A/p21和C D K N1B/p27表现出抗增殖活性㊂通常,C D K N1B/p27的转换受C O P S5调控, C O P S5结合细胞核中的C D K N1B/p27并将其输出至细胞质,以进行泛素依赖性降解㊂I F I T3在细胞质中可隔离C O P S5,从而增加核C D K N1B/p27蛋白表达水平,间接负向调节I F I T1的凋亡速度[23-24]㊂M X1是一种蛋白质编码基因,具有与G T P结合和G T P酶活性等生物学功能,对多种R N A病毒和某些D N A病毒具有抗病毒活性,其靶标病毒包括负链R N A病毒和H B V㊂M X1主要富集于干扰素γ信号传导途径和T o l l样受体信号传导途径[25]㊂M X1是近些年来S L E中受到广泛研究的Ⅰ型干扰素诱导基因㊂有研究发现狼疮性肾炎患者外周血单个核细胞和肾固有细胞中M X1基因表达明显增加,并推测M X1在S L E中的高表达可能与调控区C p G s的低甲基化有关[26]㊂S H I M I Z U等[27]也发现狼疮性肾炎患者免疫抑制治疗后M X1表达明显降低,并且认为M X1是诊断S L E患者及判断狼疮肾炎活动性的重要潜在指标㊂I R F7是I R F家族的成员,参与了与免疫系统相关的多种功能和信号通路,包括T o l l样受体信号通路㊁N O D样受体信号转导㊁R I G-Ⅰ样受体信号转导和细胞内D N A感应通路㊂I R F7是Ⅰ型干扰素依赖性免疫应答的关键转录调节因子[28]㊂I R F7在正常细胞的细胞质中以非活性形式存在,而当病毒感染细胞后,经双链R N A或T o l l样受体信号转导,I K B K E和T B K1激酶将I R F7磷酸化并诱导其构象变化,导致其二聚体化并与其他共激活因子一起与启动子中干扰素刺激应答元件结合,从而调节Ⅰ型干扰素基因和干扰素刺激基因的转录,由此在免疫应答中发挥关键作用[29]㊂尽管越来越多的研究已证实了I R F7基因的遗传多态性在S L E发病机制中的功能及作用,但关于I R F7在S L E中的机制研究仍局限于鼠类㊂所以在人类中仍需要进行更多的研究,以进一步阐明I R F7和S L E之间的明确关系㊂D D X58是一种蛋白质编码基因,该基因编码可R N A解旋酶-DE A D框蛋白基序和半胱天冬酶募集域等蛋白质㊂其相关富集信号通路中有干扰素γ信号传导通路和R I G-Ⅰ/M D A5介导的干扰素α/β诱导途径[30]㊂D D X58可充当病毒核酸的胞质传感器,并在监测病毒感染和激活一系列抗病毒反应(包括诱导Ⅰ型干扰素和促炎性细胞因子)中起主要作用㊂R S A D2是一种干扰素诱导型铁硫簇结合抗病毒蛋白,在Ⅰ型和Ⅱ型干扰素诱导的细胞抗病毒状态中起重要作用㊂R S A D2可通过干扰脂筏抑制质膜上的病毒的出芽过程,从而表现出抗病毒活性[22]㊂也可通过调节NF K B1和J u n B的活性,促进T细胞受体介导的G A T A3激活和T h2细胞因子的产生,从而在C D4+T细胞的活化和分化中发挥重要作用㊂然而,D D X58和R S A D2在S L E中的表达水平与具体功能作用尚未见报道,这对于进一步研究S L E相关分子机制提供了全新的依据与思路㊂既往的研究[31]仅通过C y t o H u b b a算法分析单张芯片数据(G S E65391)发现I F I44L㊁I F I T3和R S A D2基因与S L E的发生㊁发展密切相关,且因为上述研究并未对芯片的原始测序数据进行背景校正和归一化处理,导致其最终结果可能存在偏倚㊂而笔者此次的研究首先选择了两张(G S E61635㊁G S E72754)不同于朱晴等[31]研究所采用的芯片测序结果;其次,本研究中对芯片的原始测序数据进行了背景校正和归一化5004重庆医学2020年12月第49卷第23期处理,并通过主成分分析评估其分组间是否存在明显差异;然后,采用了更为成熟的M C O D E聚类模块分析选择核心模块,在核心模块已经确定的基础上运用C y t o H u b b a算法进一步评估核心基因;最后,通过另一张第三方研究提供的芯片数据,对前述筛选出来的核心基因进行了验证,再次证实了本研究结果的可靠性㊂综上所述,本研究采用了系统性的生物信息学分析方法,通过对G E O数据库中的S L E相关基因芯片数据进行综合分析,筛选得到了S L E致病相关的D E G s并经G O富集分析和K E G G通路分析确定了Ⅰ型干扰素信号通路㊁R I G-Ⅰ样受体信号通路和单纯疱疹病毒感染相关通路可能参与S L E的致病㊁发生及发展㊂此外,通过构建蛋白质互作网络并利用分析算法获得10个关键基因,其中O A S L㊁O A S1㊁O A S2㊁O A S3㊁I F I T3㊁M X1㊁I F I T1㊁I R F7等基因虽在S L E中有过部分研究但它们具体参与S L E的致病机制尚未明确,而D D X58㊁R S A D2基因与S L E的具体关系尚未见报道,本研究发现并证实其在S L E患者中存在高表达的情况,为探究S L E致病相关分子机制㊁发掘潜在诊断标志物及开发治疗新靶点提供了新的理论依据与方向㊂参考文献[1]B A K S H I J,S E G U R A B T,W I N C U P C,e t a l.U n m e t n e e d s i n t h e p a t h o g e n e s i s a n d t r e a t m e n to f s y s t e m i c l u p u s e r y t h e m a t o s u s[J].C l i n R e vA l l e r g y I mm u n o l,2018,55(3):352-367.[2]L A N A T A C M,P A R A N J P E I,N I T I T H AM J,e t a l.A u t h o r c o r r e c t i o n:a p h e n o t y p i c a n d g e-n o m i c s a p p r o a c h i n a m u l t i-e t h n i c c o h o r t t o s u b t y p e s y s t e m i c l u p u s e r y t h e m a t o s u s[J].A c t aN a t u r a e,2020,11(1):1164.[3]Z A K H A R O V A M Y,B E L Y A N I N A T A,S OK O L O V A V,e t a l.T h e c o n t r i b u t i o n o f m a j o rh i s t o c o m p a t i b i l i t y c o m p l e x c l a s sⅡg e n e s t o a na s s o c i a t i o n w i t h a u t o i mm u n e d i s e a s e s[J].C e l l s,2019,11(4):4-12.[4]L U Q U E A,S E R R A N O I,R I P O L L E,e t a l.N o n c a n o n i c a l i mm u n o m o d u l a t o r y a c t i v i t y o fc o m p l e m e n t r e g u l a t o r C4B P(β-)l i m i t s t h ed e-v e l o p m e n t o f l u p u s n e p h r i t i s[J].K i d n e y I n t,2020,97(3):551-566.[5]WA N G Z,L A C HMA N N A,MA'A Y A N A.M i n i n g d a t a a n d m e t a d a t a f r o m t h e g e n e e x-p r e s s i o n o m n i b u s[J].B i o p h y s R e v,2019,11(1):103-110.[6]B E C K M W,B O K D E N,A S E N C I O-C O R TÉSG,e t a l.R p a c k a g e i m p u t e t e s t b e n c h t o c o m p a r e i m p u t a t i o n m e t h o d s f o r u n i v a r i a t e t i m e s e r i e s[J].R J,2018,10(1):218-233.[7]R I T C H I E M E,P H I P S O N B,WU D,e t a l.L i mm a p o w e r s d i f f e r e n t i a l e x p r e s s i o n a n a l y s e sf o r R N A-s e q u e n c i ng a n d m i c r o a r r a y s t u d i e s[J].N u c l e i c A c i d s R e s,2015,43(7):e47. [8]V A N R A A P HO R S T R,K J O S M,V E E N I N G JW.B a c t MA P:a n R p a c k a g e f o r i n t e g r a t i n g,a n-a l y z i n g a n d v i s u a l i z i n g b a c t e r i a l m i c r o s c o p y d a-t a[J].M o l M i c r o b i o l,2020,113(1):297-308.[9]T h e G e n e O n t o l o g y C o n s o r t i u m.E x p a n s i o n o f t h e g e n e o n t o l o g y k n o w l e d g e b a s e a n d r e s o u r c e s[J].N u c l e i c A c i d s R e s,2017,45(D1):D331-D338.[10]K A N E H I S A M,F U R U M I C H I M,T A N A B E M,e t a l.K E G G:n e w p e r s p e c t i v e s o n g e n o m e s,p a t h w a y s,d i s e a s e s a n d d r u g s[J].N u c l e i c A c i d sR e s,2017,45(D1):D353-361.[11]D A W H,S H E R MA N B T,L E M P I C K I R A.S y s t e m a t i c a n d i n t e g r a t i v e a n a l y s i s o f l a r g eg e n e l i s t s u s i n g D A V I D b i o i n f o r m a t i c s r e-s o u r c e s[J].N a t P r o t o c,2009,4(1):44-57. [12]K U L E S HO V M V,J O N E S M R,R O U I L L AR D A D,e t a l.E n r i c h r:a c o m p r e h e n s i v e g e n es e t e n r i c h m e n t a n a l y s i s w e b s e r v e r2016u p d a t e[J].N u c l e i c A c i d s R e s,2016,44(W1):W90-97.[13]S Z K L A R C Z Y K D,MO R R I S J H,C O O K H,e ta l.T h e S T R I N G d a t ab a s e i n2017:q u a l i t y-c o n-t r o l l ed p r o te i n-p r o t e i n a s s o c i a t i o n n e t w o r k s,m a d e b r o a d l y a c c e s s i b l e[J].N u c l e i c A c i d s R e s, 2017,45(D1):D362-368.[14]Z HU H,J I Y,L I W,e t a l.I d e n t i f i c a t i o n o f k e yp a t h w a y s a n d g e n e s i n c o l o r e c t a l c a n c e r t o p r e-d i c t t he p r o g n o s i s b a s e d o n m R N A i n t e r a c t i o nn e t w o r k[J].O n c o l L e t t,2019,18(4):3778-3786.[15]S H I Y,L I Y,Y A N C,e t a l.I d e n t i f i c a t i o n o fk e y g e n e s a n d e v a l u a t i o n o f c l i n i c a l o u t c o m e si n l u n g s q u a m o u s c e l l c a r c i n o m a u s i n g i n t e-g r a t e d b i o i n f o r m a t i c s a n a l y s i s[J].O n c o l L e t t,2020,113(1):297-308.[16]G O R D O N C,AM I S S A H A R T HU R M B,G AY E D M,e t a l.T h e B r i t i s h s o c i e t y f o r r h e u m a-t o l o g y g u i d e l i n e f o r t h e m a n a g e m e n t o f s y s-t e m i c l u p u s e r y t h e m a t o s u s i n a d u l t s[J].R h e u-6004重庆医学2020年12月第49卷第23期m a t o l o g y(O x f o r d),2017,57(1):e1-45.[17]G HO S H A,S HA O L,S AM P A T H P,e t a l.O l i-g o a d e n y l a t e-s y n t h e t a s e-f a m i l y p r o t e i n o a s l i n-h i b i t s a c t i v i t y o f t h e d n a s e n s o r c g a s d u r i n g d n av i r u s i n f e c t i o n t o l i m i t i n t e r f e r o n p r o d u c t i o n[J].I mm u n i t y,2019,50(1):51-63.[18]Z HU J,Z HA N G Y,G HO S H A,e t a l.A n t i v i r a la c t i v i t y o f h u m a n O A S L p r o t e i n i s m e d i a t e db y e n h a nc i n g s i g n a l i n g o f t h e R I G-ⅠR N A s e n s o r[J].I mm u n i t y,2014,40(6):936-948. [19]F E N G X,HU A N G J,L I U Y,e t a l.I d e n t i f i c a-t i o n o f i n t e r f e r o n-i n d u c i b l e g e n e s a s d i a g n o s t i cb i o m a r k e r f o r s y s t e m ic l u p u s e r y t h e m a t o s u s[J].C l i n R h e u m a t o l,2015,34(1):71-79.[20]Y E S,G U O Q,T A N G J P,e t a l.C o u l d2'5'-o l i-g o a d e n y l a t e s y n t h e t a s e i s o f o r m s b e b i o m a r k e r s t o d i f f e r e n t i a t e b e t w e e n d i s e a s e f l a r e a n d i n f e c-t i o n i n l u p u s p a t i e n t s A p i l o t s t u d y[J].C l i nR h e u m a t o l,2007,26(2):186-190.[21]A B B A S Y M,L A U D E N B A C H B T,MA R TÍNE Z MO N T E R O S,e t a l.S t r u c t u r e o f h u m a n I F-I T1w i t h c a p p e d R N A r e v e a l s a d a p t a b l e m R-N A b i n d i n g a n d m e c h a n i s m s f o r s e n s i n g N1a n d N2r ib o s e2'-O m e t h y l a t i o n s[J].P r oc N a t lA c a d S c i U S A,2017,114(11):E2106-2115.[22]J O S E P H S,G E O R G E N I,G R E E N-K N O X B,e t a l.E p i g e n o m e-w i d e a s s o c i a t i o n s t u d y of p e-r i p h e r a l b l o o d m o n o n u c l e a r c e l l s i n s y s t e m i c l u p u s e r y t h e m a t o s u s:i d e n t i f y i ng D N A m e th y l-a t i o n s i g n a t u r e s a s s o c i a t e d w i t h i n t e r f e r o n-r e-l a t e d g e n e sb a s e d o n e t h n ic i t y a nd S L E D A I[J]. J A u t o i mm u n,2019,96:147-157.[23]F L E I T H R C,M E A R S H V,L E O N G X Y,e ta l.I F I T3a n d I F I T2/3p r o m o t e I F I T1-m e d i a t e d t r a n s l a t i o n i n h ib i t i o n b y e n h a nc i n g b i nd i n g t on o n-s e l f R N A[J].N u c l e i c A c i d s R e s,2018,46(10):5269-5285.[24]WA N G J,D A I M,C U I Y,e t a l.A s s o c i a t i o n o fa b n o r m a l e l e v a t i o n s i n I F I T3w i t h o v e r a c t i v e c y c l i c GM P-AM P s y n t h a s e/s t i m u l a t o r o f i n t e r-f e r o ng e n e s s i g n a l i n g i nh u m a n s y s t e mi c l u p u se r y t h e m a t o s u s m o n o c y t e s[J].A r t h r i t i s R h e u-m a t o l,2018,70(12):2036-2045. [25]H A L L E R O,S T A E H E L I P,S C HW E MM L EM,e t a l.M x G T P a s e s:d y n a m i n-l i k e a n t i v i r a lm a c h i n e s o f i n n a t e i mm u n i t y[J].T r e n d s M i-c r o b i o l,2015,23(3):154-163.[26]Z HU H,M I W,HU I L,e t a l.W h o l e-g e n o m et r a n s c r i p t i o n a n d D N A m e t h y l a t i o n a n a l y s i s o fp e r i p h e r a l b l o o d m o n o n u c l e a r c e l l s i d e n t i f i e da b e r r a n t g e n e r e g u l a t i o n p a t h w a y s i n s y s t e m i cl u p u s e r y t h e m a t o s u s[J].A r t h r i t i s R e s T h e r, 2016,18(1):162.[27]S H I M I Z U Y,Y A S U D A S,K I MU R A T,e t a l.I n t e r f e r o n-i n d u c i b l e M x1p r o t e i n i s h i g h l y e x-p r e s s e d i n r e n a l t i s s u e s f r o m t r e a t m e n t-n aïv e l u p u s n e p h r i t i s,b u t n o t i n t h o s e u n d e r i mm u-n o s u p p r e s s i v e t r e a t m e n t[J].M o d R h e u m a t o l, 2018,28(4):661-669.[28]C A N I V E T C,R HÉA UM E C,L E B E L M,e t a l.B o t h I R F3a n d e s p e c i a l l y I R F7p l a y a k e y r o l e t o o r c h e s t r a t e a n e f f e c t i v e c e r e b r a l i n f l a mm a t o-r y r e s p o n s e i n a m o u s e m o d e l o f h e r p e s s i m p l e x v i r u s e n c e p h a l i t i s[J].J N e u r o v i r o l,2018,24(6):761-768.[29]X U W D,Z H A N G Y J,X U K,e t a l.I R F7,af u n c t i o n a l f a c t o r a s s o c i a t e s w i t h s y s t e m i c l u p u se r y t h e m a t o s u s[J].C y t o k i n e,2012,58(3):317-320.[30]WA HA D A T M J,B O D E W E S I,MA R I A N I,e t a l.T y p eⅠI F N s i g n a t u r e i n c h i l d h o o d-o n s e t s y s t e m i c l u p u s e r y t h e m a t o s u s:a c o n s p i r a c y o fD N A-a n d R N A-s e n s i n g r e c e p t o r s[J].A r t h r i t i sR e s T h e r,2018,20(1):4.[31]朱晴,蔡昕添,洪静,等.基于高通量芯片和生物信息学筛选系统性红斑狼疮核心基因及通路[J].新疆医学,2019,49(7):665-670.(收稿日期:2020-03-18修回日期:2020-08-22)7004重庆医学2020年12月第49卷第23期。
封面页(设计好之后可以删掉这个文本框哦)Bioconductor 简介及其在生物信息学中的应用郑广勇上海生命科学研究院主要内容Bioconductor 软件介绍Bioconductor 软件应用◆基因芯片分析中的应用BioconductorBioconductor 是一个基于R语言的生物信息软件包,主要用于生物数据的注释、分析、统计、以)及可视化(Bioconductor 软件包的安装Bioconductor(1) Experiment Data ; (2) Software ; (3) Annotation Data基因芯片实验流程Gene-chip experiment Picture scan Raw picture芯片数据分析流程质量控制数据预处理 差异表达基因筛选 聚类分析信号通路富集分析 功能富集分析数据预处理通过数据预处理,过滤掉低质量数据获取表达值数据,主要包括以下几个方面:数据背景处理数据标准化综合表达量计算差异表达基因分析 Fold-change值T检验经验贝叶斯(Empirical Bayes)Wilcoxon秩和检验回归模型方法差异表达基因筛选方法Fold-change最简单的判断差异基因的方法,在没有重复试验的条件下很常用。
差异表达基因筛选方法T检验较常用的统计方法, 用于判断某一基因在两个样本中其表达是否有显著性差异, 不要求等方差,要求有重复试验差异表达基因筛选方法经验贝叶斯(Empirical Bayes)T-检验的一种改进方法,将标准差及信号强度的关系使用线性模型进一步强化,提高了准确率,目前比较常用的一种方法Wilcoxon秩和检验是一种非参数的检验方法,该方法要比T-检验更加稳健, 更适合非正态分布的数据线性回归模型通过线性模型模拟不同实验条件下的基因表达情况,其给出的回归方程不仅包括筛选差异表达基因部分, 还包括数据的预处理部分Bioconductor芯片分析包affy对数据进行表达值计算,质量控制,标准化等simpleaffy对表达数据进行质量控制,T检验,筛选出差异表达基因;affyPLM对芯片数据进行读取,质量控制,标准化;gcRMA对芯片数据进行读取,质量控制,标准化;limma采用回归模型方法进行差异表达基因筛选,读取数据,数据质量控制,标准化,用回归模型的方法筛选差异表达基因等,针对双通道数据比较全面的一套处理步骤;表达谱数据聚类分析在基因表达数据分析中, 根据处理对象与目标的不同,将聚类方法分为三类: 基于基因的聚类(Gene-based clustering)基于样本的聚类(Sample-based clustering)双向聚类(Biclustering)基因本体数据库基因本体数据库() 是GO组织构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)、生物学过程(biological process)。
胃癌相关基因的生物信息学分析及蛋白互作网络构建罗远卫;梁敏;石波云;牛秋玲;刘兆宇;周新科【期刊名称】《现代医院》【年(卷),期】2016(016)010【摘要】目的:分析胃癌和癌旁组织间差异表达基因的功能及其编码蛋白的相互作用,筛选出胃癌相关的关键基因。
方法从NCBI(美国国立生物技术信息中心)公共数据平台GEO(Gene Expression Omnibus)下载胃癌基因芯片数据GSE79973,采用R Bioconductor3.2.4软件对数据进行处理和分析,输出差异表达基因,并通过生物信息学工具DAVID、String、Cytoscape 对差异表达基因进行生物学功能及其编码蛋白的互作分析。
结果通过分析GSE79973芯片数据,一共获得567个表达差异明显的基因,其中表达上调的有384个,表达下调的有183个,这些基因主要富集于细胞外区、细胞外基质、胶原蛋白、基底膜等,主要参与细胞增殖、周期以及粘附等生物学过程,并且在细胞外基质受体、局部粘附以及细胞色素 P450代谢等肿瘤相关通路明显富集。
初步鉴定了 COL4A1、IL6、IL8、COL1A2、ITGA2、THBS1、COL5A1、COL3A1、ITGA1、COL2A1、COL4A2、BIRC5为胃癌相关的关键基因。
结论基因芯片结合生物信息学方法能够有效分析胃癌和癌旁组织间差异表达基因,并筛选出胃癌相关的关键基因,为进一步研究胃癌发病的分子机制提供指导。
【总页数】6页(P1418-1422,1426)【作者】罗远卫;梁敏;石波云;牛秋玲;刘兆宇;周新科【作者单位】广州医科大学附属第五医院广东广州 510700;广州医科大学附属第五医院广东广州 510700;广州医科大学附属第五医院广东广州 510700;广州医科大学附属第五医院广东广州 510700;广州医科大学附属第五医院广东广州510700;广州医科大学附属第五医院广东广州 510700【正文语种】中文【中图分类】R735.2;R34【相关文献】1.基于分子互作网络的MMP s相关基因在胃癌组织中的表达研究 [J], 许建婷;金浩范;王冀邯;牛超;高长曌;王国庆;李凡2.蛋白质相互作用及互作网络的生物信息学分析 [J], 谢超;郜尽;袁运生;俞雁3.喉癌相关基因的生物信息学分析及真核表达载体的构建 [J], 杨淑梅;谢海龙;李晓杰4.喉癌相关基因的生物信息学分析及真核表达载体的构建 [J], 杨淑梅;谢海龙;李晓杰;;;5.山羊HSPA6蛋白的特性分析及互作蛋白网络构建 [J], 杨佳栋; 刘月琴; 张英杰因版权原因,仅展示原文概要,查看原文内容请购买。