蛋白质生信分析
- 格式:doc
- 大小:44.00 KB
- 文档页数:3
EGFR蛋白的生物信息学初步分析作者:刘一凡来源:《科技风》2019年第02期摘要:EGFR(Epidermal Growth Factor Receptor)是表皮生长因子受体(HER)中的一种重要蛋白,属于EGF(Epidermal Growth Factor)家族。
作为一种跨膜蛋白,其信号通路对细胞多种生理过程起重要作用。
本文中从该蛋白的氨基酸组成、亲水性分析、系统发育分析,亚细胞定位,三级结构模拟等多个方面对该蛋白进行了生物信息学分析,这些结果有助于我们更进一步地了解EGFR蛋白的结构与功能。
关键词:EGFR;生物信息学;初步分析;EGFR蛋白;系统发育分析;亚细胞定位预测;三级结构预测EGF以及其受体于1953年由范德堡大学的Stanley Cohen教授发现。
Cohen教授因此与意大利的Rita Levi-Montalcini共享了1986年诺贝尔医学奖。
在许多癌症病例中,影响EGFR表达或活性的突变是癌症的重要诱因。
导致EGFR过度表达的突变被证明与多种癌症的产生有关。
其中包括肺部鳞状细胞癌(80%有关),肠癌、恶性胶质瘤(50%有关)与头颈部上皮肿瘤(80%至100%有关)。
[1]上述与癌症有关的突变与EGFR的联系主要体现在前者能导致EGFR保有异常的持续活性,间接引发不受控制的细胞增殖与分化。
对EGFR的抑制是当前开发相关癌症疗法的一个重要发展方向。
研究EGFR蛋白质的结构是研究EGFR的作用机理、信号传递和抑制方法的基本。
本文从氨基酸组成分析、系统发育分析、亚细胞定位预测和三级结构预测四个方面对EGFR的结构做了研究和探讨,以期为EGFR及其致病机理的研究和相关癌症治疗方法的开发提供参考。
1 材料与方法1.1 材料从uniprot[2]上下载EGFR蛋白氨基酸序列(FASTA格式),以人的EGFR蛋白序列为例:>sp|P00533|EGFR_HUMAN Epidermal growth factor receptor OS=Homo sapiens OX=9606 GN=EGFR PE=1 SV=21.2 方法1.2.1EGFR氨基酸组成分析利用Bioedit进行氨基酸分析。
生物信息研究中常用蛋白质数据库简述内蒙古工业大学理学院呼和浩特孙利霞2010.1.5摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。
尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。
随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。
一个新手面对如此浩瀚的数据量往往无从下手。
本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库0 引言随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。
蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。
蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。
这些数据库是分子生物信息学的基本数据资源。
上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。
信息的传播储存甚为不便。
随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。
进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。
伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。
但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。
同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
生物信息学蛋白质序列分析-课堂练习ZNF395, 全称为Zinc Finger Protein395, 又被称为PBF,PRF1,DBP2,PRF-1,Si-1-8-14或DKFZp434K1210。
其氨基酸序列为结构域分析:http://www.expasy.ch/prosite/(一)分析蛋白质的一级结构分析蛋白质的pI、Mw、氨基酸组成:Tools and software packages------Identification and characterization-----ProtParamhttp://www.expasy.ch/tools/protparam.html分析蛋白质的疏水性:Primary structure analysis-----ProtScalehttp://www.expasy.ch/tools/protscale.html分析蛋白质的重复序列:Primary structure analysis-----REPhttp://www.embl-heidelberg.de/~andrade/papers/rep/search.html(二)分析蛋白质的二级结构预测蛋白质的?-螺旋和?-折叠结构:Secondary structure prediction-----nnPredict/~nomi/nnpredict.html蛋白质的其它二级结构:Secondary structure prediction-----SOPMA(三)分析蛋白质的三级结构molecular modeling:“tertiary structure prediction ”栏目选择选择一个分析工具,email服务(四)分析膜蛋白质预测膜整合蛋白的跨膜区: Topology prediction------SOSUIhttp://bp.nuap.nagoya-u.ac.jp/sosui/分析膜锚定蛋白的GPI位点:Post-translational modification------big-PI Predictorhttp://mendel.imp.ac.at/sat/gpi/gpi_server.html(五)分析蛋白质的翻译后修饰分析信号肽及其剪切位点: Post-translational modification prediction----SignalIPhttp://www.cbs.dtu.dk/services/SignalP/分析糖链连接点:分析O-连接糖蛋白,Post-translational modification prediction----NetOGlychttp://www.cbs.dtu.dk/services/NetOGlyc/分析N-连接糖蛋白,Post-translational modification prediction----NetNGlyc(六)分析蛋白质的亚细胞定位Topology prediction----PSORT-----WoLF PSORT/(七)分析化学因子作用蛋白质的位点“Identification and characterization ”------“Other prediction or characterization tools”栏目选择“PeptideCutter” 软件http://www.expasy.ch/tools/peptidecutter/1.蛋白基本理化性质分析利用Expasy 软件包中的ProtParam工具(http://www.expasy.ch/tools/protparam.htmL) 进行蛋白的氨基酸组成、分子质量、等电点及疏水性等理化性质的分析。
332023年12月下 第24期 总第420期科技创新驱动China Science & Technology Overview0引言极光激酶A(Aurora-A)是一种丝氨酸/苏氨酸蛋白激酶,是近年来广受关注的细胞周期调节因子。
Aurora-A 激酶主要定位于有丝分裂期细胞中心体和纺锤体微管,在中心体复制阶段开始表达,促进中心体的成熟、分离、纺锤体的精确组装及胞质分裂。
Aurora-A 以有丝分裂激酶依赖的方式调控多种细胞的发育分化和稳态维持,主要参与调控G2/M 期的细胞周期进程[1]。
多项研究表明,Aurora-A 在造血恶性肿瘤、乳腺癌、结直肠癌等多种类型的癌症中异常高表达,是多种肿瘤治疗的靶点分子[2]。
尽管Aurora-A 以有丝分裂激酶依赖的方式调控多种细胞的发育分化和稳态维持,目前有研究指出Aurora-A 也以有丝分裂激酶非依赖的方式调控细胞多种生命活动,例如,Aurora-A 调控免疫突触的微管形成介导T 细胞活化[3]、介导微管形成调控神经元轴突延伸等[4]。
此外,Aurora-A 作为丝苏氨酸激酶可通过磷酸化与中心体功能无关的蛋白质,如Taga 等人发现在U20S 人骨肉瘤细胞中,Aurora-A 可诱导Akt 和mTOR 癌蛋白的磷酸化,从而促进癌细胞扩增[5]。
近年来也有研究报道,Aurora-A 存在着经典的SUMO 化保守序列,体内和体外实验均证明Aurora-A 通过SUMO 化促进自身激酶活性从而确保细胞的有丝分裂正常进行[6]。
Aurora-A 以有丝分裂激酶依赖和非依赖的方式调控多种细胞的生命活动,但是Aurora-A 激酶活化的结构基础和具体作用机制目前还不清楚。
研究小鼠Aurora-A 的蛋白性质和蛋白结构对研究其功能具有重要的意义,目前尚未见Aurora-A 蛋白性质和结构的相关报道。
本研究利用生物信息学工具对小鼠Aurora-A 蛋白的性质和结构进行预测和分析,旨在为研究Aurora-A 蛋白在生理和病理条件下的功能和调控机制奠定基础。
生物信息学在蛋白质组学研究中的应用在当今生命科学的前沿领域中,蛋白质组学的研究正如火如荼地开展着。
蛋白质组学旨在全面、系统地研究细胞、组织或生物体中蛋白质的组成、结构、功能以及相互作用。
而生物信息学作为一门交叉学科,正为蛋白质组学的研究提供了强大的工具和方法,加速了我们对生命活动的深入理解。
蛋白质组学研究产生了海量的数据,这些数据的复杂性和规模远远超出了传统实验方法所能处理的范围。
生物信息学的介入就像是为这些数据的分析和解读配备了一把“万能钥匙”。
它通过运用各种算法、数据库和统计方法,能够从纷繁复杂的数据中挖掘出有价值的信息。
首先,在蛋白质鉴定方面,生物信息学发挥着关键作用。
质谱技术是目前蛋白质组学研究中常用的蛋白质鉴定手段。
通过质谱分析得到的大量肽段数据,需要与蛋白质数据库进行比对,以确定其对应的蛋白质。
生物信息学提供了高效的算法和软件,能够快速准确地完成这一比对过程。
例如,常用的搜索引擎如 Mascot 和 SEQUEST 等,它们基于不同的算法原理,能够根据质谱数据的特征,在庞大的蛋白质数据库中搜索匹配的肽段和蛋白质。
除了鉴定,蛋白质定量也是蛋白质组学研究的重要内容。
在这方面,生物信息学同样不可或缺。
基于质谱的定量蛋白质组学技术,如标记定量(如 iTRAQ、TMT 等)和非标记定量,都会产生大量的数据。
生物信息学工具可以对这些数据进行处理和分析,计算出不同样品中蛋白质的相对或绝对丰度。
通过统计学方法,可以筛选出在不同条件下表达水平发生显著变化的蛋白质,为进一步研究蛋白质的功能和调控机制提供线索。
在蛋白质结构和功能预测方面,生物信息学也有着出色的表现。
虽然实验方法可以测定蛋白质的三维结构,但由于技术难度和成本等因素的限制,能够测定结构的蛋白质数量相对较少。
生物信息学通过利用已知蛋白质结构的信息和相关算法,可以对未知结构的蛋白质进行结构预测。
同时,根据蛋白质的序列特征和结构信息,还可以预测其功能,例如酶的活性位点、蛋白质的相互作用位点等。
生信python蛋白序列比对在生物信息学中,蛋白质序列比对是一项常见的任务,它可以帮助我们了解不同蛋白质之间的相似性和差异性。
Python 中有一些库可以用于蛋白质序列比对,其中BioPython 是一个常用的工具库。
以下是一个使用BioPython 进行蛋白质序列比对的简单示例:```pythonfrom Bio import pairwise2from Bio.Seq import Seq# 定义两个蛋白质序列protein_seq1 = Seq("MAGSAAALGALAALAGAA")protein_seq2 = Seq("MAGAAAAAGAAA")# 进行全局比对alignments = pairwise2.align.globalxx(protein_seq1, protein_seq2, one_alignment_only=True)# 获取比对结果alignment = alignments[0]# 打印比对结果print("蛋白质1序列:", alignment.seqA)print("蛋白质2序列:", alignment.seqB)print("比对得分:", alignment.score)```在这个示例中,`pairwise2.align.globalxx` 函数执行全局比对,其中`globalxx` 表示使用简单的相似性分数(+1 相同,-1 不同)。
你可以根据需要选择其他比对算法和参数。
确保你已经安装了BioPython,你可以使用以下命令进行安装:```bashpip install biopython```请注意,蛋白质序列比对是一个复杂的任务,因为蛋白质的结构和功能往往更为重要。
在实际应用中,你可能需要使用专业工具,如BLAST 或者专门用于蛋白质的比对工具。
生物信息学中的蛋白质分析技术蛋白质是生物体中不可或缺的重要分子,其功能包括酶催化、信号传递、结构支持等多种生命活动。
蛋白质分析是生物信息学研究中的重要领域之一,目的是从生物样品中获取有关蛋白质的信息。
这项技术不仅可以揭示蛋白质的结构和功能,还可以为医学诊断和药物研发提供重要的参考。
一、蛋白质分析的基本流程蛋白质分析的基本流程包括蛋白质提取、分离纯化、分析鉴定等几个步骤。
蛋白质提取是将目标蛋白从生物样品中提取出来,一般采用机械破碎、化学分解、超声波等方法。
分离纯化是将目标蛋白与其他蛋白分离开来,可以采用电泳、层析、过滤等方法。
分析鉴定则是对分离得到的蛋白进行化学、物理和生物学的分析,如质谱分析、核酸测序、免疫学检测等方法。
二、质谱分析技术的应用质谱分析是一种可以同时检测多种蛋白质组成和结构的方法,其技术基础是将蛋白质分离并进行离子化后进行质量分析。
这种方法被广泛地应用于蛋白质组学和蛋白质互作等领域。
在蛋白质组学中,将样品中的所有蛋白质分离并进行质谱分析,可以获得大量的信息,如蛋白质的数量、种类、分布和修饰状态等。
质谱分析技术的应用还包括蛋白质互作的研究。
蛋白质互作通常是指两个或多个蛋白质之间的相互作用,这在生物活动中非常重要。
质谱分析可以用来鉴定已知的蛋白质互作或发现新的蛋白质互作,这对于深入理解生物活动机理具有重要意义。
三、结构生物学的应用结构生物学是研究蛋白质三维结构的一种技术,其目的是探究蛋白质结构与功能之间的关系。
现有的结构生物学技术主要包括X射线晶体学、核磁共振和电子显微镜。
通过这些技术,可以确定单个蛋白质的原子结构,也可以确定蛋白质的超分子结构,如蛋白质-DNA复合物和蛋白质-蛋白质复合物等。
在药物研发方面,结构生物学的应用也非常广泛。
通过了解蛋白质的结构,可以设计出针对特定靶标的药物,并对药物与靶标之间的相互作用进行优化和改良。
四、生物信息学的应用生物信息学是将计算机和数学等方法应用于生物学研究的一种学科。
蛋白质生物信息分析
基本性质分析: /protparam/
参考文献:Gasteiger E., Hoogland C., Gattiker A., Duvaud S., Wilkins M.R., Appel R.D., Bairoch A.;
Protein Identification and Analysis Tools on the ExP ASy Server;
(In) John M. Walker (ed): The Proteomics Protocols Handbook, Humana Press (2005).
pp. 571-607
翻译后修饰:
信号肽预测http://www.cbs.dtu.dk/services/SignalP-3.0/
残基磷酸化预测:http://www.cbs.dtu.dk/services/NetPhos/
跨膜结构预测:http://www.cbs.dtu.dk/services/TMHMM-2.0/
http://bp.nuap.nagoya-u.ac.jp/sosui/
http://www.sbc.su.se/~miklos/DAS
亚细胞定位:http://www.cbs.dtu.dk/services/TargetP/
http://psort.hgc.jp/
1一级结构分析:/protscale/
1二级结构分析:http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html Significant improvement in protein secondary structure prediction by consensus prediction from multiple alignments., Cabios (1995) 11, 681-684
Network Protein Sequence Analysis
TIBS 2000 March V ol. 25, No 3 [291]:147-150
1二级结构预测:http://www.cbs.dtu.dk/services/CPHmodels/
CPHmodels-3.0 - Remote homology modeling using structure guided sequence profiles Nielsen M., Lundegaard C., Lund O., Petersen TN
Nucleic Acids Research, 2010, Vol. 38, doi:10.1093/nar/gkq535
View the abstract.
CPHmodels 2.0: X3M a Computer Program to Extract 3D Models.
O. Lund, M. Nielsen, C. Lundegaard, P. Worning
Abstract at the CASP5 conference A102, 2002.
三级结构:http://geno3d-pbil.ibcp.fr/
/workspace/index.php?func=modelling_simple1
参考文献:
Bulfer, S.L., Scott, E.M., Couture, J.F., Pillus, L., Trievel, R.C. Crystal structure and functional analysis of homocitrate synthase, an essential enzyme in lysine biosynthesis. (2009) J.Biol.Chem.284: 35769-35780
Benkert P, Biasini M, Schwede T. (2011). "Toward the estimation of the absolute quality of individual protein structure models." Bioinformatics, 27(3):343-50.
Arnold K., Bordoli L., Kopp J., and Schwede T. (2006). The SWISS-MODEL Workspace: A web-based environment for
protein structure homology modeling. Bioinformatics, 22,195-201.
•
Schwede T, Kopp J, Guex N, and Peitsch MC (2003) SWISS-MODEL: an automated protein homology-modeling server.
Nucleic Acids Research 31: 3381-3385.
•
Guex, N. and Peitsch, M. C. (1997) SWISS-MODEL and the Swiss-PdbViewer: An environment for comparative protein
modeling. Electrophoresis 18: 2714-2723.
3D结构:http://www.cbs.dtu.dk/services/FeatureMap3D/
FeatureMap3D - a tool to map protein features and sequence conservation onto homologous structures in the PDB
Rasmus Wernersson, Kristoffer Rapacki, Hans-Henrik Stærfeldt, Peter Wad Sackett, and Anne Mølgaard.Nucl. Acids Res. 2006 34: W84-W88
2生物功能位点:
/InterProScan/
参考文献:
Gapped BLAST and PSI-BLAST: a new generation of protein database search programs.
(1997 Sep 01) Nucleic acids research 25 (17) :3389-402
Basic local alignment search tool.
(1990 Oct 05) Journal of molecular biology 215 (3) :403-10
/scanprosite/
线性抗原表位预测:/scripts/MHCServer.dll/home.htm
MOTIF:
/meme/cgi-bin/meme.cgi
参考文献:
Timothy L. Bailey and Charles Elkan, "Fitting a mixture model by expectation maximization to discover motifs in biopolymers", Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology, pp. 28-36, AAAI Press, Menlo Park, California, 1994.。