SYSTERS Protein Family Database Taxonomy Web Interface and Taxon-related Cluster Frequencie
- 格式:pdf
- 大小:96.00 KB
- 文档页数:2
中国兽医科学2021,51(02〉: 161-168Chinese Veterinary Science网络首发时间:2020-12-ll D01:10.16656/j.issn.l673-4696.2021.0024 中图分类号:S852.734 文献标志码:A文章编号:1673_4696(2021)02-016卜08猪带纟条虫丝氨酸蛋白酶抑制剂Ts-serpin-1对 人巨噬细胞THP-1的免疫调节功能研究毕研丽\刘仲蓉'郭爱疆\张少华、王帅”,才学鹏(1.中国农业科学院兰州兽医研究所家畜疫病病原生物学国家重点实验室,甘肃兰州730046;2.甘肃农业大学动物医学院,甘肃兰州730070;3.中国兽医药品监察所,北京100081)摘要:主要研究猪带绦虫丝氨酸蛋白酶抑制剂Ts-serpin-l(WormBase:TsM_000065700)对宿主THP-1 细胞的免疫调节作用通过设计特异性引物和RT-PCR扩增技术,获得Ts-serpin-1编码序列,用qRT-PCR 分析Ts-serpin-l基因在猜带線虫成虫和中綠期幼虫的表达情况;构建pCold-Ts-serpin-1原核表达栽体,诱导表达纯化重组蛋白Ts-serpin-1;用重组蛋白Ts-serpin-1处理THP-1细胞,采用qRT-PCR和ELISA方法检测Ts-serpin-1处理THP-1细胞后,各炎性细胞因子的变化情况,结果显示:获得的Ts-serpin-1目的基因长度为1149匕口,编码382个氨基酸,含有56卬丨11家族特有的反应中心环。
7^-36叩丨11-1基因在猪带绦虫 成虫和中绦期幼虫均表达,且成虫表达量显著高于幼虫。
重组蛋白Ts-serpin-1的分子质量约为43 ku,可抑 制THP-1细胞促炎性细胞因子IL-6、IL-10、IL- 12、TNF-a、丨FN-y和iNOS2的表达,促进抗炎性细胞因子 1L-10和TGF-y3的分泌表达。
sant 保守结构域-回复什么是sant 保守结构域?在计算机科学领域,SANT(Structure and Nomenclature Taxonomy)被定义为一种保守结构域。
结构域是蛋白质或DNA序列上存在的特定高度保守的片段,其具有特定的功能或结构。
SANT结构域是一种常见的结构域,在多种生物体中都能找到。
本文将详细介绍SANT保守结构域的定义、结构、功能以及其在生物领域中的重要性。
首先,我们来了解一下SANT保守结构域的定义和结构。
SANT保守结构域属于油酰辅酶A脱氢酶(ACAD)家族的催化亚基,其具有一个高度保守的结构域。
该结构域的基本单元是由大约50个氨基酸残基组成的片段,通常以它们在氨基酸序列中出现的相对位置来命名。
SANT保守结构域的结构由两个α螺旋和两个β折叠片组成。
这些螺旋和片段以特定的方式排列,形成一个稳定的结构。
这种结构相对稳定,其周围的氨基酸序列不容易变化,表明这些结构在进化中扮演着重要角色。
接下来,我们来探讨一下SANT保守结构域的功能和作用。
SANT保守结构域在基因表达调控和染色质结构中起着重要作用。
它与DNA的结合能力以及调控基因转录和复制的能力密切相关。
该结构域通常能够识别和结合特定的DNA序列,并与其他蛋白质在染色质的结构和功能调节中协同作用。
进一步研究发现,SANT保守结构域可以与其他蛋白质相互作用,形成复合物,以实现其功能。
例如,SANT结构域常常与其他转录因子、核酸酶或DNA修复酶发生相互作用,从而调节基因表达和染色质结构。
此外,SANT保守结构域在细胞分化和发育中也扮演着重要角色。
通过调节基因表达和染色质结构,SANT保守结构域能够影响细胞的分化和发育方向。
这使得SANT保守结构域在发育生物学和医学研究中备受关注。
最后,我们来讨论一下SANT保守结构域在生物领域中的重要性。
由于SANT保守结构域与基因表达调控和染色质结构密切相关,对SANT结构域的研究有助于我们更好地理解细胞的功能和机制。
生物信息学复习资料第一章1、什么是生物信息学?生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的?林华安3、生物信息学的发展经过了哪些阶段?前基因组时代、基因组时代、后基因组时代4、HGP是什么意思?什么时候开始?什么时候全部结束?人类基因组计划、1990.10、20035、生物信息学的研究对象是什么?6、生物信息学的研究内容有哪些?获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么?阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求?时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?一级数据库二级数据库;一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。
网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库:EMBL、DDBJ、GenBank蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库:PDB(Protein Data Bank)蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么?NCBI提取工具:Entrez EBI提取工具:SRS65、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符:所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq?The Reference Sequence database 参考序列数据库RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成,以什么字符开始?8.NCBI的在线和离线序列提交软件是什么?在线提交软件:Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?同源性:两条序列有一个共同的进化祖先,那么它们是同源的相似性:序列间相似性的量度同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念直系同源(orthology):不同物种内的同源序列旁系同源(paralogy):同一物种内的同源序列2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。
cst 泛素化组学
CST是Cell Signaling Technology的缩写,是一家专注于生物医学研究的公司。
泛素化组学(Ubiquitinomics)是一种研究细胞中泛素化修饰的方法和技术。
泛素化是一种蛋白质修饰过程,通过连接小泛素蛋白到目标蛋白上,调控其稳定性、功能和亚细胞定位。
泛素化组学基于质谱技术,结合免疫分离和定量方法,可以全面分析细胞中的泛素化修饰,并研究其在细胞信号传导、蛋白质降解、DNA修复等生物学过程中的作用。
通过泛素化组学的研究,可以揭示泛素化修饰在细胞功能和疾病发生中的重要作用,为疾病诊断和治疗提供新的靶点和策略。
CST在泛素化组学领域提供了一系列的抗体和试剂盒,用于检测和研究泛素化修饰相关的蛋白质。
这些工具可以帮助研究人员深入了解泛素化修饰的生物学功能以及其在疾病中的作用机制。
生物大分子数据库扫描根据“Nucleic Acids Research”最新(指2007年)公布的数据,目前已有968个有关生物大分子数据库(参见文献Galperin M Y, The Molecular Biology Database Collection, 2007, 35: D3)。
有兴趣的读者可以参阅网站“/nar/database/a”。
我们这里将主要类型的数据库列于表4-2。
面这段是一个完整的SwissProt条目,现解释如下:ID 104K_THEPA STANDARD; PRT; 924 AA.AC P15711;DT 01-APR-1990 (Rel. 14, Created)DT 01-APR-1990 (Rel. 14, Last sequence update)DT 01-AUG-1992 (Rel. 23, Last annotation update)DE 104 kDa microneme-rhoptry antigen.OS Theileria parva.OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;OC Theileria.OX NCBI_TaxID=5875;RN [1]RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,RA Musoke A.J.;RT "Characterisation of the gene encoding a 104-kilodalton microneme-RT rhoptry protein of Theileria parva.";RL Mol. Biochem. Parasitol. 39:47-60(1990).CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.CC -------------------------------------------------------------------------- CC This Swiss-Prot entry is copyright. It is produced through a collaboration uniprot_sprot.datCC the European Bioinformatics Institute. There are no restrictions on its CC use as long as its content is in no way modified and this statement is not CC removed.CC -------------------------------------------------------------------------- DR EMBL; M29954; AAA18217.1; -.DR PIR; A44945; A44945.KW Antigen; Repeat; Sporozoite.FT DOMAIN 1 19 Hydrophobic.FT DOMAIN 905 924 Hydrophobic.SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64;MKFLILLFNI LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYLQVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSGDAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRNGHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDKYVPISQKNYE TGIVKLKDYK HAYHPVDLDI KDIDYTMFHL ADATYHEPCF KIIPNTGFCITKLFDGDQVL YESFNPLIHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEATTHPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGSEVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFTQEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDSSKEGKKPGSG KKPGPAREHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK SPRTASPTRRPSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYDDYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPKDPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPRSPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDPGRM AKDASGKPVK LKRSKSFDDLTTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKPKKPDSAYIPS ILAILVVSLI VGIL//ID 是指其身份号,924 AA是指有该序列有924个氨基酸残基AC 获取号;DT 序列测得的时间DE 对该序列必要的信息的说明,如该分子的分子量为104 kDa .OS 来源OX NCBI分类身份号RN [1]RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX 有关Medline的出版号RA 作者RT 引用文献题目RL 杂志名称,出版日期,卷期页CC 有关它的功能描述及其它相关信息方面的描述DR EMBL数据库中的获取号DR PIR数据库中的获取号KW 关键词FT 功能区的描述SQ 有关序列方面的信息,这部分是最主要的,因为该蛋白质的序列就列在下面。
科学⽹做过16s测序的⼩伙伴们都知道测完之后会拿到⼀份结果报告但这并不代表可以开始写⽂章了看似⼀⼤堆数据图表却不知如何下⼿这是很多⼈头疼的地⽅那么怎样给报告中的数据赋予灵魂让它真正成为对你有帮助的分析呢?今天我们来详细解读下。
⼀⽂扫除困惑⾸先什么是16S rRNA?16S rRNA 基因是编码原核⽣物核糖体⼩亚基的基因,长度约为1542bp,其分⼦⼤⼩适中,突变率⼩,是细菌系统分类学研究中最常⽤和最有⽤的标志。
16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系,⽽可变区序列则能体现物种间的差异。
16S rRNA基因测序以细菌16S rRNA基因测序为主,核⼼是研究样品中的物种分类、物种丰度以及系统进化。
⼆代⾼通量测序原理⽬前⼆代测序是⼀个边合成边测序的过程,使⽤的是荧光可逆终⽌⼦。
每个可逆终⽌⼦的碱基3’端都有⼀个阻断基团,⽽在侧边带有⼀种荧光。
由于有4种不同的碱基(ATCG),因此也会有对应4种不同颜⾊的荧光。
开始扩增每次结合上⼀个碱基,DNA的扩增便会停⽌,此时能收到⼀种荧光信号。
然后放试剂除去阻断基团,进⾏下⼀个碱基的结合,以此类推得到⼀连串的荧光信号组合序列。
⽽根据荧光的颜⾊我们便可以确定每⼀个位点的基因型,即可以得到这⼀段DNA⽚段的序列。
环境样品⾼通量分析需要重复么?在进⾏实验设计前,这是有些⼩伙伴⾯临的⼀个问题。
环境样本由于来源和条件不完全可控,每个样品之间会存在很⼤的差异,即便是相同样本的不同取样时间和部位也会存在⼀定的差异。
基于⾼通量测序主要是为了了解样品的菌群构成和功能分析,以及寻找不同环境之间的差异,包括菌和功能基因以及代谢。
如果仅做单⼀样本,很可能结论只能代表这个单⼀取样样本的信息,⽆法排除不同样本重复之间的差异,也就可能得不到真正代表环境差异的结果。
所以环境样品不仅要重复⽽且还应该以分组⽅式取尽量多的样本以全⾯的代表⼀个环境条件下的各种变异情况。
基因组学与应用生物学,2020年,第39卷,第11期,第509卜5099页研究报告Research Report野油菜黄单胞菌B ioC蛋白的生物信息学分析陈群一”吴晓妍”陈博,王海洪1余永红3"1华南农业大学生命科学学院,广州,510642; 2华南农业大学,群体微生物研宂中心,广州,510642; 3广东食品药品职业学院,广州,510520*同等贡献作者** 通信作者,**************.cn摘要野油菜黄单胞菌ATCC 33913基因组中XccO?&?、Zcc/67S被标注丙二酸单酰-A C P甲基转移酶 (BioC)编码基因,从KEGG数据库检索Xcc0383和Xccl678的氨基酸序列,运用生物信息学在线分析软件对 这2个基因编码的蛋白进行了理化性质、蛋白结构、亲水性、跨膜结构、信号肽、磷酸化位点及蛋白相互作用 网络的预测分析。
结果表明2个蛋白理化性质相近,但Xcc0383为亲水性蛋白,X ccl678位疏水性蛋白。
2个 蛋白都具有甲基转移酶功能结构域,不存在跨膜结构域和信号肽,磷酸化位点和翻译后修饰位点的数量和位 置类似。
Xcc0383和Xcc1678二级结构中组成最多的是ct-螺旋,分别占46.36%和51.69%,三级结构预测结 果与二级结构一致。
蛋白相互作用预测后发现,Xcc0383与BioH、BioF、B ioA等负责生物素合成的蛋白关系 最为密切,而X ccl678与其毗邻的糖基转移酶关系密切。
氨基酸序列同源比对显示Xcc0383与大肠杆菌(£. C〇Z〇的BioC相似性较高。
Xcc0383编码蛋白负责在野油菜黄单胞菌体内合成生物素,而Xccl678作为甲基 转移酶负责为不同的受体分子提供甲基基团。
关键词生物信息学,野油菜黄单胞菌,丙二酸单酰-A C P甲基转移酶,预测分析Bioinformatics Analysis o f BioC Proteins from Xanthomonas campestris pv. campestrisChen Qunyi '*Wu Xiaoyan2,Chen Bo1Wang Haihong1Yu Yonghong3*.1College of Life Science, South China Agricultural University, Guangzhou, 510642; 2 Integrative Microbiology Research Centre, South China Agricultural University, Guangzhou, 510642; 3 Guangdong Food and Drug Vocational College, Guangzhou, 510520* These authors contributed equally to this work**Correspondingauthor,**************.cnDOI: 10.13417/j.gab.039.005091Abstract Two genes in Xanthomonas campestris ATCC 33913, Xcc0383and Xccl678,were annotated as mal-onyl-ACP methyltransferase.We analyzed and predicted the physicochemical properties,structures,hydrophilicity, transmembrane domain,signal peptide,phosphorylation sites and protein interaction network of Xcc0383 and Xccl678 by using bioinformatics analysis tool.The results showed that the two proteins had similar physicochemical properties,but Xcc0383 was a hydrophilic protein,with X ccl678 a hydrophobic protein.Transmembrane domain and signal peptide did not exist in both of them,and the number and location of phosphorylation and post-translational modification sites were similar.The secondary structures of Xcc0383 and X ccl678, a~helix was the most important component,accounting for46.36% and 51.69%, respectively,and the tertiary structure prediction results are consistent with the secondary structure.The protein interaction network prediction showed that Xcc0383 was most closely related to the proteins responsible for biotin synthesis,such as BioH,BioF,and BioA,基金项目:本研究由国家自然科学基金项目(N〇.31601601;31671987)资助引用格式:C h e n Q.Y., W u X.Y., C h e n B.,W a n g H.H., a n d Y u Y.H., 2020, Bioinformatics analysis o f B i o C proteins f r o m似pv. c o m p e s^i s,Jiyinzuxue Y u Y i n g y o n g S h e n g w u x u e (G e n o m i c s a n d A p p l i e d Biology), 39(11): 5091-5099 (陈群一,吴晓妍,陈博,王海洪,余永红,2020,野油菜黄单胞菌B i o C蛋白的生物信息学分析,基因组学与应用生物学,39(11): 5091-5099)5092 基因组学与应用生物学etc.X ccl678 was closely related to its adjacent bined with the results of protein sequence alignment,Xcc0383 shared higher sequence identity with the E. coli BioC,compared with Xccl678. Therefore,it is speculated that the Xcc0383 was responsible for the synthesis of biotin in Xanthomonas campestris,while Xcc1678 acts as a methyltransferase responsible for providing methyl groups for other receptors.Keywords Bioinformatics,Aw^/u»no«as ccimpestris,Malonyl-ACP methyltransferase,Predictive analysis野油菜黄单胞菌野油菜致病变种t'«/n/;e你(s'pv.<Ycc),又称甘蓝黑腐病菌,属于变形菌纲,亚纲,黄单胞菌科(Xanthomonadaceae),黄单胞杆菌属C¥a/if/j〇,_as),革兰氏阴性菌。
分子生物学中常用数据库综合数据库:来源:/news/science/article/90048.html生物信息学网址链接:http://www.bioinformatics.ca/links_directory/Nucleic Acid Research Database Issue:/content/vol32/suppl_2/一、蛋白相关数据库蛋白质结构域预测工具Esignal:/esignal/信号传导系统蛋白的结构域预测工具,凡是涉及到信号传导系统的蛋白用这个预测效果最佳SignalP:http://www.cbs.dtu.dk/services/SignalP/信号肽预测工具,适合定位于非胞质位置的蛋白质Emotif:/emotif-search/结构域预测工具,由于其用motif电子学习的方法产生结构域模型,故预测效果比Prosite好Ematrix:/ematrix/是用Matrix的方法创建的结构域数据库,可与emotif互相印证。
其速度快,可快速搜索整个基因组InterPro:/InterProScan/EBI提供的服务,用图形的形式表示出搜索的结构域结果TRRD:http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/转录因子结构域预测的最好数据库。
但不会用Protscale:/cgi-bin/protscale.pl可分析该序列的各种性状如活动度、亲水性(Kyte&Doolittle)、抗原性(Hopp&Woods)等通过寻找MOTIF和Domain来分析蛋白质的功能A. MOTIF是蛋白中较小的保守序列片断,其概念比Domain小PROSITE:/tools/scanprosite/是专门搜索蛋白质Motif的数据库,其中signature seqs是最重要的motif信息B. Domain:若干motif可形成一个Domain,每个Domain形成一个球形结构,Domain与Domain之间通常像串珠一样相连Pfam:可以搜索某段序列中的Domain,并以图形化表示出来。
SYSTERS Protein Family Database:Taxonomy Web Interface andTaxon-related Cluster FrequenciesThomas Meinel,Antje Krause,and Martin VingronMax Planck Institute for Molecular Geneticsputational Molecular BiologyIhnestrasse73,D-14195Berlin{Thomas.Meinel|Antje.Krause|Martin.Vingron}@molgen.mpg.dekeywords:SYSTERS,protein family,taxonomy,clustering,taxon-related,taxon-specific,cluster distribution IntroductionThe SYSTERS[5]protein family database provides an automatically generated clustering of all publicly available protein sequences into disjoint family and superfamily clusters.The underlying sequence set contains all sequences from the SWISS-PROT/TrEMBL[2]and from the PIR[10]databases as well as protein sequences of several com-pletely sequenced organisms.Alternatively spliced isoforms annotated in SWISS-PROT/TrEMBL are appended. Multiple alignments are generated for each cluster using ClustalW[8]and annotated with known domains from the Pfam database[1].Majority consensus sequences are derived from partial multiple alignments generated with MView[3];all consensus sequences together build a publicly searchable sequence database.To rely not only on preprocessed multiple sequence alignments of one SYSTERS protein family,we extended the functionality of our interface and allow the user interactively the selection of particular or species-related sequences in one or several SYSTERS clusters.This new set of sequences can be multiply aligned using the DIALIGN2program[6].We present the new SYSTERS taxonomy web interface as well as some taxonomic analyses and properties of the SYSTERS database.Taxonomy InterfaceEvery protein sequence in the underlying sequence set belongs to one organism,in terms of taxonomic classi-fication,this is a species,a subspecies or a strain.On the other hand,most SYSTERS protein families contain sequences from several different organisms.Thus,querying the SYSTERS database,one is often interested in •the taxonomic complexity of such a protein family,•all protein families a specific taxon is represented in,•protein families specific for one taxon,or•protein families shared by several different taxa.We assigned SYSTERS clusters to each taxon including the whole lineage of each organism,according to the NCBI taxonomy[9].SYSTERS clusters are taxon-related(t-r)or taxon-specific(t-s):at least one entry(t-r)or all entries(t-s)in a SYSTERS cluster belong to a taxon.For two or more taxa,the default selection result is the set of intersected clusters.SYSTERS Protein Families and Taxonomy-ResultsUsing the SYSTERS taxonomy web interface,the number of t-r and t-s protein families were obtained for eight taxonomic ranks(superkingdom,kingdom,phylum,class,order,family,genus,and species)of several completelyand uncompletely sequenced organisms.Numbers of non-redundant,taxon-correlated sequences will be shown.Taxon-correlated sequences in t-r clusters suggest an average taxon-based cluster size of3.4for46analysed taxa.However,log-log plots of cluster frequencies vs cluster sizes reveal long-tailed cluster distributions which are often observed for protein families[4],[7].Distributions are calculated for the whole sequence set as well as for selected taxa along the lineage of several orgamisms.Going from the sequence set of the cellular organisms to the species,we generally observe an increased negative slope of thefitted curves.Large protein families with>50non-redundant sequences,which evolved only in certain groups of organisms, are,e.g.,for mammals the major prion proteins and pregnancy-specific glycoproteins,or for arthropods larval serum proteins(arylphorin,hemocyanin,...)and pheromone-binding proteins.AccessIt is possible to enter the SYSTERS hierarchy of protein superfamilies,protein families(clusters),sequences, and protein domains at any layer,e.g.,by searching for a keyword,passing an external protein accession number, choosing a certain taxonomic composition as described above,or by selecting a known Pfam domain.A new protein sequence can be searched against the database of consensus sequences and subsequently multiply aligned together with a user defined selection of sequences from the SYSTERS data set.The SYSTERS protein family database is available at:http://systers.molgen.mpg.deAcknowledgementsWe would like to thank Christine Steinhoffand Thomas Manke for fruitful discussions about scale-free networks and some instructions in power-lawfitting.References[1] A.Bateman,E.Birney,L.Cerruti,R.Durbin,L.Etwiller,S.R.Eddy,S.Griffiths-Jones,K.L.Howe,M.Marshall,and E.L.Sonnhammer.The Pfam protein families database.Nucleic Acids Res,30(1):276–80,Jan2002.[2] B.Boeckmann,A.Bairoch,R.Apweiler,M.C.Blatter,A.Estreicher,E.Gasteiger,M.J.Martin,K.Michoud,C.O’Donovan,I.Phan,S.Pilbout,and M.Schneider.The SWISS-PROT protein knowledgebase and its supplementTrEMBL in2003.Nucleic Acids Res,31(1):365–70,Jan2003.[3]N.P.Brown,C.Leroy,and C.Sander.Mview:a web-compatible database search or multiple alignment viewer.Bioinformatics,14(4):380–381,1998.[4] E.V.Koonin,Y.I.Wolf,and G.P.Karev.The structure of the protein universe and genome evolution.Nature,420(6912):218–23,Nov2002.[5] A.Krause,J.Stoye,and M.Vingron.The SYSTERS protein sequence cluster set.Nucleic Acids Res,28(1):270–272,Jan2000.[6] B.Morgenstern.DIALIGN2:improvement of the segment-to-segment approach to multiple sequence alignment.Bioinformatics,15(3):211–218,Mar1999.[7]J.Qian,N.M.Luscombe,and M.Gerstein.Protein family and fold occurrence in genomes:power-law behaviour andevolutionary model.J Mol Biol,313(4):673–81,Nov2001.[8]J.D.Thompson,D.G.Higgins,and T.J.Gibson.Clustal w:improving the sensitivity of progressive multiple sequencealignment through sequence weighting,position-specific gap penalties and weight matrix choice.Nucleic Acids Res, 22(22):4673–80,Nov1994.[9] D.L.Wheeler,D.M.Church,S.Federhen,sh,T.L.Madden,J.U.Pontius,G.D.Schuler,L.M.Schriml,E.Sequeira,T.A.Tatusova,and L.Wagner.Database resources of the National Center for Biotechnology.NucleicAcids Res,31(1):28–33,Jan2003.[10] C.H.Wu,L.S.Yeh,H.Huang,L.Arminski,J.Castro-Alvear,Y.Chen,Z.Hu,P.Kourtesis,R.S.Ledley,B.E.Suzek,C.R.Vinayaka,J.Zhang,and W.C.Barker.The Protein Information Resource.Nucleic Acids Res,31(1):345–347,Jan2003.。