序列分析数据库及相关网址
- 格式:pdf
- 大小:203.25 KB
- 文档页数:2
蛋白质序列、性质、功能和结构分析基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL检索。
1、疏水性分析ExPASy的ProtScale程序(/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。
输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。
也可用BioEdit、DNAMAN等软件进行分析。
2、跨膜区分析蛋白质跨膜区域分析的网络资源有:TMPRED:/software/TMPRED_form.htmlPHDhtm:http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.htmlMEMSAT: ftp://3、前导肽和蛋白质定位一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。
这就是信号肽假说的基础。
这一假说认为,穿膜蛋白质是由mRNA编码的。
在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。
蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk/services/SignalP/或其二版网址http://genome.cbs.dtu.dk/services/SignalP-2.0/。
该服务器也提供利用e-mail进行批量蛋白质序列信号肽分析的方案(http://genome.cbs.dtu.dk/services /SignalP/mailserver.html),e-mail 地址为signalp@ genome.cbs.dtu.dk。
蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。
在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。
蛋⽩质分析相关数据库及⽹站表1蛋⽩质相互作⽤分析相关数据库及⽹站蛋⽩质序列分析和结构预测【实验⽬的】1、掌握蛋⽩质序列检索的操作⽅法;2、熟悉蛋⽩质基本性质分析;3、熟悉基于序列同源性分析的蛋⽩质功能预测,了解基于motif、结构位点、结构功能域数据库的蛋⽩质功能预测;4、了解蛋⽩质结构预测。
【实验内容】1、使⽤Entrez或SRS信息查询系统检索⼈脂联素(adiponectin)蛋⽩质序列;2、使⽤BioEdit软件对上述蛋⽩质序列进⾏分⼦质量、氨基酸组成、和疏⽔性等基本性质分析;3、对⼈脂联素蛋⽩质序列进⾏基于NCBI/Blast软件的蛋⽩质同源性分析;4、对⼈脂联素蛋⽩质序列进⾏motif结构分析;5、对⼈脂联素蛋⽩质序列进⾏⼆级结构和三维结构预测。
【实验⽅法】1、⼈脂联素蛋⽩质序列的检索:(1)调⽤Internet浏览器并在其地址栏输⼊Entrez⽹址(/doc/9364f7ae783e0912a3162a12.html/Entrez);(2)在Search后的选择栏中选择protein;(3)在输⼊栏输⼊homo sapiens adiponectin;(4)点击go后显⽰序列接受号及序列名称;(5)点击序列接受号NP_004788 (adiponectin precursor;adipose most abundant gene transcript 1 [Homo sapiens])后显⽰序列详细信息;(6)将序列转为FASTA格式保存(参考上述步骤使⽤SRS信息查询系统检索⼈脂联素蛋⽩质序列);2、使⽤BioEdit软件对⼈脂联素蛋⽩质序列进⾏分⼦质量、氨基酸组成和疏⽔性等基本性质分析:打开BioEdit软件→将⼈脂联素蛋⽩质序列的FASTA格式序列输⼊分析框→点击左侧序列说明框中的序列说明→点击sequence 栏→选择protein→点击Amino Acid Composition→查看该蛋⽩质分⼦质量和氨基酸组成;或者选择protein后,点击Kyte & Doolittle Mean Hydrophobicity Profile→查看该蛋⽩质分⼦疏⽔性⽔平;3、⼈脂联素蛋⽩质序列的蛋⽩质同源性分析:(1)进⼊NCBI/Blast⽹页;(2)选择Protein-protein BLAST (blastp);(3)将FASTA格式序列贴⼊输⼊栏;(4)点击BLAST;(5)查看与之同源的蛋⽩质;4、⼈脂联素蛋⽩质序列的motif结构分析:(1)进⼊http://hits.isb-sib.ch/cgi-bin/PFSCAN⽹页;(2)将⼈脂联素蛋⽩质序列的FASTA格式序列贴⼊输⼊栏;(3)点击Scan;(4)查看分析结果(注意Prosite Profile中的motif information);5、⼈脂联素蛋⽩质序列的⼆级结构预测:(1)进⼊下列蛋⽩结构预测服务器⽹址http://www.embl-heidelberg.de/predictprotein//predictprotein.html(The PredictProtein Server);(2)在You can栏点击default;(3)填写email地址和序列名称;(4)将⼈脂联素蛋⽩质序列的FASTA格式序列贴⼊输⼊栏点击Submit;(5)从email信箱查看分析结果;6、⼈脂联素蛋⽩质序列的三维结构预测:(1)进⼊/doc/9364f7ae783e0912a3162a12.html /swissmod/SWISS-MODEL.html (SwissModel First Approach Mode)⽹页;(2)填写email地址、姓名和序列名称;(3)将⼈脂联素蛋⽩质序列的FASTA格式序列贴⼊输⼊栏;(4)点击Send Request;(5)从email信箱查看分析结果(注:需下载软件⼊rasmol查看三维图象)。
NCBI数据上传指南近年来,伴随着高通量测序的广泛应用,海量的测序数据也随之产生。
高通量测序数据分析完成发表文章时,科研工作者需要将数据提交到一个公共平台(例如NCBI数据库)。
下文中我们汇总了如何向NCBI平台提交数据,以及不同测序项目需要提交哪些数据,希望为您发表高分论文提供一些帮助。
一、NCBI数据库及数据类型向NCBI数据库提交数据可参考Submission Portal网页中所列数据库与工具,按照网站提示及说明进行操作,可以在如下输入框中输入关键词查看相关信息。
1. NCBI常用数据库介绍1)GenBank网址:/genbank/GenBank是美国国立卫生研究院(NIH)基因序列数据库,包含所有公开的DNA序列和注释信息。
GenBank数据库也是世界上最大的、最重要的、最有影响力的生物全领域数据库,其数据正被全球数以百万计的研究人员获取与引用。
2)SRA网址:/sra/存储测序平台产生的测序数据。
包括Roche 454 GS System®, Illumina Genome Analyzer®, Applied BiosystemsSOLiD® System, HelicosHeliscope®, Complete Genomics®, and Pacific Biosciences SMRT®。
3)TSA ( Transcriptome Shotgun Assembly )存储由第二代测序数据组装拼接得到的转录本序列。
2. 数据类型上传到NCBI 的数据,依据数据类型,大体可以分为测序原始数据和分析数据。
原始数据(Raw data)指未经任何处理的测序下机文件,包含二代及三代测序数据等。
其中二代测序中最常见的是illumina测序仪产生的fastq文件,例如锐博在项目结题时为您提供的*fastq.gz文件。
这一类型的文件需要提交到NCBI的SRA数据库,具体上传方法我们将在下文中做详细介绍。
一些统计数据的网址1.美国经济分析局Bearfacts (Bureau of Economic Analysis)/remd/index.htm该站点由美国商业部下属的经济分析局(BEA)建立。
BEA的功能主要是分析和综合大量数据以便创造美国经济的一个连贯模式。
BEA还对国际、国家和地区的经济进行预算和分析。
其中以对国民生产总值(GDP)的预算最为著名。
2.商业统计(美国人口普查局)Business Statistics (US Census Bureau)/epcd/www/sb001.htm该站点上有便于使用的关于公司、就业、薪水和收据的信息。
按照产业类目排列。
3.人口普查局经济信息Census Bureau Economic Information/ftp/pub/econ/www/是美国人口统计局的官方站点。
上面有大量关于美国经济的统计数据。
如美国经济指标;农业、制造业、建筑业、农村和城市的数据;美国商业统计、当前工业报告、经济统计和调查;数据访问工具等等。
4.当前工业报告(美国人口普查局)Current Industrial Reports (US Census Bureau)/pub/cir/www/index.html这里可以看到系列工业报告。
电子数据是唯一的形式,可能要收取一定费用。
5.网上数据(加州大学圣迭戈分校)Data on the Net (UC San Diego )/idata/收集了关于美国经济和其它数据的站点,有注释,可检索。
6.经济数据和链接(美国加州大学Fresno分校)Econ Data & Links (CAL State Fresno)/Economics/econ_EDL.htm由美国加州大学Fresno分校建立。
该站点提供了大量表格和统计数据,以及很多相关站点的链接,内容从收入、财富到贫困问题都有。
7.经济数据(国际)EconData (International)/EdRes/Top.../International/马里兰大学提供的国际性EconData时间序列数据库。
miRNA相关分析网站miRNA数据库及靶基因分析软件1.miRBase: miRBase序列数据库是一个提供包括已发表的miRNA序列数据、注释、预测基因靶标等信息的全方位数据库,是存储miRNA信息最主要的公共数据库之一。
miRBase提供便捷的网上查询服务,允许用户使用关键词或序列在线搜索已知的miRNA和靶标信息。
2.miRecords: /动物mi rna的靶相互作用的数据库, 包括人工收集实验验证的, 预测的miRNA 的靶目标. 靶标预测工具DIANA-microT, MicroInspector, miRanda, MirTarget2, miTarget, NBmiRTar, PicTar, PITA, RNA22, RNAhybrid, and TargetScan/TargertScanS.3.PMRD: /PMRD/PMRD是一个关于植物microRNA数据库,包括了microRNA序列和它们的靶基因、二级结构、表达谱、基因组搜索等等,并且该数据库尝试着整合大量的关于植物microRNA的数据。
4.CoGeMiR: http://cogemir.tigem.it/CoGeMiR数据库总结关于在进化过程中microRNA在不同动物中的保守性。
该数据库搜集已知的和预测的microRNA关于染色体定位、保守性和表达谱方面的信息。
5.MicroRNAdb: /micrornadb/index.php MicroRNAdb是一个关于microRNA的综合性数据库。
相比其他数据库,MicroRNAdb搜集的microRNA更完整且进行了充分的注释。
如今,该数据库有732个microRNA序列的条目和439个详细的注释。
6.miRWalk: http://www.ma.uni-heidelberg.de/apps/zmf/mirwalk/miRWalkis是一个综合性数据库,提供来自人类、小鼠和大鼠的miRNA的预测信息和经过验证的位于其靶基因上的结位点。
生物信息学网站分子生物学数据库综合目录1. SRS序列查询系统(分子生物学数据库网络浏览器) http://www.embl-heidelberg.ed/srs5/2. 分子生物学数据库及服务器概览/people/pkarp/mimbd/rsmith.html3. BioMedNet图书馆4. DBGET数据库链接http://www.genome.ad.jp/dbget/dbget.links.html5. 哈佛基因组研究数据库与精选服务器6. 约翰. 霍普金斯大学(Johns Hopkins University) OWL网络服器/Dan/proteins/owl.html7. 生物网络服务器索引,USCS /network/science/biology/index.html8. 分子生物学数据库列表(LiMB) gopher:///11/molbio/other9. 病毒学的WWW服务器,UW-Madison /Welcome.html10. UK MRC 人类基组图谱计划研究中心/11. 生物学家和生物化学家的WWW资源http://www.yk.rim.pr.jp/~aisoai/index.html12. 其他生物网络服务器的链接/biolinks.html13. 分子模型服务器与数据库/lap/rsccom/dab/ind006links.html14. EMBO实际结构数据库http://xray.bmc.uu.se/embo/structdb/links.html15. 蛋白质科学家的网络资源/protein/ProSciDocs/WWWResources.html16. ExPASy分子生物学服务器http://expasy.hcuge.ch/cgi-bin/listdoc17. 抗体研究网页18. 生物信息网址http://biochem.kaist.ac.kr/bioinformatics.html19. 乔治.梅森大学(George Mason University)的生物信息学与计算分子生物学专业/~michaels/Bioinformatics/20. INFOBIOGEN数据库目录biogen.fr/services/dbcat/21. 国家生物技术信息研究室/data/data.html22. 人类基因组计划情报/TechResources/Human_Genome23. 生物学软件及数据库档案/Dan/software/biol-links.html24. 蛋白质组研究:功能基因组学的新前沿(著作目录) http://expasy.hcuge.ch/ch2d/LivreTOC.html序列与结构数据库一.主要的公共序列数据库1. EMBL WWW服务器http://www.EMBL-heidelberg.ed/Services/index.html2. Genbank 数据库查询形式(得到Genbank的一个记录) /genbank/query_form.html3. 蛋白质结构数据库WWW服务器(得到一PDB结构) 4. 欧洲生物信息学研究中心(EBI) /5. EBI产业支持/6. SWISS-PROT(蛋白质序列库) http://www.expasy.ch/sprot/sprot-top.html7. 大分子结构数据库/cgi-bin/membersl/shwtoc.pl?J:mms8. Molecules R Us(搜索及观察一蛋白质分子) /modeling/net_services.html9. PIR国际蛋白质序列数据库/Dan/proteins/pir.html10. SCOP(蛋白质的结构分类),MRC /scop/data/scop.l.html11. 洛斯阿拉莫斯的HIV分子免疫数据库/immuno/index.html12. TIGR数据库/tdb/tdb.html13. NCBI WWW Entrez浏览器/Entrez/index.html14. 剑桥结构数据库(小分子有机的及有机金属的结晶结构) 15. 基因本体论坛/GO/二. 专业数据库1. ANU生物信息学超媒体服务(病毒数据库、分类及病毒的命名法) .au/2. O-GL YCBASE(O联糖基化蛋白质的修订数据库) http://www.cbs.dtu.dk/OGLYCBASE/cbsoglycbase.html3. 基因组序列数据序(GSDB)(已注释的DNA序列的关系数据序) 4. EBI蛋白质拓扑图/tops/Serverintermed.html5. 酶及新陈代谢途径数据库(EMP) /6. 大肠杆菌数据库收集(ECDC)(大肠杆菌K12的DNA序列汇编) http://susi.bio.uni-giessen.de/ecdc.html7. EcoCyc(大肠杆菌基因及其新陈代谢的百科全书) /ecocyc/ecocyc.html8. Eddy实验室的snoRNA数据库/snoRNAdb/9. GenproEc(大肠杆菌基因及蛋白质) /html/ecoli.html10. NRSub(枯草芽胞杆菌的非冗余数据库) http://pbil.univ-lyonl.fr/nrsub/nrsub.html11. YPD(酿酒酵母蛋白质) /YPDhome.html12. 酵母基因组数据库/Saccharomyces/13. LISTA、LISTA-HOP及LISTA-HON(酵母同源数据库汇编) /14. MPDB(分子探针数据库) http://www.biotech.est.unige.it/interlab/mpdb.html15. tRNA序列及tRNA基因序列汇编http://www.uni-bayreuth.de/departments/biochemie/trna/index/html16. 贝勒医学院(Baylor College of Medicine)的小RNA数据库/dbs/SRPDB/SRPDB.html17. SRPDB(信号识别粒子数据库) /dbs/SRPDB/SRPDB.html18. RDP(核糖体数据库计划) /19. 小核糖体亚蛋白RNA结构http://rrna.uia.ac.be/ssu/index.html20. 大核糖体亚蛋白RNA结构http://rrna.uia.ac.be/lsu/index.html21. RNA修饰数据库/RNAmods/22. 16SMDB及23SMDB(16S和23S核糖体RNA突变数据库)/Departments/Biology/Databases/RNA.html23. SWISS-2DPAGE(二维凝胶电泳数据库) http://expasy.hcuge.ch/ch2d/ch2d-top.html24. PRINTS /bsm/dbbrowser/PRINTS/PRINTS.html25. KabatMan(抗体结构及序列信息数据库) /abs26. ALIGN(蛋白质序列比对一览) /bsm/dbbrowser/ALIGN/ALIGN.html27. CATH(蛋白质结构分类系统) /bsm/cath28. ProDom(蛋白质域数据库) http://protein.toulouse.inra.fr/29. Blocks数据库(蛋白质分类系统) /30. HSSP(按同源性导出的蛋白质二级结构数据库) http://www.sander.embl-heidelberg.de/hssp/31. FSSP(基于结构比对的蛋白质折叠分类) /dali/fssp/fssp.html32. SBASE蛋白质域(已注释的蛋白质序列片断) http://www.icgeb.trieste.it/~sbasessrv/33. TransTerm(翻译控制信号数据库) /Transterm.html34. GRBase(参与基因调控的蛋白质的相关信息数据库) /~regulate/trevgrb.html35. REBASE(限制性内切酶和甲基化酶数据库) /rebase/36. RNaseP数据库/RNaseP/home.html37. REGULONDB(大肠杆菌转录调控数据库) http://www.cifn.unam.mx/Computational_Biology/regulondb/38. TRANSFAC(转录因子及其DNA结合位点数据库) http://transfac.gbf.de/39. MHCPEP(MHC结合肽数据库) .au/mhcpep/40. ATCC(美国菌种保藏中心) /41. 高度保守的核蛋白序列的组蛋白序列数据库/Baxevani/HISTONES42. 3Dee(蛋白质结构域定义数据库) /servers/3Dee.html43. InterPro(蛋白质域以及功能位点的完整资源) /interpro/序列相似性搜索1. EBI序列相似性研究网页/searches/searches.html2. NCBI: BLAST注释/BLAST3. EMBL的BLITZ ULTRA快速搜索/searches/blitz_input.html4. EMBL WWW服务器http://www.embl-heidelberg.de/Services/index.html#55. 蛋白质或核苷酸的模式浏览/compbio/PatScan/HTML/patscan.html6. MEME(蛋白质超二级结构模体发现与研究) /meme/website7. CoreSearch(DNA序列保守元件的识别) http://www.gsf.de/biodv/coresearch.html8. PRINTS/PROSIT浏览(搜索motif数据库) /cgi-bin/attwood/SearchprintsForm.pl9. 苏黎世ETH服务器的DARWIN系统http://cbrg.inf.ethz.ch/10. 利用动态规划找出序列相似性的Pima IIhttp://bmerc-www.bu.ede/protein-seq/pimaII-new.html11. 利用与模式库进行哈希码(hashcode)比较找到序列相似性的DashPat /protein-seq/dashPat-new.html12. PROPSEARCH(基于氨基酸组成的搜索) http://www.embl-heidelberg.de/aaa.html13. 序列搜索协议(集成模式搜索) /bsm/dbbrowser/protocol.html14. ProtoMap(SEISS-PROT中所有蛋白质的自动层次分类) http://www.protomap.cs.huji.ac.il/15. GenQuest(利用Fasta、Blast、Smith-Waterman方法在任意数据库中搜索) http://www.gdb.rog/Dan/gq/gq.form.html16. SSearch(对特定数据库的搜索) http://watson.genes.nig.ac.jp/homology/ssearch-e_help.html17. Peer Bork搜索列表(motif/模式序列谱搜索) http://www.embl-heidelberg.de/~bork/pattern.html18. PROSITE数据库搜索(搜索序列的功能位点) /searches/prosite.html19. PROWL(Skirball研究中心的蛋白质信息检索) /index.html序列和结构的两两比对1. 蛋白质两两比对(SIM) http://expasy.hcuge.ch/sprot/sim-prot.html2. LALNVIEW比对可视化观察程序ftp://expasy.hcuge.ch/pub/lalnview3. BCM搜索装置(两两序列比对) /seq-search/alignment.html4. DALI蛋白质三维结构比较/dali/5. DIALIGN(无间隙罚分的比对程序) http://www.gsf.de/biodv/dialign/html多重序列比对及系统进行树1. ClustalW(BCM的多重序列比对) /multi-align/multi-align.html2. PHYLIP(推测系统进行树的程序) /phylip.html3. 其它系统进行树程序,PHYLIP文档的汇编http://expasy.hcuge.ch/info/phylogeny.html4. 系统进行树分析程序(生命树列表) /tree/programs/programs.html5. 遗传分类学软件(Willi hennig协会提供的列表) /education.html6. 用于多重序列比对的BCM搜索装置/multi-align/multi-align.html7. AMAS(分析多重序列比对中的序列) /servers/amas_server.html8. 维也纳RNA二级结构软件包http://www.tbi.univie.ac.at/~ivo/RNA/四. 有代表性的预测服务器1. PHD蛋白质预测服务器,用于二级结构、水溶性以及跨膜片断的预测http://www.embl-heidelberg.de/predictprotein/predictprotein.html2. PhdThreader(利用逆折叠方法预测、识别折叠类) http://www.embl-heidelberg.de/predictprotein/phd_help.html3. PSIpred(蛋白质结构预测服务器) /psipred4. THREADER(戴维. 琼斯) /~jones/threader.html5. TMHMM(跨膜螺旋蛋白的预测) http://www.cbs.dtu.dk/services/TMHMM/6. 蛋白质结构分析,BMERC /protein-seq/protein-struct.html7. 蛋白质域和折叠预测的提交表http://genome.dkfz-heidelberg.de/nnga/def-query.html8. NNSSP(利用最近相邻法预测蛋白质的二级结构) /pss/pss.html9. Swiss-Model(基于知识的蛋白质自动同源建模服务器) http://www.expasy.ch/swissmod/SWISS-MODEL.html10. SSPRED(用多重序列比对进行二级结构预测) /jong/predict/sspred.html11. 法国IBCP的SOPM(自寻优化预测方法、二级结构) http://pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopm.html12. TMAP(蛋白质跨膜片断的预测服务) http://www.embl-heidelberg.de/tmap/tmap_info.html13. TMpred(跨膜区域和方向的预测) /software/TMPRED_form.html14. MultPredict(多重序列比对的序列的二级结构) /zpred.html15. BCM搜索装置(蛋白质二级结构预测) /seq-search/struc-predict.html16. COILS(蛋白质的卷曲螺旋区域预测) /software/coils/COILS_doc.html17. Coiled Coils(卷曲螺旋) /depts/biol/units/coils/coilcoil.html18. Paircoil(氨基酸序列中的卷曲螺旋定位) /bab/webcoil.html19. PREDATOR(由单序列预测蛋白质二级结构) http://www.embl-heidelberg.de/argos/predator/predator_info.html20. EV A(蛋白质结构预测服务器的自动评估) /eva/五. 其他预测服务器1. SignalP (革兰氏阳性菌、革兰氏阴性菌和真核生物蛋白质的信号肽及剪切位点) http://www.cbs.dtu.dk/services/SignalP/2. PEDANT(蛋白质提取、描述及分析工具) http://pedant.mips.biochem.mpg.de/六. 分子生物学软件链接1. 生物信息学可视化工具/alan/VisSupp/2. EBI分子生物学软件档案/software/software.html3. BioCatalog /biocat/e-mail_Server_ANAL YSIS.html4. 生物学软件和数据库档案/Dan/softsearch/biol-links.html5. UC Santa Cruz的序列保守性HMM的SAM软件/research/compbio/sam.html七. 网上博士课程1. 生物计算课程资源列表:课程大纲http://www.techfak.uni-bielefeld.de/bcd/Curric/syllabi.html2. 生物序列分析和蛋白质建模的Ph.D课程http://www.cbs.dtu.dk/phdcourse/programme.html3. 分子科学虚拟学校/vsms/sbdd/4. EMBnet 生物计算指南http://biobase.dk/Embnetut/Universl/embnettu.html5. 蛋白质结构的合作课程/PPS/index.html6. 自然科学GNA虚拟学校http://www.techfak.uni-bielefeld.de/bcd/Vsns/index.html7. 分子生物学算法/education/courses/590bi。
实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。
用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。
如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。
如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。
但“transcription factor”这样有一定范围的词是可以接受的。
可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。
点击进入对应的数据库,可以查看搜索到的条目。
如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。
点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象的各种研究。
对于生命科学的研究,特别是在分子水平上进行的研究,需要大量的数据支持。
这些数据包括分子序列、蛋白质结构、代谢途径等等。
为了有效地管理这些数据,生命科学中广泛应用了各种数据库。
本文将介绍生命科学中最常用的5个数据库。
1. GenBankGenBank是全球最大的分子生物学数据库,包含了全球各地实验室提交的DNA和RNA序列。
它由美国国家生物技术信息中心(NCBI)维护。
GenBank包含了数十亿条序列记录,其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。
与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。
GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。
2. PubMedPubMed是美国国家医学图书馆(NLM)维护的一个生命科学文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。
PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话题时更加方便。
除了搜索全文的功能,PubMed还提供了很多额外的服务,如翻译摘要、相关文章推荐、绘制图表等。
3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台,专门用于处理各种生命科学的数据。
Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。
Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。
4. Protein Data Bank (PDB)蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。
PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析,包括了大多数已知的蛋白质家族和酶。
核酸序列分析1、核酸序列检索可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。
在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。
如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。
其中“[ac]”是序列接受号的描述字段。
2、核酸序列的基本分析(1)分子质量、碱基组成、碱基分布分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。
如:BioEdit(/BioEdit/bioedit.html),DNAMAN()。
(2)序列变换进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。
这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。
(3)限制性酶切分析该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。
REBASE数据库(,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。
其它资源还有:WebGene:/~tjyin/WebGene/RE.html,/personal/tyin.htmlWebCutter2:http://www//firstmarkert/firstmarket/cutter/cut2.html同时,很多软件也能够识别REBASE限制酶数据库。
强烈推荐使用集成化的软件如BioEdit和DNAMAN等。
所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。
在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。
蛋白质组学研究中常用的网站和数据库蛋白质, 数据库, 研究本帖引用网址:/thread-35586-1-1.html一、蛋白质数据库1.UniProt (The Universal Protein Resource) 网址://uniprot/简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。
2.PIR(Protein Information Resource) 网址:/简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。
3.BRENDA(enzyme database) 网址:简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。
4.CORUM(collection of experimentally verifiedmammalian protein complexes) 网址:http://mips.gsf.de/genre/proj/corum/index.html简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database) 网址:.au/cybase简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。
6.DB-PABP 网址:/DB_PABP/简介:聚阴离子结合蛋白数据库。
NCBI如何查找序列NCBI(National Center for Biotechnology Information)是一个提供生物医学信息服务的国家机构。
NCBI的数据库中包含了大量的生物医学和基因组学的数据和文献,其中包括各种序列数据。
在NCBI上查找序列包括以下几个步骤:2. 选择数据库:由于NCBI有多个数据库,您需要选择适当的数据库来查找您感兴趣的序列。
常用的数据库包括:GenBank、RefSeq、PubMed 等。
3. 使用基本:如果您已经知道您要查找的序列的具体信息,您可以使用基本进行查找。
在NCBI的主页上,您可以看到一个栏,您可以在这里输入您的查询。
例如,如果您想查找一些基因的序列,您可以输入基因的名称或序列的Accession号码。
4. 使用高级选项:如果您想进行更精确的,您可以使用高级选项。
在栏旁边有一个下拉菜单,您可以在这里选择“Advanced search”选项。
在高级页面上,您可以选择更多的限定条件进行。
例如,您可以选择限制的数据库、限定结果的时间范围、指定关键字的位置等。
5. 根据结果浏览:NCBI将会返回与您的查询相匹配的结果列表。
您可以点击每个结果的标题来查看详细信息。
在详细信息页面上,您可以找到该序列的Accession号码、相关文献、相关数据库的链接等。
7. 进行进一步分析:一旦您获得了您感兴趣的序列,您可以将其用于进一步的分析。
您可以在NCBI的其他数据库中使用该序列进行比对、注释、序列比较等。
例如,您可以将序列输入到BLAST(Basic Local Alignment Search Tool)进行比对,并获得与该序列相似的其他序列。
总之,NCBI是一个强大的工具,能够提供各种生物医学信息和序列数据。
通过使用NCBI的功能和相应的数据库,您可以找到所需的序列并进行相关的生物信息学分析。
蛋白质序列分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。
蛋白质的很多功能特征可直接由分析其序列而获得。
例如,疏水性图谱可通知来预测跨膜螺旋。
同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。
WEB中有很多此类资源用于帮助预测蛋白质的功能。
基本理化性质分析:https:///protparam/信号肽预测:http://www.cbs.dtu.dk/services/SignalP/在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。
合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。
一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。
在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。
含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。
糖基化位点预测:http://www.cbs.dtu.dk/services/Net NGlyc/跨膜区分析:TMORED蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。
蛋白酶的结构功能进行预测和分析:http://smart.embl-heidelberg.de/同源建模分析://SWISS-MODEL.html二级结构及折叠类预测:Predictprotein特殊结构或结构预测:COILS MacStripe疏水性分析:ExPASy的ProtScale基于序列同源性分析的蛋白质功能预测:至少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。
常用生物信息学网址NCBI 生物信息学研究工具:/Tools/NCBI 生物信息学研究工具网站由美国国家生物技术信息中心支持。
该网站提供了许多程序的链接,内容包括数据挖掘、核酸和蛋白质组分析等。
同时,网站还提供了许多相关链接和资源。
欧洲生物信息学研究所:/欧洲生物信息学研究所是一个非盈利学术机构,是欧洲分子生物学实验室的一部分。
它是生物信息学研究和服务的中心。
它所管理生物数据的数据库包括核酸,蛋白质序列和大分子结构。
它的使命是保证从分子生物学和基因组研究的日益增长的信息向公众公开,并且对科学研究团体提供任何方面的免费使用,以促进科学发展。
欧洲生物信息学研究所Ensembl 基因组浏览器:ttp:///ensembl/index.html欧洲生物信息学研究所Thornton 研究组:/Thornton/index.html欧洲生物信息学研究所多序列联配数据库:/embl/Submission/alignment.html欧洲生物信息学研究所工具箱:/Tools/欧洲生物信息学研究所核酸数据库:/Databases/nucleotide.html欧洲生物信息学研究所计算基因组研究组:/research/CGG/index.html欧洲生物信息学研究所完整基因组数据库:/genomes/欧洲生物信息学研究所序列数据库研究组:/seqdb/index.htmlBrutlag 生物信息学研究组:/Brutlag 生物信息学研究组是斯坦福大学的一个研究团体,主要研究从蛋白质一级结构预测蛋白质结构和功能,其开发了EMOTIF 、EMATRIX 和3MOTIF 软件应用于非鉴定的基因组序列的功能确定,另外还开发了LOCK 和3DSEARCH 软件用于比较蛋白质结构和蛋白质结构数据库的搜索。
生物GBF 信息学小组主页:http://transfac.gbf.de/生物信息学小组主页是德国生物技术研究中心的生物信息组的主页。
1下面以人的 IL6(白细胞介素 6)为例讲述一下具体的操作步骤1.打开Map viewer 页面,网址为:/mapview/index.html 在 search 的下拉菜单里选择物种,for 后面填写你的目的基因。
操作完毕如图所示:2.点击“GO”出现如下页面:3.在步骤二图示的右下角有一个Quick Filter,下面是让你选择的几个复选框,在Gene前面的小方框里打勾,然后点击Filter. 出现下图:说明一下:1、染色体的红色区域即为你的目的基因所处位置。
2、下面参考序列给出了三个,是不同的部门做出来的,经我验证,序列有微小的差异,但总体来说基本相同。
尽管你分别点击后,序列代码、序列代码等有所差异,但碱基基本一致,不影响大家研究分析序列。
现在普遍采用的是最上面的那个序列,这一条是世界范围的生物科学家用计算机合成的一个序列。
我也推荐大家使用这个序列。
4.点击上述三条序列第一条序列(即 reference)对应的"Genes seq",出现新的页面,页面下方为:5.点击上图出现的“Download/View Sequence/Evidence ”,即下载查看序列等功能,结果如图所示:先对上面这张图做点简要的说明,在 Sequence Format(序列输出格式)后面是一个下拉式选择菜单,默认的为 FASTA 格式,还有一个是 GenBank 格式。
我推荐大家选择 GenBnak格式,因为这个格式提供了很多该基因的信息,而 FASTA格式只有基因序列。
6.在 Sequence Format 后选择 GenBank,然后点击下面的 Display,目的基因的相关信息和序列就出现在眼前了。
点击后如图所示(网页较大,只抓取一小部分以作示范):在上述打开的网页中,你可以看到基因长度,基因序列,以及这个基因是如何被报道出来的等各种信息。
你会看到: mRNAjoin(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394) 这代表了从基因的 3598位开始就是转录区了,即我们常说的 mRNA 片断,由于内含子的存在,所以 mRNA 在DNA 序列上分成了几段。
一、DNA序列分析与引物设计1.碱基组成:采用DNRSTAR6.0软件。
2.外显子、内含子分析:Blast,即基因组与cDNA或mRNA比对,结合“GT-AG法则”。
或:GENSCAN:/GENSCAN.html3.启动子预测:/molbio/proscan//seq_tools/promoter.htmlhttp://www.cbs.dtu.dk/services/Promoter/4.CpG Island 分析:/Tools/emboss/cpgplot/5.http://www.cbs.dtu.dk/services/6.酶切位点分析:Primer Premier 57.引物设计:Primer Premier 5和Primer 3。
三、RNA分析RNA二级结构分析用DNASTAR6中的Genequst程序进行或RNAstructure 软件进行。
四、cDNA的序列分析1.ORF分析:采用NCBI的ORF工具,或者采用DNRSTAR6.0软件。
2.碱基组成:采用DNRSTAR6.0软件。
3.电子定位:采用NCBI中的Blast工具,与牛的基因组比对可得。
五、蛋白序列及结构分析:1.氨基酸序列的推导:采用DNRSTAR6.0软件。
2.氨基酸数目、组成:采用DNRSTAR6.0软件。
3.分子量、等电点:/tools/pi_tool.html4.疏/亲水性:/tools/protscale.html5.信号肽:http://www.cbs.dtu.dk/services/SignalP/6.跨膜结构:http://www.cbs.dtu.dk/services/TMHMM-2.0/7.蛋白质结构域预测:http://smart.embl-heidelberg.de/或者/prosite/8.亚细胞定位:http://psort.nibb.ac.jp/form2.html9.同源性分析:/blast10.系统发生树:采用DNAMAN软件。
NCBI在线BLAST使用方法与结果详解NCBI(National Center for Biotechnology Information)是一个包含大量基因组学、生物信息学等相关数据和工具的数据库。
其中,BLAST (Basic Local Alignment Search Tool)是一种常用的序列比对工具,可用于在数据库中搜索相似序列。
一、BLAST简介BLAST是一种基于序列比对的方法,可用于确定一给定序列与数据库中序列的相似性。
其工作原理是将查询序列与数据库中的序列进行比对,并生成一个比对得分来衡量它们之间的相似程度。
通过BLAST的结果,可以获得序列的匹配位置、长度、相似性等信息,从而帮助研究人员进行更深入的生物学研究。
二、使用方法1. 打开NCBI网站首先,打开浏览器,输入NCBI的网址(https:///),进入NCBI的官方网站。
2. 进入BLAST页面在NCBI的主页上,找到“BLAST”或“BLAST and Alignments”选项,并点击进入BLAST页面。
3. 输入查询序列在BLAST页面上,找到“Enter Query Sequence”或“Enter accession number, gi, or FASTA sequence”等文本框,将需要查询的序列输入其中。
可以直接复制粘贴序列,或选择上传文件的方式输入。
4. 选择数据库在BLAST页面上,找到“Choose Search Set”或“Database”等选项,选择需要比对的数据库。
NCBI提供了多个数据库,如“nr”(非冗余蛋白数据库)、“nt”(非冗余核酸数据库)等,根据研究需要选择合适的数据库。
5. 设置参数根据需要,可以通过“Algorithm parameters”等选项来设置比对参数,如设置匹配的阈值、比对的方式等。
6. 运行BLAST设置完成后,点击“BLAST”或“Run BLAST”等按钮运行BLAST。
序列分析数据库及相关网址
J G.WU
NCBI()-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder(/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN()
分析实验序列的可能酶切位点——NEBcutter2.0 (/NEBcutter2/index.php)
注:Custom digest -- view gel
限制性内切酶数据库——REBASE(/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy (PeptideMass)[* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL(/embl/)--Toolbox--Clustal2W。