华中农业大学《生物信息学》讲义
- 格式:pdf
- 大小:301.82 KB
- 文档页数:10
生物信息学 (2000以后) 下载1.《生物信息学手册》郝柏林等/Soft/2008/2276.htm2.《生物信息学基因和蛋白质分析的实用指南>> 李衍达等译/indexCF/home/MyDocumentDown.aspx?MSAutoID=1437543.《简明生物信息学》钟扬等主编/bbs/read.php?tid=123482*/training/8c ... a-8d9d-f85d3b09d2434-5《生物信息学札记》樊龙江/ics/laborate/Bioinplant/courses/Bioinformatics_note.htm/bioinplant/courses/Bioinformatics_note_V.2.htm6-7.《生物信息学》孙啸《生物信息学概论》孙啸等译/chenyuan/xsun/BioinformaticsInternetStudy/BioinformaticsInternetS tudy/Ebook_bioinfo.htm/chenyuan/xsun/BioinformaticsInternetStudy/BioinformaticsInternetS tudy/Ebook_bioinfo/生物信息学.rar8.《后基因组信息学》孙之荣等译,*/training/93 ... 5-1d801a4f6909.aspx9.《生物信息学:机器学习方法》张东晖等译/source/1624083/source/162405910.《生物信息学中的计算机技术》孙超等译/bbs/thread-15563-1-1.html11.《生物信息学:序列与基因组分析》原版钟扬等译/Soft/2007/2097.htm/bookhtml/bsga.htm/source/24809512.《生物信息学算法导论》王翼飞等译/?d01=f21ca8f/source/56369513.《生物信息学方法指南》原版欧阳红生等译/indexCF/home/MyDocumentDown.aspx?MSAutoID=15296514.《生物信息学》北大生物信息中心/chinese/documents/index.html/chinese//15.清华生物信息学教程黄英武等/Soft/2007/2096.htm16.生物信息学课件教程(河北农业大学)/indexCF/home/MyDocumentDown.aspx?MSAutoID=14377917.生物信息学讲义(西南交通大学)/Soft/2007/2105.htm18.简明生物信息学基础实验讲义/Soft/2008/2275.htm19.生物信息学培训教程华大基因/bbs/viewthread.php?tid=266342&extra=page%3D120.《生物信息学》讲义华中农业大学/kech/swxxx/jakj/index.htm/search_courseware_detail.asp?id=2989721.生物信息学课程-桂林医学院/genome//genome/list.asp?boardid=22/genome/index9.asp22.华南理工大学生物信息网格平台/bioinfo/link/index.htm23.清華大學生物資訊中.tw/35.Applied Bioinformatics Course 北大/26.北京基础医学研究所计算生物学中心/27.哈尔滨医科大学生物信息学系/index_main.htm28.Zhejiang University/bioinplant/29.Blast/BLAST/Doc/urlapi.html30-40.《生物信息学导论》课程-北京大学理论生物学中心/main/Course.htm/main/Course/FurtherReading.htm《What is life?》(Schrodinger,1944)(中文译本)《Double helix》(J.D. Watson) (中文译本)《Primer on Molecular Genetics》(DOE Human Genome Program,1992《生物信息学英文小词典》(2001)《生物信息学中的计算机技术(英文版)》《Computational Moleculer Biology》(Peter Clote)(2000)《Bioinformatics-Sequence and Genome Analysis》(David W. Mount)(2001)《Bioinformatics Computing》(Bryan Bergeron)(2002)王梓坤:《生命信息遗传中的若干数学问题》(2000)《隐Markov模型方法讲义》41-55 生物信息学 - 西南交通大学/C54/Course/Index.htmIntroduction to BioinformaticsBioinformaticscp in bioinformaticsbioinformatics SECOND EDITIONBioinformatics Computer Skills生物信息学手册生物信息学概论TOM的机器学习方法bioperlBeginning Perl for BioinformaticsPERL编程24学时教程MATLABBLASTBioJava56.生物信息学概论_第四军医大学/source/119532257.生物信息学-赵国屏等/indexCF/home/MyDocumentDown.aspx?MSAutoID=191987 58.2007清华全国生物信息学培训资料/GSSBC07/index59.生物信息学方法与实践/indexCF/home/MyDocumentDown.aspx?MSAutoID=143744 60.生物信息学绪论-中山大学/thread-18073-1-1.html61.蛋白质的结构预测与分子设计来鲁华等/f/5190000.html?from=isnom (2分) /Soft/HTML/6408.html/bbs/thread-8710456-1-1.html62. 探索--基因组学、蛋白质组学和生物信息学-孙之荣主译/indexCF/home/MyDocumentDown.aspx?MSAutoID=28742 63.计算生物学和系统生物学基础讲义/user/my_ishare.php?uid=1419224700利用X射线晶体衍射图及核磁共振谱解析同源建模DNA微阵列与聚类分析基于计算的蛋白质组注释基于计算的蛋白质设计蛋白质结构预测方法:同源建模与折叠识别...分子建模:方法及应用蛋白质结构与分类导论蛋白质二级结构预测RNA二级结构预测DNA序列进化DNA序列分析中的马尔科夫模型与隐马尔科DNA模体建模与识别DNA序列比较与比对基因组序列与DNA序列分析文献讨论亲缘分析多序列比对 II多序列比对I绪论-序列比对与动态规划64.华南农业大学——生物信息学/zhwxxx/swxxx/index.asp65.《计算机辅助药物分子设计》 [徐小杰等]/Blog/blogdetail.aspx?bid=59173 66.生物信息学导论 -数据库厦门大学/source/167324767.计算机辅助药物设计陈凯先/Blog/BlogDetail.aspx?bid=80399。
生物信息学讲义第一章:生物信息学概述什么是生物信息学:又称计算生物学(computational biology),是生物学与信息学、计算机科学相互交叉形成的新兴学科,它应用数学、计算机科学的方法研究生物学问题,它所研究的主要对象是生物学的数据。
生物信息学是为了适应人类基因组计划(Human Genome Project,HGP)的需要产生的,最主要的应用是对人类基因组计划所得到的大量生物学数据进行存储、检索和分析。
目前生物信息学已被广泛的应用于医学、人类学、结构生物学和蛋白质组学(Proteomics)等研究领域。
生物信息学的研究内容:广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。
这一定义包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。
具体地说,生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。
生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子机理,最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。
基因组信息学、蛋白质的结构计算与模拟以及药物设计,这三者紧密地围绕着遗传信息传递的中心法则,因而必然有机地连接在一起。
1、基因组序列数据的拼接和组装基因组研究的首要目标是获得人的整套遗传密码。
人的遗传密码有32亿个碱基,而目前DNA测序多采用鸟枪法(shotgun),每个反应只能读取几百到上千个碱基。
在进行测序前,首先应用物理方法将人的基因组打碎,得到基因组片段进行测序,然后再把这些片段重新拼接起来。
生物信息学王石平(华中农业大学生命科学技术学院)2005.2.23211.69.135.104/bio-informatics.files/bio-infor.htm /Embnetut/Gcg/index.htm一、数据库1.核苷酸数据库GenBank 、EMBL 、DDBJ (在使用方法和连接的数据库上有差异,但数据量相同。
) 注:氨基酸序列是非试验来源,为推倒的结果。
使用时要谨慎!!!!)(1)GenBank(NCBI)数据解释。
/注:Display 中选FASTA 形式,显示原始的核苷酸数据,便于复制。
每条序列的3种编号(identifier)无意义)定义(描述) 版本 X.Y 1.位点名(基本2.注册号 3.Geninforidentifier(GI 号) 6位(X12345)或8位数字(XY123456);例外:自编号(一般为基因组序列)物种类型一般与Accession NO.相同(今6位型:属+种+X12345 8位型:与AC 相同10位数:早期8位数:现注:NID(Nucleotide ID) 1999.12取消,改用序列的数据可以更改,GI 号、NID 号变化,但AC 号不变。
GI 号。
Coding sequence 谨慎使用!!!! 最后一条Reference 序列提交者的文章为。
可以知道这一基因的研究历史,便于研究。
(2)dbESTEST来源于mRNA-基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知)-5’端或3’端的cDNA序列(EST)-300-400bp single-pass sequence (可能有误,如果要求<0.1%的错误率,需要测序8-10次)-GenBank中71%以上的是EST序列。
/dbEST/index.html(3)UniGene来源于同一基因的非重复EST,组成基因序列群(contig)注:不同实验室各自采用poly(T)15法和随机引物合成的cDNA(不完整),不同的cDNA的加工、拼接,形成重叠群(Contig)/UniGene/(4)dbSTS (sequence tagged sites)a.短序列(200-500bp)b.已完成染色体上的定位c.可以与电子PCR相连用/dbSTS/index.html(5)dbGSS (genome survey sequence)a.基因组短序列b. cosmid、BAC、YAC外源插入片断末端序列c. Alu PCR 序列/dbGSS/index.html(6)HTG (high-throughput genome sequence)尚未完成测序的重叠群(>2kb)更新快!!!/HTGS/(7)dbSNP每100-300bp有一个SNP/SNP/(8)EMBL/embl/(9)DDBJhttp://www.ddbj.nig.ac.jp/(10)EPD (Eukaryotic Promoter Database)启动子数据库http://www.genome.jp/dbget/dbget2.html2.蛋白质数据库(1)SWISS-PROT/sprot/有详细的注释序列;与44个数据库相互参照(cross-reference)(2)TrEMBL (translation of EMBL)(3)PIR (Promoter information resource)/pir/表明了结构域(4)PRF (Promoter research foundation)http://www4.prf.or.jp/(5)PDBSTR (Re-organized Protein data Bank)/sprot/prosite.html蛋白质的二级结构、α-碳位置(6)Prosite蛋白质家族、结构域/prosite/3.结构数据库(1)PDB (Protein Data Bank)/pdb/(2) NDB (Nucleic Acid Database)/NDB/ndb.html(3)DNA-bind Protein database/NDB/structure-finder/protein/index.html(4)swiss-3D IMAGEhttp://www.expasy.ch/sw3d/4.酶和代谢数据库(1)KEGG (Kyoto Eneyclopedin of genes & genemes)http://www.genome.ad.jp/kegg/(2)PKR (Protein Kinase Resource)/kinases5.文献数据库(1)PubMed/PubMed/(2)OMIM/Omim(3)Agricola/农业相关的文献6.提交数据GenBankBankIt提交 网上直接提交,立即得到临时编号(1周内提供Aceesion No.)SequIn提交 下载软件填写表格,自动确定CDS、ORF和查找重复序列、查载体序列用Update功能修改二、检索数据库的方法1、用关键词或词组进行的数据库检索 Text-based database searching2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database searching关键词:名词;描述性词、词组;Accession number体系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval system (DBGET) 检索须知1、连接词:AND OR NOT用引号将两个词组成一个词组“disease resistance”表示必须两个词先后顺序连续出现disease resistance 表示默认AND2、wild card “*”放在单词后使检索范围扩大,但是专一性降低Wan*=所有以Wan开头的单词 enzyme*=enzyme + enzymes 单复数同(1)Entrz(NCBI)优点:三种检索体系中最容易操作的; 缺点:检索范围有限8大类29个与Entrz体系相连的数据库1、Nucleiotide sequence database(6)GenBank; SNP; Gene; Homologene; UniSTS; ProSet2、Protein sequence database(1)Proteins3、Structure database(4)Structure; PubChem; Compound; 3D-Domain; CDD4、Taxonomy database(1)Taxonomy5、Genome database(2)Genomes; Genome Project6、Expression database(4)UniGene; GEO Profiles; GEO database;GENSAT注:数据库来源于mRNA-cDNA-protein(更确切)7、Literature database(7)PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH8、OthersPubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch检索方法:a、数据库间的检索 b、选择数据库 (可以限定检索内容和时间范围)(2)SRS (Sequence Retrieval System)/ 有不同的版本,可以下载。
EBI 优点:检索面宽缺点:检索复杂17大类194个数据库与SRS体系相连检索方法:a、快速检索(操作简单,检索的数据库有限,适用于明确目标的检索。
)b、深入检索(检索稍微复杂,检索全部的数据库,适用范围广泛的检索。
)(3)DBGEThttp://www.genome.jp/dbget/dbget2.html优点:与KEGG相连,操作较SRS简单缺点:检索面较窄检索方法:a、Basic search b、Advanced search三、核苷酸和蛋白质序列为基础的数据库检索 Sequence-based database searching1、序列对位排列(sequence alignment)2、将两条或多条序列对位排列,突出相似的结构区域(分析功能、分析物种进化、检测突变,插入或缺失、序列延长、序列定位、基因表达谱分析)3、序列对位排列分析种类a、序列对库对位排列分析(从数据库中寻找同源序列,主要涉及核苷酸库和蛋白质库)b、两序(多序列)列对位排列分析(一)序列对位排列分析的基本原理1、记分矩阵(scoring matrix)a、蛋白质序列对位排列分析记分复杂b、一致氨基酸记分不同稀有氨基酸分值高,普通氨基酸分值低c、相似氨基酸也积分,如D-E 用“+”表示氨基酸残基性质相似2、空位(间隔)罚分(gap penalty)基因进化过程中产生突变(插入、缺失)序列对位排列分析是允许插入空位空位罚分涉及两个参数:空位开放(gap opening)空位延伸(gap extension)(二)序列对库对位排列分析对待分析的序列对库进行相似性分析;重复许多次的两序列对位排列分析;从数据库找出所以的同源序列主要检索体系:BLAST、FASTA、Blitz1、基本概念a、sequence identity 两序列在同一位点核苷酸或氨基酸残基完全相同sequence similarity(or opositive)两序列在同一位点核苷酸或氨基酸残基化学性质相似b、Global alignment 完整的序列比较Local alignment 两序列相似程度最高的片断相比较c、Gapped alignment 为达到最佳alignment序列中加入空位Ungapped alignment 相比较的核苷酸或氨基酸残基连续d、Alignment score 衡量两相比序列相似程度的标准E (expect) value 期望得到的,完全由机会造成的,相当于或大于目前分值的alignment次数Raw score 原始分,分值较大,两个比较序列相似性程度较大Bit score 采用统计学方法以原始分为基础计算E=10 ;表示方法5e-46=5×10-46E越小越好可以接受的标准:E=10-5(重叠位置>40bp;identity>94%;远大于杂交标准)E=10-30基因组分析,功能与序列中相似E取决于alignment分值,相比较序列的长短和库中数据数量e、Low-complexity alignment region(LCR)核苷酸序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列(如polyA)数据库中半数以上的序列至少带有一处LCR序列alignment 应避免LCR相互配对得分BLAST用Filter功能避免比较LCR 用X和N分别代表LCR中的每个氨基酸残基和核苷酸2、BLAST(Basic Local Alignment Search Tool)(1)Nucleiotide Blast (Blastn)(2) Protein Blast (Blastp、PSI blast、PHI blast;Conserved domain (rpsblast)(3) Translated blast (blastx;tblstn;tblsatx)(4) Special Blast (Blast 2 sequence;bl2seq;VecScreen)BLAST programBlastn 用核苷酸序列检索核苷酸库BlastP 用氨基酸序列检索蛋白质库Blastx 用核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索蛋白质库tblastn 将蛋白质序列译成不同的核苷酸序列检索核苷酸库tblastx 将核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索核苷酸库(库中的序列也被译成不同的氨基酸序列)Blast databasenr (nucleiotide blast) GenBank(无EST、STS、GSS、HTGS)nr (protein blast) GenBank CDS translation + PDB + SwissProt + PIR + PRF(1)BLASTN序列的粘贴(或用GI号)-选择database-Autoformat(full/semi)(2)BLASTP(3)PSI-blast (Position Specific Iterated Blast)氨基酸序列检索;重复循环检索数据库。