生物信息学基础讲座
- 格式:ppt
- 大小:1.10 MB
- 文档页数:37
简明生物信息学基础实验讲义王万军叶春郭泰林魏大木生物秀—专心做生物!www.bbioo.com生物秀论坛-专注于生命科学!www.bbioo.com/bbs/西南交通大学生物工程系2004年9月目录第一章 计算机应用基础知识1字处理软件——Word2003的使用2 Excel基础知识与使用3 Foxmail的设置与使用第二章分子生物学软件的使用1序列的格式及其转换——Seqverter 1.3的使用2引物设计软件——Primer Premier4.0的使用3DNA多态性分析软件——DNAsp的使用第三章生物信息学资源挖掘1 多序列比对——Clustal X1.8.1的使用4蛋白质结构分析——RasMol2.7.2.1的使用5系统发育树软件——TreeView的使用第四章生物信息学网络资源的应用1 生物信息学数据库的使用——G enBank的使用2 生物信息学数据库的使用——EMBL的使用第一篇计算机应用基础知识一、字处理软件——Word 2003的使用1、软件的基本功能:Word 是功能极强的文字处理和版面编排软件,它简单易学,操作界面好、智能化程度高,Microsoft Word 20003作为Word 的新版本,保持了以前版本的优点,同时具有更强大的网络功能和通信功能。
Word可以编辑各种各样的文档(如报告、文章、演讲稿等)以及对文档各段落的设置;可以打开原先编辑的文档,可以进行新的文档编辑;在进行文档编辑时,可以设置字体,编辑各种格式的文档。
2、基本操作:⑴ 文件的打开、关闭与保存和页面设置。
⑵ 对文字和段落格式的设定。
⑶ 在文档中插入并制作表格。
⑷ 文档编辑中修改。
⑴文件的打开、关闭和页面设置:①新建文档:用鼠标点击Word图标,选择图1中“文件”菜单中的“新建”命令即可;图1②打开文档:如图1,打开已存在的文件则选择“文件”菜单中的“打开”,选择要打开文件的存放路径。
同时,单击,可以回到目前所处文件夹的上一层文件夹之中。
生物信息学王石平(华中农业大学生命科学技术学院)2005.2.23211.69.135.104/bio-informatics.files/bio-infor.htm /Embnetut/Gcg/index.htm一、数据库1.核苷酸数据库GenBank 、EMBL 、DDBJ (在使用方法和连接的数据库上有差异,但数据量相同。
) 注:氨基酸序列是非试验来源,为推倒的结果。
使用时要谨慎!!!!)(1)GenBank(NCBI)数据解释。
/注:Display 中选FASTA 形式,显示原始的核苷酸数据,便于复制。
每条序列的3种编号(identifier)无意义)定义(描述) 版本 X.Y 1.位点名(基本2.注册号 3.Geninforidentifier(GI 号) 6位(X12345)或8位数字(XY123456);例外:自编号(一般为基因组序列)物种类型一般与Accession NO.相同(今6位型:属+种+X12345 8位型:与AC 相同10位数:早期8位数:现注:NID(Nucleotide ID) 1999.12取消,改用序列的数据可以更改,GI 号、NID 号变化,但AC 号不变。
GI 号。
Coding sequence 谨慎使用!!!! 最后一条Reference 序列提交者的文章为。
可以知道这一基因的研究历史,便于研究。
(2)dbESTEST来源于mRNA-基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知)-5’端或3’端的cDNA序列(EST)-300-400bp single-pass sequence (可能有误,如果要求<0.1%的错误率,需要测序8-10次)-GenBank中71%以上的是EST序列。
/dbEST/index.html(3)UniGene来源于同一基因的非重复EST,组成基因序列群(contig)注:不同实验室各自采用poly(T)15法和随机引物合成的cDNA(不完整),不同的cDNA的加工、拼接,形成重叠群(Contig)/UniGene/(4)dbSTS (sequence tagged sites)a.短序列(200-500bp)b.已完成染色体上的定位c.可以与电子PCR相连用/dbSTS/index.html(5)dbGSS (genome survey sequence)a.基因组短序列b. cosmid、BAC、YAC外源插入片断末端序列c. Alu PCR 序列/dbGSS/index.html(6)HTG (high-throughput genome sequence)尚未完成测序的重叠群(>2kb)更新快!!!/HTGS/(7)dbSNP每100-300bp有一个SNP/SNP/(8)EMBL/embl/(9)DDBJhttp://www.ddbj.nig.ac.jp/(10)EPD (Eukaryotic Promoter Database)启动子数据库http://www.genome.jp/dbget/dbget2.html2.蛋白质数据库(1)SWISS-PROT/sprot/有详细的注释序列;与44个数据库相互参照(cross-reference)(2)TrEMBL (translation of EMBL)(3)PIR (Promoter information resource)/pir/表明了结构域(4)PRF (Promoter research foundation)http://www4.prf.or.jp/(5)PDBSTR (Re-organized Protein data Bank)/sprot/prosite.html蛋白质的二级结构、α-碳位置(6)Prosite蛋白质家族、结构域/prosite/3.结构数据库(1)PDB (Protein Data Bank)/pdb/(2) NDB (Nucleic Acid Database)/NDB/ndb.html(3)DNA-bind Protein database/NDB/structure-finder/protein/index.html(4)swiss-3D IMAGEhttp://www.expasy.ch/sw3d/4.酶和代谢数据库(1)KEGG (Kyoto Eneyclopedin of genes & genemes)http://www.genome.ad.jp/kegg/(2)PKR (Protein Kinase Resource)/kinases5.文献数据库(1)PubMed/PubMed/(2)OMIM/Omim(3)Agricola/农业相关的文献6.提交数据GenBankBankIt提交 网上直接提交,立即得到临时编号(1周内提供Aceesion No.)SequIn提交 下载软件填写表格,自动确定CDS、ORF和查找重复序列、查载体序列用Update功能修改二、检索数据库的方法1、用关键词或词组进行的数据库检索 Text-based database searching2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database searching关键词:名词;描述性词、词组;Accession number体系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval system (DBGET) 检索须知1、连接词:AND OR NOT用引号将两个词组成一个词组“disease resistance”表示必须两个词先后顺序连续出现disease resistance 表示默认AND2、wild card “*”放在单词后使检索范围扩大,但是专一性降低Wan*=所有以Wan开头的单词 enzyme*=enzyme + enzymes 单复数同(1)Entrz(NCBI)优点:三种检索体系中最容易操作的; 缺点:检索范围有限8大类29个与Entrz体系相连的数据库1、Nucleiotide sequence database(6)GenBank; SNP; Gene; Homologene; UniSTS; ProSet2、Protein sequence database(1)Proteins3、Structure database(4)Structure; PubChem; Compound; 3D-Domain; CDD4、Taxonomy database(1)Taxonomy5、Genome database(2)Genomes; Genome Project6、Expression database(4)UniGene; GEO Profiles; GEO database;GENSAT注:数据库来源于mRNA-cDNA-protein(更确切)7、Literature database(7)PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH8、OthersPubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch检索方法:a、数据库间的检索 b、选择数据库 (可以限定检索内容和时间范围)(2)SRS (Sequence Retrieval System)/ 有不同的版本,可以下载。