第二章 核酸数据库
- 格式:ppt
- 大小:8.01 MB
- 文档页数:17
生物信息学智慧树知到课后章节答案2023年下华东理工大学华东理工大学第一章测试1.随着人类基因组计划的完成,以下哪些基因组计划是近期启动的计划答案:中国十万人基因组计划;G10K;我们所有人计划;英国十万人基因组计划2.统计学是一门独特学科,不是生物信息学研究工具和手段之一。
答案:错3.生物信息学研究任务之一包括SNP的发现和鉴定,对于疾病机理和药物开发靶点发现具有重要意义。
答案:对4.随着越来越多大规模测序项目的完成,其中最重要的科学使命之一就是要通过比较基因组学方法了解物种的起源和进化过程答案:对5.高等生物基因组中含有大量的非编码区,以及可能含有大量的外源病毒序列,只有通过生物信息学方法,解析其中功能和区域,为将来可能通过基因组编辑技术进行疾病机制解析提供基础答案:对第二章测试1.国际核酸数据库由EMBL,DDBJ和GenBank组成,它们在1988年形成国际核酸数据库联合中心,对数据进行答案:三方共享;数据同步更新;数据格式相同2.GenBank对于核酸数据的显示方式有以下几种答案:ASN.1;FASTA;Graph;GBK3.Uniprot KB对于生物数据在不同数据库中的链接、调用和标签转换具有非常重要的作用答案:对4.生物信息学的研究对象中包括各种数据库,比如答案:Uniprot;PDB;GenBank;KEGG5.BLAST是基于局部比对算法,采用渐进式比对方法,对数据分成字段等思路进行的成对比对方法答案:对第三章测试1.全局序列比对用于整体相似性程度较低、在较小区域内有局部相似性的两个序列比对。
答案:错2.以下哪些属于蛋白质打分矩阵?答案:PAM矩阵;遗传密码矩阵;疏水矩阵;BLOSUM矩阵3.传统的基于动态规划的局部性比对性算法采用的是精确的序列比对,虽然有着较好的比较结果,但是算法的时间复杂度较高。
答案:对4.在蛋白质数据库中比对蛋白质序列,需要选择一下那种blast模式?答案:blastp5.多序列比对就是两条以上的序列进行比对,可以用于进化树分析、寻找保守区域等。
生物信息学复习资料目录一、基础数据库 (1)二、序列变异数据库 (4)三、序列比对 (5)四、分子系统发育分析与多序列比对 (7)五、分子进化与人类疾病 (9)六、生物分子网络与系统生物学 (10)七、基因测序、组装和注释 (12)八、基于高通量DNA 测序数据的致病突变分析 (15)九、表观遗传学 (17)十、转录组学 (20)十一、转录选择性剪切 (22)十二、转录后修饰 (23)十三、翻译组学 (24)十四、蛋白结构分析 (27)十五、蛋白质组学 (28)十六、代谢组学 (29)十七、免疫组学 (31)十八、微生物组学 (32)十九、人工智能与智慧医疗 (34)(注:本资料为16级基础医学全体同学整理,答案仅供参考,请勿外传)一、基础数据库一、核酸数据库国际联盟INSDC由NCBI–GenBank、EBI–ENA(EMBL-Bank)、DDBJ–DDBJ三大核苷酸数据库组成的联合核苷酸数据库。
二、GenBank, ENA, DDBJGenBank是一个具有目录和生物学注释的核酸序列综合数据库,该数据库中包含了已经公开的30万多种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。
数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(EST)、基因组测序序列(GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。
GenBank数据库每天与欧洲EMBL和日本的DDBJ进行数据交换,以保证数据库内容在全世界范围的同步性。
互相交换信息,因此三个库的数据实际上是相同的。
EMBL核苷序列数据库是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI维护这个数据库。
核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ 和GenBank交换的数据。
DDBJ数据库是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核酸序列编号。
核酸数据库使用说明1.高级查询 (1)2.限定词说明 (1)3.显示格式说明 (2)3.1.Summary格式 (2)3.2.FASTA格式 (3)3.3.GenBank格式和GenBank(full)格式 (4)4.数据下载流程 (5)5.数据提交 (5)6.附录 (5)6.1.基因结构和功能的探索 (5)2009年9月18日普通核酸数据库中存储了大量公共核酸序列资源,包括含有编码区的mRNA,含有一个或多个基因的基因组DNA片段以及rRNA基因簇。
数据库中的序列由使用者提交,并且只能由序列的提交者进行修改。
文献的作者对序列和数据库中的说明拥有最终解释权。
1.高级查询在首页上点击“数据资源”按钮,选择“普通核酸数据库”进入蛋白质数据库主页。
在核酸数据库主页的左侧栏点击“高级检索”,进入如下图的高级检索页面:核酸数据库的高级检索可以最多使用三个限定词来进行更精确的检索,三个限定词之间可以用“AND”和“OR”相连接,其中“AND”表示查询的结果中必须包含它所连接的两个关键词,“OR”表示查询的结果中至少包含它所连接的关键词中的一个。
搜索项在左侧的限定词框中可以选择的限定词包括:CAC、Comments、Accession、Definition、Keyword、Organism、Gene、Protein、Author、Title、Journal、Medline/Pubmed ID、Molecule和Sequence Length。
其中Molecule和Sequence Length可以进行范围查询。
2.限定词说明核酸数据库中有关的限定词说明如下:限定词描述CAC国内用户提交的数据编号Comments对该序列的简短注释Accession核酸数据库的序列或记录唯一的接收编号Definition 描述了序列的生物特性,一般包括生物体,产品名称,基因标志,分子类型和是否为完成片段Keyword与其它数据库专用词汇有关的索引名词Organism与蛋白质或核酸序列有关的物种的学名和通用名Gene基因的普通名称和标准名称Protein Name蛋白质的标准名称Author所有参考信息中的作者名Title 描述了序列的生物特性,一般包括生物体,产品名称,基因标志,分子类型和是否为完成片段Journal发表数据的杂志名称Medline/PubmedIDMedline的唯一编号或Pubmed编号Molecule Type包括4中类型:Nucleotide,CoreNucleotide,EST and GSS.Sequence Length序列长度3.显示格式说明核酸数据库的搜索结果显示有Summary、FASTA、GenBank和GenBank(full)四种格式,利用搜索结果页面上的“显示”按钮可以在这四种格式之间相互切换。
第二章:序列的采集和存储2. 序列数据的存储核酸序列数据库国际三大核酸序列数据库:GenBank, EBML, DDBJdbEST: Expressed Sequences Tags数据库UniGene等RefSeq: The Reference Sequence Database蛋白质序列数据库UniProtSwiss—prot & TrEMBL, PIR基因组数据库: Ensembl第三章序列比对I序列间比对的对应关系:匹配、替代、缺失、插入双序列比对算法:Dot matrix(点阵法)动态规划算法Needleman-Wunsch算法Sij = max of Si—1,j-1 + σ(xi , yj )Si—1,j —d ( 从左到右)Si,j—1 —d ( 从上到下)Smith-Waterman 算法Sij = max of 0Si-1,j-1 + σ(xi , yj )Si—1,j -d (从左到右)Si,j—1 -d (从上到下)FASTA和BLAST算法PSI-BLAST (位点特异性迭代BLAST):1. 使用普通的blast算法进行搜索;2。
将搜索得到的序列,包括输入的序列放在一起,构建位点特异性的矩阵(Position Specific Matrix);3。
利用上面得到的矩阵谱(profile),再次在数据库中进行搜索;4. 重复2 ,3 步,直到不再有新的序列出现;PHI—BLAST : 模式发现迭代BLAST第三章序列比对Ⅱ打分矩阵及其含义1,计分方法2, PAM系列矩阵3, BLOSUM 系列矩阵多序列比对:方法改进1。
渐进方法:代表:ClustalW/X, T—Coffee(1)ClustalW/X:计算过程1。
将所有序列两两比对,计算距离矩阵;2. 构建邻接进化树(neighbor—joining tree)/指导树(guide tree);3。
将距离最近的两条序列用动态规划的算法进行比对;4。