生物信息学习题(2010-7)
- 格式:doc
- 大小:782.87 KB
- 文档页数:15
绪论1、生物信息学的概念及其组成部分生物信息学(Bioinformatics):是一门交叉学科,包含了生物信息的获取、处理、储存、分析、解释和应用在内的所有方面,它综合运用了生物学、计算机科学和数学等多方面的知识和方法,来阐述和理解大量生物学数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。
生物信息学的三个组成部分:①建立可以存放和管理大量生物信息学数据的数据库②研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具③使用这些工具去分析和解释不同类型的生物学数据2、生物信息学的主要研究领域①生物数据的建立与搜索②序列比较与相似性搜索③基因组结构注释④蛋白质结构与功能的预测⑤基因组数据分析⑥比较基因组合系统发生遗传学分析⑦功能基因组和蛋白质组学数据分析⑧信号传导、代谢和基因调节途径的构建与描述3、初级数据库二级数据库的概念说出几个数据并说明包含什么数据一级数据库(primary database):数据直接来源于实验获得原始数据,只经过简单的归类、整理和注释。
例如GenBank、EMBL、DDBJ、SWISSPORT、PDB二级数据库(secondary database):在一级数据库、实验数据和理解分析的基础上针对特定的目标衍生而来,是对生物学知识和信息的进一步整理。
例如human genome databases GDB转录因子数据库等4、简述核酸序列的测序①DNA测序一般原理DNA测序一般采用全自动的荧光标记链终止反应完成,该法利用了DNA聚合酶能从脱氧核糖核苷酸(dNTP)延伸但不能从双脱氧核糖核苷酸(ddNTP)延伸的特性,通过加入限量的荧光标记过的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段,然后通过聚丙烯酰胺凝胶电泳(PAGE)分离并通过扫描仪读取序列(300-800bp)②基因组测序策略—分而治之---shortgun因为测序反应每次只能测300-800bp故先将基因组分割成一定大小的片段,然后对这些片段分别测序,测完后再将这些片段拼接起来—鸟枪法(shortgun)③一次性测序例如:表达序列标签(EST)是其中的代表,它对随机挑选的cDNA克隆进行两端一次测序得到300-500bp的片段,代表cDNA的一部分。
一:名词解释1.生物信息学2.NCBI3.PubMed4.生物芯片5.BLAST6.UniProt7.电子克隆8.EMBL二:填空题1.基因芯片可以分为2. 人类基因组全序列分析分两大步骤即制图和测序,并最终绘制出四张图谱:3. 分子系统发生分析主要分为三个步骤即4. 国际上最主要的三大核酸序列数据库分别是5. 蛋白质得分矩阵有7. 文献是掌握科研进展的最直接方式,目前由NCBI维护的大型文献资源是。
3. 用于核酸序列比对中常见的三种得分矩阵,分别为4. 根据生物芯片探针分子类型的不同,可以将生物芯片哪三种,5. 核酸序列分析所获得的信息主要有(举例说明四个)6. 限制性酶切分析是分子生物学实验中的日常工作之一,这方面最好的限制酶数据库是三:选择题1、如果试图确定一个新蛋白质序列属于哪一个蛋白质家族,或该序列可能包含何种结构域或功能位点,应使用:()A: PROSITE数据库 B: DDBJ数据库C: PIR数据库 D: PDB数据库2、构建序列进化树的一般步骤不包括:()A:建立DNA文库 B:建立数据模型 C:建立取代模型 D:建立进化树3、BLAST教案所程序中,哪个方法是不存在的?()A:BLASTP B:BLASTN C:BLASTX D:BLASTQ4. 以下常见的几个物种,哪一个目前还没有完成全基因组测序:()A: 茶树 B: 玉米 C: 水稻 D: 小鼠5、向核酸序列数据库(GenBank/EMBL/DDBJ)提交数据,应该使用下面哪个软件:()。
A: Blast B:Sequin C:SRS D:Swiss-Model6、在蛋白质序列数据库中比较查询手头未知的蛋白质序列,应使用Blast中哪个具体的算法:()。
A:BLASTX B:tBLASTN C:BLASTP D:BLASTN7、下列中属于一级蛋白质结构数据库的是:()A:EMBL B:DDBJ C:PDB D:SWISS-PROT8、下面不属于SWISS-PROT蛋白质数据库的注释范畴的是:()A: 与其它蛋白质的相似性 B: 蛋白质的二级结构C: 由于缺乏该蛋白质而引起的疾病 D: 核酸的功能描述9、下列属于蛋白质二级结构预测的软件程序是()A: BLASTX B:SOPMA C:DNAstar D:GO10. 如果做DNA结构分析,应该考虑用下面哪个数据库:()A:GenBank B: PIR C:NDB D:UniProt四:简单题1.简述Entrez的设计概念和使用方法?2. 简述生物大分子PDB存储的生物分子种类和数据结构特点?3.简述生物信息学的研究意义?4 简述蛋白质序列分析的基本内容以及常用的软件?5. 简述Swiss-Prot的数据结构?6、简述序列多重比对的意义?7、简述生物信息学的发展历史?五:论述题1.论述蛋白质相互作用研究的意义,传统的实验方法和计算预测方法的应用?2.论述后基因组时代生物信息学面临的挑战和研究策略?3.论述生物信息学的应用?4. 论述如何利用基因芯片数据做聚类分析。
生物信息学课堂操作练习一、生物信息学科的发展和研究内容通过下列internet上的自教课程,初步了解不同的数据库和分析工具/2can/Education二、生物数据库1. 熟悉各种数据库。
2. 重点了解GenBank和SWISS-PROT所包含的各种功能和适用范围。
三、关键词或词组为基础的数据库检索1. 熟练掌握Entrez检索体系。
2. 查找与水稻抗病基因Xa21有关的资料(1) 由多少碱基构成?编码多少个氨基酸?(2) exon和intron的位置?(3) 是否有3-D structure数据?1) 由多少碱基构成?编码多少个氨基酸?4623b.p., 1025A.a.;2) exon和intron的位置?Exon: 24~2700,3543~3943 intron: remaining;3) 是否有3-D structure数据?没有.3. 查找C. elegans基因组的资料。
(1) chromosome I的测序是否已完成?(2) 已知的chromosome I的序列有多少碱基?序列发表在哪份杂志上?期号和页码?1) chromosome I的测序是否已完成?完成.2) 已知的chromosome I的序列有多少碱基? 序列发表在哪份杂志上? 期号和页码? 15.0724Mb.p.(15072421b.p.), Science 1999 Jan 1;283(5398):35.4. 查看人类基因组第1染色体上基因的分布。
/mapview/maps.cgi?ORG=hum&MAPS=ideogr,est,loc&LINKS= ON&VERBOSE=ON&CHR=15. 查看Arabidopsis的系谱树,以及Arabidopsis第1染色体上的序列。
比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同(/Taxonomy/Browser/wwwtax.cgi?id=3701,/mapview/maps.cgi?taxid=3702&chr=1)貌似没什么区别……比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同。
1单选(以下哪位科学家获得了两次诺贝尔奖?A.桑格(Frederick Sanger)B.沃森(James Waston)C.霍利(Robert W.Holley)D.克里克(Francis Crick)2单选(被称为“DNA之父”的是哪位科学家?A.摩尔根(Thomas H.Morgen)B.沃森(James Waston)C.查加夫(Erwin Chargaff)D.桑格(Frederick Sanger)3单选(被称为“计算机之父,人工智能之父”的是哪位科学家?A.莱布尼兹(Gottfried W Leibniz)B.图灵(Alan Mathison Turing)C.帕斯卡(Blaise Pascal)D.桑格(Frederick Sanger)4单选(被称为“现代实验生物学奠基人”的是哪位科学家?A.摩尔根(Thomas H.Morgen)B.达尔文(Charles Darwin)C.桑格(Frederick Sanger)D.孟德尔(Gregor J.Mendel)5单选(被称为“遗传学的奠基人,现代遗传学之父”的是哪位科学家A.孟德尔(Gregor J.Mendel)B.沃森(James Waston)C.查加夫(Erwin Chargaff)D.摩尔根(Thomas H.Morgen)1单选(从GenBank的哪一项注释中可以找到关于编码蛋白的信息?A.CDSB.SOURCEC.RBSD.ORIGIN2单选(以下关于GenBank的描述,哪个是正确的?A.GenBank里的一条数据库记录对应一个完整的基因。
B.真核生物的基因经常是分段存储在多条GenBank数据库记录里。
C.真核生物的基因都是整个存储在GenBank的一条数据库记录里。
D.原核生物的基因都是分片段存储在多条GenBank数据库记录里。
3多选(以下关系式正确的是?A.1T=1,000GB.1G=1,000MC.1G=1,000,000KD.1T=1,000,000M4(GenBank数据库中的检索号(Accession)和基因座名(Locus)指的都是一条序列在数据库中的编号,他们永远都是相同的。
本卷的答案仅做参考,如有疑问欢迎提出。
后面的补充复习题要靠你们自己整理答案了。
生物信息学复习题一、填空题1、 识别基因主要有两个途径即2、 表达序列标签是从 mRNA 中生成的一些很短的序列( 300-500bp ),它们代表在特定组织或发育阶段表达的基因。
3、 序列比对的基本思想,是找出 检测基因 和 目标序列 的相似性,就是通过在序列中插入 空位的方法使所比较的序列长度达到一致。
比对的数学模型大体分 为两类,分别— 和局部比对 。
4、 2-DE 的基本原理是根据蛋白质 和 分子量 不同,进行两次电泳将之分 离。
第一向是 等电聚焦分离 ,第 —S D S-P AGE 分离 o5、 蛋白质组研究的三大关键核心技术是 质谱鉴定技术 、 计算机图像数据处理与蛋白质数据库二、 判断题1、 生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,是真核生物基因组的特点之一。
(对)2、 CDS 一定就是 ORF 。
(对)3、 两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源 ,就具有共同的祖先。
(错)4、 STS,是一段 200-300bp 的特定 DNA 序列,它的序列已知,并且在基因组中属于 单拷贝。
(对)5、 非编码 DNA 是“垃圾 DNA',不具有任何的分析价值,对于细胞没有多大的作用。
(错)6、 基因树和物种树同属于系统树,它们之间可以等同。
(错)7、 基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。
&对任意一个 DNA 序列,在不知道哪一个碱基代表 CDS 的起始时,可用 获得6个潜在的蛋白质序列。
(对)9、 一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。
(对)10、 外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的 外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以 不同。
生物信息学bioinformatics一、名词解释Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推测目的基因的编码区序列, 辅助全长cDNA克隆的方法BLAST:即基本局域联配搜索工具,Basic Local Alignment Search Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。
Entrez :是由NCBI 主持的一个数据库检索系统,它包括核酸,蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
因此,可以从一个DNA 序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。
Entrez 中的数据库包括:Entrez 中核酸数据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR, PFR, PDBPSI-BLAST:是一种迭代的搜索方法,可以提高BLAST 和FASTA 的相似序列发现率。
ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。
编码一个蛋白质的外显子连接成为一个连续的ORF。
当一个新基因被识别,其DNA 序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。
这是因为在没有其它信息的前提下,DNA 序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)ORF 识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA 。
序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。
ORF 的识别是证明一个新的DNA 序列为特定的蛋白质编码基因的部分或全部的先决条件。
相似性(similarity)/(identify):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型 ; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank 序列格式:是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为 4 个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez 检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST :基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列( query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵( scoring matrix ):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM )两类方法。
P299.空位( gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学基础考试试题生物信息学基础考试试题回答一、选择题(每题5分,共20题)1. 生物信息学的定义是什么?A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案:B2. 以下哪个是常用的生物信息学数据库?A. NCBIB. C++C. DNAD. Photosynthesis答案:A3. 在DNA序列中,碱基A配对的是?A. TB. CC. GD. U答案:A4. 以下哪个是生物信息学中常用的序列比对算法?A. BLASTB. MATLABC. PCRD. ELISA答案:A5. 基因组学是研究什么的科学?A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案:C6. 哪种技术可用于测定DNA序列?A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案:C7. 生物信息学中的序列模拟是指什么?A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案:A8. 以下哪个是生物信息学的一个重要应用领域?A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案:C9. 哪个工具常用于分析生物信息中的调控网络?A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案:B10. 蛋白质结构预测是生物信息学的一个重要研究方向,以下哪种是蛋白质的一级结构?A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案:C11. 生物信息学与生物医学工程有什么相似之处?A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案:C12. 在基因组测序中,什么是基因组装?A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案:A13. 以下哪个不属于生物信息学的软件工具?A. BLASTB. PhotoshopC. RD. Python答案:B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究?A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案:A15. 生物信息学中的反向遗传学用于研究什么?A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案:B16. 哪种方法可用于鉴定基因表达谱中的关键基因?A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案:B17. 生物信息学研究中常用的基因表达定量方法是什么?A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案:C18. 生物信息学中的系统生物学研究的是什么?A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案:C19. 下面哪个数据库不是用于蛋白质结构预测的?A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案:D20. 生物信息学中常用的序列对比方法是什么?A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案:B二、简答题(每题10分,共5题)1. 编程语言在生物信息学中的作用是什么?编程语言在生物信息学中扮演着重要角色。
■一、选择题:1.以下哪一个是mRNA条目序列号:A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■.UnigeneB.EntrezC.LocusLinkD.PCR3.—个基因可能对应两个Unigene簇吗?■可能B.不可能4.下面哪种数据库源于mRNA信息:■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建:A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区别:A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A.OMIMB.Entrez■PubMedD.PROSITE8.匕比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪附说法正确:A.因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B.搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比蘇□局部匕比对的不同:A.全局匕比对通常用于比寸DNA序列,而局部匕比对通常用于比寸蛋白质序列B.全局比寸允许间隙,而局部比对不允许C.全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
生物信息学练习题(2009-2010学年第2学期)姓名:性别:班级:学号:说明:(1)此作业主要是让大家熟悉一下生物信息学的基本知识点,并真正练习一下生物信息软件的使用。
(2)此作业将作为我们的成绩,不交者将没有成绩,请认真对待;(3)作业统一用A4纸打印,并装订;(4)在7月10日前,各班学委收起后,交到新生化大楼C615房间;(5)如有问题可与我联系,一.问答题:1. 当今世界上主要的三大生物数据库是指哪些数据库?答:当今世界上主要的三大生物数据库是美国国家生物技术信息中心NCBI(National Center for Biotechnology Information),EBI(European Bioinformatics Institute)欧洲生物信息研究所,DDBJ(DNA Data Bank of Japan)日本核酸数据库2. 人类基因组计划的完成将绘制出“四张图“,请问这四张图是指哪些图?答:人类基因组计划的完成将绘制出“四张图“是指:1遗传图谱,又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组。
2物理图谱,是以一段已知核酸序列的片段STS序列为路标,以碱基对数目的多少为图距来表示两个遗传标记之间的物理距离[基本单位是Mb、kb、bp]的图谱。
3序列图谱,是分别将各染色体全部碱基序列绘制的图谱。
包括转录序列和非转录序列。
4转录图谱谱也叫基因表达图谱,以表达序列标签(expressed sequence tag , EST )为位标,反映基因在不同条件下的表达情况的图谱。
3. 生物信息学的定义有狭义与广义之分,请问狭义的生物信息学定义是什么?答:目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。
4. 生物信息学研究的意义是什么?答:生物信息学研究的科学意义:认识生命本质即从海量生物学数据分析中获得对生命运行机制和疾病机理等等的深入理解;改变生物学的研究方式,改变传统研究方式,引进现代信息学方法;在医学上有重要意义,即可以为疾病的诊断和治疗提供依据,为设计新药提供依据。
生物信息学的研究还有重要的应用价值,在生物医药研究和生物技术相关产业(生物制药、农、林、牧、渔、环保等)的发展中将发挥越来越重要的作用。
生物信息学的研究有很大的产业潜力。
生物信息学的研究有竞争优势,这拼的是人才智力,是我国赶超世界发达国家最有希望的领域之一,是我国重点支持的方向之。
5.是哪位科学家首次在世界上建立了蛋白质数据库?是哪位科学家首次在世界上建立了DNA序列数据库?答:Margaret Oakley Dayhoff(1925-1983)在1967年与她美国生物医学研究基金会的同事们(NBRF)首次收集了蛋白质序列,创立了第一个蛋白质序列数据库。
DNA序列数据库最早由Walter Goad及其在GenBank数据库和欧洲分子生物学实验室(EMBL、位于德国海德堡)的同事们在位于美国新墨西哥州的Los A1amos 国家实验室(LANL)建立。
6.请问经典的“基因学”与“基因组学”的有何异同?答:经典的“基因学”与“基因组学”的相同之处是研究基因,不同之处是在策略上,前者是“零敲碎打”,而后者是“整体阐明”,从整体上研究人类整个基因组的序列。
7.什么是序列比对?双序列比对的基本方法是什么?答:序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
双序列比对的基本方法是:点阵分析法,动态规划法,词或K串发。
8.以前我们学过哪些软件工具用于双序列比对,哪些软件用于多序列比对?答:双序列比对软件工具:Blast 2 sequences比对工具,SSEARCH比对工具,EMBOSS比对工具等。
多序列比对软件工具:ClustalX 1.6.1,Clustal W等。
9.进行任何的BLAST搜索应包括哪些步骤?答:进行任何的BLAST搜索应包括:(1)选择序列;(2)选择BLAST程序;(3)粘贴或上传序列;(4)选择数据库;(5)为搜索和输出格式选择可选参数;然后点击“BLAST”。
10.如果知道一条蛋白质序列,我们能否预测出它的理化性质、疏水性、及蛋白三维结构?我们学过哪些相关预测软件?答:知道蛋白质序列,可以预测出它的理化性质、疏水性、及蛋白三维结构。
我们学过的相关软件有,对蛋白质基本理化性质分析的软件Protparam,对蛋白质疏水性分析的软件ProtScale工具,蛋白质二级结构分析软件NNPREDICT 工具,对蛋白质结构域分析的网站InterProScan,跨膜区域分析的工具TMpred工具,蛋白质三维结构预测工具SWISS-MODEL工具等。
二.实际操作题:1.请谈谈如何在GenBank数据库中下载文献资料。
答:首先进入GenBank主页,在search中空框内输入收索内容,点击收索,系统会自动利用Entrez收索,并显示结果,然后选择有收索结果的,点击进入,选择自己需要的结果,点击,确认是所需信息后,点击send to 选择File,然后点击create a file ,就会自动下载。
2.使用BLAST2或别的软件进行双序列比对,并给出比对结果。
答:本人自下了一段序列进行比对。
过程如下:3.练习使用CLUSTAL X软件进行多序列比对,并给出所用序列与主要比对结果。
(注:CLUSTAL X软件可以从网上下载)。
答:所用序列>seq1CAATGTAAAATAAAA TCTGCGTACAAATTGGTACCTCCACAAGAGCGCTATATCGC CTATCAAGCTTTGCAGTCATGTGAACAGCTTCAGCA TGGAACTGGGAATTCTCACCAA CAAAAATTAGTGTCCTGCACTGTAGCTGCTTCAGGTTCTCTGTCAAGTCTTTTCTCCTG TA TAAAGCATCGCAAAA TA TTATTA TCTGGTTCCACTCATCCACTGACTCAGGTACCGTA AGACCGTAGGAGTTGAACATA TAAGCTTTAGAGATAAAAAGGACATACTCGTTGA TAGT T>seq2TCTGCAAGCCTGCACAA TATCTGA TTCAGGTTCAGCTGAGCCTCCACGTACTCCCT AAAGTTCAAACACAAGTTTTAAGCAGCTACGCAAA TA TCGCA TTGCATGCCATAACCTA AGCCA TTTAGTTACCTTTCCAAAGTAGCGCTGCAACAAAATATCCTTCACGACATTACA CA TGCCTTCTGAAGGAAGGTTCTTCGAAGCTAAA TA TTGAA TAGCTACCTTATTATAAAA CCACTCATAATAA TACAGTAAATTTGACATTACCTAAGAAATAAAAATGTCAGTACAGA A>seq3CCGGAAATTTTTTCGGA TTTTATTGTTCAGTTATCTGTTA TTTTATTGTGAAGATAGT GGAAAAGGAAGGTGGTTTTTATAAA TGTTATTATTGCGATAAAGGAAAGGTTATTGTTGAAGATGTTTTTGTTGA TAGTGGTTTTAAAGATGGA TTTTTA TTTACGAGGAGTATCGTGG AAAAAGAAGACGTTTTAA TTACGTCTTCAAAGTAAGTGGATTGA TGTGATATTTTTACT GACGTAAGGGA TGA TGTATAA TTTTA TTATTTTTTGTAAGATTTTTTTTTTA TATAA >seq4TTGGAAATTTTTTCGGA TTTTATTGTTCAGCTATCTGTTA TTTTATTGTGAAGATAGT GGAAAAGGAAGGTGGCTCCTACAAATGTTATTA TTGCGATAAAGGAAAGGTCATCGTT GAAGATGTTTCTGTCGACAGTGGTTTTAAAGATGGA TTTTTATTTACGAGGAGTATCGT GGAAAAAGAAGA TGTTTTAA TTA TGTCTTCAAAGTAAGTGGATTGATGTGA TATTTTTAC TGACGTAAGGGATGACGTACAA TTTTACTATTTTTCGTAAGATTTTTTTTTTATA TAA >seq5CCGGAAATTTTTTCGGA TTTTATTGTTCAGTTATCTGTTATTTTATTGTGAAGATAGT GGAAAAGGAAGGTGGTTTTTATAAA TGTTATTATTGCGATAAAGGAAAGGTTATCGTTG AAGATGTTTTTGTCGA TAGTGGTTTTAAAGATGGATTTTTATTTACGAGGAGCA TCGTGG AAAAAGAAGACGTTTCAATTACGTCTTTAAAGTAAGTGGA TTGA TGTGATATTTTTACT GACGTAAGGGA TGACGTATAA TTTTA TTATTTTTCGTAAGA TTTTTTTTTTATATAA 结果因软件问题,未能打开结果文件。
曾试图下载新软件,但安装时出现拒绝访问问题,未能解决,故只给出一下结果。
4.练习使用BLAST软件,说出BLAST的常用工具有哪几种?说出BLAST 的一般操作步骤。
用一条DNA序列进行BLAST,并给出结果。
答:常用工具有blastn 、blastp、tblastn 、blastx、tblastx 、进行任何的BLAST搜索包括以下几个步骤:(1)选择序列;(2)选择BLAST程序;(3)粘贴或上传序列;(4)选择数据库。
(5)为搜索和输出格式选择可选参数。
然后点击“BLAST”5.随机下载一条蛋白序列,使用Protparam软件与ProtScale软件预测其理化性质;使用NNPREDICT软件预测二级结构;使用SWISS-MODEL工具预测其立体结构,所用序列与分析结果粘贴到作业纸上。
答:所用序列为ORIGIN1 mrewvllmsv llcglagpth lfqpslvldm akvlldnycf penllgmqea iqqaikshei61 lsisdpqtla svltagvqss lndprlvisy epstpepppq vpaltslsee ellawlqrgl121 rhevlegnvg ylrvdsvpgq evlsmmgefl vahvwgnlmg tsalvldlrh ctggqvsgip181 yiisylhpgn tilhvdtiyn rpsnttteiw tlpqvlgery gadkdvvvlt ssqtrgvaed241 iahilkqmrr aivvgertgg galdlrklri gesdffftvp vsrslgplgg gsqtwegsgv301 lpcvgtpaeq alekalailt lrsalpgvvh clqevlkdyy tlvdrvptll qhlasmdfst361 vvseedlvtk lnaglqaase dprllvraig ptetpswpap daaaedspgv apelpedeai421 rqalvdsvfq vsvlpgnvgy lrfdsfadas vlgvlapyvl rqvweplqdt ehlimdlrhn481 pggpssavpl llsyfqgpea gpvhlfttyd rrtnitqehf shmelpgpry stqrgvyllt541 shrtataaee faflmqslgw atlvgeitag nllhtrtvpl ldtpegslal tvpvltfidn601 hgeawlgggv vpdaivlaee aldkaqevle fhqslgalve gtghlleahy arpevvgqts661 allraklaqg ayrtavdles lasqltadlq evsgdhrllv fhspgelvve eapppppavp721 speeltylie alfktevlpg qlgylrfdam aeletvkavg pqlvrlvwqq lvdtaalvid781 lrynpgsyst aipllcsyff eaeprqhlys vfdratskvt evwtlpqvag qrygshkdly841 ilmshtsgsa aeafahtmqd lqratvigep taggalsvgi yqvgssplya smptqmamsa901 ttgkawdlag vepditvpms ealsiaqdiv alrakvptvl qtagklvadn yasaelgakm961 atklsglqsr ysrvtseval aeilgadlqm lsgdphlkaa hipenakdri pgivpmqips1021 pevfeelikf sfhtnvledn igylrfdmfg dgelltqvsr llvehiwkki mhtdamiidm1081 rfniggptss ipilcsyffd egppvlldki ysrpddsvse lwthaqvvge rygskksmvi1141 ltssvtagta eeftyimkrl gralvigevt sggcqppqty hvddtnlylt iptarsvgas1201 dgsswegvgv tphvvvpaee alarakemlq hnqlrvkrsp glqdhl//Protparam软件ProtScale软件Swiss model工具未能成功使用。