当前位置:文档之家› 最新生物信息学考试复习

最新生物信息学考试复习

最新生物信息学考试复习
最新生物信息学考试复习

——古A.名词解释

1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。

2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。

3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。

4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。

5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。

6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。

8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。

9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。

10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。

11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。

12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。

13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

14. 非编码RNA:是指没有编码蛋白质功能的所有RNA,它缺乏ORF,常有编码蛋白质的基因反义转录而来。

15. miroRNA:是含有茎环结构的miRNA前体,经过Dicer加工之后的一类非编码的小RNA分子(21-23 nt)。

16.RNAi:是指在进化过程中高度保守的、由双链RNA(double-stranded RNA,dsRNA)诱发的、同源mRNA高效特异性降解的现象。是一种转录后水平的基因沉默(PTGS)B.简答题

1.生物信息学研究内容。

答:(1)生物信息的收集、存储、管理和提供。(2)基因组序列信息的提取和分析。(3)功能基因组分析。(4)生物分子设计。(5)药物设计。(6)生物信息分析的技术与方法研究。(7)应用与发展研究。(8)系统生物学研究。

2.生物信息学的应用。

答:(1)人类基因组计划。(2)人类蛋白质组计划。(3)新药开发中的应用。(4)基因芯片。(5)医学应用。

3.已测序五个植物物种,属名加种名。

答:(1)Solanum tuberosum 马铃薯(2)Musa acuminata banana 香蕉(3)Solanum lycopersicum 番茄(4)Zea mays 玉米(5)Oryza sativa 水稻(6)Arabidopsis thaliana

拟南芥(7)Vitis vinifera 葡萄(8)Brassica rapa 白菜

4.已测序五个动物物种,属名加种名。

答:(1)Homo sapiens 人(2)Danio rerio 斑马鱼(3)Mus musculus 小鼠

(4)Drosophila melanogaster 黑腹果蝇(5)Caenorhabditis elegans 秀丽隐杆线虫(6)Felis catus 猫(7)Gallus gallus 鸡(8)Apis mellifera 蜜蜂

5.画图阐述原核生物基因结构。

6.画图阐述真核生物基因结构。

7.核酸序列分析的应用。

答:(1)常规分析:A.核酸序列检索B.核酸序列组分分析C.序列变换D.限制性酶切分析E.序列注释(2)比对分析:A.BLAST比对B.双序列比对C.多序列比对(3)基因结构的识别:A.ORF识别及其可靠性验证B.重复序列分析C.非编码区及启动子分析D.其它调控位点分析:a.转录因子结合位点分析b.剪接位点分析。

8.如何做比对分析(BLAST)?

答:(1)进入NCBI主页,点击BLAST进入BLAST主页。(2)选择需要比对的类型BLASTN BLASTP BLASTX tBLASTN tBLASTX (3)在序列框中输入需要比对的序列。(4)选择数据库。(5)开始比对。

9.基因结构识别包括哪些内容?

答:(1)ORF识别及其可靠性验证(2)非编码区及启动子区分析(3)基因组重复序列分析(4)其它调控位点分析:a.转录因子结合位点分析b.剪接位点分析。

10.蛋白质序列的基本性质分析包括哪些内容?

答:(1)理化性质分析(2)亲水性/疏水性分析(3)跨膜区分析(4)信号肽预测(5)Coil 区分析(6)亚细胞定位(7)结构功能域分析

11.蛋白质空间结构怎么预测,二级/三级。

答:(1)二级结构预测:使用SSPro 4.0或PORTER进行分析预测。

(2)三级结构预测:主要方法有同源模建、折叠识别和从头预测。目前主要使用同源模建的方法来预测蛋白质三级结构,但是需要二个蛋白质序列同源性高于35%,低于30%结构不理想。具体步骤为,a.进入SWISS-MODEL主页b.选择Automated Mode进入c.在序列框中输入蛋白质序列d.确认进行预测

12.如何判断一个新的基因?

答:(1)从一个新蛋白质序列开始,通过tBLASTn搜索核酸数据库,找到相应的匹配,如果是和DNA编码的已知蛋白质匹配,则可能不是新的基因;但是如果找到与DNA编码的相关蛋白质的匹配,则有可能是新的基因。

(2)然后进一步通过BLASTx或BLASTp在核酸,蛋白数据库中搜索DNA或蛋白质序列来进一步确定新的基因。

13.进化树构建过程,方法。

答:(1)进行多序列比对,确定序列之间的相似性。(2)选择合适的建树方法。a.序列有很

高相似性时,选择最大简约法(MP)。b.序列较高的相似性时,选择距离法,包括邻接法(NJ)。

c.序列相似性很低,选择最大似然法(ML)。(3)使用软件建树。a.选择MP法,使用PAUP、MEGA、或PHYLIP。b.选择NJ法,使用PHYLIP、MEGA、或ClustalX。c.选择ML法,使用PHYML或BioEdit。(4)用软件评估进化树。

14.RNAi的原理。

答:(1)外源进入生物体的双链RNA(dsRNA)被一种核糖核酸酶Dicer所识别并将其切割成21~23nt的小干扰RNA(siRNA)。(2)这种siRNA可以被RISC(RNA诱导的沉默复合物)所识别并结合,进而使siRNA发生解旋和解链。(3)然后再siRNA反义链的引导下,寻找与siRNA具有同源序列的内源靶mRNA。(4)RISC与内源靶mRNA同源区进行特异性结合,并切割靶mRNA,导致转录后基因沉默。(5)siRNA不仅能引导RISC切割靶mRNA,而且可作为引物与靶mRNA结合并以mRNA为模板,在RdRP(RNA依赖的RNA聚合酶)作用下合成更多新的dsRNA,新合成的dsRNA再由Dicer切割产生大量次级siRNA,从而使RNAi的作用放大,最终将所有靶mRNA降解,导致基因的完全沉默。

15.RNAi载体构建过程。

16.高效siRNA设计步骤。

答:(1)靶基因鉴定(2)建立分析(3)序列过滤(4)序列翻译分析(5)获得序列(6)序列比对(7)选取序列(8)合成siRNA。

17.给定miRNA序列,怎么研究其功能?

答:(1)上调miRNA在细胞中的含量而获得gain-of-function模型,具体可以将miRNA 的前体序列或成熟序列克隆到专门表达短片段RNA的特殊载体中。(2)下调miRNA在细胞中的含量或直接抑制该miRNA的功能获得loss-of-function模型。结合上调和下调结果可以确定基因的表达是否受到特定miRNA的调控。

C.论述题

1.构建表达载体:①融合表达载体GUS GFP,并说明用途。

答:A. GUS基因编码β-葡萄糖酸酶,能够催化底物产生荧光物质或者蓝色产物。可以利用GUS基因与目的基因融合表达来筛选转化子,也可用于外源基因表达产物在转化生物体中的定位分析。B.GFP基因编码绿色荧光蛋白,在紫外光照射下发出荧光。可以利用GFP基因和目的基因融合表达在荧光显微镜下观察目的基因编码蛋白的动态变化,筛选转化子,也可用于外源基因表达产物的定位分析。

C.构建步骤:(1)对目的基因cDNA和GUS,GFP进行限制性酶切分析,找出目的基因编码区,GUS基因编码区,GFP编码区中的酶切位点,排除这些酶切位点。

(2)选择合适的载体,如pET系列(原核)或者pCAMBIA 系列(植物)等,并找出被排除以外的酶切位点,选择3个酶切位点。

(3)设计引物扩增目的基因,GUS基因,GFP基因,如果没有选择的酶切位点,则在引物中引入酶切位点。融合表达在前的基因终止密码子在设计引物时去掉,二个基因连接区要保证引物扩增的产物不会破坏ORF框架即起始密码子前扩增区段要保证为3联体密码。(4)先连接目的基因与GFP或者GUS,再将融合基因与载体连接。

2.怎么样降低,升高基因的表达。

答:A.降低基因表达:设计siRNA干涉该基因的表达。

步骤:(1)选择欲干涉的靶基因的片段位置,并列出候选siRNA序列。

(2)评估候选siRNA序列,如SNP,形式功能,高级结构等。

(3)进行BLAST比对,排除与非靶基因互补的候选siRNA序列。

(4)从功能特异性角度出发,选择最终siRNA序列。

(5)合成siRNA,包括化学合成,体外转录,构建表达载体等。

(6)转入生物体内。

(7)检测干涉情况。

B.升高基因表达:将该基因转入含有病毒强启动子的载体中使基因超表达。(以植物为例)步骤:(1)选择超表达载体,即含有病毒强启动子的表达载体。

(2)对目的基因进行限制性酶切分析,排除目的基因编码区具有的酶切位点,选择合适载体具有的酶切位点。

(3)设计引物扩增目的基因,引入酶切位点。

(4)将目的基因连接到超表达载体上。

(5)转化,农杆菌转染(植物)。

(6)检测表达情况。

3.PCR引物设计的原则?

答:(1)引物长度。15~30bp。

(2)引物的特异性。引物应在核酸序列保守区内设计。

(3)引物的碱基分布。引物4种碱基分布随机,3‘端避免出现3个以上连续的G或C。

(4)引物的互补情况。避免引物二聚体和发夹结构的产生。

(5)引物的修饰情况。引物5’端加修饰,3‘端不能修饰。

(6)产物的二级结构。引物设计避开DNA单链二级结构。

(7)引物的GC含量。GC含量40%~60%。

(8)引物Tm值。Tm值72℃左右。

(9)引物ΔG值。引物3’端ΔG值较低,5‘、中间ΔG值较高。

(10)密码子的简并。3‘端不要终止在密码子的第三位。

4.一个未知基因的DNA序列,设计分析这个序列的流程,以及方法,鉴定其功能,翻译出的氨基酸序列,鉴定出属于哪个家族。

答:(1)使用DNAMAN,BioEdit统计基本指标。(2)使用Transeq,Translate Tool ,

ORF Finder对该序列进行6个框架的翻译。(3)对6个ORF翻译序列或者核苷酸序列在数据库中进行序列比对(BLAST)(4)通过多序列比对查找基因家族

5.未知氨基酸序列,设计分析步骤,鉴定属于哪个家族。

6.含有5‘-UTR,3‘-UTR,EXON, INTRON的序列,手动设计引物,写出PCR体系,算出退火温度。

生物信息学复习笔记

生物信息学 填空,选择,计算,简答,名词解释 几代测序的代表平台,优缺点 一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法 Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP 和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA 序列 第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用 以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid 技术为标记的第二代测序技术诞生了 (1)DNA待测文库构建 利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。 (2)Flowcell

Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell 能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。 (3)桥式PCR扩增与变性 桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a 所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。 (4)测序 测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。 这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。 第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性 以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学复习

试卷习题--课后习题--概念题 1. EST【Expressed Sequence Tag (表达序列标签) :Randomly selected, partial cDNA sequence; represents it’s corresponding mRNA. dbEST is a large database of ESTs at GenBank, NCBI.】。 2. STS【Sequence Tagged Site (序列标签位点),Short cDNA sequences (200 to 500bp)of regions that have been physically mapped. STSs provide unique landmarks, or identifiers, throughout the genome. Useful as a framework for further sequencing。】 3. Sequence Alignment 【The process of lining up two or more sequences (DNA, RNA or amino acid) to achieve maximal levels of identity (and conservation, in the case of amino acid sequences) for the purpose of assessing the degree of similarity and the possibility of homology】 4. 序列相似性【是序列比对过程中,用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基所占比例的术语】。 5. 同源序列【是指从某一共同祖先经趋异进化而形成的不同序列】 6. Algorithm(算法)【A systematic procedure for solving a problem in a finite number of steps, typically involving a repetition of operations. Once specified, an algorithm can be written in a computer language and run as a program.】 7. 序列相似性搜索【将查询序列(query sequence)与整个数据库中的所有序列进行比对,从数据库中获得与其最相似序列的过程。能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。】 8. 序列同源性分析【是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小】。 9. Orthologs(直系同源)【Homologous sequences in different species that arose from a common ancestral gene during speciation; may or may not be responsible for a similar function】。 10. Paralogs(旁系同源)【Homologous sequences within a single species that arose by gene duplication】。 11. A Position-specific scoring matrix (PSSM) is defined as a table that contains probability information of amino acids or nucleotides at each position of an ungapped multiple sequence alignment. 12. A profile is a PSSM with penalty information regarding insertions and deletions for a sequence family. 13. 核酸序列预测【指利用一些计算方式(计算机程序)从基因组序列中发现基因及其表达调控元件的位置和结构的过程,包括基因预测和表达调控元件预测】。 14. ORF【一个开放阅读框(ORF, open reading frame)是一个(中间)没有终止密码子的蛋白质编码序列】。 15. Motif(模体)【A motif is a short conserved sequence pattern associated with distinct functions of a protein or DNA. It is often associated with a distinct structural site performing a particular function. A typical motif, such as a Zn-finger motif, is ten to twenty amino acids long.】16. Domain(结构域)【A domain is also a conserved sequence pattern, defined as an independent functional and structural unit. Domains are normally longer than motifs. A domain consists of more than 40 residues and up to 700 residues, with an average length of 100 residues.】 17. Homology Modeling【同源建模方法:如果两个蛋白质序列在80个以上残基的序列比对中显示出25%的一致性,那么这两个蛋白质就具有相似的结构,这就是同源建模方法的理论基础。如果一条结构未知的序列(通常称为目标序列)可以在已知结构库中找到一条或一

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

生物信息学考试参考题目

1. 在NCBI进行BLAST序列比对时,需要输入查询序列的信息,以下错误的格式是( C ) A. 序列的accession number B. 序列的gi C. 序列对应基因的ID D. FASTA 格式的序列 2. 下面这段序列是: ( B ) >gi|24646620|ref|NM_057587.3| Drosophila melanogaster RNA-binding protein 4 CG9654-RA, transcript variant A (Rbp4), mRNAGGATTTTCTTGCCTGTCA TTCAA TTTGTGGTTGGCTTCACCTGAGTGCTGTAGT。。。 A. DNA序列 B. RNA序列 C. 蛋白质序列 D. 基因 3. ExPASy上的工具软件ProtParam提供的是哪种类型的服务?( B ) A.蛋白质三级结构分析 B.蛋白质序列理化性质预测 C.蛋白质二级结构分析 D.跨膜结构分析 4. 假如你有两条远相关的蛋白,为了比较它们,最好使用下列哪个记分矩阵(A ) A. BLOSUM45或PAM250 B. BLOSUM45或PAM1 C. BLOSUM80或PAM250 D. BLOSUM10或PAM1 5. 构建系统发生树,应使用C A. BLAST B. FASTA C. UPGMA D. Entrez 6. 下面这段蛋白质序列是什么格式? ( D ) >gi|4506183|ref|NP_002779.1| proteasome alpha 3 [Homo sapiens]MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVEKLVLS KL YEEGSNKRLFNVDRHVGMA V AGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRV AMYVHAYTL YSA VRPFGCSFMLGS。。。。。。 A. GBFF B. TEXT C. PDB D. FASTA 7. 直系同源物定义为(A ) A.不同物种中具有共同祖先的同源序列 B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C.同一物种中由基因复制产生的同源序列 D.同一物种中具有相似的并且通常是冗余功能的同源序列 8. 美国NIH维护提供的DNA序列数据库是:( A ) A. GenBank B. Protein C. dbEST D. dbSNP 9. 高分配对片段的英文缩写为(A ) A. HSP B. HMP C. HCP D. HDP

生物信息学现状与展望

研究生课程考试卷 学号、姓名: j20112001 苗天锦 年级、专业:2011生物化学与分子生物学 培养层次:硕士 课程名称:生物信息学 授课学时学分: 32学时 2学分 考试成绩: 授课或主讲教师签字:

生物信息学现状与展望 摘要:生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",本文对生物信息学的产生背景及其研究现状等方面进行了综述,并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。 关键词:生物信息学;生物信息学背景;发展前景 一、生物信息学概述 1.生物信息学发展历史 随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”【1】。 研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA 的三维结构(双螺旋)。Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA 聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。Meselson与Stahl (1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础【2】。自1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。 2.生物信息学研究方向 2.1 序列比对

生物信息学复习资料

第一章 1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图 3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 、EMBL、DDBJ 5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。 第二章: 1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降 3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap 4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

生物信息学试题整理

UTR的含义是(B ) A.编码区 B. 非编码区 C. motif的含义是(D )。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是(B )。 A.登录号 B. 算法 C. RGR^ (D )。 A.在线人类孟德尔遗传数据 D.水稻基因组计划 下列Fasta格式正确的是(B) 低复杂度区域 D. 幵放阅读框 碱基对 D. 结构域 比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是(A )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是(D )。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是(A)0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化 从cDNA文库中获得的短序列是(D )o A. STS B. UTR C. CDS D. EST con tig的含义是(B )o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR (AtDB)数据库是(C)o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是(D )o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况 国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物 信息学部门的数量也与日俱增。美国早在1988年在国会的支持 下就成立了国家生物技术信息中心(NCBI),其目的是进行计 算分子生物学的基础研究,构建和散布分子生物学数据库;欧 洲于1993年3月就着手建立欧洲生物信息学研究所(EBI), 日本也于1995年4月组建了信息生物学中心(CIB)。目前, 绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数 据库系统产生,他们共同组成了 DDBJ/EMBL/Gen Bank国际核 酸序列数据库,每天交换数据,同步更新。以西欧各国为主的 欧洲分子生物学网络组织(EuropeanMolecular Biology Network, EMB Net)是目前国际最大的分子生物信息研究、开 发和服务机构,通过计算机网络使英、德法、瑞士等国生物信 息资源实现共享。在共享网络资源的同时,他们又分别建有自 己的生物信息学机构、二级或更高级的具有各自特色的专业数 据库以及自己的分析技术,服务于本国生物(医学)研究和开 发,有些服务也开放于全世界。 从专业出版业来看,1970年,出现了《Computer Methods and Programs in Biomedicine》这本期刊;到1985年4月, 就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在,我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况 我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。 但是由于起步较晚及诸多原因,我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数,可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%,而美国则发表2160篇占全部的39%之多(统计数据截至2004年2月15日)。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%,差距相当大[4]。在生物信息学领域,一些著名院士和教授在各自领域取得了一定成绩,显露出蓬勃发展的势头,有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信 息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验 数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的 功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支 的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化 保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出 新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。 (来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或 氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子 的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折 叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进 行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编码部分与非 编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类 整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同 一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比 例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查 序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同 每条所查序列作一对一的序列比对。(来自百度)

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

2019版国科大生物信息学期末考试复习题

中科院生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要? 答:生物信息学有三个方面的含义: 1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和 解释的所有方面,是基因组研究不可分割的部分。 2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语 言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。 3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它 是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 2.如何利用数据库信息发现新基因,其算法本质是什么? 答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式: 1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因: (利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。②基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network 2)利用EST数据库发现新基因和新SNPs: (归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要是拼接问题) 数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库①构建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库; ②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质; ③用种子和纯化的EST数据库比对 ④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸; ⑤判断是否为全长cDNA序列。 (利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)

生物信息学复习重点

生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。 生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。从生物分子获得和挖掘深层次生物学知识。人类基因组计划(HGP:获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。其中我国承担了人类3 号染色体短臂。 记录:一个数据库记录一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释。 冗余:在一个数据库存在着多个相同的项,如两个或者更多的记录中有一个相同序列 Fasta 格式开始于一个标识符:">" ,然后是一行描述。 GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCU开头描述行,基因序列以ORIGN开头,以/结尾。 EMBL入口标识符ID,序列开始标识符SQ结束是/。 数据库的特点:①数据库是可以检索的,即具有检索功能;②数据库应该是定时更新的,即不断有新版内容发布;③数据库是交叉引用的,特别是在互联网时代,数据库应该通过超链接与其他数据库相连。 EST序列:表达序列标签对cDNA文库测序得到的,是转录的DNA序列。 STS序列:序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp —500bp)。 STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列,用于产生作图位点。 GSS序列:基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。 HTG序列:高通量基因组序列 三大数据库: NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据和各种服务。 EMBL欧洲分子生物学实验室。 DDBJ日本遗传研究所。 同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。基因同源性只有“是”和“非”的区别,是一种质的判断。 直系同源基因:分布在不同物种间的同源基因又称直系同源基因。 旁系同源基因:同一物种的同源基因则称旁系同源基因 (水平基因:, 水平基因由重复后趋异产生。 一致性:序列中同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。 相似性:序列中同一位置相同或相似序列的百分比。如同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能。 相似性和同源性关系:一般来说序列间的相似性越高的话,是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。 序列比对:确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。任务:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的根本差异。 相似性:可能是核酸/氨基酸序列的相似、可能是结构的相似、可能是功能的相似

生物信息学试题

华中农业大学研究生课程考试试卷(B) 考试科目名称:生物信息学考试时间:2011年6月15日备注:所有答案均要写在答题纸上,否则,一律无效。 提示:(1)2小时答题时间;(2)课堂开卷,独立完成;(3)答题简明扼要 1.请查询序列AK101913(GenBank注册号)的相关信息并回答下列问题:(1)若用限制性内切酶PstΙ消化这条序列,可以得到几个片段?(4分) (2)该序列编码的蛋白质有多少个氨基酸?哪种氨基酸所占比例最高?等电点是多少?是否糖蛋白质?如果是糖蛋白,请给出具体类型及糖基化位点。(10分)(3)请分析该序列编码蛋白的保守结构域,根据你的分析,该蛋白可能具有什么样的生物学功能?(6分) 2.任选一种基因结构分析工具,预测序列J04982(GenBank注册号)的基因结构及其编码产物的理化性质。请注明分析工具的名称,以及是否采用某一物种的数据作为参照。 (1)根据你所选用的分析方法,这条序列编码多少个基因?分别包含有多少个exon?预测基因(如有多个基因请注明是第几个基因)是否有转录起点和PolyA加尾信号? 分析结果是否与GenBank提供的注释信息相符合?(10分) (2)预测的第一个基因编码的蛋白质是否包含有信号肽(注明切割位点)和跨膜区域(注明跨膜区)?预测该蛋白的亚细胞定位。(10分) 注:3a、3b任选一题 3a.RZ220是水稻分子标记遗传连锁图上的一个分子标记,请回答下列有关问题:(1)这个分子标记/位点被定位于水稻的第几号染色体?在你检索的网站(请注明网址)多少水稻的遗传连锁图使用了该分子标记?请列出分子标记遗传连锁图的名称及 其类型(Map Type)(10分) (2)RZ220属于什么类型的分子标记?指出一个与该标记连锁或附近的QTL(注明其编号),并说明该QTL控制什么性状,列出定位该QTL的研究的相关文献。(10分) 3b.BM6506是羊分子标记遗传连锁图上的一个分子标记或位点,请回答下列有关问题:(请注明分析方法名称) (1)这个分子标记/位点被定位于羊的第几号染色体?(4分) (2)在SM1分子标记遗传连锁图上与这个分子标记/位点紧密连锁(两侧)的分子标记/位点的名称是什么?这个分子标记/位点在SM1分子标记遗传连锁图上的遗传位置 是多少?(8分) (3)列出一篇与该标记相关的文献及其在PubMed中的PMID号。(8分) 4.分析六条蛋白质序列(BAF63641、ABO31104、ACO11338、ABH07379、AAF65254、AAB38498)的同源性并回答下列问题(请注明分析方法名称): (1)哪两条序列的进化关系最近,一致性(Identity)是多少?相似度(Similarity/Positive)是多少?(10分)

相关主题
文本预览
相关文档 最新文档