当前位置:文档之家› 生物信息学复习重点

生物信息学复习重点

生物信息学复习重点
生物信息学复习重点

生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。从生物分子获得和挖掘深层次生物学知识。人类基因组计划(HGP):获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。其中我国承担了人类3号染色体短臂。

记录:一个数据库记录一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释。

冗余:在一个数据库存在着多个相同的项,如两个或者更多的记录中有一个相同序列

Fasta格式开始于一个标识符:">",然后是一行描述。

GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCUS开头描述行,基因序列以ORIGN开头,以//结尾。

EMBL:入口标识符ID,序列开始标识符SQ,结束是//。

数据库的特点:①数据库是可以检索的,即具有检索功能;②数据库应该是定时更新的,即不断有新版内容发布;③数据库是交叉引用的,特别是在互联网时代,数据库应该通过超链接与其他数据库相连。

EST序列:表达序列标签对cDNA文库测序得到的,是转录的DNA序列。

STS序列:序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp-500bp)。STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA 序列,用于产生作图位点。

GSS序列:基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。HTG序列:高通量基因组序列

三大数据库:

NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据和各种服务。EMBL:欧洲分子生物学实验室。

DDBJ:日本遗传研究所。

同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。基因同源性只有“是”和“非”的区别,是一种质的判断。

直系同源基因:分布在不同物种间的同源基因又称直系同源基因。

旁系同源基因:同一物种的同源基因则称旁系同源基因(水平基因), 水平基因由重复后趋异产生。

一致性:序列中同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。

相似性:序列中同一位置相同或相似序列的百分比。如同源蛋白质的氨基酸序列

中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员, 它们之间的代换不影响蛋白质(或酶)的生物学功能。

相似性和同源性关系:一般来说序列间的相似性越高的话,是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。

序列比对:确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。任务:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的根本差异。

相似性:可能是核酸/氨基酸序列的相似、可能是结构的相似、可能是功能的相似

主要的blast程序:

Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。

E value:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score 值的可能性越低。

分子钟:某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为“分子钟”。

中性学说:突变大多数是中性的,中性突变通过随机的遗传漂变在群体里固定下来,分子进化是遗传漂变的结果,在分子进化上自然选择不起作用。

分子进化/系统发育树的研究目的:①物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系②大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析和功能预测③进化速率分析:例如,HIV的高突变性,哪些位点易发生突变

末端节点:代表最终分类,可以是物种,群体或者蛋白质、DNA、RNA分子等。系统发育树是由一系列节点和分支组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。

树的节点又分为外部节点和内部节点。外部节点代表实际观察到的分类单元。内部节点又称为分支点,代表分类单元进化历程中的祖先。一个DNA序列在物种形

成或基因复制时,分裂成两个子序列,因此系统发育树一般是二叉树。

有根树:从最早共同祖先,即根开始,随着时间的连续分支事件引起的一组相关物种的分歧。

无根树:表示分类单元之间的进化关系,但不鉴别最早的共同祖先。

距离:对一个有根树来说,沿着每个分支的进化方向是确定的。反之,对无根树来说,并不清楚内部分支的祖先物种是从哪里进化而来相关序列间的差异称为距离。不同物种的两条同源序列的度量被称为遗传距离或进化距离。

外群/外围枝:与当前研究的主要物种或基因相对较远的一组序列,可以辅助定位树根,选择条件:序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著

系统发育树构建步骤:多序列比对;建立取代模型(建树方法);建立进化树;进化树评估。

进化树的可信度检验自展法(统计方法):从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性

建树一般原则:1.可靠的待分析数据2.准确的多序列比对3.选择合适的建树方法:A.序列相似程度高,MP(简约法)B.序列相似程度较低,ML(似然法)C.序列相似程度中等,NJ(邻接法)D.序列相似程度太低,无意义

bootstrap为每个分支指派一个数值,表示这些分支在bootstrap测试中出现的百分比,暗示它们关联的化分是否被数据很好地支持。越接近100,可信度越高。GO:基因本体联合会所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO语义的分类:①分子功能描述在个体分子生物学上的活性,如催化活性或结合活性。②生物学过程由分子功能有序地组成的,具有多个步骤的一个过程。③细胞组件指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等),即基因产物在什么地方起作用。

语义之间有三种关系:①is a(I)②part of(P)③regulates(R)

语义之间的关系:1.“语义”用“结点”表示 2.用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。3.实线表示结点之间的关系 4.虚线表示推理而并未证明的关系

GO语义之间的关系是单向的,结构像是有向非循环树,但与有向非循环树不同的是,本体论结构图中的结点可以有两个及其以上的父结点。

在“Qualifier”用“NOT”标注,如“nurse cell apoptosis”,其说明根据实验数据,该基因产物并不在“nurse cell apoptosis”过程中起明显作用,因而该基因产物用该语义注释只是研究者的一种推测与期望,此推测的根据是该基因产物与那些在“nurse cellapoptosis”起明显作用的基因产物有着非常相似的

序列结构。

间隔区(IGR)是一片位于基因之间的DNA序列。非编码DNA间隔区的一个子集。偶尔有些间隔DNA的作用来控制基因附近,但目前大部分没有已知的功能。它有时也被称为“垃圾DNA”的DNA序列之一,最近被称为“暗物质”或“暗物质转录间隔区的DNA片段”。

重复序列的分析:对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。

等值区:大部分真核基因组表现出一种称为等值区的组织形式。等值区定义为“具有一致碱基组成的长区域”:①等值区基因组序列的长度超过1,000,000对碱基;

②虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对均衡,即在等值区全长序列上移动的1,000bp滑动窗口中的GC含量与整个序列的GC 含量相差不超过1%。

人类基因组大约可以划分为五个不同类型的等值区:其中有两个区域缺乏G和C,分别被称作L1和L2,平均GC含量分别为39%和42%;另三个区域所含的G和C 相对丰富,分别被称作H1、H2和H3,GC含量平均值分别为46%、49%和54%。真核生物的H等值区中含有丰富的基因,是开始基因组测序的最佳位置。

SD序列:mRNA翻译起点上游与原核16S 核糖体RNA或真核18S rRNA 3′端富含嘧啶的7核苷酸序列互补的富含嘌呤的3~7个核苷酸序列(AGGAGG),是核糖体小亚基与mRNA结合并形成正确的前起始复合体的一段序列。

Kozak规则,即第一个AUG侧翼序列的碱基分布所满足的统计规律,若将第一个AUG中的碱基A,U,G分别标为1,2,3位,则:①第4位的偏好碱基为G②AUG 的5’端约15bp范围的侧翼序列内不含碱基T;③在-3,-6和-9位置,G是偏好碱基;④除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基

真核生物中的基因预测程序的分类: 1. 基于同源性的方法2. 基于从头算的方法3. 基于一致性的算法(大部分程序是物种专一的,这是由于用于获得统计参数的训练数据必须由单一生物体取得)

蛋白质数据库:提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等同时提供其它数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接

Reviewed 和 Unreviewed代表数据的可性度。可性度的标签主要有三种:人工验证的数据(黄色星);从其他数据源引用过来的数据(半黄半灰星);通过程序添加或者产生信息的(灰色星)。

蛋白质3D结构预测的方法可分为三大类:①同源建模法②折叠识别法③从头预测法

生物芯片:生物活性物质以点阵的形式有序地固定在固相载体上。在特定条件下与荧光标记过的待检测样品进行生化反应。反应结果用化学方法显示,光学仪器进行数据采集,通过计算机软件进行数据分析,得到样品的分子信息。

基因芯片数据处理和分析:1.基因芯片数据的获取2.芯片数据的标准化3.差异表达基因的分析4.基因共表达分析5.基因表达数据的聚类6.基因表达数据的分类7.后续分析

误差来源:①图像分析②扫描③DNA杂交过程(温度、时间、混合均匀程度等)④探针的标记⑤RNA的抽提⑥加样⑦其他

芯片数据的标准化:为了消除由于实验技术所导致的表达量的变化,并使各样本和平行实验的数据处于相同的水平,从而得到具有生物学意义的基因表达量的变化。

数据过滤:过滤掉非正数,通过图像扫描软件,将每个杂交点的光强度转化为表达量时,会产生负的数值或者0,这主要是软件的算法对背景噪音处理时所产生的。由于负数和零是不能对数化的,故过滤掉这些数据是非常必要的。

归一化采用的一个基本假设是:在测试样本与对照样本间大多数的基因是没有显著差异表达的,而在有差异表达的基因中,在测试样品中高表达的基因与低表达的基因在数量上也是大致相当的,因此芯片上所有基因的相对表达量应该是以0为中心的分布。

平均数、中位数标准化:由于不同的实验样本(如不同组织)是分别在不同的芯片上杂交试验,因而也有系统误差,应通过标准化将芯片的数据调整到同一水平。芯片间的数据标准化常采用,常用的方法是平均数、中位数标准化。即:将不同组实验的数据对数比值的中位数或平均数调整到同一大小

差异表达基因的分析:目的:比较两个条件下的基因表达差异,从而识别出与条件相关的特异基因或者显著差异表达基因

基因显著差异表达:通常是指一个基因在两个条件中的表达水平的检测值在排除实验、检测等因素后达到一定的差异,具有统计学意义,同时也具有生物学意义。基因共表达分析:在N个不同的条件下,考察基因X和Y的表达是否相似。

共表达:正相关:相似的表达谱,可能存在正关联;负相关:相反的表达谱,可能存在负调控

Pearson相关系数:r ~ [-1, 1]; r~ 1,正相关;r~ -1,负相关

基因表达数据的聚类:从数据矩阵出发,将表达模式相同的基因聚为一类。从数学角度:聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其他组中的成员不同。从生物学角度:聚类分析方法所隐含的生物学意义和基本假设是,组内基因的表达谱相似,它们可能有相似的功能。

基因表达数据的分类:根据基因表达的数据将样本分成两类或多类。

有督导学习:根据发现的模式进行预测。应用:癌症vs.正常组织;癌症的亚型、不同阶段(良性的vs.恶性的);对药物的敏感性。

有监督学习:在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器的设计。已知训练样本,用已知类别的样本训练分类器,以求对训练集的数据达到某种最优,并能推广到对新数据的分类。

无监督学习:样本数据类别未知,需要根据样本空间的相似性对样本集进行分类(聚类),试图使类内差距最小化,类间差距最大化,不需要任何先验领域知识,利用聚类结果,可以提取数据集中隐藏的信息,对未来数据进行预测和分类。

有/无监督学习区别:①有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。②有监督学习方法得目的是识别事物,识别的结果表在给待识别数据加上标号。因此训练样本集必须由带有标号的样本组成。非监督学习只有要分析数据集本身,则可按自然的聚集性分类,但不以与某种预先的分类对上号为目的

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息研究中常用蛋白质数据库的总结复习进程

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述 内蒙古工业大学理学院呼和浩特孙利霞 2010.1.5 摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。 关键词:蛋白质;数据库 0 引言 随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。这些数据库是分子生物信息学的基本数据资源。上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。 本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。同时尽量不涉及数

生物信息学复习笔记

生物信息学 填空,选择,计算,简答,名词解释 几代测序的代表平台,优缺点 一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法 Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP 和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA 序列 第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用 以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid 技术为标记的第二代测序技术诞生了 (1)DNA待测文库构建 利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。 (2)Flowcell

Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell 能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。 (3)桥式PCR扩增与变性 桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a 所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。 (4)测序 测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。 这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。 第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性 以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能 4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能 一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变: A. 丙氨酸B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局 部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们,最好使用下列哪个BLOSUM和PAM矩阵:■BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别是:A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列,它可能编码多少种蛋白质序列: A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列,应选择: A. blastn B. blastp C. tblastn D. tblastp■blastx 18.为什么ClustalW(一个采用了Feng-Doolittle渐进比对算法的程序)不报告E值:A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙,永远是空隙”规则的依据是:A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应 该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说:A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质,分子进化的速率是逐 渐减慢的,就如同不准时的钟■对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是: A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法:A. 邻位连接法(NJ法)B. Kimura算法■最大似然法(ML)D. 非加权平均法(UPGMA) 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是:■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列,而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元(OTU)可指:A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是:■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是:A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质:■10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是:A. 软件太难使用■. 假阳性率太高,许多不是外显子的序列部分被错误指定C. 假阳性率太高,许 多不是外显子功能未知 D. 假阴性率太高,丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以:A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp:A. 20000■. 200000 C. 2000000 D. 20000000

数据挖掘与分析心得体会

正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。 1、数据挖掘 数据挖掘应当更正确的命名为:“从数据中挖掘知识”,不过后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现(KDD)”的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤! 由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。作为知识发现过程,它通常包括数据清理、数据集成、数据变换、模式发现、模式评估和知识表示六个步骤。 数据挖掘处理数据之多,挖掘模式之有趣,使用技术之大量,应用范围之广泛都将会是前所未有的;而数据挖掘任务之重也一直并存。这些问题将继续激励数据挖掘的进一步研究与改进! 2、数据分析 数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步: 1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。 2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。 3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。 数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各

生物信息学复习

试卷习题--课后习题--概念题 1. EST【Expressed Sequence Tag (表达序列标签) :Randomly selected, partial cDNA sequence; represents it’s corresponding mRNA. dbEST is a large database of ESTs at GenBank, NCBI.】。 2. STS【Sequence Tagged Site (序列标签位点),Short cDNA sequences (200 to 500bp)of regions that have been physically mapped. STSs provide unique landmarks, or identifiers, throughout the genome. Useful as a framework for further sequencing。】 3. Sequence Alignment 【The process of lining up two or more sequences (DNA, RNA or amino acid) to achieve maximal levels of identity (and conservation, in the case of amino acid sequences) for the purpose of assessing the degree of similarity and the possibility of homology】 4. 序列相似性【是序列比对过程中,用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基所占比例的术语】。 5. 同源序列【是指从某一共同祖先经趋异进化而形成的不同序列】 6. Algorithm(算法)【A systematic procedure for solving a problem in a finite number of steps, typically involving a repetition of operations. Once specified, an algorithm can be written in a computer language and run as a program.】 7. 序列相似性搜索【将查询序列(query sequence)与整个数据库中的所有序列进行比对,从数据库中获得与其最相似序列的过程。能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。】 8. 序列同源性分析【是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小】。 9. Orthologs(直系同源)【Homologous sequences in different species that arose from a common ancestral gene during speciation; may or may not be responsible for a similar function】。 10. Paralogs(旁系同源)【Homologous sequences within a single species that arose by gene duplication】。 11. A Position-specific scoring matrix (PSSM) is defined as a table that contains probability information of amino acids or nucleotides at each position of an ungapped multiple sequence alignment. 12. A profile is a PSSM with penalty information regarding insertions and deletions for a sequence family. 13. 核酸序列预测【指利用一些计算方式(计算机程序)从基因组序列中发现基因及其表达调控元件的位置和结构的过程,包括基因预测和表达调控元件预测】。 14. ORF【一个开放阅读框(ORF, open reading frame)是一个(中间)没有终止密码子的蛋白质编码序列】。 15. Motif(模体)【A motif is a short conserved sequence pattern associated with distinct functions of a protein or DNA. It is often associated with a distinct structural site performing a particular function. A typical motif, such as a Zn-finger motif, is ten to twenty amino acids long.】16. Domain(结构域)【A domain is also a conserved sequence pattern, defined as an independent functional and structural unit. Domains are normally longer than motifs. A domain consists of more than 40 residues and up to 700 residues, with an average length of 100 residues.】 17. Homology Modeling【同源建模方法:如果两个蛋白质序列在80个以上残基的序列比对中显示出25%的一致性,那么这两个蛋白质就具有相似的结构,这就是同源建模方法的理论基础。如果一条结构未知的序列(通常称为目标序列)可以在已知结构库中找到一条或一

生物信息学课后题及答案-推荐下载

生物信息学课后习题及答案 (由10级生技一、二班课代表整理) 一、绪论 1.你认为,什么是生物信息学? 采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋 白质等)的收集、加工、储存、分析、解释的一门学科。2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于: 在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分 子进化、蛋白质结构预测等 在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS 、人类基因组计划、基因组计划:基因芯片。 (2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。 3.人类基因组计划与生物信息学有什么关系? 人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作 。而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。 4简述人类基因组研究计划的历程。 通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA 的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。 1990,人类基因组计划正式启动。 1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。 1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。Celera 公司加入,与公共领域竞争启动水稻基因组计划。 1999,第五届国际公共领域人类基因组测序会议,加快测序速度。 2000,Celera 公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。 2001,人类基因组“中国卷”的绘制工作宣告完成。 2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。2004,人类基因组完成图公布。 2.我国自主知识产权的主要基因组测序计划有哪些?水稻(2002),家鸡(2004),家蚕(2007),家猪(2012),大熊猫(2010) 2.第一章 、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题,而且可保障各类管路习题到位。在管路敷设过程中,要加强看护关于管路高中资料试卷连接管口处理高中资料试卷弯扁度固定盒位置保护层防腐跨接地线弯曲半径标高等,要求技术交底。管线敷设技术包含线槽、管架等多项方式,为解决高中语文电气课件中管壁薄、接口不严等问题,合理利用管线敷设技术。线缆敷设原则:在分线盒处,当不同电压回路交叉时,应采用金属隔板进行隔开处理;同一线槽内,强电回路须同时切断习题电源,线缆敷设完毕,要进行检查和检测处理。、电气课件中调试对全部高中资料试卷电气设备,在安装过程中以及安装结束后进行 高中资料试卷调整试验;通电检查所有设备高中资料试卷相互作用与相互关系,根据生产工艺高中资料试卷要求,对电气设备进行空载与带负荷下高中资料试卷调控试验;对设备进行调整使其在正常工况下与过度工作下都可以正常工作;对于继电保护进行整核对定值,审核与校对图纸,编写复杂设备与装置高中资料试卷调试方案,编写重要设备高中资料试卷试验方案以及系统启动方案;对整套启动过程中高中资料试卷电气设备进行调试工作并且进行过关运行高中资料试卷技术指导。对于调试过程中高中资料试卷技术问题,作为调试人员,需要在事前掌握图纸资料、设备制造厂家出具高中资料试卷试验报告与相关技术资料,并且了解现场设备高中资料试卷布置情况与有关高中资料试卷电气系统接线等情况,然后根据规范与规程规定,制定设备调试高中资料试卷方案。 、电气设备调试高中资料试卷技术电力保护装置调试技术,电力保护高中资料试卷配置技术是指机组在进行继电保护高中资料试卷总体配置时,需要在最大限度内来确保机组高中资料试卷安全,并且尽可能地缩小故障高中资料试卷破坏范围,或者对某些异常高中资料试卷工况进行自动处理,尤其要避免错误高中资料试卷保护装置动作,并且拒绝动作,来避免不必要高中资料试卷突然停机。因此,电力高中资料试卷保护装置调试技术,要求电力保护装置做到准确灵活。对于差动保护装置高中资料试卷调试技术是指发电机一变压器组在发生内部故障时,需要进行外部电源高中资料试卷切除从而采用高中资料试卷主要保护装置。

生物信息学现状与展望

研究生课程考试卷 学号、姓名: j20112001 苗天锦 年级、专业:2011生物化学与分子生物学 培养层次:硕士 课程名称:生物信息学 授课学时学分: 32学时 2学分 考试成绩: 授课或主讲教师签字:

生物信息学现状与展望 摘要:生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",本文对生物信息学的产生背景及其研究现状等方面进行了综述,并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。 关键词:生物信息学;生物信息学背景;发展前景 一、生物信息学概述 1.生物信息学发展历史 随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”【1】。 研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA 的三维结构(双螺旋)。Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA 聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。Meselson与Stahl (1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础【2】。自1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。 2.生物信息学研究方向 2.1 序列比对

计算机专业认识实习报告

认识实习心得 计算机112班ZZM 11月18日到22日是认知实习周,我们计算机专业在老师的精心安排下,组织了许多专业知识讲座,以及实地参观学习。在此之前,一提到实习,总感觉有一种神秘感,不知道我们这个专业实习能干什么?实习之后,我懂得了不少经验和道理。 讲座内容涉及职场礼仪、计算机专业技术、科技研发、创业等,实地参观无锡(国家)软件园、常州北大众志公司、常州同惠电子厂等。丰富多彩的讲座以及身临科研开发的第一线不仅拓宽了我们的视野,也使我们在专业知识的学习上明确了方向,对未来的职业选择奠定了一定的基础。下面简单的说下实习的具体感受。 第一天由无锡NIIT学校副校长郑老师做了关于职场上礼仪的讲座。郑老师从4大方面若干小点阐述了职场对礼仪的要求。首先是为什么要学习职场礼仪。古人云:“礼”者,敬人也。一是严于律己,二是尊敬他人,并且强调要学会用正确的方法尊敬别人。关于基本礼仪要求:首先强调的是个人卫生,个人的整体形象。如果一个人邋邋遢遢,个人生活一团糟,相信不会有哪个HR会看上你,并且相信你会为公司带来经济效益。其次,礼貌待人,一个人很有礼貌的去做事,可以给人的感觉是这个人很有素养,举止得体,这样会加重别人信任你的砝码。接着是关于友善,生活中难免会遇到一些竞争者,我们要正确的认识两者间的关系,友善的处理好关系有助于工作的开展,而不是盲目的排挤打压。要学会用真诚去感化别人,真诚待人。接着是尊重他人的情感,学着站在别人的角度思考问题,感受别人的心情。最好能够尝试理解他人。还有就是善待来访,善用敬语。一些基本的礼节问题讨论结束后,郑老师开始向我们介绍在公司里,作为一名员工应当具有的礼节行为。一名员工最基本的礼节行为就是要守时,如果有特殊情况不能及时赶到,应当立即打电话告知对方。时间是最宝贵的,误时的结果会让你在别人心中的形象大打折扣,会认为你不是一个严谨的人。其次就是远离流言蜚语,嘴巴一定要管好,不能四处散播不良言论,必须要为自己所说的话负责。当然还有些细节问题,例如衣着得体,讲究个人卫生;不带病上班;控制饮酒;不带不速之客;杜绝轻浮举止等,郑老师也一一作了详细解答。郑老师切身说法,列举自己生活里的例子给大家做分析,说心得。同学们听后感慨颇多。 第二天我们计算机专业进行了第二次学术报告讲座,课题为机器学习。平时学习的范围比较狭隘,很少接触到类似于这种高端的技术范畴。学院万建武老师首先从机器学习这一概念的提出及发展情况做了简单的介绍,通俗意义上讲就是让机器有自我学习的能力。目前国类研究人员还是很多的,很多高等学府都相应的开设了课程,例如北大、清华、交大等,一些重要的知名大企业技术核心也涉及到了,如阿里巴巴、百度,中国移动等,其中阿里巴巴的淘宝网站应用最为广泛。它机器会根据用户的购买喜好,以及用户的购买力进行自学习,然后在淘宝的产品库中智能的推荐该用户能够喜欢以及能够支付的产品,通过高效的算法使得自身的商品最大化的推销出去。接着,老师介绍了他本人感兴趣的研究方向,希望给与我们一些指导。视频追踪、机器排错。视频追踪类似于相机里的聚焦并锁定人物头像,视频追踪技术用来分析人物的动作形态,并且排除外界环境的干扰,要将人物的整个信息记录下来。然后老师提出了进行这项研究所需具备的条件,要喜欢接受挑战,有好的外语阅读能力,好的数学基础(线性代数、概率统计、优化、实变、泛函),对照老师提出的基本要求,自己这方面的能力还有待加强。老师举了一些眼下热门的技术使用,网络安全、门禁的入侵检测、生物信息学等。当然这项高端的技术也面临着诸多挑战问题,(1)泛化问题,机器进过学习后得出的结论,今后10年是否准确?(2)运行的速度,比如训练时间VS测试时间。(3)可理解性的问题,是否能让其他人更好的理解规则和模型,市场上的技术封装“黑盒子”能否满足需要?(4)数据利用能力(5)代价敏感,应用到的模识别,以及降维算法。很好的例子就是人脸识别。此次讲座让我不仅接触到了前沿的科技,热的研究方向,而且也让我深刻感受到稳扎基础,拓宽知识面的重要性!

生物信息学复习资料

第一章 1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图 3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 、EMBL、DDBJ 5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。 第二章: 1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降 3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap 4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

网上生物信息学教程

网上生物信息学教程EMBL biocomputing tutorials https://www.doczj.com/doc/ca5913696.html,/Embnetut/Gcg/index.html Plant genome dababase tutorial https://www.doczj.com/doc/ca5913696.html,/pgdic 生物信息学机 NCBI https://www.doczj.com/doc/ca5913696.html,/ International Nucleotide Sequence Database Collaboration. https://www.doczj.com/doc/ca5913696.html,/collab/ EBI https://www.doczj.com/doc/ca5913696.html,/ USDA https://www.doczj.com/doc/ca5913696.html,/ Sanger Centre https://www.doczj.com/doc/ca5913696.html,/ 北京大学生物信息学中心 https://www.doczj.com/doc/ca5913696.html, 数据库信息发布及其它 GenBank Release Notes ftp://https://www.doczj.com/doc/ca5913696.html,/genbank/gbrel.txt dbEST summary report https://www.doczj.com/doc/ca5913696.html,/dbEST/dbESTsummarv.html EMBL release notes http://www.bio.unizh.ch/db/docu.html?data=emrel Eukaryotic promoter database release notes http://www.genome.ad.jp/dbget/dbget2.html KEGG release notes http://www.genome.jp/kegg/docs/relnote.html 核苷酸数据库 GenBank https://www.doczj.com/doc/ca5913696.html,/ dbEST https://www.doczj.com/doc/ca5913696.html,/dbEST/index.html dbSTS https://www.doczj.com/doc/ca5913696.html,/dbSTS/index.html dbGSS https://www.doczj.com/doc/ca5913696.html,/dbGSS/index.html

生物信息学试题整理

UTR的含义是(B ) A.编码区 B. 非编码区 C. motif的含义是(D )。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是(B )。 A.登录号 B. 算法 C. RGR^ (D )。 A.在线人类孟德尔遗传数据 D.水稻基因组计划 下列Fasta格式正确的是(B) 低复杂度区域 D. 幵放阅读框 碱基对 D. 结构域 比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是(A )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是(D )。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是(A)0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化 从cDNA文库中获得的短序列是(D )o A. STS B. UTR C. CDS D. EST con tig的含义是(B )o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR (AtDB)数据库是(C)o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是(D )o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

相关主题
文本预览
相关文档 最新文档