ORF查找与翻译
- 格式:ppt
- 大小:1.22 MB
- 文档页数:31
逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。
全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装。
单核苷酸多态性(SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。
遗传图谱又称连锁图谱,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。
遗传图谱的建立为基因识别和完成基因定位创造了条件。
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
比较基因组学:全基因组核苷酸序列的整体比较的研究。
特点是在整个基因组的层次上比较基因组的大小及基因数目、位置、顺序、特定基因的缺失等。
环境基因组学:研究基因多态性与环境之间的关系,建立环境反应基因多态性的目录,确定引起人类疾病的环境因素的科学。
宏基因组是特定环境全部生物遗传物质总和,决定生物群体生命现象。
转录组即一个活细胞所能转录出来的所有mRNA。
研究转录组的一个重要方法就是利用DNA芯片技术检测有机体基因组中基因的表达。
而研究生物细胞中转录组的发生和变化规律的科学就称为转录组学。
蛋白质组学:研究不同时相细胞内蛋白质的变化,揭示正常和疾病状态下,蛋白质表达的规律,从而研究疾病发生机理并发现新药。
蛋白组:基因组表达的全部蛋白质,是一个动态的概念,指的是某种细胞或组织中,基因组表达的所有蛋白质。
代谢组是指是指某个时间点上一个细胞所有代谢物的集合,尤其指在不同代谢过程中充当底物和产物的小分子物质,如脂质,糖,氨基酸等,可以揭示取样时该细胞的生理状态。
ORF(开放阅读框)ORF是什么?开放阅读框(英语:Open reading frame;缩写:ORF;其他译名:开放阅读框架、开放式阅读框架,开放读架等)是⽣物个体的基因组中,可能是蛋⽩质编码序列的部分。
基因中的ORF包含并位于开始编码与终⽌编码之间。
由于⼀段DNA或RNA序列有多种不同读取⽅式,因此可能同时存在许多不同的开放阅读框架。
开放阅读框包含⼀段可以编码蛋⽩的碱基序列,不能被终⽌⼦打断。
当⼀个新基因被识别,其DNA序列被解读,⼈们仍旧⽆法搞清相应的蛋⽩序列是什么。
这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码⼦)。
ORF识别包括检测这六个阅读框架并决定哪⼀个包含以启动⼦和终⽌⼦为界限的DNA序列⽽其内部不包含启动⼦或密码⼦,符合这些条件的序列有可能对应⼀个真正的单⼀的基因产物。
ORF的识别是证明⼀个新的DNA序列为特定的蛋⽩质编码基因的部分或全部的先决条件。
ORF的属性1.不确定读框:如果遗传密码是不重叠的三联体,那么会有三种可能的⽅式将核苷酸翻译成蛋⽩质, 这三种可能的读码(Reading frame ) ⽅式称为读码框架。
⽐如序列:ACGACGACGACGACGACG,可能的读码框架就有以下三种:ACG ACG ACG ACG ACG ACG ACG ACGCGA CGA CGA CGA CGA CGA CGA CGAGAC GAC GAC GAC GAC GAC GAC GAC⼀段翻译成蛋⽩质的序列有⼀个阅读框架,它有⼀个特殊的起始密码⼦,从此延伸出⼀系列代表氨基酸的三联体,⼀直到在三种类型的终⽌密码⼦上结束。
如果终⽌密码⼦频繁出现,就会阻⽌阅读框被翻译成蛋⽩质。
⼀个序列的三个阅读框全部被阻断,那么它就会失去翻译成蛋⽩质的功能。
当获得⼀个未知的DNA 序列后,就可分析其三个读码框是被阻断的还是开放的。
在任何⼀段DNA 中,通常不会超过⼀个读码框是开放的,因为替换的读码框被频繁出现的终⽌密码⼦阻断。
在英语中,"or" 和"if" 可以一起使用,但它们的用法和含义会有所不同。
1. "or" 通常用于连接两个或多个选项或条件,表示"或者"的意思。
例如:
- You can have either tea or coffee.(你可以选择茶或者咖啡。
)
2. "if" 则用于引导条件状语从句,表示"如果"的意思。
例如:
- If it rains, we will stay indoors.(如果下雨,我们会呆在室内。
)当"or" 和"if" 同时出现在一个句子中时,它们通常用于表示两种或多种选择中的一种,或者是用于描述某种条件。
例如:
- You can have tea or coffee, if you prefer.(如果你愿意,你可以选择茶或者咖啡。
)
-If you can't find the book you want, you can either choose another one or order it online.(如果你找不到你想要的书籍,你可以选择另一本或者在线订购。
)
在这种用法中,"or" 和"if" 通常一起出现,但它们并不直接连接,而是分别引导不同的从句或选项。
Vector NTI Suite使用简介Vector NTI Suite 是一套功能强大、界面美观而又友好的分子生物学应用软件包。
它主要包括四个组件,分别对DNA、RNA 和蛋白质进行各种分析和操作。
一、Vector NTI作为Vector NTI Suite 的核心组成部分,它可以在各种分子生物学研究项目的全过程中提供数据组织、编辑和分析支持。
(一)对分子序列的操作我们以一个DNA 序列为例,进行一系列的常规分析;最后将此DNA 序列翻译成氨基酸序列,并对此氨基酸序列进行各种分析。
A,DNA 序列为猪生长激素的cDNA 序列,长为761bp。
首先使用Vector NTI 的Create New 命令将此序列导入到Vector NTI 的数据库中:1,第一种方法:如果只知道序列时,点击Molecule 才菜单中的Create New——Using Sequence Editor(DNA/RNA……);2,在出现的“New DNA/RNA Molecule”对话框中,首先在General 填入导入序列的名称——PGH;3,在DNA/RNA Molecule 活页中,选中Linear DNA,Animal/other Eukaryotes,Replicon Type 中选Chromosome;4,Description 中填入:S.Scrofa Growth hormone mRNA;5,在Sequence and Maps 中点击“Edit Sequence”按钮,将DNA 序列复制后,点“Paste”按钮-点“OK”-确认后就可以完成序列导入。
B,如果是一个从GenBank 上下载的序列文件,则:点击“Molecule”菜单-Open-Molecule files 命令,找到序列文件,在File format 中选中GenBank Files;点击OK。
(二)常规操作:当序列导入完成后,在桌面出现三个窗口,上左侧的窗口中显示的是该序列的常规信息,上右侧窗口则以图形的格式展示序列的特征区及酶切图谱等。
基因预测的方法:(怎么样才能有一个感性认识?)方法1:最长ORF法将每条链按6个读码框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF),只要找出序列中最长的ORF,就能相当准确地预测出基因。
最长ORF法发现基因的一般过程(包括基因区域预测和基因功能预测2个层次):步骤1:获取DNA目标序列①如果已有目标序列,可直接进入步骤2;②可以通过PubMed查找感兴趣的资料,通过GenBank或EMBL等数据库查找目标序列。
步骤2:查找ORF并将目标序列翻译成蛋白质序列利用相应工具,如ORF Finder、Gene feature (Baylor College of Medicine)、GenLang (University of Pennsylvania)等查找ORF并将DNA序列翻译成蛋白质序列。
步骤3:在数据库中进行序列搜索利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。
步骤4:进行目标序列与搜索得到的相似序列的全局比对(global alignment)虽然步骤3已进行局部比对(local alignment)分析,但全局比对有助于进一步加深对目标序列的认识。
步骤5:查找基因家族进行多序列比对(multiple sequence alignment),获得比对区段的基因家族信息。
步骤6:查找目标序列中的特定模序分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索。
步骤7:预测目标序列蛋白质结构利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构。
步骤8:获取相关蛋白质的功能信息为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。
可利用PubMed进行搜索。
方法2:利用编码区与非编码区密码子选用频率的差异进行基因预测编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同(即密码子偏好)等原因造成的。
Vector NTI Suite使用简介资料来源:丁香园 Vector NTI Suite是一套功能强大、界面美观而又友好的分子生物学应用软件包。
它主要包括四个组件,分别对DNA、RNA和蛋白质进行各种分析和操作。
一、Vector NTI作为Vector NTI Suite的核心组成部分,它可以在各种分子生物学研究项目的全过程中提供数据组织、编辑和分析支持。
(一)对分子序列的操作我们以一个DNA序列为例,进行一系列的常规分析;最后将此DNA序列翻译成氨基酸序列,并对此氨基酸序列进行各种分析。
A,DNA序列为猪生长激素的cDNA序列,长为761bp。
首先使用Vector NTI的Create New命令将此序列导入到Vector NTI的数据库中:1,第一种方法:如果只知道序列时,点击Molecule才菜单中的Create New——Using Sequence Editor(DNA/RNA……);2,在出现的“New DNA/RNA Molecule”对话框中,首先在General填入导入序列的名称——PGH;3,在DNA/RNA Molecule活页中,选中Linear DNA, Animal/other Eukaryotes,Replicon Type中选Chromosome;4,Description中填入:S.Scrofa Growth hormone mRNA;5,在Sequence and Maps中点击“Edit Sequence”按钮,将DNA序列复制后,点“Paste”按钮-点“OK”-确认后就可以完成序列导入。
B,如果是一个从GenBank上下载的序列文件,则:点击“Molecule”菜单-Open-Molecule files命令,找到序列文件,在File format中选中GenBank Files;点击OK。
(二)常规操作:当序列导入完成后,在桌面出现三个窗口,上左侧的窗口中显示的是该序列的常规信息,上右侧窗口则以图形的格式展示序列的特征区及酶切图谱等。
1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科.它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。
3、表达序列标签从一个随机选择的cDNA 克隆进行5'端和3’端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。
EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。
4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白.ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。
ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。
5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基本结构。
蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础.6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。
orf文件格式解析标题:orf文件格式解析引言概述:orf文件格式是一种用于存储数码相机原始图像数据的文件格式。
了解orf文件格式的结构和内容对于摄影爱好者和专业摄影师来说非常重要。
本文将从五个大点出发,分别介绍orf文件格式的基本信息、文件结构、图像数据、元数据以及解析工具的使用方法。
正文内容:1. orf文件格式的基本信息1.1 orf文件格式的定义orf文件格式是由奥林巴斯公司开发的一种原始图像文件格式,用于存储数码相机拍摄的原始图像数据。
1.2 orf文件格式的特点orf文件格式具有无损压缩、包含丰富图像信息、支持多种摄影参数设置等特点,使得摄影师可以在后期处理中获得更高质量的图像。
2. orf文件格式的文件结构2.1 文件头orf文件的文件头包含了文件的基本信息,如文件标识符、版本号等。
2.2 图像数据区域orf文件的图像数据区域存储了相机拍摄的原始图像数据,通常采用RAW格式存储。
2.3 元数据区域orf文件的元数据区域存储了与图像相关的各种信息,包括拍摄参数、拍摄时间、相机型号等。
3. orf文件格式的图像数据3.1 RAW格式的特点orf文件中的图像数据采用RAW格式存储,这种格式可以保留更多的图像细节和动态范围。
3.2 RAW格式的解析解析orf文件中的RAW格式图像数据需要使用专业的解析工具,如奥林巴斯公司提供的官方软件或第三方软件。
3.3 RAW格式的后期处理通过解析orf文件中的RAW格式图像数据,摄影师可以进行更加精细的后期处理,包括曝光补偿、白平衡调整、噪点降低等。
4. orf文件格式的元数据4.1 元数据的作用orf文件中的元数据包含了与图像相关的各种信息,可以帮助摄影师更好地了解图像的拍摄条件和参数设置。
4.2 元数据的内容orf文件中的元数据包括拍摄参数(如ISO、快门速度、光圈值等)、拍摄时间、相机型号、镜头型号等。
5. orf文件格式解析工具的使用方法5.1 奥林巴斯官方软件奥林巴斯官方提供了专业的软件,可以用于解析orf文件、查看图像、进行后期处理等。
核酸序列分析1、核酸序列检索可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。
在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。
如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。
其中“[ac]”是序列接受号的描述字段。
2、核酸序列的基本分析(1)分子质量、碱基组成、碱基分布分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。
如:BioEdit(/BioEdit/bioedit.html),DNAMAN()。
(2)序列变换进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。
这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。
(3)限制性酶切分析该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。
REBASE数据库(,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。
其它资源还有:WebGene:/~tjyin/WebGene/RE.html,/personal/tyin.htmlWebCutter2:http://www//firstmarkert/firstmarket/cutter/cut2.html同时,很多软件也能够识别REBASE限制酶数据库。
强烈推荐使用集成化的软件如BioEdit和DNAMAN等。
所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。
在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。
BioEdit_5.06中⽂使⽤说明书翻译说明1 原英⽂稿中附有许多⽰例如输出窗⼝序列等译⽂⼀般⽤参见英⽂稿表⽰在阅读此段时请参见英⽂中的图⽰对于⼀些较⼩的⽰例如等式的推导译⽂中保留2 原英⽂稿中也给出了许多算法和程序的原始⽂献和⽹址译者认为这是BioEdit的⼀个优点如果想深⼊的学习不能不读⼀读原始的⽂献译⽂中⽤REFERENCE表⽰请参考英⽂原稿3 译⽂中对专业的词汇采⽤以下办法处理即⼀般采⽤国内已有⼈使⽤的译法如果未见到则译者给出⼀种译法并在旁边列出英⽂译⽂中各节的标题都是这样处理的前者如最简单的例⼦Aligment⼀词有⽐对对⽐对排等多种翻译郝柏林院⼠建议译做联配见⽣物信息学⼿册p175⽅⾈⼦译做排列对⽐见新语丝⽹页本译⽂采⽤联配的译法后者如mask⼀词⽂中专门有⼀节解释其含义此词的普通含义有⾯具遮饰译⽂中使⽤屏蔽并在旁边写mask总之此类词汇使⽤多了⾃然明了其内在的含义4 偶尔译者会对某处略做解释旁边⽤译者注表⽰表⽰译者的理解请注意5 翻译时在词汇的翻译和算法的理解上参考了以下资料A ⽣物信息学⼿册郝柏林等著上海科学技术出版社 2000年B ⽣物信息学基因和蛋⽩质分析的实⽤指南 Andreas D.Baxebanis等原著李衍达等译清华⼤学出版社 2000年6 由于译者占有的资料不多⽔平有限在译⽂中肯定有漏译译的不全⾯甚⾄理解完全错误的地⽅(尤其是算法上)敬请指正关于BioEdit介绍BioEdit版本5.0.6版权?1997-2001汤姆霍尔当前版本制作于2001.12.2BioEdit是⼀个⽣物序列编辑器可在Windows 95/98/NT/2000中运⾏它的基本功能是提供蛋⽩质核酸序列的编辑排列处理和分析 1.0α版本是最早的未完成的并有瑕疵的版本 1.0α版本也⼀直未完成并有很多问题但是⽐较前⼀个还是增加了⼀点东西修正了⼀些问题在2.0版本中在增加和配置附加分析应⽤程序上增加了⼀个界⾯使其能通过BioEdit得到⼀个图形界⾯⽽且还增加了位置排列的信息基础动态描影版本3中增加了疏⽔亲⽔⾯互交的2-D浮雕数据绘图和⼀些更多的序列操作法版本4为绘制和注解质粒载体增加了⼀个图形界⾯在4.7.1版本中修改了处理序列信息和存储⽅法⽽且增加了⼀个⼆进制⽂件格式允许快速保存和打开⼤的排列序列容量增加到20,000在版本5中增加了⾃动注解序列或⼿动使⽤所有的标准Genbank功能部件定义⽽且在Isis Pharmaceuticals公司的请求下增加了序列排序和分型组控制注解⾏以及残基和⾮残基字符的鉴别BioEdit并不打算成为⼀个强序列分析程序但是打算成为⼀个序列分析的友好⽤户界⾯并连接其他在局域⽹和万维⽹上的更多的序列分析程序它现在使⽤于⼤的排列>2000序列⽂件界⾯最初模仿于⼀个⾮常好的程序――Don Gilbert 编写的SeqApp and SeqPup印地安那州⼤学免费提供SeqApp (⽤于个⼈计算机) and SeqPup (⽤于交换平台)地址是ftp:///doc/8f7d638d84868762caaed50f.html /molbio/seqpup/GeneDoc是⼀个特别的排列程序能够⾃由的在Windows 9x 和NT上使⽤也是⼀个⾮常专业的程序有很好的蛋⽩质排列注解和分析描影和结构定义功能部件就象⼀个反映排列的内在的进化树⽽这些在BioEdit中是没有的GeneDoc的⽹址是/doc/8f7d638d84868762caaed50f.html /biomed/genedocGeneDoc有⽐BioEdit更好的描影和分类选项有助于⼿⼯排列序列还有更好的图形处理缠绕和伸展的排列视图选项动态共有序列和更平滑和更快速的排列卷曲和刷新BioEdit是⽤Borland's C++ Builder编写的C++程序我是北卡罗来纳州⼤学微⽣物系的研究⽣不是专业的程序员这是我学习C++语⾔的⼊门必然是个⾮专业的设计这不是我博⼠⼯作的⼀部分这个程序⾮常⼩⽽且很有效率BioEdit为序列排列输出和⼀些分析提供容易的⼯具BioEdit功能BioEdit的主要⽬的是为那些不愿意被迫详细了解⼀个程序的使⽤⽅法的⽣物学家提供⼀个有⽤的⼯具BioEdit是直观的菜单式的并有⼤量的图⽰提供⽤户⼀个外部分析程序的图形界⾯主要功能是提供明显的容易使⽤的菜单选项5.0.6版本提供以下功能⽤于序列处理和编辑的简单的图形界⾯使⽤编辑选项包括残基的select and drag选择和拖动和grab and drag抓取和拖动变量选择选项⿏标点击插⼊和删除缺⼝全框选择全屏编辑中剪切复制和粘贴编辑窗⼝的⾃动刷新固定序列框保护排列中的固定残基使⽤各种功能部件内含⼦外显⼦促进⼦CDS和所有标准GenBank功能部件类型⾃动的和⼿动的注解序列使⽤⼀个模板序列⾃动注解同⼀排列中的其他序列序列分组分为各个颜⾊编码家族为同步⼿动排列锁定组成员⽤户定义的适当功能部件能够设定考虑任何功能部件就像⽤于类似性描影序列同⼀性矩阵和保存图表视图的核酸或氨基酸序列中的相关碱基⽤户定义的基序搜索使⽤标准的Prosite命名法和IUPAC功能部件允许搜索核酸或氨基酸序列还有精确的⽂本搜索包括或忽略缺⼝程序⾏可以定义为DNA RNA核酸蛋⽩质未定义或注解注解可以⽤于保存普通的注释或东西就象⼆级结构模糊定义但是不能保存计算根本的多基因树图阅读器⽀持节点翻转和打印链接多基因树图到排列并保存到BioEdit格式排列⽂件在⼀个排列末端添加另⼀个排列配置附件应⽤程序界⾯进⼊⼀个有BioEdit产⽣的图形界⾯的外部分析程序在外部应⽤程序中⾃动提供信息和找回⽂件外部应⽤程序进⼊分开的调度单位允许同步应⽤BioEdit外部程序的输出⽂件可以⾃动被其他程序打开在ABI⾃动序列模型3773733700中显⽰打印和编辑ABI痕迹⽂件在版本2和3中有SCF⽂件就象⽤Licor序列输出⽂件RNA⽐较分析⼯具包括共变可能配对和互交信息分析使⽤⿏标指⽰的动态数据视图的互交信息输出2D矩阵图表关于互交信息矩阵⾏和框的互交式的1D图表⽤BioEdit或GanBank格式保存序列注解信息通过氨基酸翻译排列蛋⽩质编码核酸序列在排列中搜索保存的残基寻找好的PCR⽬标或帮助定义基序在核酸或蛋⽩质序列中搜索⽤户定义的基序或⽤通配符搜索精确的⽂本并选择包括或忽略缺⼝⽤⽀持最多20,000序列每个⽂档进⾏循环存储器分配最多可以成功测定四百六⼗万个碱基 E. coli基因组核糖体数据库中的原核细胞16SRNA排列29 Mb, 6205个序列将会被单独处理在配置为Pentium 233 Mhz80 Mb RAM的计算机中⽤BioEdit计划⽂件格式最多只需要10秒种可以写⼊⼀个16S RNA排列内部的读写GenBank Fasta Phylip和NBRF/PIR⽂件⽤Don Gilbert’s ReadSeq导⼊输出⼀些其他格式的⽂件使⽤BioEdit计划⽂件格式快速读写⼤排列⽂件使⽤⾃动更新的排列蛋⽩质全标题和GenBank区域信息进⾏ClustalW多序列排列Des Higgins et. al.编写的内部界⾯外部程序就象排列来⾃于核苷酸序列的蛋⽩质视图时的核苷酸编码序列将残基块状复制到剪贴板允许将全不排列或部分排列粘贴到⽂字处理器基本序列处理在⽂档之间复制粘贴序列翻译和还原编码RNA?DNA?RNA反转互补⼤写字母⼩写字母多⽂档界⾯最多同时打开20个⽂档但是在其他打开的窗⼝不能设置限制六框翻译核酸序列为Fasta格式ORF表⽤⽮量图进⾏半⾃动质粒⽮量绘图和注解⾃动酶切位点和位置标记⾃动多接头视图和⽤户控制绘图⼯具将质粒⽂件保存为可编辑的⽮量图形⽂件如位图复制到其他图形程序并可以打印氨基酸和核苷酸成分摘要和图表Revert to Saved恢复保存和undo撤销功能编辑氨基酸和核酸序列简单的指定⾊彩表编辑蛋⽩质和核酸序列使⽤不同的⾊彩表排列易感的描影法以信息为根据其中包括排列位置BioEdit 能够读写GenBank, Fasta, NBRF/PIR, Phylip 3.2 和 Phylip 4格式能够读ClustalW 和 GCG格式.10个附加格式的导⼊输出过滤器使⽤Don Gilbert的ReadSeq导⼊/添加⼀个⽂件到最后的另⼀个⽂件上(不考虑⽂件格式)基本的多⽂本编辑器限制性内切酶图谱⽤于任何或所有形式的翻译复酶和输出选项包括酶的提供者和环状DNA选项游览限制性内切酶创造商⾃动连接到你喜欢的⽹页游览器如Netscape或Internet Explorer程序和程序组的概述BioEdit是⽤Borland C++ Builder 3.0编写的(开始时是⽤C++ Builder 1.0)这是曾经是Borland公司的最新C++产品它结合了Borland C++ 5和Delphi的可视要素库VCL允许⽤户界⾯的可视开发使⽤快速申请开发RAD环境的好处在于它能够容易的创造出⼤量的图形界⾯它的缺点是编码不轻便BioEdit只能在Windows 95, 98, NT and 2000中使⽤我原来计划可以使BioEdit在Win16使⽤但是⾃从Windows 3.x过时了以后我就不再计划这样做了组织BioEdit当前⽀持同时编辑最多50个⽂件主要的控制形式包括打开⽂件的菜单创建新⽂档调整球形选项如⾊彩表密码⼦表分析参数选择和⼀个窗⼝管理器最初每个⽂档有它⾃⼰的整套处理菜单可以限制⽂档然⽽这被⼀个更传统的多⽂档界⾯所替代BioEdit没有使⽤额外的物理存储器除⾮编辑⼤的排列但是它看起来像占⽤了很多资源BioEdit每个⽂档最多可以有20,000个序列但在序列⼤⼩上没有限制在80MbRAM的233MHz的个⼈计算机上可以很好的处理⼀个来⾃于核糖体数据库的完整的原核16S rRNA排列6205个序列每⼀个有3319个字符⼀旦⽤BioEdit格式保存这个⽂件可以在⼏秒钟打开⽤GenBank格式要⼏分钟才能打开程序⽂件(BioEdit.exe)可以在主安装⽬录中找到可能还有以下⼦⽬录apps附件程序⽹页和⽹页书签通常以下⽂件会出现在apps⽂件夹按名称排列accApp.ini (在⾸次安装时为accApp.def)Bblast.htmlBioEdit.htmlblast_adv.gifblast_form_0.gifblastall.exe (在没有BLAST的版本中不出现)blastcl3.exe (在没有BLAST的版本中不出现) blast.txt bookmark.txtcap.doccap.execlear_inp.gifclustalw.execlustalw.txtcutter.htmlDnadist.docDnadist.exeDnamlk.docDnamlk.exeDos4gw.exe (PHYLIP 程序需要)Expasy.giffastDNAml.docfastdnaml.exeFitch.docFitch.exeformatdb.exe (在没有BLAST的版本中不出现) IdPlot.exe isrecsmall.gifKitsch.docKitsch.exemod_ad.gifmod_submit.gifnnpredict.htmlPFSCAN_form.htmlphi_blast.gifPHIBlast.htmlPhylip.mapProtdist.docProtdist.exeProtpars.docProtpars.exepsi_blast.gifPSIBlast.htmlReadseq.exeReadSeq.txtscnpsit1.htmlSiblogo.gifsmweb.gifdatabase (是局部的BLAST数据库安装的版本必须有BLAST⼯具). BioEdit (全版本) 有以下⽂件在database⽂件夹Ecoli.phrEcoli.pinEcoli.psqEcoli_ORFs.txt (E. coli 开放读码框架的⽂本⽂件).help/doc/8f7d638d84868762caaed50f.html t BioEdit.GID (不是安装来的出现在帮助⽂件第⼀次使⽤后) Bioedit.hlptablesBlosum62codon.tabcolor.tabdayhoffdefcolor.tabenzyme.tabGc.valgonnetmatchPam120Pam250Pam40Pam80Seqcode.val安装⽂件夹通常包括以下⽂件_deisreg.isr (安装相关⽂件)_isreg32.dll (安装相关⽂件)BioEdit.exe (BioEdit 执⾏⽂件)DeIsL1.isu (安装相关⽂件)RNaseP_prot.gb (蛋⽩质排列⽰例)RNaseP_prot_genes.gb (DNA排列⽰例)RNaseP_RNA.gb (RNA排列⽰例)PBSSK_plus.pmd (质粒绘图⽰例)bacterio.gb (附带GenBank 信息的蛋⽩质排列⽰例)bacterio.bio (附带GenBank信息图式注解记号标记和序列族的BioEdit⽂件⽰例) YopD.gb (附带GenBank信息的另⼀个⽰例⽂件)TreeView.zip (Roderic D.M. Page编写的极好的系统进化树阅读器完全安装才有) TreeView.txt (记录TreeView的安装信息和配置BioEdit与tree-generating附件的连接)license.txt (BioEdit 许可证协议)ReadMe.txt (总说明)重要的是⽂件夹和⽂件的名字不能更改如果更改了BioEdit将不能正确安装将会有⼀个BioEdit.ini⽂件出现在你的Windows主⽬录下它包含BioEdit的初始化默认值和参数选择虽然这个⽂件可以⼿动编辑但是我们推荐不要编辑和⼿动编辑这个⽂件当前被⽀持功能部件和已知问题的列表请看BioEdit的功能和已知问题局限性已知问题和局限性BioEdit想要成为⼀个处理个别简单序列的多⽤途界⾯带有适合于⾃动化多重排列选项的综合序列排列最佳成对排列并且着重于使⼿⼯排列更容易随着时间的推移增加了⼀些附件的功能质粒绘图限制性内切酶图谱ABI和SCF查阅RNA⽐较分析和其他功能中的图式注解然⽽常⽤的查找功能特殊化分析如蛋⽩质⼆级结构三级结构的预测RNA结构的热动⼒学预测排列性质的统计学分析序列模式的概率或神经⽹络模型排列和结构的预测不包括在这个程序之内虽然⽤户可以配置命令⾏附件应⽤软件有程序链接连到ClustalW局域BLAST和BLAST client 3但是在ClustalW程序或BLAST 程序升级后不能保证这些链接正确⼯作虽然在BioEdit安装程序中提供的局域BLAST和Clustal程序将会继续⼯作但在下⼀次NCBI决定改变它的委托⼈时BLAST client 3将不能正常⼯作我也不再⼀直⽀持这个程序源代码将在稍后提供下载但是会有⼀些紊乱没有很好注释限制于Borland C++ Builder这是我毫⽆疑惑的发布源代码的原因同样⾃动⽹页链接为⽹页如BLAST PSI-BLAST PROSITE轮廓扫描⽹页提供⼀个选择序列它们的⼯作依赖于⽹页的局域HTML模板BioEdit编辑的资源包括查询⽂本区域的选择序列因为万维⽹的⾼度易变性这些也许不能长时间正常⼯作如果⼀些地址变化或者HTML界⾯充分改变这些将不再能正确⼯作它们可能可以在BioEdit/apps⽂件夹中局部的被新的同名更新⽹页所替代但是它们是否能正常⼯作将依赖于⽹页中必需的URL定位是否被指定为绝对路径或相对路径它们是否依赖于局域CGI或Java 程序和其他潜在的问题想要配置命名⾏分析程序的界⾯很好的⼯作可能不需要复杂的scripting语⾔然⽽因为这个界⾯及其选项的静态特点可能有程序不能正确的通过BioEdit运⾏虽然绝⼤多数接受命令⾏的程序可以被设置总之许多⼈可能宁愿为了更好的控制选项⽽从命令⾏运⾏程序BioEidt可以很好显⽰合适⼤⼩的排列然⽽对于⼀次打开的排列⽂档数量有限制同样⼀个单⼀排列中的序列数量也有限制现在最多⼀次打开50个排列⽂档⼀个排列中的最多序列数是20,000序列数量的限制和序列长度是⽆关的排列的绝对⼤⼩是有效的系统内存决定的如果⽂档在系统中全部进⼊虚拟内存编辑将会变得很慢如果排列中有⼏千个rRNA基因或者全部基因组的序列列表在Win95/98或NT系统中⾄少需要64到128Mb的内存在Win2000系统中⾄少需要128Mb内存在排列矩阵N× M > 40,000,000 (N = 序列数M=最长序列长度)时Undo撤消选项⾃动失效BioEdit是由Borland C++ Builder编写的是100% Windows基础它是不可移植的因为这个程序的⼤部分是图形界⾯在UNIX或Mac中可能不好使⽤BioEdit使⽤⼿册序列编辑处理⼿⼯序列排列下⾯是基本的BioEdit排列⽂档窗⼝如果你不喜欢现在的样⼦不要当⼼字体⼤⼩背景颜⾊残基颜⾊和标题窗⼝宽度都可以改变⿏标箭头右下⽅的黄⾊条幅显⽰的是当前序列的绝对位置这同样显⽰在控制栏的Position标题选择关闭黄⾊条幅就进⼊View->show sequence position by mouse arrow总的⼿⼯排序功能是在编辑窗⼝有三个可应⽤的基本模式选项可在Sequence->Edit Mode中找到Select / Slide mode(选择/调整模式)⽤⿏标左键选择框住的残基⽤⿏标来回的拖动选择默认值是朝你滑动的⽅向忽略unlocked gaps并在所选择的另⼀边开启新的unlockedgaps为了移动所选择的全部序列的下游不管缺⼝在移动时按住shift键你也可以在按钮板上切换合适的按钮见后改变默认值为移动所选择的全部序列的下游选定选项后在滑动时⽤shift键忽略unlocked gaps⽤shift键选择所有在现在选定的和新选择的残基CTRL键可以在当前选择上增加⼀个新的选择例如你也许想在三个互不相连的序列中选择残基Edit mode编辑模式在编辑残基模式中你可以在⽂档的任何位置除了标题放置任何类型的光标⽤箭头你可以在序列中⾛来⾛去编辑有两种形式插⼊和改写当编辑器在编辑模式可以看见在编辑模式的下拉菜单中有⼀个选项在其它两个排列模式,这个选项不会出现.Grab & Drag mode(抓取/拖动模式)从mode⽬录中选择Grab & Drag或者切换G/D按钮见后你可以从屏幕上动态的抓取和拖动单个残基⽤shift键移动整个残基序列的下游或者在按钮板上切换成合适的按钮――见后Grouping of sequences序列分组Sequences may be grouped into groups (or"families").序列可以进⾏分组或分成家族⼀个组的序列排列可以相互锁定意味着⼿动调节⽤可调整的残基插⼊或和删除缺⼝将⾃动同步调节⼀个锁定的组This only applies to sliding resides (Select / slide mode or Grab & Drag mode), not to single insertions and deletions of gaps with right mouse clicks. For information on grouping sequences and locking the alignment of groups of sequences, see grouping sequences.这只适合于可调整的残基Select / slide mode或Grab & Drag mode不能⽤⿏标右键进⾏单个缺⼝的插⼊和删除想了解有关序列分组和其排列锁定的信息看grouping sequences⼯具条 / 加速按钮锁定和开启全部序列的所有缺⼝当打开⼀个排列这个按钮是在开启状态但是缺⼝是现在的虽然它们过去被保存在这个按钮被按下去后才能进⾏改变为了开启当前序列的所有缺⼝你必须按这个按钮两次进⾏切换到这个状态第⼀状态是锁定所有缺⼝上个按钮的锁定状态按下这个按钮可以⽤⿏标右键插⼊单个缺⼝⽤⿏标右键删除缺⼝在所有序列中插⼊缺⼝除了在⽤⿏标右键点击这个按钮的位置在所有序列中插⼊缺⼝除了在⽤⿏标右键点击这个按钮的位置在选择位置没有缺⼝的序列将不会改变但是有这个按钮在那⼉缺⼝将始终被删除转换⿏标左键和右键的默认值功能切换Grab & Drag模式按下这个按钮可调整残基的默认值是忽略或扩展到下游缺⼝使⽤shift键可以调整转换这个功能按下这个按钮可调整残基的默认值是移动全部所选序列的下游胜过忽略或扩展到下游缺⼝使⽤shift键可以调整转换这个功能普通视图模式当序列颜⾊显⽰时残基根据当前的⾊彩表着⾊这个选项⽤于序列是单⾊视图时所有其他视图覆盖单⾊视图反转颜⾊视图模式背景栏根据每⼀个残基的⾊彩表描影残基的颜⾊是它们普通颜⾊的反转排列的强度――残基根据每⼀栏的信息内容灰度描影残基背景根据每⼀栏的信息内容描影把⽂档窗⼝中⼀致的和类似的残基描影按下这个按钮控制条上将会出现⼀个下拉菜单可以控制隐藏的百分⽐开端蛋⽩质排列的类似性隐藏的矩阵⽂件可以在Alignment->Similarity Matrix菜单中详细说明绘出功能部件其上有层次的序列只绘出功能部件没有序列根据当前的⾊彩表序列彩⾊视图根据当前选择的序列颜⾊序列单⾊视图只⽤于normal view按钮也被按下⽤⼀个字符默认值是.显⽰序列的同⼀性默认值是top.如果按下前⼀个按钮这个下拉菜单能够选择标记同⼀性的字符显⽰或隐藏交互信息检查器只⽤于RNA分析引出⾊彩表编辑对话窗切换ignore anchor points模式如果这个按钮没有按下固定栏限制排列的范围按下这个按钮固定栏被忽视卷屏速度控制器控制⽔平卷屏条卷屏是因残基增加增加或移去位置标记旗增加或移去⼀个栏的固定点在编辑盒中编辑在⼀个⽂本窗⼝中进⾏⼀个序列主要的编辑会⼗分⽅便为⼀个序列开启⼀个编辑窗⼝双击序列的标题或选中序列并从Sequence菜单中选择Edit Sequence为了使改变⽣效必须按下Apply或Apply and Close按钮取消将不会改变序列在⼀个序列第⼀次编辑时将会出现下⾯的窗⼝在Sequence Type下拉菜单中下列选项是可⽤的如果⼀个序列是未知的蛋⽩质⾊彩表通常是彩⾊的就像⼀个已经经过类似性底纹处理的蛋⽩质序列可以保留⼀个关于排列的每⼀⾏的屏幕信息的注解但是不能计算类似性和同⼀性不服从标准的处理如翻译互补⾃动排列等在单个序列编辑器中你可以⽤lock sequence选项选择锁定任何序列应⽤这个选项时selecting/dragging或抓取和拖动将不能使⽤但是⽤⿏标右键增加或删除缺⼝始终可以使⽤按下按钮可以展开窗⼝看相关的GenBank的信息窗⼝扩展如下按钮可以⽤于提出在⼤的编辑窗⼝中的相关领域**注意GenBank信息将只能⽤GenBank或BioEdit格式保存***注意GenBank信息包括功能部件领域是内部独⽴于⽤户定义的图⽰注解窗⼝隐藏⼀个⽂档可以进⾏窗⼝隐藏就是双击窗⼝的标题栏可以隐藏标题栏再次双击可以使其变回原来的⼤⼩它也可以最⼩化和最⼤化增加⼀个新序列通过以下⽅式增加新序列1.在Sequence菜单下选择New Sequence选项序列可以像原始⽂本⼀样被键⼊或复制进序列窗⼝按下Apply按钮可以在⽂档中增加序列2.通过Edit菜单的Copy Sequence(s)和Paste Sequence(s)命令复制或粘贴来⾃其他BioEdit⽂档的序列同样也可以使⽤当前菜单快捷键(默认值Ctrl+F8复制Ctrl+F9粘贴)全屏编辑序列可以在全屏编辑就像在⼀个⽂字处理器上⼀样必须⾸先设定Mode选项为Edit Residues(BioEdit在安装后默认模式为Slide Residue)在编辑模式下你可以使⽤箭头在屏幕上移动输⼊像在⽂本编辑器中⼀样编辑有两种选项插⼊模式和改写模式它们类似于在⽂字编辑器中的功能选择序列点击序列的标题可以选中序列拖划出⼀个⽅框可以选中多个序列或⽤shift键选择两个选择序列之间的所有序列⽤Ctrl键加⿏标可以分别选择标题或给选中的序列加上详细的标题双击标题将会打开⼀个单序列编辑器再次点击原先选中的标题使其进⼊全屏编辑模式你可以编辑标题后按下< return >或点击序列标题板的任何位置使对标题的改动⽣效移动序列想移动⼀个序列(或⼀些序列)选中它(⽤⿏标左键点击它的标题使其变亮)把它拖放到你想要的位置Cut Copy Paste剪切复制粘贴Copy复制编辑窗⼝的⽂本(序列残基)⽤⿏标选择⽂本并从Edit菜单选择Copy不像⽂字编辑器你可以复制你想选择的区域⽽不是复制⽂本的全部⾏这种⽅式复制的区域可以粘贴在任何能够进⾏⽂本编辑的程序中如果只是如果你没有选中在全部序列中任何残基序列的标题将会以BioEdit序列结构形式复制到BioEdit的剪贴板在选择Paste Sequence(s)时全部序列将会被粘贴到⽂档全部序列⽤⿏标选择序列标题并从Edit菜单选择Copy Sequence(s)标题被选中的序列将以Fasta格式被复制到Windows剪贴板多于⼀个被选中的序列将以Fasta序列⽬录的形式复制到剪贴板中并在BioEdit内部复制成⼀组全部BioEdit序列结构能够被粘贴在任何BioEdit⽂档中注意BioEdit剪贴板中包括所有序列相关数据Genbank信息图⽰注解是在BioEdit 同⼀步骤的内部它们不能在独⽴的步骤之间转移为了在BioEdit排列⽂档之间复制序列必须确定两个⽂档是在程序的同⼀步骤打开的只有Fasta格式的序列可以被复制到普通的Windows剪贴板Paste粘贴在编辑窗中的⽂本为了把⼀个序列粘贴⼊主编辑窗界⾯必须是Edit Residues模式见全屏编辑如果⽂本的⼀个区域被粘贴到⼀个序列只有第⼀⾏⽤回车键定义将会被粘贴这避免了在粘贴⽂本进⼊序列时可能出现的问题也避免了不注意的使错误的序列在其下为了把⽂本的⽚段粘贴到排列的⼀个区域⽚段必须⼀次⼀个的粘贴进序列如果⽂档在Slide Residues或Grab and Drag模式Paste粘贴的功能将会和Paste Sequence(s)粘贴序列的功能⼀样见后全部序列从⽂档菜单到粘贴序列从Edit菜单中选择Paste Sequence(s)序列将会增加到⽂档的最后它们可以移动到⽂档的任何位置Cut剪切和Cut Sequence(s)剪切序列就象Copy复制和CopySequences复制序列⼀样但是其功能是从⽂档中删除复制的信息然⽽只有在Edit Residues模式下残基才能从⽂档中删除同样当在没有选中任何残基的情况下使⽤剪切功能时标题被选中的序列将以Fasta格式被复制到Windows剪贴板并以序列结构的形式复制到BioEdit剪贴板中但是它们不能从⽂档中删除为了适当的从⽂档中剪切序列可以选择Cut Sequence(s)Minimizing an Alignment排列的最⼩化当⼀个排列⼿⼯处理时当序列定期的增加并⼿⼯排列到⼀个现有的排列中缺⼝经常导致⼀个专栏出现在每⼀个序列中为了在不改变现有排列的情况下移动缺⼝选择Minimize AlignmentBasic Manipulations / Sequence Menu基本处理序列菜单⼀些简单的序列处理可以通过BioEdit的⼀个菜单选项⾃动完成这些选项在Sequence中在BioEdit中Masks屏蔽在这⼀点上有⼀点薄弱主要⽤于RNA⽐较分析功能关于在BioEdit中如果使⽤屏蔽看Masks锁定和开启缺⼝当残基在序列中滑动时⼀个锁定的缺⼝将不能被压缩为了锁定缺⼝选择想要锁定的缺⼝后选择Lock Gaps想要锁定序列中的所有缺⼝选择序列的标题后选择Lock Gaps想要锁定⼀个排列中的缺⼝切换lock/unlock按钮进⼊锁定状态开启的缺⼝就是锁定状态的相反想要开启⼀个排列中的所有缺⼝切换lock/unlock按钮进⼊开启状态Degap选项可以移动所有开启的缺⼝它也可以移动被选中标题的序列中的所有开启的缺⼝注意和.表⽰开启的缺⼝表⽰锁定的缺⼝这个惯例⽤于BioEdit中每⼀个窗⼝和功能如果⼀个句点没有经过BioEdit加上的缺⼝特点但也有⼀种加⼯过的缺⼝类型为了程序的可计算性宁愿使⽤BioEdit中的缺⼝特点同样⼀些程序可能使⽤⼀个句点去表⽰排列位置中没有残基或缺⼝但是只是在序列的开始或结尾BioEdit不直接注意这种差别序列⾏之前或之后的位置被加⼯成缺⼝⽽且BioEdit假定每⼀个排列包含有真正的同源序列尽管BioEdit也被设计成允许⽤户忽视程序的排列中⼼并只使⽤它处理序列的数据Sequence Menu序列菜单(不包括mask功能)New Sequence新序列创造新序列开启⼀个单⼀序列编辑器。