常用生物数据库 外显子、内含子、mRNA、CDS
- 格式:doc
- 大小:31.50 KB
- 文档页数:4
生物学数据库生物学数据库是存储和管理生物学数据的系统,可以帮助科研人员和学生在生物学领域的研究中获取和分析大量的生物学数据。
随着生物学研究的不断发展和进步,生物学数据库在科学研究中发挥着重要的作用。
本文将介绍生物学数据库的定义、分类、应用以及未来的发展前景。
一、定义生物学数据库是指用于收集、存储、管理和处理生物学数据的电子化系统。
生物学数据可以包括基因组序列、蛋白质结构、代谢途径等各种不同类型的数据。
通过生物学数据库,科研人员可以方便地访问和查询大量的生物学数据,为生物学研究提供了重要的数据支持。
二、分类生物学数据库根据数据类型和应用领域的不同,可以分为不同的分类。
以下是几种常见的生物学数据库分类:1. 基因组数据库:存储和管理各种生物体的基因组序列数据,如NCBI(美国国家生物技术信息中心)的GenBank数据库。
2. 蛋白质数据库:存储和管理蛋白质序列、结构和功能等相关信息的数据库,如PDB(蛋白质数据银行)。
3. 代谢数据库:存储和管理生物体的代谢途径和代谢产物等相关数据的数据库,如KEGG(京都基因与基因组百科全书)数据库。
4. 基因调控数据库:存储和管理基因表达调控相关数据的数据库,如ENCODE(人类基因组的功能元件)数据库。
5. 生物图谱数据库:存储和管理植物和动物生物图谱数据的数据库,如PlantGDB(植物基因数据库)和AnimalTFDB(动物转录因子数据库)。
三、应用生物学数据库在生物学研究中有着广泛的应用。
以下是一些常见的应用领域:1. 基因组学研究:通过基因组数据库,研究人员可以分析不同生物体的基因组序列,并进行基因组比较、基因功能预测等研究。
2. 蛋白质学研究:蛋白质数据库可以帮助研究人员了解蛋白质的序列、结构和功能等信息,以及进行蛋白质互作网络分析等研究。
3. 基因调控研究:基因调控数据库可以帮助研究人员预测和分析基因的转录调控网络,并研究基因的表达调控机制。
4. 代谢途径研究:通过代谢数据库,研究人员可以了解生物体的代谢途径和代谢产物,并分析代谢途径的调控机制等。
生物信息学数据库分类整理汇总生物信息学数据库是存储和管理生物学领域的大量数据的重要工具和资源,对于生物信息学研究、基因组学、蛋白质组学、转录组学等领域的研究具有重要的意义。
本文将对生物信息学数据库进行分类整理和汇总,方便生物信息学研究者更好地使用和了解这些数据库。
1.基因组数据库:- GenBank:美国国家生物技术信息中心(NCBI)维护的基因序列数据库,包含已知基因的核酸序列。
- Ensembl:英国恩格斯尔基因组项目维护的一个综合性基因组数据库,包含多种物种的基因组数据。
- UCSC Genome Browser:加利福尼亚大学圣克鲁兹分校开发的一个基因组浏览器,提供多种物种的基因组序列和注释信息。
2.蛋白质数据库:- UniProt:一个综合性的蛋白质数据库,集成了多个蛋白质序列和注释信息资源。
- Protein Data Bank (PDB):存储大量已解析的蛋白质结构数据的数据库,提供原子级别的结构信息。
- Protein Information Resource (PIR):收集和整理蛋白质序列、结构和功能信息的数据库。
3.转录组数据库:- NCBI Gene Expression Omnibus (GEO):存储和共享大量的高通量基因表达数据的数据库。
- ArrayExpress:欧洲生物信息学研究所(EBI)开发的一个基因表达数据库,包含多种生物组织和疾病的表达数据。
4.疾病数据库:- Online Mendelian Inheritance in Man (OMIM):记录人类遗传疾病和相关基因的数据库。
- Orphanet:收集和整理罕见疾病和相关基因的数据库。
5.代谢组数据库:- Human Metabolome Database (HMDB):一个综合性的人类代谢物数据库,包括代谢产物的结构和功能信息。
- Kyoto Encyclopedia of Genes and Genomes (KEGG):包含多种生物体代谢途径的数据库。
编码区和非编码区和内含子外显子我们都知道不论真核与原核生物都离不开基因,它储存着生长、发育、凋亡等几乎全部生命过程的信息。
那么基因有着哪些结构呢,接下来从三个层面来讨论基因的构成:一、DNA编码区Coding region基因在结构上,分为编码区和非编码区两部分。
真核生物的编码区是不连续的,分为外显子和内含子,在转录过程中会修剪内含子,并拼合外显子来形成转录产物。
在原核生物中,基因是连续的,也就是说无外显子和内含子之分。
外显子Exon外显子是在preRNA 经过剪切或修饰后,被保留的DNA部分,并最终出现在成熟RNA的基因序列中。
内含子Intron在真核生物中,内含子作为阻断基因的线性表达的一段DNA序列,是在preRNA 经过剪切或修饰后,被切除的DNA序列非编码区Non-coding region非编码区在对基因的表达调控中发挥重要作用,如启动子,增强子,终止子等都位于该区域,有意思的是在人类基因中非编码区的占比超过90%。
它们中的一部分可以转录为功能性RNA,比如tRNA(transfer RNA), rRNA(ribosomal RNA)等;可以作为DNA复制,转录起始来对复制,转录和翻译起到调控作用;也可能是着丝粒与端粒的重要组成部分。
启动子Promoter启动子是特定基因转录的DNA区域,启动子一般位于基因的转录起始位点,5‘端上游,启动子长约100-1000bp。
在转录过程中,RNA聚合酶与转录因子可以识别并特异性结合到启动子特有的DNA序列(一般为保守序列),从而启动转录。
启动子本身并不转录而且也不控制基因活动,而是通过转录因子结合来调控转录过程。
在细胞核中,似乎启动子优先分布在染色体区域的边缘,可能是在不同染色体上共同表达基因。
此外,在人类中,启动子显示出每个染色体特有的某些结构特征。
CAAT Box 与Sextama boxCCAAT box(有时也缩写为CAAT box或CAT box):具有GGCCAATCT 共有序列的不同核苷酸序列,是真核生物基因常有的调节区,位于转录起始点上游约-80bp处,可能也是RNA聚合酶的一个结合处,控制着转录起始的频率。
本卷的答案仅做参考,如有疑问欢迎提出。
后面的补充复习题要靠你们自己整理答案了。
生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。
2、表达序列标签是从mRNA 中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因。
3、序列比对的基本思想,是找出检测基因和目标序列的相似性,就是通过在序列中插入空位的方法使所比较的序列长度达到一致。
比对的数学模型大体分为两类,分别是整体比对和局部比对。
4、2-DE的基本原理是根据蛋白质等电点和分子量不同,进行两次电泳将之分离。
第一向是等电聚焦分离,第二向是SDS-PAGE分离。
5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。
二、判断题1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C值越大,这是真核生物基因组的特点之一。
(对)2、CDS一定就是ORF。
(对)3、两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源,就具有共同的祖先。
(错)4、STS,是一段200-300bp的特定DNA序列,它的序列已知,并且在基因组中属于单拷贝。
(对)5、非编码DNA是“垃圾DNA”,不具有任何的分析价值,对于细胞没有多大的作用。
(错)6、基因树和物种树同属于系统树,它们之间可以等同。
(错)7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。
( 对)8、对任意一个DNA序列,在不知道哪一个碱基代表CDS的起始时,可用6框翻译法,获得6个潜在的蛋白质序列。
(对)9、一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。
(对)10、外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以不同。
常用生物数据库核酸序列数据库主要有GenBank, EMBL, DDBJ等.蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。
外显子、内含子、mRNA、CDS1.DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP按照碱基互补配对原则合成新链DNA转录:以DNA为模版,在DNA指导的RNA聚合酶的作用下,将四种游离的NTP按照碱基互补配对的原则合成RNA翻译:以mRNA为模板,在核糖体内合成蛋白质的过程特点:模板特点原料引物DNA复制双链DNA 合成的新链与模板链一模四种dNTP 半保留复制需要一样四种NTP 半不连续转录不需要转录双链DNA 合成的新链除了把DNA上的T改为U外,其他一样翻译mRNA 3个碱基决定一个氨基酸20种游离的氨基酸2.mRNA(messenger RNA,信使RNA)信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。
3. 基因DNA分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。
编码区则转录为mRNA并最终翻译成蛋白质。
外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA进行剪接变为成熟的mRNA 时,内含子被切除,而外显子保留。
实际上真正编码蛋白质的是外显子,而内含子则无编码功能,内含子存在于DNA中,在转录的过程中,DNA上的内含子也会被转录到前体RNA中,但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。
开放阅读框(或开放读码框架,open reading frame,ORF)是DNA上的一段碱基序列,由于拥有特殊的起始密码子和直到可以从该段碱基序列产生合适大小蛋白才出现的终止密码子,该段碱基序列编码一个蛋白。
当一个新基因被识别,其DNA序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。
这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)。
ORF识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。
ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。
An open reading frame (ORF) is a portion of a gene’s sequence that contains a sequence of bases, uninterrupted by stop sequences,that could potentially encode a protein. When a new gene is identified and its DNA sequence deciphered,it is still unclear what its corresponding protein sequence is. This is because, in the absence of any other knowledge, the DNA sequence can be translated or read in six possible reading frames (three for each strand, corresponding to three different start positions for the first codon). ORF identification involves scanning each of the six reading frames and determining which one(s) contains a stretch of DNA sequence bounded by a start and stop codon, yet containing no start or stop codons within it; a sequence meeting these conditions could correspond to the actual single product of the gene. The identification of an ORF provides the first evidence that a new sequence of DNA is part or all of a gene encoding for a particular protein.CDS是Coding sequence的缩写,是编码一段蛋白产物的序列,是结构基因组学术语ORF开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。
Meristem 分生组织Senescence 衰老Putative 推定的Transient 短暂的,路过的Chromatin 核染色质,染色质Precipitation 沉淀物Immunoprecipitation 免疫沉淀反应Motif 基序Modulate 调节,调制Focal adhesion 粘着斑Scaffolding 脚手架支架平台Carboxy 羧基Proliferation 增殖,扩散Osmotic 渗透的Knockout 淘汰的,击倒的,(基因)敲除Vesicle 囊泡Aggregation 聚合聚集Larval幼体的,幼虫的Lethality 杀伤力致命性毁坏性Impediment 阻止,妨碍Truncate 截断的truncated 切去顶端的Screened 筛过的,屏蔽的Flanking sequence 旁侧序列Quantitative 定量的Detectable 可检测的Permissive 许可的自由的Phenotype 表型,表现型Cosegregate (遗传上)共分离Obliterate 消灭,涂去angiosperm n. 被子植物gymnosperm 裸子植物chromoplast 色质体[细胞] 有色体[细胞]chloroplast n. 叶绿粒表达序列标签(expressed sequence tags,ESTs)是指从不同组织来源的cDNA序列。
近年来由此形成的技术路线被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域,并且取得了显著成效。
在通过mRNA差异显示、代表性差异分析等方法获得未知基因的cDNA部分序列后,研究者都迫切希望克隆到其全长cDNA序列,以便对该基因的功能进行研究。
外显子、内含子、mRNA、CDS、ORF区别与联系1、DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP按照碱基互补配对原则合成新链DNA转录:以DNA为模版,在DNA指导的RNA聚合酶的作用下,将四种游离的NTP按照碱基互补配对的原则合成RNA翻译:以mRNA为模板,在核糖体内合成蛋白质的过程特点:DNA复制:模板为双链DNA,合成的新链与模板链一模一样,原料为四种dNTP,为半保留复制,需要引物转录:模板为双链DNA,为半不连续转录需要引物,原料为四种NTP,合成的新链除了把DNA上的T改为U外,其他一样翻译:模板为mRNA,原料为20中游离的氨基酸,3个碱基决定一个氨基酸 2、mRNAmRNA (messenger RNA,信使RNA)信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。
名词解释:1.基因(gene):是贮存遗传信息的核酸(DNA或RNA)片段,包括编码RNA和蛋白质的结构基因以及转录调控序列两部分。
2.结构基因(structural gene):基因中编码RNA或蛋白质的DNA序列。
它们在原核生物中连续排列,在真核生物中则间断排列。
3.断裂基因(split gene):真核生物结构基因,由若干个编码区和非编码区互相间隔开但又连续镶嵌而成,去除非编码区再连接后,可翻译出由连续氨基酸组成的完整蛋白质,这些基因称为断裂基因。
4.外显子(exon):指在真核生物的断裂基因及其成熟RNA中都存在的核酸序列。
5.内含子(intron):指在真核生物的断裂基因及其初级转录产物中出现,但在成熟RNA中被剪接除去的核酸序列。
6.多顺反子RNA(polycistronic/multicistronic RNA):一个RNA分子上包含几个结构基因的转录产物。
原核生物的绝大多数基因和真核生物的个别基因可转录生成多顺反子RNA。
7.单顺反子RNA(monocistronic RNA):一个RNA分子上只包含一个结构基因的转录产物。
真核生物的绝大多数基因和原核生物的个别基因可转录生成单顺反子RNA。
8.核不均一RNA(heterogeneous nuclear RNA, hnRNA):真核细胞mRNA的初级转录物称为hnRNA,也称mRNA前体。
既有外显子也有内含子,分子量大小不均一,经一系列转录后加工变为成熟mRNA。
9.开放阅读框(open reading frame, ORF):开放阅读框指基因中编码蛋白质、多肽链的一段核苷酸序列,或从起始密码子至终止密码子之间的核苷酸序列。
10.密码子(codon):mRNA分子的开放阅读框内从5’到3’方向每3个相邻的核苷酸(碱基)为一组,编码多肽链中的20种氨基酸残基,或者代表翻译起始以及翻译终止信息。
11.反密码子(anticodon):指tRNA分子反密码环中间3个相邻的核苷酸(碱基),它们与mRNA上的三联体密码子互补配对,确保蛋白质合成时氨基酸按照密码子对号入座。
1、DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP按照碱基互补配对原则合成新链DNA转录:以DNA为模版,在DNA指导的RNA聚合酶的作用下,将四种游离的NTP按照碱基互补配对的原则合成RNA翻译:以mRNA为模板,在核糖体内合成蛋白质的过程特点:DNA复制:模板为双链DNA,合成的新链与模板链一模一样,原料为四种dNTP,为半保留复制,需要引物转录:模板为双链DNA,为半不连续转录需要引物,原料为四种NTP,合成的新链除了把DNA上的T改为U外,其他一样翻译:模板为mRNA,原料为20中游离的氨基酸,3个碱基决定一个氨基酸2、mRNAmRNA(messenger RNA,信使RNA)信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。
3、基因DNA分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。
编码区则转录为mRNA并最终翻译成蛋白质。
外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA进行剪接变为成熟的mRNA时,内含子被切除,而外显子保留。
实际上真正编码蛋白质的是外显子,而内含子则无编码功能,内含子存在于DNA中,在转录的过程中,DNA上的内含子也会被转录到前体RNA中,但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。
4、CDSSequence coding for amino acids in protein蛋白质编码区CDS是Codingsequence的缩写,是编码一段蛋白产物的序列,是结构基因组学术语。
与开放读码框ORF的区别开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。
CDS,是编码一段蛋白产物的序列。
cds必定是一个orf。
但也可能包括很多orf。
1、DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP 按照碱基互补配对原则合成新链DNA转录:以DNA为模版,在DNA指导的RNA聚合酶的作用下,将四种游离的NTP 按照碱基互补配对的原则合成RNA翻译:以mRNA为模板,在核糖体内合成蛋白质的过程特点:DNA复制:模板为双链DNA,合成的新链与模板链一模一样,原料为四种dNTP,为半保留复制,需要引物转录:模板为双链DNA,为半不连续转录需要引物,原料为四种NTP,合成的新链除了把DNA上的T改为U外,其他一样翻译:模板为mRNA,原料为20中游离的氨基酸,3个碱基决定一个氨基酸2、mRNAmRNA (messenger RNA,信使RNA)信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。
3、基因DNA分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。
编码区则转录为mRNA并最终翻译成蛋白质。
外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA进行剪接变为成熟的mRNA时,内含子被切除,而外显子保留。
实际上真正编码蛋白质的是外显子,而内含子则无编码功能,内含子存在于DNA中,在转录的过程中,DNA上的内含子也会被转录到前体RNA 中,但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。
4、CDS Sequence coding for amino acids in protein 蛋白质编码区 CDS是Coding sequence的缩写,是编码一段蛋白产物的序列,是结构基因组学术语。
与开放读码框ORF的区别开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。
CDS,是编码一段蛋白产物的序列。
cds必定是一个orf。
基因序列中的一些名词区别在基因与基因工程学习中,经常会出现一些教材中没有详细介绍的名词。
给解题带来困惑。
一、各个名词的逻辑关系二、各个名词的具体解释1、基因分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。
编码区则转录为mRNA并最终由外显子部分翻译成多肽(蛋白质)。
2、内含子(intron)是真核生物细胞DNA中的间插序列。
这些序列被转录在前体RNA中,经过剪接被去除,最终不存在于成熟RNA 分子中。
内含子和外显子的交替排列构成了割裂基因。
在前体RNA 中的内含子常被称作“间插序列”。
在转录后的加工中,它比外显子有更多的突变。
内含子是一段特殊的DNA序列。
3、外显子(expressed region),是真核生物基因的一部分,它在剪接后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。
外显子是最后出现在成熟RNA中的基因序列,又称表达序列。
既存在于最初的转录产物中,也存在于成熟的RNA分子中的核苷酸序列。
通过确定在多种生物中出现的片段来鉴定编码区域,而外显子的保守性可以作为这种鉴定的基础。
4、开放阅读框ORF(open reading frame)它是理论上的蛋白编码区,一般是先在DNA序列中寻找起始密码子(AUG)对应的序列ATG,然后按每3个碱基一组向后延伸,一直到出现终止密码子(UAG、UGA、UAA)对应的序列。
5、CDS(coding sequences)它就是与蛋白序列一一对应的DNA 序列,并且序列中间不存在其他与蛋白无关的序列,和真实情况最接近。
6、UTR(Untranslated Regions)即非翻译区,是信使RNA(mRNA)分子两端的非编码片段。
5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3'-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端。
常用生物信息学数据库生物信息学基础入门第一讲常用生物信息学数据库(1学时)•生物信息学的简介、发展和应用•常用生物信息学数据库的概况•NCBI、UCSC数据库的介绍和使用第二讲癌症相关数据库(1学时)•癌症相关数据库的概况•TCGA数据库的介绍和使用•TCGA数据的下载和解读•TCGA数据的在线分析工具第三讲基因功能富集分析(1学时)•基因本体数据库GO及注释•生物学通路KEGG及注释•基因功能富集分析第四讲基因调节网络分析(1学时)•蛋白互作、转录因子调节关系数据库的介绍和使用•非编码RNA调节网络数据库的介绍和使用•基因网络图的展示、Cytoscape软件的介绍和使用第五讲基于公共数据库进行课题研究的案例分析(1.5学时)•实例讲解GEO数据的下载、处理和分析•实例讲解TCGA数据的下载、处理和分析这节课的主要内容•生物信息学的概念•生物信息学发展的背景•生物信息学的发展阶段•生物信息学的研究领域•常用生物医学数据库•NCBI: Gene、GEO•UCSC: Genome Browser、Table Browser生物信息学的概念生物信息学(bioinformatics),是在生命科学的研究中,利用计算机科学、信息技术、应用数学以及统计学方法对生物信息进行采集、处理、存储、传播、分析和解释的学科。
生物信息学发展的背景•人类基因组计划( human genome project, HGP)是由美国科学家Robert Sinsheimer 于1985年5月率先提出(但是当时美国NIH不感兴趣)。
•经过多位科学家的努力,终于将HGP提上美国政府预算,并于1990年正式启动。
•预计2005年(15年的时间),将人类基因组的DNA序列全部测定,把人体内约2.5万个基因的密码全部解开,同时绘制出人类基因的图谱。
•美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。
•我国于1999年7月加入人类基因组计划,得到完成人类3号染色体短臂上一个约30Mb区域(约3000万个碱基对)的测序任务,该区域约占人类整个基因组的1%,称之为“1%计划”。
基因片段可以根据其功能和结构特点进行分类。
以下是基因片段的几种常见分类:1. 编码区(Coding Region):-外显子(Exon): 在真核生物的基因中,外显子是RNA前体经过剪切或修饰后保留下来的DNA片段,最终参与成熟RNA的编码序列。
外显子是编码蛋白质的部分。
-内含子(Intron): 内含子是真核生物基因中阻断线性表达的DNA序列,在RNA前体的剪切过程中被移除。
内含子不参与编码成熟RNA。
2. 非编码区(Non-coding Region):-这些区域不直接参与蛋白质的编码,但它们在调控基因表达、维持染色体结构等方面发挥重要作用。
非编码RNA(如rRNA、tRNA、miRNA等)也属于非编码区的一部分。
3. 基因序列与非基因序列:-基因序列: 指的是基因组中决定蛋白质或RNA产物的DNA序列,通常以ATG起始密码子开始,以终止密码子结束。
一个可读框(ORF)通常相当于一个基因,但其产物可能尚未被发现或证实。
-非基因序列: 指的是基因组中除了基因之外的所有DNA序列,主要包括基因之间的居间序列。
4. 按功能分类:-结构基因: 编码蛋白质的基因。
-调控基因: 参与调控其他基因表达的基因,如转录因子编码基因。
-管家基因: 在所有细胞中都表达的基因,对维持基本生命活动至关重要。
-奢侈基因: 只在特定细胞或组织中表达的基因。
5. 按位置分类:-染色体基因: 位于染色体上的基因。
-线粒体基因和叶绿体基因: 位于细胞器DNA中的基因。
这些分类方法有助于我们更好地理解基因片段的结构和功能,从而在分子生物学和遗传学研究中发挥重要作用。
习题-翻译Attenuator:衰减子。
存在调节转录的终止的DNA区域,它控制了一些细菌操纵子的表达; 位于启动子和第一个结构基因之间,引起转录的部分终止的序列区段。
C-region:免疫球蛋白轻和重链的恒定区,和T-细胞受体α,β,和γ链;根据特定的链可包括一个或多个外显子。
CAAT-signal:真核生物启动子中CAAT盒。
位于可能参与RNA聚合酶结合的真核生物转录单位的起始点的75bp上游的保守序列的一部分;共有序列=GG(C或T)CAATCT。
CDS:蛋白质编码区,对应于蛋白质中的氨基酸序列的核苷酸的序列(位置包括终止密码子);特征包括氨基酸概念上的翻译。
Conflict:不同测定结果所得差异序列。
D-loop:置换环;线粒体DNA内的一个区域,其中RNA的短的序列与DNA的一条链配对,代替了这一区域的原始配对DNA链;也用于说明在RecA蛋白质催化的反应中,侵入的单链替代双链DNA的一条链的区域D-segment:D-免疫特征区。
免疫球蛋白重链的多变区,和T-细胞受体的β链。
Enhancer:启动子顺式作用增强子,它增强了(一些)真核生物启动子的作用,并能在任一方向和与启动子相关的任何位置处 (上游或下游)起作用。
Exon:编码剪接mRNA部分的基因组区域;可以含有5'UTR,所有CDS,和3'UTR。
GC-signal:真核生物启动子中 GC盒,位于真核生物转录单位起始点上游的保守的富含GC 区域,可以以多重拷贝或任一方向存在;共有序列=GGGCGG。
Gene:基因区域,包括上游启动子、增强子和下游控制区。
INDA:重组引入的插入区。
Intron:内含子区域。
J-segment:J-免疫特征区,免疫球蛋白轻链和重链的连接区段,和T-细胞受体α,β和γ链。
LTR:长终止重复序列。
mat-peptide:成熟的肽或蛋白质的编码序列;翻译后修饰之后成熟的或最终的肽或蛋白质产物的编码序列;位置不包括终止密码子(与相应的CDS不同)。
mRNA序列、cDNA序列、ORF序列、CDS序列、Promoter、STS、ETS(2012-11-24 14:07:15)转载▼标签:分类:科研密码子实际上原核信号也就是杂谈mRNA(messenger RNA)信使RNA,是由编码区(CDS)、上游的5’非编码区和下游3’非编码区组成,真核生物mRNA的5’端带有7-甲基鸟苷-三磷酸帽子结构,3’端有多腺苷酸尾巴,但NCBI中mRNA序列实际上是cDNA序列,即经过反转录得到的与RNA序列互补的DNA序列,一般不包括3’多腺苷酸尾巴。
一个cDNA序列被称为一个转录子,第一个碱基所在的位置为转录起始位点(TSS),cDNA都是由外显子组成,但编码蛋白质的外显子只有一个,即CDS(coding sequence),这段序列也就是一个ORF区,也就是这个cDNA 的ORF序列。
参与特定基因转录及其调控的TSS上游序列称为启动子(Promoter),如原核生物在转录起始位点上游-10有一段TATAAT的保守序列,有助于局部解链,在-35有一段TTGACA序列提供RNA聚合酶识别信号,真核生物上游-25到-30TATA决定起始位点,-75位置CAAT与RNA聚合酶,这些都是启动子,启动子的范围非常大,可以包含转录起始位点上游2000bp,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。
克隆可以简单理解为复制品,例如假设通过提取mRNA,反转录后得到cDNA序列,然后将这段序列转入载体,再通过划线不断的繁殖,就会得到许多装有这段cDNA序列的克隆,实验室为了方便,在给得到的这些克隆起名时,一般会取cDNA序列的名,但实际上在这个克隆里面不仅包括了这个cDNA,还包括了载体的DNA。
STS(sequence-tagged site)序列标记位点,是基因组上定位明确、作为界标并能通过PCR 扩增被唯一操作的短的、单拷贝DNA序列,一般长度为200-500bp,一个DNA序列要成为STS,首先序列必须已知,能用PCR方法检测,第二STS必须在基因组上具有唯一的定位点。
常用生物数据库外显子、内含子、mRNA、CDS常用生物数据库核酸序列数据库主要有GenBank, EMBL, DDBJ等.蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL 等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP 等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。
外显子、内含子、mRNA、CDS1.DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP按照碱基互补配对原则合成新链DNA转录:以DNA为模版,在DNA指导的RNA聚合酶的作用下,将四种游离的NTP按照碱基互补配对的原则合成RNA翻译:以mRNA为模板,在核糖体内合成蛋白质的过程特点:模板特点原料引物DNA复制双链DNA 合成的新链与模板链一模四种dNTP 半保留复制需要一样四种NTP 半不连续转录不需要转录双链DNA 合成的新链除了把DNA上的T改为U外,其他一样翻译mRNA 3个碱基决定一个氨基酸20种游离的氨基酸2.mRNA(messenger RNA,信使RNA)信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。
3. 基因DNA分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。
编码区则转录为mRNA并最终翻译成蛋白质。
外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA 进行剪接变为成熟的mRNA 时,内含子被切除,而外显子保留。
实际上真正编码蛋白质的是外显子,而内含子则无编码功能,内含子存在于DNA中,在转录的过程中,DNA上的内含子也会被转录到前体RNA中,但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。
常用生物数据库
核酸序列数据库主要有GenBank, EMBL, DDBJ等.
蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,
三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,
蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,
文献数据库有Medline, Uncover等。
外显子、内含子、mRNA、CDS
1.DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP按照碱基互补配对原则合成新链DNA
转录:以DNA为模版,在DNA指导的RNA聚合酶的作用下,将四种游离的NTP按照碱基互补配对的原则合成RNA
翻译:以mRNA为模板,在核糖体内合成蛋白质的过程
特点:
模板特点原料引物DNA复制双链DNA 合成的新链与模板链一模
四种dNTP 半保留复制需要
一样
四种NTP 半不连续转录不需要转录双链DNA 合成的新链除了把DNA上
的T改为U外,其他一样
翻译mRNA 3个碱基决定一个氨基酸20种游离
的氨基酸
2.mRNA(messenger RNA,信使RNA)
信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。
3. 基因DNA分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。
编码区则转录为mRNA并最终翻译成蛋白质。
外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA进行剪接变为成熟的mRNA 时,内含子被切除,而外显子保留。
实际上真正编码蛋白质的是外显子,而内含子则无编码功能,
内含子存在于DNA中,在转录的过程中,DNA上的内含子也会被转录到前体RNA中,但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。
4.CDS Sequence coding for amino acids in protein 蛋白质编码区
CDS是Coding sequence的缩写,是编码一段蛋白产物的序列,是结构基因组学术语。
与开放读码框ORF的区别
开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。
CDS,是编码一段蛋白产物的序列。
cds必定是一个orf。
但也可能包括很多orf。
反之,每个orf 不一定都是cds。
Open reading frame (ORF) - a reading frame that does not contain a nucleotide triplet which stops translation before formation of a complete polypeptide. Coding sequence (CDS) - The portion of DNA that codes for transcription of messenger RNA ORF-----translation, CDS----transcription translation 是理论上的,而transcription则显然是事实存在的。
5.外显子拼接形成成熟的mRNA,多数基因都有UTR,它们也是外显子拼接的产物,所以,你会发现mRNA的长度要大于CDS,只有CDS才编码蛋白,AUG以前的mRNA编码前导序列。
外显子并不一定编码蛋白质,成熟mRNA的UTR也可以是外显子,外显子就是RNA 剪接后留下的部分
外显子与CDS区不是完全一致的,cds区一定属于外显子,但是外显子不一定是CDS区,也就是说外显子不一定都能翻译成蛋白的。
mRNA包括UTR和CDS!
内含子(intron)是断裂基因中外显子之间的间隔序列(intervening sequence,IVS),可参与前体RNA的转录,但其转录的RNA序列于转录后的加工中被切除,不包括于成熟的RNA分子中。
外显子(exon)在断裂基因中,转录成熟RNA中相应序列的DNA片段。
内含子和外显子的分界线在于:GU-AG法则。
即每个内含子的开始两个碱基都是是GU (或GT),最后两个是AG。