2014-基因组学——最终版
- 格式:doc
- 大小:1.98 MB
- 文档页数:27
基因组学考试资料整理版第一章一、基因组1、基因组:生物所具有的携带遗传信息的遗传物质的总和,是指生物细胞中所有的DNA,包括所有的基因和基因间区域。
2、基因组学:指以分子生物学技术、计算机技术和信息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因背景下和整体水平上探索生命活动的内在规律及其内外环境影响机制的科学。
基因组学包括3个不同的亚领域结构基因组学(structural genomics) :以全基因组测序为目标功能基因组学(functional genomics):以基因功能鉴定为目标比较基因组学(xxparative genomics)二、基因组序列复杂性1、C值是指一个单倍体基因组中DNA的总量,以基因组的碱基对来表示。
每个细胞中以皮克(pg,10-12g)水平表示。
C 值悖理:指基因内部被一个或更多不翻译的编码顺序即内含子所隔裂。
3、异常结构基因分类重叠基因:编码序列彼此重叠的基因,含有不同蛋白质的编码序列。
基因内基因:一个基因的内含子中包含其他基因。
反义基因: 与已知基因编码序列互补的的负链编码基因,参与基因的表达调控,可以干扰靶基因mRNA转录与翻译。
4、假基因:功能基因但已失去活性或者改变原来活性功能的DNA序列. 四、基因组特征比较真核生物基因组的特征:复杂性较高的生物基因组结构松弛,在整个基因组范围内分布大量重复顺序;含有大量数目不等的线性DNA分子,并且,每个长链DNA都与蛋白质组成染色体结构;含有细胞器基因组原核生物基因组的特征 :原核生物基因数目比真核生物少,大小在5 Mb以下; 原核生物基因组结构更紧凑;第二章一、为何要绘制遗传图与物理图?1)基因组太大,必需分散测序,然后将分散的顺序按原来位置组装,需要图谱进行指导。
2)基因组存在大量重复顺序,会干扰排序,因此要高密度基因组图。
3)遗传图和物理图各有优缺点,必须相互整合校正。
二、基因组测序方法、原理及特点:1. 克隆重叠群法:先构建遗传图,再利用几套高度覆盖的大片段基因组文库获得精细的物理图,选择合适的BAC 或PAC克隆测序,利用计算机拼装。
基因组复习基因组(genome),又称染色体组一个物种单倍体的染色体数目,物种全部遗传信息的总和基因组学研究的最终目标: 获得生物体全部基因组序列; 鉴定所有基因的功能; 明确基因之间的相互作用关系; 阐明基因组的进化规律。
经典遗传学:在20世纪初,遗传学刚刚诞生的时候,遗传学家的工作主要是鉴别感兴趣的基因,确定这些基因在染色体上的位置。
第一个环节:寻找自发突变体,或者利用物理、化学因素诱发突变。
第二个环节:通过连锁分析确定新基因与已知基因的相互关系,绘制遗传连锁图。
基因组学的研究内容结构基因组学:基因定位;基因组作图;测定核苷酸序列功能基因组学:又称后基因组学(postgenomics)基因的识别、鉴定、克隆;基因结构、功能及其相互关系;基因表达调控的研究蛋白质组学:鉴定蛋白质的产生过程、结构、功能和相互作用方式遗传图谱(genetic map)采用遗传分析的方法将基因或其它DNA序列标定在染色体上构建连锁图。
遗传标记:有可以识别的标记,才能确定目标的方位及彼此之间的相对位置。
构建遗传图谱就是寻找基因组不同位置上的特征标记。
包括:形态标记;细胞学标记;生化标记;DNA 分子标记所有的标记都必须具有多态性!所有多态性都是基因突变的结果!形态标记:形态性状:株高、颜色、白化症等,又称表型标记。
数量少,很多突变是致死的,受环境、生育期等因素的影响控制性状的其实是基因,所以形态标记实质上就是基因标记。
细胞学标记明确显示遗传多态性的染色体结构特征和数量特征:染色体的核型、染色体的带型、染色体的结构变异、染色体的数目变异。
优点:不受环境影响。
缺点:数量少、费力、费时、对生物体的生长发育不利生化标记又称蛋白质标记就是利用蛋白质的多态性作为遗传标记。
如:同工酶、贮藏蛋白优点:数量较多,受环境影响小缺点:受发育时间的影响、有组织特异性、只反映基因编码区的信息DNA分子标记:简称分子标记以DNA序列的多态性作为遗传标记优点:不受时间和环境的限制遍布整个基因组,数量无限不影响性状表达自然存在的变异丰富,多态性好共显性,能鉴别纯合体和杂合体限制性片段长度多态性(restriction fragment length polymorphism,RFLP)DNA序列能或不能被某一酶酶切,相当于一对等位基因的差异。
基因组学有哪些内容(基因组学重点整理)生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物,我来为大家科普一下关于基因组学有哪些内容?下面希望有你要的答案,我们一起来看看吧!生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物具有催化活性的RNA分子称为核酶(ribozyme)核酶催化的生化反应有:自我剪接、催化切断其它RNA、合成多肽键、催化核苷酸的合成新基因的产生:基因与基因组加倍1)整个基因组加倍;2)单条或部分染色体加倍;3)单个或成群基因加倍。
外显子洗牌与蛋白质创新:产生全新功能蛋白质的方式有二种:功能域加倍,功能域或外显子洗牌基因冗余:一条染色体上出现一个基因的很多复份(复本)当人们分离到其中一新基因时,为了鉴定其生物学功能,常常使其失活,然后观察它们对表型的影响。
许多场合,由于第二个重复的功能基因可取代失活的基因而使突变型表型保持正常。
这意味着,基因组中有冗余基因存在。
看家基因很少重复,它们之间必需保持剂量平衡,因此重复的拷贝很快被淘汰。
与个体发育调控相关的基因表达为转录因子,具有多功能域的结构。
这类基因重复拷贝变异可使其获得不同的表达控制模式,促使细胞的分化与多样性的产生,并导致复杂形态的建成,具有许多冗余基因。
非编码序列扩张方式:滑序复制、转座因子模式生物海胆、果蝇、斑马鱼、线虫、蟾蜍、小鼠、酵母、水稻、拟南芥等。
模式生物基因组中GC%含量高,同时CpG岛的比例也高。
进化程度越高,GC含量和CpG岛的比例就比较低如果基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的可能只会发生在非编码区。
细菌基因组中缺少内含子,非编码序列仅占11%, 对阅读框的排查干扰较少。
细菌基因组的ORF阅读相对比较简单,错误的机率较少。
高等真核生物DNA的ORF阅读比较复杂:基因间存在大量非编码序列(人类占70%);绝大多数基因内含有非编码的内含子。
为什么说基因组学是生命科学的前沿学科?基因组学已成为生命科学的前沿学科,已渗透到各个科学领域,出现了结构基因组学,功能基因组学,蛋白组学,功能蛋白组学,功能酶学,生物信息学,生物计算机,药物基因组学,疾病基因组学等基因研究方向。
1、启动子:细菌中RNA聚合酶结合并启动转录的DNA序列。
2、转录因子:是转录起始过程中RNA聚合酶所需的辅助因子。
3、RNA聚合酶:是能够特异性地与启动子结合并启动转录的蛋白质。
4、转录因子(transcription factor,TF):是转录起始过程中RNA聚合酶所需的辅助因子。
按功能可分为两类: 1.普遍性转录因子(general transcription factor)是转录起始复合物的组成成员,将RNA聚合酶定位在核心启动子上。
2.激活转录因子:对转录起始复合物的组装及转录速率施加影响,决定某一基因是否表达。
5、RNA编辑(RNA editing):改变原有mRNA碱基序列组成的修饰。
有两种方式:①将mRNA分子中某些碱基进行代换,使原有mRNA密码子的含义发生改变②在mRNA分子内部插入某些核苷酸,使mRNA原有的读码框发生大范围的改变6、转录物组(transcriptome):基因组在整个生命过程中所表达的全部转录物的总和。
7、翻译(translation):按照mRNA密码子的排列顺序在核糖体上依次连接对应氨基酸合成多肽链的过程。
8、密码子摆动性(wobble):密码子的第3个碱基选择不同碱基配对的现象。
出现的原因:反密码子位于环化的tRNA序列内,是反密码子的第一个核苷酸与密码子第三个核苷酸不能形成标准的碱基配对。
9、密码子(codon):mRNA分子中每相邻的三个核苷酸编成一组,在蛋白质合成时,代表一种氨基酸。
61个氨基酸密码子,3个终止密码子。
10、移码(frame shift):如果翻译时出现反密码子与正密码子的配对间断或重叠,将改变后续的编码信息,这一现象称为移码。
基因组学1. 简述基因组的概念和其对生命科学的影响。
基因组:指一个物种的全套染色体和基因。
广义的基因组:核基因组,线粒体基因组,叶绿体基因组等。
基因组计划对生命科学的影响:①研究策略的高通量,彻底认识生命规律:基因组研究高通量,研究手段和研究策略的更新,加强了生命科学研究的分工与协作,从不同层次深入研究生命现象。
②促进了相关学科的发展:分子生物学遗传学生物信息学生物化学细胞生物学生理学表观遗传学等③物种的起源与进化:Ⅰ.重要基因的发掘、分离和利用:遗传疾病相关基因,控制衰老的基因,工业价值的细菌基因,重要农艺性状基因等。
Ⅱ.充分认识生命现象:基因的表达、调控,基因间的相互作用,不同物种基因组的比较研究,揭示基因组序列的共性,探讨物种的起源和进化。
④伦理学法律问题:伦理问题,知识产权问题,法律问题,社会保险问题。
2. Ac/Ds转座因子Ac因子有4563bp,它的大部分序列编码了一个由5个外显子组成的转座酶基因,成熟的mRNA有3500bp。
该因子本身的两边为11bp的反向重复末端(IR),发生错位酶切的靶序列长度8bp。
Ds因子较Ac因子短,它是由Ac因子转座酶基因发生缺失而形成的。
不同的Ds因子的长度差异由Ac因子发生不同缺失所致。
Ac/Ds因子转座引起的插入突变方式:玉米Bz基因是使糊粉层表现古铜色的基因,当Ac/Ds转座插入到Bz基因座后,糊粉层无色。
当Ac/Ds因子在籽粒发育过程,部分细胞发生转座,使Bz靶基因发生回复突变,从而形成斑点。
Ac/Ds两因子系统遗传特点:1)Ac具有活化周期效应,有活性的Ac+因子被甲基化修饰后会形成无活性的ac-因子,反之无活性的ac-因子去甲基化成有活性的Ac+因子。
2)Ac与Ds因子有时表现连锁遗传但更多表现独立遗传。
3)Ac对Ds的控制具有负剂量效应。
4)Ac/Ds可引发靶基因表现为插入钝化、活性改变、表达水平改变和缺失突变等。
5)Ds的结构不同,插入同一靶基因的位点可能不同,形成的易变基因的表型也不同。
基因组学题库一基因组学介绍1 基因组与基因组学基因组是指生物的整套染色体所含有的全部DNA序列,是生物体所有遗传信息的总和。
基因组学(Genomics)是以生物信息学分析为手段研究基因组的组成、结构、表达调控机制和进化规律的一门学科,研究对象是基因组结构特征、变演规律和生物学意义。
2 C质与C质悖论C值(C value)通常是指某一生物单倍体基因组DNA的总量。
C值悖论(C Value Paradox):生物的复杂性与基因组的大小并不完全成比例增加。
3 人类基因组计划及其8个目标人类基因组计划(human genome project, HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。
美、英、法、德、日和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。
按照这个计划的设想,在2005年,要把人体内约10万个基因的密码全部解开,同时绘制出人类基因的谱图。
其8个目标:1)人类DNA序列(Human DNA sequence);2)开发测序技术(Develop sequencing technology);3)识别人类基因组序列变异(Identify human genome sequence variation);4)功能基因组学技术(Functional genomics technology);5)比较基因组学(Comparative genomics);6)伦理、法律、社会问题(ELSI: ethical, legal, and social issues);7)生物信息学和系统生物学(Bioinformatics and computational biology);8)Training and manpower。
4 什么是宏基因组(metagenomics)?研究一类在特殊的或极端的环境下共栖生长微生物的混合基因。
生境中全部微小生物遗传物质的总和。
它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。
二数据库介绍1 GenBank一级数据库和二级数据库一级数据库:是指由实验的原始数据构成,不进行任何的处理,其内容由提交者控制。
如Genbank,SNP,GEO。
二级数据库:是指基于一级数据库建立的, 对生物学知识和信息的进一步整理,内容由第三方(NCBI)控制,如Refseq,TPA,Unigene。
2 refSeq和Havana基因集RefSeq会为收录的最优典型序列提供一个专业的拉丁文收录号,该序列是非冗余的,高质量的,经检验校正的序列信息;RefSeq记录了目前关于一个基因和它的转录子的知识的汇编,它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM,RefSeq标准为人类基因组的功能注解提供一个基础。
Havana是人和动物基因组注释数据库,提供人工注释的人类、小鼠、斑马鱼以及其他脊椎动物的基因组,可以在Vega 浏览器上搜索到,由sanger实验室团队通过人工方法提供更加准确和全面的基因组注释信息,包括剪接变异体、假基因、基因复制和非编码基因。
Havana基因集特别强调剪切变体和假基因,还有多聚腺苷酸化的特征。
很多Havana中的转录本被注释为不存在编码区,这些转录产物可能作为非编码RNA或者它们可能是目前无法确定的一个编码基因的不完全片段。
3 UCSC genome browser 是什么类型数据库,提供哪些基因组学研究资源UCSC GENOME BROWSER是二级数据库,给浏览基因组数据库提供了可靠和迅速的方式。
约有一半的注释信息是UCSC通过来自公开的序列数据计算出来的,另一半是来自世界各地的科学工作者。
本身并不下任何结论,而只是收集各种相关信息供用户参考。
支持数据库检索和序列相似性搜索。
UCSC Genome Browser 是由UCSC 创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。
站点用户可以通过它可靠和迅速地浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因,预测基因,表达序列标签,信使RNA,CpG岛,克隆组装间隙和重叠,染色体带型,小鼠同源性等。
用户也可以因为教育或科研目的加上他们自己的注释信息。
UCSC Genome Browser 目前应用相当广泛,比如Ensembl 就是使用它的人类基因组序列草图为基础的。
三遗传图谱1 遗传图谱和作图原理遗传图是应用遗传学分析方法将基因或其他DNA分子标记标定在染色体上构建的连锁图,也叫遗传连锁图(genetic linkage map) 。
这一方法包括杂交实验,家系分析等。
遗传图距单位为厘摩(cM ),每单位厘摩定义为1%交换率。
作图原理:遗传作图(Genetic mapping) 即遗传图谱的构建。
它是利用遗传学的原理和方法,构建能反映基因组中遗传标记之间遗传关系的图谱。
连锁(linkage linkage linkage))分析为遗传分析的重要手段,更是遗传作图的基础。
而连锁关系是通过重组率来反映的。
假设交换是随机发生的,,一对并列的染色单体上一对并列的染色单体上任何两点发生交换的机会是均等的;两个彼此靠近的基因之间因交换而分离的的几率要比互相远离的2个基因之间发生分离的几率要小。
因此重组率可以成为测量两个基因之间相对距离的尺度。
计算出不同基因间的重组率计算出不同基因间的重组率,就可以构建出显示基因在染色体上相对位置的图。
2 遗传作图有哪些标记,各有什么优缺点遗传标记的类型:基因标记,DNA标记。
基因标记:又称性状标记。
包括个体上可以看见的遗传标记基因,(如花色、株高)和生化性状基因,如血型系列(ABO)分析、血清蛋白、免疫蛋白、同工酶等。
优点:直观,易操作;缺点:①数量有限。
虽然经过近百年的努力,目前这些标记的数量仍然不多,因此限制了这些标记的利用;②操作上比较麻烦,难以开展大规模的研究和利用;③高等生物基因组存在大量基因间隔区,纯粹的基因标记在遗传图中会留下大片的无标记区段;④部分基因其等位基因可以通过常规实验区分。
DNA标记:是指以DNA片段为标记,通过DNA片段的电泳使DNA产生多态性,如RFLP、SSLP、SNP等。
优点:①在数量上是巨大的;②操作相对简单,适合大规模开展工作;③遗传作图的标记遗传作图的标记;④操作相对简单,适合大规模开展工作;⑤标记比较明显,容易识别;⑥受环境影响少,标记本身就是遗传物质。
缺点:大多数只有两个等位基因,限制了其在人类基因作图上的应用价值。
3 多态信息含量(PIC)在连锁分析中一个遗传标记多态性可提供的信息量的度量。
它是一个亲本为杂合子,另一亲本为不同基因型的概率。
现常用来衡量座位多态性高低的程度。
四物理图谱1 什么是物理图谱,与遗传图谱的差别物理图是应用分子生物学技术直接将DNA分子标记、基因或克隆标定在基因组实际位置所构建的位置图。
差别:物理图谱表示某些基因和或遗传标记之间在基因组上的精确位置和距离的图谱,而遗传图谱反映了基因组中遗传标记之间遗传关系,描述的是基因相对位置。
2 序列标记位点(STS)及其特点序列标记位点(STS Sequence tagged site, STS):指一段短的DNA序列,通常长度在100--- -500bp,易于识别,在待研究的染色体或基因组中仅存有1个拷贝。
因此当2个片段含有同一STS顺序时,可以确认这两个片段彼此重叠。
特点:①在染色体上的位置独一无二;②序列已知,方便PCR检测。
3 细菌人工染色体(BAC)及其应用BAC (Bacterial artificial chromosome) BAC (Bacterial artificial chromosome)即细菌人工染色体,具有细菌染色体的特性,以细菌细胞为宿主,能在细菌细胞中复制。
BAC为载体,可以乘载约300kb的大片段DNA,是物理作图中目前用得最多的大片段DNA载体。
BAC载体已广泛应用于基因组文库的构建及筛选、基因组测序、新基因的发现、克隆作图、BAC微阵列、转基因和动物品种资源保存等方面。
4 如何组建克隆重叠群?染色体步移法(chromosomal walking):先从基因文库的一个克隆开始,然后从文库中寻找与之重叠的第二个克隆,再继续确定第三个克隆,依次类推。
克隆指纹法:指纹是指确定DNA样品所具有的特定DNA片段组成,一个克隆的指纹表示了该克隆所具有的指定序列的特征,可以同其他克隆产生的同类指纹比较。
克隆指纹法的原理是,如果2个克隆彼此重叠,它们一定含有相同的顺序。
五Sanger测序原理与组装1 Sanger双脱氧末端终止法的原理核酸模板在核酸聚合酶、引物、四种单脱氧碱基存在条件下复制或转录时,如果在四管反应系统中分别按比例引入四种双脱氧碱基,只要双脱氧碱基掺入链端,该链就停止延长,链端掺入单脱氧碱基的片段可继续延长。
如此每管反应体系中便合成以共同引物为5’端,以双脱氧碱基为3’端的一系列长度不等的核酸片段。
反应终止后,分四个泳道进行电泳。
以分离长短不一的核酸片段(长度相邻者仅差一个碱基),根据片段3’端的双脱氧碱基,便可依次阅读合成片段的碱基排列顺序。
2 基因组框架图、完成图框架图能覆盖基因组常染色体区域90%,覆盖基因区域95%,contig N50达到5 kb,scaffold N50达到20 kb,单碱基错误率在十万分之一以下。
完成图能覆盖基因组常染色体区域95%,覆盖基因区域98%,contig N50达到20 kb,scaffold N50达到300 kb,单碱基错误率在十万分之一以下。
3 Phred-Phrap-Consed 软件包中各软件的作用Phred执行如下任务:读trace文件,调用bases,分配属性值到bases,生成输出文件;Phrap组装鸟枪法DNA序列数据;Consed浏览和编辑Phrap组装产物。
4 lander-waterman model 及其原理一段序列没有被覆盖的概率P0=e-(LN/G)或者P0=e-c;L片段的长度,N总的序列数量,G总长度,LN/G一个碱基被覆盖的平均次数,P0是指在平均次数为LN/G的情况下这个碱基一次没有被覆盖的概率,1-P0即可计算出一个碱基被覆盖的概率。
令c=LN/G,计算某一点不能被测序的概率P0= e-c,总的gap的长度=G e-c,总的gap的数量=N e-c。
5 Pair-end reads, Mate-pair reads, Contig, Scaffold, N50 sizeReads:pair-end reads 基于序列文库克隆两端的序列读框;mate-pair reads 基于插入片段大于mate-pair文库克隆两端的序列读框;Contig(重叠群):指相互间存在重叠顺序的一组克隆;Scoffold:连接非重叠的重叠群;N50:Reads拼接后会获得一些不同长度的Contigs。