生物信息学期末考试总复习
- 格式:docx
- 大小:810.31 KB
- 文档页数:12
生物信息学期末复习资料(小字)名词解释或辨析。
1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。
利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。
3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。
其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。
20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。
5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。
同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。
相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。
当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。
如果两条系列有一个共同进化的祖先,那么他们是同源的。
这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。
1.生物信息学:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。
包括生物学数据的研究、存档、显示、处理和模拟,基因组遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
2.蛋白质组:指由一个基因组,或一个细胞、组织表达的所有蛋白质。
生物信息学复习题生物信息学是一门结合生物学、计算机科学、信息学和数学的交叉学科,它利用计算机技术来处理和分析生物数据。
以下是一些生物信息学复习题,供同学们参考:1. 生物信息学的定义和应用领域- 生物信息学是如何定义的?- 生物信息学在哪些领域有应用?2. 基因组学基础- 什么是基因组学?- 基因组测序的基本原理是什么?3. 序列比对- 序列比对的目的是什么?- 简述局部比对和全局比对的区别。
4. BLAST算法- BLAST算法的原理是什么?- 如何使用BLAST进行序列相似性搜索?5. 基因表达数据分析- 基因表达数据有哪些类型?- 描述基因表达数据的预处理步骤。
6. 蛋白质结构预测- 蛋白质结构预测的重要性是什么?- 简述几种常见的蛋白质结构预测方法。
7. 系统生物学和网络分析- 系统生物学研究的是什么?- 网络分析在系统生物学中的应用。
8. 生物信息学中的数据库- 列举几个常见的生物信息学数据库。
- 解释数据库在生物信息学研究中的作用。
9. 生物信息学中的编程语言- 哪些编程语言在生物信息学中常用?- 简述Python在生物信息学中的应用。
10. 伦理和隐私问题- 在生物信息学研究中可能遇到哪些伦理问题?- 如何保护生物信息数据的隐私?11. 案例研究- 描述一个生物信息学在医学研究中的应用案例。
- 分析该案例中使用的方法和技术。
12. 未来趋势- 预测生物信息学未来的发展趋势。
- 讨论生物信息学如何影响未来的科学研究和医疗保健。
通过这些问题的复习,同学们可以更全面地了解生物信息学的基础概念、关键技术和应用领域。
希望这些复习题能够帮助同学们更好地准备考试和理解生物信息学的重要性。
生物信息学复习题及答案1. 什么是生物信息学?生物信息学是一门交叉学科,它结合了生物学、计算机科学和信息技术,用于管理和分析生物数据。
它涉及基因组学、蛋白质组学、转录组学等多个领域,目的是从大量生物数据中提取有用的生物学信息。
2. 基因组学的主要研究内容是什么?基因组学主要研究基因组的结构、功能和相互作用,包括基因的识别、基因表达的分析以及基因组的比较研究。
3. 转录组学与基因组学有何不同?转录组学关注的是细胞在特定条件下转录产生的所有RNA分子,而基因组学研究的是整个基因组的DNA序列。
转录组学可以揭示基因表达的变化,而基因组学提供了基因存在的信息。
4. 蛋白质组学研究的是什么?蛋白质组学研究细胞或组织中所有蛋白质的组成、结构、功能和相互作用。
它涉及蛋白质的鉴定、定量和功能分析。
5. 生物信息学中常用的数据库有哪些?常用的生物信息学数据库包括GenBank、PDB(蛋白质数据银行)、UniProt和KEGG等,它们存储了大量的基因、蛋白质和生物途径信息。
6. 什么是序列比对?序列比对是将两个或多个生物序列(如DNA、RNA或蛋白质序列)进行排列,以便识别出相同或相似的区域,这是发现序列间同源性的重要方法。
7. 简述系统发育树的构建过程。
系统发育树的构建通常包括以下步骤:收集序列数据、选择适当的比对方法进行序列比对、计算序列间的同源性、选择系统发育分析方法(如最大似然法、邻接法等)构建树,并进行树的优化和验证。
8. 什么是基因表达谱分析?基因表达谱分析是一种研究基因在不同条件下表达模式变化的技术,它可以帮助我们理解基因如何响应环境变化或参与特定生物学过程。
9. 什么是高通量测序技术?高通量测序技术,也称为下一代测序技术,是一种能够快速、低成本地测定大量DNA或RNA序列的技术,它在基因组学、转录组学等领域有广泛应用。
10. 什么是生物信息学中的网络分析?网络分析在生物信息学中用于研究生物分子间的相互作用,如蛋白质-蛋白质相互作用网络、基因调控网络等,它有助于揭示生物系统的复杂性和动态性。
生物信息学复习题### 生物信息学复习题#### 一、选择题1. 生物信息学主要研究的是什么?A. 生物学数据的收集和存储B. 生物学数据的分析和解释C. 生物学实验的设计和执行D. 生物学仪器的操作和维护2. 下列哪一项不是生物信息学中常用的数据库?A. GenBankB. PDBC. PubMedD. Google Scholar3. 序列比对的目的是什么?A. 确定序列间的同源性B. 预测蛋白质的三维结构C. 鉴定基因的功能D. 计算基因的表达量#### 二、填空题1. 生物信息学中的BLAST工具主要用于__________。
2. 基因表达分析中常用的芯片技术包括__________和__________。
3. 在蛋白质结构预测中,同源建模依赖于__________数据库中的已知结构。
4. 转录组测序(RNA-Seq)可以用于研究__________和__________。
#### 三、简答题1. 描述基因组注释的一般流程。
2. 阐述生物信息学在药物设计中的应用。
3. 解释什么是系统发育树,并说明其在进化研究中的意义。
#### 四、计算题1. 给定一段DNA序列,计算其GC含量。
(示例序列:ATCGTACGTAGCTAGCTAG)2. 如果一个蛋白质序列的分子量为12345 Da,其氨基酸的平均分子量为110 Da,计算该蛋白质序列中氨基酸的数量。
#### 五、论述题1. 讨论生物信息学在个性化医疗中的作用和挑战。
2. 分析高通量测序技术对生物信息学领域的影响。
通过以上题目的复习,可以帮助学生掌握生物信息学的基础知识和技能,包括对生物数据的分析、解释和应用。
这些知识点不仅涵盖了生物信息学的基础理论,还涉及到实际应用,如药物设计、个性化医疗等,为学生提供了一个全面的复习框架。
第一章DNA、RNA和蛋白质序列信息资源生物信息学的概念:专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据,也称分子生物信息学。
三大核酸序列数据库GenBank(NCBI)美国国家生物技术信息中心,EMBL欧洲分子生物学实验,DDBJ日本DNA序列资料库序列信息通常用FASTA和GenBank两种格式显示第二章双序列比对数据库查询:指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配。
数据库搜索:通过特定相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
区别:数据库搜索专门针对核酸和蛋白质序列数据库而言,其搜索对象不是数据库的注释信息,而是序列信息。
检测序列:新测定的,希望通过数据库搜索确定其性质或功能的序列目标序列:通过数据库搜索得到的和检测序列具有一定相似性的序列同源性的意义:具有共同祖先。
两个物种中有两个性状满足下列任一条件,就可称为同源性状:(1)它们与这些物种的祖先类群中所发现的某个性状相同(2)(2)它们是具有祖先一后裔的不同性状同源(homology)-具有共同的祖先同源序列:共同祖先趋异进化形成垂直同源(ortholog)种系形成过程中起源于一个共同祖先的不同种系中的DNA或蛋白质序列水平同源(paralog)由序列复制事件产生的相似(similarity)用来描述检测和目标序列之间相同DNA/蛋白质序列占比高低。
同源序列一般是相似的,但相似序列不一定是同源的。
相似性:大于50%可认为是同源性序列,小于20%无法确定同源性目的:通过数据库搜索,推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。
可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。
在序列数据库中对查询序列进行同源性比对.整体比对:从全长序列出发(分子系统学)局部比对:序列部分区域相似性(分子结构与功能性研究)数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。
■一、选择题:1.以下哪一个是mRNA条目序列号:A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗?■可能B.不可能4.下面哪种数据库源于mRNA信息:■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建:A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J:A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A.因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B.搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A.全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B.全局比对允许间隙,而局部比对不允许C.全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
本卷的答案仅做参考,如有疑问欢迎提出。
后面的补充复习题要靠你们自己整理答案了。
生物信息学复习题一、填空题1、 识别基因主要有两个途径即2、 表达序列标签是从 mRNA 中生成的一些很短的序列( 300-500bp ),它们代表在特定组织或发育阶段表达的基因。
3、 序列比对的基本思想,是找出 检测基因 和 目标序列 的相似性,就是通过在序列中插入 空位的方法使所比较的序列长度达到一致。
比对的数学模型大体分 为两类,分别— 和局部比对 。
4、 2-DE 的基本原理是根据蛋白质 和 分子量 不同,进行两次电泳将之分 离。
第一向是 等电聚焦分离 ,第 —S D S-P AGE 分离 o5、 蛋白质组研究的三大关键核心技术是 质谱鉴定技术 、 计算机图像数据处理与蛋白质数据库二、 判断题1、 生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,是真核生物基因组的特点之一。
(对)2、 CDS 一定就是 ORF 。
(对)3、 两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源 ,就具有共同的祖先。
(错)4、 STS,是一段 200-300bp 的特定 DNA 序列,它的序列已知,并且在基因组中属于 单拷贝。
(对)5、 非编码 DNA 是“垃圾 DNA',不具有任何的分析价值,对于细胞没有多大的作用。
(错)6、 基因树和物种树同属于系统树,它们之间可以等同。
(错)7、 基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。
&对任意一个 DNA 序列,在不知道哪一个碱基代表 CDS 的起始时,可用 获得6个潜在的蛋白质序列。
(对)9、 一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。
(对)10、 外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的 外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以 不同。
中科院生物信息学期末考试复习题陈润生老师部分:1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要?答:生物信息学有三个方面的含义:1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面,是基因组研究不可分割的部分。
2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。
3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。
它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。
生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA 基因的编码区;同时阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律:在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据,从而认识代谢、发育、分化、进化的规律。
同时在发现了新基因信息之后,其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测,并将此类信息与生物体和生命过程中的生理生化信息结合,阐明其分子机制,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。
2.如何利用数据库信息发现新基因,基本原理?答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式:1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因:(利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。
但因为基因组中编码区少,所以关键是“数据识别”问题。
)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。
可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。
一、单选题1、总的来说,位于染色体内超过( )个碱基的DNA,构成了人类基因组。
A.30000000000B.3000000000C.300000000D.30000000正确答案:B2、人类镰刀型红细胞贫血症是由于血红蛋白β链N端第6个氨基酸由谷氨酸突变为( )造成的。
A.苏氨酸B.缬氨酸C.赖氨酸D.谷氨酸正确答案:B3、RefSeq数据库是由哪个组织开发和维护的?( )A.NIGB.NCBIC.EMBLD.SIB正确答案:B4、Long non-coding RNA长链非编码RNA是长度大于( )个核苷酸的非编码RNA。
A.150B.250C.300D.200正确答案:D5、tBLASTx分析是用核酸序列检索核酸序列数据库,下列说法正确的是?()A.核酸序列和核酸序列数据库都不需要翻译成蛋白质序列B.只有核酸序列数据库需要翻译成蛋白质序列C.只有核酸序列需要翻译成蛋白质序列D.核酸序列和核酸序列数据库都需要翻译成蛋白质序列正确答案:D6、要搜索编码蛋白质序列的核酸序列,适宜的分析方法是?()A.BLASTxB.BLASTnC.tBLASTnD.BLASTp正确答案:A7、下列对于PCR引物修饰的说法正确的是?()A.PCR引物的5’末端和3’末端均能进行修饰B.PCR引物的5’末端和3’末端均不能进行修饰C.只有PCR引物的5’末端能进行修饰D.只有PCR引物的3’末端能进行修饰正确答案:C8、下列哪个在线分析工具可以预测DNA的外显子-内含子?()A.AugustusB.PLACEC.ORFfinderD.Entrez正确答案:A9、Smith-Waterman动态规划算法矩阵中的每个单元格有几条路径?()A.1B.2C.3D.4正确答案:D10、下列关于Needleman-Wunsch算法和Smith-Waterman算法提出早晚的论述正确的是?()A.Needleman-Wunsch算法提出时间较早B.不确定C.Smith-Waterman算法提出时间较早D.二者提出时间相当正确答案:A11、当分类单元至少为3时,下列对“有根树与无根树的数目”判断正确的是?()A.有根树的数目要少于无根树的数目B.有根树的数目与无根树的数目一样多C.有根树的数目要多于无根树的数目D.二者数目无法判断正确答案:C12、下列哪种算法建树时,选择代价最小或者枝长最短的树?A.最大似然值法B.最大简约法C.邻接法D.UPGMA法正确答案:B二、多选题1、生物信息学是由( )等学科相互交叉而形成的一门新兴学科。
如对您有帮助,欢迎下载支持,谢谢!如对您有帮助,欢迎下载支持,谢谢!一、名词解释(每小题3分,共30分)分)1.1. 生物信息学生物信息学2.2. 数据库技术数据库技术3.3. 数据仓库数据仓库4.4.EST5.5. 概念性翻译概念性翻译6.6. 同源性同源性7.7. 单系类群单系类群8.8. 全局排列全局排列9.9. 基因作图基因作图1010.直系同源体簇.直系同源体簇.直系同源体簇二、填空题(每空1分,共10分)分)1. 生物信息学主要研究的两种信息载体是生物信息学主要研究的两种信息载体是和 。
2. 国际上的三大核苷酸序列数据库分别是 、和 。
3. 数据挖掘的三大技术支柱是数据挖掘的三大技术支柱是、 和 。
4. 相同类型核苷酸的替换称为 ,不同类型核苷酸的替换称为 。
三、单项选择题(每小题1分,共10分)分)1.1. 在对模式生物进行全基因组的测定中,作为真菌模式生物的是在对模式生物进行全基因组的测定中,作为真菌模式生物的是。
A 、大肠杆菌、大肠杆菌B 、青霉菌、青霉菌C 、酵母菌、酵母菌D 、线虫、线虫2.NCBI 成立于成立于。
A 、1988年B 、1989年C 、1990年D 、1992年3.根据数据库管理系统所支持的基本数据模型的不同,可以将数据库分为五类,其中第二代数据库是代数据库是。
A 、层次数据库、层次数据库B 、网状数据库、网状数据库C 、关系数据库、关系数据库D 、分布式数据库、分布式数据库4.在向GenBank 投送序列的工具中,投送序列的工具中, 是标准的序列投送工具。
是标准的序列投送工具。
A 、Cn3DB 、tb12asnC 、BankItD 、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是目前最为常用和注释最全的蛋白质序列数据库是。
A 、Identify B 、OWLC 、PIRD 、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。
2、序列比对的类型①全局序列比对定义:在全局范围内对两条序列进行比对打分的方法。
适合于非常相似且长度近似相等的序列。
②局部序列比对定义:一种寻找匹配子序列的序列比对方法。
适合于一些片段相似而另一些片段相异的序列。
4、ployA:转录终止信号序列,AATAA,称为多聚腺苷酸信号;5、SNP;单核苷酸多态性;6、BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
5、序列相似性比较:将待研究序列与 DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。
完成这一工作只需要使用两两序列比较算法。
常用的程序包有 BLAST、FASTA 等;7、空位(gap:在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
8、空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
9、多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。
1、分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。
2、系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。
4、最大似然法(ML:它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。
最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。
5、开放阅读框(ORF:开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。
6、.密码子偏好性(codon bias:氨基酸的同义密码子的使用频率与相应的同功 tRNA 的水平相一致,大多数高效表达的基因仅使用那些含量高的同功 tRNA 所对应的密码子,这种效应称为密码子偏好性。
8、序列比对(alignment:将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较他们的保守性,这样评估序列间的相似性和同源性。
9、多序列比对(multiple sequence alignment:三个或多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或祖传的残基),则会在该位置插入空位。
2、相似性(similarity):指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。
比如说,A 序列和 B 序列的相似性是 80%,或者 4/5。
这是个量化的关系。
当然可进行自身局部比较。
3、同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。
就是说A 和B 的关系上,只有是同源序列,或者非同源序列两种关系。
而说 A 和 B 的同源性为 80%都是不科学的。
4、相似性和同源性关系:序列的相似性和序列的同源性有一定的关的系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。
正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。
所以有出现 A 序列和 B 序列的同源性为80%一说。
6、CpG岛:常位于真核生物基因转录起始位点,GC含>50% ,长度>200bp的一段 DNA序列。
7、电子克隆:基于表达序列标签 EST和基因组数据库发展起来的基因克隆技术,运用生物信息学知识和计算机技术对EST或基因组数据库进行同源性比较分析,然后拼接出基因的编码序列。
8、基因芯片 (genechip)就是将大量探针分子固定于支持物上,根据碱基互补配对原理,与标记的样品分子进行杂交,通过检测杂交信号的强度及分布进而获取样品中靶分子的数量和序列信息。
1、可变剪切:又叫选择性剪切(Alternative splicing, AS,生物的基因序列包含了外显子(exon和内含子(intron,两者相互间隔。
在 mRNA前体的剪接过程中,参加剪接的外显子可以不按其线性次序剪接,内含子也可以不被切除而保留,即一个外显子或内含子是否出现在成熟 mRNA中是可以选择的,这种剪接方式称为选择性剪接。
2、高通量测序:高通量测序技术(High-throughputsequencing,HTS)是对传统 Sanger测序(称为一代测序技术革命性)的改变, 一次对几十万到几百万条核酸分子进行序列测定。
3、下一代测序:英文为 Next Generation Sequencing,简称为 NGS。
也叫做二代测序或者高通量测序。
也称为高通量测序,high-throughput sequencing,或者称为新一代测序。
是指相对于 Sanger为主的第一代测序技术来说的,其特点是测序产量高,读长短,价格便宜。
现在通常所说的二代测序技术,主要包括ABI的 solid测序,罗氏的 454测序技术、Life 公司的 Ion Torrent测序技术和 illumina公司的 Hiseq、miseq测序技术等。
当前最主要的是指 illunina测序。
92.DNA大片段文库:又名末端配对(mate-paired。
文库片段长度大于 1K bp。
主要用于动植物,微生物的 de novo测序。
1. 常用的三种序列格式:NBRF/PIR,FASTA 和 GDE2、常用的序列搜索方法:FASTA 和 BLAST3、检测原核生物 ORF 的程序:NCBI ORF finder4、二级结构的三种状态:α螺旋,β折叠和β转角5、SWISS—MODEL 网站3系统发育树是一种二叉树,由一系列节点(nodes)和分支(branches )组成。
每个节点代表一个分类单元(物种或序列),节点之间的连线代表物种之间的进化关系。
外部节点代表实际观察到的分类单元,内部节点代表分类单元进化历程中的祖先。
5、BLAST是由美国国立生物技术信息中心( NCBI)开发的一个基于序列相似性的数据库搜索程序。
6、Orthology describes genes in different species that derive from a common ancestor. Orthologous genes may or may not have the same function. Paralogy describes homologous genes within a single species that diverged by gene duplication. 1、序列的相似性与同源性有什么区别与联系?答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。
2、简述构建进化树的步骤,每一步列举 1-2种使用的软件或统计学方法。
1)多序列比对:Clustal W2)校对比对结果:BIOEDIT3)建树:MEGA4)评估系统发育信号和进化树的牢固度:自举法Bootstrap3、10列举 5项 DNA序列分析的内容及代表性分析工具。
1)寻找重复元件:RepeatMasker2)同源性检索确定是否存在已知基因:BLASTn3)从头开始方法预测基因:Genscan4)分析各种调控序列:TRES/DRAGON PROMOTOR FINDER5) CpG 岛:CpGPlot代表性工具:ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise6、.基因结构分析一般包括哪些?列出一种主要的对应分析工具。
基因结构分析常用软件69.blast 评价Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基打分求和的结果,一般来说,匹配片段越长、相似性越高则 Score值越大。
82.二级数据库:初级数据库的基础上经加工和增加相关信息。
103.Read:高通量测序平台产生的短序列就称为reads,也称为一个读段,reads可以是单独一条,成为Single End reads,简称 SE read,也可以是两条具有物理关系的一对 reads,根据 reads方向,可以分为 Pair-end reads和 mate-pair reads,简称为 PE reads。
在很多分析中会利用管道 reads之间的关系。
34.为什么要建大片段文库?除了得到序列以外,更重要的是,为了获取片段的坐标距离(即两条 reads之间的物理距离关系,将会为序列拼接和基因组结构变异检测提供帮助)32.文库质量检测与评估包括哪些?其中哪个评估对于文库构建的成功与否至关重要?为什么?1)PAT-seq电泳检测结果2)安捷伦 2100检测文库片段大小3)Qubit 定量4)Sanger测序评估109.illumina测序为什么要生成簇?单个 DNA分子所释放的荧光信号太弱而不容易被检测到。
生成多个拷贝后形成可以被检测的信号强度。
30.简述 HiSeq SBS测序流程。
1)进行 Read1 测序2)杂交 Index 测序引物,进行 Index 测序3)Paired End Turnround,合成 Read1互补链4)杂交 Read 2 测序引物,进行 Read 2 测序112. SBS法如何进行测序?1)4种 Fl-NTP’s + 聚合酶在分子簇上完成一个碱基合成反应,并发出单一荧光;2)然后拍照,收集信号3)去阻断,切除荧光基团4)4种 Fl-NTP’s + 聚合酶在分子簇上完成下一个碱基合成反应,并发出单一荧光;接着重复 2和 3步骤115. cDNA文库:以 mRNA为模板,经反转录酶催化,在体外反转录成 cDNA,与适当的载体(常用噬菌体或质粒载体连接后转化受体菌,则每个细菌含有一段 cDNA,并能繁殖扩增,这样包含着细胞全部 mRNA信息的 cDNA克隆集合称为该组织细胞的 cDNA文库6、声明环境变量的命令是变换工作目录的命令是 cd。
linux:加载 BIOS ->读取 MBR -> Boot Loader ->加载内核﹣> init process -> login2、蛋白质序列分析主要内容包括哪些及其软件?1)蛋白质理化性质分析,使用工具:Protparam2)跨膜区分析,使用工具:TMpred3)二级结构分析,使用工具:PredictProtein4)结构域分析,使用工具:InterProScan5)蛋白质三级结构分析,使用工具:SWISS-MODEL/SWISS-PdbViewer.列举常用 4种蛋白质三维结构观察和修改工具。