当前位置：文档之家› 生物信息学考试试卷

生物信息学考试试卷

一、名词解释(每小题4分,共20分)

1、生物信息学

广义：生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达；细胞、组织、器官的生理、病理、药理过程的中各种生物信息。

狭义：生物分子信息的获取、存贮、分析和利用。

2、人类基因组计划

人类基因组计划准备用15年时间，投入30亿美元，完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定，主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序，以及信息系统的建立。作图和测序是基本的任务，在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。

3、蛋白质的一级结构

蛋白质的一级结构是指多肽链中氨基酸的序列

4、基因

基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。

5、中心法则

是指遗传信息从传递给，再从RNA传递给，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。

6 、DNA序列比较

序列比较的根本任务是：（1）发现序列之间的相似性；（2）辨别序列之间的差异

目的：

相似序列相似的结构，相似的功能

判别序列之间的同源性

推测序列之间的进化关系

7、一级数据库

数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释

8、基因识别

基因识别，是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因，也包括其他具有一定生物学功能的因子，如RNA基因和调控因子。

9、系统发生学

系统发生学(phylogenetics)——研究物种之间的进化关系。

10、基因芯片

基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

二、综合题(共60分)

1 生物信息学分析的数据对象主要有哪几种这些数据之间存在着什么关系

其研究重点主要落实在核酸和蛋白质两个方面，包括它们的序列、结构和功能。生物信息学以基因组DNA序列信息分析作为出发点，破译遗传语言，认识遗传信息的组织规律，辨别隐藏在DNA序列中的基因，掌握基因调控信息，对蛋白质空间结构进行模拟和预测，依据蛋白质结构和功能的关系进行药物分子设计。

2 生物信息学的主要研究任务是什么目前生物信息学的主要研究内容是什么

A．收集和管理生物分子数据；数据分析和挖掘；开发分析工具和实用软件：生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具。

B．（1）生物分子数据的收集与管理；（2）数据库搜索及序列比较；（3）基因组序列分析；（4）基因表达数据的分析与处理；（5）蛋白质结构预测。

5 在基因组序列分析方面，科学家关注哪些信息

就人类基因组而言，编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列。对于非编码序列，人们了解得比较少，尚不清楚其含义或功能。然而，非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件（mobile element）及其遗留物、伪基因（pseudo gene）等。

6掌握蛋白质结构有什么意义为什么要进行蛋白质结构预测

（1）研究蛋白质的结构意义重大，分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构，有助于了解蛋白质的作用，了解蛋白质如何行使其生物功能，认识蛋白质与蛋白质（或其它分子）之间的相互作用，这无论是对于生物学还是对于医学和药学，都是非常重要的。

（2）对于未知功能或者新发现的蛋白质分子，通过结构分析，可以进行功能注释，指导设计进行功能确认的生物学实验。通过分析蛋白质的结构，确认功能单位或者结构域，可以为遗传操作提供目标，为设计新的蛋白质或改造已有蛋白质提供可靠的依据，同时为新的药物分子设计提供合理的靶分子结构。

简述分子生物学中的“中心法则”。“中心法则”的核心是什么

（1）DNA是遗传物质，是携带遗传信息的载体。信息从基因的核苷酸序列中被提取出，用来指导蛋白质合成的过程对地球上的所有生物都是相同的，分子生物学家称之为中心法则(central dogma)。（2）“中心法则”的核心：DNA分子中的遗传信息转录（transcription）到RNA分子中（即RNA聚合酶以DNA为模板合成RNA），再由RNA翻译（translation）生成体内各种蛋白质，行使特定的生物功能。

若一条 mRNA 序列 5 '－ AUG GGA UGU CGC CGA AAC － 3 '被核糖体翻译，将形成怎样的氨基酸的序列若将第一个核苷酸删掉而将另一个 A 加到 mRNA 序列的 3 ' - 端，又将形成怎样的氨基酸序列

(1) 画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上，将第二条序列放在 y 坐标轴上。

TGAACTCCCTCAGATATTA

CGAACCCTCACATATTAGCG

(11) 为什么要进行序列片段组装在进行序列片段组装时会遇到哪些问题

大规模基因组测序得到待测序列的一系列序列片段，这些序列片段覆盖待测序列，序列片段之间也存在着相互覆盖或者重叠。遇到的问题：碱基标识错误；不知道片段的方向；存在重复区域；缺少覆盖。

(1) 国际上有哪几个着名的核酸序列数据库

（1）欧洲分子生物学实验室的EMBL 。

（2）美国生物技术信息中心的GenBank。

（3）日本遗传研究所的DDBJ

(3) 具有简并性的密码子一共有多少个什么是基因的密码子使用偏性造成密码子使用偏性可能的原因有哪些

(9) 假设给你一条蛋白质序列，要求预测该蛋白质的结构。你计划采用什么策略来预测该蛋白质的结构

画出四个分类单元 A 、 B 、 C 和 D 所有可能的无根树和有根树。

三、论述题(两个小题,共20分)

1、简述人类基因组计划与生物信息学之间的相互促进关系。

人类基因组计划(Human Genome Project, HGP)是美国在1990年提出实施的一项伟大的科学计划，与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。自实施以来，该计划在世界各国引起了很大反响。在人类基因组计划中，人们准备用15年时间，投入30亿美元，完成人类全部24条染色体中3×109个碱基对(bp，base pair)的序列测定，其主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别，还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序，以及信息系统的建立。

随着人类基因组计划的提出和实施，实验数据和可利用信息急剧增加，人类基因组计划提供了以往不可想象的巨量的生物学信息资源。基因组信息的收集、储存、分发、分析显得越来越紧迫和重要，信息的管理和分析成为人类基因组计划实施过程中的一项重要工作，人类基因组计划向信息学提出了巨大的挑战。值得庆幸的是，人类基因组计划一开始就与计算机技术、信息高速公路同步发展，信息技术为生物信息学的发展提供了非常好的条件，为生物信息学的研究和应用提供了非常好的支撑。生物信息学与人类基因组计划紧密结合，互相渗透，生物信息学成为基因组计划不可分割的一部分。事实证明，人类基因组计划在生物信息学的支持下，前进步伐大大加快，已经提前完成计划，功能基因组研究也已经全面展开。而人类基因组计划反过来又大大促进了生物信息学的发展，HGP丰富了生物信息学的研究内容，促进生物信息学新思想、新方法的产生，生物信息学在最近10年迅速发展的历程证明了这一点。

生物信息学复习题及答案

生物信息学复习题名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。 Score：The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。值：得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP（高分片段对）得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法,是序列相似性分析的基础，其不同的选择将会出现不同的分析结果。 10．空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。：美国国家生物技术信息学中心，属于美国国立医学图书馆的一部分，具有BLAST, Entrez ,GenBank等工具，还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式：是将DNA或者蛋白质序列表示为一个带有大于号（>）开始的核苷酸或者氨基酸序列的新文件，其中大于号后可以跟上序列的相关信息，其他无特殊要求。 13genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释，主要包含生物功能或数据库信息；第三部分是feature，对序列的注释；第四部分是序列本身，以“统发生树（Phylogenetic tree ）是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系，是一种亲缘分支分类方法。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。是用来研究物种进化与多样性的基础，是相近物种相关生物学数据的来源。17.基因树与物种树：物种树反映一组物种进化历程的系统树，其中每一个内部节点就代表一个物种形成的过程，而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树，而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

贵州大学《生物统计学》考试试卷(含答案)

贵州大学《生物统计学》考试试卷（含答案）一单项选择题（每题3分，共21分） 1.在假设检验中，显著性水平α的意义是___C___。 A. 原假设0H 成立，经检验不能拒绝的概率 B. 原假设0H 不成立，经检验不能拒绝的概率 C. 原假设0H 成立，经检验被拒绝的概率 D. 原假设0H 不成立，经检验被拒绝的概率 2．设123,,X X X 是总体2( , )N μσ的样本，μ已知，2 σ未知，则下面不是统计量的是__C___。 A. 123X X X +- B. 4 1 i i X μ=-∑ C. 2 1X σ+ D. 4 21 i i X =∑ 3.设随机变量~(0,1)X N ，X 的分布函数为()x Φ,则( 2)P X >的值为___A____。 A. ()212-Φ???? B. ()221Φ- C. ()22-Φ D. ()122-Φ 4．比较身高和体重两组数据变异程度的大小应采用__D___。 A ．样本平均数 B. 样本方差 C. 样本标准差 D. 变异系数 5．设总体服从),(2 σμN ，其中μ未知，当检验0H :220σσ=,A H :220σσ≠时，应选择统计量___B_____。 A. 2 (1)n S σ- B. 2 2 (1)n S σ- X X 6．单侧检验比双侧检验的效率高的原因是___B_____。 A ．单侧检验只检验一侧 B ．单侧检验利用了另一侧是不可能的这一已知条件 C ．单侧检验计算工作量比双侧检验小一半 D. 在同条件下双侧检验所需的样本容量比单侧检验高一倍 7．假设每升饮水中的大肠杆菌数服从参数为μ的泊松分布，则每升饮水中有3个大肠杆菌的概率是____D____。 A.63e μ μ- B.36e μμ- C.36e μ μ- D. 316 e μμ-

生物信息学期末考试重点

第一讲生物信息学（Bioinformatics）是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科，它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析，达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。生物信息学不仅是一门学科，更是一种重要的研究开发平台与工具，是今后进行几乎所有生命科学研究的推手。生物技术与生物信息学的区别及联系生物信息学的发展历史 ?人类基因组计划（HGP） ?人类基因组计划由美国科学家于1985年提出，1990年启动。根据该计划，在2015年要把人体约4万个基因的密码全部揭开，同时绘制出人类基因的谱图，也就是说，要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划，被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展，海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后，才能成为有用的信息和知识。换句话说，人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。：

】第二讲回顾细胞结构细胞是所有生命形式结构和功能的基本单位细胞组成细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构细胞质细胞膜与细胞核之间的区域：包含液体流质，夹杂物存储的营养、分泌物、天然色素和细胞器细胞器细胞内完成特定功能的结构：线粒体、核糖体、高尔基体、溶酶体等细胞核最大的细胞器 DNA的结构碱基（腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G）。核苷酸核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊糖（五碳糖）、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对，也就是A、T、C、G 基因是什么基因是遗传物质的基本单位基因就是核苷酸序列。大部分的基因大约是1000-4000个核苷酸那么长。基因通过控制蛋白质的合成，从微观和宏观上影响细胞、组织和器官的产生。基因在染色体上。

生物统计学考试题及答案

重庆西南大学 2012 至 2013 学年度第 2 期生物统计学试题（A ）试题使用对象： 2011 级专业(本科) 命题人：考试用时 120 分钟答题方式采用：闭卷说明：1、答题请使用黑色或蓝色的钢笔、圆珠笔在答题纸上书写工整. 2、考生应在答题纸上答题，在此卷上答题作废. 一：判断题；（每小题1分，共10分） 1、正确无效假设的错误为统计假设测验的第一类错误。（） 2、标准差为5，B 群体的标准差为12，B 群体的变异一定大于A 群体。（） 3、一差异”是指仅允许处理不同，其它非处理因素都应保持不变。（） 4、30位学生中有男生16位、女生14位，可推断该班男女生比例符合1∶1 （已知84.321,05.0=χ）。（） 5、固定模型中所得的结论仅在于推断关于特定的处理，而随机模型中试验结论则将用于推断处理的总体。（） 6、率百分数资料进行方差分析前，应该对资料数据作反正弦转换。（） 7、比较前，应该先作F 测验。（） 8、验中，测验统计假设H 00:μμ≥ ，对H A :μμ<0 时，显著水平为5%，则测验的αu 值为1.96（） 9、行回归系数假设测验后，若接受H o :β=0，则表明X 、Y 两变数无相关关系。 ( ) 10、株高的平均数和标准差为30150±=±s y （厘米），果穗长的平均数和标准差为s y ±1030±=（厘米），可认为该玉米的株高性状比果穗性状变异大。（）二：选择题；（每小题2分，共10分） 1分别从总体方差为4和12的总体中抽取容量为4的样本，样本平均数分别为3和2，在95%置信度下总体平均数差数的置信区间为（）。 A 、[-9.32，11.32] B 、[-4.16，6.16]

生物信息学题库说课材料

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号： A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗？■可能 B. 不可能 4.下面哪种数据库源于mRNA信息：■ dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建： A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别： A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank，提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息，下列哪个数据库是你最佳选择： A. OMIM B. Entrez ■ PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A. 因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B. 搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■ N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为：■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变： A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变： A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A. 全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙，而局部比对不允许C. 全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们，最好使用下列哪个BLOSUM和PAM矩阵：■ BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较，BLOSUM打分矩阵的最大区别是：A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列，它可能编码多少种蛋白质序列： A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列，应选择： A. blastn B. blastp C. tblastn D. tblastp■ blastx 18.为什么ClustalW（一个采用了Feng-Doolittle渐进比对算法的程序）不报告E值：A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙，永远是空隙”规则的依据是：A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说： A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质，分子进化的速率是逐渐减慢的，就如同不准时的钟■对于每一个给定的蛋白质，其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是： A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法： A. 邻位连接法（NJ法）B. Kimura算法■最大似然法（ML）D. 非加权平均法（UPGMA） 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是：■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列，而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元（OTU）可指：A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是：■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是： A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质：■ 10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是： A. 软件太难使用■. 假阳性率太高，许多不是外显子的序列部分被错误指定C. 假阳性率太高，许多不是外显子功能未知 D. 假阴性率太高，丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以： A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp： A. 20000■. 200000 C. 2000000 D. 20000000

生物统计学考试试卷及答案

考试轮次：2017－2018学年第一学期期末考试试卷编号考试课程：[120770] 生物统计与实验设计命题负责人曾汉元适用对象：生物与食品工程学院生物科学专业2015级审查人签字考核方式：上机考试试卷类型：A卷时量:150分钟总分：100分注意：答案中要求保留必要的计算和推理过程，全部答案保存为一个Word文档，文件名为学号最后两位数+姓名。考试结束后不要关机。提交答卷后，请到主机看一下是否提交成功。第1题12分，第3题5分，第10题13分，其余的题各10分。 1、下表为某大学96位男生的体重测定结果（单位：kg），请根据资料分别计算以下指标：（1）算术平均数；（2）几何平均数；(3)中位数；（4）众数；（5）极差；（6）方差；（7）标准差；（8）变异系数；（9）标准误。(10) 绘制各体重分布柱形图。 66 69 64 65 64 66 70 64 59 67 66 66 60 66 65 61 61 66 67 68 62 63 70 65 64 66 68 64 63 60 60 66 65 61 61 66 59 66 65 63 58 66 66 68 64 65 71 61 62 69 70 68 65 63 66 65 67 66 74 64 70 64 59 67 66 66 60 66 65 61 61 66 67 68 62 63 70 65 64 66 68 64 63 60 60 66 65 61 61 66 59 66 65 63 58 66 2、已知1000株水稻的株高服从正态分布N（97，3 2），求：（1）株高在94cm以上的概率？（2）株高在90~99cm之间的概率？（3）株高在多少cm之间的中间概率占全体的99%？ 3．已知某批30个小麦样品的平均蛋白质含量为14.5%，σ=2.50%，试进行95%置信度下的蛋白质含量的区间估计和点估计。 4、有一大麦杂交组合，F2代的芒性状表型有钩芒、长芒和短芒三种，观察计得其株数依次分别为348、11 5、157，试检验其比率是否符合9：3：4的理论比率。 5、某医院用某种中药治疗7例再生障碍性贫血患者，现将血红蛋白含量（g/L）变化的数据列在下面，假定资料满足各种假设测验所要求的前提条件，问：治疗前后之间的差别有无显著性意义？患者编号 1 2 3 4 5 6 7 治疗前血红蛋白含量65 75 50 76 65 72 68 治疗后血红蛋白含量82 112 125 85 80 105 128

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学广义：生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达；细胞、组织、器官的生理、病理、药理过程的中各种生物信息。狭义：生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划人类基因组计划准备用15年时间，投入30亿美元，完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定，主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序，以及信息系统的建立。作图和测序是基本的任务，在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则是指遗传信息从传递给，再从RNA传递给，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较序列比较的根本任务是：（1）发现序列之间的相似性；（2）辨别序列之间的差异目的：相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系 7、一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 8、基因识别基因识别，是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因，也包括其他具有一定生物学功能的因子，如RNA基因和调控因子。 9、系统发生学系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号： A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗？■可能 B. 不可能 4.下面哪种数据库源于mRNA信息：■dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建： A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别： A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank，提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息，下列哪个数据库是你最佳选择： A. OMIM B. Entrez ■PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A. 因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B. 搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为：■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变： A. 丙氨酸B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变： A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A. 全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙，而局部比对不允许C. 全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们，最好使用下列哪个BLOSUM和PAM矩阵：■BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较，BLOSUM打分矩阵的最大区别是：A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列，它可能编码多少种蛋白质序列： A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列，应选择： A. blastn B. blastp C. tblastn D. tblastp■blastx 18.为什么ClustalW（一个采用了Feng-Doolittle渐进比对算法的程序）不报告E值：A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙，永远是空隙”规则的依据是：A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说：A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质，分子进化的速率是逐渐减慢的，就如同不准时的钟■对于每一个给定的蛋白质，其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是： A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法：A. 邻位连接法（NJ法）B. Kimura算法■最大似然法（ML）D. 非加权平均法（UPGMA） 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是：■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列，而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元（OTU）可指：A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是：■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是：A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质：■10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是：A. 软件太难使用■. 假阳性率太高，许多不是外显子的序列部分被错误指定C. 假阳性率太高，许多不是外显子功能未知 D. 假阴性率太高，丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以：A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp：A. 20000■. 200000 C. 2000000 D. 20000000

生物统计学试题及答案

一、填空变量按其性质可以分为连续变量和非连续变量。样本统计数是总体参数的估计量。生物统计学是研究生命过程中以样本来推断总体的一门学科。生物统计学的基本内容包括试验设计、统计分析两大部分。统计学的发展过程经历了古典记录统计学、近代描述统计学、现代推断统计学3 个阶段。生物学研究中，一般将样本容量n >30称为大样本。试验误差可以分为随机误差、系统误差两类。资料按生物的性状特征可分为数量性状资料变量和质量性状资料变量。直方图适合于表示连续变量资料的次数分布。变量的分布具有两个明显基本特征，即集中性和离散性。反映变量集中性的特征数是平均数，反映变量离散性的特征数是变异数。林星s= 样本标准差的计算公式s= 如果事件A和事件B为独立事件，则事件A与事件B同时发生地概率P (AB) = P(A)*P(B)。二项分布的形状是由n和p两个参数决定的。正态分布曲线上，卩确定曲线在x轴上的中心位置，c确定曲线的展开程度。样本平均数的标准误等于c Wi。 t分布曲线和正态分布曲线相比，顶部偏低，尾部偏高。

统计推断主要包括假设检验和参数估计两个方面。

参数估计包括点估计和区间估计假设检验首先要对总体提出假设，一般应作两个假设，一个是无效假设，一个是备择假设。对一个大样本的平均数来说，一般将接受区和否定区的两个临界值写作卩-U a^x_ 卩+U a c x 在频率的假设检验中，当np或nq v30时，需进行连续性矫正。 2检验主要有3种用途：一个样本方差的同质性检验、适应性检验和独立性检验。 2检验中，在自由度df = (1)时，需要进行连续性矫正，其矫正的2 = ( p85 )。 2分布是连续型资料的分布，其取值区间为［0.+ %)。猪的毛色受一对等位基因控制，检验两个纯合亲本的F2代性状分离比是否符合孟德尔第一遗传规律应采用适应性检验法。独立性检验的形式有多种，常利用列联表进行检验。根据对处理效应的不同假定，方差分析中的数学模型可以分为固定模型、随机模型和混合模型混合模型3类。在进行两因素或多因素试验时，通常应该设置重复，以正确估计试验误差，研究因素间的交互作用。在方差分析中，对缺失数据进行弥补时，应使补上来数据后，误差平方和最小。方差分析必须满足正态性、可加性、方差同质性3个基本假定。如果样本资料不符合方差分析的基本假定，则需要对其进行数据转换，常用的数据转换方法有平方根转换、对数转换、正反弦转换等。相关系数的取值范围是［-1,1］O

生物信息学试题整理

UTR的含义是（B ） A.编码区 B. 非编码区 C. motif的含义是（D ）。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是（B ）。 A.登录号 B. 算法 C. RGR^ （D ）。 A.在线人类孟德尔遗传数据 D.水稻基因组计划下列Fasta格式正确的是（B）低复杂度区域 D. 幵放阅读框碱基对 D. 结构域比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析，应使用（D） A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是（A ）。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是（D ）。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是（A）0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化从cDNA文库中获得的短序列是（D ）o A. STS B. UTR C. CDS D. EST con tig的含义是（B ）o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR （AtDB）数据库是（C）o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是（D ）o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

生物信息学课后题及答案-推荐下载

生物信息学课后习题及答案（由10级生技一、二班课代表整理）一、绪论 1.你认为，什么是生物信息学？采用信息科学技术，借助数学、生物学的理论、方法，对各种生物信息（包括核酸、蛋白质等）的收集、加工、储存、分析、解释的一门学科。2.你认为生物信息学有什么用？对你的生活、研究有影响吗？（1）主要用于：在基因组分析方面：生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面：新药物设计、基因芯片疾病快速诊断、流行病学研究：SARS 、人类基因组计划、基因组计划：基因芯片。（2）指导研究和实验方案，减少操作性实验的量；验证实验结果；为实验结果提供更多的支持数据等材料。 3.人类基因组计划与生物信息学有什么关系？人类基因组计划的实施，促进了测序技术的迅猛发展，从而使实验数据和可利用信息急剧增加，信息的管理和分析成为基因组计划的一项重要的工作。而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。 4简述人类基因组研究计划的历程。通过国际合作，用15年时间（1990-2005）至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA 的全部核苷酸序列，定位约10万基因，并对其他生物进行类似研究。 1990，人类基因组计划正式启动。 1996，完成人类基因组计划的遗传作图，启动模式生物基因组计划。 1998完成人类基因组计划的物理作图，开始人类基因组的大规模测序。Celera 公司加入，与公共领域竞争启动水稻基因组计划。 1999，第五届国际公共领域人类基因组测序会议，加快测序速度。 2000，Celera 公司宣布完成果蝇基因组测序，国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。 2001，人类基因组“中国卷”的绘制工作宣告完成。 2003，中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功，人类基因组计划的.目标全部实现。2004，人类基因组完成图公布。 2.我国自主知识产权的主要基因组测序计划有哪些？水稻（2002），家鸡（2004），家蚕（2007），家猪（2012），大熊猫（2010） 2．第一章、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题，而且可保障各类管路习题到位。在管路敷设过程中，要加强看护关于管路高中资料试卷连接管口处理高中资料试卷弯扁度固定盒位置保护层防腐跨接地线弯曲半径标高等，要求技术交底。管线敷设技术包含线槽、管架等多项方式，为解决高中语文电气课件中管壁薄、接口不严等问题，合理利用管线敷设技术。线缆敷设原则：在分线盒处，当不同电压回路交叉时，应采用金属隔板进行隔开处理；同一线槽内，强电回路须同时切断习题电源，线缆敷设完毕，要进行检查和检测处理。、电气课件中调试对全部高中资料试卷电气设备，在安装过程中以及安装结束后进行高中资料试卷调整试验；通电检查所有设备高中资料试卷相互作用与相互关系，根据生产工艺高中资料试卷要求，对电气设备进行空载与带负荷下高中资料试卷调控试验；对设备进行调整使其在正常工况下与过度工作下都可以正常工作；对于继电保护进行整核对定值，审核与校对图纸，编写复杂设备与装置高中资料试卷调试方案，编写重要设备高中资料试卷试验方案以及系统启动方案；对整套启动过程中高中资料试卷电气设备进行调试工作并且进行过关运行高中资料试卷技术指导。对于调试过程中高中资料试卷技术问题，作为调试人员，需要在事前掌握图纸资料、设备制造厂家出具高中资料试卷试验报告与相关技术资料，并且了解现场设备高中资料试卷布置情况与有关高中资料试卷电气系统接线等情况，然后根据规范与规程规定，制定设备调试高中资料试卷方案。、电气设备调试高中资料试卷技术电力保护装置调试技术，电力保护高中资料试卷配置技术是指机组在进行继电保护高中资料试卷总体配置时，需要在最大限度内来确保机组高中资料试卷安全，并且尽可能地缩小故障高中资料试卷破坏范围，或者对某些异常高中资料试卷工况进行自动处理，尤其要避免错误高中资料试卷保护装置动作，并且拒绝动作，来避免不必要高中资料试卷突然停机。因此，电力高中资料试卷保护装置调试技术，要求电力保护装置做到准确灵活。对于差动保护装置高中资料试卷调试技术是指发电机一变压器组在发生内部故障时，需要进行外部电源高中资料试卷切除从而采用高中资料试卷主要保护装置。

生物统计学试题及答案

生物统计学考试一.判断题（每题2分，共10分） √1. 分组时，组距和组数成反比。 ×2. 粮食总产量属于离散型数据。 ×3. 样本标准差的数学期望是总体标准差。 ×4. F分布的概率密度曲线是对称曲线。 √5. 在配对数据资料用t检验比较时，若对数n=13，则查t表的自由度为12。二. 选择题(每题3分，共15分) 6.x～N（1，9），x1，x2，…，x9是X的样本，则有（） A.31 - x ～N（0，1） B.11 - x ～N（0，1） C.91 - x ～N（0，1） D.以上答案均不正确 7. 假定我国和美国的居民年龄的方差相同。现在各自用重复抽样方法抽取本国人口的1%计算平均年龄，则平均年龄的标准误（） A.两者相等 B.前者比后者大 C.前者比后者小 D.不能确定大小 8. 设容量为16人的简单随机样本，平均完成工作需时13分钟。已知总体标准差为3分钟。若想对完成工作所需时间总体构造一个90%置信区间，则（） A.应用标准正态概率表查出u值 B.应用t分布表查出t值 C.应用卡方分布表查出卡方值 D.应用F分布表查出F值 9. 1-α是（） A.置信限 B.置信区间 C.置信距 D.置信水平 10. 如检验k (k=3)个样本方差s i2 (i=1,2,3)是否来源于方差相等的总体,这种检验在统计上称为( )。 A.方差的齐性检验 B. t检验 C. F检验 D. u检验三. 填空题(每题3分，共15分) 11. 在一个有限总体中要随机抽样应采用放回式抽样方法。 12. 在实际抽样工作中，为了减小标准误，最常用的办法就是增大样品容量。 13. 已知F分布的上侧临界值F0.05（1，60）=4.00，则左尾概率为0.05，自由度为（60，1）的F分布的临界值为 0.25 14. 衡量优良估计量的标准有无偏性、有效性和相容性。 15. 已知随机变量x服从 N (8，4)，P（x < 4.71）= 0.05 。(填数字) 四．综合分析题（共60分） 16．何谓“小概率原理”？算术平均数有两条重要的性质，是什么？小概率的事件，在一次试验中，几乎是不会发生的。若根据一定的假设条件，计算出来该事件发生的概率很小，而在一次试验中，它竟然发生了，则可以认为假设的条件不正确，从而否定假设。算术平均数的性质： 1.离均差之和为零 2. 离均差平方之和最小 17．计算5只山羊产绒量：450， 450，500， 550， 550（g）的标准差。标准差 18．一农场主租用一块河滩地，若无洪水则年终可获利20000元，若发洪水则会损失12000

生物统计学期末考试试题A

漳州师范学院生物系_____________专业_____级本科_______班《生物统计学》课程期末考试卷（A）（2011—2012学年度第一学期）学号___________姓名________考试时间：2011-12-29 一、名词解释（6×2） 1统计数： 2小概率原理： 3无偏估计： 4准确性： 5纳伪错误： 6方差：二、判断题：请在下列正确的题目后面打“√”，错误的打“×”。（12×1） 1 t分布曲线的平均数与中位数相等（√） 2众数是总体中出现最多个体的次数。（×） 3 正态分布曲线形状与样本容量n无关（√） 4 假设检验显著水平越高，检验效果越好（×） 5 样本频率假设检验如果需要连续性矫正时，矫正系数＝0. 5（×） 6 样本标准差是总体标准差的无偏估计（×） 7计算相关系数的两个变量都是随机变量（√） 8 试验因素的任一水平就是一个处理（×） 9 在同一显著水平下，双尾检验的临界正态离差大于单位检验（√） 10 LSD检验方法实质上就是t检验（×） 11对多个样本平均数仍可采用t测验进行两两独立比较。（×）

12假设测验结果或犯α错误或犯β错误。（ × ）三、选择题（18×2） 1、某学生某门课成绩为75分，则其中的变量为[ ] A. 某学生 B. 某门课成绩 C. 75分 D. 某学生的成绩 2、算术平均数的重要特性之一是离均差之和[ ] A 、最小 B 、最大 C 、等于零 D 、接近零 3、在回归直线y=a+bx 中，若b ＜0，则x 与y 之间的相关系数[ ] A. r=0 B. r=1 C. 0＜r ＜1 D. -1＜r ＜0 4、假定我国和美国的居民年龄的方差相同。现在各自用重复抽方法抽取本国人口的1%计算平均年龄，则平均年龄的标准误 [ ] A.两者相等 B.前者比后者大 C 前者比后者小 D.不能确定大小 5、1-α是[ ] A.置信限 B.置信区间 C.置信距 D 置信水平 6、在一组数据中，如果一个变数10的离均差是2，那么该组数据的平均数是[ ] A 、12 B 、10 C 、8 D 、2 7、两个二项成数的差异显著性一般用[ ]测验。 A 、t B 、F C 、u D 、卡方测验 8、测验回归截距的显著性时，()/a t a s α=-遵循自由度为[ ] 的学生氏分布。 A 、n -1 B 、n -2 C 、n -m -1 D 、n 9、对一批大麦种子做发芽试验，抽样1000粒，得发芽种子870粒，若规定发芽率达90%为合格，测验这批种子是否合格的差异显著性为[ ]。 A 、不显著 B 、显著 C 、极显著 D 、不好确定 10设容量为16人的简单随机样本，平均完成工作需时13分钟。已知总体标准差为3分钟。若想对完成工作所需时间总体构造一个90%置信区间，则[ ] A 应用标准正态概率表查出u 值 B.应用t 分布表查出t 值 C.应用卡方分布表查出卡方值 D.应用F 分布表查出F 值

文档之家

生物信息学考试试卷

生物信息学复习题及答案

贵州大学《生物统计学》考试试卷(含答案)

生物信息学期末考试重点

生物统计学考试题及答案

生物信息学题库说课材料

生物统计学考试试卷及答案

生物信息学考试试卷修订稿

生物信息学题库

生物统计学试题及答案

生物信息学试题整理

生物信息学课后题及答案-推荐下载

生物统计学试题及答案

最新生物信息学考试复习

生物统计学期末考试试题A