生物信息学题库
- 格式:doc
- 大小:198.00 KB
- 文档页数:6
生物信息学期末复习资料(小字)名词解释或辨析。
1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。
利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。
3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。
其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。
20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。
5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。
同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。
相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。
当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。
如果两条系列有一个共同进化的祖先,那么他们是同源的。
这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。
1.生物信息学:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。
包括生物学数据的研究、存档、显示、处理和模拟,基因组遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
2.蛋白质组:指由一个基因组,或一个细胞、组织表达的所有蛋白质。
《小学生物教师信息科学》课程期末考察题库(全)一、选择题(每题2分,共计20分)1. 下列哪个软件不是生物信息学中常用的序列分析软件?- A. Clustal Omega- B. BLAST- C. MEGA- D. Microsoft Word2. 在进行生物信息学研究时,下列哪个数据库不是常用的基因组数据库?- A. NCBI GenBank- B. Ensembl- C. UCSC Genome Browser- D. UniProt3. 下列哪个生物信息学技术不是目前用于基因组组装的主要技术?- A. 基于测序的技术- B. 基于克隆的技术- C. 基于比较基因组学的技术- D. 基于转录组学的技术4. 在生物信息学中,哪种类型的数据通常被用于蛋白质结构预测?- A. 序列数据- B. 表达数据- C. 结构数据- D. 代谢数据5. 下列哪个工具不是生物信息学中用于生物标志物发现的主要工具?- A. Gene Ontology Enrichment Analysis- B. t-test- D. Random Forest二、简答题(每题5分,共计30分)1. 请简述生物信息学的定义及其主要研究内容。
2. 请简述基因组组装的主要方法和其优缺点。
3. 请简述生物信息学中的数据类型及其应用场景。
4. 请简述生物标志物的概念及其在生物信息学中的应用。
5. 请简述机器学习在生物信息学中的应用及其主要挑战。
三、案例分析题(共计30分)假设你是一名生物信息学研究员,现在手头有一份某生物样本的转录组数据,请列出你的研究步骤,以及每一步的主要任务和目标。
四、论述题(共计20分)1. 请论述生物信息学在现代生物科学研究中的作用和意义。
2. 请论述生物信息学在医学研究和应用中的前景。
1、BLAST教案所程序中,哪个方法是不存在的?(D)A:BLASTP B:BLASTN C:BLASTX D:BLASTQ2、下列哪个软件不是常用来观察蛋白质结构视图的?(D)A:AVS B:Chimera C:MICE D:HMM3、下列哪个不是点突变的类型?(A)A:染色体畸变 B:错义突变 C:无义突变 D:移码突变4、基因突变的效应不包括:(C)A:有利突变 B:中性突变 C:移码突变D:遗传多态现象5、人类基因组的结构特点不包括:(A)A:基因进化 B:基因数目 C:基因重复序列 D:基因组复制6、世界上三大数据库不包括:(B)A:NCBI B:BLAST C:UCSC D:Ensembl7、常用序列比对方法错误的是:(C)A:编辑距离 B:点阵描图 C:局部比对 D:记分模式8、下列哪个不是蛋白质结构模型?(D)A:同源性模型 B:折叠识别 C:ab initio折叠 D: MoLScript结构9、下列哪个选项不是微阵列实验设计的内容?(A)A:贝叶斯网络法 B:对照组的选择 C:重复样本的使用 D:随机化原则10、构建序列进化树的一般步骤不包括:(A)A:建立DNA文库 B:建立数据模型 C:建立取代模型 D:建立进化树11、下列中属于一级蛋白质结构数据库的是:(C)A. EMBLB. DDBJC. PDBD.SWISS-PROT12.蛋白质结构预测分为:(B)A.一级和三级结构预测 B. 二级和空间结构预测C. 三级和空间结构预测D. 二级和三级结构预测13.数据挖掘的四个步骤不包括下列哪个:(C)A. 数据选择B. 数据转换C. 数据记录D. 结果分析14.下列哪项不是生物学研究必备的工具:(A)A.数据分析B.数据统计C.因素分析D.多元回归分析15.Linux中rmdir 命令的功能是:(D)A.改变工作目录 B.删除工作目录C. 创建目录D.删除空目录16.BLAST教案所程序中,哪个方法是不存在的?(D)A:BLASTP B:BLASTN C:BLASTX D:BLASTQ17.下列哪个不是蛋白质结构模型?(D)A:同源性模型 B:折叠识别 C:ab initio折叠 D: MoLScript结构18.人类基因组的结构特点不包括:(A)A:基因进化 B:基因数目 C:基因重复序列 D:基因组复制19、下列哪个选项不是微阵列实验设计的内容?(A)A:贝叶斯网络法 B:对照组的选择 C:重复样本的使用 D:随机化原则20、构建序列进化树的一般步骤不包括:(A)A:建立DNA文库 B:建立数据模型 C:建立取代模型 D:建立进化树三、填空题1、数据格式的建立、数据的准确性和质量控制、方便的数据搜寻方式以及数据的及时更新是数据库建立和维护中的重要问题。
2012生物信息学复习题一、选择题1. 根据PAM打分矩阵,下列哪个氨基酸最不容易突变?A) 丙氨酸 B) 谷氨酰胺 C) 甲硫氨酸 D) 半胱氨酸2. 下列哪个句子最好描述了两序列全局比对和局部比对的不同?A) 全局比对通常用于DNA序列,而局部比对通常用于蛋白质序列;B) 全局比对允许间隙,而局部比对不允许间隙;C) 全局比对寻求全局最大化,而局部比对寻求局部最大化;D) 全局比对比对整条序列,而局部比对寻找最佳匹配子序列3. 与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别在哪里?A) 它最好用于比对相关性很近的序列; B) 它是基于近相关蛋白的全局多序列比对;C) 它是基于远相关蛋白的局部多序列比对; D) 它结合了局部和全局比对信息4. 全局比对算法(如Needleman-Wunsch算法)是这样一种算法:A) 把两条比较的蛋白质放到一个矩阵中,然后通过穷尽搜索每一个可能的比对组合来寻找最佳分值的比对;B) 把两条比较的蛋白质放到一个矩阵中,然后通过迭代递归的方法找到最佳的分值;C) 把两条比较的蛋白质放到一个矩阵中,然后通过寻找最佳子序列的方法来找到最佳的比对;D) 能用于蛋白质,但不能用于DNA序列5. 数据库搜索中或双序列比对中,敏感性定义为:A) 搜索算法寻找真阳性(即同源序列)和避免假阳性(即不相干序列,但具有高相似分值)的能力;B) 搜索算法寻找真阳性(即同源序列)和避免假阳性(即没有被搜索算法报告的同源序列)的能力;C) 搜索算法寻找真阳性(即同源序列)和避免假阴性(即不相干序列,但具有高相似分值)的能力;D ) 搜索算法寻找真阳性(即同源序列)和避免假阴性(即没有被搜索算法报告的同源序列)的能力;6. 如有一小段DNA序列,基本上它能编码多少种蛋白?A)1 B)2 C)3 D)67. 有一段DNA序列,如想知道在主要的蛋白质数据库中哪一个与该DNA编码的蛋白最接近,你会选择用哪一个程序?A)blastn B)blastp C)blastx D)tblastx E)tblastn8. blast检索的哪一种输出估计了假阳性的数目?A)E值 B)Bit score C)Percent identity D)Percent positives9. 将下面哪个blast参数改变后会得到更少的检索结果?A)关闭low-complexity filter B)将期望值从1变为0C)提高极限值 D)将打分矩阵从PAM30改为PAM7010.极值分布A)描述了对数据库的query的scores的分布 B)比正态分布的总面积大C)对称 D)形状可用两个参数来描述,即 µ(平均值)和 λ(衰减系数)11.当blast检索的E值减小时A)K值也减小 B)score变大 C)概率p值变大 D)极值分布偏斜率减小12.标准化的blast score(也称为bit scores)A)是没有单位 B)可在不同的blast检索之间比较,即使使用了不同的打分矩阵C)与使用的打分矩阵无关 D)可在不同的blast检索之间比较,但前提是使用相同的打分矩阵13.在EMBL和NCBI数据库中未加工的DNA序列(与注释序列相比)是A)完全重叠了 B)很大程度上重叠了,不过序列不同 C)相对只有一点重叠14.下面的哪种工作,PSI-BLAST搜索最为有效A)在老鼠中找一个人类蛋白质的同源蛋白 B)在数据库查询中找到更多的匹配蛋白 C)在数据库查询中找到更多的匹配DNA序列 D)用模式序列或者信号序列加强数据库搜索15.下面的哪种blast程序是用氨基酸的信号序列在一个蛋白质家族中寻找匹配的?A)PSI-BLAST B)PHI-BLAST C)MS BLAST D)WormBLAST16.下面的哪种blast 程序用来分析免疫球蛋白最好?A)RPS-BLAST B)PHI-BLAST C)IgBLAST D)ProDom17.在一个位点特异性打分矩阵中,列中可以有20种氨基酸。
名词解释1)生物信息学:生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
2)人类基因组计划: 是由美国科学家于1985年率先提出,于1990年正式启动的,宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
3)基因芯片:又称DNA阵列或DNA芯片是一块带有DNA微阵列(micorarray)的特殊玻璃片或硅芯片片,在数平方厘米之面积上布放数千或数万个核酸探针;检体中的DNA、cDNA、RNA等与探针结合后,借由荧光或电流等方式侦测。
4)中心法则:是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。
也可以从DNA传递给DNA,即完成DNA的复制过程。
5)一级数据库:一级数据库主要包括原始数据,例如DNA序列、蛋白质序列和蛋白质结构等信息。
数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。
名词辨析1)信息技术与生物信息学:信息技术是研究信息的获取、传输和处理的技术,由计算机技术、通信技术、微电子技术结合而成,即是利用计算机进行信息处理,利用现代电子通信技术从事信息采集、存储、加工、利用以及相关产品制造、技术开发、信息服务的新学科。
生物信息学是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
2)基因与基因组:基因是指具有遗传效应的DNA片段。
而基因组指的是单倍体细胞中的全套染色体,或是单倍体细胞中的全部基因。
3)相似性与同源性:相似性是指不同染色体之间基因序列的相似或相异程度。
同源性是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。
1. 在NCBI进行BLAST序列比对时,需要输入查询序列的信息,以下错误的格式是( C )A. 序列的accession numberB. 序列的giC. 序列对应基因的IDD. FASTA 格式的序列2. 下面这段序列是: ( B )>gi||ref|| Drosophila melanogaster RNA-binding protein 4 CG9654-RA, transcript variant A (Rbp4),mRNAGGATTTTCTTGCCTGTCA TTCAA TTTGTGGTTGGCTTCACCTGAGTGCTGTAGT。
A. DNA序列B. RNA序列C. 蛋白质序列D. 基因3. ExPASy上的工具软件ProtParam提供的是哪一种类型的服务?( B )A.蛋白质三级结构分析B.蛋白质序列理化性质预测C.蛋白质二级结构分析D.跨膜结构分析4. 假设你有两条远相关的蛋白,为了比较它们,最好利用下列哪个记分矩阵(A )A. BLOSUM45或PAM250B. BLOSUM45或PAM1C. BLOSUM80或PAM250D. BLOSUM10或PAM15. 构建系统发生树,应利用CA. BLASTB. FASTAC. UPGMAD. Entrez6. 下面这段蛋白质序列是什么格式? ( D )>gi|4506183|ref|| proteasome alpha 3 [Homo sapiens]MSSIGTGYDLSASTFSPDGRVFQVEYAMKA VENSSTAIGIRCKDGVVFGVEKLVLS KL YEEGSNKRLFNVDRHVGMA V AGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRV AMYVHAYTL YSA VRPFGCSFMLGS。
A. GBFFB. TEXTC. PDBD. FASTA7. 直系同源物概念为(A )A.不同物种中具有一路先人的同源序列B.具有较小的氨基酸一致性可是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的而且一般是冗余功能的同源序列8. 美国NIH保护提供的DNA序列数据库是:( A )A. GenBankB. ProteinC. dbESTD. dbSNP9. 高分派对片段的英文缩写为(A )A. HSPB. HMPC. HCPD. HDP10. BLAST比对结果报告中有一统计数值E值,该值大小与匹配度的关系是( B )A. 值越小说明匹配度越低B. 值越小说明匹配度越高C. 二者无内在关系D. 以上说法都不对11. NCBI提供了大量的序列分析工具,其顶用来寻觅DNA序列潜在的蛋白质编码区的工具是:(A )A. ORF FinderB. BLASTC. Scan PrositeD. SAGEmap12. Entrez是哪个网站数据库的检索系统(A )A.NCBIB.PROSITEC.EBID.PDB13. 若是想找一个和查询蛋白远源的蛋白质,下面哪一种方式最可能成功? BA.采用PHI-BLAST,因为你能自己选择一个和搜索蛋白质有关的信号序列B.采用PSI-BLAST,因为那个算法利用位点特异性打分矩阵最为敏感C.采用BLASTP,因为你能够调整你的打分矩阵从而使得搜索敏感度最大D.采用专门的物种数据库,因为他们中可能含有这种远源序列。
生物信息技术考试试题一、选择题(每题 3 分,共 30 分)1、以下哪个不是生物信息学的主要研究内容?()A 基因组学B 蛋白质组学C 细胞学D 代谢组学2、生物信息学中用于序列比对的常用算法是()A 动态规划算法B 贪心算法C 分治算法D 回溯算法3、在基因表达数据分析中,常用的标准化方法是()A RPKMB TPMC FPKMD 以上都是4、以下哪种数据库主要用于存储蛋白质结构信息?()A GenBankB PDBC UniProtD Ensembl5、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是6、以下哪个软件不是用于基因序列分析的?()A Primer PremierB SPSSC DNAStarD Vector NTI7、生物信息学中,预测蛋白质二级结构的方法不包括()A 基于同源建模B 基于机器学习C 基于物理化学原理D 基于经验规则8、在生物信息学中,BLAST 程序主要用于()A 序列比对B 进化分析C 基因预测D 蛋白质结构预测9、以下哪种编程语言在生物信息学中应用较为广泛?()A JavaB PythonC C++D Fortran10、用于分析基因芯片数据的软件包是()A R 语言中的 BioconductorB MATLABC StataD SAS二、填空题(每题 3 分,共 30 分)1、生物信息学中的三大核心数据库是_____、_____、_____。
2、基因序列的相似性搜索常用的工具是_____。
3、蛋白质的一级结构是指_____。
4、常见的基因注释数据库有_____、_____等。
5、系统发育树的构建基于_____的原理。
6、生物信息学中常用的数据格式有_____、_____等。
7、预测蛋白质三级结构的方法主要有_____、_____。
8、基因表达数据的差异分析常用的方法有_____、_____。
9、用于分析高通量测序数据的软件有_____、_____。
1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2; protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1; protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。
(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。
序列比对结果比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。
(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。
1.将蛋白序列保存为FASTA格式,存于txt文档;2.用Clustalx打开txt文本,保存为*.phy文件;3.用seqboot程序打开phy文件,输出结果文件*_seqboot4.用protdist程序打开*_seqboot文件,输出为*_protdist文件5. 用neighbor程序打开*_protdist文件,输出为*_neighbor文件6. 用consense程序打开*_neighbor文件,输出为*_consense文件7.用dratree程序打开*_consense文件得到进化树。
(注:由于seqboot软见无法正常运行,因此进化树无法显示)(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。
选择protein3: NP_190855.1一级结构网址:/tools/protparam.htmlNumber of amino acids: 456 氨基酸数目Molecular weight: 51154.5 相对分子质量Theoretical pI: 8.69 理论 pI 值Amino acid composition 氨基酸组成Ala (A) 30 6.6%Arg (R) 28 6.1%Asn (N) 15 3.3%Asp (D) 27 5.9%Cys (C) 5 1.1%Gln (Q) 18 3.9%Glu (E) 28 6.1%Gly (G) 37 8.1%His (H) 16 3.5%Ile (I) 16 3.5%Leu (L) 42 9.2%Lys (K) 32 7.0%Met (M) 5 1.1%Phe (F) 17 3.7%Pro (P) 16 3.5%Ser (S) 46 10.1%Thr (T) 21 4.6%Trp (W) 8 1.8%Tyr (Y) 19 4.2%Val (V) 30 6.6%Pyl (O) 0 0.0%Sec (U) 0 0.0%(B) 0 0.0%(Z) 0 0.0%(X) 0 0.0%正/负电荷残基数Total number of negatively charged residues (Asp + Glu): 55Total number of positively charged residues (Arg + Lys): 60Atomic composition: 原子组成Carbon C 2270Hydrogen H 3531Nitrogen N 645Oxygen O 686Sulfur S 10Formula: C2270H3531N645O686S10 分子式Total number of atoms: 7142 总原子数Extinction coefficients: 消光系数Extinction coefficients are in units of M-1 cm-1, at 280 nm measured in water.Ext. coefficient 72560Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines Ext. coefficient 72310Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reducedEstimated half-life: 半衰期The N-terminal of the sequence considered is M (Met).The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).>20 hours (yeast, in vivo).>10 hours (Escherichia coli, in vivo).Instability index: 不稳定系数The instability index (II) is computed to be 48.99This classifies the protein as unstable.Aliphatic index: 75.26 脂肪系数Grand average of hydropathicity (GRAVY): -0.554 总平均亲水性/tools/protscale.html蛋白质亲疏水性分析所用氨基酸标度信息Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500 Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900 Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900 Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490分析所用参数信息Weights for window positions 1,..,9, using linear weight variation model:1 2 3 4 5 6 7 8 91.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00edge center edge跨膜结构预测结果(没有跨膜结构)信号肽分析:二级结构预测三级结构预测网站/~phyre2、在拟南芥基因组数据库中(/)查找编号分别为At4G33050, At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。
1单选(以下哪位科学家获得了两次诺贝尔奖?A.桑格(Frederick Sanger)B.沃森(James Waston)C.霍利(Robert W.Holley)D.克里克(Francis Crick)2单选(被称为“DNA之父”的是哪位科学家?A.摩尔根(Thomas H.Morgen)B.沃森(James Waston)C.查加夫(Erwin Chargaff)D.桑格(Frederick Sanger)3单选(被称为“计算机之父,人工智能之父”的是哪位科学家?A.莱布尼兹(Gottfried W Leibniz)B.图灵(Alan Mathison Turing)C.帕斯卡(Blaise Pascal)D.桑格(Frederick Sanger)4单选(被称为“现代实验生物学奠基人”的是哪位科学家?A.摩尔根(Thomas H.Morgen)B.达尔文(Charles Darwin)C.桑格(Frederick Sanger)D.孟德尔(Gregor J.Mendel)5单选(被称为“遗传学的奠基人,现代遗传学之父”的是哪位科学家A.孟德尔(Gregor J.Mendel)B.沃森(James Waston)C.查加夫(Erwin Chargaff)D.摩尔根(Thomas H.Morgen)1单选(从GenBank的哪一项注释中可以找到关于编码蛋白的信息?A.CDSB.SOURCEC.RBSD.ORIGIN2单选(以下关于GenBank的描述,哪个是正确的?A.GenBank里的一条数据库记录对应一个完整的基因。
B.真核生物的基因经常是分段存储在多条GenBank数据库记录里。
C.真核生物的基因都是整个存储在GenBank的一条数据库记录里。
D.原核生物的基因都是分片段存储在多条GenBank数据库记录里。
3多选(以下关系式正确的是?A.1T=1,000GB.1G=1,000MC.1G=1,000,000KD.1T=1,000,000M4(GenBank数据库中的检索号(Accession)和基因座名(Locus)指的都是一条序列在数据库中的编号,他们永远都是相同的。
填空题:1、蛋白质结构数据来源:①实验测定方法: X-ray 、 NMR 、Cryo-EM ②理论预测:同源建模、折叠识别、从头计算2、一级数据库:①一级核酸数据库:Genbank(美国)、EMBL (欧洲)、DDBJ(日本) NCBI②一级蛋白质序列数据库:SWISS-PORT 、PIR 、 NCBI③一级蛋白质结构数据库:PDB、 pfam 、 prosite大分子序列格式:fasta数据库基本文件格式:genbank蛋白质分类数据库:SCOP、CATH 、 FSSP二次数据库: GDB 、 Prosite、 TRANSFAC3、本地软件: Clustal-x 、 BioEdit 、 Mega、 sequencher、 spdbv、 Discovery-studio4、本课程主要理论依据:相似性、同源性、序列比对(3D结构比对)、数学方法、分子动力、分子力学5、基因鉴定三步骤:①找到序列中的非编码区(低复杂度区)②找基因③鉴定找到的基因6、主要的生物大分子数据:①DNA:基因组序列、基因序列、cDNA、EST、碱基修饰DNA 功能模块 /位点(如启动子、剪接体、表达调控位点等)②蛋白质:氨基酸组成、氨基酸序列、理化性质、原子坐标;二级结构、核体、结构域、功能域 /位点; 3D 结构常见的生物信息数据记录格式:FASTA 、GenBank、EMBL、 PDBFASTA 格式:序列文件的第一行由大于符号>大头的任意文字说明,主要为标记序列用。
从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号,通过核苷酸符号大小写均可,而氨基酸一般用大写字母。
文件中和每一行都不要超过80 个字符(通常60 个字符)GenBank格式:序列名称、长度。
日期;序列说明、编号、版本号;物种来源、学名、分类60学位置;相关文献作者、题目、刊物、日期;序列特征表;碱基组成;序列本身(每行个)二 .填空题1.常用的三种序列格式: NBRF/PIR,FASTA 和 GDE2.初级序列数据库: GenBank, EMBL 和 DDBJ3.蛋白质序列数据库: SWISS-PROT 和 TrEMBLPIR (蛋白4. 提供蛋白质功能注释信息的数据库:KEGG (京都基因和基因组百科全书)和质信息资源) 5. 目前由 NCBI 维护的大型文献资源是PubMed6.数据库常用的数据检索工具: Entrez, SRS, DBGET7.常用的序列搜索方法: FASTA 和 BLAST8.高分值局部联配的 BLAST 参数是 HSPs(高分值片段对), E(期望值) 9. 多序列联配的常用软件: Clustal10.蛋白质结构域家族的数据库有:Pfam, SMART11. 系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法12. 系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法13. 常用系统发育分析软件:PHYLIP 14.检测系统发育树可靠性的技术: bootstrapping 和 Jack-knifing 15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的16. 检测原核生物ORF 的程序: NCBI ORF finder17. 测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)18.二级结构的三种状态:α螺旋,β折叠和β转角19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层20.通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER ( SWISS — MODEL 网站) 21. 蛋白质质谱数据搜索工具:SEQUEST 22. 分子途径最广泛数据库:KEGG23. 聚类分析方法,分为有监督学习方法,无监督学习方法24. 质谱的两个数据库搜索工具:1、 SEQEST 和 Lutkefi 三大数据库:核酸序列数据库、蛋白质序列数据库、结构数据库世界三大核酸序列数据库:GenBank、 EMBL-Bank 、 DDBJ蛋白质序列数据库:Swiss-Prot、 TrEMBL 、UniProt蛋白质结构数据库:PDB 、SCOP、CATH2、 GenBank 文献、提供了提供的服务:提供了EntrezBLAST 序列类似性检索。
■一、选择题:1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280 D. AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C. LocusLink D. PCR3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D. HTGS5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■PubMed D. PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变: A. 丙氨酸B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80% D. 250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
■一、选择题:1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280D. AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B.Entrez C. LocusLink D. PCR3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D.HTGS5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIMD. HTGS6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez■PubMed D. PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy 中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/YC. F/W/YD. Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变: A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80% D. 250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
一、单选题(题数:105,共20.0 分)1<p>限制性片段长度多态性标记是()A、RFLPB、SNPC、SSRD、RAPD2从cDNA文库中获得的短序列是A、STSB、UTRC、CDSD、EST3orthologs的意思是()A、并系同源B、旁系同源C、直系同源D、横向同源4LCR的含义是A、编码区B、非编码区C、低复杂度区域D、开放阅读框5HTGS的含义是A、表达序列标签B、序列标签位点C、高通量基因组序列D、人工合成序列6()年美国国会批准正式启动人类基因组计划?()年发表草图?A、<p>1990 2004</p>B、<p>1990 2001</p>C、<p>1988 2004</p>D、<p> 1988 2001</p> 7在使用动态规划进行序列比对时,比对结果是唯一的吗?()A、唯一B、不唯一8Blast结果中HSP的含义是()A、空位B、期望值C、过滤D、高计分配对片段9RGP是()A、在线人类孟德尔遗传数据B、国家核酸数据库C、人类基因组计划D、水稻基因组计划10一种替换在自然界中越容易发生,则这种替换在打分矩阵中对应的数值( )A、越小B、越大11如:我要查找RaoY在Nature 或Science上发表的论文,哪一个检索语言是正确的?A、Rao Y[au] AND Nature OR Science[Journal]B、Rao Y[au] AND (Nature[Journal] OR Science[Journal])C、Rao Y[au] AND Nature[Journal] OR Science[Journal]D、Rao Y[au] AND (Nature OR Science)[Journal]12<p style=";margin-bottom:0"><span style="font-size:14px;font-family:OpenSans;color:#333333">序列比对算法哪年出现()年A、1977B、1988C、1970D、199113微卫星标记是()A、RFLPB、SNPC、SSRD、RAPD14CDS的含义是A、编码区B、非编码区C、低复杂度区域D、非调控区15下列哪一个是基于字母特征的系统发生分析的算法A、Kimura算法B、邻接法C、最大似然法D、PAUP16序列比对算法哪年出现()年A、1977B、1988C、1970D、199117PIR是()A、核酸数据库B、mRNA数据库C、启动子数据库D、蛋白质数据库18下列属于没有同义密码子编码的氨基酸是()A、精氨酸B、亮氨酸C、甲硫氨酸D、丝氨酸19用遗传学算法对蛋白质序列进行比对软件是()A、ProbConsB、SAGAC、ClustalWD、T-CoffeeE、MAFFT20DDBJ的含义是A、美国国家生物信息中心B、欧洲分子生物学实验室C、日本DNA数据库D、中国基因组研究中心21如:我要查找RaoY在Nature 或Science上发表的论文,哪一个检索语言是正确的?A、Rao Y[au] AND Nature OR Science[Journal]B、Rao Y[au] AND (Nature[Journal] OR Science[Journal])C、Rao Y[au] AND Nature[Journal] OR Science[Journal]D、Rao Y[au] AND (Nature OR Science)[Journal]22<p>Proteomics的含义是A、生物信息学B、基因组学C、蛋白质组学D、表观遗传学23目前应用于基因芯片表达数据统计分析的主要方法是()。
一、名词辨析(每题5分,共20分)1、基因与基因组:Gene 基因:遗传功能的单位。
它是一种DNA序列,在有些病毒中则是一种RNA 序列,它编码功能性蛋白质或RNA分子。
Genome 基因组:染色体组,一个生物体、细胞器或病毒的整套基因;例如,细胞核基因组,叶绿体基因组,噬菌体基因组。
2、相似性与同源性:所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。
同源性可以用来描述染色体—“同源染色体”、基因—“同源基因”和基因组的一个片断—“同源片断”必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。
相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
相似性本身的含义,并不要求与进化起源是否同一、与亲缘关系的远近、甚至于结构与功能有什么联系。
3、CDS与cDNA:cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA 的过程。
CDS序列:编码序列,从起始密码子到终止密码子的所有序列。
4、数据库搜索和数据库查询:数据库查询:对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找(又称数据库检索)。
数据库搜索:通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
搜索对象不是数据库的注释信息,而是序列信息。
二、判断题(20分)1、生物信息学可以理解为生命科学中的信息科学。
(√)2、DNA分子和蛋白质分子都含有进化信息。
(√)3、目前生命科学研究的重点和突破点的已完全转移到生物信息学上,已不需要实验做支撑。
(×)4、生物信息学的发展大致经历了三个阶段:前基因组时代、基因组时代和后基因组时代。
(√)5、基因组与蛋白质组一样,都处于动态变化之中。
(×)6、蛋白质三维结构都是静态的,在行使功能的过程中其结构不会改变。
(×)7、生物信息学中研究的生物大分子主要是脂类和多糖。
生物信息学智慧树知到期末考试答案章节题库2024年温州医科大学1.生物信息学的发展机遇与挑战并存,大力发展生物信息学学科,培养生物信息学专门人才,使我国逐渐成为生物信息学研究强国,赶超国际先进水平,可能性不大。
()答案:错2.多序列比对特别适合相似程度很小的序列进行比对。
()答案:错3.中国国家基因组科学数据中心(NGDC),与GenBank/EMBL/DDBJ一起被人们并称国际四大核酸数据库。
()答案:对4.Fasta格式的数据比Genbank格式的数据更加详细。
()答案:错5.假基因是指无功能性基因产物的基因。
()答案:对6.AlphaFold预测的蛋白质3D结构可以与冷冻电子显微镜、核磁共振或 X 射线晶体学等实验技术解析的3D结构相媲美。
()答案:对7.Blast算法是一种基于全局序列比对的序列比对算法。
()答案:错8.系统进化树根据是否有外群分为哪些种类()。
答案:有根树###无根树9.下列哪些基因组特性随生物的复杂程度增加而上升?()答案:单个基因的平均大小###基因组大小###基因数量10.通常使用()展示转录组分析结果。
答案:GO和KEGG###韦恩图###热图###火山图11.关于DeepMind公司开发的AlphaFold人工智能系统,以下说法正确的是()。
答案:AlphaFold能够基于氨基酸序列精确地预测许多蛋白质的3D结构###AlphaFold的功能仍在不断提升###AlphaFold系统能够在配体、蛋白质、核酸以及翻译后修饰等方面生成高度精确的结构预测###AlphaFold系统可以帮助科学家识别和设计潜在的药物新分子12.下列哪些调控方式是真核生物基因表达所特有的,而原核生物基因表达不具有的()。
答案:组蛋白修饰13.以下关于PubMed的描述错误的是()。
答案:任何生命科学领域的论文都可以从PubMed下载全文14.答案:己15.在基因组组装中,如何处理测序错误和变异?()答案:使用特定的算法来检测和处理测序错误和变异16.在Linux中,如何复制一个文件?()答案:cp file1 file217.真核生物编码蛋白质的基因核苷酸序列是不连续的,称为()。
生物信息学答题卷考题一:到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列,写出序列名称、登录号及来源物种的分类情况,然后用Blast(注意:写出所用程序及所搜索的数据库名称)搜索到数据库中和它相似程度较高的10条序列(写出这些序列的名称和登陆号及来源物种的分类情况。
要求至少包括3-4个属,每个属中选择1-2个种),对这10条序列进行多序列比对后(写出比对所用程序及比对结果),使用phylip软件,用距离法对它们进行分子进化分析(包括对进化树进行统计评估),说明这种蛋白质的进化历程(60分)。
答:(1)到蛋白质序列数据库中查询一条杆状病毒(Baculovirus)DNA聚合酶(DNA polymerase)的完整序列如下:完整序列(ORIGIN):1 mastdsldtr tfdyasdssf eviiitnaph dydgyielga aarllapfqk nisalwtnaa61 pshkltrnnk nylhvfglfk ylqnynlntk khppeyytik svicdlmmga qgktfdplce121 iktqlcaiqe slneaivtln ghaaadpapr tearelvesl hseyskkltf atdtildhvk181 sikdlvclnk序列名称: capsid protein [Choristoneura fumiferana MNPV]即:云杉卷叶蛾(虎尾松卷叶蛾)颗粒体病毒具体信息:LOCUS NP_848433 190 aa linear VRL06-MAY-2009登录号(ACCESSION): NP_848433来源物种的分类情况SOURCE Choristoneura fumiferana MNPVORGANISM Choristoneura fumiferana MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..190/organism="Choristoneura fumiferana MNPV"/db_xref="taxon:208973"/country="Ireland"(2)然后用Blast搜索和它相似程度较高的10条序列如下:说明:所用程序:blosum62所搜索的数据库名称:swissprot数据库中和它相似程度较高的10条序列1、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVOP 192 aa linear VRL 11-JAN-2011登录号:P24078来源物种的分类情况:SOURCE Orgyia pseudotsugata MNPVORGANISM Orgyia pseudotsugata MNPVViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..192/organism="Orgyia pseudotsugata MNPV"/host="Orgyia pseudotsugata (Douglas fir tussock moth)"/db_xref="taxon:262177"2、RecName: Full=Capsid protein p24名称:RecName: Full=Capsid protein p24LOCUS VP24_NPVAC 198 aa linear VRL 11-JAN-2011登录号:P41678来源物种的分类情况:SOURCE Autographa californica nucleopolyhedrovirusORGANISM Autographa californica nucleopolyhedrovirusViruses; dsDNA viruses, no RNA stage; Baculoviridae;Alphabaculovirus.FEATURES Location/Qualifierssource 1..198/organism="Autographa californica nucleopolyhedrovirus"/host="Lepidoptera (butterflies and moths)"/db_xref="taxon:46015"3、RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliY名称:RecName: Full=Flagellar motor switch phosphatase FliY; AltName: Full=CheY-P phosphatase FliY; AltName: Full=Flagellar motor switch protein FliYLOCUS FLIY_BACSU 378 aa linear BCT 08-FEB-2011登录号:P24073来源物种的分类情况:SOURCE Bacillus subtilisORGANISM Bacillus subtilisBacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.FEATURES Location/Qualifierssource 1..378/organism="Bacillus subtilis"/db_xref="taxon:1423"4、RecName: Full=Uncharacterized protein YjeA名称:RecName: Full=Uncharacterized protein YjeALOCUS YJEA_HAEGA 322 aa linear BCT 30-NOV-2010登录号:Q9ZIY0来源物种的分类情况:SOURCE Avibacterium paragallinarumORGANISM Avibacterium paragallinarumBacteria; Proteobacteria; Gammaproteobacteria; Pasteurellales;Pasteurellaceae; Avibacterium.FEATURES Location/Qualifierssource 1..322/organism="Avibacterium paragallinarum"/db_xref="taxon:728"5、RecName: Full=Protein YOP1名称:RecName: Full=Protein YOP1LOCUS YOP1_USTMA 172 aa linear PLN 08-MAR-2011 登录号:Q4P0H0来源物种的分类情况:SOURCE Ustilago maydisORGANISM Ustilago maydisEukaryota; Fungi; Dikarya; Basidiomycota; Ustilaginomycotina;Ustilaginomycetes; Ustilaginales; Ustilaginaceae; Ustilago. FEATURES Location/Qualifierssource 1..172/organism="Ustilago maydis"/db_xref="taxon:5270"6、RecName: Full=Protein anon-37Cs名称:RecName: Full=Protein anon-37CsLOCUS A37C_DROLE 544 aa linear INV 10-AUG-2010 登录号:O96570来源物种的分类情况:SOURCE Scaptodrosophila lebanonensisORGANISM Scaptodrosophila lebanonensisEukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha;Ephydroidea; Drosophilidae; Scaptodrosophila.FEATURES Location/Qualifierssource 1..544/organism="Scaptodrosophila lebanonensis"/db_xref="taxon:7225"7、RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA名称:RecName: Full=Photosystem I P700 chlorophyll a apoprotein A1; Short=PsaA LOCUS PSAA_SYNPW 767 aa linear BCT 08-FEB-2011登录号:Q9R6U0来源物种的分类情况:SOURCE Synechococcus sp. WH 7803ORGANISM Synechococcus sp. WH 7803Bacteria; Cyanobacteria; Chroococcales; Synechococcus.FEATURES Location/Qualifierssource 1..767/organism="Synechococcus sp. WH 7803"/db_xref="taxon:32051"8、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJE 258 aa linear BCT 08-FEB-2011登录号:Q9PM01来源物种的分类情况:SOURCE Campylobacter jejuniORGANISM Campylobacter jejuniBacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni"/db_xref="taxon:197"9、RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenase名称:RecName: Full=UDP-N-acetylenolpyruvoylglucosamine reductase; AltName:Full=UDP-N-acetylmuramate dehydrogenaseLOCUS MURB_CAMJR 258 aa linear BCT 08-FEB-2011登录号:Q5HSB7来源物种的分类情况:SOURCE Campylobacter jejuni RM1221ORGANISM Campylobacter jejuni RM1221Bacteria; Proteobacteria; Epsilonproteobacteria; Campylobacterales;Campylobacteraceae; Campylobacter.FEATURES Location/Qualifierssource 1..258/organism="Campylobacter jejuni RM1221"10、RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A 名称:RecName: Full=Probable molybdopterin-guanine dinucleotide biosynthesis protein A LOCUS MOBA_METAC 225 aa linear BCT 03-MAY-2011登陆号:Q8TPD6来源物种的分类情况:SOURCE Methanosarcina acetivorans C2AORGANISM Methanosarcina acetivorans C2AArchaea; Euryarchaeota; Methanomicrobia; Methanosarcinales;Methanosarcinaceae; Methanosarcina.FEATURES Location/Qualifierssource 1..225/organism="Methanosarcina acetivorans C2A"/db_xref="taxon:188937"搜索过程附图:(3)对这10条序列进行多序列比对:写出比对所用程序:clustalx比对结果分析:比对所得的以phy为后缀的文件用写字板格式打开后得如下结果: 10 771P24078.1 ---------- ---------- ------MANA DSLDAR-AFS YAPDASFEVIP41678.1 ---------- ---------- ---------- ----TR-NFM YSPDSSLEVVQ9R6U0 ---------- TAKTQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ3AMS5.1 MTISPPERGS DAKSQVEKVD NPATFELFGK PGHFDR-ALA KGPKTTTWVWQ9PM01.1 ------MIID FKKYSSVRIG NEFEVLVLDQ ICDFDG-FLI GGANN----LQ4P0H0 ---------- ---------- -KVEYFVAQI DKELSRYPAL KKFEQTVPVPQ9ZIY0.1 ------SIQT LLSRAKIIAE IRQFFSERGL LEVETPILSE FGVTDVHLSTP24073.2 --IDALLNGT GSTLDEPEIP EVDDLSEMER DAIGEIGNIS FGSSATALSTO96570 ---------E SLSFSGYKLT RRNLYNAPAL KVMGRSVNNS SSNNNDQQQYQ8TPD6.1 ---------- ---------- MSGKTELKPG RTKSRSAIVL AGGRGRRMGMIITNAPNDHD GY---LELNA AARL-LAPFQ KN-ISALWTS ----------IITNSDGDHD GY---LELTA AAKV-MSPFL SNGSSAVWTN ----------NLHANAHDFD SHTSDLEEVS RKIF-SAHFG HLAVIFIWLS GAFFHGARFSNLHANAHDFD AHTSDLQEVS RRIF-SAHFG HLAVIFIWLS GAFFHGARFSLVSPKPKNIG ILGDGFNFIQ ILDR-NKDFI HLRIGCKTKS S---------KAYAALGAFG IFTLFVFFNI AAGF-LTNLL GFFVPAYFS- ----------FSTKLISPFQ KKEKTLWLST SPEYPMKRLL SAGSGAIFQL CKVFRN---ELLNQKVDITT PSVTVIPRSK ISDAFPEPYV AIEVNYTEGF SG--------NLESAKQNTQ IVVIGAGLAG LSAAQHLLRH GFRSTIVLEA TDRYGG---RVEKALLEFEG KTILERLLEN LFRVVDEVIL SVRDIPQKEK ----------……(此处省略约9KB的数据分析结果)以上是多序列比对的纯数据结果,部分数据省略,因为可以从下面的进化树得到具体的分析。
1.什么是生物信息学,如何理解其含义?答:生物信息学有三个方面的含义:1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。
2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。
3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。
它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。
怎样理解生物信息学:生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA 序列中的遗传语言规律:在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据,从而认识代谢、发育、分化、进化的规律。
其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测,并将此类信息与生物体和生命过程中的生理生化信息结合,阐明其分子机制,最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。
2.如何利用数据库信息发现新基因,基本原理?答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式:1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因:利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。
可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。
②基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network2)利用EST数据库发现新基因和新SNPs:数据来源于大量的序列小片段,EST较短,故关键在正确拼接。
方法有基因组序列比对、拼接、组装法等。
■一、选择题: 1. 以下哪一个是mRNA条目序列号: A. J01536 ■. NM_15392 C. NP_52280 D. AAB134506 2. 确定某个基因在哪些组织中表达的最直接获取相关信息方式是: ■. Unigene B. Entrez C. LocusLink D. PCR 3. 一个基因可能对应两个Unigene簇吗? ■可能 B. 不可能 4. 下面哪种数据库源于mRNA信息: ■ dbEST B. PDB C. OMIM D. HTGS 5. 下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS 6. Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq 7. 如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■ PubMed D. PROSITE 8. 比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样 ■ 搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同 9. 天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于: ■ N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10. 直系同源定义为: ■ 不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11. 下列那个氨基酸最不容易突变: A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸 ■ 半胱氨酸 12. PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20% ■. 80% D. 250% 13. 下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化 ■ 全局比对比对整体序列,而局部比对寻找最佳匹配子序列 14. 假设你有两条远源相关蛋白质序列。为了比较它们,最好使用下列哪个BLOSUM和PAM矩阵: ■ BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15. 与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别是:A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■ 它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16. 如果有一段DNA序列,它可能编码多少种蛋白质序列: A. 1 B. 2 C. 3 ■. 6 17. 要在数据库查询一段与某DNA序列编码蛋白质最相似的序列,应选择: A. blastn B. blastp C. tblastn D. tblastp ■ blastx 18. 为什么ClustalW(一个采用了Feng-Doolittle渐进比对算法的程序)不报告E值:A. ClustalW报告E值 ■ 使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19. Feng-Doolittle方法提出“一旦是空隙,永远是空隙”规则的依据是:A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■ 假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留 20. 根据分子钟假说: A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质,分子进化的速率是逐渐减慢的,就如同不准时的钟 ■ 对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定 21. 系统发生树的两个特征是: A. 进化分支和进化节点 ■ 树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22. 下列哪一个是基于字母特征的系统发生分析的算法: A. 邻位连接法(NJ法)B. Kimura算法 ■ 最大似然法(ML)D. 非加权平均法(UPGMA) 23. 基于字母特征和基于距离的系统发生分析的算法的基本差异是:■ 基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列,而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24. 一个操作分类单元(OTU)可指:A. 多序列比对 ■ 蛋白质序列C. 进化分支D. 进化节点 25. 构建进化树最直接的错误来源是:■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26. 第一个被完整测定的基因组序列是: A. 啤酒酵母的3号染色体B. 流感病毒 ■ ФX174 D. 人类基因组 27. 普通的真核生物线粒体基因组编码大约多少个蛋白质: ■ 10 B. 100 C. 1000 D. 10000 28. 根据基因组序列预测蛋白质编码基因的算法的最大问题是: A. 软件太难使用 ■. 假阳性率太高,许多不是外显子的序列部分被错误指定C. 假阳性率太高,许多不是外显子功能未知 D. 假阴性率太高,丢失太多外显子位点 29. HIV病毒亚型的系统演化研究可以: A. 证实HIV病毒是由牛病毒演化而来 ■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染
30. 一个典型的细菌基因组大小约为多少bp: A. 20000 ■. 200000 C. 2000000 D. 20000000 31. 细菌基因组与真核生物基因组分析工具存在较大差异的主要原因是:A. 细菌拥有不同的密码子 B. 细菌没有细胞核C. 细菌很少有基因与真核同源 ■细菌DNA的基因含量、组成结构很不一样 32. 下列具有最小基因组的原核生物可能是:A. 嗜极生物B. 病毒 ■ 胞内细菌D. 杆菌 33. 要证明某大肠杆菌中的某个基因是水平转移而来,需要:A. 分析该大肠杆菌中该基因的GC含量与其他基因是否有很大差异B. 分析该大肠杆菌中该基因的密码子使用与其他基因是否有很大差异C. 系统发生分析该基因与其他物种中基因的同源关系 ■获取以上三个方面的信息 34. C值矛盾是指: A. 某些基因组中核苷酸C的含量少B. 真核生物基因组大小同编码蛋白质的基因个数没有相关性 ■真核生物基因组大小同屋中的复杂性相关性很小D. 真核生物基因组大小同进化上的年龄相关性小 35. 成百上千个4~8bp的重复序列单元最可能出现在: A. 散布性重复序列中 B. 假基因中 ■ 端粒中D. 片段复制区域 36. 从头预测真核基因的原因有:A. 外显子/内含子边界难以确定B. 内含子长度可能只有几个碱基对 C. 编码区域的GC含量并不总是与非编码区相同 ■ 以上三个方面的原因 37. 人类基因组大小大约是多少Mb: A. 130 B. 300 ■3000 D. 30000 38. 各种重复元件在人类基因组中大约占的百分比为: A. 5% B. 25% ■50% D. 95% 39. 蛋白质编码区域占人类基因组百分比是: ■ 1-5% B. 5-10% C. 10-20% D. 20-4-% 40. 人类基因组中GC含量高的区域:A. 基因密度相对较低 ■基因密度相对较高C. 基因密度多变 D. 基因所含密码子相对较少 41. 人类复合孟德尔遗传的基因疾病约占疾病基因的: ■ 1% B. 10% C. 50% D. 60% 42. 单基因疾病趋向于:■ 在普通人群较少见,并且发生时间较早 B. 在普通人群较常见,并且发生时间较早 C. 在普通人群较少见,并且发生时间较晚 D. 在普通人群较常见,并且发生时间较晚 C值真核生物基因组大小同屋中的复杂性相关性很小 Feng-Doolittle假定最近序列空隙应该保留 HIV用于指导开发针对保守蛋白的疫苗 PAM250 80% Refseq源于GenBank,提供非冗余序列信息 比较从E 搜索结果应该相当 成百端粒中 从头以上 单基在普通人群较少见,并且发生时间较早 蛋白1-5% 第一ФX174 各种50% 根据对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定 根据假阳性率太高,许多不是外显子的序列部分被错误指定 构建多序列比对错误 基于字母特征的算法没有定义分支序列的中间数据矩阵 假设BLOSUM45和PAM250 普通10 确定Unigene 人类1% 人类3000 人类基因密度相对较高 如果6 如果PubMed 天冬N/W/Y 为什使用了全局比对 系统树的拓扑结构和分支长度 细菌DNA的基因含量、组成结构很不一样 下列半胱氨酸 下列胞内细菌 下列全局比对比对整体序列 下列最大似然法(ML) 下面dbEST 下面OMIM 要在blastx 要证获取以上 一个200000 一个蛋白质序列 一个可能 以下NM_15392 与PAM它是基于远相关蛋白的局部多序列比对 直系不同物种中具有共同祖先的同源序列
名词解释 1. 生物信息学(bioinformatics):是一门结合生物技术和信息技术从而揭示生物学中新原理的科学。 2. 鸟枪法测序(shotgun method)一种测序方法,包括从基因组中获得随机的、已测序的克隆片段,并且对初始基因的位置一无所知。 3. BLAST:基本局部相似性比对搜索工具。在序列数据库中快速查找与给定的序列具有最优局部对准结果的序列的一种序列对算法。 4. 整体联配(global alignment):对两个核苷酸或蛋白质序列的全长所进行的比对。 5. FASTA:是第一个被广泛使用的数据库相似性搜索算法,这个程序通过扫描序列中“词”的小配对,从而寻找最优局部比对。 6. 算法(algorithm):在计算机程序中包含的一种固定过程。 7. 序列比对(alignment):将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较他们的保守性),这样 评估序列间的相似性和同源性。 8. 多序列比对(multiple sequence alignment):三个或多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或)祖传的残基,则会在该位置插入空位。 9. 最佳联配(optimal alignment):两个序列之间有最高打分值的排列。 10. 空位(gap):在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。 11. 模块替换矩阵(BLUSUM)在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的,每个矩阵被修改成一个特殊的进化距离。 12. 可接受点突变(PAM)一个用于衡量蛋白质序列的进化突变程度的单位。 13. 互补序列(complementary sequence)能够与其他DNA片段根据碱基互补序列(A与T配对,G与C配对)形成两练结构的核苷酸序列。 14. 保守序列(conserved sequence)指DNA分子中的一个核苷酸片段或者蛋白质中氨基酸片段,它们在进化过程中基本保持不变。 15. 邻接片段(contig)与支架(scaffold) 16. 邻接片段:一组在染色体上有重叠区域的DNA片段的克隆; 17. 支架:由序列重叠群拼接而成。 18. 注释(annotation)对数据库中原始的DNA碱基序列添加相关信息(比如编码的基因,氨基酸序列等)或其他的注解。 19. 基因预测(gene prediction)用计算机程序对可能的基因所做的预测,它是基于DNA片段与已知基因序列的匹配程度的。 20. 直系同源(Orthologous)指不同种类的同源序列,他们是在物种的形成事件中从一个祖先序列独立进化而成的,可能有相似功能,也可能没有。 21. 旁系同源(paralogous)是通过类似基因复制的机制产生的同源序列。 22. 替换(substitution)在指定的位置不相同的氨基酸进行连配,如果联配的残基有相似的物化性质,那么替换是保守的。 23. 表达序列标签(EST)一种短的DNA片段,是cDNA分子的一部分,可用来鉴定基因,通常用于基因定位和基因图谱中。 24. 多态性(PolyMorphism)多个个体之间DNA的差异叫多态性。 25. 基因预测(Gene Prediction) 同19 26. 序列模式(Motif)蛋白质序列中短的保守区域,它们是结构域中保守性很高的部分。 27. 结构域(domain):蛋白质在折叠时候与其它部分相独立的一个不连续部分,他有自己独特的功能。 28. 开放阅读框(ORF)位于DNA或RNA上起始密码子与终止密码子之间的序列。 29. 表达谱(profile)一个显示某个同源家族中指定位置打分值和空位罚分的表格,可以用于搜索序列数据库。 30. 分子钟(molecular clock)对于每一个给定基因(或蛋白质)其分子进化率大致是恒定的。 31. 系统发生(phylogeny)是指生物种族的进化历史,亦即生物体在整个进化谱 32. 分子进化树(molecular evolutionary tree)在研究生物进化和系统分类中,常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形成为系统发育树(phylogenetic tree)。