当前位置：文档之家› 生物信息学复习资料(信息管理与信息系统)

生物信息学复习资料(信息管理与信息系统)

1.什么是生物信息学？

生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科，它综合运用数学、计算机科学和生物学的各种工具进行研究，目的在于了解大量的生物学意义。

2.生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什

么？

任务：收集和管理生物分子数据；数据分析和挖掘；开放分析工具和实用软件；生物分子序列比较工具、基因识别工具、生物分子结构预测工具、表达数据分析工具。

内容：（1）序列比对；（2）基因预测；（3）药物设计；（4）蛋白质结构预测；（5）基因调控网络的预测；（6）蛋白质相互作用预测；（7）分子进化分析

3.常用核酸、蛋白、蛋白质结构、相互作用、信号通路数据库

核酸数据库：NCBI、ENA、DDBJ

蛋白质数据库：Expasy、Uniprot

蛋白质结构数据库：SOPMA、prosite、Pfam、myhit、SWISS-MODEL、RasMol

蛋白质相互作用数据库：GO 、David、String、InAct

蛋白质信号通路数据库：KEGG、BioCarta Pathway、Reactome pathway

4.三大核酸数据库都包括哪些？

Gene bank EMBL DDBJ

5.三大生物大分子核心数据库包括哪些？

GenBank核酸序列数据库；UniPROT蛋白质序列数据库；PDB生物大分子结构数据库；

6.Genbank格式与FASTA格式

Genbank

序列以10个为一组，在序列上标注碱基或者氨基酸残基数，查找和检索方便

FASTA格式

序列文件的第一行是由大于符号（＞）打头的任意文字说明，主要为标记序列用。从第二行开始是序列本身，标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可，而氨基酸一般用大写字母，文件中和每一行都不要超过80个字符（通常60个字符）

7.BLAST的主要功能

Blastp:蛋白序列与蛋白库做比对，直接比对蛋白序列的同源性。

Blastn:核酸序列对核酸库的对比，直接比较核酸序列的同源性。

Blastx:核酸序列对蛋白库的对比，先将核酸序列翻译成蛋白序列（根据相位可以翻译成6种可能的蛋白序列），然后再与蛋白库做对比。

Tblastn:蛋白序列对核酸库的对比，将库中的核酸翻译成蛋白序列，然后进行比对。Tbalstx:核酸序列对核酸库在蛋白级别的对比，将库和待查序列都翻译成蛋白序列，然后对蛋白序列进行比对。

8.NCBI中BLAST结果包括哪几部分？

?结果总览图（Graphic summary）

以条状图示对比序列的相似性

?显著性序列列表（Description）

按同源性从高到低排列出数据库比对结果

数据序列标识符、简单描述、分数、E值、登陆号

?行列比较（Aligment）

每个列出的结果都给出Aligment 结果

9.NCBI中BLAST程序允许输入的格式包括哪几种？

剪切然后粘贴DNA或者protein sequence

使用FASTA格式

简单使用检索号（refseq或GI）

10.序列的相似性与同源性

?序列相似性：反映序列之间相似或相同程度。

?序列同源性：反映序列之间在进化上亲缘关系的远近。

?序列相似性越大，序列之间具有同源关系的可能性越大

11.PCR反应中有哪些要素？

①引物②酶及其浓度③dNT P的质量与浓度④模板（靶基因）核酸⑤Mg2+浓度

12.引物设计的一般原则

原则:首先引物与模板的序列要紧密互补，其次引物与引物之间避免形成稳定的二聚体或发夹结构，再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。

13.列举5项DNA序列分析的内容及代表性分析工具？

（1）寻找重复元件：RepeatMasker

（2）同源性检索确定是否存在已知基因：BLASTn

（3）从头开始方法预测基因：Genscan

（4）分析各种调控序列：TRES/DRAGON PROMOTOR FINDER

（5）CpG岛：CpGlot

14.如何获取访问号为U49845的genbank文件,解释如下genbank文件的

LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 。

（1）访问NCBI的Entrez检索系统（2）选择核酸数据库（3）输入U49845序列访问号开始检索。

第一项是LOCUS名称，前三个字母代表物种名

第二项是序列长度

第三项是序列分子类型

第四项是分子为线性的

第五项是GenBank分类码

第六项是最后修订日期

15.BLAST算法的搜索步骤及其在数据库搜索中的主要作用，E值和P值分别是

什么，它们有什么意义？

1、登录blast主页

2、根据数据类型，选择合适的程序

3、填写表单信息

4、提交任务

5、查看和分析结果

E值：这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次

数。这一数值越接近零，发生这一事件的可能性越小。从搜索的角度看，E

值越小，比对结果越显著。默认值为10，表示比对结果中将有10个匹配

序列是由随机产生，如果比对的统计显著性值（E值）小于该值（10），

则该比对结果将被检出，换句话说，比较低的E值将使搜索的匹配要求更

严格，结果报告中随机产生的匹配序列减少。

P值表示对比结果得到的分值的可信度。一般说来，p值越接近于零，则

比对结果的可信度越大；相反，p值越大，则比对结果来自随机匹配的可

能性越大。

16.简述NCBI中Entrez系统的功能。

高级检索系统：查找核酸、蛋白、文献、结构、基因组序列、大分子三维

结构、突变数据、探针序列、单核苷酸多态性等数据。

17.BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用

途什么？

blastn是将给定的核酸序列与核酸数据库中的序列进行比较; Blastp是使用

蛋白质序列与蛋白质数据库中的序列进行比较，可以寻找较远的关系；

Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数

据库中的序列进行比对，对分析新序列和EST很有用；Tblastn将给定的

氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对，对于

寻找数据库中序列没有标注的新编码区很有用; Tblastx只在特殊情况下使

用，它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全

部翻译成蛋白质序列，然后进行蛋白质序列比对。

18.什么是序列比对中使用的PAM矩阵和BLOSUM矩阵，它们的作用是什么，一

般如何选择合适的评分矩阵？

答: PAM矩阵(Point Accepted Mutation)基于进化的点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。-个PAM就是一个进化的变异单位，即1%的氨基酸改变，但这并不意味100次PAM后，每个氨基酸都发生变化，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸。

模块替换矩阵BLOSUM (BL0cks Substi tut ion Matrix)首先寻找氨基酸模式，即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列)，分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后，以所有60%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80%保守性的氨基酸模式之间的比较数据为根据，产生BLOSUM80。

PAM矩阵和BLOSUM矩阵都是用于序列相似性的记分矩阵(scoring matrix)。记分矩阵中含有对齐时具体使用的数值。一般FASTA和BLAST都提供BLOSUM或PAM 系列矩阵供选择，若要进行突变性质的进化分析时可以使用PAM, FASTA 缺省推荐BLOSUM50矩阵。

19.PSI-BLAST and PHI-BLAST

PSI-BLAST:位点特异性反复比对，首先进行一般的blastp比对，从比对结果中构建多序列比对的搜索矩阵，然后用此矩阵在一次搜索原来的数据

库，重复5次直到没有新的结果出现为止。其是一种更加高灵敏度的

Blastp程序，对于发现远亲物种的相似蛋白或某个蛋白家族的新成员。

PHI-B1ast:模式识别BLAST，是一种既能和查询匹配双能和模式匹配的的蛋白序列的比对程序，是一种高灵敏性的blastp程序，-般经过一次搜索即可取得很好的效果，而当一次之后其与PSLBLAST功能是一致的。广泛用于蛋白家族成员的鉴定。

20.全局比对与局部比对的比较及生物学意义

全局比对:对序列的全部字符进行比对，试图使尽可能多的字符实现匹配。

其主要用于序列相似度很高且序列长度相近的序列比对，用于进化的研究和结构的预测。

局部比对:寻找序列间相似度最高的区域，也就是匹配密度最高的部分。其主要应用于某些部位相似度较高而其他部位差异较大的序列的比对，用于寻找保守的核苷酸及蛋白质序列中氨基酸模式。

21.生物信息学数据库的组成包括哪些部分,数据库有哪些类型？

生物信息学数据库的组成包括一级数据库和二级数据库。数据库的类型包括核酸和蛋白质一级结构序列数据库、基因组数据库、生物大分子三维空间结构数据库、以上述3类数据库和文献资料为基础构建的二次数据库。

22.简要介绍 GenBank中的DNA序列格式。

GenBank中的DNA序列格式可以分成三个部分，第一部分为描述符，从第一行LOCUS行到ORIGIN行，包含了关于整个记录的信息；第二部分为特性表，从FEATURES行开始，包含了注释这一纪录的特性，是条目的核心，中间使用一批关键字；第三部分是核苷酸序列的本身。

23.简要介绍FASTA序列格式

FASTA格式，又叫Pearson格式，是最简单的，使用最多的格式。它的基本形式分为三个部分：

⑴第一行：大于号（﹥）表示一个新的序列文件的开始，为标记符。后面可以加上文字说明，gi号，GenBank检索号，LOCUS名称等信息。

⑵第二行：序列本身，为DNA的标准符号，通常大小写均可。

⑶结束：无特殊标志，但建议多留一个空行，以便将序列和其他内容区分开。

24.序列的相似性与同源性有什么区别与联系？

相似性是指序列之间相关的一种量度，两序列的的相似性可以基于序列的一致性的百分比；而同源性是指序列所代表的物种具有共同的祖先，强调进化上的亲缘关系。

25.简述NCBI Entrez系统的功能。

高级检索系统：查找核酸、蛋白、文献、结构、基因组序列、大分子三维结

构、突变数据、探针序列、单核苷酸多态性等数据。

26.以下软件的主要用途是什么？RepeatMasker, CpGPlot, Splice View,

Genscan, ORF finder

RepeatMasker：是对重复序列进行分析的软件

CpGPlot：用来查找一条DNA序列中CpG岛，使用Gardine-Garden和

Frommer描述的方法

Splice View：是对一段序列进行剪接位点的分析即其中的受体和供体位点

Genscan：是一种从头分析工具

ORF finder：是用来分析序列ORF的工具

27.生物信息学的含义是什么,举一个例子说明你对生物信息学的哪方面感兴

趣。

生物信息学的含义:生物分子信息的获取、存贮、分析和利用;以数学为基础，应用计算机技术，研究生物学数据的科学。

生物信息技术在医药领域的应用涉及到新药开发、新诊断技术、预防措施及新的治疗技术，如单克隆抗体、基因诊断、荧光检测、基因芯

片等。其中基因芯片技术可用于包括遗传性疾病、传染性疾病及肿瘤等

疾病的诊断、DNA序列分析、药物筛选、基因表达水平的测定等领域。

28.预测基因的一般步骤是什么？

(1)获取DNA目标序列(2)查找ORF并将目标序列翻译成蛋白质序列，

利用相应工具查找ORF并将DNA序列翻译成蛋白质序列(3)在数据库中进行序列搜索，利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索

(4)进行目标序列与搜索得到的相似序列的全局对比(5)查找基因家族进行

多序列比对，获得比对区段的基因家族信息(6)查找目标序列中的特定模序，分别在Prosite、BLOCK、Motif 数据库中进行profile、模块(block) 、模序(motif)检索(7)预测目标序列蛋白质结构，利用PredictProtein (EMBL)、NNPREDICT等预测目标序列的蛋白质二级结构。

29.简单介绍三大核酸数据库？

NCBI GenBank是由美国国家生物技术信息中心（National Center for Biotechnology Information,NCBI）开放并负责维护。NCBI隶属于美国国立卫生研究院（National Institutes of Health,NIH）。

ENA 欧洲核苷酸序列数据集（European Nucleotide Archive,ENA）由欧洲分子生物学研究室（European Molecular Biology Laboratory,EMBL）开发并负责维护。

DDBJ 日本DNA数据库（DNA DataBank of Japan）由位于日本静冈的日本国立遗传学研究所（National Institute of Genetics，NIG）开发并负责维护。

30.什么是开放式阅读框？开放式阅读框有几种阅读模式？

在分子生物学中，开放阅读框(Open Reading Frame, ORF)从启动子开始，是DNA序列中具有编码蛋白质潜能，结束于终止子连续的碱基序列。

6种。

31.简述多序列比对的用途。

将多个序列同时进行比较，寻找它们之间共同的保守区域。

32.简述真核生物核酸序列的特点。

真核细胞基因的编码区是间隔的、不连续的。

33.RefSeq数据库和GenBank数据库的区别。

GenBank是一个开放的数据库，对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列，另外这个数据库每天都要和EMBL和DDBJ交换数据。

Genbank的数据可能重复或者不准。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复，是NCBI提供的校正的序列数据和相关的信息。

Refseq序列是NCBI筛选过的非冗余数据库，一般可信度比较高。

34.什么是CpGisland，简述其特点？

CpG岛主要位于基因的启动子（promotor）和外显子区域，是富含CpG二核苷酸的一些区域

CpG岛的GC含量大于50%，长度超过200bp

在哺乳动物中CpG以两种形式存在：一种是分散于DNA序列中；另一种呈现高度聚集状态，人们称之为CpG岛（CpG island）。

在正常组织里，70%～90%散在的CpG是被甲基修饰的，而与之相反，富含CpG 二核苷酸的CpG岛，则往往非甲基化的。

35.分析重复序列的作用，举例在线分析工具。

作用：

在寻找编码基因过程中排除干扰

研究微卫星体

研究进化过程

研究重复序列与人类疾病的关系

工具：

1. CENSOR https://www.doczj.com/doc/6514146100.html,/censor/index.php ）

2. REPEATMASKER https://www.doczj.com/doc/6514146100.html,/

36.什么是基因富集分析，举例在线分析工具。

富集分析方法通常是分析一组基因在某个功能结点上是否过出现（over-presentation）。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。

由于分析的结论是基于一组相关的基因，而不是根据单个基因，所以富集分析方法增加了研究的可靠性，同时也能够识别出与生物现象最相关的生物过程。

DAVID。

a)什么是非编码序列，非编码RNA，非编码基因？

非编码序列是基因组中不编码蛋白质和多肽的序列；

非编码RNA是基因组中非编码序列的转录产物/转录本；

功能性的非编码RNA对应基因组上的位置称为非编码基因。

b)以人的基因组为例回答：在基因组中有多少非编码序列，有多少存

在转录本，举2~3个非编码核酸的生物学功能？

人类基因组中97~98%的序列是非编码序列，有70%~ 80%存在转录本，非编码核酸的生物学功能；

1) Xist.X-nactivation (X染色体失活)是哺乳动物的一种剂量补偿机

制，其中一半拷贝转录波抑制从而失活，抑制转录是通过-一个2kb的非

编码RNA (Xist RNA)实现的xistRNA装配在失活x染色体的外侧，引起结

构改变导致失活；

2) Small RNA and RNAi RNAi是由RNA ( siRNA、microRNA)导致的

转录后基因沉默现象，如由双链小RNA引起的干扰和转录后基因沉默现

象，在植物病毒抗性和线虫中的转座子沉默:一些小核RNA调控基因转

录。(单链易降解，但发现细胞中存在另-种pathway,双链小RNA进入细

胞后结合组蛋白形成复合体,该复合体和识别并降解target)；

3) piRNA (具有大量转录本，功能不详)和Prions (生物复杂度到一定程度

后会出现发病情况，可能和非编码RNA有关)等。

37.请说出本学期接触到的三个生物信息学重要网站

NCBI、EMBL、Expasy

38.对蛋白质进行亚细胞定位，可以从几个角度进行分析？

分泌性蛋白：信号肽

线粒体蛋白：蛋白前体

细胞膜蛋白：跨膜螺旋和锚定蛋白

细胞核定位信号

39.当对一个蛋白质进行生物信息学分析时，我们可以从那几个维度进行分析

①蛋白质序列和辨识相似性搜索、比对蛋白家族、模式转录后修饰

②蛋白结构

③蛋白亚细胞定位

④蛋白相互作用

40.GO（Gene Ontology）分析的三个方面是什么？

分子功能（Molecular Function，MF）

生物过程（biological process，BP）

细胞组分（cellular component，CC）

41.蛋白质翻译后修饰对其功能有重要作用，请说出三个蛋白质常见的蛋白质

修饰方式

磷酸化、糖基化、乙酰化

42.如果一个蛋白质序列发生一个氨基酸残基的丢失，可能造成什么影响？

蛋白质结构可能发生变化，也可能不变。

43.对一个蛋白质进行结构域和motif分析，常用软件是？

Prosite 、Pfam 、myhit

44.蛋白质进行结构预测的基本方法是？

一、分子力学、分子动力学的方法，根据物理化学的基本原理，按照能量

最低原则从理论上预测蛋白质分子的空间结构。

二、通过对已知空间结构的蛋白质进行分析，找出一级结构与空间结构的

关系，总结出规律，用于新的蛋白质空间结构的预测。

45.某同学分析肺癌细胞用药前后的基因表达差异并找出差异基因，下一步需

要分析这些差异基因参与了哪些生物过程，他需要对这个基因进行什么分析？

利用GO进行富集分析。

46.KEGG可以用来干什么？

KEGG是系统分析基因产物在细胞中的代谢途径以及这些基因产物功能的

数据库。KEGG该数据库有助于把基因及表达信息作为一个整体的网络进

行研究。KEGG整合了基因组、化学分子和生化系统等方面的数据，包括

代谢通路（PATHWAY）、药物（DRUG）、疾病（DISEASE）、基因序列

（GENES）及基因组（GENOME）等，包含18个主要数据库。