南京工业大学《生物信息学》期末复习

  • 格式:pdf
  • 大小:326.79 KB
  • 文档页数:9

下载文档原格式

  / 9
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生工1202生物信息学考试参考资料

1、生物信息学的主要应用有哪些?

①生物信息学数据库:数据库建立、数据库整合和数据挖掘

②序列分析:序列比对、基因序列注释

③其他:比较基因组学、基因和蛋白质的表达分析、生物芯片大规模功能表达谱的分析、蛋白质结构的预测、蛋白质与蛋白质的相互作用、生物系统模拟、代谢网络建模分析、计算机进化生物学、生物多样性研究、合成生物学

2、生物学数据库有哪些特点?

①数据库的更新速度不断加快、数据量呈指数增长

②数据库使用频率增长更快

③数据库的复杂程度不断增加

④数据库网络化

⑤面向应用

⑥先进的软硬件配置

3、一级数据库和二级数据库的区别是什么?有哪些一级数据库和二级数据

库?

一级数据库属于档案数据库,库中的主要内容是来源于实验室操作所得到的原始数据结果;二级数据库则是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注释而构成的

一级数据库:核酸序列数据库GenBank、EMBL、DDBL及蛋白质数据库PDB

二级数据库:NCBI的RefSeq数据库

4、数据库的Fasta、Flat file和XML格式各有何特点?

(1)FASTA序列格式包括三个部分:(书上没有PPT第二章第19-20页)

1.在注释行的第一列用字符“>”标识,后面是序列的名字和来源;

2.标准的单字符标记的序列;

3.可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。

提供了从一个窗口到另一个窗口非常方便的拷贝途径,序列中没有数字或其他非字符。

从第二行开始是序列本身,标准核苷酸符号(大小写均可)或氨基酸单字母符号(大写)。

(2)平面文件格式—Flat File

纯文本文件、通用性好、检索复杂,冗余字段较多,大容量数据库难以处理

(3)XML格式(PPT第二章第29、32页)

一个XML文件代表一个嵌套的信息树。树中的每一个节点能包含像一串子节点或者一些属性这样的数据,并且一个XML文件始于根节点。一个XML文件有一个文本,在文本中每一个节点的内容及其子节点被一对相互封闭的标签划定。形式上类似html。

5、GenBank数据库中的GenBank条目包含哪些内容?请结合GenBank中的具体的序列信息加以说明。

GenBank数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。

例:

这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。

在某些条目中,标识符可能缩写成两个字母(例如RF 代表reference),某些字段可能还有次级字段。

计算机程序中的序列条目位于标识符“ORIGIN”和“//”之间。这些字段提供的信息可以参见网页/Sitemap/samplerecord.html

序列每行前面标有数字,以显示片断位置。序列计数或序列校检求和的值可被计算机程。用来鉴定序列成分,所以除非程序本身也改变计数,序列计数是不能被改变的。

GenBank 序列格式通常需要改变以适应序列分析软件。

6、蛋白质序列数据库有哪些?

SWISS-PROT、PIR

7、序列比对在什么情况下选择核苷酸序列?在什么情况下选择蛋白质序列?

核苷酸序列:①在确认给定DNA 序列和DNA 数据库中的序列的一致性时②在搜索多态性时③在分析所克隆的cDNA 片段的一致性时

蛋白质序列:由于蛋白质序列比DNA 所含信息多,所以除以上情况外用蛋白质序列

8、请比较同源性、同一性和相似性三个概念。

同源性:是指从某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,是质的判断

同一性:是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例

相似性:两序列间直接的数量关系,如部分相同,相似的百分比或其他一些合适的度量

9、举例说明何为直系同源,何为旁系同源?

LOCUS name of locus,length and type of

sequence,

classification of organism,data of entry

DEFINITION desicription of entry

ACCESSION

accession number of original source KEYWORDS

key words for cross referencing this entry SOURCE source organism of DNA

10、总结BLAST比对程序家族的主要程序,如何选择?

11、解读BLAST程序的比对结果所代表的含义。

(1)该搜索的详细情况,包括BLAST搜索的类型、所搜索的数据库的描述、查询内容和分类连接(taxonomy reporter)

(2)显示的是数据库中与查询序列相匹配的项的简明图形。每一条彩色带表示数据库中与查询序列相匹配的蛋白质或核酸序列,不同颜色表示不同高低的得分。

(3)与查询序列相匹配的数据库中的序列列表。每一条序列包括其Score(bits)、E value 及该序列在相应数据库中的链接。

(4)查询序列与目标序列之间的双序列比对情况。Score为位记分分数;Expect为期望值;Positives为相似性分值;Identities为同一性分值;Gaps为空位。

12、如何寻找远缘相关的蛋白质?

PSI-BLAST是位点特异性迭代BLAST,用来寻找远缘相关的蛋白质序列,对于蛋白质的相似序列的寻找比常规blastp更敏感。

PSI-BLAST工具的比对步骤为:

(1)用blastp在目标数据库中进行比对搜索;

(2)从第一步中获得的结果构建多序列对比,根据多序列比对构建一个位点特异性矩阵PSSM;

(3)用第二步获得的PSSM矩阵再一次搜索目标数据库;

(4)位点特异性反复比对后用缺失比对的参数检验每个匹配的统计显著性;反复执行2~4步,一般要重复5次,而当新的结果不再出现或者程序明确指出不会再有新的结果出现时,