《生物信息学》大作业参考模板-2016

格式：pdf
大小：1000.22 KB
文档页数：15

下载文档原格式

生物信息学习题集

生物信息学课堂操作练习一、生物信息学科的发展和研究内容通过下列internet上的自教课程，初步了解不同的数据库和分析工具/2can/Education二、生物数据库1. 熟悉各种数据库。

2. 重点了解GenBank和SWISS-PROT所包含的各种功能和适用范围。

三、关键词或词组为基础的数据库检索1. 熟练掌握Entrez检索体系。

2. 查找与水稻抗病基因Xa21有关的资料(1) 由多少碱基构成？编码多少个氨基酸？(2) exon和intron的位置？(3) 是否有3－D structure数据？1) 由多少碱基构成？编码多少个氨基酸?4623b.p., 1025A.a.;2) exon和intron的位置?Exon: 24~2700,3543~3943 intron: remaining;3) 是否有3－D structure数据?没有.3. 查找C. elegans基因组的资料。

(1) chromosome I的测序是否已完成？(2) 已知的chromosome I的序列有多少碱基？序列发表在哪份杂志上？期号和页码？1) chromosome I的测序是否已完成?完成.2) 已知的chromosome I的序列有多少碱基? 序列发表在哪份杂志上? 期号和页码? 15.0724Mb.p.(15072421b.p.), Science 1999 Jan 1;283(5398):35.4. 查看人类基因组第1染色体上基因的分布。

/mapview/maps.cgi?ORG=hum&MAPS=ideogr,est,loc&LINKS= ON&VERBOSE=ON&CHR=15. 查看Arabidopsis的系谱树，以及Arabidopsis第1染色体上的序列。

比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同(/Taxonomy/Browser/wwwtax.cgi?id=3701,/mapview/maps.cgi?taxid=3702&chr=1)貌似没什么区别……比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同。

生物信息学（五篇范例）

生物信息学（五篇范例）第一篇：生物信息学生物信息学（Bioinformatics）是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。

它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。

其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。

具体而言，生物信息学作为一门新的学科领域，它是把基因组DNA序列信息分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计。

基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。

从生物信息学研究的具体内容上看，生物信息学应包括这3个主要部分：(1)新算法和统计学方法研究；(2)各类数据的分析和解释；(3)研制有效利用和管理数据新工具。

生物信息学是一门利用计算机技术研究生物系统之规律的学科。

目前的生物信息学基本上只是分子生物学与信息技术（尤其是因特网技术）的结合体。

生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。

1990年代以来，伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。

对生物信息学工作者提出了严峻的挑战：数以亿计的ACGT序列中包涵着什么信息？基因组中的这些信息怎样控制有机体的发育？基因组本身又是怎样进化的？生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。

这个难题已困扰理论生物学家达半个多世纪，如今找到问题答案要求正变得日益迫切。

诺贝尔奖获得者W.Gilbert在1991年曾经指出：“传统生物学解决问题的方式是实验的。

生物信息学作业(一)

生物信息学实验作业一1、了解NCBI、DDBJ、EMBL上网的方法自学各网站相关介绍。

答：（1）、NCBI: （National Center of Biotechnology Information，简称NCBI）美国国立生物技术信息中心。

其主页为：。

NCBI 是在NIH的国立医学图书馆（NLM）的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的，而且这可以建立一个内部的关于计算分子生物学的研究计划。

NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

NCBI有一个多学科的研究小组包括计算机科学家，分子生物学家，数学家，生物化学家，实验物理学家，和结构生物学家，集中于计算分子生物学的基本的和应用的研究。

他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。

这些问题包括基因的组织，序列的分析，和结构的预测。

在1992年10月，NCBI承担起对GenBank DNA序列数据库的责任。

NCBI 受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）交换数据建立起数据库。

同美国专利和商标局的安排使得专利的序列信息也被整合。

BLAST是一个NCBI开发的序列相似搜索程序，还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

NCBI提供的附加的软件工具有：开放阅读框寻觅器（ORF Finder），电子PCR，和序列提交工具，Sequin和BankIt。

所有的NCBI数据库和软件工具可以从WWW 或FTP来获得。

NCBI还有E-mail服务器，提供用文本搜索或序列相似搜索访问数据库一种可选方法。

主要任务：（1）建立关于分子生物学，生物化学，和遗传学知识的存储和分析的自动系统（2）实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的，先进方法的研究（3）加速生物技术研究者和医药治疗人员对数据库和软件的使用。

生物信息学课程作业

生物信息学作业1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results.ANSWER:(1)Use Needle to Align the two sequence：Aligned_sequences: 2# 1: CAA38024.1# 2: NP_001157488.1# Matrix: EBLOSUM62# Gap_penalty: 10.0# Extend_penalty: 0.5# Length: 203# Identity: 43/203 (21.2%)# Similarity: 58/203 (28.6%)# Gaps: 90/203 (44.3%)# Score: 30.0(2)Use Water to Align the two sequence：Aligned_sequences: 2# 1: CAA38024.1# 2: NP_001157488.1# Matrix: EBLOSUM62# Gap_penalty: 14# Extend_penalty: 4# Length: 32# Identity: 11/32 (34.4%)# Similarity: 15/32 (46.9%)# Gaps: 0/32 ( 0.0%)# Score: 35两种软件虽然使用同一罚分标准但得分不同。

因为Needle程序实现标准pairwise全局比对，而Water则是局部比对。

全局比对因为是比对全长序列，所以空位罚分多，得分较局部比对低。

2. Evaluate the significance of the local protein alignment score of question 1 with PRSS and interpret the result.参数如下：Statistics: (shuffled [200]) MLE statistics: Lambda= 0.1886; K=0.0575statistics sampled from 1 (1) to 200 sequencesParameters: VT160 matrix (16:-7), open/ext: -12/-2在两个不同网站选不同矩阵均未得到E值，原因可能是两条序列的同源性很低。

生物信息学作业1.doc

生物信息学实验作业试验一一．找到编码拟南芥（arabidopsis）phyA（光敏色素A）基因的核酸序列编号, 并记录查找过程。

GI：224576211步骤1．进入NCBI主页2．搜索arabidopsis phyA3．Arabidopsis thaliana phytochrome A (PHYA) gene, partial cds4．VERSION：GI：224576211二．以phyA为检索词，在pubmed数据库中分别检索在题目和关键词字段中含有该检索词的文献，记录检索出的条目数目。

Results: 614三．仔细阅读所查询核酸序列在NCBI和EMBL数据库中格式的解释，理解各字段的含义，并比较NCBI 与EMBL中序列格式的异同。

实验二一．分析你感兴趣核酸序列的分子质量、碱基组成。

Composition 35 A; 25 C; 35 G; 15 T; 0 OTHERPercentage: 32% A; 23% C; 32% G; 14% T; 0%OTHERMolecular Weight (kDa): ssDNA: 34.26 dsDNA: 67.8二．列出你所分析核酸序列（或部分序列）的互补序列、反向序列、反向互补序列、DNA双链序列和RNA 序列。

R S1 ACTACTCGAG AAGCAGCGAC AGAGGCGTTA GCCCGCTCAG CAGACTGGCA GTTCTCTACC61 GACAAAAAAG AGGTAGGAGG CACAGTAATG ATACAGGCGT AGCAGGAGGGC S1 CCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 TGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTR C S1 TGATGAGCTC TTCGTCGCTG TCTCCGCAAT CGGGCGAGTC GTCTGACCGT CAAGAGATGG61 CTGTTTTTTC TCCATCCTCC GTGTCATTAC TATGTCCGCA TCGTCCTCCCD DNA S1 GGGAGGACGA TGCGGACATA GTAATGACAC GGAGGATGGA GAAAAAACAG CCATCTCTTGCCCTCCTGCT ACGCCTGTAT CATTACTGTG CCTCCTACCT CTTTTTTGTC GGTAGAGAAC61 ACGGTCAGAC GACTCGCCCG ATTGCGGAGA CAGCGACGAA GAGCTCATCATGCCAGTCTG CTGAGCGGGC TAACGCCTCT GTCGCTGCTT CTCGAGTAGTRNA S1 GGGAGGACGA UGCGGACAUA GUAAUGACAC GGAGGAUGGA GAAAAAACAG CCAUCUCUUG61 ACGGUCAGAC GACUCGCCCG AUUGCGGAGA CAGCGACGAA GAGCUCAUCA三.列出核酸序列的限制性酶切位点分析结果（酶及识别位点）。

生物信息学作业

结论一：这是什么基因1.该基因为人的CD226 抗原分子(CD226),染色体定位18号染色体67624232 -67530192基因标识符：NM_006566.22.功能：细胞粘附功能，整合素结合，蛋白结合，蛋白激酶结合；参与细胞粘合，细胞识别，细胞因子产生，正向调控Fc受体介导的刺激性信号通路，正向调控免疫球蛋白介导的免疫反应，正向调控肥大细胞的活化正向调控NK细胞介导的细胞毒性，正向调控NK细胞介导的针对肿瘤细胞靶标的细胞毒活性，调节免疫反应，信号转导等途径。

结论二：编码的蛋白质序列是怎样的蛋白标识符："NP_006557.2" 336 aa蛋白序列为：MDYPTLLLAL LHVYRALCEE VLWHTSVPFA ENMSLECVYP SMGILTQVEWFKIGTQQDSI AIFSPTHGMV IRKPYAERVY FLNSTMASNN MTLFFRNASE DDVGYYSCSL YTYPQGTWQK VIQVVQSDSF EAAVPSNSHI VSEPGKNVTL TCQPQMTWPV QAVRWEKIQP RQIDLLTYCN LVHGRNFTSK FPRQIVSNCS HGRWSVIVIP DVTVSDSGLY RCYLQASAGE NETFVMRLTV AEGKTDNQYT LFVAGGTVLL LLFVISITTI IVIFLNRRRR RERRDLFTES WDTQKAPNNY RSPISTSQPT NQSMDDTRED IYVNYPTFSR RPKTRV结论三：有没有功能保守的结构序列？该蛋白有Ig的保守结构序列结论四;：它的功能是？功能：细胞黏附相关受体，淋巴细胞信号转导，CTL和NK介导的细胞毒性和淋巴因子分泌亚单元结构：与PVR和PVRL2相互作用亚细胞定位：细胞膜，Ⅰ类信号传播膜蛋白组织特异性：外周血T细胞表达序列：包含2个Ig-like C2型（免疫球蛋白样）结构域结论五：在真核生物中保守吗？在酵母中不存在其同源物，在一些灵长类动物存在一些同源性较高的序列，在其他的哺乳动物如：褐家鼠，野猪等中也存在一些同源性较高的序列。

生物信息学作业

生物信息学作业生物信息学试题1、构建分子系统树的主要方法有哪些？并简要说明构建分子进化树的一般步骤。

（20分）答：（1）构建进化树的方法包括两种：一类是序列类似性比较，主要是基于氨基酸相对突变率矩阵（常用PAM250）计算不同序列差异性积分作为它们的差异性量度（序列进化树）；另一类在难以通过序列比较构建序列进化树的情况下，通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树(2)序列比对——选取所需序列——软件绘制具体如下：a测序获取序列或者在NCBI上搜索所需的目的序列b在NCBI上做blast：比对相似度较高的基因，并以fast格式下载，整合在*txt文档中。

c比对序列，比对序列转化成*meg格式d打开保存的*meg格式文件，构建系统进化树2、氨基酸序列打分矩阵PAM和BLOSUM中序号有什么意义？它们各自的规律是什么？（10分）（1）PAM矩阵：基于进化的点突变模型，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。

一个PAM就是一个进化的变异单位, 即1%的氨基酸改变。

BLOSUM矩阵：首先寻找氨基酸模式，即有意义的一段氨基酸片断，分别比较相同的氨基酸模式之间氨基酸的保守性（某种氨基酸对另一种氨基酸的取代数据），然后，以所有60％保守性的氨基酸模式之间的比较数据为根据，产生BLOSUM60；以所有80％保守性的氨基酸模式之间的比较数据为根据，产生BLOSUM80。

（2）PAM用于家族内成员相比，然后把所有家族中对某种氨基酸的比较结果加和在一起，产生“取代”数据（PAM-1 ）；PAM-1自乘n次，得PAM-n。

PAM-n中，n 越小，表示氨基酸变异的可能性越小；相似的序列之间比较应该选用n值小的矩阵，不太相似的序列之间比较应该选用n 值大的矩阵。

PAM-250用于约 20%相同序列之间的比较。

BLOSUM-n中，n越小，表示氨基酸相似的可能性越小；相似的序列之间比较应该选用n 值大的矩阵，不太相似的序列之间比较应该选用n值小的矩阵。

生物信息学作业1.doc

生物信息学实验作业试验一一．找到编码拟南芥（arabidopsis）phyA（光敏色素A）基因的核酸序列编号, 并记录查找过程。

Results: 614三．仔细阅读所查询核酸序列在NCBI和EMBL数据库中格式的解释，理解各字段的含义，并比较NCBI 与EMBL中序列格式的异同。

实验二一．分析你感兴趣核酸序列的分子质量、碱基组成。

生物信息学习题

GTATCACACG ACTCAGCGCA GCATTTGCCC
GTATCACATA GCTCAGCGCA GCATTTGCCC
6、对于下列距离矩阵，用 UPGMA 构建系统发生树。
ABCDE
A0
B3 0
C6 5 0
D 9 9 10 0
E 12 11 13 9 0 7、对下面距离矩阵，用 UPGMA 法构建系统发生树
1、蛋白质得分矩阵类型有、
、、
和
等。
2、对位排列主要有局部比对和三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上，将第二条序列放在 y
坐标轴上。 TGAACTCCCTCAGATATTA CGAACCCTCACATATTAGCG
2、对两个核酸序列 ACACACTA 和 AGCACACA 进行全局比对
第八章后基因组时代的生物信息学（问题与练习）
1、比较生物还原论与生物综合论的异同 2、简述“后基因组生物信息学”的基本研究思路 3、后基因组生物信息学的主要挑战是什么？ 4、功能基因组系统学的基本特征是什么？ 5、说明后基因组生物信息学对信息流动的最新理解 6、列举几种预测蛋白质-蛋白质相互作用的理论方法 7、解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
正确的树的可能性比前一种情况大还是小？
5、对于下列 5 条序列的比对构造一个距离矩阵，其中序列之间的距离值为比对中失配的碱
基数目，但是颠换的权值为转换的两倍。
GTGCTGCACG GCTCAGTATA GCATTTACCC

生物信息学分析范文

生物信息学分析范文生物信息学的应用非常广泛，主要包括基因组学、蛋白质组学和转录组学等方面。

在基因组学中，生物信息学可以用于预测基因的结构和功能，鉴定基因的变异和突变，以及研究基因的演化和分布。

在蛋白质组学中，生物信息学可以用于预测蛋白质的结构和功能，鉴定蛋白质的修饰和相互作用，以及研究蛋白质的表达和调控。

在转录组学中，生物信息学可以用于分析基因的转录和表达，鉴定基因的调控元件和信号通路，以及研究基因的功能和调控网络。

生物信息学的方法主要包括序列比对、结构预测和功能注释等方面。

序列比对是生物信息学中最常用的方法之一，它可以用于比较不同物种或样本的基因组、蛋白质或RNA序列，以及分析它们的相似性和差异性。

结构预测是生物信息学中另一个重要的方法，它可以用于预测蛋白质的三维结构，以及分析蛋白质的稳定性和功能。

功能注释是生物信息学中最有挑战性的方法之一，它可以用于预测基因或蛋白质的功能、鉴定代谢途径和信号通路，以及研究基因或蛋白质的功能调控网络。

生物信息学在基因组学中的应用非常广泛。

通过分析基因组的序列和结构，生物信息学可以用于预测基因的结构和功能，鉴定基因的变异和突变，以及研究基因的演化和分布。

例如，通过比对不同物种或样本的基因组序列，可以鉴定基因的保守区域和编码区域，以及分析它们的相似性和差异性。

同时，生物信息学还可以预测基因的启动子、转录因子结合位点和DNA甲基化位点，以及研究基因的调控网络和表达模式。

生物信息学在蛋白质组学中的应用也非常重要。

通过分析蛋白质的序列和结构，生物信息学可以用于预测蛋白质的结构和功能，鉴定蛋白质的修饰和相互作用，以及研究蛋白质的表达和调控。

例如，通过比对不同物种或样本的蛋白质序列，可以鉴定蛋白质的保守区域和功能域，以及分析它们的相似性和差异性。

同时，生物信息学还可以预测蛋白质的二级结构、三级结构和配体结合位点，以及研究蛋白质的功能调控网络和信号通路。

生物信息学在转录组学中的应用也越来越重要。

生物信息学作业题目郝柏林

《生物信息学》作业题目（郝柏林）1、试估计地球上出现智人以来，人们所讲过的“字”的总和不超过10的多少次方？2、试计算10µg大肠杆菌基因组DNA样品中包含多少个DNA大分子？已知1个E. coli. 基因组DNA=4.64×106bp，1bp650 dalton（分子量）；1molH 原子=N A个H原子=1g，N A =6×1023。

3、正态分布下，1-4个标准差（）范围所覆盖的(即±1~4）概率分别为多少？4、假设赌场的骰子中99%是好的，即P(D fair)=99/100，1%是做过手脚的，即P(D load)=1/100，如果使用的是做过手脚的骰子，则出6点的概率为1/2。

问：（1）在投骰子时连续出了3个6点，你有多大把握说所用的骰子是做过手脚的？（2）如果你要用99%的把握说骰子是做过手脚的，则在投骰子时需要连续出多少个6点？5、某一序列为gtgcaatcagactgataattgccacgatcag（L=31），问该序列是否为CpG island？已知下列转移矩阵：a+ c+ g+ t+P (+)a+ 0.180 0.274 0.426 0.120c+ 0.171 0.367 0.274 0.188g+ 0.161 0.339 0.375 0.125t+ 0.079 0.355 0.384 0.1826、从地点A 到地点B 有多条路线，每条路线都要收取（或得到）一定的过路费（如图）：试问从地点A 到地点B 的哪条路线得钱最多？7、请分别用动态规划法（dynamic programming ）Needleman-Wunsch 和Smith-Waterman 算法对下列两条蛋白质序列进行联配，并写出联配方案： P1=HEAGAWGHEE, P2=PAWHEAE其中替换矩阵选用BLOSUM50（女生）和BLOSUM62（男生）（见下表，其中括号中的数字属于BLOSUM62），空位（gap）罚分设定为8（女生）和9（男生）。

生物信息学基础大作业报告

生物信息学基础大作业报告报告主题系统发育树的构建方法和研究进展班级计科0901 姓名王海颖总学号 0304090111目录目录 ........................................................................................................................................... - 2 - 一引言.. (3)二系统发育树的构建方法 (3)2.1概括介绍 (3)2.2具体介绍 (4)2.2.1 基于距离的方法 (4)2.2.2 最大简约法 (4)2.2.3 最大似然法 (5)2.2.4 贝叶斯树估计方法 (7)三系统发育树的改进算法 (7)3.1 遗传算法和模拟退火算法 (7)3.2古DNA序列构建生物系统发育树 (7)3.2 基于28S rDNA序列构建侧耳属系统发育树 (7)3.3 基于全蛋白质组的微生物构建系统发育树 (8)3.4 一种基于线粒体完全基因组的熵密度分布的脊椎动物系统发育树构建方法 (8)四评价方法的改进 (8)4.1遗传算法和模拟退火算法的改进 (8)4.2 用EM算法进行参数估计 (8)4.2 乙型肝炎病毒C基因区序列的系统发育树分析 (9)4.3 矿区的氧化亚铁硫杆菌新菌系的鉴定. (10)4.4 55株芽孢杆菌16S rRNA基因序列测定与系统发育学分析 (10)4.5酸马奶中乳杆菌Lb.casei.Zhang和ZLl2—1的16S rDNA基因序列及聚类分析11 五结束语 (11)参考文献 (11)一．引言：二十一世纪，生命科学和信息科学都处于科学技术的主导地位，二者的融合使得一个新的领域——生物信息学产生了。

生物信息学是在生命科学的研究中，以计算机科学知识为辅导工具对生物信息进行存储、检索和分析的科学。

它是当今生命科学和自然科学的重大前沿领域之一。

生物信息学考查作业

作业分解
• 1、现有10条基因，全班分成10组，每组做 1条基因，每组4个人，每组16道题，每人完成4道不同的题 • 2、要求：按照提供的gene accession number的分子质量、碱基组成、碱基分布、酶切、简要过程 2.碱基同源性分析：网站如下：/BLAST/，程序、参数、结果、简要过程 3.开放性阅读框分析：利用NCBI的ORF Finder程序对man做开放性阅读框分析，网址如下： /projects/gorf/orfig.cgi要求：参数、结果、简要过程 4.蛋白质序列的结构功能域分析：要求用简单模块构架搜索工具SMART 对上述ORF蛋白质序列进行结构功能域分析。网址如下： http://smart.embl-heidelberg.de/，要求结果、参数、简要过程 5.氨基酸同源分析：要求运用NCBI的BLAST程序对此蛋白质序列进行分析：要求：参数、结果、过程 6.同源物种分析：要求根据上述分析列出该蛋白质的同源物种至少5个，要求名称、学名 7.蛋白质一级序列的基本分析：要求运用BioEdit对该基因编码的蛋白质基本信息如分子量、等电点、氨基酸组成等作出分析。 8.信号肽预测：要求利用signal p预测，分析结果、写出简要过程，网址如下：http://www.cbs.dtu.dk/services/SignalP/
• • • • • •
• •
• •
• •
• •
nnpredict nnpredict 算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型（Kneller 等，1990）。在预测时，服务器使用 FASTA 格式的文件，其中有单字符或三字符的序列以及蛋白质的折叠类（α 、β 或α /β ）。残基被分为几类：α 螺旋（H）、β 叠片（E）或其它（－）。若无法对某残基给出预测，则会标上问号（？），这说明无法做出可信的分配。若没有关于折叠类的信息，预测也能在不定折叠类的情况下进行，而且这是缺省的工作方式。据报道，对于最佳实例的预测，nnpredict 的准确率超过了 65％。序列通过向 nnpredict@ 发送电子邮件或是填写网上的表提交给 nnpredict。 PredictProtein PredictProtein（Rost 等，1994）在预测中应用了略为不同的方法。首先，蛋白质序列被作为查询序列在 SWISS-PROT 库中搜索相似的序列。当相似的序列被找到后，一个名为 MaxHom 的算法被用来进行一次基于特征简图的多序列比对（Sander 和 Schneider，1991）。 MaxHom 用迭代的方法来构造比对：当第一次搜索 SWISS-PROT 后，所有找到的序列与查询序列进行比对，并构造出一个比对后的特征简图。然后，这个简图又被用来在SWISS-PROT 中搜索新的相似序列。由 MaxHom 产生的多序列比对随后被置入一个神经网络，用一套称为 PHD（Rost，1996）的方法进行预测。PHD 这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型，它还对序列上每个位点的预测可信度给予统计分析。该方法的平均准确率超过 72％，最佳残基预测准确率达 90％以上。向 PredictProtein 提交数据可以通过电子邮件，也可以在网上提交。上交序列的时候可以有几种选择，序列可以是单个字母的氨基酸代码，也可以带 SWISS-PORT 标识符。另外，FASTA 格式的多序列比对或 PIR 比对也可以被提交，以进行二级结构预测。输入的序列发送给predictprotein@emblheidelberg.de。输出结果内容很多并包含大量有关信息。其中有 MaxHom 搜索结果，并包括多序列比对的结果，它可以用于例如基于特征简图的搜索或物种谱系分析等进一步研究。如果提交的序列在 PDB 库中有已知同源蛋白，则其 PDB标识号也会输出返回。随后是方法本身信息，最后是实际预测结果。输出结果还可以被用户自己来指定。与 nnpredict 不同，PredictProtein 还返回每个位点的“预测可信度索引”，范围从 0 到 9，9 具有最高的可信度，也就是说该位点所分配的二级结构类型是正确的 PREDATOR PREDATOR 算法通过对氨基酸序列中潜在的氢键残基的识别来预测二级结构。它使用源自数据库的统计数据，具体地说是对在不同种氢键结构中残基种类出现的统计。这种方法的新特征是，它依靠局部的双序列比对来预测每个相关序列。这个程序的输入可以是单个序列，也可以是一组没经过比对的相关序列。序列可以通过给predator@embl-heidelberg.de 发电子邮件或是在网上直接提交。输入序列可以是 FASTA、MSF 或 CLUSTER 格式。PREDATOR 对三种结构预测的平均准确率是，对单个序列为 68％，对一组相关的序列为 75％。 PSIPRED PSIPRED 方法是由英国 Warwick 大学开发的，使用 PSI－BLAST先在数据库中搜索序列的相似蛋白，构建多序列比对，然后进行预测。PSIPRED 用两个前向神经网络对来自 PSI－BLAST 的特征图进行分析。序列可以通过互连网用简单的单字母格式或是 FASTA 格式提交，PSIPRED 的预测结果通过电子邮件以文本文件形式发送回来。另外，在电子邮件中会给出一个网址，到那里可以看到被预测蛋白质的图象表示，可视化是用 JAVA 应用程序 PSIPREDview 实现的。PSIPRED 的平均预测准确率为 76.5％，比这里介绍的其它方法都要高。 SOPMA 位于法国里昂的 CNRS （ Centre National de la RechercheScientifique）使用独特的方法进行蛋白质二级结构预测。它不是用一种，而是5种相互独立的方法进行预测，并将结果汇集整理成一个“一致预测结果”。这5种方法包括：Garnier-Gibrat-Robson（GOR）方法（Garnier等，1996）、Levin同源预测方法（Levin等，1986）、双重预测方法（Deléage和Roux，1987）、作为前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法（Geourjon和Déleage，1995）。SOPMA这种自优化的预测方法简要的建立了已知二级结构序列的次级数据库，库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。

《生物信息学》大作业参考模板-2016

《生物信息学》大作业参考答案
芍药 ACS 基因的生物信息学分析
姓名：班级：学号： 2016 年 4 月 11 日
一、芍药 ACS 基因序列及其编码的蛋白的功能乙烯是存在于植物体内的唯一的一种气态植物激素，调控植物花、果和叶片的衰老进程。乙烯的合成主要在转录水平上受到 ACS（ACC synthase，ACC 合酶）和 ACC 氧化酶的调控，ACS 将 SAM（S-adenosyl
a r t i c l e i n f o
Article history: Received 17 November 2015 Accepted 23 November 2015 Available online 26 November 2015 Keywords: ACC synthase Ethylene biosynthesis Flower senescence Oncidium Gower Ramsey Gene cloning Expression analysis
Biochemical and Biophysical Research Communications 469 (2016) 20vailable at ScienceDirect
Biochemical and Biophysical Research Communications
图 1 芍药 ACS 基因的核苷酸序列及其编码的氨基酸序列下载的论文“Molecular cloning and expression analysis of an 1-aminocyclopropane-1-carboxylate synthase gene from Oncidium Gower Ramsey” 为 2016 年发表于 Biochemical and Biophysical Research Communications 的最新英文文章（见下页）。（2 分）

生物信息大作业及评分标准

大作业题目及评分标准
题目：系统发育树构建方法的研究进展
要求：
1.查阅图书馆馆藏数据库CNKI，万方或者维普数据库，总结系统发育树
的构建方法；
2.分析他人在系统发育树构建方法的改进方面做出的贡献；
3.参考文献不少于15篇。

4.小四号，宋体，行距1.25倍，A4纸不少于5页。

5.提交时间2011年12月23日（16周周五）上午8~11：30，过期不候。

评分标准：
优：能够查阅大量的参考文献，完整的总结系统发育树的构建方法，并对他人在系统发育树构建方法改进方面的研究工作进行归纳总结，列出参考文献数不少于15篇，论述清楚，结构合理。

良：能够查阅大量的参考文献，并总结系统发育树的构建方法，能够归纳总结他人的研究工作，列出的参考文献数不少于15篇，论述较清楚，结构较合理。

中：能够较完整的总结系统发育树的构建方法，基本能够归纳他人的研究工作，列出的参考文献数少于15篇，论述基本清楚，结构基本合理。

及格：基本能够总结出系统发育树的构建方法，基本能够归纳他人的研究工作，列出的参考文献少于15篇，论述基本清楚，结构基本合理。

不及格：只能部分的总结系统发育树的构建方法，不能归纳他人的研究工作，论述不清楚，结构不合理。

研究生《生物信息学》作业模板

研究生《医学生物信息学》作业班级：专业：姓名：一、实验目的:（1）掌握中文文献全文的检索和获得方法。

（2）掌握Pubmed数据库文献的检索和交大图书馆英文数据库全文的获得方法。

（3）掌握核酸序列搜索的方法。

（4）掌握核酸序列相似性分析的方法。

（5）掌握PCR引物设计软件的原理、使用及特点。

（6）掌握蛋白质序列搜索的方法。

（7）掌握蛋白质序列分析常用软件的使用方法。

二、研究背景:AIB1基因为近年来发现的p160类固醇受体转录共激活因子SRC-1家族成员，是新定义的一个原癌基因[1]。

该基因表达的蛋白在许多生物学过程中发挥重要作用，如细胞生长，增殖，分化，性成熟，女性生殖功能等[2]。

近年发现，该基因的表达异常与多种肿瘤的发生发展有关，以在乳腺癌中研究最多。

AIB1基因的高表达与乳腺癌的发生和发展有关[3]。

AIB1蛋白通过与雌激素受体相互作用，能强烈地增强雌激素受体的促进靶基因转录的效应，进而引起细胞增殖和肿瘤形成，此外，AIB1蛋白还在多条信号传导通路中发挥作用[4]。

AIB1基因(amplified in breast cancer1)又称为ACTR，TRAM1，RAC3，SRC3，NCoA3，P/CIP等。

本人选择其为研究对象。

三、实验方法、步骤及结果:1．在中国知网（CNKI）中查找中文文献：2．在PubMed中查找英文文献：登陆NCBI主页，网址：/guide/，选择gene数据库4. 使用NCBI网站中的BLAST工具进行序列比对登陆/，选择核酸序列比对nucleotide BLAST，界面显示如下，输入登录号，AF012108，点击“BLAST”。

结果如下：共有2条核苷酸序列和2条基因组序列和其匹配：第一条核苷酸序列为“Homo sapiens nuclear receptor coactivator 3 (NCOA3), transcript variant 2, mRNA”，登录号：NM_006534。

生物信息学作业

生物信息学作业1.选择一段蛋白质序列，设计一对兼并引物用来克隆其编码基因，并对引物作出分析。

人胰岛素序列：FVNQHLCGSHLVEALYLVCGERGFFYTPKT(B链)结论：3’- NGGNGTRTARAARAANCC -5’ 5’- TNTAYYTNGTNTGYGGNGA -3’两者评分都是100分，表明引物品质完美；长度18,19稍短，但克隆的DNA链也仅90bp，故长度适合；Tm值76.1℃，符合要求△G相差不足4Kcal/mol所以可以使用。

Step1：打开primer premier 5.0 输入蛋白质链，转化为DNA链。

获得DNA链。

2.选择一段基因，预测期编码RNA的二级结构，并分析功能。

取一段基因：ACGCG GGCGG GCATG TGGGC AGCTT TACCC AGTGC TACTG TGCTG GCCAGCACTG AAACA GGGGC ACTGG TTTGG GGTGG ATGAA GGGTA GAAGT GCAAGTTCCA TTGCC TGTGC AATCC CTGCC TTGCT CAGAC CCTGC TCACT CCTCAGGCCC CATCA GCCCC TCAAC TCTGC TAACC ATGGT GGTAG AAATC AGCTACAATA AACCC TGGAG CCAGT AAAAA AAAAA AAAAA AAAAA AAAAA AAAGT点击Fold as RNA点击START点击Draw Stuclture得到RNA二级结构RNA功能预测打开网址http://sidirect2.rnai.jp/输入DNA序列得出结论：。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《生物信息学》大作业参考答案
芍药 ACS 基因的生物信息学分析 ห้องสมุดไป่ตู้
姓名：班级：学号： 2016 年 4 月 11 日
一、芍药 ACS 基因序列及其编码的蛋白的功能乙烯是存在于植物体内的唯一的一种气态植物激素，调控植物花、果和叶片的衰老进程。乙烯的合成主要在转录水平上受到 ACS（ACC synthase，ACC 合酶）和 ACC 氧化酶的调控，ACS 将 SAM（S-adenosyl
a b s t r a c t
1-aminocyclopropane-1-carboxylic acid (ACC) synthase (ACS) is a rate-limiting enzyme in the biosynthesis of ethylene which regulates many aspects of the plant development and responses to biotic and abiotic stresses. In this study, a full-length cDNA of ACC synthase, OnACS2, was cloned from the senescing ﬂower of Oncidium Gower Ramsey by RACE. The full-length cDNA of OnACS2 (GenBank accession no. JQ822087) was 1557 bp in length with an open reading frame (ORF) of 1308 bp encoding for a protein of 435 amino acid residues. The predicted OnACS2 protein had a molecular mass of 49.1 kDa with pI value of 7.51. Phylogenetic analysis indicated its evolutionary relationships with corresponding orthologous sequences in orchids, Hosta ventricosa and monocots. Real-time PCR assay demonstrated that OnACS2 was constitutively expressed in all tested organs with the highest transcript level in the gynandria. Differential expression pattern of OnACS2 gene correlated to the ethylene production and the subsequent occurrence of senescent symptoms in ﬂower suggested that OnACS2 probably played an important role in the initiation of ﬂower senescence. © 2015 Elsevier Inc. All rights reserved.
methionine，S-腺苷甲硫氨酸）转化为 ACC，ACC 氧化酶进一步将 ACC 转化为乙烯。（3 分）
本作业的研究材料为芍药 ACS（ACC synthase）基因，NCBI 序列号为 JX512359，其核苷酸序列及编码的氨基酸序列如图 1。（5 分）
acatggggacagcatacgcaataaaagcaataccaaacttcctt taaatctgcttctgctattcgatcatcattgttacattcttctctacaaacctcctctgttttttcttcaaatttctatagtcacataaa ATGGGATTCATGTCCACAGATCAACAAAAGCAATTGCTGTCAAAGATGGCAACAGGCAATGGCCATGGAGAAGACTCTCCTTACTTTGAT M G F M S T D Q Q K Q L L S K M A T G N G H G E D S P Y F D GGTTGGAAGGCATATGACAGCAATCCATTTCATCTTAATAACAATCCTAATGGGGTTATCCAAATGGGACTTGTAGAAAATCTGCTTTCC G W K A Y D S N P F H L N N N P N G V I Q M G L V E N L L S TTTGATGTGATTCAAGAATGGGTTCTGAATAATCCAAAAGCCTCCATTTGCACGCCAGAAGGAATTAATGAATTCAGAGATACTGCTATT F D V I Q E W V L N N P K A S I C T P E G I N E F R D T A I TTTCAGGATTATCATGGGTTTCCAGAGTTCAGAAATGCTATTGCAAAATTTATGGGAAAAGTGGGAGGAGGAAGAGTCACATTCGATCCA F Q D Y H G F P E F R N A I A K F M G K V G G G R V T F D P GACCGCATTGTCATGAGTGGTGGGGCGACTGGAGCTCATGAGATTCTGGCCTTCTGCTTGGCTGACCCTGGCGATGCATTTCTGGTGCCA D R I V M S G G A T G A H E I L A F C L A D P G D A F L V P ACTCCATATTATCCAGGATATGATCGCGATTTGAGATGGCGAACAGGAGCTCAACTGCTTCCCGTTCAATGCGACAGCTCCAACAATTTC T P Y Y P G Y D R D L R W R T G A Q L L P V Q C D S S N N F ATGGTTACCATAAGCGCCCTAGAATTGGCATACCAGAAAGCTCAAGATGCAAACATTAAAGTAAAGGGTTTGATCATAAACAACCCATCA M V T I S A L E L A Y Q K A Q D A N I K V K G L I I N N P S AATCCATTAGGCACTGTCTTAAATGGAGAGACACTAAAAACTATAGTGAACTTCATCAATGAAAAGAACATCCACCTTGTTTGTGATGAG N P L G T V L N G E T L K T I V N F I N E K N I H L V C D E ATTTACGCGGCCACTGTCTTTTGCCAGCCTCGTTTCATTAGCATTGCGGAAATAATAAACGACATGGATGGTGTTAATCGAAATCTCATC I Y A A T V F C Q P R F I S I A E I I N D M D G V N R N L I CACATTGTCTACAGTCTCTCAAAGGACATGGGGTTCCCTGGATTTAGGGTTGGCATTGTGTATTCATACAATGATGCCGTAGTCAGTTGT H I V Y S L S K D M G F P G F R V G I V Y S Y N D A V V S C GCGCGCAAGATGTCTAGCTTTGGGCTAGTTTCAACTCAAACCCAACACCTAATTGCATCAATGCTATCAGATGAACACTTCACCGAGAGA A R K M S S F G L V S T Q T Q H L I A S M L S D E H F T E R TATATTGTGGAGAGTGCAAAGAAATTGGCAGAAAGGCAGAGGCGCTTCACTAGGGGACTTGCTCAAGTAGGCATTAATTTTTTGAAGAGC Y I V E S A K K L A E R Q R R F T R G L A Q V G I N F L K S AATGCAGGTCTCTTCTTATGGATGGATTTAAGCTCGCTGCTCAAGGAGAAGACGGTCGAAGAAGAGCTAACACTTTGGCGAGTGATAATC N A G L F L W M D L S S L L K E K T V E E E L T L W R V I I AATGAAGTTAAACTCAATGTTTCACCTGGTTCATCTTTTCATTGCTCGGAGCCTGGATGGTTTAGGGTTTGCTTTGCTAACATGGATGAT N E V K L N V S P G S S F H C S E P G W F R V C F A N M D D GCCACCATGGAAGTTGCTCTTCGAAGGATTCGAACATTTGCACTTAAGGCCAAGGAAGCAGATGTGCCAAGGAAGAAACAAAGTTGGCAA A T M E V A L R R I R T F A L K A K E A D V P R K K Q S W Q AACAACAACCTTAGATTCAGCTTCAAATCTGGGAAATATGATGATGTCTTGTTGTCTCCTCGTATGATGTCCCCTTGCATGAGGTCCCCT N N N L R F S F K S G K Y D D V L L S P R M M S P C M R S P CATTCCCCCATACCCCAATCACCCCTTGTTCGAGCTTAAttactcggtccatctgtaattaagatcaggaaggttagtgtatgtaattta H S P I P Q S P L V R A * gaccaaattgatgcattctttcctgtggtaatagccaataaaacatggaccatttgatcaaaaaaaaaaaaaaaaaaaaaaaaaaaaa 44 134 224 30 314 60 404 90 494 120 584 150 674 180 764 210 854 240 944 270 1034 300 1124 330 1214 360 1304 390 1394 420 1484 450 1574 480 1664 492 1752

《生物信息学》大作业参考模板-2016

合集下载

生物信息学习题集

生物信息学（五篇范例）

生物信息学作业(一)

生物信息学课程作业

生物信息学作业1.doc

生物信息学作业

生物信息学作业

生物信息学作业1.doc

生物信息学习题

生物信息学分析范文

生物信息学作业题目郝柏林

生物信息学基础大作业报告

生物信息学考查作业

《生物信息学》大作业参考模板-2016

生物信息大作业及评分标准

研究生《生物信息学》作业模板

生物信息学作业

文档推荐

最新文档