DNA序列分类实验报告
- 格式:doc
- 大小:471.36 KB
- 文档页数:11
关于dna小实验报告实验目的本实验旨在通过提取和观察DNA分子,了解DNA分子的组成和结构,加深对基因遗传的理解。
实验材料- 成人口腔拭子- 高盐溶液- 去离子水- 酒精- 漂白剂- 冷冻乙酸- 盐酸实验步骤1. 将成人口腔拭子在高盐溶液中浸泡,让细胞在溶液中释放出DNA。
2. 将高盐溶液与漂白剂混合,静置5分钟,以使细胞膜溶解,并释放出更多的DNA。
3. 加入冷冻乙酸,使DNA分子凝聚成细长的白色颗粒。
4. 用玻璃棒将DNA颗粒取出,在离子水中漂洗,以去除漂白剂和杂质。
5. 将DNA颗粒转移到一根玻璃棒上。
6. 向玻璃棒上的DNA颗粒滴加盐酸,使其溶解。
7. 在离子水中稀释DNA溶液,使其变得透明。
实验结果实验所得的DNA溶液呈现透明状态,可以通过肉眼观察到DNA溶液的流动性。
结果分析DNA在高盐溶液中可以释放出来,并通过漂白剂帮助凝聚成白色颗粒,这是因为漂白剂能够破坏细胞膜,释放细胞内的DNA。
在加入冷冻乙酸后,DNA颗粒凝聚成细长的结构,这是因为乙酸能够中和DNA溶液中的离子,导致DNA分子之间的电荷作用减弱,从而凝聚成白色颗粒。
在加入盐酸后,DNA溶解,使其变得透明。
实验总结通过本实验,我们成功提取到DNA分子,并观察到了其凝聚成颗粒和溶解的过程。
这些实验结果有助于我们更好地理解DNA的组成和结构,对基因遗传有更深入的了解。
实验过程中使用的材料和操作简单,适合初学者进行,同时实验结果可以通过肉眼观察到,有助于学生直观地感受到DNA的存在。
精确和仔细的操作是保证实验成功的关键,同时实验过程中要注意安全,避免对身体产生伤害。
参考文献- 【1】Guo, J., Wang, W., Wang, D., Zhu, T., Cui, L., Zhao, X., ... & Wang, Q. (2016). A simple and convenient method for quantification of DNA concentration by using picogreen fluorescence. International Journal of Analytical Chemistry, 2016.。
第1篇一、实验目的1. 掌握基因合成的基本原理和操作步骤。
2. 熟悉基因合成仪器的使用方法。
3. 了解基因合成的应用领域。
二、实验原理基因合成是指利用化学方法,按照特定的DNA序列,合成出具有生物学活性的DNA 片段。
该技术是现代生物技术领域的重要手段之一,广泛应用于基因克隆、基因编辑、基因治疗等领域。
基因合成的原理基于DNA双螺旋结构和碱基互补配对原则。
在实验过程中,首先根据设计好的基因序列,合成相应的寡核苷酸引物;然后,通过PCR技术扩增目的基因;最后,将扩增的目的基因克隆到载体上,进行后续的实验操作。
三、实验材料1. 基因合成仪2. PCR仪3. DNA序列分析软件4. DNA合成试剂5. PCR试剂6. 载体DNA7. 质粒提取试剂盒8. 琼脂糖凝胶电泳试剂盒9. DNA连接酶10. DNA标记物四、实验步骤1. 设计基因序列:根据实验目的,设计目的基因的DNA序列,并利用DNA序列分析软件进行优化。
2. 合成寡核苷酸引物:根据设计好的基因序列,合成相应的寡核苷酸引物。
3. PCR扩增目的基因:将合成的寡核苷酸引物、模板DNA、PCR试剂等混合,进行PCR扩增。
4. 琼脂糖凝胶电泳检测:将PCR产物进行琼脂糖凝胶电泳检测,观察目的基因的扩增情况。
5. 质粒提取:将PCR产物克隆到载体上,进行质粒提取。
6. DNA连接:将质粒与目的基因进行连接。
7. 转化:将连接后的质粒转化到宿主细胞中。
8. 筛选阳性克隆:通过PCR、测序等方法筛选出含有目的基因的阳性克隆。
9. 阳性克隆的验证:对阳性克隆进行DNA测序,验证目的基因的正确性。
五、实验结果与分析1. PCR扩增结果:通过琼脂糖凝胶电泳检测,观察到目的基因的扩增条带,表明目的基因已成功克隆。
2. 阳性克隆的筛选:通过PCR和测序,筛选出含有目的基因的阳性克隆。
3. 阳性克隆的验证:DNA测序结果表明,目的基因序列与设计序列一致,验证了目的基因的正确性。
第1篇实验名称:人类基因组DNA提取与检测实验日期:2023年X月X日实验目的:1. 熟悉并掌握人类基因组DNA的提取方法。
2. 学习使用PCR技术检测DNA片段。
3. 了解基因突变对DNA序列的影响。
实验原理:DNA是生物体内携带遗传信息的分子,由四种碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C 和胸腺嘧啶T)组成。
通过PCR(聚合酶链式反应)技术,可以在体外扩增特定的DNA片段,从而检测基因的存在和突变。
实验材料:1. 人体口腔拭子2. DNA提取试剂盒3. PCR仪4. 酶标仪5. 1.5mL离心管6. 0.2mL微量移液器7. 标准DNA模板(已知序列)8. PCR引物9. 试剂:DNA提取缓冲液、蛋白酶K、SDS、NaCl、EDTA、Tris-HCl、dNTPs、Taq DNA聚合酶等实验步骤:一、DNA提取1. 将口腔拭子放入含有1mL DNA提取缓冲液的离心管中。
2. 加入50μL蛋白酶K和50μL SDS,混匀。
3. 55℃水浴30分钟,使蛋白质变性。
4. 加入200μL氯仿/异戊醇(24:1),混匀,静置5分钟。
5. 12,000g离心10分钟,取上清液。
6. 加入等体积的异丙醇,混匀,静置10分钟。
7. 12,000g离心10分钟,弃上清液。
8. 加入700μL 75%乙醇,混匀,静置5分钟。
9. 12,000g离心5分钟,弃上清液。
10. 室温晾干,加入50μL ddH2O溶解DNA。
二、PCR扩增1. 配制PCR反应体系:模板DNA 2μL,上下游引物各1μL,10×PCR缓冲液2.5μL,dNTPs 2μL,Taq DNA聚合酶0.5μL,ddH2O补充至25μL。
2. 95℃预变性5分钟。
3. 95℃变性30秒,55℃退火30秒,72℃延伸1分钟,共35个循环。
4. 72℃延伸10分钟。
三、产物检测1. 取5μL PCR产物加入1.5mL离心管中。
2. 加入5μL上样缓冲液,混匀。
DNA提取与测序实验报告一、实验目的1、掌握从生物样本中提取 DNA 的基本原理和方法。
2、熟悉 DNA 测序的基本流程和操作要点。
3、学会对 DNA 提取和测序结果进行分析和评估。
二、实验原理DNA 提取原理DNA 在细胞中以与蛋白质结合的状态存在。
提取 DNA 的基本思路是通过裂解细胞,使细胞膜和核膜破裂,释放出 DNA,然后去除蛋白质、RNA 等杂质,得到纯净的 DNA。
常用的裂解方法包括物理方法(如研磨、超声破碎)、化学方法(如使用去污剂)和酶解法(如使用蛋白酶K)。
去除杂质的方法则包括使用酚/氯仿抽提、乙醇沉淀等。
DNA 测序原理目前常用的 DNA 测序技术是 Sanger 测序法。
其基本原理是在DNA 合成过程中,通过掺入特定的双脱氧核苷酸(ddNTP)来终止DNA 链的延伸。
由于 ddNTP 缺少3’OH 基团,一旦掺入到 DNA 链中,链的延伸就会终止。
通过在多个反应中分别加入不同的 ddNTP,可以得到一系列不同长度的 DNA 片段。
这些片段经过电泳分离,根据条带的位置可以读取 DNA 的碱基序列。
三、实验材料与设备实验材料1、新鲜的动物组织(如肝脏、肌肉)或植物组织(如叶片)。
2、细胞培养物(如细菌、酵母)。
实验试剂1、细胞裂解液(包含去污剂、蛋白酶 K 等)。
2、酚/氯仿/异戊醇混合液(25:24:1)。
3、无水乙醇、70%乙醇。
4、 TE 缓冲液(10 mM TrisHCl,1 mM EDTA,pH 80)。
5、 DNA 测序试剂盒(包含引物、dNTP、ddNTP、DNA 聚合酶等)。
实验设备1、离心机。
2、移液器。
3、恒温水浴锅。
4、电泳仪。
5、凝胶成像系统。
6、 DNA 测序仪。
四、实验步骤DNA 提取步骤1、样本处理对于动物组织,将其剪碎后加入适量的裂解液,在匀浆器中匀浆。
对于植物组织,先在液氮中研磨成粉末,然后加入裂解液。
对于细胞培养物,离心收集细胞,加入裂解液重悬。
第四节DNA序列测定目前应用的两种快速序列测定技术是Sanger等(1977)提出的酶法(双脱氧链终止法)和Maxam(1977)提出的化学降解法。
虽然其原理大相径庭,但这两种方法都同样生成相互独立的若干组带放射性标记的寡核苷酸,每组核苷酸都有共同的起点,却随机终止于一种(或多种)特定的残基,形成一系列以某一特定核苷酸为末端的长度各不相同的寡核苷酸混合物,这些寡核苷酸的长度由这个特定碱基在待测DNA片段上的位置所决定。
然后通过高分辨率的变性聚丙烯酰胺凝胶电泳,经放射自显影后,从放射自显影胶片上直接读出待测DNA上的核苷酸顺序。
高分辨率变性聚丙烯酰胺凝胶电泳亦是DNA序列测定技术的重要基础,可分离仅差一个核苷酸、长度达300~500个核苷酸的单链DNA分子。
DNA序列测定的简便方法为详细分析大量基因组的结构和功能奠定了基础,时至今日,绝大多数蛋白质氨基酸序列都是根据基因或cDNA的核苷酸序列推导出来的。
除传统的双脱氧链终止法和化学降解法外,自动化测序实际上已成为当今DNA序列分析的主流。
此外,新的测序方法亦在不断出现,如上世纪90年代提出的杂交测序法(sequencing by hybridization,SBH)等。
一、双脱氧末端终止法测序㈠原理双脱氧末端终止法是Sanger等在加减法测序的基础上发展而来的。
1980年他又因设计出一种测定DNA(脱氧核糖核酸)内核苷酸排列顺序的方法而与W·吉尔伯特、P·伯格共获1980年诺贝尔化学奖。
桑格是第四位两次获此殊荣的科学家。
其原理是:利用大肠杆菌DNA聚合酶Ⅰ,以单链DNA为模板,并以与模板事先结合的寡聚核苷酸为引物,根据碱基配对原则将脱氧核苷三磷酸(dNTP)底物的5′-磷酸基团与引物的3′-OH末端生成3′,5′-磷酸二酯键。
通过这种磷酸二酯键的不断形成,新的互补DNA得以从5′→3′延伸。
Sanger引入了双脱氧核苷三磷酸(ddTNP)作为链终止剂。
序列分析软件GUI设计实践报告班级:姓名:学号:指导老师:2015年12月30日一、概述。
在MATLAB课程设计实践中,通过参考《MATLAB 7.X生物信息工具箱的应用——基因序列分析》系列文献,运用Matlab7.0生物信息工具箱,设计出用于生物学领域的软件GUI界面。
该软件在工具箱提供的开放环境里,可以实现对核苷酸序列及蛋白质(氨基酸)序列的序列分析及比对的功能。
软件整体界面如下:本作品由MATLAB7制作完成,实现序列分析和序列对比两大功能。
其中序列分析功能实现对象为核苷酸序列及氨基酸序列,而序列比对的功能实现对象为氨基酸序列。
序列分析的功能包括绘制密度图、计算4种核苷酸分布(画图+显示数据)及互补核苷酸数、绘制每个开放阅读框热红外分布图、二聚体分布图、计算密码子及其分布(包含绘制其红外密度图)、显示核苷酸的开放阅读框、实现摘录子序列、实现核苷酸与氨基酸的互相转化、计算氨基酸数目、绘制开放阅读框对应的氨基酸分布柱状图、计算氨基酸分子量,计算氨基酸序列的元素组成的功能,这些功能将通过mitochondria核苷酸序列及其对于氨基酸序列演示。
而对于序列比对的功能,我准备了氨基酸序列之间的散点图对比图功能,全局序列对比的功能,局部序列对比的功能以及计算M起始序列(从第一个M氨基酸到第一个终止密码子“*”的序列)的功能。
这些功能通过对比mitochondria 与hexosaminidase(这是一个结构体,但是这里只取其序列部分)的编码氨基酸序列来进行演示。
本软件还有两个附属功能,第一就是把密码子转换成氨基酸的功能,可在对应窗口实现,方便使用者查找对应的氨基酸。
第二,就是可以访问用户指向的网址的功能。
下面将会分块介绍这些具体的功能:二、软件GUI界面介绍。
①绘图区域(axes):有两个,是用来展示密度图线,核苷酸分布图等图标用的。
②可编辑文本框(edit)与下拉文本框(listbox):本程序含有3个主要的可编辑文本框,前两个用于显示对应的核苷酸与氨基酸的序列,中间的一个长条形的文本框是用来输出绘图或者是核苷酸/氨基酸功能的输出数据的。
DNA序列分析引言DNA(脱氧核糖核酸)是生物体内负责遗传信息传递的分子,其中包含有机体基因的序列。
DNA序列分析是通过对DNA序列进行计算和统计分析,来揭示其中的信息和模式的过程。
DNA序列分析在生物学、遗传学、进化学以及疾病研究等领域中有着重要的应用和意义。
本文将介绍DNA序列分析的几个主要方面,包括DNA序列的基本概念、序列比对、序列重复性分析以及序列模式识别等内容。
DNA序列的基本概念DNA序列是由由四种碱基(腺嘌呤、鸟嘌呤、胸腺嘧啶和鳞状嘧啶)构成的字符串,它们的顺序决定了生物体中的遗传信息。
DNA序列可以通过实验方法(如测序技术)或计算方法(如基因组学和转录组学)获取。
序列比对序列比对是比较两个或多个DNA序列之间的相似性和差异性的过程。
序列比对可以帮助我们理解DNA序列之间的相关性,发现基因的保守区域和变异位点,以及预测蛋白质结构和功能。
常用的序列比对算法包括全局比对算法和局部比对算法。
全局比对算法(如Needleman-Wunsch算法)适用于较为相似的序列,而局部比对算法(如Smith-Waterman算法)则适用于相似性较低的序列。
序列重复性分析序列重复性是指DNA序列中出现的重复模式。
序列重复性分析可以帮助我们识别基因组中的重复区域、转座子和重复序列。
重复序列在基因演化、基因组结构和疾病研究等方面起着重要的作用。
常用的序列重复性分析方法包括重复序列的寻找和分类、序列间重复比较以及重复序列的起源和进化分析等。
序列模式识别序列模式识别是通过寻找DNA序列中特定的模式或模板,来揭示序列中隐藏的信息。
序列模式识别可以帮助我们发现DNA序列中存在的转录因子结合位点、启动子序列以及编码区域等。
常用的序列模式识别方法包括正则表达式、隐马尔可夫模型和机器学习算法等。
结论DNA序列分析是生物科学中重要的研究领域,通过对DNA 序列的计算和统计分析,可以帮助我们深入理解基因组的结构和功能,揭示生物体间的亲缘关系,以及研究基因组变异和疾病相关的遗传因素。
实验三核酸序列分析(一)使用DNAMAN软件分析其分子质量、碱基组成及碱基分布,下载序列h1n1,用dnaman分析结果:根据上表可得该序列的组成是:245个A,占36.2%;C有137个,占20.2%;G有140个,占20.7%;T点155个,占22.9%通过Sequence|Display Sequence命令打开对话框,如下图所示根据不同的需要,可以选择显示不同的序列转换形式。
点击Restriction/Restriction Analysis,选择其中一些参数,可分析当前Channel序列酶切位点。
参数说明如下:Results 分析结果显示其中包括:Show summary(显示概要)Show sites on sequence(在结果中显示酶切位点)Draw restriction map(显示限制性酶切图)Draw restriction pattern(显示限制性酶切模式图)Ignore enzymes with more than(忽略切点多于设定的切点个数的酶)Ignore enzymes with less than(忽略切点少于设定的切点个数的酶)Target DNA (目标DNA特性)circular(环型DNA),dam/dcm methylation(dam/dcm甲基化)all DNA in Sequence Channel(选择此项,在Sequence Channel 中的所有序列将被分析,如果选择了Draw restriction pattern,那么当所有的channel中共有两条DNA时,则只能选择两个酶分析,如果共有三个以上DNA时,则只能用一个酶分析。
限制性酶切分析进行PCR引物设计:构建系统发育树点击左上角按钮,可以从弹出的对话框中选择不同的结果显示特性选项。
点击按钮下的按钮,出现下列选择项:可以通过这些选项,绘制同源关系图(例如Tree|homology tree命令)。
数理学院专业实践报告题目:专业学生姓名班级学号指导教师(签字)指导教师职称实习单位负责人签字日期1.2000 年6月,人类基因组计划中DNA 全序列草图完成,预计2001 年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。
这本大自然写成的“天书”是由4 个字符A,T,C,G 按一定顺序排成的长约30 亿的序列,其中没有“断句”也没有标点符号,除了这4 个字符表示4 种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。
破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。
在这个目标中,研究DNA 全序列具有什么结构,由这4 个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。
虽然人类对这部“天书”知之甚少,但也发现了DNA 序列中的一些规律性和结构。
例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4 个字符组成的64 种不同的3 字符串,其中大多数用于编码构成蛋白质的20 种氨基酸。
又例如,在不用于编码蛋白质的序列片段中,A 和T 的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA 序列的结构也取得了一些结果。
此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。
这些发现让人们相信,DNA 序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA 全序列是十分有意义的。
目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。
作为研究 DNA 序列的结构的尝试,提出以下对序列集合进行分类的问题:1)下面有20 个已知类别的人工制造的序列,其中序列标号1—10 为A 类,11-20 为B 类。
请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。
然后用你认为满意的方法,对另外20 个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入)。
请详细描述你的方法,给出计算程序。
如果你部分地使用了现成的分类方法,也要将方法名称准确注明。
提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。
1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaaggg ggatatgaccgcttgg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccgga cggtggcagcaaagga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcg gtacggaggcggcgga4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatca taaaaaaaggttgcga5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcagga ggctcattacggggag6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaata aaggaacggcggcaca7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcag gaaggatatggaggcg8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggatt aggaacggttatgagg9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccg gagtttgaggagcgcg10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggagg cacgcgggaaaaaacg11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatc gttaaggaaagttaaa13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgt tacttaatgtcaatgc14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttatta aatcttagagatatta15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaattttttttttttttttttttttttttttttta aaatttataaatttaa16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctata gaattacattattgat17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaa aacggcggcctatccc18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaac gttattttacatactt19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatc tcatttaatatcttaa20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggatttttttt acttatcctctgttat21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggattt aaaggatttagattga22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaagg accgatcgaaaggg23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccg gatggctgggaccc24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacc caagttcgacttttacgatttagttttgaccgt25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgca atttaggcttaggcca26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatcttt agcttcaagctttttac27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccag tccgttaaggcttag28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggatta atttagcttattttcga29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccg ggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctga acgctaaacagtattagctgatgactcgta31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggctt accgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggttta gtcattcccaaaagg33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagc gatcgactttagcac34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttag gttggaacccggaaa35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggt aagtcgcggtagcc36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttag ccccagagtcgacg37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagat gccasagtgcaccgt38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggac actttagtttgggttac39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgtt gcaagtcaaatccatattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctgg atttaacggccagttt1、 模型思路:对于此模型来说,利用Matlab 编程可以很容易地统计出各碱基在前二十组的每一组中所出现的次数即i i i i T C G A ,,, (20....3,2,1=i ),然后分别求出1--10组和11--20组中的碱基出现的次数的平均值,1111,,,av av av av T C G A 和2222,,,av av av av T C G A ,即;10/1011∑==i i av A A 、;10/1011∑==i i av G G 、;10/1011∑==i i av C C 、;10/1011∑==i i av T T;10/20112∑==i i av A A 、;10/20112∑==i i av G G 、;10/20112∑==i i av C C 、;10/20112∑==i i av T T计算结果如下表所示:(程序见附录一)1av A1av T1av C1av GA 类0.28670.15420.17590.38332av A2av T2av C2av GB 类0.29550.50180.10180.1009由结果观察可以得出A 类中C G ,的含量之和明显多于T A ,的含量,而B 类中正好相反。