当前位置：文档之家› 基因组学研究中一些常用软件的概述

基因组学研究中一些常用软件的概述

遗传HEREDITAS(Beijin g )25(6):708~712,2003

技术与方法

收稿日期:2002-11-08;修回日期:2003-02-18

作者简介:吴清发(1972-),男,安徽人,博士研究生,专业方向:基因组学。Tel:010-********,E mail:wuqf@https://www.doczj.com/doc/d5742199.html,.c n

基因组学研究中一些常用软件的概述

吴清发

(北京华大基因研究中心,北京101300;中国科学院遗传与发育生物学研究所人类基因组中心,北京100101)

摘要:基因组学是以一个物种的全部遗传信息为研究对象,在整体上研究遗传信息的分子组成、组织结构、表达调控和进化等内在机制的基础性学科。基因组学研究中海量数据的存储、管理和检索,以及对这些数据进行挖掘等过程,必须借助于生物信息学的方法。目前,大量成熟的软件广泛地应用在基因组学研究中,它们大都可通过互联网免费访问或索取。本文拟对人类基因组计划中常用的一些软件如序列比对、序列组装、重复序列鉴定和基因预测等软件的原理作一介绍,并结合典型软件加以说明。关键词:基因组学;比对;组装;重复序列;基因中图分类号:Q75 文献标识码:A

文章编号:0253-9772(2003)06-0708-05

An Introduction of Several Programs Used in Genomic Analysis

W U Qing Fa

(Bei jing Genomic Institute ,Bei jing ,101300;Human Ge nome Cente r ,Institute o f Ge netic s

and Deve lo pmental Biology ,Chinese Ac ademy o f Scie nce s ,Bei jing 100101)

Abstract:Genomics is a novel subject that has been developed accompanying wi th the progress of hu man genome project.Genomics deals with the chemistry component,structure organization and evolu tion of genome at global level.As genomics associated with huge data,bioinformatics plays an i mportant role in these processes of data production,data management and data mining.At pre sent,many reliable programs have been used in genomic research successfully,which are usually accessible and downloaded freely.We address here the principles of some programs used wildly in genomics such as seq uence ali gnment,sequence assembly ,repeat i dentification and gene prediction,which are exemplified with typical programs respectively.Key words:genomics;ali gnment;assembly;repeat sequence;gene 基因组学是以一个物种的全部遗传信息为研究对象,在整体上研究遗传信息的分子组成、组织结构、表达调控和进化等内在机制的基础性学科。在基因组研究中必须借助于计算科学来处理和充分利用大量的数据,由此促成了基因组信息学。

基因组信息学在基因组研究中有两方面基本任务:一是对基因组学研究各个环节如文库构建、物理图谱的制备、遗传图谱制备等发展适用的软件;二是对产生的海量数据的存储、管理和检索,并对这些数据进行归纳总结,从数据中找出有价值的生物学知识。随着可利用的基因组信息不断增加,基因组信息学将发挥越来越大的作用。我们拟对目前基因组学研究中几种常用工具软件的原理和使用方法作一简要介绍。

1 序列比对

序列比对的理论基础是进化学说。在进化上曾有共同祖先的序列,尽管它们各自在进化过程中发生替换、插入、缺失等事件,但和其特定生物学功能相联系的位点应具有某种程度的保守性,如酶的活性位点、形成二硫键的半胱氨酸等。序列比对就是将两条或多条核酸或蛋白质序列排列以获得最大的相似性(核酸)或保守性(蛋白质),以评价两条序列的相似性或同源程度[2]。1.1 原理介绍

任何方法在进行比对时,都是将序列相似或不相似的信息转化为数值后进行。通常将两条序列分别作为打分矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数

越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径[1,2]

。

最初的序列比对是以1970年Needleman和Wunsch提出动态规划算法作为依据的,该算法是全序列比对算法,在比对中包含两个被比较序列的所有元素。其缺点是一些局部序列相似性较高,而全序列相似性较小的序列,其同源性不易检出,因前者常被后者的平均效应所掩盖。在具有模块性质的蛋白质比对中,这种情况更为明显。因此在Needleman Wunsch算法基础上改良产生了Smi th Waterman算法。它是一种局部比对的方法,用于寻找两个被比较序列相似的片段,这样对全局相似性较小的序列,可检出局部性比对较好的片段[2]。

在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。在核酸研究中,情况比较简单,只有4种碱基,但也存在转换和颠换的区别,在取代矩阵中应赋予它们不同的权重。在蛋白质研究中,情况较为复杂。组成蛋白质的20种氨基酸分为芳香族氨基酸、疏水性氨基酸、亲水性氨基酸、酸性氨基酸、碱性和半胱氨酸等6类,类内氨基酸替换比类间氨基酸替换对蛋白质结构和功能影响要小,如缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代对结构和功能具有不同的影响效果。在蛋白质研究中已发展出不同的取代矩阵来描述氨基酸残基两两取代的分值,常用的取代矩阵有PAM和B LOSUM系列,它们来源于不同的构建方法和不同的参数选择,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。对于不同的对象可以采用不同的取代矩阵以获得更多信息,例如对同源性较高的序列可以采用BLOS UM90矩阵,而对同源性较低的序列可采用BLO SUM30和PAM250矩阵。有时为取得两个序列最大的相似性,会在序列中补加空位。空位罚分是为了补偿插入和缺失对序列相似性的影响,由于没有什么合适的理论模型能很好地描述空位问题,空位罚分缺乏理论依据而更多依据经验。一般的处理方法是用两个罚分值,对插入的第一个空位罚分,如10~15;另一个对空位的延伸罚分,如1~2。对于具体的比对问题,采用不同的罚分方法会取得不同的效果[1,3]。

对于比对计算产生的分值,有统计学方法判断两个序列是否同源。主要的思想是把具有相同长度的随机序列进行比对,把分值与最初的比对分值相比,看看比对结果是否具有显著性。相关的参数E代表随机比对分值不低于实际比对分值的概率。对于严格的比对,必须E值低于一定阈值才能说明比对的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高比对得分的可能[4]。

1.2 具体软件的应用

B LAST(basic local alignmen t search tool)是现在应用最广泛的序列相似性搜索工具。它采用启发式算法对局部匹配来取代全局匹配,因此能检测只有部分相似性的序列[4],并为比对结果提供统计学的评估。BLAST在检索时,大致可分为以下几步:(1)将长度为n的检索序列按单位长度w分为n-w+1个不同的字段,将这些字段和数据库的序列两两比对。各字段和比对上的序列有不同的分值,将所有分值高于T的那些比对选出,用于下一步流程;(2)将检索字段和数据库中所有含该字段的序列比对,找出含有检索片段的大分子;(3)对每个片段而言,以比对上的那段序列为核心,向两侧进行无空位延伸。匹配加分,错配罚分。当延伸时分值降低了X时,停止延伸,并以最后的分值为该比对的分值。将所有分值超过某域值的比对作为最后的输出结果。这种方法无法处理含有空位的比对,所以经常出现检索序列和比对上的序列会输出多个不同的比对结果,如将这些比对结合在一起考虑,则两条序列之间有显著的同源性。为此,Altschul 等对BLAST作了修改:只有两个不相重叠的字段同时都比对上同一条序列,并且两字段间距离小于设定值A时,才能激活程序使比对向两侧无空位延伸;如果最后的分值高于Sg时,一种改进的含Smith Waterman算法的程序被激活,重新进行包含间隔处理的比对,所得的分值为最终分值[5]。

BLAS T包含针对不同的查询序列和要搜索的数据库类型的5个程序。最常用的为BLASTN(核酸核酸)和BLAS TP(蛋白蛋白)两种程序。B LASTX也较为常用,它主要用于将一段DNA序列按6个不同的可读框翻译后,与蛋白质数据库比较。这种程序对新序列和EST分析很有用[4]。

2 序列组装

利用鸟枪法进行测序,再将大量随机测序得到的小片段用计算机拼接成完整的基因组序列是基因组研究中的重要工作。好的拼接程序,不仅要求组装结果的错误尽可能少,而且能降低目前对计算硬件的过高要求。

2.1 原理介绍

已有许多计算机程序能自动对小片段序列进行组装。目前大部分程序都遵守 overlap layout consensus 的思路,即首先在用于拼接组装的片段中找出序列重叠;用重叠度最高的片段建立序列contigs,再将contigs定位定向,最后得到完整的一致序列。这种策略采取的计算方法类似于19世纪爱尔兰数学家William Rowan Hamilton提出的哈米尔顿的路径问题,即给出一系列任意的城市,每次只经过一个城市,而连接所有城市最短的路径是哪一条。如果城市的数目较少,答案很容易得到,但随着城市数目的增加,问题就越来越难以解决。若有30个城市,那么将会超过上亿种可能的答案。目前计算机无法承受如此巨大的计算量。由于重复序列会干扰组装,在目前的基因组拼接中,多采用启发式算法来避免重复序列的干扰[6]。

最近,加州大学圣地亚哥分校的计算机教授Pavel Pevzn er尝试用一种新的方法对基因组片段序列组装。他的算法是以18世纪的瑞士数学家Leonhard Euler命名的数学概念为

709

6期吴清发:基因组学研究中一些常用软件的概述

基础。简单的说,这种技术就是将人类基因组分成更小的片段,同时利用了重复序列进行组装,这样,不仅巧妙地解决了重复序列干扰组装的问题,而且将耗费计算资源的哈密尔顿途径变成了欧拉途径。欧拉途径就是假定每个城市不限定只能访问一次,想去多少次都可以,但是每一条路只能走一次,从这个网络中找出最短的路程的问题[7]。

2.2 具体软件的介绍

2.2.1 Phrap

Phrap(PHRagment assembly program)是目前在小的基因组片段或重复序列含量较低的全基因组组装中应用非常广泛的软件。它常和另几个软件一起组成Phred Phrap Consed软件包。

Phred的基本功能是找到电泳道,识别泳道的空间并对信号进行技术处理;将测序仪上得到不同波长光的强度变化轨迹,转化成对应的的A,T,G,C4种碱基;并根据信号峰的间距、形状及信噪比等因素,判断碱基的可信度信息。Phred 可处理不同类型的测序反应。这些情况包括测序反应可为引物标记或终止物标记;标记的荧光物可以是罗丹明、big dye或其他荧光物质;测序设备可为ABI系列或MegaBace系列[8,9]。

从Phred读出的文件,经过处理,生成序列文件和质量文件,两个文件互相对应。在拼接之前,通常用cross_match 软件对反应序列中可能存在的载体序列标记。将去载体后的反应序列和相应质量值提交给Phrap。Phrap通过比对找出配对的反应,在Phrap阶段,比对时采用的记分标准为:匹配为+1,错配为-9(错配涉及N时不罚分),起始空位罚分为-11,延伸空位罚分为-10,这样对于压缩区域配对时倾向于错配。拼接后的一致序列由最高质量的反应决定,并非由一致序列组成。Phrap给拼接后的一致序列中每个碱基都赋予一个拼接质量值,给序列的完成提供了一个客观的标准(https://www.doczj.com/doc/d5742199.html,/phrap.docs)。完成图的要求每个核苷酸序列的准确率都要达到99.99%以上。

Consed是推荐的和Phrap一起使用的序列编辑界面,它的发展和Phrap紧密联系,充分利用了Phrap中产生的丰富的信息。通过Consed编辑,修改后的数据保存为phd类型文件。重新用Phrap拼接一次,修改后的结果则整合在新文件中[10]。

2.2.2 Celera assembler

另一种用于装配全基因组的策略,即用全基因组的鸟枪法测序反应来组装复杂的真核生物基因组。这种策略核心要求是每个模板须进行双向测序。TIGR用这种策略成功地组装了第一个全基因组测序的果蝇的基因组。Celera同样采用这种策略开发了用于人基因组组装的软件Celera assem bler[11]。组装策略主要包括5个步骤:Screener、Overlapper、U nitigger、Scaffolder和Repeat Resolver。Screener标出序列中所有的重复单位小于6个碱基的简单重复序列和所有已知的散布重复序列如SINE;LINE等。Overlapper这一步则将屏蔽重复序列的各反应互相比对,找出那些末段匹配至少40bp,差异率小于6%的反应,组成各个不同的类,进行拼接。由于某些低复杂度区域(LCR)在Screener中未被标出,不同染色体位置的LCR因相似性高在这一步中可能被聚于一类,产生组装错误。Unitigger则应用统计学方法来选出那些组装可信度高的contig,用于下一步框架图的构建。Scaffolder根据反应对提供的连锁信息将contig相互定位和定向。Repeat Resolver则根据反应对的信息将重复序列回填组装的框架图中。最后根据最大节约算法,结合碱基的质量测度值得到的一致序列和Phrap由最高质量的反应决定一致序列不太一致[11]。

3 重复序列的鉴定

在真核生物中,重复序列是基因组结构的重要组成部分,也是进化主要推动力之一。对基因组中重复序列检测,不仅是基因组组装的不可缺少的一步,也是认识基因组结构与功能和进行基因预测的必不可少的前提。

3.1 原理介绍

将基因组序列和该物种的重复序列数据库比对是检测重复序列的主要思路,但也存在基于数学原理检测串联重复序列的方案。对不同物种而言,重复序列的类型和序列都不一致。在人基因组中重复序列主要分为两类:散布重复和串联重复,其中散布重复又可分为SINE、LINE、LTR返座子和DNA转座子等4大类,它们和不同的进化时间相联系。构建每种重复序列的共有序列(consensus sequence)时,将该类重复序列多序列比对,找出每个位置上出现频率最多的碱基为共有序列(https://www.doczj.com/doc/d5742199.html,/RM/RepeatMasker.html )。

Repbase为Juka等建立的重复序列数据库,至目前人重复序列共有632种,为重复序列种类知道最多的物种。可以实时下载最新的数据库,并把它用于重复序列检测[12]。

将得到的重复序列和基因组序列比对时,为尽可能的检出基因组中的重复序列,必须能检测相似性较低,允许大量插入和缺失的局部比对的程序,因此,选用灵敏度最高的Smith Waterman算法来进行检测[10]。

3.2 具体软件的介绍

目前能提供重复序列检测的主要有Censor和Repeat Masker,其中Repeat M asker程序应用最为广泛。

RepeatMasker通过选用不同物种的重复序列数据库,识别不同物种的基因组序列中重复序列。RepeatMasker通过比对重复序列数据库中数据与FAS TA格式的序列,用crossmatch比对标出。由于重复序列和GC含量相关,在输入参数时,可指定特定的GC值,程序会选用相应的取代矩阵,如果缺省该选项,程序自动选用43%。在运行程序时,还可设定分歧度,即将与一致序列比较小于该分歧度的重复序列找出。某些人类

710遗传HEREDITAS(Bei j ing)2003 25卷

疾病就是由重复序列引起的,这些重复序列,一般都是现在仍有转座能力的重复序列引起的,他们的突变率都为0或接近于0,我们可以在选项中设置突变率参数,找出那些保守性较好的重复序列。在使用RepeatMasker时,我们可以自己选定数据库,可以方便地对某些数据进行处理。由于Crossmatch采用了SW方法,耗费机时过多。因此,RepeatMasker也提供了其它比对程序Wu BLAS T,同时,通过改变S W方法的内部参数设置,也能加快检索速度(https://www.doczj.com/doc/d5742199.html,/R M/Repeat Masker.html)。

4 基因预测

基因预测在基因组学研究中占有重要的地位。基因预测有多种不同的策略。现有的基因预测软件多是利用基因本身的特征来进行新基因的识别,但将数据库搜索比较整合入预测软件成为一种趋势。

4.1 原理介绍

敏感性和特异性是基因预测的两个重要指标。敏感性表示程序预测的能力,而特异性表示预测结果的可信度。敏感性和特异性往往是一对矛盾,一般以敏感性和特异性的平均值作为评判程序优劣的标准[3]。

在完全从新的基因预测中,主要依据两方面信息:(1)搜索与编码区有关的信号序列(信号搜索);(2)从统计学角度分析一段连续的DNA序列是否更像编码序列(内容识别)。

4.1.1 编码区识别(内容识别)

在原核生物中可以通过寻找较长的ORF来预测基因编码区。在真核生物中,由于基因的编码区被内含子打断,识别ORF的方法就不适用,但利用真核生物编码区的一些特征序列可以找出基因组序列中的编码区。因为同义密码子的使用频率在不同的物种中有自己的特征模式,有些高表达的基因,往往只选用同义密码子中的一种,其他密码子使用频率很低;同时密码子3个位置上不同碱基的使用频率也有差别,这样就使得编码区的序列具有统计显著性。利用这一特性对基因组序列进行统计学分析,可以发现编码区的粗略位置[2]。最初统计分析3个碱基的选用频率在编码区和随机序列中的差异,但发现密码子选用的频率和邻近的密码子相关联[13]。在一特定的可读框中,6核苷酸(双密码子)的选用频率的统计差异被用来区别编码和非编码区域最为有效,因为不仅能测量密码子的偏歧性,而且能衡量邻近密码子的关联尺度。在目前的各种预测程序中这是一种被广泛应用的方法[13]。

4.1.2 信号识别

在原核生物中,识别转录和翻译的起始信号、核糖体结合位点、转录和翻译的终止信号可以帮助确定编码蛋白的序列。在真核生物中,情况远为复杂,这不仅因为同一个信号在不同的基因中可能相差很大,而且信号和基因之间距离可能相距较远。可以辅助确定真核生物基因组的为翻译起始位点;内含子剪接位点;poly(A)位点;翻译终止位点等[2]。

启动子是基因表达所必需的重要信号序列,识别出启动子对于基因辨识十分重要。Cp G岛和持家基因的5 端相联系,预测出CpG岛也可为识别新基因提供辅助信息。内含子和外显子剪接位点具有较明显的序列特征,但是要注意可变剪接的问题。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。对于真核生物,如果已知转录起始点,并且没有内含子打断5 非翻译区的话, Kozak规则可以在大多数情况下定位起始密码子。polyA和翻译终止信号不像起始信号那么重要,但也可以辅助划分基因的范围[2]。

目前用于基因预测的软件很多,而且都是整合了多种算法复合分析软件。许多基因预测的程序都已经整合了同源比较算法,比如著名的GRAIL 程序。尽管每种预测方法都有假阳性,并会漏掉一些外显子,可采用不同的预测方法对同一段基因组序列预测,其共同的外显子是真实的外显子的可能性加大。但基因预测对基因的UTR区预测能力仍较弱。

4.2 具体软件的介绍

Genscan是目前较为常用的基因预测软件,可应用于多种物种进行基因识别。Genscan只对编码的基因进行预测,不考虑tRNA和rRNA的预测。Genscan可对两条链进行基因预测,不仅可预测完整的基因,也可预测部分基因,但不能预测重叠的基因[14]。

Genscan用于基因预测的概率模型包含基因的基因组特征参数,这些基因组特征参数与物种紧密相关。这些特征包括:典型基因密度,每个基因的平均外显子数,不同类型的外显子大小分布,编码区和非编码区(内含子和基因间序列)的6核苷酸组成的差异,转录起始和终止信号,TATA框,cap位点,poly(A)位点,供体和受体信息等。在人或脊椎动物基因组中,GC含量不同区域的基因密度和基因结构相差很大,在预测时须采用不同的模型参数[14]。在不同的概率模型中,模型参数相差较大,如类别1(G+C<43%)中的intron长度为2069bp,而在类别4(G+C>57%)中,intron长度为518bp。在基因不同位置的外显子长度也相应的不同,对5 UTR和3 UTR来讲,平均值为769bp和457bp[14]。

Genscan在Unix/Linux环境下运行,对RAM的要求很高,通常需将较长的基因组序列分成较小的基因组片段后预测。在运行基因预测时,须选用不同物种的参数文件。对预测的灵敏度可通过设定域值来实现。域值范围为(0.01~0 99),缺省值为0.1。降低域值,可使潜在的编码区尽可能多的预测出来,但假阳性增多;升高域值,则可能使某些真正的外显子无法预测出来[14]。

值得注意的是,Genscan的模型参数多来自于对较小基因的归纳总结。在人基因组中,存在一些大基因,它们占基因总数的百分比较少,但占基因总长度的比例却很高,如> 100kb的基因占基因总数16.5%,但占基因总长的70.5%;

711

6期吴清发:基因组学研究中一些常用软件的概述

>250kb的基因占基因总数6.2%,但占基因总长的48 7%; >500kb的基因占基因总数2.8%,但占基因总长的31.5% (内部资料)。这些大基因的特征参数与现有的Genscan软件中所用的模型参数相差很大,用Genscan预测这些大基因时,很难预测出正确的基因。现有的人类基因组中基因空白区,基本上是被未知大基因所占据,因此必须发展适合于对大基因预测的软件[15]。

参考文献(References):

[1] Baxe vanis A D,Duelle tte B F F.Bi oi nformatics:A practic al guide to the

anal ysis of genes and protei ns[M],J ohn Wile y&Sons Inc,1998. [2] G UO Zheng,LI Xia,LI https://www.doczj.com/doc/d5742199.html,putational Molecular Bi ology and

Geno me Informatics[M].Harbin:Heilongji ang Science and Technology Pres s,1998.

郭政,李霞,李晶.计算分子生物学与基因组信息学[M].哈尔滨:黑龙江科学技术出版社,1998.

[3] HE Lin.Dec odi ng Life:Human Genome Project and Pos t genome Pro

ject[M].Beijing:Science Press,2000.

贺林.解码生命:人类基因组计划和后基因组计划[M].北京:科学出版社,2000.

[4] Altschul S F,Gish W,Miller W,Myers E W,Lipman D J.Basic local

alignment search tool[J].J Mol Biol,1990,215(3):403~410.

[5] Altschul S F,Madden T L,Schaffer A A,Zhang J,Zhang Z,Miller W,

Lipman D J.Gapped BLAST and PSI BLAST:a new generation of pro tein database search programs[J].Nucleic Acids Res,1997,25(17): 3389~3402.

[6] Kent W J,Haussler D.As sembly of the working draft of the human

genome wi th GigAss embler[J].Genome Res,2001,11(9):1541~

1548.

[7] Pevz ner P A,Tang H,Waterman S W.An Eulerian path approac h to

DN A frag ment assembl y[J].P NAS,2001,98:9748~9753.

[8] Ew i ng B,Hillier L,Wendl M C,Green P.Bas e Calling of Automated

Sequencer Traces Using Phred I Accuracy Assess ment[J].Genome Res,1998,8:175~185.

[9] Ewing B,Green P.Base Calling of Automated Sequencer Traces Using

Phred II Error Probabilities[J].Genome Res,1998,8:186~194. [10]Gordon D,Abajian C,Green P.Consed:A graphical tool for sequence

finis hing[J].Genome Res,1998,8:195~202.

[11]Venter J C,Adams M D,Myers E W,Li P W,Mural R J,Sutton G G,

Smi th H O,Yandell M,Evans C A,Hol t R A,G ocayne J D,A manati des P,Balle w R M,Huson D H,Wortman J R,Z hang Q,Kodira C D,Z heng X H,Chen L,Skups ki M,Subramanian G,Thomas P D,Zhang J,Gabor Miklos G L,Nelson C,Broder S,Clark AG,Nadeau J,McKusick V A,Zin der N,Levi ne AJ,R oberts RJ,Si mon M,Slayman C,Hunkapiller M,

Bolanos R,Delcher A,Dew I,Fasulo D,Flani gan M,Florea L,Halpern A,Hannenhalli S,Kravitz S,Levy S,Mobarry C,Reinert K,Remington K,Abu Threide h J,Beasley E,Bi ddic k K,Bonazzi V,Brandon R,Cargill M,Chandra mouli swaran I,Charlab R,Chaturvedi K,Deng Z,Di Francesc o V,Dunn P,Eilbeck K,Evangelista C,Gabrielian AE,Gan W, Ge W,Gong F,Gu Z,Guan P,Hei man TJ,Higgins ME,Ji RR,Ke Z, Ketchum KA,Lai Z,Lei Y,Li Z,Li J,Li ang Y,Lin X,Lu F,M erkulov GV,Mils hina N,Moore HM,Nai k AK,Narayan V A,Neelam B,Nusskern D,R usch DB,Salzberg S,Shao W,Shue B,Sun J,Wang Z,Wang A, Wang X,Wang J,Wei M,Wides R,Xi ao C,Yan C,Yao A,Ye J,Zhan M,Zhang W,Zhang H,Zhao Q,Zheng L,Zhong F,Zhong W,Zhu S,Z hao S,Gilbert D,Baumhue ter S,Spie r G,Carte r C,Cravc hik A,Woodage T, Ali F,An H,A we A,Baldwin D,Baden H,Barnstead M,Barro w I,Bee son K,Bus am D,Carver A,Center A,Cheng ML,Curry L,Danaher S,

D avenport L,Desile ts R,Dietz S,Dodson K,D oup L,Ferriera S,Garg N,

Gluecks mann A,Hart B,Haynes J,Haynes C,Heine r C,Hladun S, Hos ti n D,Houck J,Howl and T,Ibegwa m C,Johns on J,Kal ush F,Kline L,Koduru S,Love A,Mann F,M a y D,M c Ca wley S,McIntosh T,Mc Mullen I,Moy M,Moy L,Murphy B,Nel son K,Pfannkoch C,Pratts E, PuriV,Qures hi H,Reardon M,Rodriguez R,Rogers YH,Romblad D, R uhfel B,Scott R,Sitter C,Smallwood M,Stewart E,Strong R,Suh E, Thomas R,Tint NN,T se S,Vech C,Wang G,Wette r J,Williams S, Williams M,Wi ndsor S,Wi nn Deen E,Wol fe K,Z averi J,Zaveri K, Abril JF,G uigo R,Campbell MJ,Sjol ander KV,Karlak B,Kejariwal A, Mi H,Lazareva B,Hatton T,Narechania A,Die mer K,Muruganujan A, Guo N,Sato S,Bafna V,Is trail S,Li ppert R,Schwartz R,Walenz B, Yoos eph S,Allen D,Basu A,Baxe ndale J,Blick L,Cami nha M,Carnes Stine J,Caulk P,Chiang Y H,Coyne M,Dahlke C,Mays A,Dombroski M,Donnelly M,Ely D,Esparha m S,Fosler C,Gi re H,Glanows ki S, Glas ser K,Glodek A,Gorokhov M,Graham K,Gropman B,Harris M, Heil J,Hende rson S,Hoover J,Jennings D,J ordan C,Jordan J,Kasha J, Kagan L,Kraft C,Le vi ts ky A,Lewis M,Li u X,Lopez J,Ma D,Majoros W,M c Daniel J,Murphy S,Newman M,Nguyen T,Nguyen N,Nodell M, Pan S,Peck J,Pe terson M,Rowe W,Sanders R,Scott J,Si mpson M, Smith T,Sprague A,Stockwell T,T urner R,Venter E,Wang M,Wen M, Wu D,Wu M,Xi a A,Zandieh A,Zhu X.The sequence of the human genome[J].Science,2001,291:1304~1351.

[12]Jurka J.Repbase update:a database and an electronic j ournal of repeti

ti ve elements[J].Trends Genet,2000,16(9):418~420.

[13]Lipman D J,Wil bur W J.Contextual constraints of synonymous codon

choice[J].J Mol Bi ol,1983,163:377~394.

[14]Burge C,Karlin S.Prediction of complete genes structures i n human ge

nomic DNA[J].J M ol Biol,1997,268:78~94.

[15]Wong G K,Passey D A,Yu J.Most of the human genome is trans cribed

[J].Genome Res,2001,12:1975~1977.

712遗传HEREDITAS(Bei j ing)2003 25卷