当前位置：文档之家› 基因表达谱公共数据库

基因表达谱公共数据库

基因表达谱公共数据库(2010-04-1711:17:21)转载▼

标签：教育分类：系统生物学

gene expression profiles:

NCBI: GEO

EBI ArrayExpress 和SMD

功能基因组相关信息分析

功能基因组学是后基因组研究的核心内容，它强调发展和应用整体的（基因组水平或系统水平）实验方法分析基因组序列信息阐明基因功能，特点是采用高通量的实验方法结合的大规模数据统计计算方法进行研究，基本策略是从研究单一基因或蛋白上升到从系统角度一次研

自制机器点样设备软件（https://www.doczj.com/doc/e914730213.html,/pbrown）

芯片图象处理已有各种软件工具，基本的功能是将不同信号强度点的图像转换为每个点的强度数值。这方面没有一致的方法，许多研究小组仍在开发这类软件。图象分析软件的质量对精确解释玻片和膜上的信号非常关键。NHGRI的Yidong Chen开发了一种复杂的图象分析程序，deArray,可免费获取。

美国国立卫生研究院人类基因组研究所（NHGRI）开发的免费的cDNA芯片数据管理分析系统ArrayDB，涉及微阵列的设计、实验室信息管理、实验结果的处理和解释。下面加以简单介绍。

ArrayDB

ArrayDB是用来储存、查询和分析cDNA芯片实验信息的实验室管理系统。ArrayDB整合了

cDNA芯片实验中的多个方面，包括数据管理、用户介面、机器自动点样、扫描和图象处理。ArrayDB中保存的数据包括实验来源、实验参数和条件以及原始的和经处理的杂交结果。ArrayDB依托的关系数据库储存了芯片上每个克隆的相关信息，包括基因的简单描述、GenBank号、IMAGE克隆识别号、代谢途径号和实验室内部克隆号。ArrayDB还储存了与cDNA 芯片制造和实验条件的信息。包括点样相关数据（点样机器的参数）、环境条件（温度、湿度、点样针冲洗条件）等数据。此外，还保存了杂交探针和实验条件，包括研究者的姓名，研究目的和实验条件、组织细胞类型的文本描述。有关杂交的结果的信息包括扫描图象（“原始”结果）、信号强度数据、信号强度比值和本底值。

ArrayDB的设计允许灵活地提取数据信息。设计策略允许不同来源的数据输入，大多数克隆信息来自Unigene数据库(包括序列的命名和获取号)。也允许新分离的还没有获取号及名称的克隆的输入。许多数据输入和处理过程是自动的。软件会自动扫描目录查找新输入数据库

值。

（4）毒理学研究例如，了解大鼠某种基因对特定毒剂的反应可帮助预测人的同源性基因的反应情况。

（5）实验质量控制和研究参考实验室样本与数据库中标准对照样本比较能找出方法和设备问题。此外，还能提供其他研究者的研究现状，避免重复实验，节约经费。

数据库的特点和难点

目前急需建立标准注释的公共数据库，但这是生物信息学迄今面临的最复杂且富有挑战性的工作之一。主要困难来自对实验条件细节的描述，不精确的表达水平相对定量方法以及不断增长的庞大数据量。

目前所有的基因表达水平定量都是相对的：哪些基因差异表达仅仅是与另外一个实验比较而

言，或者与相同实验的另一个基因的相比而言。这种方法不能确定mRNA的拷贝数，转录水平是总的细胞群的平均水平。结果导致采用不同技术进行基因表达的检测，甚至不同实验室采用相同技术，都有可能不能进行比较。对不同来源数据的进行比较有必要采取两个步骤：首先，原始数据应避免任何改动，比如采取数据标准化（data-normalization）的方法。其次，在实验中设计使用标准化的对照探针和样本以便给出参考点至少使来自同一实验平台的数据标准化。

另一难点是对实验条件的描述，解决方法是对实验方法用采用规范化词汇的文件描述：如基因名称，物种，发育阶段，组织或细胞系。还要考虑偶然的不受控制实验因素也可能影响表达：例如空气湿度，甚至实验室的噪音水平。目前建立一种结构能对将来实验设计的所有细节进行描述显然是不可能的。比较现实的解决办法是大部分采用自由文本描述实验，同时尽可能加上有实用价值的结构。DNA芯片实验的标准注释必须采用一致的术语，这有待时间

来源并统一格式。宾夕法尼亚大学计算生物学和信息学实验室正在整合描述样本的术语。目前至少有3个大的公共基因表达数据库项目：美国基因组资源国家中心的GeneX；美国国家生物技术信息中心（NCBI）的Gene Expression Omnibus;欧洲生物信息学研究所（EBI）的ArrayExpress.

欧美专家合作提出有关数据库的初步标准：实验描述和数据表示的标准；芯片数据XML 交换格式；样本描述的术语；标准化、质量控制和跨平台比较；数据查询语言和数据挖掘途径。（https://www.doczj.com/doc/e914730213.html,/microarray/）。EBI与德国癌症研究中心正在开发ArrayExpress , 一种与目前推荐标准兼容的基因表达数据库。该数据库将利用来自合作方的的数据，可操作的数据库将于近期建立（https://www.doczj.com/doc/e914730213.html,/arrayexpress）。

大规模基因表达谱数据分析方法

芯片分析能够检测不同条件下的基因转录变化，能够显示反映特征组织类型、发育阶段、环境条件应答、遗传改变的基因谱。当芯片数据大量出现，产生了新的问题：如果将所有获得的数据集中起来，我们能否将未知功能的新基因归类到已知功能分类中？能否将基因表达与基因功能联系起来？能否发现新类型的共调控基因？能否从芯片表达数据中得出完整的基因调控网络？这些唯有通过计算的方法。

基因制图及测序所面临的问题与大规模基因表达分析的数学问题相比要小的多。这种新类型的表达数据使我们直接面对生物系统和基因组水平功能的复杂性，从生物系统单个成分的定性发展到完整生物系统行为的描述上来，这方面困难很多，目前只有很少的分析工具。

聚类分析（clustering analysis）是大规模基因表达谱目前最广泛使用的统计技术，最近又发展了一种机器学习方法-支持向量机（support vector machines,SVMs）。这些分析方法均处在

如

和

新计算关系矩阵，不断重复这个过程。TREEVIEW对CLUSTER计算结果进行图形输出，将芯片中的每个基因的表达比值用彩色方块表示。

尽管CLUSTER软件易于使用且直观，但其算法仍有缺陷之处：实际数据由每次重复的平均数据替代；相似性测定的选择（相关性/Eluclidean距离）；将等级模型用于非等级过程；成对比较矩阵的计算负担。因此，出现了其它方法，包括自组织图（self organizing maps,SOMs），二进制决定-退火算法（binary deterministic-annealing algorithm）,k-means聚类等。Tamayo 等提供Windows平台的SOMs软件包。

CLUSTER和TREEVIE下载网址：https://www.doczj.com/doc/e914730213.html,

基于知识挖掘的机器学习方法

最近发展了一种的有监督的机器学习方法-支持向量机（support vector machines,SVMs）来分

析表达数据，它通过训练一种“分类器”来辨识与已知的共调控基因表达类型相似的的新基因。与经典的无监督聚类方法（unsupervised clustering）和自组织图（self-organizing maps）不同，该方法建立在已有的知识上并有改进现有知识的潜力。

无监督的聚类方法，例如层级（hierarchical）和K-means聚类，假设每个基因仅属于一“类”（cluster）。这在生物学意义上当然不是真实的。而且，事实上同一类基因不是必然意味着有相似的表达类型。比如，k-means聚类方法事先指定产生的“类”的数量及并将每个基因放在其最优“类”，并不总是有意义。需要对类（cluster）进行质量评价，“类”的“严谨性”和外围基因的存在（如果存在，它们与下一类的接近度）以及一组核心特征基因应在质量上保证。最重要的是应考虑“类”是否有生物学意义。

与无监督的方法产生基因的“类”相比，有监督的学习方法是向已知的“类”学习。训练者必须提供SVMs以每个“类”正反两方面的例子。SVMs提供一种层级的方法来分析芯片数

）

法如双杂交系统（two-hybrid system）、质谱法(mass spectrometry,MS)、二维凝胶电泳（2D PAGE）和DNA芯片杂交（DNA microarray hybridization）。任务大小和复杂性可由下面的假定理解：每个蛋白质有5-50个功能连锁，结果在一个酵母细胞中就有30,000-300,000个连锁。虽然实验已确定了约30%的酵母的功能，但是它们有时不是迅速廉价的，且不完全。因此需要用计算的方法来预测功能。

计算方法传统上预测功能是通过与性质明确蛋白质的序列相似性比较。这样标注的可行性是因为进化产生享有共同祖先的的同源性蛋白家族，因此有相似的序列、结构，经常还有功能。蛋白质比较允许对酵母另30%的蛋白质功能进行研究。但是，通过同源性进行功能预测受两方面的因素制约。首先，它只能用于与已知功能蛋白质有同源性的未知蛋白质的功能预测。其次，不是总清楚匹配的蛋白质何种功能特性为其共享，尤其对那些距离较远的匹配。

Marcotte等和Enright等并未受此限制，因为他们不依赖与未知蛋白质与已知功能蛋白质的序列相似性。而代替的是，将同样通路和装配的蛋白质分组，定义为“功能连锁”（functionally linked）.Marcotte等针对出芽酵亩基因组蛋白质采用了三种不同的方法：系统发育谱（phylogenetic profiles），结构域融合(domain-fusion analysis)和相关mRNA表达类型(correlated messenger RNA expression patterns)。Enright等独立发展了结构域融合分析，采用新的聚类算法用于三个原核基因组分析。

系统发育谱依赖于蛋白质相关进化。两个蛋白质是进化相关的当它们共有一个系统发育谱，定义为蛋白质在一组基因组中的发生率类型。仅当几个完整的基因组比较时系统发育表达谱才能精确计算。两个蛋白质享有相似的系统发育谱被认为是功能连锁（functionally linked）。因此，根据系统发育谱进行的蛋白质聚类，当未知蛋白质与一个或更多的功能已知的蛋白质归为一组时能够提供未知蛋白质的功能信息。

的基因组数据，结构域融合和系统发育谱的方法的预测数和精度将增加。

下一步将是提高方法预测蛋白质功能的范围、准确度和精确性。这可能在理论上，通过考虑三维结构来做，因为蛋白质的功能更多直接由它的结构和动力学而不是它的序列来决定。那么为什么在基因组学上结构没有序列用的广泛呢？至少有两个原因。首先，只有一部分蛋白质有三维结构数据。这种限制在几年内随着结构基因组学（structural genomics）的进展而减少。结构基因组学的目标是确定大约10,000经仔细挑选的蛋白质结构域的结构，以便所有其它的蛋白质序列能够有很好的精确性建模。其次，能够从结构而不是从序列提取的功能细节依赖于细胞环境下的那种结构的细节，同样也依赖于它的动力学和能量，所有这些在现有的实验和理论技术下难以获得。

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法（DGE）----基于新一代测序技术的技术路线该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段（特异性标记该基因）；然后通过高通量测序，得到大量的TAG序列，不同的TAG序列的数量就代表了相应基因的表达量；通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下： 1、样品准备： a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品； 2、样品制备（见图1-1）： a) 类似SAGE技术，通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段，用来标记该基因，称为TAG； b) 在TAG片段两端连接上用于测序的接头引物； 3、上机测序： a) 通过高通量测序每个样品可以得到至少250万条TAG序列； 4、基本信息分析： a) 对原始数据进行基本处理，得到高质量的TAG序列； b) 通过统计每个TAG序列的数量，得到该TAG标记的基因的表达量； c) 对TAG进行注释，建立TAG和基因的对应关系； d) 基因在正义链和反义链上表达量间的关系； e) 其它统计分析； 5、高级信息分析： a) 基因在样品间差异表达分析； b) 库容量饱和度分析；

c) 其它分析；测序优势利用高通量测序进行表达谱研究的优势很明显，具体如下： 1．数字化信号：直接测定每个基因的特异性表达标签序列，通过计数表达标签序列的数目来确定该基因的表达量，大大提高了定量分析的准确度。整体表达差异分布符合正态分布，不会因为不同批次实验引起不必要的误差。 2．可重复性高：不同批次的表达谱度量准确，能够更准确的进行表达差异分析。 3．高灵敏度：对于表达差异不大的基因能够灵敏的检测其表达差异；能够检测出低丰度的表达基因。 4．全基因组分析，高性价比：由于该技术不用事先设计探针，而是直接测序的方式，因此无需了解物种基因信息，可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析，因此性价比很高。 5．高通量测序：已有数据表明，当测序通量达到200万个表达标签时，即可得到样本中接近全部表达基因的表达量数据，而目前每个样本分析可以得到300 万~600万个表达标签。

基因表达谱测序

基因表达谱测序背景介绍基因表达谱分析利用HiSeq 2000高通量测序平台对mRNA进行测序，获得10M读长为49nt的原始reads，每一个reads可以对应到相应的转录本，从而研究基因的表达差异情况。与转录组测序相比，基因表达谱分析要求的读长更短，测序通量更小，仅可用于基因表达差异的研究。该方法具有定量准、可重复性高、检测阈值宽、成本低等特点，能很好的替代以往的数字化表达谱分析。技术路线

生物信息学分析送样要求样品要求 1. 所需Total RNA 的量均不少于 20μg/文库，Total RNA 可以保存在DEPC 处理过的水中、75%的乙醇、异丙醇中，具体以什么方式保存请注明。 2. 如提供实验材料为动物组织材料，样品质量需大于2g ； 3. 如提供实验材料为植物样品，样品质量需大于4g ； 4. 如提供实验材料为培养细胞，请提供1×107培养好的细胞； 5. 如提供实验材料为血液样品，请提供≥2ml 的样品。我们强烈建议在送样的同时客户做好备份，以备后续实验之用。样品纯度要求 1. OD 260/OD 280在1.8- 2.0之间，RNA 无降解、28S 和18S 核糖体RNA 条带非常亮且清晰（其

大小决定于用于抽提RNA的物种类型），28S的密度大约是18S的2倍；Agilent 2100检测仪分析RNA完整性数据RIN≥8。 2. 无蛋白质、基因组DNA污染，如有污染请去蛋白并进行DNase I处理。请提供至少一种样品的凝胶电泳或者Agilent 2100检测仪检测图片，并注明其浓度、体积、OD260/OD280、溶剂名称、制备时间、物种来源以及特别备注。最终以我方定量、质检为准。样品采集为了保证提取RNA的完整性，确保后续实验的顺利进行，请务必确保样品的新鲜，对于如何确保样品的新鲜针对不同的样品获取材料的方法如下： 1. 动物组织：从活体上迅速的取下组织（切成黄豆粒大小的块状），每切成一个黄豆粒大小的块状立即放入液氮中，重复上述操作，直至足够提取总RNA的量；准备一个50ml的离心管，做相应的标记（样品名称、编号、客户姓名、时间），最好既在管盖上做好标记，也在管壁上做好相应的标记，先放入液氮中预冷2-3min，拿出离心管（离心管的下部分还是保持在液氮中），打开离心管的盖子，将液氮中黄豆粒大小的块状收集进离心管中。 2. 植物组织：（1）如所采集的是果实、麦穗等体积偏大的样品，收集样品请参照1.动物组织取样方法；（2）如采集的是叶片等体积偏小的样品，请尽量采集嫩叶、幼芽等，每采集一片叶片立即放入液氮中，直至足够提取总RNA的量，后续操作请参照动物组织的采集。（3）如是植物的花，在采集花骨朵的时候请尽量不要采集到花萼、叶片等，每采集一个花骨朵请立即放入液氮中，直至足够提取总RNA的量；后续操作请参照动物组织的采集。3. 如提供实验材料为菌丝体，请取500μl的菌液于1.5ml离心管中，离心去上清，剩余菌丝体放入液氮或干冰中，请提供不少于5管的菌丝体。样品运输从液氮中取出准备好的样品，请立即放入干冰中，并用干冰掩埋好样品。请填写完整订单，放入自封袋中与样品一起邮寄。为防止RNA的降解，请确保干冰的量足够运送到目的地。我们强烈建议在寄送RNA样品时将RNA保存在75%的乙醇或异丙醇中。如是特殊样品，关于送样量和保存问题请与我们联系沟通，以便双方共同协商解决。提供结果根据客户需求，提供不同深度的信息分析结果。

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签：杂谈分类：生物信息摘要基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.doczj.com/doc/e914730213.html,/1009-3079/14/68.asp 0 引言基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

第24章基因表达谱分析的生物信息学方法思考与练习参考答案

第24章基因表达谱分析的生物信息学方法思考与练习参考答案 1．据教材表24–3提供的数据信息可以构建一棵决策树，请利用最大信息增益方法写出如何选出根结点中用于分割的特征。教材表24-3 天气情况与是否去打球的关系数据集注：该信息表示根据天气情况决定是否出去打球，数据集共包含14个样本，两个类别信息（Yes 、No ），每个样本包含3 个特征信息（Outlook 、Temp 、Windy ）。解：计算用每一个特征进行分割时所获取的信息增益，取信息增益最大的那个特征作为分割特征，以Outlook 特征为例计算（参照练习图24-1）练习图24-1 同Outlook 特征进行分割所获得的信息增益 )14 9 log 149145 log 145()(220+-=S H

)5 2 log 5253 log 53()(2211+-=S H 0)4 4 log 44()(212=-=S H )52 log 5253 log 53()(2213+-=S H )(14 5 )(144)(145)(1312111S H S H S H S H ++= infor-gain （Outlook ）=)()(10S H S H - 同理，计算其他两个特征的信息增益，最后从三个值中选取最大的一个对应的特征作为根结点的分割特征。 2．请从https://www.doczj.com/doc/e914730213.html,/上下载一原始未经标准化的表达谱数据，并对该数据进行如下分析：（1）对数据进行标准化处理。（2）对数据进行分类分析。（3）分别对基因和样本进行聚类分析。（4）选择特征基因。（答案略）

表达谱数据的 GO分析和聚类分析

表达谱数据的 GO分析和聚类分析王琼萍上海交通大学 GO（gene ontology）是基因本体联合会（Gene Ontology Consortium）所建立的数据库。GO 是多种生物本体语言中的一种，旨在建立一个能阐释各种物种的基因以及基因产物。这个数据库最开始起源于三个模式生物的数据库：果蝇基因组数据库（Drosophila）、酵母基因组数据库（Saccharomyces Genome Database，SGD）、小鼠基因组数据库（Mouse GenomeDatabase，MGD）。在这之后，在基因本体联合会成员的努力下，将GO 数据库扩展到了植物、动物、微生物等世界范围内各个主要的数据库。GO 数据库建立了具有三层结构的定义方式来描述基因及其产物的生物学过程、细胞组分及分子功能，对不同信息源的信息进行整合，以DAG（有向无环图）结构组织起来作为多个分支，节点的高低也代表了每个节点的意义的广泛程度。每个父项（parent terms）下包含若干子项（children terms），分支越远，匹配的GO 条目就越具体。在这个层级结构中，一个生物学注释可以由一个基因集表示。这个数据库的建立为基因功能数据挖掘提供了新的思路。一套基因本体，其实也就是一套基因的树状结构。GO 数据库及其序列分析程序的问世，使得差异基因的功能分析变得更加高效、准确。目前，已经有很多可以供畜牧研究者免费使用的GO资源，如AmiGo，它可以分析一个基因的GO 术语，也可以分析多个基因。另外，还有Onto express、DAVID、Gostat 等。差异基因的GO 分析关键在于利用统计学方法进行基因富集，常用的方法是Fisher 的精确概率法或卡方检验。Fisher 的精确概率法利用超几何分布（hypergeometric distribution）的原理推断每个基因集中差异表达基因的比例是否与整个基因芯片上差异表达基因的比例相同。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。基因表达谱数据的聚类分析，目的是为了将寻找一类类似的基因，如具有共同的调控原件、具有相似的生物学功能或具有相同的祖先等。这样的聚类往往可以发现一些未知领域，可以根据类中已知基因的功能而得知推断未知基因的功能。聚类分析要确定两个特征向量间的合适的测度及相似度，并确定算法方案，根据选定的相似性测度对向量进行聚类。常用的相似性测度包括欧氏距离（Euclideandistance）、明考斯基距离（Minkowski distance）、皮尔逊相关距离（Pearson correlationdistance）、马氏距离（Manhattan distance）等。聚类方法的分类可以有很多种，按照是否具有先验知识而分为监督聚类（supervised clustering）和非监督聚类（unsupervised clustering）。非监督聚类中的层级聚类（hierarchical clustering）、k means 聚类、自组织图、主成分分析等算法已经广泛地运用到基因表达分析中。基因聚类分析中容易受到噪点基因的干扰，而且要求算法的准确性和有效性较高，目前较常用的方法包括模糊聚类和人工神经网络。人工神经网络方法中自组织映射（Self Organizing Map, SOM）使用的最多，它采用的是结构简单的单层竞争性神经网络模式在输入端引入并与输出结点关联，其间的权重通过学习反复变更，直到达到终止标准，结果是相似的模式被分入同组，并为同一个单位神经元所代表。不同的聚类过程侧重于不同的相似性，那么聚类的结果也会有所不同。在聚类之前，一般要考虑一下四方面的内容：（1）什么样的数据，是原始的标准化后的数据，还是log 转化后的数据，或者是做了另外方法转化后的数据；（2）需要用全部的基因还是选择性的使用部分基因；（3）需要用什么样的矩阵把所选择的基因结合起来；（4）运用什么样的聚类算法。基因表达谱聚类分析已经被应用到各个领域，如癌症，个体行为关系等。

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现 1.表达谱芯片及其应用表达谱DNA芯片（DNA microarrays for gene expression profiles）是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片，待测样品中的mRNA被提取后，通过逆转录获得cDNA,并在此过程中标记荧光，然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后，将芯片上未发生结合反应的片段洗去，再对玻片进行激光共聚焦扫描，测定芯片上个点的荧光强度，从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种：①cDNA芯片；② 寡核昔酸芯片。 cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统：U前常用Cy3—dUTP （绿色）标记对照组mRNA, Cy5—dUTP （红色）标记样品组mRNAUl。用不同波长的荧光扫描芯片，将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理，给出每个点在不同波长下的荧光强度值及其比值（ratio值），同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色，相反，在对照组中高表达的基因其杂交点呈绿色，在两组中表达水平相当的显黄色，这些信号就代表了样品中基因的转录表达情况⑵。基因芯片因具有高效率，高通量、高精度以及能平行对照研究等特点，被迅速应用于动、植物和人类基因的研究领域，如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度，可以同时分析上万个基因的表达变化，来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究：①同一个体在同一时间里，不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列，与人类全基因组基因数相当，所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里，相同基因的表达差异。 ③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本，同时筛选不同样本（如肿瘤组织、癌前病变和正常组织）之间差异表达的基因，这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片，对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究，结果发现在卵巢癌组织中下调的基因有23个，上调的基因有15个，初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片，筛选到胰腺癌细胞中高表达的基因，为医疗诊断、病理研究及新药设计奠定基础。 2.表达谱芯片的数据处理技术

空间数据库复习重点答案完整)

1、举例说明什么是空间数据、非空间数据？如何理解空间查询和非空间查询的区别？常用的空间数据库管理方式有哪几种及其各自特点。数据：是指客观事务的属性、数量、位置及其相互关系等的符号描述。空间数据：是对现实世界中空间对象（事物）的描述，其实质是指以地球表面空间位置为参照，用来描述空间实体的位置、形状、大小及其分布特征等诸多方面信息的数据。河流的泛洪区，卫星影像数据、气象气候数据等都可以是空间数据书店名称店员人数，去年的销售量，电话号码等是非空间数据空间查询是对空间数据的查询或命令人工管理阶段文件管理阶段缺点： 1）程序依赖于数据文件的存储结构，数据文件修改时，应用程序也随之改变。 2）以文件形式共享，当多个程序共享一数据文件时，文件的修改，需得到所有应用的许可。不能达到真正的共享，即数据项、记录项的共享。常用：文件与数据库系统混合管理阶段优点：由于一部分建立在标准的RDBMS上，存储和检索数据比较有效、可靠。缺点：1）由于使用了两个子系统，它们各自有自己的规则，查询操作难以优化，存储在RDBMS外的数据有时会丢失数据项的语义。 2）数据完整性的约束条件可能遭破坏，如在几何空间数据系统中目标实体仍存在，但在RDBMS中却已删除。 3）几何数据采用图形文件管理，功能较弱，特别是在数据的安全性、一致性、完整性、并发控制方面，比商用数据库要逊色得多全关系型空间数据库管理系统 ◆属性数据、几何数据同时采用关系式数据库进行管理 ◆空间数据和属性数据不必进行烦琐的连接，数据存取较快 ◆属性间接存取，效率比DBMS的直接存取慢，特别是涉及空间查询、对象嵌套等复杂的空间操作 ◆GIS软件：System9，Small World、GeoView等本质：GIS软件商在标准DBMS顶层开发一个能容纳、管理空间数据的系统功能。对象关系数据库管理系统优点：在核心DBMS中进行数据类型的直接操作很方便、有效，并且用户还可以开发自己的空间存取算法。缺点：用户须在DBMS环境中实施自己的数据类型，对有些应用相当困难。面向对象的数据库系统。采用面向对象方法建立的数据库系统；对问题领域进行自然的分割，以更接近人类通常思维的方式建立问题领域的模型。目前面向对象数据库管理系统还不够成熟，价格昂贵，在空间数据管理领域还不太适用；基于对象关系的空间数据库管理系统可能成为空间数据管理的主流 2、什么是GIS，什么是SDBMS？请阐述二者的区别和联系。 GIS是一个利用空间分析功能进行可视化和空间数据分析的软件。它的主要功能有：搜索、定位分析、地形分析、流分析、分布、空间分析/统计、度量GIS 可以利用SDBMS来存储、搜索、查询、分享大量的空间数据集改：地理信息系统是以地理空间数据库为基础，在计算机软硬件的支持下，运用系统工科学管理和综合分析具有空间内涵的地理数据，以提供管理、决策等所需信息的技术系统。简单的说，地理信息系统就是综合处理和分析地理空间数据的一种技术系统。

基因表达谱聚类

基因表达谱聚类分析 [ 文章来源：| 文章作者：| 发布时间：2006-12-21| 字体：[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时，学习初期可设定较大的交互作用半径R ，随着学习过程的不断推进，逐步减小R ，直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。 KFM 的聚类结果与K 均值相似，它的优点是自动提取样本数据中的信息，同时也是一种全局的决策方法，能避免陷入局部最小，缺点在于必须实现人为设定类的数目与学习参数，而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点：它应用类间的全局关系，能提供大数据集内相似性关系的综合看法，便于研究数据变量值的分布及发现类结构。而且，它具有更稳健更准确的特点，对噪声稳定，一般不依赖于数据分布的形状。 8.4.2.5 其它聚类方法聚类方法是数据挖掘中的基本方法，数据挖掘的方法很多，在基因表达谱的分析中，除了以上常用方法外，还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价，尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用，因此，科学家们在不断地研究一些新方法。这些方法有不同的原理，能够提取不同数据特征，有可能对具体的数据得到更有意义的结果，发现更多的生物学知识。这里，简单介绍这些方法的原理，更详细的介绍请参看相关文献。 (1)模糊聚类分析方法:这是一种模拟人类的思维方法，通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度，构建模糊相似矩阵，利用模糊数学中的传递闭包计算方法得到模糊等价矩阵，选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平，可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念，能够更好的反映基因表达谱之间的相互关系，而且它是一种全局的优化方法，与向量的顺序无关。 (2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法，一个基因表达谱所属的类只有一个，因此，它与各类别的关系要么是 1 ，要么是0 ，即属于或不属于某一类。而对于模糊 C 均值法，一个基因表达谱是否属于某一类，是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的，可以根据最大隶属度来确定基因表达谱的分类，即一个基因表达谱只属于一类；但往往是确定隶属度的阈值，只要大于该阈值，就可以将基因表达谱划分为该类，这样的划分结果是一个基因表达谱可以属于多个类，这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同，所不同的是对于

基因表达分析

基因表达分析 1、EST（Expressed Sequence Tag）表达序列标签（EST）分析 1、EST基本介绍 1、定义： EST是从已建好的cDNA库中随机取出一个克隆，进行5’端或3’端进行一轮单向自动测序，获得短的cDNA部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20到7000bp不等，平均长度为400bp。 EST来源于一定环境下一个组织总mRNA所构建的cDNA文库，因此，EST也能说明该组织中各基因的表达水平。 2、技术路线：首先从样品组织中提取mRNA，在逆转录酶的作用下用oligo（dT）作为引物进行RT-PCR 合成cDNA，再选择合适的载体构建cDNA文库，对各菌株加以整理，将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序，这就是EST序列的产生过程。

3、EST数据的优点和缺点：（1）相对于大规模基因组测序而言，EST测序更加快速和廉价。（2）EST数据单向测序，质量比较低，经常出现相位的偏差。（3）EST只是基因的一部分，而且序列里有载体序列。（4）EST数据具有冗余性。（5）EST数据具有组织和不同时期特异性。 4、EST数据的应用 EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质，与来自非表达序列的标记（如AFLP、RAPD、SSR等）相比，更可能穿越家系与种的限制。因此，EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样，对于一个DNA序列缺乏的目标物种，来源于其他物种的EST也能用于该物种有益基因的遗传作图，加速物种间相关信息的迅速转化。具体说，EST的作用表现在：

表达谱

对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题，分析任务是从数据矩阵 M 中找出显著性结构，结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题，所采用的方法包括通过可视化进行探索性数据分析（ Exploratory Data Analysis ）、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。基因表达谱分析所采用的常用方法是聚类，其目的就是将基因分组。从数学的角度，聚类得到的基因分组，一般是组内各成员在数学特征上彼此相似，但与其它组中的成员不同。从生物学的角度，聚类分析方法所隐含的生物学意义或基本假设是，组内基因的表达谱相似，它们可能有相似的功能。然而，产物有相同功能的编码基因（例如对其它蛋白质有磷酸化作用），不一定共享相似的转录模式。相反，有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在，大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱，特别是被共同的转录因子共调控的基因，或者产物构成同一个蛋白复合体，或者参与相同的调控路径。因此，在具体的应用中，可以根据对相似表达谱的基因进行聚类，从而指派未知基因的功能。聚类分析是模式识别和数据挖掘中普遍使用的一种方法，是基于数据的知识发现的有效方法，特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法，不需要任何先验领域知识，它根据数学特征提取分类标准，对数据进行分类，这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多，主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。 8.4.1 相似性度量函数对基因表达谱进行聚类分析之前，必须首先确定反映不同基因表达谱相似程度的度量函数，根据该函数可以将相似程度高的基因分为一类。在实际计算中，还可以用距离代替相似的概念，相似性度量被转化为两个基因表达谱之间的距离。距离越小，表达模式越相近；反之，则表达模式差异大。常见的相似性度量有距离、点积、相关系数（ correlation coefficient ）、互信息（ mutual information ）等。假设两个基因表达谱分别为X = （x 1 ,x 2 ,…,x m ）和Y = （y 1 ,y 2 ,…, y m ） , 距离函数 d( X ，Y ) 必须满足如下条件： d( X ，Y ) ≧ 0 d( X ，Y ) = d( Y ，X ) d( X ，Y ) = 0 if X = Y

基因表达数据分析

第8章基因表达数据分析基因芯片或DNA微阵列等高通量检测技术的发展，可以从全基因组水平定量或定性检测基因转录产物mRNA，获取基因表达的信息。由于生物体中的细胞种类繁多，同时基因表达具有时空特异性，因此，基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。基因表达数据中蕴含着基因调控的规律，可以反映细胞当前的生理状态，例如（？？）是否恶化、（？？）是否对药物有效等。对基因表达数据的分析是生物信息学的重大挑战之一，也是DNA微阵列能够推广应用的关键环节之一。基因表达数据分析的对象是在不同条件下，全部或部分基因的表达数据所构成的数据矩阵。通过对数据矩阵的分析，回答一些生物学问题，例如，基因的功能是什么？在不同条件或不同细胞类型中，哪些基因的表达存在差异？在特定的条件下，哪些基因的表达发生了显著改变，这些基因受到哪些基因的调节，或者调控哪些其它的基因？哪些基因的表达是条件特异性的，根据它们的行为可以判断细胞的状态（正常或癌变）？？？？等等。对这些问题的回答，结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标，是系统生物学(Systems Biology，在附录中增加解释条目！)研究的核心内容。目前，对基因表达数据的分析主要是在三个逐渐复杂的层次上进行：1、分析单个基因的表达水平，根据在不同实验条件下，该基因表达水平的变化，来判断它的功能，例如可以确定肿瘤类型特异基因。采用的分析方法可以是统计学中的假设检验等。2、考虑基因组合，将基因分组，研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的基因调控网络，从机理上解释观察到的基因表达谱。多采用反工程的方法。本章首先介绍基因表达数据的来源和预处理方法；然后介绍基因表达数据分析的主要方法，即表达差异分析和聚类分析；最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。 8.1 基因表达数据的获取基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平（转录？？），这些数据可以用于分析哪些基因的表达发生了改变，它们有何相关性，在不同条件下基因是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析（Serial analysis of gene expression，SAGE）、RT-PCR、EST测序等。目前，最主要的表达数据来自于基因芯片或cDNA微阵列，它们的原理是相同的，利用4种核苷酸之间两两配对互补的特性，使两条在序列上互补的单链形成双链，这个过程被称为杂交。基本技术是：在一个约1cm2大小的玻璃片上，将称为探针的核苷酸片段固定在上面，这个过程称为芯片制备；从细胞或组织中提取mRNA，通过RT-PCR合成荧光标记的cDNA，与芯片杂交；用激光显微镜或荧光显微镜检测杂交后的芯片，获取荧光强度，分析细胞中的mRNA的相对水平。

基因表达谱分析技术

基因表达谱分析技术 1微阵列技术（microarray）这是近年来发展起来的可用于大规模快速检测基因差别表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项新的基因功能研究技术。其原理基本是利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸“探针”（cDNA、ESTs或基因特异的寡核苷酸），并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交，然后用特殊的检测系统对每个杂交点进行定量分析。其优点是可以同时对大量基因，甚至整个基因组的基因表达进行对比分析。包括cDNA芯片（cDNA microarray）和DNA芯片（DNA chips）。 cDNA芯片使用的载体可以是尼龙膜，也可以是玻片。当使用尼龙膜时，目前的技术水平可以将20000份材料点在一张12cm×18cm的膜上。尼龙膜上所点的一般是编好顺序的变性了的双链cDNA片段。要得到基因表达情况的数据，只需要将未知的样品与其杂交即可。杂交的结果表示这一样品中基因的表达模式，而比较两份不同样品的杂交结果就可以得到在不同样品中表达模式存在差异的基因。杂交使用的探针一般为mRNA的反转录产物，标记探针使用32PdATP。如果使用玻片为载体，点阵的密度要高于尼龙膜。杂交时使用两种不同颜色的荧光标记不同的两份样品，然后将两份样品混合起来与一张芯片杂交。洗去未杂交的探针以后，能够结合标记cDNA的点受到激发后会发出荧光。通过扫描装置可以检测各个点发出荧光的强度。对每一个点而言，所发出的两种不同荧光的强度的比值，就代表它在不同样品中的丰度。一般来讲，显示出来的图像中，黄色的点表示在不同的样品中丰度的差异不大，红色和绿色的点代表在不同样品中其丰度各不相同。使用尼龙膜为载体制作cDNA芯片进行研究的费用要比玻片低，因为尼龙膜可以重复杂交。检测两种不同的组织或相同组织在不同条件下基因表达的差异，只需要使用少量的尼龙膜。但是利用玻片制作的cDNA芯片灵敏度更高，而且可以使用2种探针同时与芯片杂交，从而降低了因为杂交操作带来的差异；缺点是无法重复使用还必须使用更为复杂的仪器。 Guo等（2004）将包含104个重组子的cDNA文库点在芯片上，用于检测拟南芥叶片衰老时的基因表达模式，得到大约6200差异表达的ESTs，对应2491个非重复基因。其中有134个基因编码转录因子，182个基因预测参与信号传导，如MAPK级联传导路径。Li等（2006）设计高密度的寡核苷酸tiling microarray方法，检测籼稻全基因组转录表达情况。芯片上包含13,078,888个36-mer寡核苷酸探针，基于籼稻全基因组shot-gun测序的序列合成，大约81.9%（35,970）的基因发生转录事件。Hu等（2006）用含有60,000寡核苷酸探针（代表水稻全部预测表达基因）的芯片检测抗旱转基因植株（过量表达SNAC1水稻）中基因的表达情况，揭示大量的逆境相关基因都是上升表达的。 2基因表达系列分析（Serial analysis of gene expression,SAGE）基因表达系列分析（SAGE）是一种转录物水平上研究细胞或组织基因表达模式的快速、有效的技术，也是一种高通量的功能基因组研究方法，它可以同时将不同基因的表达情况进行量化研究（Velculescu et al.,1995）。SAGE的基本原理是：每一条mRNA序列都可以用它包含的9bp的小片段（TAG）代替，因此考查这些TAGs出现的频率就能知道每一种mRNA 的丰度。首先利用生物素标记的oligo（dT）引物将mRNA反转录成双链cDNA，然后利用NlaIII 酶切双链cDNA。NlaIII酶的识别位点只有4bp，因此cDNA都被切成几十bp的小片段。带有生物素标记的小片段cDNA被分离出来，平均分成2份。这2份cDNA分别跟2个接头连接，2个接头中均有一个FokI酶切位点。FokI是一种II S型核酸内切酶，其识别位点不对称，切割位点位于识别位点下游9bp且不依赖于特异的DNA序列。FokI酶切分成2份的cDNA之

基因表达谱数据分析技术

第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场革命，通过它可以同时观测成千上万个基因的表达水平，从而能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质。还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等，因此对基因表达谱的研究具有重要的理论价值和应用意义。微阵列基因表达数据具有维数高、样本小、非线性的特点，这对一些传统的机器学习方法提出了新的挑战，对其数据的分析已成为生物信息学研究的焦点。 1基因表达数据采集基因表达数据采集可分为三个步骤：微阵列设计、图像分析和数据获取、过滤、标准化。基因芯片（gene chip ），简称为微阵列,就是指固着在载体上的高密度 DNA 微点阵，具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。mRNA （信使核糖核酸）的表达水平的获得是通过选取来自不同状态的样本（如正常组织与肿瘤组织、不同发育阶段组织，或用药之前与用药之后组织等，一种称为实验样本，另外一种称为参考样本），在逆转录过程中,实验样本和参考样本RNA （核糖核酸）分别用不同的红、绿荧光染料去标记，并将它们混合，与微阵列上的探针序列进行杂交，经适当的洗脱步骤与激光扫描仪对芯片进行扫描，获得对应于每种荧光的荧光强度图像，通过专用的图像分析软件，可获得微阵列上每个点的红、绿荧光强度（Cy5和Cy3），其比值（Cy5/Cy3）表示该基因在实验样本中的表达水平。在通常情况下，考虑Cy5和Cy3的数值时，还应考虑相应的背景数值，如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低，则该基因的表达水平无法确定。为了方便数据处理，常孟令梅等：一种基于DCT 变换的图像认证算法文章编号：1005－1228（2010）06－0017－03 基因表达谱数据分析技术刘玲（江苏财经职业技术学院，江苏淮安 223001）摘要：人类基因组计划的研究已进入后基因组时代，后基因组时代研究的焦点已经从测序转向功能研究，主要采用无监督和有监督技术来分析基因表达谱和识别基因功能，通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示，说明生命功能在基因表达层面的展现，对目前基因表达谱数据分析技术及它们的发展，进行了综述性的研究，分析了它们的优缺点,提出了解决问题的思路和方法，为基因表达谱的进一步研究提供了新的途径。关键词：基因表达谱；分类；无监督；有监督；基因调控网络中图分类号：Q81；TP181 文献标识码：A Gene Expression Data Analysis LIU Ling （Jiangsu Vocational College of Finance &Econimics ，huai ’an 223001,China ） Abstract ：As the work of sequencing the genome of the human has been fully finished,the post-genomic era has begun.Scientists are turning their focus toward identifying gene function from sequencing.Clustering technology,as one of the important tools of analyzing gene expression data and identifying gene function,has been used widely.Transcriptive regulatory networks are the global representation of multiple interactions between genes and their products ,which can help us understand the cell ’s function at the level of gene expression In this paper we discuss main clustering technology about gene expression data at present,analyze their advantages and disadvantages ,present the methods to solve the problems and given approaches to study gene expression data. Key words:gene expression profile ； classification ；gene regulatory network Vol．18No．6Dec 2010 第18卷第6期2010年12月电脑与信息技术Computer and Information Technology 收稿日期： 2010-06-09项目资助：江苏省淮安市科技发展计划项目(HAG08015）作者简介：刘玲（1964-），山东胶州人，副教授，硕士，主要研究方向:生物信息。

基因表达数据在数据库中的预处理(1)

数据库与信息管理本栏目责任编辑：闻翔军Computer Knowledge and Technology 电脑知识与技术第5卷第16期(2009年6月)基因表达数据在数据库中的预处理刘春菊，刘自伟，姜遥（西南科技大学计算机科学与技术学院，四川绵阳621010）摘要：存在不完整的、不一致的和含噪声的数据是现实世界大型的数据库或数据仓库的共同特点，基因表达数据也存在这种情况。因此,在数据挖掘之前对基因表达数据进行预处理非常必要。关键词：基因表达；数据库；数据预处理中图分类号：TP274文献标识码：A 文章编号：1009-3044(2009)16-4101-02 Gene Expression Data Pre-processing in the Database LIU Chun-ju,LIU Zi-wei,JIANG Yao (College of Computer Science &Technology,Southwest University of Science &Technology,Mianyang 621010,China) Abstract:The existence of incomplete,inconsistent and with the noise of the data in large-scale real-world database or data warehouse is a common feature.Gene expression data also has such situation.Therefore,pre-processing is necessary before data mining. Key words:gene expression,database,data pre-processing 1引言在数据挖掘中，数据预处理就是在对数据进行知识发现前，先对将要研究的原始数据进行必要的清洗、集成、变换和约简等一系列的处理工作，使之达到挖掘算法进行知识获取研究所要求的最低规范和标准[1]。 2数据来源实验数据来源于美国国立生物技术信息中心,网址：https://www.doczj.com/doc/e914730213.html,/sites/entrez 。数据主要包括正常组织的基因表达值，患乳腺癌的基因表达值。每一组值来源于二个表。其一，Table1，包括探针ID 号及测得的基因表达值；其二，Table2,主要包括探针ID 号，基因的制作日期、基因名、基因符号、基因描述等共15个属性。 3数据集成数据集成是将多文件或多数据库运行环境中的异构数据进行合并处理，解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题[2]。由于实验数据在二个表中，需要进行多表连接操作。根据二个表中都有相同的探针ID 号，因此，可以采用等值连接将二个表集成为一个表，并将集成后的表命名为Table_Integration 如： SELECT Table1.*,Table2.*into Table_Integration FROM Table1,Table2 WHERE Table1.ID=Table2.ID 4数据清理当属性出现缺少值时,有忽略元组、填充最可能的值等补充方法。在缺少类标号且元组有多个属性缺少值时通常采用忽略元组法,填充最可能值的方法比较常用,它能够通过现存数据的最多信息推测出相对准确的缺少值。噪音数据是由一种随机错误或被测变量的差变引起的,可采用分箱、丛聚、人机交互检查、回归等数据平滑技术去除。对于数据集成或有些事务记录中数据可能存在的不一致性,可以采用附加材料给予更正。知识工程工具也可以用来检测违反数据限制的数据。由于探针与基因并不是一一对应的关系，因此，集成的表中出现多个ID 号对应同一个基因，此时需要将这种多对一的关系转换为一对一的关系，这里采用平均值法和分组法来解决，对每一个基因进行分组，同一基因的值进行平均化[3]，并将转换后的数据保存在Table_Clean 中，如： SELECT gene,avg(value)INTO Table_Clean FROM Table_Integration group by gene 由于Table2中有些ID 号并没有给出相应的基因名，因此，在Table_Clean 中出现了有些样本有对应的基因表达值却没有对应的基因名，此时需要对基因为空的样本进行处理，由于此处涉及到很深生物学知识，而且这些空缺基因很难对应，此处采取忽略元组策略[4]，如： DELETE FROM Table_Clean WHERE gene IS NULL 5数据归约由于实验设备容量的限制，所有基因芯片杂交实验不能同时在一个实验炉中进行，而多次试验时炉内的温度、液体密度等微环收稿日期：2009-05-06 基金项目：国家自然科学基金资助项目(10676029) ISSN 1009-3044Computer Knowledge and Technology 电脑知识与技术Vol.5,No.16,June 2009,pp.4101-4102E-mail:jslt@https://www.doczj.com/doc/e914730213.html, https://www.doczj.com/doc/e914730213.html, Tel:+86-551-569096356909644101

文档之家