当前位置：文档之家› 细胞遗传学分析和基因检测的相关性和互补性

细胞遗传学分析和基因检测的相关性和互补性

河北燕达陆道培医院

医学检验科王芳刘红星

摘要

染色体异常是基因异常的宏观表现

基因异常的形式有很多种，所适用的检测方法也有很多种不同的检测方法相互弥补，难以完全替代

根据检查目的，选择合适的检测方法很重要

认识疾病的不同层面/角度

临床表现(型)

z 临床所见；患者来诊断直接原因；疾病的综合结果

细胞表(现)型

z 显微镜下所见的细胞形态变化，包括对化学显色剂的反应

免疫表(现)型

z 基于免疫学原理(抗原抗体结合)检测的细胞蛋白表达的组合

染色体(型)

z 染色体是基因组的宏观表现

基因(型)

z 病因；肿瘤和遗传病都是“基因病”

Phenotype

Genotype

基因，染色体

流式:

细胞蛋白表达

细胞形态

全身多组织器官的影响

从基因型到表型（蛋白、细胞、临床）

每个2倍体细胞核里有23卷×2套（染色体）

共有约2.5万×2个章/节（编码蛋白的基因）

约30亿×2

个字（碱基）

JAK2 V617F

如果把基因组比做一本生命的天书

肿瘤和遗传病中常见的基因异常类型

染色体核型分析WES ；CGH FISH

基因检测基因检测

各种常用基因检测技术的特点

SNV

10‐610‐5

10‐4

10‐3

10‐210‐1

1bp

1Kbp

1Mbp

Q ‐PCR mRNA FG Q ‐PCR DNA FG/INDEL

FISH 缺失

FISH 重复核型分析

aCGH

NGS

Sanger 测序

片段分析检测灵敏度

分辨率

临床常用的基因检测方法及其特点

检测方法分辨率检测灵敏度

基因分型

Q‐PCR mRNA FG1‐300bp10‐4.5‐10‐5.5检测特定基因型

Q‐PCR DNA FG/INDEL1‐300bp10‐4‐10‐4.5检测特定基因型

Q‐PCR SNV1bp约10‐2检测特定基因型

位点特异性PCR SNV1bp约10‐2检测特定基因型

多重定性PCR100‐1000bp约10‐3‐10‐5检测的基因型较限定；可容纳一定范围内的基因型变异基因测序

Sanger测序1‐1000bp15‐25%得到混合的测序结果

焦磷酸测序1‐20bp约5%

NGS单个读长20‐300bp 约5%大规模并行测序；可进行单分子序列分析和克隆演变分析；尤其适用于基因突变筛查和全基因组/外显子组/转录组分析

其它

CNV（芯片；NGS）1‐100Kbp>10%全基因组范围分析；分辨率根据芯片密度及方法而异

FISH探针法10‐200Kbp（缺失）

>500~1000kb（重复）

10‐2‐10‐3检测特定基因的变异

染色体核型分析5‐10Mbp5%全基因组范围宏观分析

常见基因异常的类型和适用的检测方法

基因异常类型适用的检测方法

融合基因（FG）

有特征性染色体易位，有融合蛋白Q‐PCR（mRNA）；FISH；染色体核型分析；NGS 有特征性染色体易位，无融合蛋白PCR（DNA）；FISH；染色体核型分析；NGS

染色体微缺失或末端易位形成融合基因Q‐PCR（mRNA）；FISH；NGS

无对应基因组异常的融合基因Q‐PCR（mRNA）；NGS

基因突变

单碱基变异（SNV），突变位点和序列固定Q‐PCR；SSP‐PCR；Sanger测序；焦磷酸测序；NGS 单碱基变异（SNV），突变位点和序列不固定Q‐PCR；SSP‐PCR；Sanger测序；片段分析；NGS 小片段插入/缺失（INDELs），有较常见的突变型Q‐PCR；SSP‐PCR；Sanger测序；片段分析；NGS 小片段插入/缺失（INDELs），突变型不固定Sanger测序；片段分析；NGS

基因内部部分外显子缺失Q‐PCR；PCR基因分型；NGS

基因缺失、扩增等拷贝数变异FISH；染色体核型分析

其它分子指标

基因表达异常Q‐PCR（mRNA）

IG/TCR重排克隆性分析片段分析；NGS（免疫组库分析）

嵌合率检测片段分析；Q‐PCR（微嵌合分析）

遗传多样性检测基因测序；PCR基因分型

WHO2008标准里的主要基因指标近年来新的分子标志及疾病分类

MPN BCR‐ABL1；JAK2；MPL；KIT CALR突变；ASXL1;CALR;CSF3R;JAK2‐V617F;JAK2‐Exon12;MPL;SETBP1;SH2B3(LNK);SRSF2;TET2;U2AF1/35

伴嗜酸细胞增多

的髓系或淋巴细

胞系肿瘤

PDGFRA‐FG；PDGFRB‐FG；FGFR1‐FG；

MDS/MPN ASXL1;BRAF;CBL;JAK2‐

V617F;KRAS;NRAS;PTPN11;RUNX1(AML1);SETBP1;SRSF2;TET2;U2AF1/35

MDS ASXL1;DNMT3A;IDH1;IDH2;JAK2‐V617F;KRAS;NRAS;PTPN11;RUNX1(AML1);SETBP1; SF3B1;SRSF2;TET2;TP53(P53);U2AF1/35

AML 融合基因：AML1‐ETO；CBFB‐MYH11；

PML‐RARA及其它RARA‐FG；MLL‐FG；

DEK‐CAN；RPN1‐EVI1；RBM15‐MKL1。

突变：MLL‐PTD；NPM1；CEBPA；KIT；

FLT3‐ITD/TKD；WT1；AML。

原癌基因：BAALC、ERG、MN1

ASXL1;CEBPA;DNMT3A;ETV6(TEL);FLT3‐ITD;FLT3‐TKD;IDH1;IDH2;KIT‐

Exon8,11,17;KRAS;NPM1;NRAS;PHF6;PTPN11;RUNX1(AML1);TET2;TP53(P53)

AHL；MPAL BCR‐ABL1；MLL‐FG ASXL1;CEBPA;CREBBP;CRLF2;CSF3R;DNMT3A;ETV6(TEL);FLT3‐ITD;IDH1;IDH2;IL7R;JAK1; JAK2‐Exon16;JAK3;KIT‐Exon8,11,17;NOTCH1;NPM1;NT5C2;PHF6;PTEN;PTPN11;TET2; TP53(P53)

B‐ALL IGH重排克隆性；BCR‐ABL1；MLL‐FG；

TEL‐AML1；IL3‐IGH；E2A‐PBX1

BRAF;CREBBP;CRLF2;FLT3‐ITD;FLT3‐TKD;IL7R;JAK1;JAK2‐Exon16;KRAS;NRAS;NT5C2;

PTPN11;TP53(P53)

T‐ALL TCR易位BRAF;CREBBP;DNMT3A;ETV6(TEL);FBXW7;IL7R;JAK1;JAK2‐Exon16;JAK3;KRAS;NOTCH1; NRAS;NT5C2;PHF6;PTEN;RUNX1(AML1);TP53(P53)

淋巴瘤BCL2‐IGH；MYC‐IGH；CCND1‐IG；TP53突

变；CLTC‐ALK；

BCL2;CARD11;CCND1;CD79B;CREBBP;EZH2;FBXW7;ID3;JAK3;KIT‐Exon8,11,17;MEF2B;

MYD88;NOTCH1;NOTCH2;PIK3CA;TCF3(E2A);TP53(P53)

Ph样ALL的遗传学异常

张阳，刘红星. Ph样急性淋巴细胞白血病的分子遗传学进展：第56届美国血液学会年会报道[J]. 白血病?淋巴瘤,2015,24(2):74‐8.

项目

检测灵敏度

优点

缺点

其它

血常规

初诊时常可目测到白细胞数目的增加费用低

特异性差

血细胞形态

可反映CP 、AP 、BC

直观的骨髓和外周血细胞检查

非特异，检测灵敏度有限

染色体核型5×10‐2

可反映附加的染色体异常；可反映AP 、BC

灵敏度有限，报告周期长，有一定的培养失败率

FISH

10‐3

特异、可反映细胞内BCR ‐ABL1扩增

费用较高，检测灵敏度有限

多用作验证

Q ‐PCR

BCR ‐ABL1mRNA 10‐4.5‐10‐5.5灵敏度高，特异性好，报告快

对质控要求严格；定量值不直接反映细胞数的比例TKIs 耐药突变15‐20%；2‐5%检测主要的耐药原因；指导换药耐药因素之一TKIs 血药浓度10ng/ml ‐

‐

辅助个体化用药CYP3A4

基因遗传多样性

综合的影响因素

辅助个体化用药

CP:慢性期；AP:加速期；BC:急变期；FISH:荧光原位杂交

CML的主要实验室检测项目

感谢关注！

基因表达的分析技术

第二篇细胞的遗传物质第三章基因表达的分析技术生物性状的表现均是通过基因表达调控实现的。对基因结构与基因表达调控进行研究，是揭示生命本质的必经之路。在基因组研究的过程中，逐步建立起一系列行之有效的技术。针对不同的研究内容，可建立不同的研究路线。第一节PCR技术聚合酶链反应（polymerase chain reaction，PCR）技术是一种体外核酸扩增技术，具有特异、敏感、产率高、快速、简便等突出优点。。PCR技术日斟完善，成为分子生物学和分子遗传学研究的最重要的技术。应用PCR技术可以使特定的基因或DNA片段在很短的时间内体外扩增数十万至百万倍。扩增的片段可以直接通过电泳观察，并作进一步的分析。一、实验原理 PCR是根据DNA变性复性的原理，通过特异性引物，完成特异片段扩增。第一，按照欲检测的DNA的5＇和3＇端的碱基顺序各合成一段长约18～24个碱基的寡核苷酸序列作为引物（primer）。引物设计需要根据以下原则：①引物的长度保持在18～24bp之间，引物过短将影响产物的特异性，而引物过长将影响产物的合成效率；②GC含量应保持在45～60%之间；③5＇和3＇端的引物间不能形成互补。第二，将待检测的DNA变性后，加入四种单核苷酸（dNTP）、引物和耐热DNA聚合酶以及缓冲液。通过95℃变性，在进入较低的温度使引物与待扩增的DNA链复性结合，然后在聚合酶的作用下，体系中的脱氧核苷酸与模板DNA链互补配对，不断延伸合成新互补链，最终使一条DNA双链合成为两条双链。通过变性（92～95℃）→复性（40～60℃）→引物延伸（65～72℃）的顺序循环20至40个周期，就可以得到大量的DNA片段。理论上循环20周期可使DNA扩增100余万倍。

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签：杂谈分类：生物信息摘要基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.doczj.com/doc/175216895.html,/1009-3079/14/68.asp 0 引言基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

全基因组关联分析的原理和方法

全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism ，SNP)为分子遗传标记，进行全基因组水平上的对照分析或相关性分析，通过比较发现影响复杂性状的基因变异的一种新策略。随着基因组学研究以及基因芯片技术的发展，人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来，这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用，尤其是其在复杂疾病研究领域中的应用，使许多重要的复杂疾病的研究取得了突破性进展，因而，全基因组关联分析研究方法的设计原理得到重视。人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病，通过家系连锁分析的定位克隆方法，人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因，这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量，从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。全基因组关联分析技术的重大革新及其应用，极大地推动了基因组医学的发展。(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。我国学者则通过对12 000 多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5 个红斑狼疮易感基因, 并确定了4 个新的易感位点( Han 等. 2009) 。截至2009 年10 月, 已经陆续报道了关于人类身高、体重、血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果, 累计发表了近万篇论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。) 标记基因的选择： 1)Hap Map是展示人类常见遗传变异的一个图谱, 第1 阶段完成后提供了 4 个人类种族[ Yoruban ,Northern and Western European , and Asian ( Chinese and Japanese) ] 共269 个个体基因组, 超过100 万个SNP( 约1

全基因组关联分析(GWAS)解决方案

全基因组关联分析(GWAS)解决方案 ※ 概述全基因组关联研究（Genome-wide association study，GWAS）是用来检测全基因组范围的遗传变异与可观测的性状之间的遗传关联的一种策略。2005年，Science杂志报道了第一篇GWAS研究——年龄相关性黄斑变性，之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症等的研究报道。截至2010年底，单是在人类上就有1212篇GWAS文章被发表，涉及210个性状。GWAS主要基于共变法的思想，该方法是人类进行科学思维和实践的最重要工具之一；统计学研究也表明，GWAS很长时期内都将处于蓬勃发展期（如下图所示）。基因型数据和表型数据的获得，随着诸多新技术的发展变得日益海量、廉价、快捷、准确和全面：如 Affymetrix和Illumina公司的SNP基因分型芯片已经可以达到2M的标记密度；便携式电子器械将产生海量的表型数据；新一代测序技术的迅猛发展，将催生更高通量、更多类别的基因型，以及不同类别的高通量表型。基于此，我们推出GWAS的完整解决方案，协助您一起探索生物奥秘。 ※ 实验技术流程 ※ 基于芯片的GWAS Affymetrix公司针对人类全基因组SNP检测推出多个版本检测芯片，2007年5月份，Affymetrix公司发布了人全基因组SNP 6.0芯片，包含90多万个用于单核苷酸多态性（SNP）检测探针和更多数量的用于拷贝数变化（CNV）检测的非多态性探针。因此这种芯片可检测超过180万个位点基因组序列变异，即可用于全基因组 SNP分析，又可用于CNV分析，真正实现了一种芯片两种用途，方便研究者挖掘基因组序列变异信息。 Illumina激光共聚焦微珠芯片平台为全世界的科研用户提供了最为先进的SNP（单核苷酸多态性）研究平台。Illumina的SNP芯片有两类，一类是基于infinium技术的全基因组SNP检测芯片（Infinium? Whole Genome Genotyping），适用于全基因组SNP分型研究及基因拷贝数变化研究，一张芯片检测几十万标签SNP位点，提供大规模疾病基因扫描(Hap660,1M)。另一类是基于GoldenGate?特定SNP位点检测芯片，根据研究需要挑选SNP位点制作成芯片(48-1536位点)，是复杂疾病基因定位的最佳工具。罗氏NimbleGen根据人类基因组序列信息设计的2.1M超高密度CGH芯片，可以在1.1Kb分辨率下完成全基因组检测，可有效检测人基因组中低至约5kb大小的拷贝数变异。

相似性度量在基因表达聚类分析中的应用研究

相似性度量在基因表达聚类分析中的应用研究摘要：聚类分析是基因表达数据分析研究的主要技术之一，其算法的基本出发点在于根据对象间相似度将对象划分为不同的类，选择适当的相似性度量准则是获得有效聚类结果的关键。采用预处理过的基因数据集在不同相似性度量准则下进行的不同聚类算法的聚类分析，并得到聚类结果评价。其中算法本身的缺陷及距离相似性度量的局限性都是影响结果评价的因素，为了获得更有效的聚类结果，改进相关聚类算法并提出了一种比例相似性度量准则。关键词：dna微阵列；聚类分析；相似性度量；基因表达 dna 微阵列(dna microarray) 技术的日益成熟导致了基因表达数据不断扩大,尤其在近十几年内更以指数形式增长。如何分析和处理大量的基因表达数据，从中提取有用的生物学或医学信息，已成为后基因组时代研究的瓶颈［12］。由于基因芯片产生巨量的表达谱数据，数据挖掘技术已经被广泛的应用到基因表达谱的许多方面，并取得成功。聚类分析是基因表达数据分析研究的主要技术之一［23］，并且作为一种有效的数据分析工具, 已广泛地应用于图像处理、信息检索、数据挖掘等领域。目前，作为研究基因表达数据的主要技术之一的聚类分析算法有很多种，如分层聚类(hierarchical clustering)，k (k_means clustering)，自组织映射(self organizing maps，soms)，主成分分析(principal component analysis，pca)等等。但由于

不同聚类算法，甚至同一聚类算法使用不同参数，一般都会产生不同的聚类结果。因此，在对数据处理过的基因表达矩阵聚类分析时，选择合适的聚类相似性准则至关重要，同时也是获得合理、精确的聚类结果的关键。 1dna微阵列 dna微阵列（dna microarray）,也叫基因芯片。它将几十个到上百万个不等的称之为探针的核苷酸序列固定在微小的（约1 cm2）玻璃或硅片等固体基片或膜上，该固定有探针的基片就称之为dna 微阵列。 1.1基因表达数据的获得和表示在不同的实验环境条件或是不同的时间点，通过对基因芯片的扫描，可以得到不同的实验数据，所以这些数据是基因在一定实验条件下或一段时间内的表达情况。经过对这些数据表达进行预处理和标准化后，产生得到的微阵列数据也就是基因表达数据。微阵列基因表达数据主要为数值型，并以矩阵的方式存储，“行”为各个基因在不同环境条件下或不同时间点的表达情况，“列”是同一环境或时间下一个样本所有基因的表达谱。每一个元素代表第i个基因在第j个样本中的表达水平。 1.2基因数据的研究现状与已经发展了几十年的结构基因组学相比,基因表达谱的生物信息学仅处于起步阶段。现阶段基因芯片所遇到的挑战并不在于表达

基因表达分析

基因表达分析 1、EST（Expressed Sequence Tag）表达序列标签（EST）分析 1、EST基本介绍 1、定义： EST是从已建好的cDNA库中随机取出一个克隆，进行5’端或3’端进行一轮单向自动测序，获得短的cDNA部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20到7000bp不等，平均长度为400bp。 EST来源于一定环境下一个组织总mRNA所构建的cDNA文库，因此，EST也能说明该组织中各基因的表达水平。 2、技术路线：首先从样品组织中提取mRNA，在逆转录酶的作用下用oligo（dT）作为引物进行RT-PCR 合成cDNA，再选择合适的载体构建cDNA文库，对各菌株加以整理，将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序，这就是EST序列的产生过程。

3、EST数据的优点和缺点：（1）相对于大规模基因组测序而言，EST测序更加快速和廉价。（2）EST数据单向测序，质量比较低，经常出现相位的偏差。（3）EST只是基因的一部分，而且序列里有载体序列。（4）EST数据具有冗余性。（5）EST数据具有组织和不同时期特异性。 4、EST数据的应用 EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质，与来自非表达序列的标记（如AFLP、RAPD、SSR等）相比，更可能穿越家系与种的限制。因此，EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样，对于一个DNA序列缺乏的目标物种，来源于其他物种的EST也能用于该物种有益基因的遗传作图，加速物种间相关信息的迅速转化。具体说，EST的作用表现在：

全基因组关联分析

全基因组关联分析（Genome-wide association study,GWAS) 是一种对全基因组范围内的常见遗传变异: 单核苷酸多态性(Single nucleotide polymorphism , SNP) 进行总体关联分析的方法, 即在全基因组范围内选择遗传变异进行基因分型, 比较病例和对照间每个变异频率的异差, 计算变异与疾病的关联强度, 选出最相关的变异进行验证并最终确认与疾病相关。单核苷酸多态性（英语：Single Nucleotide Polymorphism，简称SNP，读作/snip/）指的是由单个核苷酸—A,T,C或G的改变而引起的DNA序列的改变，造成包括人类在内的物种之间染色体基因组的多样性。在后GWAS时代，利用已有的GWAS数据在多个人群间进行meta分析已经成为一种常用的分析手段，这不仅可以进一步扩大样本量，更重要的是提高了统计效能。GWAS meta分析已经成功应该用在多种复杂疾病的遗传学研究，发现一批新的易感基因。全基因组关联水平（P_meta < 5.0×10-8）罕见等位基因（MAF < 5％），基因型填补（imputation）：依据已分型位点的基因型对数据缺失位点或未分型位点进行基因型预测的方法。可用于精细定位（fine-mapping），填补已确认的关联位点附近的位点，以便评价相邻SNP位点的关联证据。加快复杂性疾病易感基因的定位。连锁与连锁不平衡（linkage disequilibrium,LD）: 连锁：如果同一条染色体上2个位点的位置比较近，则这2个位点上的等位基因倾向于一起传递给下一代。连锁不平衡：又称等位基因关联，是指同一条染色体上，两个等位基因间的非随机相关。即当位于同一条染色体上的两个等位基因同时存在的概率大于人群中因随机分布而同时出现的概率时，就称这两个位点处于LD状态。所谓的连锁不平衡是一种遗传标记的非随机性组合。比如，一个基因有两个位点，一个位点有两种基因型，那么子代应该有2的2次方，即4种基因型。但是发现子代的基因型往往会少于4种，这就是连锁不平衡现象。这是由于两个位点距离较近引起的两个位点上的等位基因经常同时出现在同一染色体上。

基因表达及分析技术

基因表达及其分析技术生命现象的奥秘隐藏在基因组中，对基因组的解码一直是现代生命科学的主流。基因组学研究可以说是当今生命科学领域炙手可热的方向。从DNA 测序到SNP、拷贝数变异(copy number variation , CNV)等DNA多态性分析，到DNA 甲基化修饰等表观遗传学研究，生命过程的遗传基础不断被解读。基因组研究的重要性自然不言而喻。应该说，DNA 测序技术在基因组研究中功不可没，从San ger测序技术到目前盛行的新一代测序技术(Next Gen eration Seque ncing NGS)到即将走到前台的单分子测序技术，测序技术是基因组解读最重要的主流技术。而基因组测序、基因组多态性分析、DNA 甲基化修饰等表观遗传分析等在基因组研究中是最前沿的课题。但是基因组研究终究类似“基因算命”，再清晰的序列信息也无法真正说明一个基因的功能，基因功能的最后鉴定还得依赖转录组学和蛋白组学，而转录作为基因发挥功能的第一步，对基因功能解读就变得至关重要。声称特定基因、特定SNP、特定CNV、特定DNA修饰等与某种表型有关，最终需要转基因、基因敲除、突变、 RNAi 、中和抗体等技术验证，并必不可少要结合基因转录、翻译和蛋白修饰等数据。基因实现功能的第一步就是转录为mRNA或非编码RNA，转录组学主要研究基因转录为RNA 的过程。在转录研究中，下面几点是必须考虑的： 1，基因是否转录(基因是否表达)及基因表达水平高低(基因是低丰度表达还是中、高丰度表达)。特定基因有时候在一个细胞中只有一个拷贝的表达，而表达量会随细胞类型不同或发育、生长阶段不同或生理、病理状态不同而改变。因此任何基

基因表达系列分析(Serial Analysis of Gene Expression,SAGE)技术

SAGE 技术 MRNA 结合到微珠子上(Microscopic Bead and mRNA) mRNA 转录成DNA(mRNA binds to bait and is copied into DNA)

用酶切开DNA的一小段(An enzyme cuts the DNA) 另一个酶定在DNA末端以便切下一小段(An enzyme locks onto the DNA and cuts off a short tag),这一小段就被视为这个基因的标签两个标签连在一起(Two tags are linked together)

在末端的定位分子被切掉(Enzymes cut off the "Docking Molecules") 都连成一条线(Di-Tags are combined into large concatemers)

DNA上所携带的遗传信息，需要通过RNA为中介体，合成出组织和正常生理功能所需要的蛋白质，这个过程被称为基因的表达。在生物体中不同的组织和器官所表达的基因群是不一样的，我们把基因群的表达状况称为基因表达谱。目前，高通量地研究基因表达谱的方法主要有两种，即生物芯片和基因表达串联分析（serial analysis of gene expression, SAGE）。基因芯片所能检测的基因必须是已知的基因，放在芯片上几种基因的探针就只能检测这几种基因的表达谱；相比之下，SAGE能以远高于DNA芯片的精确度和重复性来检测在病理条件下基因表达谱的改变，而不必考虑所检测的基因是已知的还是未知的。因此在检测疾病相关的新基因，特别是无法用基因芯片进行检测的低表达量致病基因时，SAGE是目前的最佳手段，无可取代。 SAGE技术为Genzyme公司所拥有的专利技术。其技术简介如下： SAGE技术得以建立的理论基础首先，一段来自于任一转录本特定区域的"标签"（Tag），即长度仅9-14bp的短核苷酸序列，就已包含足够的信息以特异性地确定该转录本。例如：一个9碱基的序列能有49=262144种不同的排列组合，而人类基因组据估计仅编码80000种转录本，因此在理论上每一个9碱基标签就能够代表一种转录本的特征序列。第二，如果将短片段标签相互连接、集中形成长的DNA分子，则对该克隆进行

基于全基因组关联分析的基因(环境)交互作用统计学方法进展

万方数据

７０８图ｌＭＤＲ基本步骤示意图划分为不同的分类，也就是图中的单元格。单元格中左侧直方图表示病例，右侧直方图表示对照。第４步：在ｎ维的每个多因子分类（单元格）中，计算病例数和对照数的比值，若病例数与对照数之比达到或超过某个阈值（例如≥１），则标为高危，反之则为低危。这样就把ｎ维的结构降低到一维两水平。第５步：多因子分类的集合中包含了ＭＤＲ模型中各因子的组合。在所有的两因子组合中，选择错分最小的那个ＭＤＲ模型，该两位点模型在所有模型中将具有最小的预测误差。第６步：通过十重交叉验证评估模型的预测误差，一以及单元格分配时的相对误差。也就是说，模型拟合９／１０的数据（训练样本），其预测误差将通过剩下１／１０的数据（检验样本）来衡量。选择预测误差最小的模型作为最终的模型，取ｌＯ次检验的预测误差平均值，作为模型相对预测误差的无偏估计。由于数据分组的方式对交叉验证的结果影响较大，因此，十重交叉验证过程将重复进行１０次，对ｎ个因子可能的集合将重复进行１０×１０次的交叉验证。通过十重交叉验证，在一定程度上可以避免因数据转换的偶然性，使Ｉ类错误增大而产生假阳性结果的影响。预测误差是衡量ＭＤＲ模型在独立检验的亚组中预测危险状态的指标，通过十重交叉验证的亚组中每一个的预测误差的平均值来计算。根据交叉验证的预测误差的平均值，选择最佳的Ｔｌ因子模型，并根据不同的因子数重复以上过程。最终筛选出最有可能存在交互作用的基因。ＭＤＲ的优势在于不需要考虑疾病的遗传模型，它利用计算机运算速度快的优势，对多个基因进行随机组合，按照上述方法找出存在交互作用的基因位点。但当主效应存在时，用ＭＤＲ方法很难得到最终模型，且同样受遗传异质性的影响；它只是一种数据挖掘方法，不是严格意义上的统计方法，还无法判断它的Ｉ类错误和检验功效。ＭＤＲ分析软件包可在ｈｔｔｐ：／／ｗｗｗ．ｅｐｉｓｔａｓｉｓ．ｏｒｇ／ｍｄｒ．ｈｔｍｌ免费下载。４基于复合ＬＤ的交互作用分析法吴学森等Ⅲ’提出基于复合ＬＤ的交互作用的分析法。该方法以病例一对照试验设计为基础，基于ＬＤ计算方法，构建完全有别于以上方法的一种新型基因间交互作用的统计分析方法：（１）用两个位点（基因）单倍型的外显率（只。）与等位基因的边际外显率的乘积（Ｐａ?Ｐ。）的偏差（６．口＝ＰＡ。一只?Ｐ８），分别定义病例组和对照组两个位点交互作用的度量．进而综合两组交互作用度量构造检验交互作用的统计量；（２）对于基因一环境交互作用模型的构建，则将环境（分类型变量）变量视为“虚拟位点”（例如Ｅ＝ｌ表示环境暴露。Ｅ＝０表示即非暴露），则同样依据上述方法构建其模型。４．１基因型数据的联合概率分布及其表达对于基因之间、基因与环境之间的交互作用统计量的构建，无论是二阶或高阶情形，均至少涉及两个变量。在本研究中，均以病例一对照试验设计为基础，个体的基因数据一律用其基因型表示。无论是病例组还是对照组，均设两个位点的等位基因分别为Ａ，ａ；Ｂ，ｂ，则它们的联合基因型分布可表述为表３的形式：则．配子的ＬＤ系数为：６．。＝％一ＰＡＰ。；非配子的ＬＤ系数为：乳口＝九日一只－匕，其中，Ｐ．ｅ＝尸竺＋ＰＡＢ舳＋碟＋Ｐ竺；ＪＤ∥。＝Ｐ竺＋Ｐ竺＋Ｐ：：＋形：。但是，当计算病例组或对照组的６．。时，需要知道双杂合子的概率Ｐ苫、Ｐ：：。然而。当它们的相未知时，则无法确定其值，只能进行单倍型推断。由于单倍型推断总是存在误差，这给后面构造的检验交互作用的统计量带来很多不确　万方数据

基因表达数据分析

第8章基因表达数据分析基因芯片或DNA微阵列等高通量检测技术的发展，可以从全基因组水平定量或定性检测基因转录产物mRNA，获取基因表达的信息。由于生物体中的细胞种类繁多，同时基因表达具有时空特异性，因此，基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。基因表达数据中蕴含着基因调控的规律，可以反映细胞当前的生理状态，例如（？？）是否恶化、（？？）是否对药物有效等。对基因表达数据的分析是生物信息学的重大挑战之一，也是DNA微阵列能够推广应用的关键环节之一。基因表达数据分析的对象是在不同条件下，全部或部分基因的表达数据所构成的数据矩阵。通过对数据矩阵的分析，回答一些生物学问题，例如，基因的功能是什么？在不同条件或不同细胞类型中，哪些基因的表达存在差异？在特定的条件下，哪些基因的表达发生了显著改变，这些基因受到哪些基因的调节，或者调控哪些其它的基因？哪些基因的表达是条件特异性的，根据它们的行为可以判断细胞的状态（正常或癌变）？？？？等等。对这些问题的回答，结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标，是系统生物学(Systems Biology，在附录中增加解释条目！)研究的核心内容。目前，对基因表达数据的分析主要是在三个逐渐复杂的层次上进行：1、分析单个基因的表达水平，根据在不同实验条件下，该基因表达水平的变化，来判断它的功能，例如可以确定肿瘤类型特异基因。采用的分析方法可以是统计学中的假设检验等。2、考虑基因组合，将基因分组，研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的基因调控网络，从机理上解释观察到的基因表达谱。多采用反工程的方法。本章首先介绍基因表达数据的来源和预处理方法；然后介绍基因表达数据分析的主要方法，即表达差异分析和聚类分析；最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。 8.1 基因表达数据的获取基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平（转录？？），这些数据可以用于分析哪些基因的表达发生了改变，它们有何相关性，在不同条件下基因是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析（Serial analysis of gene expression，SAGE）、RT-PCR、EST测序等。目前，最主要的表达数据来自于基因芯片或cDNA微阵列，它们的原理是相同的，利用4种核苷酸之间两两配对互补的特性，使两条在序列上互补的单链形成双链，这个过程被称为杂交。基本技术是：在一个约1cm2大小的玻璃片上，将称为探针的核苷酸片段固定在上面，这个过程称为芯片制备；从细胞或组织中提取mRNA，通过RT-PCR合成荧光标记的cDNA，与芯片杂交；用激光显微镜或荧光显微镜检测杂交后的芯片，获取荧光强度，分析细胞中的mRNA的相对水平。

GWAS原理剖析资料

全基因组关联分析（Genome-wide Association Study）是利用高通量基因分型技术，分析数以万计的单核苷酸多态性（SNPs）以及这些SNPs与临床表型和可测性状的相关性。简单地理解全基因组关联分析，GW AS就是标记辅助选择在全基因组范围上的应用，在全基因组层面上开展大样本的、多中心的、重复验证的技术，并对相关基因与复杂性状进行关联研究，从而全面地揭示出不同复杂性状的遗传机制和基础。GW AS是一项开创性的研究方法，因为它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究，且不受与疾病有关的先验性假设的限制，GWAS在全基因组范围、零假设性较候选基因研究都迈出了重要的一步，而且随着高通量测序成本的降低，GW AS在人类疾病以及畜禽经济性状的研究上都表现出巨大的优势。 GW AS的优势除了可以一次性检测到数以万计的SNPs信息，从而提高试验效率以及检验功效以外，其还有其他两个显著的优势，主要表现在：（1）对未知信息的基因进行定位探索。传统的QTL定位仅仅限于对已知的候选基因进行分析探索，而GW AS是对全基因组的范围内的所有位点进行关联分析，因此其拥有更广泛的关联信息，相比候选基因分析GW AS 更有可能找到与性状真正关联的候选基因，因此不再受到预先假设的候选基因的限制。（2）对于GWAS在研究不同的复杂性状之前，不需要像以往的研究一样“盲目地”预设一些假定条件，而是通过在病理和对照组中，有目的地比较全基因组范围内所有SNPs的等位基因频率或者通过家系进行传递不平衡检验（TDT，Transmission disequilibrium test），从而找出与复杂性状显著相关的序列变异。到目前为止，利用全基因组关联分析研究已经挖掘出众多与各种复杂性状相关联的基因和染色体区域，在这些被新鉴定出的位点和区域中，只有小部分结果位于以前对这些性状研究的区域之中或者附近，绝大多数位于以前从未被研究过的区域，GW AS的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分

基因表达谱分析技术

基因表达谱分析技术 1微阵列技术（microarray）这是近年来发展起来的可用于大规模快速检测基因差别表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项新的基因功能研究技术。其原理基本是利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸“探针”（cDNA、ESTs或基因特异的寡核苷酸），并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交，然后用特殊的检测系统对每个杂交点进行定量分析。其优点是可以同时对大量基因，甚至整个基因组的基因表达进行对比分析。包括cDNA芯片（cDNA microarray）和DNA芯片（DNA chips）。 cDNA芯片使用的载体可以是尼龙膜，也可以是玻片。当使用尼龙膜时，目前的技术水平可以将20000份材料点在一张12cm×18cm的膜上。尼龙膜上所点的一般是编好顺序的变性了的双链cDNA片段。要得到基因表达情况的数据，只需要将未知的样品与其杂交即可。杂交的结果表示这一样品中基因的表达模式，而比较两份不同样品的杂交结果就可以得到在不同样品中表达模式存在差异的基因。杂交使用的探针一般为mRNA的反转录产物，标记探针使用32PdATP。如果使用玻片为载体，点阵的密度要高于尼龙膜。杂交时使用两种不同颜色的荧光标记不同的两份样品，然后将两份样品混合起来与一张芯片杂交。洗去未杂交的探针以后，能够结合标记cDNA的点受到激发后会发出荧光。通过扫描装置可以检测各个点发出荧光的强度。对每一个点而言，所发出的两种不同荧光的强度的比值，就代表它在不同样品中的丰度。一般来讲，显示出来的图像中，黄色的点表示在不同的样品中丰度的差异不大，红色和绿色的点代表在不同样品中其丰度各不相同。使用尼龙膜为载体制作cDNA芯片进行研究的费用要比玻片低，因为尼龙膜可以重复杂交。检测两种不同的组织或相同组织在不同条件下基因表达的差异，只需要使用少量的尼龙膜。但是利用玻片制作的cDNA芯片灵敏度更高，而且可以使用2种探针同时与芯片杂交，从而降低了因为杂交操作带来的差异；缺点是无法重复使用还必须使用更为复杂的仪器。 Guo等（2004）将包含104个重组子的cDNA文库点在芯片上，用于检测拟南芥叶片衰老时的基因表达模式，得到大约6200差异表达的ESTs，对应2491个非重复基因。其中有134个基因编码转录因子，182个基因预测参与信号传导，如MAPK级联传导路径。Li等（2006）设计高密度的寡核苷酸tiling microarray方法，检测籼稻全基因组转录表达情况。芯片上包含13,078,888个36-mer寡核苷酸探针，基于籼稻全基因组shot-gun测序的序列合成，大约81.9%（35,970）的基因发生转录事件。Hu等（2006）用含有60,000寡核苷酸探针（代表水稻全部预测表达基因）的芯片检测抗旱转基因植株（过量表达SNAC1水稻）中基因的表达情况，揭示大量的逆境相关基因都是上升表达的。 2基因表达系列分析（Serial analysis of gene expression,SAGE）基因表达系列分析（SAGE）是一种转录物水平上研究细胞或组织基因表达模式的快速、有效的技术，也是一种高通量的功能基因组研究方法，它可以同时将不同基因的表达情况进行量化研究（Velculescu et al.,1995）。SAGE的基本原理是：每一条mRNA序列都可以用它包含的9bp的小片段（TAG）代替，因此考查这些TAGs出现的频率就能知道每一种mRNA 的丰度。首先利用生物素标记的oligo（dT）引物将mRNA反转录成双链cDNA，然后利用NlaIII 酶切双链cDNA。NlaIII酶的识别位点只有4bp，因此cDNA都被切成几十bp的小片段。带有生物素标记的小片段cDNA被分离出来，平均分成2份。这2份cDNA分别跟2个接头连接，2个接头中均有一个FokI酶切位点。FokI是一种II S型核酸内切酶，其识别位点不对称，切割位点位于识别位点下游9bp且不依赖于特异的DNA序列。FokI酶切分成2份的cDNA之

基因表达分析

荧光定量PCR 在基因表达分析中的应用所谓基因表达就是指在特定的时刻某种我们感兴趣的基因在组织或细胞中的mRNA 的表达数量。众所周知，很多的疾病（如肿瘤）的发生发展、很多药物的作用机理、很多生物的代谢调控作用等都和基因表达的变化有关，因此对基因表达进行精确定量是十分重要的。过去为了对mRNA 进行定量有了各种各样的方法，如Southern 杂交、Northern 杂交、原位杂交、传统PCR 等，但是我们也都知道这些技术灵敏性较差，重复性不好，操作比较烦琐，已经无法满足现在科研和检测的需要，于是荧光定量PCR 技术也就应运而生了。荧光定量PCR 技术能对核酸进行精确定量，因此大大提高了在基因表达的准确性和灵敏度，深受用户的青睐，广泛的应用于肿瘤研究、药物筛选、功能基因组研究等各个领域，目前已经成了很多科研文章发表的重要实验内容。基因表达分析中常见到的重要问题 1、要检测的基因基因表达分析的目的就是检测某种我们感兴趣的基因在不同组织或细胞中的表达差异。荧光定量PCR 技术可以对核酸物质的含量进行精确的定量，也就成了研究基因表达差异的一把利器。在基因表达分析实验中要检测两个基因，一个是目的基因和另一个是看家基因。之所以要引入看家基因是由于不能确定要比较的样品所用的组织起始量相同。就是说比如有的老师提取正常样品的基因时用了100个细胞，而提取病变样品时只用了10个细胞，这时候的基因表达差异可能是由于提取时候的样品细胞数不同引起的，为了纠正这种误差，我们选用认为在两个样本中表达量不变的基因作为内参照，来去除这带来的干扰。例如，要研究某个基因在肿瘤样品和正常样品中的基因表达差异。我们在实验中发现我们选择研究的正常样品中的看家基因的表达量是肿瘤样品中的10倍，就认为正常样品的细胞数就是肿瘤样品细胞数的10倍，那么在肿瘤样品中目的基因的基因表达量应该乘以10倍，才能和正常样品进行比较。 2、计算基因表达差异基因表达差异的计算是通过所得到的Ct 值来计算的，要计算两个样品（待测样品和对照样品）的目的基因的表达差异必须检测得到4个Ct 值：待测样品和对照样品中目的基因和看家基因的Ct 值。那么基因表达差异应该计算为基因表达差异=2（△Ct1-△Ct2）目的基因看家基因待测样品对照样品 △Ct1 △Ct2

基因表达数据分析的方法

基因表达数据分析的方法摘要：基因表达数据的一个重要应用是给疾病样本分类，如鉴别白血病的类型。而对成千上万个基因表达进行分析，必产生总量巨大的数据集。近年来，支持向量机(SVM)的理论已经取得重大进展，其算法实现策略以及实际应用也发展迅速，开始成为克服“维数灾难”和“过学习”等传统困难的有力手段。利用这一技术分析与整理这些基因表达数据，已有效地解决了生物信息学上这一海量数据的瓶颈问题。本文就支持向量机在基因表达数据分析方面的算法和应用进行了介绍和分析。关键词：生物信息学；基因表达数据；支持向量机 Methods of gene expression data analysis Abstract：Gene expression data has an important application to the classification of disease samples, such as identifying the types of leukemia. The analysis of thousands of gene expression data, will produce a tremendous amount of data sets. In recent years, support vector machine (SVM) theory that significant progress has been made towards its strategy and practical applications of algorithms has been developing rapidly and became overcome the "Dimension disaster" and "Over-study", a powerful means of the traditional difficulties. Using this technology analysis and collation of these gene expression data have been effectively solved bottleneck on the enormous bioinformatics data. This paper discusses the algorithms and application of support vector machine in gene expression data analysis. Keywords：Bioinformatics ;Gene expression data; Support vector machine

基因表达谱分析技术

基因表达谱分析技术 1、微阵列技术（microarray）这是近年来发展起来的可用于大规模快速检测基因差别表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项新的基因功能研究技术。其原理基本是利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸“探针”（cDNA、ESTs或基因特异的寡核苷酸），并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交，然后用特殊的检测系统对每个杂交点进行定量分析。其优点是可以同时对大量基因，甚至整个基因组的基因表达进行对比分析。包括cDNA芯片（cDNA microarray）和DNA 芯片（DNA chips）。 cDNA芯片使用的载体可以是尼龙膜，也可以是玻片。当使用尼龙膜时，目前的技术水平可以将20000份材料点在一张12cm×18cm的膜上。尼龙膜上所点的一般是编好顺序的变性了的双链cDNA片段。要得到基因表达情况的数据，只需要将未知的样品与其杂交即可。杂交的结果表示这一样品中基因的表达模式，而比较两份不同样品的杂交结果就可以得到在不同样品中表达模式存在差异的基因。杂交使用的探针一般为mRNA的反转录产物，标记探针使用32PdATP。如果使用玻片为载体，点阵的密度要高于尼龙膜。杂交时使用两种不同颜色的荧光标记不同的两份样品，然后将两份样品混合起来与一张芯片杂

交。洗去未杂交的探针以后，能够结合标记cDNA的点受到激发后会发出荧光。通过扫描装置可以检测各个点发出荧光的强度。对每一个点而言，所发出的两种不同荧光的强度的比值，就代表它在不同样品中的丰度。一般来讲，显示出来的图像中，黄色的点表示在不同的样品中丰度的差异不大，红色和绿色的点代表在不同样品中其丰度各不相同。使用尼龙膜为载体制作cDNA芯片进行研究的费用要比玻片低，因为尼龙膜可以重复杂交。检测两种不同的组织或相同组织在不同条件下基因表达的差异，只需要使用少量的尼龙膜。但是利用玻片制作的cDNA芯片灵敏度更高，而且可以使用2种探针同时与芯片杂交，从而降低了因为杂交操作带来的差异；缺点是无法重复使用还必须使用更为复杂的仪器。 Guo等（2004）将包含104个重组子的cDNA文库点在芯片上，用于检测拟南芥叶片衰老时的基因表达模式，得到大约6200差异表达的ESTs，对应2491个非重复基因。其中有134个基因编码转录因子，182个基因预测参与信号传导，如MAPK级联传导路径。Li等（2006）设计高密度的寡核苷酸tiling microarray方法，检测籼稻全基因组转录表达情况。芯片上包含13,078,888个36-mer寡核苷酸探针，基于籼稻全基因组shot-gun测序的序列合成，大约81.9%（35,970）的基因发生转录事件。Hu等（2006）用含有60,000寡核苷酸探针（代表水稻全部预测表达基因）的芯片检测抗旱转基因植株（过量表达SNAC1水稻）中基因的表达情况，揭示大量的逆境相关基因都是上升表达的。 2、基因表达系列分析（Serial analysis of gene expression, SAGE）