微阵列资料分析(Microarray Data Analysis)
- 格式:pdf
- 大小:194.20 KB
- 文档页数:6
微陣列資料分析(Microarray Data Analysis)蔡政安副教授前言在人類基因體定序計劃的重要里程碑陸續完成之後,生命科學邁入了一個前所未有的新時代,在人類染色體總長度約三十億個鹼基對中,約含有四萬個基因,這是生物學家首次以這麼宏觀的視野來檢視生命現象,而醫藥上的研究方針亦從此改觀,科學研究從此正式進入後基因體時代。
微陣列實驗(Microarray) 及其它高產能檢測(high-throughput screen) 技術的興起,無疑將成為本世紀的主流;微陣列實驗主要的優勢再於能同時大量地、全面性地偵測上萬個基因表現量,透過基因晶片,可在短時間內找出可能受疾病影響基因,作為早期診斷的生物指標(biomarker)。
然而,由於這一類技術的高度自動化、規模化及微型化的特性,使得他們所生成的資料量非常龐大且資料型態比一般實驗數據更加複雜,因此,傳統統計分析方法已經不敷使用。
在此同時,統計學家並未在此重要時刻缺席,提出非常多新的統計理論和方法來分析微陣列實驗資料,也廣受生物學家所使用。
由於微陣列資料分析所牽涉的統計問題層面相當廣且深入,本文僅針對整個實驗中所衍生的統計問題加以介紹,並介紹其中一些新的圖形工具用以呈現分析結果。
基因晶片的原理微陣列晶片即一般所謂的基因晶片,也是基因體計畫完成後衍生出來的產品,花費成本雖高,但效用無限,是目前所有生物晶片中應用最廣的,由於近年來不斷改進,也是最有成效的生物技術。
一般而言,基因晶片是利用微處理技術,先把人類所有的基因分別固著在一小範圍的玻璃片(glass slide)、薄膜(membrane)或者矽晶片上;然後,可以平行地、大量地、全面性地偵測基因體中mRNA的量,也就是偵測基因的調控及相互作用表現。
目前微陣列晶片大致分為以下兩種平台(如圖一) : cDNA 晶片及高密度寡核甘酸晶片(high-density oligonucleotide),兩種系統無論在晶片的製程及樣本處理上皆有相當的差異,因此在分析上也略有不同,以下便就晶片的特性約略介紹。
微阵列名词解释介绍如下:
微阵列(microarray)是基因芯片技术的一种,它是一种用于检测大量的DNA、RNA或蛋白质的平台。
微阵列技术用于评估基因和蛋白质的表达模式,以研究复杂疾病发病的机制、诊断和治疗。
微阵列技术的核心部分是由数千到数百万个小的“探针”组成的芯片。
这些探针可以精确地探测目标分子(如DNA、RNA或蛋白质),并测定其在样本中的数量和表达水平。
使用微阵列技术,研究人员可以比较正常、疾病或治疗后人体中基因或蛋白质的表达水平,以此来确定哪些基因或蛋白质与疾病相关。
微阵列技术的应用非常广泛。
在生物学研究中,微阵列技术可用于检测细胞中的大量基因表达水平,以便确定其与细胞功能、代谢途径和发育等方面的联系。
在医学研究中,微阵列技术可以加速疾病的诊断和治疗。
例如,它可以帮助确定肿瘤细胞基因表达的差异,从而指导治疗方案的制定和个体化治疗的选择。
总之,微阵列技术是一种用于检测大量基因表达的高通量技术,具有广泛的应用前景。
通过微阵列技术,可以了解基因与疾病之间的关系,从而在医学诊断和治疗上提供更准确、更有效的解决方案。
微阵列数据分析(MicroarrayDataAnalysis)蔡政安副教授(台湾前⾔在⼈类基因组测序计划的重要⾥程碑陆续完成之后,⽣命科学迈⼊了⼀个前所未有的新时代,在⼈类染⾊体总长度约三⼗亿个碱基对中,约含有四万个基因,这是⽣物学家⾸次以这么宏观的视野来检视⽣命现象,⽽医药上的研究⽅针亦从此改观,科学研究从此正式进⼊后基因组时代。
微阵列实验(Microarray)及其它⾼通量检测(high-throughput screen)技术的兴起,⽆疑将成为本世纪的主流;微阵列实验主要的优势在于能同时⼤量地、全⾯性地侦测上万个基因的表达量,通过基因芯⽚,可在短时间内找出可能受疾病影响的基因,作为早期诊断的⽣物标记(biomarker)。
然⽽,由于这⼀类技术的⾼度⾃动化、规模化及微型化的特性,使得他们所⽣成的数据量⾮常庞⼤且数据形态⽐⼀般实验数据更加复杂,因此,传统统计分析⽅法已经不堪使⽤。
在此同时,统计学家并未在此重要时刻缺席,提出⾮常多新的统计理论和⽅法来分析微阵列实验数据,也⼴受⽣物学家所使⽤。
由于微阵列数据分析所牵涉的统计问题层⾯相当⼴且深⼊,本⽂仅针对整个实验中所衍⽣的统计问题加以介绍,并介绍其中⼀些新的图形⼯具⽤以呈现分析结果。
基因芯⽚的原理微阵列芯⽚即⼀般所谓的基因芯⽚,也是基因组计划完成后衍⽣出来的产品,花费成本虽⾼,但效⽤⽆限,是⽬前所有⽣物芯⽚中应⽤最⼴的,由于近年来不断改进,也是最有成效的⽣物技术。
⼀般⽽⾔,基因芯⽚是利⽤微处理技术,先把⼈类所有的基因分别固着在⼀⼩范围的玻璃⽚(glass slide)、薄膜(membrane)或者硅芯⽚上;然后,可以平⾏地、⼤量地、全⾯性地侦测基因组中mRNA的量,也就是侦测基因的调控及相互作⽤表达。
⽬前微阵列芯⽚⼤致分为以下两种平台:cDNA芯⽚及⾼密度寡核⽢酸芯⽚(high-density oligonucleotide),两种系统⽆论在芯⽚的制备及样本处理上都有相当的差异,因此在分析上也略有不同,以下便就芯⽚的特性简略介绍。
微阵列数据分析和错误发现率王婷;曾平;黄水平;赵华硕【摘要】Aim :To introduce the analysis of differential expression of microarray data and the multiple hypotheses testing based on the false discovery rate( FDR ). MGthodS :The t test was used for the analysis of differentially expressed genes concerning prostate cancer microarray data. FDR controlled with the procedure of Benjamini and Hochberg( BH )was empirically estimated. ReSUltS:A total of 21 differentially expressed genes were obtained by the BH procedure with the FDR of 0. 05 ;and 105 genes were obtained with an estimated FDR of 0. 20 if the rejection region was ∣t∣≥3. Conclusion :FDR is more appropriate for high-dimensional microarray data in multiple comparisons than family wise error rate; we can control and estimate the FDR at the same time.%目的:介绍微阵列数据的差异表达分析和基于错误发现率的多重假设检验.方法:通过t检验对一个关于前列腺癌的微阵列数据进行基因差异表达分析,采用BH程序进行错误发现率的控制和经验估计.结果:当错误发现率为0.05时通过BH程序得到21个差异表达基因;当以|t|≥3作为拒绝域时,得到105个基因,对应的错误发现率估计值为0.20.结论:相对传统的总体错误率,错误发现率更加适合于微阵列这种高维数据多重比较的错误控制;而且能同时控制或估计错误发现率.【期刊名称】《郑州大学学报(医学版)》【年(卷),期】2013(048)001【总页数】4页(P59-62)【关键词】微阵列数据;多重假设检验;错误发现率;控制和估计;前列腺癌【作者】王婷;曾平;黄水平;赵华硕【作者单位】徐州医学院公共卫生学院流行病学与卫生统计学教研室,徐州,221002【正文语种】中文【中图分类】R195.1现代生物和医学技术的发展使得人们能够收集到大量的数据,微阵列技术是其中的著名代表,为人们提供了一种从没有过的医学实践方式。
微阵列分析与基因差异表达药物基因组学中的基因表达分析目前主要应用于创新药物研究和开发。
同时,基因表达谱已经开始为慢性致命性疾病的药物治疗效应提供预测信息,并指导治疗选择,而寡核苷酸微阵列平台具有应用于药物基因组学研究的潜在优势。
微阵列分析的特点:与DNA顺序分析和基因分型不同,微阵列基因表达分析的分析物是信使RNAs (mRNA)。
信使RNAs的不稳定性要比DNA大得多,对操作方面的要求非常高,以避免由于Rnase酶降解而产生假象。
此外,信使RNA在经PCR产生DNA拷贝扩增之前,或在大多数的微阵列分析中,或在产生cRNA拷贝的试管内转录(IVT)线性扩增程序中,都是逆转录形成cDNA的。
在IVT反应期间,cRNAs都被标记,而在杂交到寡核苷酸阵列时往往被分裂。
在研究中,基因表达阵列常常采用被标记的cRNAs或长寡核苷酸作为固定探针,以及由类似于半导体工业应用的光刻技术制造的寡核苷酸探针阵列;寡核苷酸探针可直接在微阵列表面合成,还可以应用多空间的完美匹配单碱基-错匹配探针对来查询每一个重要的基因。
这种高密度寡核苷酸探针诊断方法可检测出拼接变异种的能力,以及因特殊转录而造成融合基因时产生的特异性嵌合转录(如慢性髓细胞白血病中的BCR-ABL)。
目前有很多种途径来对成千上万的探针强度数据点进行数据分析,最近提出的是临床应用表达类型的最佳实用指导方针。
各种全自动化的分析方法(如层次聚类算法与运用自组织图)可供用于确定具有相似表达类型的分组基因之间的关系。
同样,还有一些需操作人员监管的分析方法(如支持向量机),可应用同质的PCR检测平台进行药物效应的基因显型检测,以筛选和鉴定最可能有效的患者。
促进肿瘤诊治水平提高基因的表达差异是药物疗效的基础。
基因表达的各种分析方法正在开发过程中,为疾病,尤其是肿瘤的治疗选择提供分子图表类型信息。
例如,常见的急性成人或儿童白血病的微阵列基因表达分析可以鉴定与特殊染色体易位或删除有关的分子图表类型,这样可以选择不同的治疗方案。
染色体微阵列分析报告引言染色体微阵列是一种用于研究基因组改变的方法,它可以同时分析多个基因座的拷贝数变异。
本文档将介绍染色体微阵列分析的原理、实验流程以及结果分析。
方法样本准备从病人体内获取染色体样本,例如血液、组织等,进行细胞培养和染色体提取工作。
微阵列实验将提取得到的染色体样本进行荧光标记,并与已知引物探针进行杂交。
然后使用染色体微阵列芯片进行读取和扫描,获取到每个基因座的信号强度。
数据分析根据信号强度,使用专门的数据分析软件对微阵列数据进行处理和分析。
常见的分析方法包括拷贝数变异分析、基因座关联分析等。
结果拷贝数变异分析根据微阵列数据,可以获得每个基因座的信号强度,从而推断拷贝数变异的情况。
拷贝数增加或减少可能与一些疾病相关。
基因座关联分析通过比较不同基因座之间的信号强度,可以发现它们之间的关联性。
这有助于理解基因座之间的相互作用和调控机制。
结果解读根据拷贝数变异分析和基因座关联分析的结果,可以得出一些结论。
例如,某个基因座的拷贝数增加与某种疾病的发病风险增加有关等。
结论染色体微阵列是一种有效的分析基因组改变的方法。
通过对微阵列数据的处理和分析,可以获得有关基因座的拷贝数变异和关联性的重要信息。
这对于研究疾病的发病机制和个体的遗传特征具有重要意义。
参考文献: 1. Smith A, et al. (2005). Microarray analysis of human copy number variants. 2. Johnson B, et al. (2007). Association mapping in structured populations.。
微陣列資料分析(Microarray Data Analysis)
蔡政安副教授
前言
在人類基因體定序計劃的重要里程碑陸續完成之後,生命科學邁入了一個前所未有的新時代,在人類染色體總長度約三十億個鹼基對中,約含有四萬個基因,這是生物學家首次以這麼宏觀的視野來檢視生命現象,而醫藥上的研究方針亦從此改觀,科學研究從此正式進入後基因體時代。
微陣列實驗(Microarray) 及其它高產能檢測(high-throughput screen) 技術的興起,無疑將成為本世紀的主流;微陣列實驗主要的優勢再於能同時大量地、全面性地偵測上萬個基因表現量,透過基因晶片,可在短時間內找出可能受疾病影響基因,作為早期診斷的生物指標(biomarker)。
然而,由於這一類技術的高度自動化、規模化及微型化的特性,使得他們所生成的資料量非常龐大且資料型態比一般實驗數據更加複雜,因此,傳統統計分析方法已經不敷使用。
在此同時,統計學家並未在此重要時刻缺席,提出非常多新的統計理論和方法來分析微陣列實驗資料,也廣受生物學家所使用。
由於微陣列資料分析所牽涉的統計問題層面相當廣且深入,本文僅針對整個實驗中所衍生的統計問題加以介紹,並介紹其中一些新的圖形工具用以呈現分析結果。
基因晶片的原理
微陣列晶片即一般所謂的基因晶片,也是基因體計畫完成後衍生出來的產品,花費成本雖高,但效用無限,是目前所有生物晶片中應用最廣的,由於近年來不斷改進,也是最有成效的生物技術。
一般而言,基因晶片是利用微處理技術,先把人類所有的基因分別固著在一小範圍的玻璃片(glass slide)、薄膜(membrane)或者矽晶片上;然後,可以平行地、大量地、全面性地偵測基因體中mRNA的量,也就是偵測基因的調控及相互作用表現。
目前微陣列晶片大致分為以下兩種平台(如圖一) : cDNA 晶片及高密度寡核甘酸晶片(high-density oligonucleotide),兩種系統無論在晶片的製程及樣本處理上皆有相當的差異,因此在分析上也略有不同,以下便就晶片的特性約略介紹。
1.cDNA 晶片: 基本上晶片上的探針(probes)及準備進行雜合反應(hybridization)
的樣本(Targets)皆來自於cDNA。
正常及癌組織中萃取的mRNA經反轉錄後,分別標上綠色(Cy3)和紅色(Cy5)螢光標記,並同時和晶片進行雜合反應,反
應後經過雷射掃描器顯像,綠色螢光點表示正常組織的基因表現高於癌組織;紅色螢光點表示癌組織的基因表現高於正常組織;當基因表現不變時,即呈黃色螢光。
經影像分析軟體可將影像強度轉換成數據資料,用以分析有顯著差異表現之基因。
2.高密度寡核甘酸晶片: 高密度寡核甘酸晶片主要由25個鹼基所構成的探針對(probe
pair)所組成,而每一個基因由16-20個探針對來代表,每組探針對包括perfect-match (PM) 和miss-match (MM) 探針,MM探針除了中間鹼基不同於PM探針外,兩者有相同的DNA序列,主要爲內部對照之用。
不同於c DNA晶片,正常及癌組織中萃取的mRNA分別和不同的晶片進行雜合反應,所以只使用單色螢光標記。
經影像分析軟體可將螢光強度轉換成數據資料,再利用不同的統計模型將每個基因所對應的探針對整合來顯示基因的表現程度。
微陣列資料統計分析
雖然微陣列實驗能快速有效地偵測表現差異的基因,也已廣泛應用在生物研究上,然而由於實驗的複雜性和特異性也使得分析上的困難度增加;近年來,由於各學術領域研究學者的加入探索並針對實驗中各步驟提出各式改進分析的方法,使得整個微陣列實驗的精確性及可靠度增加至一定的水準,從早期僅用表現差異(fold-change)的大小來篩選有差異表現基因到現在許多複雜計算的統計或數學模型。
本文將微陣列資料分析分成五大部份(如圖二),並介紹其中所牽涉相關的統計問題,這五大分析要素關係整體分析的品質及準確性,分別為:
(一)實驗設計: 透過詳細完整的實驗設計可以使得資料的品質和效度達到最佳化。
實驗
設計包括樣本數估計,其中樣本數可分為生物性(biological replicates)及技術性樣本(technical replicates);在晶片上品質管制的設計;根據不同微陣列平台及研究因子設計最佳實驗配置等。
(二)資料的前置處理: 由於微陣列實驗的雜訊、系統及非系統上變異等干擾因子,因此
在進行統計推論之前,需要對資料先行處理。
前置處理包括影像分析及正規化用以移除系統性變異;資料轉換及篩選;缺失值插補等。
資料的前置處理相當繁複,且不同微陣列平台各有不同處理程序,但是此步驟卻非常關鍵,關係著往後分析的精
確性,不可輕忽。
在雙色cDNA微陣列中常用的正規化方法如LOWESS平滑曲線調整(如圖三(b) )。
(三)顯著性分析: 以統計方法檢定有顯著差異的基因,這也是微陣列實驗主要目的之
一。
近年來有非常多學者提出不同統計方法來偵測有顯著差異的基因,但由於在微陣列實驗中需要同時檢定上萬個基因,其中有一個非常重要的統計議題,是關於多重檢定(multiple testing)的問題,有別於傳統控制family-wise error rate(FWER) 的方法太過保守以至於檢定力過低,另外控制false discovery rate(FDR) 的方法可提供有效解決方案。
常用的統計方法有SAM(如圖三(c))及混合模型(Mixture model) 等可控制挑選基因中犯錯的比率(FDR)至研究者設定的標準,此外可同時利用兩種以上檢定法則來挑選有顯著差異的基因,如圖三(d)所示之Volcano plot 利用表現平均差異質(fold-change)和統計檢定的P值(p-values)來挑選有顯著差異的基因。
(四)群集分析和預測分析: 群集分析(Clustering analysis)可由兩個方向來討論,基因和受
測組織(如圖三(a)),基因的群集分析主要想找出具有相似表現型態的基因群集,並配合生物上代謝及傳導功能來輔助解釋;而受測組織的群集分析可用來評估受測樣本的變異程度(variation)及實驗的再現性(reproducibility),同時也可藉由群集分析中發現疾病的次型態。
預測分析(Prediction)或分類法則(Classification)主要目的想利用基因表現資料建構分類法則(如圖三(e)),用以預測疾病的發生,其中包括如何從眾多基因中挑選重要的預測因子(feature selection),以及預測模型的建構等,此分析的目標是希望從微陣列實驗中找出可能受疾病影響基因,作為早期診斷的生物指標(biomarker),並成功建立診斷模型。
(五)相關分析及實驗確認: 經過以上分析,我們可找出具有表現差異或疾病診斷的基
因,但是還是要和生物現象做緊密結合,可以經由對照大型公用生物資料庫,如GO、KEGG和BioCarta Pathways等,來描述及觀察基因在生物功能註解及動態圖解模型互動關係。
此外,使用較精確的實驗(如RT-PCR)來作進ㄧ步分析確認也是不可獲缺的步驟。
結論
DNA雙股螺旋結構模型發表至今50 年,在全世界科學家不斷地探索下已了解七千多個基因的功能。
在四萬個基因中,目前尚有三萬多個基因的功能,或可能有的致病因子及生物醫學用途,我們仍一無所知。
透過基因體定序計畫及基因晶片的應用,可快速探測這些基因在各類疾病或生物體變動中的功能,加速我們對各生物體所有基因的了解。
參考文獻
David B. Allison, Xiangqin Cui, Grier P. Page, Mahyar Sabripour, (2006). Microarray data analysis: from disarray to consolidation and consensus. NATURE REVIEWS GENETICS, 7(1), 55-65.
圖一: Principles of two major microarray platforms: cDNA array and high-density oligonucleotide array.
圖二: Guidelines for the statistical analysis of microarray experiments.
圖三: Visualization tools for microarray analysis。