当前位置:文档之家› 癌基因组突变与拷贝数分析

癌基因组突变与拷贝数分析

拷贝数变异及其研究进展

拷贝数变异及其研究进展 摘要:拷贝数变异(Copy number variations, CNVs)主要指1kb-1Mb的DNA片段的缺失、插入、重复等。文章主要介绍了CNVs的基本知识及其机理,着重介绍了其各种检测技术,并进一步阐明CNVs对人类疾病及哺乳动物疾病的影响。此外,对其研究发展进行可行性展望。 关键词:拷贝数变异机理检测技术疾病 2004年,两个独立实验小组几乎同时报道,在人类基因组中广泛存在DNA片段大小从 1 kb到几个Mb范围内的拷贝数变异(CNVs)现象。在2006 年的《Nature》杂志上,来自英国Wellcome Sanger研究所以及美国Affymetrk公司等多国研究人员组成的研究小组公布了第1张人类基因组的第1代CNV图谱,后续又有3篇文章陆续发表在《Nature Genetics》和《Genome Research》杂志上,聚焦这一重大发现。受到检测手段的限制,这类遗传变异直到最近2年才为研究者所重视,并迅速成为当前人类遗传学研究的热点。CNVs 最初在患者的基因组中发现,但后来发现CNVs也大量存在于正常个体的基因组内,主要引起基因(或部分基因)的缺失或增多。拷贝数的变异过程既与疾病相关,也与基因组自身的进化有关。 针对CNVs的发现,美国遗传学家JamesR.Lupski提出“我们不能再将人与人之间的差异想当然地认为仅是单碱基突变的结果,因为还存在更复杂的来自于CNVs的结构性差异”。Lupski认为,CNVs的发现将改变人类对遗传学领域的认知,并将影响19世纪被誉为“遗传学之父”的孟德尔及 1953年发现“DNA双螺旋”的弗兰西斯?克里克与吉姆?沃特森所确立的人类遗传学基准 1 CNV概述 1.1 CNV的概念 基因组变异包括多种形式,包括SNPs,数目可变串联重复位点VNTRs (微卫星等),转座元件 (Alu序列等),结构变异(重复、缺失、插入等)。CNVs指大小从1kb到1Mb 范围内亚微观片段拷贝数突变,这些拷贝片段的缺失、复制、倒置等的变异都统称为CNVs,但不包括由转座子的插人和缺失引起的基因变异(如0-6kb Kpn I重复)[1]。由于多态是用于描述在一定人群中某个等位基因的频率不低于1%,但到目前为止,多数人类的CNVs 频率还未知[2]。目前发现的CNVs 都收录在人类基因组变异数据库中,CNVs平均大小为118 kb。全世界范围内的CNVs研究目标是:建立人类基因组的CNVs地图集,以及建立CNVs与表型、CNVs与SNPs等方面的关系。 1.2 CNV产生机理 美国学者Redon等认为,CNV可以被认为是简单的DNA结构变化(如单一片段的扩增、缺失、插入),或者可能是复杂的染色体扩增、缺失和插入的各种组合形式。在人类基因组的研究中发现,CNV在基因组中的分布似乎是有一定规律的,它常发生在同源重复序列或DNA重复片段之内或之间的区域,且CNV和基因组的DNA重复序列(SD)呈极显著正相关。由此,学者们认为,CNV的发生或者说绝大多数CNV的发生是非等位基因同源重组(NAHR)的结果[3]。

中日韩人种基因拷贝数变异图谱出炉

中日韩人种基因拷贝数变异图谱出炉 韩国首尔大学基因医学研究所徐廷瑄教授领导的研究小组宣称,他们通过对30名中国人、韩国人和日本人的基因组研究,成功绘制出中日韩人种超高清基因拷贝数变异图谱,并根据该图谱发现,亚洲人独有的基因拷贝数变异共有3500多个。 所谓基因拷贝数变异(Copy Number Vriations)是指在人类基因组中广泛存在的,从1000bp(碱基对)到数百万bp范围内的缺失、插入、重复和复杂多位点的变异。研究表明,不少人类复杂性状疾病都和拷贝数变异有密切关系。 2019年,第一张人类基因组第一代基因拷贝数变异图谱问世。这张遗传图谱是通过对欧洲、非洲和亚洲祖先4个人群的270个个体样品进行分析,用两个互补的技术——单核苷酸多态性(SNPs)基因分型和以克隆为基础的比较基因组杂交进行基因拷贝数变异筛选,获得了一共1447个拷贝数变异。 之后的一系列研究显示,基因拷贝数变异是个体之间在基因组序列差异上的一个重要源泉,是研究基因组进化和表型差异的一个重要因素。许多关于基因拷贝数变异的研究结果表明,拷贝数变异可导致不同程度的基因表达差异,对正常表型的构成及疾病的发生发展具有一定作用。拷贝数变异研究在法医学方面也具有重要意义,在探索法医学个体识别的遗

传变异时不能忽略拷贝数变异这一基因组多样性的新形式。首尔大学医学院此次绘制的基因拷贝数变异图谱与西方绘制的现有图谱不同,是只针对中日韩人种进行研究并绘制完成的,将有效适用于特定人群的疾病诊疗,并为今后正式研究基因拷贝数变异和疾病之间的关联性提供了良好平台。(薛严) 当第一张人类基因组草图问世时,我们对这一划时代的成就充满期待,渴望它在医学诊断、预防和治疗方面,能够迅速兑现基因组研究的初衷。10年过去了,我们发现那不过是生命科学这部天书的扉页。基因组测序现已不算难事,科学家面临的更大挑战,是从浩繁的基因组序列中找到惠及健康的有用信息。或许,研究基因拷贝数变异,我们才翻到了这部天书的某一章节。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

基因组拷贝数变异及其突变机理与人类疾病

HEREDITAS (Beijing) 2011年8月, 33(8): 857―869 ISSN 0253-9772 https://www.doczj.com/doc/ca15208319.html, 综 述 收稿日期: 2011?04?07; 修回日期: 2011?06?03 基金项目:国家自然科学基金项目(编号: 30890034, 31000552), 教育部新世纪优秀人才支持计划项目(编号: NCET-09-0322)和上海市浦江人才 计划项目(编号: 10PJ1400300)资助 作者简介:杜仁骞, 在读博士研究生, 研究方向: 基因组拷贝数变异。E-mail: renqian.du@https://www.doczj.com/doc/ca15208319.html, 通讯作者:张锋, 博士, 副教授, 博士生导师, 研究方向: 人类遗传学和医学遗传学。E-mail: feng.fudan@https://www.doczj.com/doc/ca15208319.html, DOI: 10.3724/SP.J.1005.2011.00857 基因组拷贝数变异及其突变机理与人类疾病 杜仁骞1,2, 金力1,2,3, 张锋1,2 1. 复旦大学生命科学学院现代人类学教育部重点实验室, 上海200433; 2. 复旦大学生命科学学院遗传工程国家重点实验室, 上海200433; 3. 复旦大学生物医学研究院, 上海200032 摘要: 拷贝数变异(Copy number variation, CNV)是由基因组发生重排而导致的, 一般指长度为1 kb 以上的基因 组大片段的拷贝数增加或者减少, 主要表现为亚显微水平的缺失和重复。CNV 是基因组结构变异(Structural variation, SV)的重要组成部分。CNV 位点的突变率远高于SNP(Single nucleotide polymorphism), 是人类疾病的重要致病因素之一。目前, 用来进行全基因组范围的CNV 研究的方法有: 基于芯片的比较基因组杂交技术(array-based comparative genomic hybridization, aCGH)、SNP 分型芯片技术和新一代测序技术。CNV 的形成机制有多种, 并可分为DNA 重组和DNA 错误复制两大类。CNV 可以导致呈孟德尔遗传的单基因病与罕见疾病, 同时与复杂疾病也相关。其致病的可能机制有基因剂量效应、基因断裂、基因融合和位置效应等。对CNV 的深入研究, 可以使我们对人类基因组的构成、个体间的遗传差异、以及遗传致病因素有新的认识。 关键词: 拷贝数变异; 突变机理; 疾病; 人类基因组 Copy number variations in the human genome: their mutational mechanisms and roles in diseases DU Ren-Qian 1,2, JIN Li 1,2,3, ZHANG Feng 1,2 1. MOE Key Laboratory of Contemporary Anthropology , School of Life Sciences , Fudan University , Shanghai 200433, China ; 2. State Key Laboratory of Genetic Engineering , School of Life Sciences , Fudan University , Shanghai 200433, China ; 3. Institutes of Biomedical Sciences , Fudan University , Shanghai 200032, China Abstract: Copy number variation (CNV) is the main type of structure variation (SV) caused by genomic rearrangement, which mainly includes deletion and duplication of sub-microscopic but large (>1 kb) genomic segments. CNV has been recognized as one of the main genetic factors underlying human diseases. The mutation rate (per locus) of CNV is much higher than that of single nucleotide polymorphism (SNP). The genome-wide assays for CNV study include array-based comparative genomic hybridization (aCGH), SNP genotyping microarrays, and next-generation sequencing techniques. Various molecular mechanisms are involved in CNV formation, which can be divided into two main categories, DNA re-combination-based and DNA replication-based mechanisms. CNVs can be associated with Mendelian diseases, sporadic diseases, and susceptibility to complex diseases. CNVs can convey clinical phenotypes by gene dosage, gene disruption, gene fusion, and position effects. Further studies on CNVs will shed new light on human genome structure, genetic varia-tions between individuals, and missing heritability of human diseases. Keywords: copy number variation; mutational mechanism; diseases; human genome

全基因组重测序数据分析

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排 突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使 得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组 学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。 实验设计与样本 (1)Case-Control 对照组设计; (2)家庭成员组设计:父母-子女组(4人、3人组或多人); 初级数据分析 1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基 因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需 要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。

人类遗传变异-拷贝数变异(CNVs)和疾病研究及检测

在人类细胞遗传学研究的早期,人们在显微镜下研究染色体,发现了染色体的拷贝数、重排和结构方面存在变异,而且在很多情况下这些变异可能与疾病相关。在分辨率频谱的另一端即高分辨率区域,DNA短片段的分析和测序方法的发展导致了短串联重复序列和单核苷酸多态性(SNPs)的发现。显而易见,人为遗传变异范围包括从序列水平上单一碱基对的变化到用显微镜检测到的几兆碱基长度的染色体差异。最近,通过观测亚微观DNA片段中广泛颁布的拷贝数变异,我们对于人类遗传变异的认识又进一步得到了拓展。全基因组扫描方法的实行大大推动了这种关于人为变异的新认识,这些方法给我们提供了一个在显微镜细胞遗传学(>5-10Mb)和DNA序列分析(1-700bp)之间的对基因组中间范围遗传变异进行解读的强有力工具。正如图6所示的结构变民中的中等分辨率范围内的测亚微观部分。 现在已经发展了很多方法来检测这类中等大小范围内的DNA遗传变异,DNA生物芯片技术可能是其中最为有效的方法。拷贝数变异(CNV)鉴定的主要方法是比较基因组杂交(CGH),而商业的标准CGH芯片在人类基因组的每1Mb长度范围有一个细菌人工染色体(BAC)克隆,这样就很难精确鉴定小于50kb的单拷贝数差异。昂飞的人类基因组图谱SNP芯片500K和SNP 5.0芯片的标记间距离中位数为2.5kb,最近推出的SNP 6.0的中位数则少于700个碱基对。这类基因型芯片通过将测试样本所获取的信息强度与其他个体的进行比较来确定每个位点相对基因组拷贝数。同时,拷贝数检测运算法中将探针的长度和GC含量考虑到其中,从而进一步降低了基因型芯片检测噪音。另外一个优点是,基因型芯片对拷贝数变异区域进行全面检测,并通过在连续的几个探针中要有重大的比率变化来确认。所以说,这样的工具明显提高了检测的精确度。除了提供拷贝数信息,SNP 基因型芯片提供的基因型信息不但可以用于遗传关联性研究,还可以用于检测杂合性丢失,这为缺失的存在提供支持证据,还可能提示片段性单亲二体。 近年来通过拷贝数变异(CNVs)的研究,我们知道人类群体中的任何两个个体基因组结构上的差异比核苷酸序列水平上的差异更大(请参阅应用案例2)。保守的估计显示个体之间CNVs总计有4Mb(相当于每800bp 就有1个不同)。不保守估计则认为有多达5-24Mb范围内存在CNVs。无论是哪种估计,平均来说CNVs中的核苷酸变异数量比SNPs还要多,后者总数大约是2.5Mb(相当于每1,200个bp中有1个SNP)。因此人类个休之间的所有基因组差异性要远远大于先前所认为的,至少存在0.2%的差异:结构水平上有0.12%以上的差异,核苷酸水平上有0.08%的差异。 昂飞芯片技术革新不但为之前未被发现的人类健康人群中存在的基因组变异的基础研究敞开了大门,也为研究疾病的遗传基础打开了一扇新的窗户.致癌基因的扩增和/或肿 瘤抑制基因的缺失是癌症起始和发展的特点,这一特点近来被认为可用来暗示癌症对治疗剂的反应。因此在细胞系和肿瘤样品中对这些 2008年7月23日第三十三期第 8 页,共 14 页下一页 返 回

进化基因组学研究进展

进化基因组学研究进展 刘超 (山东大学生命科学学院济南250100) 摘要:进化基因组学是利用基因组数据研究差异基因功能、生物系统演化、从 基因在水平探索生物进化的学科。随着近年来基因组数据的不断增加,进化基因组学得到了长足的发展。进化基因组学主要包括从基因组水平理解和诠释生物进 化和新基因分析研究探索两方面的内容。本文介绍了进化基因组学研究的主要内容和较为常用的方法,以及近年来在细菌、酵母、果蝇进化基因组学方面的研究进展。 关键词:进化基因组学系统进化比较基因组学新基因 前言 随着基因测序技术的不断进步以及基因组学的飞速的发展,人们积累了大量的基因组学数据,利用所得的大量的基因组数据与进化生物学相结合,在基因组水平研究生物进化机制,随即产生了进化基因组学(Evolutional Genomics)。 近年来进化基因组学取得了长足的进展,在研究差异基因功能、生物系统演化、从基因在水平探索生物进化的终极方式等方面有重大突破,对人类理解生命现象和过程有重要作用。 1进化基因组学研究内容 研究系统进化学通常包括两个关键步骤:一方面,在不同物种中鉴定同源性特佂,另一方面利用构建系统进化树的方法比较这些特征,进而重新构建这些物种的进化历史[1]。针对这两个关键步骤,传统系统进化学,常采用基于形态学 数据和单个基因研究的同源性状鉴定和重建系统进化树(常包括距离法、最大简约法、概率法)[1]的方法来研究。在目前拥有丰富基因组数据的条件下,我们 可以分析基因组数据,利用进化基因组学研究系统进化。

目前进化基因组学的研究内容主要集中于两个方面:(1)在比较不同生物的基因数据的基础上,从基因组水平理解和诠释生物进化;(2)通过对新基因的分析研究探索基因进化过程的规律两个方面[2](如图1)。在进行全基因组进化分析方面,进化基因组学主要集中于构建系统进化树、研究基因组进化策略、研究生物功能变化和进化机制、进化和生态功能基因组学[2]、基因注释的等方面;在新基因方面主要分析基因产生机制和新基因固定及其动力学研究。 图1 进化基因组学主要研究内容 目前进化基因组学的研究有力的解决了一些基础性的进化问题,但也出现了一些未来需要急需解决的挑战。例如生物进化的本质和目前重建系统进化树方法 的限制[1]。 2研究进化基因组学的方法 研究进化基因组学的方法主要包括利用基因组数据分析和研究新基因的产 生和演化两种。 2.1利用基因组数据进行系统进化分析 利用基因组数据进行系统进化分析,常有基于基因序列的方法和基于全基因特征的方法。(如图2)

基因组学总结

一、前言 继20世纪50年代Watson和Crick揭示了遗传信息携带者DNA的双螺旋结构后,近50年来分子生物学的发展势如破竹。60年代中期遗传信息传递的中心法则的初步确定;70年代基因重组理论和技术的崛起;以及近二三十年来基因的表达和调控及相关的发育分子生物学的进展;蛋白质翻译后加工、折叠、组装、转运,生物大分子相互识别、信号转导的深入研究等;一个个里程碑工作接踵而来。人类基因组计划业已完成,不久完整的人类基因组序列将呈现在人们面前。一个崭新的时代——后基因组时代已经来临。 基因即DNA分子上有遗传效应的特定核苷酸序列的总称,基因组即细胞或生物组的全部遗传物质,遗传物质即基因的编码序列,大量的非编码序列同样含有遗传物质。1985年美国科学家率先提出了人类基因组计划(HGP:Human Genome Plan),1990年正式启动。这是一项规模宏大的跨国跨学科的科学探索工程,其宗旨在于测定人类染色体中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨认其载有的基因及其序列,从而达到破译人类遗传信息的目的。该项计划是继曼哈顿计划和阿波罗登月计划之后人类历史上的一个伟大工程。2001年人类基因组工作草图的发表被认为是人类基因组计划成功的里程碑,2005年人类基因组计划的测序工作已经基本完成,同时制作出了遗传图谱、物理图谱、序列图谱和基因图谱四张图谱。 二、人类基因组计划的成功完成对人类的意义 1、对人类各个领域的贡献 a 对人类疾病基因研究的贡献:人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿氏舞蹈症、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病基因研究的重点。健康相关研究是HGP的重要组成部分,1997年相继提出:“肿瘤基因组解剖计划”“环境基因组学计划”。 b 对医学的贡献:基因诊断、基因治疗和基于基因组知识的治疗、基于基因组信息的疾病预防、疾病易感基因的识别、风险人群生活方式、环境因子的干预。 c 对生物技术的贡献:对研发基因工程药物和诊断研究试剂产业有巨大推动。 d 对细胞、胚胎、组织工程的贡献:胚胎和成年期干细胞、克隆技术、器官再造。 f 人类基因组计划的完成,在社会经济、生物进化等方面都有重要影响。 2、基因检测在个体化医学方面的应用 人类基因组计划和一系列的实验完成之后积累的大量的数据资料,科学家们面临的挑战就是如何利用这些数据的巨大潜力去改善人类的健康状况并使人类更好的生存,探索出一条造福人类健康的崭新途径。 大部分表型都是由遗传因素(基因及其产物)和非遗传因素(环境因素)交互作用,HGP的研究成果以及基因组学的研究,有助于我们了解遗传因素在人类健康和疾病中的角色,精确确定非遗传因素,并迅速将新发现用于疾病的预防、诊断和治疗。例如鉴定基因及其路径在健康和疾病中的角色,测定它们与环境因素之间的关系,预测药物反应,疾病的早期诊断,疾病在分子水平上的精确分类等。因此基因组学的进展将推动人们发展相应基因组研究方法,对人类基因组可遗传变异进行更为深入细致全面描述和分析。目前科学家们建立起一套人类基因常见差异的细目,包括核苷酸多态性(SNPs),小的缺失和插入,以及其它结构上的

药物基因组学相关数据库

药物基因组学相关数据 库 标准化管理处编码[BBX968T-XBB8968-NNJ668-MM9N]

药物基因组学数据库1、Drugbank 2、dgidb 3、pharmGKB 4、cancercommon 5、ChEMBL 6、mycancergenome 7、TTD 8、guidetopharmcology

9、clearityfoundation 10、CIViC https://https://www.doczj.com/doc/ca15208319.html,/#/home 11、DoCM https://www.doczj.com/doc/ca15208319.html,/ 1 Drugbank 药物和药物靶标资源库。DrugBank是一个独特的生物信息学/化学信息学资源,它结合了详细的药物(例如化学制品)数据和综合的药物靶点(即:蛋白质)信息。该数据库包含了超过4100个药物条目,包括超过800个FDA认可的小分子和生物技术药物,以及超过3200个试验性药物。此外,超过1.4万条蛋白质或药物靶序列被链接到这些药物条目。每个DrugCard条目包含超过80个数据域,其中一半信息致力于药物/化学制品数据,另一半致力于药物靶点和蛋白质数据。许多数据域超链接到其他数据库(KEGG、PubChem、ChEBI、Swiss-Prot和GenBank)和各种结构查看小应用程序。该数据库是完全可搜索的,支持大量的文本、序列、化学结构和关系查询搜索。DrugBank的潜在应用包括模拟药物靶点发现、药物设计、药物对接或筛选、药物代谢预测、药物相互作用预测和普通药学教育。DrugBank可以在http://www.drugbank.ca使用。广泛应用于计算机辅助的药物靶标的发现、药物设计、药物分子对接或筛选、药物活性和作用预测等。

新手如何开始基因组测序数据分析

新手如何开始基因组测序数据分析? 摘要:基因组测序技术在短短5年时间里,从一种令人仰望的高端技术变成了实验室里的常规操作,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题——从那儿开始?以下的这些测序专家会从这一最常见的新手问题开始,一一帮助我们解答疑惑。 生物通报道:作为生命科学领域的“圈内人”,如果你还不知晓近期基因组测序的飞速发展,那你就实在太out了。。。这项技术在短短5年时间里,从一种令人仰望的高端技术变成了实验室里的常规操作,仅仅就去年一年时间,这项技术就应用到了千人基因组计划、人类微生物计划这两项重要的研究项目中,识别了大量孟德尔遗传疾病相关的基因,比如朱伯特综合症(Joubert Syndrome),米勒费雪综合症(Miller Syndrome),还破解了苹果,虱子,以及前段时间侵袭海地的霍乱弧菌的基因组,实力确实不可小窥。然而由于这一领域的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题——从那儿开始?以下的这些测序专家会从这一最常见的新手问题开始,一一帮助我们解答疑惑。 需要什么IT基础设备? 简而言之:视情况而定。测序数据集信息量都很大,但不是所有的数据集都一样,比如说,全人类基因组测序项目包括原始测序数据,比对数据,变异检出数据等,每个样品都能达到上百GB,而像ChIP-Seq数据集(例如染色体免疫共沉淀实验数据)就小得多

基因组学总结

Roche 454(GS FLX Titanium System)超高通量测序技术原理 2005年底,454公司推出了革命性的基于焦磷酸测序法的超高通量基因组测序系统——Genome Sequencer 20 System,被《Nature》杂志以里程碑事件报道,开创了边合成边测序的先河。2007年又推出了性能更优的第二代基因组测序系统——Genome Sequencer FLX System。2008年10月,454推出了全新的GS FLX Titanium系列试剂和软件,让GS FLX的通量一下子提高了5倍,准确性和读长也进一步提升。 GS FLX 测序原理:GS FLX系统的测序原理和GS 20一样,也是一种依靠生物发光进行DNA序列分析的新技术;在DNA 聚合酶,ATP硫酸化酶,荧光素酶和双磷酸酶的协同作用下,将引物上每一个dNTP的聚合与一次荧光信号释放偶联起来(图1)。通过检测荧光信号释放的有无和强度,就可以达到实时测定DNA序列的目的。此技术不需要荧光标记的引物或核酸探针,也不需要进行电泳;具有分析结果快速、准确、灵敏度高和自动化的特点。 Roche GS FLX System是一种基于焦磷酸测序原理而建立起来的高通量基因组测序系统。在测序时,使用了一种叫做“Pico TiterPlate”(PTP)的平板,它含有160多万个由光纤组成的孔,孔中载有化学发光反应所需的各种酶和底物。测序开始时,放置在四个单独的试剂瓶里的四种碱基,依照T、A、C、G的顺序依次循环进入PTP板,每次只进入一个碱基。如果发生碱基配对,就会释放一个焦磷酸。这个焦磷酸在各种酶的作用下,经过一个合成反应和一个化学发光反应,最终将荧光素氧化成氧化荧光素,同时释放出光信号。此反应释放出的光信号实时被仪器配置的高灵敏度CCD捕获到。有一个碱基和测序模板进行配对,就会捕获到一分子的光信号;由此一一对应,就可以准确、快速地确定待测模板的碱基序列。 测序实验流程: 1、文库制备:根据样品的种类和实验目的,将基因组DNA/cDNA片段化处理至400-800bp间,经末端修复与特异性接头连接等修饰后变性处理回收单链的DNA(sstDNA); 2、Emulsion PCR:特定比例的单链DNA文库被固定在特别设计的DNA捕获磁珠上,使大部分磁珠磁珠携带了一个独特的单链DNA片断。磁珠结合的文库被扩增试剂乳化,形成油包水的混合物,每个独特的片断在自己的微反应器里进行独立的扩增,而不受其他的竞争性或者污染性序列的影响。整个片段文库的扩增平行进行。扩增后产生了几百万个相同的拷贝。随后,乳液混合物被打破,扩增后仍结合在磁珠上的片段既可被回收纯化用于后续的测序实验; 3、测序反应:携带DNA的珠子与其他反应物混合物,随后放入PTP板中进行后继的测序。PTP孔的直径(29um)只能容纳一个珠子(20um)。然后将PTP板放置在GS FLX中,测序开始。每一个与模板链互补的核苷酸的添加都会产生化学发光的信号,并被CCD照相机所捕获; 4、数据分析:GS FLX系统在10小时的运行当中可获得100多万个读长,读取超过4-6亿个碱基信息,通过GS FLX系统提供两种不同的生物信息学工具对测序数据进行分析。 技术特点:? 速度快,一个测序反应耗时10个小时,获得4-6亿个碱基对。比传统的Sanger测序的方法快100倍;? 读长长,单个序列的读长更长,平均可达到450个碱基左右;? 通量高,每个反应可以得到超过100万个序列读长,成本大大降低;? 准确度高,读长超过400bp时,单一读长的准确性可以超过99%;? 一致性好,测序结果一致性超过99.99%;? 可以进行Pair-End测序研究;? 简便高效,不需要进行建库、克隆挑取、质粒提取等工作,一个人可以在一天内完成一个微生物物种的测序工作。 GS FLX系统的应用:自从2005年底GS 超高通量基因组测序系统问世以来,已经相继在世界上各大测序实验室成功落户。这项技术的第一个“试验品”就是来自有“DNA之父”之称的James D Waston,他向454公司提供了自己的血液样本。目前GS系统的用户在Nature,Science,PNAS等世界顶级的期刊杂志上已经发表了五十多篇的学术论文。(详细列表请查询https://https://www.doczj.com/doc/ca15208319.html,/sis/sequencing/genome/index.jsp)。与GS 20系统相比较,硬件配置和软件系统方面的革新改进,使得GS FLX系统具有了广泛的应用:全基因组测序;多达120 Mb的未知基因组的测序;-生成基因组结构概图;-研究DNA序列的组织,分布和信息;-基因筛查:寻找新基因,定位和功能;-和其他基因组进行比较研究;全基因组进行从头鸟枪法测序,例如微生物基因,BAC和YAC克隆测序。比较基因组研究;-识别单碱基突变;-识别突变热点和保守区域;-识别插入或者缺失的基因;-断定基因型和表型之间的相关关系(比如,研究药物抗性的遗传基础);-基于基因测序变化进行毒性预测;-进行流行病学分析;-了解工业生产菌株和它们的亲代菌株序列上的差异作为进行工业生产菌株开发的遗传基础;-进行宏基因组(metagenomics)研究;-古代化石DNA 测序研究;利用配对末端方法(Pair-End Tag)将Contigs拼接成Scaffolds。转录组和基因调节研究;基于短Tags,ESTs, ChIP,或者GIS-PET序

药物基因组学相关数据库

药物基因组学数据库 1、Drugbank 2、dgidb 3、pharmGKB 4、cancercommon 5、ChEMBL 6、mycancergenome 7、TTD 8、guidetopharmcology 9、clearityfoundation 10、CIViC 11、DoCM 1Drugbank 药物和药物靶标资源库。。广泛应用于计算机辅助的药物靶标的发现、药物设计、药物分子对接或筛选、药物活性和作用预测等。 在查询中,每一种药物对应1个DrugCard,即我们所得到的检索结果。每一个DrugCard都包含的数据信息分为药物、靶标和酶三部分。 药物信息包括了该药物的CAS号、商品名、分子式、分子量、SMILES、2D和3D结构、logP、logS、pKa、熔点、吸收性、Caco-2细胞穿透性、药物类别和临床使用、性质描述、剂型与给药途径、半衰期、体内的生物转化、毒性、作用于哪些生物体、食物对服用的影响、与其它药物的相互作用、作用机理、代谢途径、药理学特征、与蛋白质的结合情况、溶解度、物质形态、同义词、关于合成的相关文献等,还与ChEBI、GenBank、PubChem等外部数据库有链接。 靶标的信息包括ID、名称、靶标基因的名称、蛋白质序列、残基数目、分子量、等电点、功能和活性、参与的代谢途径和反应、体内分布、靶标信号、跨膜区域、靶标基因序列及其在GenBank、HGNC等外部数据库中的ID和链接、参考文献,以及在GenBank和Swiss-Prot中的链接。 酶的信息包括名称、蛋白质序列、基因名称、在Swiss-Prot?等数据库中的链接。 在DrugBank的主界面上,在Browse菜单下可以浏览数据库的内容,其中PharmaBrowse 为用户提供了分类浏览的功能。这为药剂师、医生以及寻找潜在药物的研究人员提供了方便。在Search下拉菜单下,就是Drug?Bank的4类检索方式。ChemQuery允许用户通过绘制结构图或书写SMILES、分子式进行结构搜索。在检索过程中还可以对搜索药物类型、分子量范围、搜索结果相似度、结果数量最大值等进行设置。TextQuery则为文本检索功能。文本检索支持逻辑运算符连接及在特定领域内搜索。例如,在“dextromethorphan”中检索混合物,可以键入“mixtures:dextromethorphan”,即用分号在后面输入领域,同时可以加入逻辑运算符,例如,在“dextrome?thorphan”和“doxylamine”2个领域进行检索,可以键入“mixtures:dextromethorphan?AND?mixtures:doxylamine”。SeqSearch为用户提供了

全基因组重测序数据分析

全基 1. 简 通过变(d 的功况,dise 比较 实验 (1)(2) 基因组重测序简介(Introduc 过高通量测序识deletioin, du 功能性进行综合杂合性缺失ease (cance 较基因组学,群验设计与样本 Case-Contr )家庭成员组序数据分析 ction) 识别发现de plication 以及合分析;我们(LOH )以及r )genome 中群体遗传学综ol 对照组设计 组设计:父母novo 的som 及copy numb 们将分析基因及进化选择与中的mutation 综合层面上深计 ; -子女组(4 人matic 和germ ber variation 因功能(包括与mutation 之n 产生对应的深入探索疾病基人、3 人组或m line 突变,)以及SNP miRNA ),重之间的关系;以的易感机制和基因组和癌症多人); 结构变异-SN 的座位;针对重组率(Rec 以及这些关系功能。我们将症基因组。 NV ,包括重排对重排突变和combination )系将怎样使得 将在基因组学排突 SNP )情在 学以及

初级数据分析 1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。 高级数据分析 1.测序短序列匹配(Read Mapping) (1)屏蔽掉Y染色体上假体染色体区域(pseudo-autosomal region), 将Read与参考序列NCBI36进行匹配(包括所有染色体,未定位的contig,以及线粒体序列mtDNA(将用校正的剑桥参考序列做替代))。采用标准序列匹配处理对原始序列文件进行基因组匹配, 将Read与参考基因组进行初始匹配;给出匹配的平均质量得分分布; (2)碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。 (3)测序误差率估计。 pseudoautosomal contigs,short repeat regions(包括segmental duplication,simple repeat sequence-通过tandem repeat识别算法识别)将被过滤; 2. SNP Calling 计算(SNP Calling) 我们可以采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。 统计SNV的等位基因频率在全基因组上的分布

相关主题
文本预览
相关文档 最新文档