生物信息学入门知识
- 格式:doc
- 大小:60.00 KB
- 文档页数:14
生物信息学复习资料第一章1、什么是生物信息学?生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的?林华安3、生物信息学的发展经过了哪些阶段?前基因组时代、基因组时代、后基因组时代4、HGP是什么意思?什么时候开始?什么时候全部结束?人类基因组计划、1990.10、20035、生物信息学的研究对象是什么?6、生物信息学的研究内容有哪些?获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么?阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求?时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?一级数据库二级数据库;一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。
网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库:EMBL、DDBJ、GenBank蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库:PDB(Protein Data Bank)蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么?NCBI提取工具:Entrez EBI提取工具:SRS65、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符:所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq?The Reference Sequence database 参考序列数据库RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成,以什么字符开始?8.NCBI的在线和离线序列提交软件是什么?在线提交软件:Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?同源性:两条序列有一个共同的进化祖先,那么它们是同源的相似性:序列间相似性的量度同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念直系同源(orthology):不同物种内的同源序列旁系同源(paralogy):同一物种内的同源序列2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。
生物信息学复习资料生物信息学复习资料第一讲生物信息学绪论1、生物信息学诞生于计算机初创时期,1956年在美国田纳西州的Gatlinburg召开了首次―生物学中的信息理论讨论会‖2、20世纪80年代末―林华安‖博士创造了‖bioinformatics‖一词3、数据库的构建:1979年美国Genbank数据库;1982年欧洲分子生物实验室EMBL核酸序列数据库;1984年日本国家级核酸序列数据库DDBJ4、专业机构:1988年美国成立了―生物技术信息中心‖(NCBI);欧洲生物信息学研究所(EBI)于1993年构建.5、生物信息学产生的背景(1)、传统生物学和现代生物学都是一门实验学科,生物学的发展需要数学模型的介入(2)、海量生物学数据信息的产生(2002年8月,Genbank中的序列量已达18197000,而碱基对数达22617000000,且以每秒220对的速度增加),数据的分析处理成为生物学发展的―瓶颈‖(3)、新的生物学研究模式的出发点应是理论:从理论出发,再回到实验中追踪或验证这些理论假设6、生物信息学定义(广义):应用信息科学的方法和技术,研究生物体系和生命过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
一般提到的―生物信息学‖是就指这个狭义的概念,更准确地说,应该是分子生物信息学(Molecular Bioinformatics)7、生物信息学研究的主要对象——两种信息载体:DNA分子和蛋白质分子(1)遗传信息的载体——DNA遗传信息的载体主要是DNA,控制生物体性状的基因是一系列DNA片段,生物体生长发育的本质就是遗传信息的传递和表达(2)蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构,蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。
一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
3.多序列比对:研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。
5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。
指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。
(来自百度)6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
用来描述在同一物种内由于基因复制而分离的同源基因。
(来自百度)7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。
8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为紧密,各行其功能,称为结构域。
10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
(来自百度)11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。
博士生物学生物信息学知识点归纳总结在当今科学研究领域中,生物信息学作为一门重要的学科,发挥着举足轻重的作用。
对于生物学中的大数据、基因组学、转录组学和蛋白质组学等领域的研究和分析,生物信息学赋予了我们强大的工具和方法。
本文将对生物信息学的一些重要知识点进行归纳总结。
基因组学基因组学是研究一个物种的基因组的学科。
它包括了从基因的识别、定位、测序,到基因功能和进化的研究。
生物信息学在基因组学研究中起到了至关重要的作用。
1. 基因组测序技术基因组测序技术指的是对一个物种的基因组进行测序的方法。
其中,最常用的技术包括Sanger测序、高通量测序(如 Illumina 测序)、454测序和 Ion Torrent 测序等。
这些技术各有优劣,研究者需要根据具体情况选择适当的测序技术。
2. 基因组注释基因组注释是指对基因组序列进行分析和解释,确定基因的位置、功能和调控元件等信息。
基因组注释主要分为结构注释和功能注释两个层次。
结构注释包括基因的定位、外显子的预测和剪接变体的识别等;功能注释则是通过比对已知数据库中的蛋白序列和功能进行预测。
转录组学转录组学是研究一个生物体在某个生长发育阶段或特定环境中的所有基因的转录情况的学科。
生物信息学在转录组学研究中具有关键作用。
1. RNA-Seq 分析RNA-Seq 是通过高通量测序技术对转录组进行定量和全面的研究方法。
RNA-Seq 能够帮助我们识别转录本和剪接变异,发现新的非编码RNA,定量基因表达水平以及分析差异表达基因等。
2. 表达谱分析表达谱分析是对组织或细胞中基因表达水平的总结和描述。
通过生物信息学的方法,可以对不同样本中的基因表达水平进行比较和聚类分析,发现与特定生理过程相关的差异表达基因。
蛋白质组学蛋白质组学研究的是一个生物体内全部蛋白质的总体组成、结构和功能。
生物信息学在蛋白质质谱分析和蛋白质结构预测等方面发挥重要作用。
1. 质谱数据分析质谱是研究蛋白质的一种重要技术,质谱数据分析则是对质谱图进行解读的过程。
《生物信息学》复习资料《生物信息学》先锋版中译本第二版科学出版社打分政策:60% 期末考试(70%掌握内容、25% 熟悉内容、5% 理解内容)(请注意红体与黑体字)A: 生物信息学概述1. 生物信息学:生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。
生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。
数据库生物信息学主要由三大部分组成算法与统计工具分析与解释测序策略:逐个克隆法、全基因组鸟枪法计算机在生物信息学中的作用:生物信息学需要计算机快速、可靠地执行重复任务的能力以及处理问题的能力。
然而,生物信息学中涉及的许多问题仍需要专家的人工处理,同时原始数据的完整性和质量也很关键。
生物信息学课程范围:使初学者理解生物信息学的基本原理,并获得相应的应用能力。
具体包括生物信息学的一些关键领域:数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析。
2. 生物信息学实例:——数据库界面Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, …——序列搜索与比对BLAST, FASTA, Clustal, MultAlin, DiAlign ——基因搜索Genscan, GenomeScan, GeneMark, GRAIL——蛋白结构域分析与鉴定pfam, BLOCKS, ProDom,——基因调控元件的计算机模式识别Gibbs Sampler, AlignACE,MEME——蛋白折叠预测PredictProtein, SwissModeler生物信息学网站:包括生物信息学资源、各种数据库和生物信息学分析工具的网站3. 五个必须知道的生物信息学网站:(详细参考书本p9)NCBI (The National Center for Biotechnology Information)/EBI (The European Bioinformatics Institute)/The Canadian Bioinformatics Resource http://www.cbr.nrc.ca/SwissProt/ExPASy (Swiss Bioinformatics Resource)http://expasy.cbr.nrc.ca/sprot/PDB (The Protein Databank)/PDB/B: 数据采集一、DNA, RNA和蛋白质测序1. DNA测序原理:DNA测序是采用全自动的链终止反应完成的,这一技术通过加入限量的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段。
生物信息学入门知识生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象、组织和分析呈现指数增长的生物学数据的一门学科。
首先是研究遗传物质的载体DNA及其编码的大分子蛋白质,以计算机为其主要工具,发展各种软件,对逐日增长的浩如烟海的DNA和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、分析和研究,目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本质,破译隐藏在DNA序列中的遗传语言,揭示人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供最合理和有效的途径。
生物信息学已经成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量,也是药物设计、环境监测的重要组成部分。
近年来,蛋白质结构数据的快速增长,使蛋白质三维结构的处理分析也归入到生物信息学的范畴。
国际上有三大一级生物信息数据库,即美国国家信息中心 (National Center of Biotechnology Information, NCBI)的Gen Bank(http:/ / www. nchi. nlm. nih. gov/ web/Gen Bank/ imdex. html)、欧洲分子生物学室验室(European Molecular Biology L aboratory-Euro-pean Bioinformatics Institute, EMBL-EBI)的 EM-BL (http:// www.ebi. / databases/ index.html)和日本 DNA数据库 (DNA Data Bank of Japan, DDBJ) (http:/ / www.ddbj.nig.ac.jp/ )。
随着生物信息学 (Bioinformatics)的发展,通过检索数据库进行核酸序列同源性检索,电子基因定位、电子延伸、电子克隆和电子表达以及蛋白质功能分析、基因鉴定等方面起到了重要作用,已成为人们认识生物个体生长发育、繁殖分化、遗传变异、疾病发生、衰老死亡等生命过程的有力工具。
一、生物信息学相关网站生物信息学与生物计算:http://bioinformatics.weizmann.ac.il/这是生物信息学和生物计算学的网站,由Weizmann科学研究所,生物服务部和Crown人类基因组学中心支持。
研究领域主要涵盖序列分析,蛋白质组学和基因组学等。
该网站提供了数据库,电子论坛,教育,新闻,软件,招聘启事等。
该网站还提供了相关链接,包括欧洲分子生物学以色列国家网点,以色列国家基因组基础设施实验室以及国际生物信息学合作中心。
生物信息学专题:/bioinformatics/bioinfo.htm中国科学院上海生命科学研究院生物信息中心的网站中的生物信息学专题提供与生物信息学有关的新闻信息,生物信息学文献的介绍(包括的课题例如:鉴别肿瘤的亚型,细菌中的基因转移,生物钟与微阵列--哺乳动物的基因组有节奏,混乱的DNA区分人类与黑猩猩等等),相关软件下载,与数据库的链接。
生物信息学专业网:/生物信息学专业网旨在收集、整理与生物信息学相关的信息和资源。
它的站点提供最近新闻;与生物科学相关的论文;与生物信息学相关的数据库,软件,公司,大学和期刊;工具的介绍,例如:序列逆向查询系统。
生物信息学组织:/生物信息学组织是生物信息学学科的综合性网站。
其涉及的内容有新闻、事件提醒、会议消息、免费FTP工具下载、论文、URL推荐、演示幻灯片等。
此外,其还拥有有关生物信息学研究组和软件的搜索引擎。
香港生物信息学中心:.hk/这是香港生物信息学中心(HKBIC)的网站。
香港生物信息学中心是由香港技术创新委员会和香港中文大学创办,为香港生物技术与工业界提供中心数据资源。
它为使用者提供计算设备,技术专家意见和分子生物学定向数据库等。
主要致力于核苷酸、医学、药物设计、毒理学、生物技术、化学工程、制药技术等方面的研究。
该网站还提供了研究、工具、新闻等方面的。
耶鲁大学盖斯坦生物信息学实验室:/这是耶鲁大学盖斯坦生物信息学实验室的网站。
耶鲁大学盖斯坦生物信息学实验室主要致力于生物信息学的研究,其研究领域包括基因组序列,大分子结构和表达基因数据,比较基因组学,基因表达分析,大分子几何学等。
该网站还提供研究、工作、演讲、论文等方面的信息。
用于比较基因组学的生物信息学工具:/Workshop/webTools.html用于比较基因组学的生物信息学工具是劳伦斯伯克利国家实验室提供的用于比较基因组学的生物信息学的软件、数据库和网址资源。
其涵盖五个大类分别是:基因组数据、注释、比较基因组、阵列资源、杂集。
并且,对每个类别其都有类型、名称和描述、帮助及信息等方面的说明。
中国生物信息学资源导航:/pages/source-bioinfo.htm这是中国生物信息学资源导航的网站。
该网站主要提供与生物信息学相关的学会、组织和生物计算中心的链接,也包含对网关及网络资源的链接。
NCBI生物信息学研究工具:/Tools/NCBI生物信息学研究工具网站由美国国家生物技术信息中心支持。
该网站提供了许多程序的链接,内容包括数据挖掘、核酸和蛋白质组分析等。
同时,网站还提供了许多相关链接和资源。
欧洲生物信息学研究所:/欧洲生物信息学研究所是一个非盈利学术机构,是欧洲分子生物学实验室的一部分。
它是生物信息学研究和服务的中心。
它所管理生物数据的数据库包括核酸,蛋白质序列和大分子结构。
它的使命是保证从分子生物学和基因组研究的日益增长的信息向公众公开,并且对科学研究团体提供任何方面的免费使用,以促进科学发展。
欧洲生物信息学研究所Ensembl基因组浏览器:ttp:///ensembl/index.html 欧洲生物信息学研究所Thornton研究组:/Thornton/index.html 欧洲生物信息学研究所多序列联配数据库:/embl/Submission/alignment.html欧洲生物信息学研究所工具箱:/Tools/欧洲生物信息学研究所核酸数据库:/Databases/nucleotide.html 欧洲生物信息学研究所计算基因组研究组:/research/CGG/index.html欧洲生物信息学研究所完整基因组数据库:/genomes/欧洲生物信息学研究所序列数据库研究组:/seqdb/index.htmlBrutlag生物信息学研究组:/Brutlag生物信息学研究组是斯坦福大学的一个研究团体,主要研究从蛋白质一级结构预测蛋白质结构和功能,其开发了EMOTIF、EMATRIX和3MOTIF软件应用于非鉴定的基因组序列的功能确定,另外还开发了LOCK和3DSEARCH软件用于比较蛋白质结构和蛋白质结构数据库的搜索。
生物GBF信息学小组主页:http://transfac.gbf.de/生物信息学小组主页是德国生物技术研究中心的生物信息组的主页。
其提供的资源十分丰富,包括出版物、研究计划、研究组介绍、五个重要数据库、十二个工具软件和资源链接等。
Pune大学生物信息学中心:http://bioinfo.ernet.in/Pune大学生物信息学中心成立于1987年,是生物技术系统的九大中心之一。
提供生物工程领域的信息,侧重病毒学,蛋白质和核酸序列与结构。
其提供的资源丰富,包括数据库、微生物菌株数据网络系统、生物信息学中心图书馆、Alpha服务器的软件包、生物信息学的有用网址、EBI和PDB的数据库镜像等。
北京大学生物信息学中心:/北京大学生物信息中心(CBI)成立于1997年,是欧洲分子生物学网络组织EMBnet的中国国家接点。
几年来,已经与多个国家的生物信息中心建立了合作关系。
目前是国内数据库种类最多,数据量最大的生物信息站点。
在基因预测、基因组、蛋白质结构等领域都有相应的研究项目。
加拿大生物信息学资源:http://cbr-rbc.nrc-cnrc.gc.ca/index_e.php这是加拿大生物信息学资源(CBR)的网站。
该网站由加拿大国家研究委员会(NRC)创建,旨在为国家研究委员会与其它政府、学术部门的科学家提供广泛使用的生物信息学工具和共享数据。
加拿大生物信息学资源部分由一个专门使用该资源的委员会管理,而且其资源在用于教育和非盈利研究时只需注册均可免费作用。
网站还提供有关新闻、服务与下载等信息。
结构生物信息学公司:/结构生物信息学公司是世界上占领导地位的、蛋白质组学推动的药物发现的公司,他们大规模地产生和使用蛋白质结构信息,以期加速发现和优化过程。
它提供的软件主要针对加速药物发现和优化过程、提高筛选效率和降低成本、极大地重视知识产权的地位、提高药物性能和增加技术和市场成功的可能性。
此外,还提供三个药物数据库。
林奈斯生物信息学中心:http://www.lcb.uu.se/这是林奈斯生物信息学中心(LCB)的网站。
林奈斯生物信息学中心研究非常活跃,隶属于瑞典Uppsala生物医学中心。
作为一个由Uppsala大学与瑞典农业大学的联合研究机构,确保了高质量的尖端的研究与教育,其研究范围从微生物与哺乳动物基因组学经计算机的功能基因组学到分子进化。
网站还提供有关入学、新闻时事、研讨会、工具、学生计划等方面的信息。
曼彻斯特大学生物信息学教育与研究:/曼彻斯特大学生物信息学教育与研究是欧洲分子生物网络的节点之一,负责维护一些数据库(如蛋白质模体指纹数据库,PRINTS)。
站点提供蛋白质同源性分析,蛋白质模体指纹分析,系统发生和序列进化分析,以及微阵列分析,并提供生物信息学和PRINTS数据库数据下载。
《生物信息学》:/jnls/list/bioinformatics/etoc.html生物信息学》是由英国牛津大学出版社出版。
其主要刊登生物信息和计算生物学方面的研究论文、书评、综述、读者来信和述评等文章。
其刊载的文章在两年内供给学术界免费使用。
生物信息学:/pages/bioinfo.html生物信息学是印第安纳大学分子和细胞生物学研究所提供的生物信息学资源。
此资源包括数据库、基因发现程序、蛋白质模建、生物信息学在线教程、研究基金的来源、研究项目和生物信息学工具软件等。
生物信息学的网络资源:/~cleslie/cs4761/resources.html 生物信息学的网络资源是美国哥伦比亚大学的Bill Noble教授建立的有关生物信息学的网络资源总集。
其涉及面广,包括基因组学和生物信息学中心、生物信息学工具和基因组计划索引、DNA和蛋白质分析工具、生物信息学课程主页、生物信息学和生物技术的学术项目、生物信息学文献参考,以及网上引物。
生物信息学趋势导向:/genpedscrr/Trends.htm生物信息学趋势导向主要提供《今天免疫学》杂志的增刊有关生物信息学的内容。