医学生物信息基础 第7讲 数据库(简)
- 格式:ppt
- 大小:6.12 MB
- 文档页数:64
第四章数据库与数据管理技术随着计算机和网络等信息技术在医药学领域深度应用,极大地推动了数据库技术在医药学领域的广泛应用。
尤其国家对公共卫生信息化和医疗改革的大力度建设投入,医院及其他医疗机构已经建立起数目众多的医院电子病历数据库、药品数据库、疾病数据库、新药数据库、生物数据库、医药文献数据库等具有医药特色数据库。
这些数据库支撑着数字化和网络化环境下的医学信息系统运作,是大型的网络数据库。
本章将以SQL Server 2008数据库管理系统为背景,介绍有关数据库的应用知识。
4.1 数据库基础知识人类的日常生活和社会生产每时每刻都产生大量的数据,数据已经成为一种需要被管理和加工的非常重要的资源。
如何科学地收集、整理、存储、加工和传输数据是人们长期以来十分关注的问题。
医药领域存在着大量的数据和数据处理的需求,因而数据库技术也成为了医药学领域专业学生必须了解和掌握的知识。
4.1.1海量数据与数据库系统在信息时代人们的生活和工作与信息密切相关。
数据作为信息社会的产物,大量地充塞人们的生活空间,网络银行、网上购物、电子政务、电子图书馆、医院看病等等,比比皆是数字的海洋,例如:一个医院一天的影像信息数据量为80GB ,一年约为30TB。
全球数字数据量每两年就翻一番,据2011年的统计,数据量达到了里程碑式的1.8万亿个G字节。
面对如此海量的数据,如何高效存储和管理数据是人们面临的挑战。
数据库技术产生于20世纪60年代末70年代初,是一种计算机辅助管理数据的方法,它研究如何科学地组织和存储数据,如何高效地获取和处理数据。
伴随计算机网络技术的发展、人们对数据的认识和使用需求,数据库技术从单机处理发展到联网处理,从集中式发展到分布式或到客户机/服务器处理,直到并行处理。
数据库(DataBase,简称DB):可以理解为存放数据的仓库。
它是长期储存在计算机外部存储设备上的一组相关数据的集合。
数据库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。
医疗研究中的生物信息学数据库与工具在现代医疗领域,生物信息学数据库与工具的应用已经变得越来越重要。
生物信息学数据库与工具是指用于存储、管理和分析生物学数据的软件系统和工具。
这些数据库和工具能够提供生物学研究人员和医学专业人员快速访问、挖掘和分析大规模的生物学数据,以便更好地理解和治疗疾病。
一、生物信息学数据库1. 基因组数据库基因组数据库是存储各种生物体基因组序列的集合。
其中,最著名的基因组数据库是基因组浏览器,如NCBI的GenBank和Ensembl。
这些数据库提供了大量的基因组序列、注释信息和相关的研究数据,为研究人员提供了基因组水平的信息。
2. 蛋白质数据库蛋白质数据库是用于存储蛋白质序列和结构的数据库。
蛋白质序列和结构数据的积累对于理解蛋白质的功能和特性至关重要。
常见的蛋白质数据库包括UniProt和PDB(蛋白数据银行),它们提供了全球各地研究人员所提交的海量蛋白质序列和结构信息。
3. 基因调控数据库基因调控数据库主要用于存储和分析基因调控元件(如启动子、增强子等)的序列和相关信息。
这些数据库对于理解基因的调控机制和功能方面起着重要的作用。
常见的基因调控数据库包括TRANSFAC、JASPAR和UCSC。
二、生物信息学工具1. 序列分析工具序列分析工具用于对DNA、RNA和蛋白质等生物序列进行分析和比对。
其中,最常用的序列比对工具是BLAST(基本局部序列比对工具)。
BLAST可以将输入的序列与已知序列数据库中的相似序列进行比对,快速找到相似序列和亲缘关系。
此外,还有如ClustalW、MUSCLE等多序列比对工具和MEME等序列模式分析工具。
2. 结构预测工具结构预测工具用于预测蛋白质的三维结构。
根据蛋白质序列,可以使用基于比较模型或折叠预测的方法进行蛋白质结构预测。
在比较模型方法中,SWISS-MODEL和Phyre2是常用的工具;而在折叠预测方法中,Rosetta和I-TASSER等被广泛使用。