国内外生物信息学数据库服务新进展
- 格式:pdf
- 大小:104.75 KB
- 文档页数:6
大数据时代下的生物信息学研究进展近年来,随着大数据时代的来临,各行各业都在积极探索如何利用大数据,而生物信息学领域也不例外。
生物信息学是一门涵盖计算机科学、统计学和生物学等多个学科的交叉领域,其主要研究内容是应用计算机技术和数学方法处理生物数据,以挖掘和理解生命现象和生物系统的内在规律。
在大数据时代,生物信息学研究面临着巨大的挑战和机遇。
一方面,生物大数据的规模和复杂度不断增加,需要更加高效和精确的数据挖掘和分析方法;另一方面,利用大数据和人工智能的技术手段,可以挖掘更加深入的生物信息,为生命科学和医学研究提供新的思路和方法。
下面,我们将从多个方面探讨大数据时代下的生物信息学研究进展。
I. 生物大数据的处理和分析在生物信息学研究中,生物大数据的处理和分析是必不可少的环节。
随着生物大数据的规模和复杂度的不断增加,如何高效和精确地处理和分析这些数据成为了生物信息学研究的主要挑战之一。
目前,生物大数据处理和分析的主要手段有两种。
一种是基于人工智能和机器学习的方法,包括深度学习、随机森林、支持向量机等;另一种是基于统计学方法的数据挖掘,主要包括回归分析、聚类分析、关联规则挖掘等。
这些方法已经被广泛应用于基因组学、蛋白质组学、代谢组学等多个生物学领域。
同时,针对生物大数据的特点,如缺失数据、异质性数据、标签偏斜等,也出现了许多针对性的算法和模型,有助于提高数据处理和分析的准确性和效率。
例如,在基因表达谱分析中,有一种称为“单细胞RNA测序”技术,能够实现对单个细胞的转录组测序,从而获得更加精细的基因表达数据,促进了单细胞转录组分析的发展。
II. 生物信息学在药物研究中的应用药物研究是生物信息学研究的一个重要应用领域。
利用生物信息学技术,可以对药物的靶点、作用机制、药物代谢途径等进行深入研究,为药物的设计和发现提供理论基础和支持。
例如,近年来很多药物的研发都采用了计算机辅助分子设计技术。
这种技术基于药物分子与蛋白质分子的互作模型,利用计算机模拟和分子对接等方法,实现对药物分子结构的优化,从而提高其结合亲和力和选择性。
生物信息学研究新进展与展望随着科技的发展,生物信息学这一交叉学科的研究也越来越受到关注。
生物信息学的研究基于生物学和计算机科学的交叉,主要探究生物信息的获取、存储、处理和分析等方面。
下面将介绍生物信息学的新进展以及未来可能的发展方向。
1. 大数据时代下生物信息学的新挑战随着测序技术的不断发展,科学家们获得了大量的生物数据,如基因组、转录组、蛋白组等。
这些数据不仅数量庞大,而且在科研中应用的难度也越来越高,给生物信息学研究带来了新的挑战。
为了有效地使用这些数据,科学家们开始研究生物信息学的新方法和技术,如机器学习、深度学习以及自然语言处理等。
这些技术的引入使得生物信息学的分析效果更加准确、高效。
2. 人工智能在生物信息学领域应用的新趋势随着人工智能技术的不断发展,人工智能在生物信息学领域的应用也日益增多。
人工智能可以快速分析生物数据,识别模式和趋势,以及预测疾病和药物反应等因素。
例如,科学家们利用深度学习算法,预测肺癌病人的生存期和药物反应等指标。
这一技术的应用可以帮助医生更加准确地诊断肺癌,并根据患者的特征选择最佳的治疗方案。
3. 多组学数据整合的挑战生物信息学的另一个重要领域是多组学数据整合的研究。
从基因组、转录组、蛋白质组等多个层面获取的数据需要整合起来分析,以便更好地理解生物体系统的功能和调控机制。
然而,不同类型的数据来源不同,数据结构和处理方法也不同,这给多组学数据整合带来了很大的挑战。
因此,科学家们致力于研究多组学数据整合的方法,并探索采用深度学习等新技术来帮助整合分析。
4. 未来展望未来,生物信息学的研究将更加聚焦于生命科学中更加深入、复杂的问题。
例如,从生物个体层面到群体层面,探索基因调控、信号通路、代谢途径和细胞、组织、器官及整个生物体系统的功能和调控等方面。
同时,生物信息学和人工智能、机器学习等交叉学科的结合,也将会有更多新的应用和发展。
人工智能在诊断、治疗和药物开发等方面将会扮演更加重要的角色,为我们更好地理解生物体系统提供更加科学、可靠的方法。
生物信息学的新进展和发现生物信息学是生物科学中一个相对年轻的分支领域,它将计算机科学与生物学融合在一起,是为了更好地理解生命系统而发展出来的。
近年来,随着计算机技术的不断进步和生物学的发展,生物信息学也迅速发展着。
本文将介绍生物信息学的新进展和发现。
1. 基因组学基因组学是生物信息学的核心领域,它研究的是一种生物体的所有基因组的构成和功能。
从1990年代开始,随着人类基因组计划和其他生物基因组计划的启动,基因组学研究迎来了快速的发展时期。
在基因组学领域的一些最新研究中,人类的基因组和其他生物体的基因组都被深入研究了。
通过基因组学的研究,人们已经能够更好地理解基因的存在和功能。
基因是生物体内携带遗传信息的单位,它们负责控制所有的基本生物过程,包括新陈代谢、细胞分裂和组织发展等。
通过基因组学研究所进行的基因分析,已经帮助科学家更好地理解了一些疾病的发病机制,从而也为临床医学提供了更好的治疗方案。
2. 单细胞分析单细胞分析是生物信息学领域中一项新的研究技术,它为科学家提供了更好的能力来研究单个细胞的特征和功能。
在过去,为了获得特定类型的细胞样本,多个细胞通常是由组合而成的。
虽然这种方法有时是有效的,但对于研究复杂的多细胞组织或肿瘤体中的细胞则显得难以处理。
单细胞分析使得科学家可以处理单个细胞,并对其进行基因组、转录本和表观遗传分析。
通过这些独特的分子标记,科学家可以更好地了解单个细胞的独特特征,从而有更好的方法来研究肿瘤体中的细胞和其他原始细胞类型的功能和发展。
3. 代谢组学代谢组学是研究生物组织和细胞代谢状态的新兴领域,它通常是通过质谱和色谱进行的。
代谢组学是一种利用化学技术来识别代谢反应和分子的方法,可以通过分析该组学来研究多种疾病,从而为到达更精确的诊断或更好的治疗方法提供基础。
代谢组学研究已经为医学研究构建了一些疾病的特定病人类型分析模型。
科学家可以收集这些信息并将其与大量的数据库相结合,以获得关于疾病或药物反应的更深入的信息。
国内外生物信息学数据库服务新进展
国内外生物信息学数据库服务新进展
生物信息学是生命科学中最活跃的领域之一. 各类生物信息学数据库在近年不断出现,其规模呈爆炸趋势增长,同时数据结构日趋复杂. 目前生物信息学数据库服务已实现了高度的计算机和网络化. 算法和软件的进步、数据库的一体化、服务器-客户模式的建立使之成为生物、医药、农业等学科的强有力工具. 在国内北京大学物理化学研究所于1996年建立了第一家生物信息学网络服务器. 现已为国内外科学家提供了7万余次服务,在国际上具有一定影响.
作者:李维忠王任小林大威毛凤楼韩玉真来鲁华LI Wei-Zhong WANG Ren-Xiao LIN Da-Wei MAO Feng-Lou HAN Yu-Zhen LAI Lu-Hua 作者单位:北京大学物理化学研究所,北京,100871 刊名:生物化学与生物物理进展 ISTIC SCI PKU英文刊名:PROGRESS IN BIOCHEMISTRY AND BIOPHYSICS 年,卷(期):1999 ""(1) 分类号:Q71 关键词:生物信息学数据库软件。
生物信息学研究的最新进展和未来趋势生物信息学是一门交叉科学,它借助计算机科学的方法和技术处理、分析、存储、整合和解释生物学大数据。
随着高通量测序、蛋白质组学、代谢组学等技术的不断发展和完善,生物信息学也不断发展和壮大。
近年来,生物信息学在基因组、转录组、蛋白质组和代谢组等领域的研究取得了许多重要进展,同时也展示了未来生物信息学发展的美好前景。
一、基因组学研究的最新进展基因组是生物体遗传信息的总和,对于揭示生命本质、寻找疾病基因、研究物种起源和进化等方面具有重要的科学意义。
近年来,随着二代测序技术的发展和普及,人类和不同生物体中的基因组序列得到了快速、高效、准确的测定,从而为基因组学研究提供了强大的数据支持。
通过基因组学研究,我们可以揭示不同生物个体之间的遗传差异、人类起源、自然选择和进化等问题。
例如,2015年,人类起源问题的研究揭示了现代人与古人类基因交流事件的复杂性和多样性。
此外,基因组也在研究传染病和癌症等疾病方面起到了至关重要的作用,例如通过基因组学研究,可以发现和突变导致癌症等疾病的基因,为寻找治疗方法提供重要依据。
二、转录组学研究的最新进展转录组是指在一个生物体某个时期中所有基因的转录产物集合,它是基因功能实现的重要环节。
转录组学的研究过程中,我们可以对不同生物个体在不同情境下的基因表达情况进行分析,以了解基因启动子和转录调控机制等方面的信息。
通过转录组学的研究,我们可以及时监测某些重要基因的表达情况,例如研究机体对环境的适应能力和抵抗力的提高。
例如,近年来转录组学研究揭示了在水稻和其他作物耐盐、耐旱、耐寒托架中,水稻转录因子MYB30-B 介导着不同途径的非生物胁迫反应。
这项研究不仅有解决重大食品安全问题的潜力,还能促进新品种的培育和扩张农业基础设施。
三、蛋白质组学研究的最新进展蛋白质是生物体中最重要的功能分子之一,对于生命活动的维持起着至关重要的作用。
蛋白质组学则是指对生物体内所有蛋白质进行鉴定、定量和功能研究的学科。
生物信息学的发展趋势随着生物技术的高速发展,生物信息学也逐渐成为了一个备受关注的领域。
生物信息学涵盖了计算机科学与生物学的交叉领域,可以为生物学家提供关键的分析和研究工具,帮助他们更好地理解生物体系的复杂性。
而当下,生物信息学的发展趋势也变得越来越清晰。
一、大数据分析能力不断提升随着高通量测序技术的发展,生物信息学所需处理的数据量也在不断增加。
而要从这些海量数据中获取有意义的信息,需要高效的数据处理和分析能力。
因此,在未来的发展中,生物信息学的重要任务之一就是不断提升大数据分析的能力。
随着云计算、机器学习、人工智能等技术的不断发展,生物信息学的大数据分析能力也在不断提升。
目前,国外已经涌现了很多生物信息学平台,如NCBI、EMBL-EBI、UCSC等,它们能够提供标准的细胞组学数据,还能够提供一些常见生物过程的原始、研究数据,帮助研究人员快速查找到自己需要的数据或者与人进行借鉴和比对。
二、单细胞分析技术的快速发展单细胞分析技术属于一种比较新兴的技术,采用现代化设备,可以对单个细胞进行测序并分析。
这种技术在生物信息学领域中也开始受到青睐,将为相关领域的研究人员提供极为有价值的研究数据和分析方法。
单细胞测序技术和单细胞转录组技术已经可以广泛应用于肿瘤学、免疫学、神经科学等领域,许多人从中寻找细胞分化、存活、遗传和表观基因等研究的答案。
在未来的发展中,我们可以期待看到更多的单细胞分析技术被开发出来,为生物学家提供更准确的研究数据和分析方法。
三、面向个性化医疗的研究生物信息学在医学中的应用也逐渐显现出来。
如今,医学界也越来越注重个性化医疗的研究,而生物信息学恰恰具备了研究这一方向的能力和优势。
通过生物信息学的帮助,医学界可以更好地了解患者的疾病基因和表型特征,为个性化治疗提供有力支持。
面向个性化医疗的研究方向包括了基因组学、表观基因组学、转录组学、蛋白组学等领域。
通过这些研究方向,我们可以了解某些基因突变是如何导致疾病的,可以开发出相应的筛查和诊断程序,更好地为患者提供治疗方法和方案。
生物信息和数据分析的进展随着科学技术的快速发展,生物信息学和数据分析正成为生物学领域中不可或缺的重要工具。
它们不仅可以帮助我们更深入地理解生命的本质,还能加速药物研发、环保和食品安全等方面的进展。
本文将探索生物信息和数据分析领域的最新进展,以及它们可能对未来的影响。
1. 基因编辑技术基因编辑技术在生物信息和数据分析领域中扮演重要角色。
最近几年,科学家们通过CRISPR-Cas9基因编辑技术,成功地研究了人类各种疾病的基因,进而研发出了治疗癌症、糖尿病、先天缺陷等疾病的新药物。
这种技术的快速发展改变了研究生命科学的方式和速度,使科学家们更好地理解了各种生物学现象。
基因编辑技术还可以更好地保护环境和农业领域的产出。
例如,科学家正在通过基因编辑技术创造一种长时间存储的谷物品种,以保证全球的粮食安全。
2. 大数据的应用大数据的出现是生物信息学和数据分析发展的重要里程碑。
科学家们通过利用大数据的分析技术,可以更全面地收集、处理和分析生物信息。
例如,研究人员可以使用基因组学和转录组学数据,通过计算机模拟对心脏病和癌症等常见疾病的潜在机制进行预测和建模。
这种技术可以更准确地提供疾病预测和治疗方案,并且能够加速疾病诊断的速度和准确性。
3. 人工智能的应用人工智能技术正成为生物信息学和数据分析领域中不可或缺的工具。
研究人员通过使用深度学习、文本挖掘、语音识别等人工智能技术,可以快速有效地处理各种数据。
例如,科学家们可以使用人工智能技术来分析大型生物组学数据集,以预测疾病和药物反应。
此外,人工智能技术还可以帮助科学家更好地理解和解释大规模生物数据,以揭示生命的本质。
总的来说,生物信息学和数据分析领域的进展对生命科学产生了重要影响。
它们通过各种高科技手段和工具,为疾病治疗和预防、生态环境保护和粮食安全保障等领域提供了有力的支持。
与此同时,这项技术也不断地在创新和进步中发展壮大,将继续带来更多的惊喜和启示。
生物信息学在生物多样性保护中的应用现状及前景展望随着人类活动的扩大和日益严重的环境问题,全球生物多样性正面临严重威胁。
因此,寻求保护和重建生物多样性的可能性和路径已成为当今生物领域的重要挑战。
生物信息学作为一个跨学科、高技术含量的新兴科学,为生物多样性保护提供了新的思路和技术支持。
一、生物信息学在生物多样性保护中的应用现状1.基因组学在生物多样性研究和保护中的作用。
基因组学研究技术已成为研究生物多样性的关键工具。
通过对生物的基因序列进行分析,可以了解生物在进化和生存过程中所面临的挑战和变化,从而为生物多样性保护和恢复提供科学依据。
例如,揭示特定物种的基因组信息可以确定其的起源和进化历史,从而为物种保护提供重要的基础资料。
2.生物信息学在生物多样性保护中的DNA条形码技术的应用。
DNA条形码技术是一种广泛应用于生物认证和鉴定的分子生物学工具。
它通过研究物种特定的基因序列,即“DNA条形码”,来确认物种的正确身份和建立物种的分类体系,因此有助于监测物种的消失和空间变化,进而更好地保护生物多样性。
3.生物信息学在物种分布和生境分析中的应用。
随着物种数量的增加和生境的复杂性,传统的物种分类研究已经难以满足生物多样性保护的需求。
因此,利用生物信息学进行物种分布和生境分析已成为一种流行的研究手段。
生物信息学通过采集物种分布数据和环境信息数据,提供多维的研究模式,帮助研究人员更好地了解物种的适应性和生存状态,为生物保护和管理提供更详细和更全面的数据支持。
二、生物信息在生物多样性保护中的前景展望1.完善数据库,推动数据共享。
随着科学研究越来越重,关于生物信息的研究也越来越多。
单个研究无法攫取全局,故数据共享变得至关重要。
建立完善的数据库,可为全球研究人员提供更可靠、更丰富、更详细的信息和分析工具,推进生物信息学在生物多样性保护中的应用。
2. 加强国际合作,优化人员配置。
加强国际合作,搭建交流渠道和平台,统筹人员、技术、设备等资源,优化研发结构,加速研究成果转化,减少重复性研究,更好地贡献于生物多样性保护。
新型生物信息学数据库的建设与应用随着生物信息学领域的快速发展,生物信息学数据库的重要性越来越凸显。
目前,各国科学家们都在致力于新型生物信息学数据库的建设与应用,以满足科学研究和医学应用的需求。
一、新型生物信息学数据库新型生物信息学数据库一般采用最新的云计算技术和大数据存储技术,可以实现数据的高效存储、管理、共享和分析。
这些数据库不再是以前简单地存储一些实验数据,而是集成了各种类型和来源的生物学数据,如基因序列、蛋白质结构、表达谱数据、突变谱、细胞系谱等。
这些数据库不仅存储了大量的数据,还可以提供各种数据挖掘和分析工具,帮助科学家更好地理解和预测生物学现象。
二、新型生物信息学数据库的建设新型生物信息学数据库的建设是一个复杂的过程,包括数据采集、处理、组装、注释、质量控制、存储、共享和分析等。
在数据采集方面,对于不同类型的生物数据,一般采用不同的实验方法和测序技术,如基因组测序、转录组测序、蛋白质质谱、单细胞测序等。
在数据处理方面,需要进行数据清洗、过滤、比对、组装、注释等一系列操作,以确保数据的质量和可靠性。
在数据存储和共享方面,需要采用云计算和大数据存储技术,提高数据存储的效率和安全性,同时实现数据的共享和开放性。
三、新型生物信息学数据库的应用新型生物信息学数据库可以应用于各种生物学研究和医学应用中。
在生物学研究方面,可以应用于基因功能注释、基因调控网络和分子机制研究、药物设计和优化、种群遗传学和进化生物学研究等。
在医学应用方面,可以应用于疾病诊断、治疗和预测研究,特别是癌症等复杂疾病的研究。
例如,可以利用基因组数据对肿瘤进行分类和个性化治疗,提高治疗的效果和预后。
四、新型生物信息学数据库的发展趋势和挑战随着生物信息学领域的不断进步和技术的不断发展,新型生物信息学数据库也在不断发展和完善。
未来的发展趋势包括更加智能化和自动化的数据采集和处理技术,更加开放和共享的数据库管理和应用平台,以及更加复杂和多元化的数据挖掘和分析工具。
生物信息学的发展现状和展望一、什么是生物信息学:1.人类基因组计划与生物信息学人类基因组计划(Human Genome Project,简称HGP)是美国科学家在1985年率先提出的,其目的在于阐明人类基因组DNA3×109核苷酸序列,破译人类全部遗传信息,HGP于1990年正式启动。
随着HGP产生的数据爆炸,一门新兴学科----生物信息学应运而生。
生物信息学是以计算机为主要工具,开发各种软件,对日益增长的DNA和蛋白质的序列和结构等相关信息进行收集、储存、发行、提取、加工、分析和研究,同时建立理论模型,指导实验研究,它由数据库、计算机网络和应用软件三大部分构成,在基因组计划中发挥不可替代的作用。
2.什么是生物信息学美国人类基因组计划中给基因组信息学的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。
该定义包含两方面的内容,一方面是发展强大有效的信息分析工具,构建适合于基因组研究的数据库,用于搜索、管理、使用人类基因组和模式生物基因组的巨量信息;另一方面是配合实验研究,确定约30亿个碱基对的人类基因组完整核苷酸顺序,找出人类全部约10万个基因在染色体上的位置以及包括基因在内的各种DNA片段的功能,即"读懂"人类基因。
随着后基因组时代的到来,基因组学的研究从结构基因组学过渡到功能基因组学,即从"是什么"过渡到"为什么"的研究。
生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。
它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。
由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。
生物化学与生物物理进展PROGRESS INBIOCHCMISTRYAND BIOPHYSICS1999年 第1期 No.11999国内外生物信息学数据库服务新进展*李维忠 王任小 林大威 毛凤楼 韩玉真 来鲁华摘要 生物信息学是生命科学中最活跃的领域之一. 各类生物信息学数据库在近年不断出现,其规模呈爆炸趋势增长,同时数据结构日趋复杂. 目前生物信息学数据库服务已实现了高度的计算机和网络化. 算法和软件的进步、数据库的一体化、服务器-客户模式的建立使之成为生物、医药、农业等学科的强有力工具. 在国内北京大学物理化学研究所于1996年建立了第一家生物信息学网络服务器. 现已为国内外科学家提供了7万余次服务,在国际上具有一定影响.关键词 生物信息学, 数据库, 软件学科分类号 Q71Progress of Bioinformatics Database Services.LI Wei-Zhong, WANG Ren-Xiao, LIN Da-Wei, MAO Feng-Lou, HAN Yu-Zhen, LAI Lu-Hua(Institute of Physical Chemistry, Peking University, Beijing 100871, China).Abstract Bioinformatics is one of most active fields in life science. In recent years, various bioinformatics databases have appeared. The size of the database has grown explosively, and the structure of database has been more complex. Now most databases are severed through the internet. The progress in algorithm and software, integration of database and server-client structure make bioinformatics the powerful tool in biology, medicine and agriculture. In 1996 the first network-based bioinformatics server in China was established in Institute of Physical Chemistry, Peking University. Via the Internet, more than 70 000 scientist from all over the world have been served by the server.Key words bioinformatics, database, software 生物信息学(bioinformatics)是近年来发展并完善起来的热门交叉学科. 近年来随着快速序列测定、基因重组、多维核磁共振、同步辐射、机器人等技术的应用,生物学实验数据呈爆炸趋势增长,同时计算机和国际互联网络的发展使对大规模数据的存贮、处理和传输成为可能. 现在某一实验室的研究成果一经进入生物信息网络便为全球科学家共享. 从新基因的发现,蛋白质的结构功能预测、疫苗的筛选到新药研制无不依赖于生物信息学,它在生物、医药、农业、环境等学科的应用已无所不在.1 生物信息学数据库的发展现状 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域,核酸序列数据库有GenBank[1], EMBL[2], DDBJ[3]等,蛋白质序列数据库有SWISS-PROT[4], PIR[5], OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE[6], BLOCKS[7], PRINTS等,三维结构数据库有PDB[8], NDB, BioMagResBank, CCSD等,与蛋白质结构有关的数据库还有SCOP[9], CATH, FSSP [10], 3D-ALI, DSSP等,与基因组有关的数据库有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等. 此外还有其他数据库数百种.另外一些公司还开发了商业数据库如MDL等.1.1 数据库的增长和更新 爆炸性增长是生物信息学数据库的重要特征,至1997年底GenBank已有189.2万条核酸序列,SWISS-PROT有69 000条蛋白质序列,PDB有7 000套结构. 目前这种趋势主要是因为基因组等计划的实施,一些物种(如酵母 Saccharomyces cerevisiae)基因组的全部序列已经收入GenBank,在GenBank中有65%的序列来自ESTs(Expressed Sequence Tags),预计人类基因组计划在2年内还将测出108核苷酸的序列.1.2 数据库的复杂程度增加 除了在数量上的增长,数据库的复杂程度在不断增加. 它包括了大量注释、参考文献及软件, 并通过指针将相关内容链接到其他数据库,在第35版SWISS-PROT中注释项涉及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻译后修饰、与其他蛋白质的相似性、相关疾病、序列冲突等. 与之交叉引用的数据库增加到26个. 数据库结构层次的加深客观上要求管理的进步,当今面对对象数据库管理方法正在逐步取代旧的模式.1.3 数据库使用的高度计算机和网络化 计算机和网络化是生物信息学的又一重要特点. EMBNet(European Molecular Biology Network)已经连接了22个国家节点和8个大型生物计算中心. 成为最大的生物信息学区域网络. 许多数据库服务器已从工作站升级到大型服务器. 软件的进步使数据库实现了更为高效灵活的管理和使用. 1997年7月PDB推出了自动数据投送系统AutoDep,使向PDB投送数据操作大大减化. 而EBI(European Bioinformatics Institute)则通过为一些机构建立帐户的方式提高数据收集的效率. JAVA是一种不依赖于平台的高效网络语言,PRINTS数据库在1996年就将JAVA引入,实现了交互式序列对比的可视化功能,而PDB等已经实现了VRML (virtual reality modeling language)模型的传送,使用户可以在空间任一视点观察生物大分子的结构.2 生物信息学网络上的数据库服务进展 生物信息学网络资源是以数据库为主体,包括软件、信息查询、专题组和公告牌、自动计算等多种工具的综合资源 (表1,详细资料见北京大学生物信息学服务器).2.1 生物信息学软件的进步 生物信息学各个领域中的软件数目庞大,在EBI 1997年的分子生物学程序目录中就收录了530多种常用软件. 序列对比和数据库搜索软件有BLAST, FASTA, BLITZ等,生物大分子可视化软件有Rasmol, Mage, Raster3d, Grasp等,与蛋白质结构有关的程序有Procheck, WHATIF, DSSP等,大型分子生物学软件包如GCG. 各个数据库还有自身的查询系统. 并行算法、遗传算法、面向对象算法等已被应用到最新的程序中. 于1996年9月推出的FASTA3实现了高度的并行化,能够在多CPU的计算机上将搜索速度提高数倍,还支持并行虚拟机器技术(Parallel Virtual Machine),增加了并行网络计算机制.2.2 数据库的一体化和集成环境 生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务. EBI的SRS(sequence retrieval system)包含了核酸序列库、蛋白质序列库,三维结构库、基因组等30多个数据库及FASTA、CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询. 1997年升级的PDB 3DBBrowser搜索软件,可以接受各种关键词的查询,还具备字典功能和FASTA序列搜索功能. 用户不仅可以得到生物大分子的各种注释、坐标、三维图形,VRML等,并能从一系列指针连接到SCOP、CATH、Medline、ENZYME、Swiss-3Dimage等.表1 部分重要的生物信息学网络资源数据库及服务网址EMBL http://www.embl-heidelberg.de/GenBank /Web/Genbank/DDBJ http://www.ddbj.nig.ac.jp/SWISS-PROT http://www.expasy.ch/sprot-top.htmlPIR /pir/GDB /PDB /npdb/SCOP /scop/EBI /NCBI /ExPASy http://www.expasy.ch/SRS :5000/Entrez /Entrez/ Weizmann Institute http://bioinformatics.weizmann.ac.il/Pedro′s BioMolecular Research tools /~pedro/research-tools.html Medline /medline/query-form.htmlBioMedNet /2.3 服务器-客户式结构 生物信息网络中的数据库服务广泛采用服务器-客户式结构,这些服务器包括为数众多的数据库搜索和序列对比服务器以及各专业领域的服务器. 位于以色列Weizmann 研究所的Bioccelerator是为序列搜索设计的专用并列计算机,它将Swith-Waterman, BLAST, FASTA等方法硬件化,实行并行计算和先进的内存管理,令搜索速度大幅度提高,是生物信息学服务器更新的一个重要实例. PredictProtein是蛋白质结构预测服务器,它可根据要求的方法计算出所求蛋白质多重序列对比的结果、二级结构、残基可及性、跨膜螺旋位置、折叠拓扑类型等. DALI是计算蛋白质折叠类型和三维结构对比服务器,用户输入蛋白质的结构,由服务器给出PDB中与之具有相似结构的蛋白质及叠合的参数.3 国内进展及北京大学生物信息学服务器 近两年国际上生物信息学发展异常迅猛,为带动我国生物信息学的发展,北京大学物理化学研究所于1996年建立了国内第一家生物信息学网络服务器. 通过WWW (),FTP(ftp://)及E-mail方式为我国及世界各地科学家提供数据库、生物信息资源查询、软件和电子邮件等多种服务(见表2).表2 北京大学生物信息学服务器的服务内容名称内容网络协议PDB1)Brookheaven Protein Data Bank www, ftpSCOP1)Structural Classification of Proteins www SWISS-PROT Protein Sequence Data Base ftp PIR Protein Identification Resource ftp ENZYME Enzyme Data Bank ftpPROSITE Protein Sites and Patterns Database ftpBLOCKS Database of Highly Conversed Regions in Proteins ftpDSSP Database of Secondary Structure of Proteins ftpFSSP Database of Families of Structurally Similiar Proteins ftpHSSP Database of Homology-derived Structures of Proteins ftp Database Search Database Search www Journal On-line Bio/Chemical Journals wwwCourse Courses, Guides, Help and Tutorials www,ftpBioServices Bioservices Search wwwSoftware Search Software Search wwwSoftware Archie Collection of Free Softwares www,ftp 1)Mirror sites. 数据库服务包括PDB及SCOP的镜像服务器(mirror)及其他重要的数据库. 通过对镜像的访问,用户可以得到和原数据库完全相同并同步更新的服务. 信息资源查询包括数百个数据库及网址的查询、著名杂志及文献服务器的查询,此外服务器还提供遗传算法、蛋白质结构原理等训练课程. 服务器的软件服务包括各类生命科学软件的查询及可供用户下载常用免费软件的FTP服务,我们将本实验室开发的软件也置于网上以扩大国内工作的国际影响. 目前发布的程序有基于受体结构的药物分子设计程序RASSE[12]、蛋白质局部区域计算程序LPSA [13]、有机化合物脂水分配系数的计算程序XLOGP[14],这些程序在国际已经有数十家用户. 1996年5月,本服务器正式发布并召开了国内首次生物信息学应用研讨班,国内有数十家单位参加,反映良好. 目前服务器接收到国内外70 000余次访问 (图1). 在今后我们计划进一步加强服务功能,使之成为生物信息学学术交流的园地和对外宣传的窗口.图1 北京大学生物信息学服务器从1996年1月至1997年9月接受访问的次数及分布:ALL;:SCOP;:PDB.4 生物信息学数据库的研究应用前景 对于绝大多数科研工作者,生物信息学无疑是一种强有力的工具. 而对已有数据的研究和理解将一直是富有挑战性重要课题. 根据统计原理,某一程度上统计结果的显著性与数据量的对数成正比. 因此大量基于数据库的研究工作将随数据库容量的增长而有所突破. 如蛋白质的结构预测目前虽无法解决,但随着PDB中数据特别是新折叠类型的大量增加,此难题必会有重大进展. 人类基因组计划旨在从基因水平上提示疾病的本质,在读出全部基因组序列后,生物信息学最重要的研究内容就是如何读懂这些数据,从而揭示生命的奥秘. 生物信息学科也将随之得到巨大发展.*863高技术计划(960311280)、攀登计划——生命过程中重要化学问题研究(970211006)、国家杰出青年科学基金(29525306)及国家教委资助. 来鲁华 通讯联系人作者单位:北京大学物理化学研究所, 北京 100871参考文献 [1] Benson D A, Boguski M S, Lipman D J, et al. GenBank. Nucleic Acid Res, 1997, 25(1): 1~6 [2] Stoesser G, Sterk P, Tuli M A, et al. The EMBL Nucleotide Sequence Database. Nucleic Acid Res, 1997, 25(1): 7~13 [3] Tateno Y, Gojobori T. DNA Data Bank of Japan in the age of information biology. Nucleic Acid Res, 1997, 25(1): 14~17 [4] Bairoch A, Apweiler R. The SWISS-PROT protein sequence data bank and its supplement TrEMBL. Nucleic Acid Res, 1997, 25(1): 31~36 [5] Sidman K E, George D G, Barker W C, et al. The protein identification resource (PIR). Nucleic Acid Res, 1988, 16(5): 1869~1871 [6] Bairoch A, Bucher P. PROSITE: recent development. Nucleic Acid Res, 1994, 22(17): 3583~3589 [7] Henidoff S, Henikoff J G. Automated assembly of protein blocks for database searching. Nucleic Acid Res, 1991, 19(23): 6565~6572 [8] Bernstein F C, Koetzle T F, Williams G J B, et al. The Protein Data Bank: a computer-based archival file for macromolecular structures. JMB, 1977, 112(3): 535~542 [9] Murzin A G, Brenner S E, Hubbard T, et al. Scop: a structural classification of proteins database for the investigation of sequences and structures. JMB, 1995, 247(4): 536~540 [10] Ho lm L, Sander C. Dali/FSSP classification of three-dimensional protein folds. Nucleic Acid Res, 1997, 25(1): 231~234 [11] Bairoch A. The ENZYME data bank. Nucleic Acid Res, 1994, 22(17): 3626~3627 [12] Luo Z, Wang R, Lai L. RASSE: a new method for structure-based drug design. J Chem Inf Comp Sci, 1996, 36(6): 1187~1194 [13] Zhang H, Lai L, Wang L, et al. A fast and efficient program for modeling protein loops. Biopolymers, 1997, 41(1): 61~72 [14] Wang R, Fu Y, Lai L. A new atom-additive method for calculating partition coefficients. J Chem Inf Comp Sci, 1997, 37(3): 615~621收稿日期: 1997-09-26, 修回日期: 1998-02-19。