当前位置:文档之家› 生物信息学相关重要资料

生物信息学相关重要资料

生物信息学相关重要资料
生物信息学相关重要资料

生物信息学:生物信息学时应用信息科学的知识和方法,搜集、整理、贮存、分析生命科学的一门新兴学科,是现代医学生物学研究和分析的必备工具。CMBI曾就当今网上的各种专业网站及专业数据库作过报道,具体请参阅生物信息网站评述。这次CMBI再从《Bioinformatics》这一国际上最为著名的专业杂志中摘编了两年来发表的最重要的一百多篇论文,供读者参考。

总论

The Economic Value of Bioinformation

Computer applications in biomolecular sciences

biotech-Bioinformatics in the pre- and post-genomic eras

The Babel of Bioinformatics

Promoter prediction in the human genome

The need for a human gene index

biotech-Mining for medicines in silico

BIOMOLECULAR SIMULATIONS

On the Importance of Standardisation in Life Sciences

DNA binding sites- representation and discovery Editorial

An insight into domain combinations

IE-Kb- intron exon knowledge base

bioinf-Integration of information systems

Health Information Systems and Health Communications

High content screening ?§C from cells to data to knowledge

Whole-cell biocomputing

A classification of tasks in bioinformatics

Bioinformatics?athe necessity of the quest for -first principles in life

Bioinformatics enters a new millennium

Bioinformatics - Challenges in 2001

Mouse as the measure of man

蛋白

Proteome Analysis Database- online application of InterPro and CluSTr for the functional classification of proteins in whole genomes

The utility of different representations of protein sequence for predicting functional class TargetDB- a database of peptides targeting proteins to subcellular locations

ARED= human AU-rich element-containing mRNA database reveals an unexpectedly diverse functional repertoire of encoded proteins

The RESID Database of protein structure modifications and the NRL-3D Sequence¨CStructure Database

Protein Information Resource- a community resource for expert annotation of protein data

A Java applet for visualizing protein?§Cprotein interaction

STRAP- editor for STRuctural Alignments of Proteins

A collection of well characterised integral membrane proteins

Predicting protein?§Cprotein interactions from primary structure

A genetic algorithm for designing gene- the G protein-coupled receptor protein superfamily

The MetaFam Server- a comprehensive protein family resource

A simple probabilistic scoring method for protein domain identification

a software tool for low complexity proteins and protein domains

trEST, trGEN and Hits- access to databases of predicted protein sequences

The COG database- new developments in phylogenetic classification of proteins from complete genomes

A fully automatic evolutionary classification of protein folds

Accommodating Protein Flexibility in Computational Drug Design

The mouse SWISS-2D PAGE database- a tool for proteomics study of diabetes and obesity BioMolQuest- integrated database-based retrieval of protein structural and functional information

VARSPLIC- alternatively-spliced protein sequences derived from SWISS-PROT and TrEMBL TRITON- in silico construction of protein mutants and prediction of their activities

The protein kinase resource and other bioinformation resources

ProDDO- a database of disordered proteins from the Protein Data Bank

a database of protein structural domains

The SBASE protein domain library

PDB-REPRDB- a database of representative protein chains from the Protein Data Bank TIGRFAMs- a protein family resource for the functional identification of proteins

NIFAS- visual analysis of domain evolution in proteins

PALI- a database of alignments and phylogeny of homologous protein structures

Bioanalytical characterization of proteins

The InterPro database, an integrated documentation resource for protein families, domains and functional sites

Multi-class protein fold recognition using support vector machines and neural networks ToothPrint, a proteomic database for dental tissues

Mining literature for protein?§Cprotein interactions

Estimating the significance of sequence order in protein secondary structure and prediction Prediction whether a human cDNA sequence contains initiation codon by combining statistical information and similarity with protein sequences

Identification of novel multi-transmembrane proteins from genomic databases

Prediction of the coupling specificity of G protein coupled receptors to their G proteins iProClass- an integrated, comprehensive and annotated protein classification database Improved prediction of the number of residue contacts in proteins by recurrent neural networks InterPro?aan integrated documentation resource for protein families, domains and functional sites -database

CluSTr- a database of clusters of SWISS-PROT+TrEMBL proteins

DIP- The Database of Interacting Proteins-2001 update

Iterative sequence-secondary structure search for protein homologs

Protein-protein interaction map inference using interacting domain profile pairs

DaliLite workbench for protein structure comparison

MASIA- recognition of common patterns and properties in multiple aligned protein sequences Clustering of highly homologous sequences to reduce the size of large protein databases

On the trail of protein sequences

Analysis of conservation and substitutions of secondary structure elements within protein superfamilies

FORESST- fold recognition from secondary structure predictions of proteins

MetaFam- a unified classification of protein families-1

Human Immunodeficiency Virus Reverse Transcriptase and Protease Sequence Database GlycoSuiteDB- a new curated relational database of glycoprotein glycan structures and their biological sources

PALI?aa database of Phylogeny and ALIgnment of homologous protein structures

ProtEST- protein multiple sequence alignments from expressed sequence tags

MetaFam- a unified classification of protein families. II

MaxSub- an automated measure for the assessment of protein structure prediction quality ASEdb- a database of alanine mutations and their effects on the free energy of binding in protein Automated extraction of information on protein?§Cprotein interactions from the biological literature

PANAL- an integrated resource for Protein sequence ANALysis

An Expressed Sequence Tag EST- Discovery of New G-Protein Coupled Receptors

核酸

ODNBase?aa web database for antisense oligonucleotide effectiveness studies

NTDB- Thermodynamic Database for Nucleic Acids

The EMBL nucleotide sequence database

数据库

Kabat Database and its applications- future directions

PromEC- An updated database of Escherichia coli mRNA promoters with experimentally identified transcriptional start sites

PLMItRNA, a database for mitochondrial tRNA genes and tRNAs in photosynthetic eukaryotes PlasmoDB- An integrative database of the Plasmodium falciparum genome

PlantsP- a functional genomics database for plant phosphorylation

OrCGDB- a database of genes involved in oral cancer

BBID- the biological biochemical image database

The life sciences Global Image Database (GID)

Mendel-GFDb and Mendel-ESTS- databases of plant gene families and ESTs annotated with gene family numbers and gene family names

B-SPID- An object-relational database architecture to store, retrieve, and manipulate neuroimaging data

Database of Structural Motifs in Proteins

Mendel, a database of nomenclature for sequenced plant genes

Development of the receptor database (RDB)- application to the endocrine disruptor problem LIGAND- chemical database for enzyme reactions

Disperse- a simple and efficient approach to parallel database searching

A National Cardiac Surgery Database

IMGT-HLA Database?aa sequence database for the human major histocompatibility complex DRAGON- Database Referencing of Array Genes Online

IMGT, the international ImMunoGeneTics database

ICB database- the gyrB database for identification and classification of bacteria

HyPaLib- a database of RNAs and RNA structural elements defined by hybrid patterns

HUNT- launch of a full-length cDNA database from the Helix Research Institute

GABAagent- a system for integrating data on GABA receptors-1

HC Forum- a web site based on an international human cytogenetic database

GOBASE- the organelle genome database

Genomes OnLine Database (GOLD)- a monitor of genome projects world-wide

GenMapDB- a database of mapped human BAC clones

FULL-malaria- a database for a full-length enriched cDNA library from human malaria parasite ISYS- a decentralized, component-based approach to the integration of heterogeneous bioinformatics resources

LGICdb- the ligand-gated ion channel database

STRBase- a short tandem repeat DNA database for the human identity testing community

The Molecular Biology Database Collection- an updated compilation of biological database resources

The Mouse Gene Expression Database

The Mouse Genome Database (MGD)- integration nexus for the laboratory mouse

The RDP-II (Ribosomal Database Project)

The Stanford Microarray Database

The KMDB-MutationView- a mutation database for human disease genes

The University of Minnesota Biocatalysis-Biodegradation Database- emphasizing enzymes tmRDB (tmRNA database)

VIDA-a virus database system for the organization of animal virus genome open reading frames The imprinted gene and parent-of-origin effect database

The Homeodomain Resource- sequences, structures, DNA binding sites and genomic information The EMOTIF database

Organelle genome resources at NCBI

RECODE- a database of frameshifting, bypassing and codon redefinition utilized for gene expression

rSNP_Guide, a database system for analysis of transcription factor binding to target sequences- application to SNPs and site-directed mutations

BLAST Search Updater- a notification system for new database matches

Semi-automated update and cleanup of structural RNA alignment databases

Viral Genome DataBase

RefSeq and LocusLink- NCBI gene-centered resources

RHdb- the Radiation Hybrid database

The ARKdb- genome databases for farmed and other animals

rrndb- the Ribosomal RNA Operon Copy Number Database

The Arabidopsis Information Resource (TAIR)

Saccharomyces Genome Database provides tools to survey gene expression and functional analysis data

Database verification studies of SWISS-PROT and GenBank

Searching Expressed Sequence Tag Databases

SpliceDB- database of canonical and non-canonical mammalian splice sites

SRPDB (Signal Recognition Particle Database)

TreeGeneBrowser- phylogenetic data mining of gene sequences from public databases

RISSC- a novel database for ribosomal 16S¨C23S RNA genes spacer regions

ACTIVITY- a database on DNA-RNA sites activity adapted to apply sequence-activity relationships from one system to another

DBTBS- a database of Bacillus subtilis promoters and transcription factors

Viral Genome DataBase

Updated database of patterns used to detect local similarities

Pathway analysis in metabolic databases via differential metabolic display

Database resources of the National Center for Biotechnology Information

A rapid classification protocol for the CATH Domain Database to support structural genomics PIR- a new resource for bioinformatics

dbSNP- the NCBI database of genetic variation

ALFRED- an allele frequency database for diverse populations and DNA polymorphisms

The Human Transcript Database- a catalogue of full length cDNA inserts

Aminoacyl-tRNA synthetases database

CKAAPs DB- a conserved key amino acid positions database

MethDB?aa public database for DNA methylation data

BIND?aThe Biomolecular Interaction Network Database

Comprehensive Microbial Resource

The mouse SWISS-2D PAGE database

A comprehensive BAC resource

European Large Subunit Ribosomal RNA Database

MView- a web-compatible database search

算法

biotech-Plant biotechnology web alert

A new approach to sequence comparison

The non-coding RNAs as riboregulators

Compositional symmetries in complete genomes

Comparison of genomic DNA sequences- solved and unsolved problems

Mathematical simulation and analysis of cellular metabolism and regulation

Automated image analysis for array hybridization experiments

A Bayesian framework for the analysis of microarray expression data

Mathematica packages for simulation of experimental genetics

Genview and Gencode - a pair of programs to test theories of genetic code evolution Identifying splits with clear separation- a new class discovery method for gene expression data From complexity to simplicity- nature and symbols

GENIES- a natural-language processing system for the extraction of molecular pathways from journal articles

XML, bioinformatics and data integration

Finding pathogenicity islands and gene transfer events in genome data

Frequency-domain analysis of biomolecular sequences

Analysis of temporal gene expression profiles

PhyloBLAST- facilitating phylogenetic analysis of BLAST results

Optimizing reduced-space sequence analysis

Validating clustering for gene expression data

Efficient large-scale sequence comparison by locality-sensitive hashing

Circles- automating the comparative analysis of RNA secondary structure

Biochemical systems analysis of genome-wide expression data

MIPSIM- similarity analysis of molecular interaction potentials

Strategies for the development of a peptide computer

BAliBASE (Benchmark Alignment dataBASE)- enhancements for repeats, transmembrane sequences and circular permutations

Designing fast converging phylogenetic methods

A comparison of signal sequence prediction methods using a test set of signal peptides

AMADA- analysis of microarray data

POWER_SAGE- comparing statistical tests for SAGE experiments

J-Express- exploring gene expression data using Java

An algorithm for finding signals of unknown length in DNA sequences

A new approach to sequence comparison- normalized sequence alignment

Alignment of 3D structures of macromolecular assemblies

CAST- an iterative algorithm for the complexity analysis of sequence tracts

ASAP- analysis of peptide composition

Missing value estimation methods for DNA microarrays

Mocca- semi-automatic method for domain hunting

a new method for the normalization of gene expression data

MutaProt- a web interface for structural analysis of point mutations

DNA Sequence Analysis and Comparative Sequencing

TRES- comparative promoter sequence analysis

模型

A knowledge model for analysis and simulation of regulatory networks

Variations on probabilistic suffix trees- statistical modeling and prediction of protein families Rich probabilistic models for gene expression

A numerical model of acid-base transport in rat distal tubule

Web-based access to mouse models of human cancers

a phase-orientated computational model of oncogenesis

YPDTM, PombePDTM and WormPDTM- model organism volumes of the BioKnowledgeTM Library, an integrated resource for protein information

SCORE- predicting the core of protein models

A computer model to simulate family history of breast-ovarian cancer

Conceptual modelling of genomic information

神经网络

Adaptive encoding neural networks for the recognition of human signal peptide cleavage sites METATOOL- for studying metabolic networks

Quality control in mutation analysis- the European Molecular Genetics Quality Network (EMQN) Inferring qualitative relations in genetic networks and metabolic pathways

Prediction of MHC class II-binding peptides using an evolutionary algorithm and artificial neural network

Neural network schemes for detecting rare events in human genomic DNA

Dynamic simulation of the human red blood cell metabolic network

T-REX- reconstructing and visualizing phylogenetic trees and reticulation networks

Using a Neural Network to Screen a Population for Asthma

hierarchical unsupervised growing neural network for clustering gene expression patterns Computational expansion of genetic networks

WormBase- network access to the genome and biology of Caenorhabditis elegans

Using a Neural Network to Screen a Population for Asthma

Developing networks play a similar melody

Genetic network inference- from co-expression clustering to reverse engineering

应用

bioinfor-Metabolic flux balance analysis and the in silico analysis

Atlas of Genetics and Cytogenetics in Oncology and Haematology

PDBsum- summaries and analyses of PDB structures

RegulonDB (version 3

BodyMap incorporated PCR-based expression profiling data and a gene ranking system REBASE?arestriction enzymes and methylases

PseudoBase- structural information on RNA pseudoknots

Collecting and harvesting biological data- the GPCRDB and NucleaRDB information systems Efficient primer design algorithms

GlycoMod - A software tool for determining glycosylation compositions

Genetic Simulation Library

GeneRAGE- a robust algorithm for sequence clustering and domain detection

Gene recognition based on DAG shortest paths

Functional and structural genomics using PEDANT

Automatic discovery of regulatory in promoter regions based on whole cell expression data and functional

Feature selection for DNA methylation based cancer classification

PASS- prediction of activity spectra for biologically active substances

E-CELL- software environment for whole-cell simulation

DNAssist- the integrated editing and analysis of molecular biology sequences in Windows

DNA structure for sequences and repeats of all lengths

Uniform integration of genome mapping data using intersection graphs

Digital reviews in molecular biology- approaches to structured digital publication

The TIGR Gene Indices- analysis of gene transcript sequences in highly sampled eukaryotic species

Flexibility of the genetic code with respect to DNA structure

RDP- detection of recombination amongst aligned sequences

A relational schema for both array-based and SAGE gene expression experiments

A graph layout algorithm for drawing metabolic pathways

Visualizing associations between genome sequences and gene expression data using genome-mean expression profiles

Virtual PCR

The massively parallel genetic algorithm for RNA folding

TAMBIS- Transparent Access to Multiple Bioinformatics Information Sources

Integrating genomic homology into gene structure prediction

Saturated BLAST- an automated multiple intermediate sequence search used to detect distant

homology

Molecular classification of multiple tumor types

PSEUDOEXONS AND REGULATORY ELEMENTS IN THE GENOMIC SEQUENCE OF THE -CHEMOKINE Processing and quality control of DNA array hybridization data

Predicting the oxidation state of cysteines by multiple sequence alignment

Physical mapping with automatic capture of hybridization data

PHAT- a transmembrane-specific substitution matrix

Detection of a surface-exposed PEST like sequence in the metabotropic glutamate receptor mGluR1

Support vector machine classification and validation of cancer tissue samples

Visualization of expression clusters using Sammon??¥s non-linear mapping

Construction of DNA restriction maps based on a simplified experiment

Evaluation of methods for the prediction of membrane spanning regions

ExScript- AN EX-CENTRIC APPROACH TO THE DESCRIPTION OF TRANSCRIPT DIVERSITY

biotech-Immobilized RNA switches for the analysis of complex chemical and biological mixtures Identifying target sites for cooperatively binding factors

biotech-The Internet in clinical trials

Identifying the 3-terminal exon in human DNA

MEDUSA-large scale automatic selection and visual assessment of PCR primer pairs

An integrated system for high throughput TaqManTM based SNP genotyping

Prediction of quaternary structure from primary structure

GABAagent- a system for integrating data on GABA receptors

A systematic approach to dynamic programming in bioinformatics

The TRANSFAC system on gene expression regulation

BIOINFORMATICS TOOLS FOR WHOLE GENOMES

Visual Cloning 2000

A Web interface generator for molecular biology programs in Unix

A plant calmodulin-binding motor is part kinesin and part myosin

A computer-driven approach to PCR-based differential screening, alternative to differential display

A Bayesian framework for the analysis of microarray expression data

Identification and analysis of eukaryotic promoters

其它

Ontology for immunogenetics- the IMGT-ONTOLOGY

STACK- Sequence Tag Alignment and Consensus Knowledgebase

Legal ethical and risk issues in telemedicine

University bioinformatics programs on the rise

LDB2000- sequence-based integrated maps of the human genome

biotech-web-Chemical biotechnology Pharmaceutical biotechnology

A browser for expression data

biotech-Monitor- molecules and profiles

Clinical websites are currently dangerous to health

The PDB data uniformity project

The retrieval effectiveness of medical information on the web

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能 4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能 一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变: A. 丙氨酸B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局 部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们,最好使用下列哪个BLOSUM和PAM矩阵:■BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别是:A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列,它可能编码多少种蛋白质序列: A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列,应选择: A. blastn B. blastp C. tblastn D. tblastp■blastx 18.为什么ClustalW(一个采用了Feng-Doolittle渐进比对算法的程序)不报告E值:A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙,永远是空隙”规则的依据是:A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应 该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说:A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质,分子进化的速率是逐 渐减慢的,就如同不准时的钟■对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是: A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法:A. 邻位连接法(NJ法)B. Kimura算法■最大似然法(ML)D. 非加权平均法(UPGMA) 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是:■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列,而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元(OTU)可指:A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是:■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是:A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质:■10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是:A. 软件太难使用■. 假阳性率太高,许多不是外显子的序列部分被错误指定C. 假阳性率太高,许 多不是外显子功能未知 D. 假阴性率太高,丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以:A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp:A. 20000■. 200000 C. 2000000 D. 20000000

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学名词解释资料

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。 精品文档

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学复习资料

第一章 1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图 3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 、EMBL、DDBJ 5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。 第二章: 1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降 3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap 4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 ¥ 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 ? 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。[ 3) 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

生物信息学中的机器学习方法

生物信息学中的机器学习方法 摘要:生物信息学是一门交叉学科,包含了生物信息的获取、管理、分析、解释和应用等方面,兴起于人类基因组计划。随着人类基因组计划的完成与深入,生物信息的研究工作由原来的计算生物学时代进入后基因组时代,后基因组时代中一个最重要的分支就是系统生物学。本文从信息科学的视角出发,详细论述了机器学习方法在计算生物学和系统生物学中的若干应用。 关键词:生物信息学;机器学习;序列比对;人类基因组;生物芯片 1.相关知识 1.1 生物信息学 生物信息学时生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它综合运用生物学、计算机科学和数学等多方面知识与方法,来阐明和理解大量生物数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。 生物信息学主要有三个组成部分:建立可以存放和管理大量生物信息学数据的数据库;研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具;使用这些工具去分析和解释不同类型的生物学数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达以及生化途径等。 生物信息学这个术语从20世纪90年代开始使用,最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。自从20世纪60年代就有了序列分析的计算机工具,但是那时并未引起人们很大的关注,直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。现在该术语已扩展到几乎覆盖各种类型的生物学数据,如蛋白质结构、基因表达和蛋白质互作等。 目前的生物信息学研究,已从早期以数据库的建立和DNA序列分析为主的阶段,转移到后基因组学时代以比较基因组学(comparative genomics)、功能基因组学(functional genomics)和整合基因组学(integrative genomics)为中心的新阶段。生物信息学的研究领域也迅速扩大。生物信息学涉及生物学、计算机学、数学、统计学等多门学科,从事生物信息学研究的工作者或生物信息学家可以来自以上任何一个领域而侧重于生物信息学的不同方面。事实上,我们今天正需要具备各种背景知识、才能和研究思路的研究人员,集思广益

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用 生物信息学(bioinformaLics)是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。 从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。 生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。 生物信息学在人类基因组计划中也具有重要的作用。 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。 人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信息分析得到的。 当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

中国科学院大学生物信息学期末考试资料,陈润生老师

生物信息学期末考试复习 1.生物学中的7个数学故事 (1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。 (2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。 (3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。 (4)关联分析通过假设检验看两个特征的关联有无统计显著性。 (5) 序列比对设计合适的算法可以有效降低计算复杂度。 (6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。 (7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。 2. DNA、protein、RNA序列比对及其算法 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。 (1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。 算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。 算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。 (2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分 算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。 动态规划算法优缺点: 优点:对于一个给定的计分函数集合,能找到最优的比对 缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。 序列比对的定义,存在哪几种算法,打分矩阵是什么意思 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列; 算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法; 打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。 1.动态规划算法,给个表格可以把数字填出:

生物信息学分析方法

核酸和蛋白质序列分析 蛋白质, 核酸, 序列 关键词:核酸序列蛋白质序列分析软 件 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.doczj.com/doc/6f13758005.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.doczj.com/doc/6f13758005.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.doczj.com/doc/6f13758005.html,/fasta33/)和BLAST (https://www.doczj.com/doc/6f13758005.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两

相关主题
文本预览
相关文档 最新文档