生物信息学试题精编版
- 格式:docx
- 大小:38.27 KB
- 文档页数:13
1. 在NCBI进行BLAST序列比对时,需要输入查询序列的信息,以下错误的格式是( C )A. 序列的accession numberB. 序列的giC. 序列对应基因的IDD. FASTA 格式的序列2. 下面这段序列是: ( B )>gi|24646620|ref|NM_057587.3| Drosophila melanogaster RNA-binding protein 4 CG9654-RA, transcript variant A (Rbp4), mRNAGGATTTTCTTGCCTGTCA TTCAA TTTGTGGTTGGCTTCACCTGAGTGCTGTAGT。
A. DNA序列B. RNA序列C. 蛋白质序列D. 基因3. ExPASy上的工具软件ProtParam提供的是哪种类型的服务?( B )A.蛋白质三级结构分析B.蛋白质序列理化性质预测C.蛋白质二级结构分析D.跨膜结构分析4. 假如你有两条远相关的蛋白,为了比较它们,最好使用下列哪个记分矩阵(A )A. BLOSUM45或PAM250B. BLOSUM45或PAM1C. BLOSUM80或PAM250D. BLOSUM10或PAM15. 构建系统发生树,应使用CA. BLASTB. FASTAC. UPGMAD. Entrez6. 下面这段蛋白质序列是什么格式? ( D )>gi|4506183|ref|NP_002779.1| proteasome alpha 3 [Homo sapiens]MSSIGTGYDLSASTFSPDGRVFQVEYAMKAVENSSTAIGIRCKDGVVFGVEKLVLS KL YEEGSNKRLFNVDRHVGMA V AGLLADARSLADIAREEASNFRSNFGYNIPLKHLADRV AMYVHAYTL YSA VRPFGCSFMLGS。
A. GBFFB. TEXTC. PDBD. FASTA7. 直系同源物定义为(A )A.不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余功能的同源序列8. 美国NIH维护提供的DNA序列数据库是:( A )A. GenBankB. ProteinC. dbESTD. dbSNP9. 高分配对片段的英文缩写为(A )A. HSPB. HMPC. HCPD. HDP10. BLAST比对结果报告中有一统计数值E值,该值大小与匹配度的关系是( B )A. 值越小说明匹配度越低B. 值越小说明匹配度越高C. 两者无内在关系D. 以上说法都不对11. NCBI提供了大量的序列分析工具,其中用来寻找DNA序列潜在的蛋白质编码区的工具是:(A )A. ORF FinderB. BLASTC. Scan PrositeD. SAGEmap12. Entrez是哪个网站数据库的检索系统(A )A.NCBIB.PROSITEC.EBID.PDB13. 如果想找一个和查询蛋白远源的蛋白质,下面哪种方法最可能成功? BA.采用PHI-BLAST,因为你能自己选择一个和搜索蛋白质有关的信号序列B.采用PSI-BLAST,因为这个算法使用位点特异性打分矩阵最为敏感C.采用BLASTP,因为你能够调整你的打分矩阵从而使得搜索敏感度最大D.采用专门的物种数据库,因为他们中可能含有这种远源序列。
生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科,它利用计算机技术来分析和解释生物数据。
以下是一份生物信息学考试题及答案的示例。
生物信息学考试题一、选择题(每题2分,共20分)1. 生物信息学中,用于存储DNA序列的文件格式是:A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤?A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中,BLAST工具用于:A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的?A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的?A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题(每题10分,共30分)6. 简述生物信息学在现代生物学研究中的重要性。
7. 解释什么是基因组学,并说明其在医学研究中的应用。
8. 描述序列比对的基本原理及其在生物信息学中的作用。
三、计算题(每题15分,共30分)9. 假设你有一个DNA序列,其组成为:ATCGTA。
请计算其互补序列。
10. 给定两个蛋白质序列,序列A:A-B-C-D-E,序列B:A-C-E-B-D。
请使用Needleman-Wunsch算法计算它们的全局比对得分。
四、论述题(每题20分,共20分)11. 论述生物信息学在新药开发中的作用及其面临的挑战。
答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据,如基因组序列、蛋白质结构等,帮助科学家快速发现生物现象的规律,推动生物学的发展。
7. 基因组学是研究生物基因组的结构、功能和演化的科学。
在医学研究中,基因组学可以帮助我们了解疾病的遗传基础,为个性化医疗提供理论基础。
生物信息学复习题及答案1. 什么是生物信息学?生物信息学是一门交叉学科,它结合了生物学、计算机科学和信息技术,用于管理和分析生物数据。
它涉及基因组学、蛋白质组学、转录组学等多个领域,目的是从大量生物数据中提取有用的生物学信息。
2. 基因组学的主要研究内容是什么?基因组学主要研究基因组的结构、功能和相互作用,包括基因的识别、基因表达的分析以及基因组的比较研究。
3. 转录组学与基因组学有何不同?转录组学关注的是细胞在特定条件下转录产生的所有RNA分子,而基因组学研究的是整个基因组的DNA序列。
转录组学可以揭示基因表达的变化,而基因组学提供了基因存在的信息。
4. 蛋白质组学研究的是什么?蛋白质组学研究细胞或组织中所有蛋白质的组成、结构、功能和相互作用。
它涉及蛋白质的鉴定、定量和功能分析。
5. 生物信息学中常用的数据库有哪些?常用的生物信息学数据库包括GenBank、PDB(蛋白质数据银行)、UniProt和KEGG等,它们存储了大量的基因、蛋白质和生物途径信息。
6. 什么是序列比对?序列比对是将两个或多个生物序列(如DNA、RNA或蛋白质序列)进行排列,以便识别出相同或相似的区域,这是发现序列间同源性的重要方法。
7. 简述系统发育树的构建过程。
系统发育树的构建通常包括以下步骤:收集序列数据、选择适当的比对方法进行序列比对、计算序列间的同源性、选择系统发育分析方法(如最大似然法、邻接法等)构建树,并进行树的优化和验证。
8. 什么是基因表达谱分析?基因表达谱分析是一种研究基因在不同条件下表达模式变化的技术,它可以帮助我们理解基因如何响应环境变化或参与特定生物学过程。
9. 什么是高通量测序技术?高通量测序技术,也称为下一代测序技术,是一种能够快速、低成本地测定大量DNA或RNA序列的技术,它在基因组学、转录组学等领域有广泛应用。
10. 什么是生物信息学中的网络分析?网络分析在生物信息学中用于研究生物分子间的相互作用,如蛋白质-蛋白质相互作用网络、基因调控网络等,它有助于揭示生物系统的复杂性和动态性。
生物信息考试题及答案一、单项选择题(每题2分,共20分)1. DNA双螺旋结构是由哪位科学家提出的?A. 孟德尔B. 达尔文C. 沃森和克里克D. 爱因斯坦答案:C2. 下列哪种生物信息学数据库主要用于存储蛋白质序列信息?A. GenBankB. PDBC. Swiss-ProtD. KEGG答案:C3. 以下哪个选项不是生物信息学的主要研究领域?A. 基因组学B. 蛋白质组学C. 系统生物学D. 量子物理学答案:D4. 在生物信息学中,BLAST是一种用于什么目的的算法?A. 序列比对B. 蛋白质结构预测C. 基因表达分析D. 代谢途径重建5. 以下哪种生物信息学工具用于基因预测?A. ClustalWB. BLASTC. GeneScanD. FASTA答案:C6. 以下哪个选项是生物信息学中用于描述基因表达模式的术语?A. SNPB. GOC. microRNAD. EST答案:D7. 以下哪种生物信息学数据库主要用于存储基因表达数据?A. GenBankB. GEOC. PDBD. Swiss-Prot答案:B8. 以下哪个选项不是生物信息学中用于蛋白质功能预测的方法?A. 同源性搜索B. 蛋白质结构预测C. 蛋白质家族分类D. 基因组测序答案:D9. 在生物信息学中,以下哪个选项是用于描述基因组中非编码区域的A. IntronB. ExonC. Intergenic regionD. Promoter答案:C10. 下列哪种生物信息学工具用于蛋白质-蛋白质相互作用网络分析?A. STRINGB. ClustalWC. MEGAD. BLAST答案:A二、多项选择题(每题3分,共15分)1. 以下哪些是生物信息学中常用的序列比对工具?A. BLASTB. ClustalWC. FASTAD. MEGA答案:ABCD2. 以下哪些数据库是生物信息学中常用的?A. GenBankB. PDBC. Swiss-ProtD. PubMed答案:ABCD3. 以下哪些是生物信息学中用于基因表达分析的方法?A. qRT-PCRB. MicroarrayC. RNA-seqD. Mass spectrometry答案:ABC4. 以下哪些是生物信息学中用于蛋白质结构预测的方法?A. Homology modelingB. Ab initio modelingC. ThreadingD. Docking答案:ABC5. 以下哪些是生物信息学中用于系统生物学分析的工具?A. BioCycB. KEGGC. ReactomeD. STRING答案:ABCD三、简答题(每题5分,共20分)1. 描述基因组学和蛋白质组学的主要区别。
生物信息技术考试试题一、选择题(每题 3 分,共 30 分)1、以下哪个不是生物信息学的主要研究内容?()A 基因组学B 蛋白质组学C 细胞学D 代谢组学2、生物信息学中用于序列比对的常用算法是()A 动态规划算法B 贪心算法C 分治算法D 回溯算法3、在基因表达数据分析中,常用的标准化方法是()A RPKMB TPMC FPKMD 以上都是4、以下哪种数据库主要用于存储蛋白质结构信息?()A GenBankB PDBC UniProtD Ensembl5、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是6、以下哪个软件不是用于基因序列分析的?()A Primer PremierB SPSSC DNAStarD Vector NTI7、生物信息学中,预测蛋白质二级结构的方法不包括()A 基于同源建模B 基于机器学习C 基于物理化学原理D 基于经验规则8、在生物信息学中,BLAST 程序主要用于()A 序列比对B 进化分析C 基因预测D 蛋白质结构预测9、以下哪种编程语言在生物信息学中应用较为广泛?()A JavaB PythonC C++D Fortran10、用于分析基因芯片数据的软件包是()A R 语言中的 BioconductorB MATLABC StataD SAS二、填空题(每题 3 分,共 30 分)1、生物信息学中的三大核心数据库是_____、_____、_____。
2、基因序列的相似性搜索常用的工具是_____。
3、蛋白质的一级结构是指_____。
4、常见的基因注释数据库有_____、_____等。
5、系统发育树的构建基于_____的原理。
6、生物信息学中常用的数据格式有_____、_____等。
7、预测蛋白质三级结构的方法主要有_____、_____。
8、基因表达数据的差异分析常用的方法有_____、_____。
9、用于分析高通量测序数据的软件有_____、_____。
生物信息学测试题1. 1以下哪一个是mRNA条目序列号() [单选题]2. 如果你需要查询文献信息,下列哪个数据库是你最佳选择() [单选题]3. EMBL的含义是() [单选题]4. accession number的含义是() [单选题]5. 5以下关于PubMed的描述错误的是() [单选题]6. NCBI的含义是() [单选题]7. 7GenBank中分类码PLN表示是() [单选题]8. PIR是() [单选题]9. 1以下数据库不能用于检索核酸序列的是() [单选题]10. 蛋白质结构数据库常保存为下面哪一种格式为后缀的文件() [单选题]11. 进行多序列对比常使用哪种软件() [单选题]12. 对于蛋白质同源结构模建,通常要求待模建序列与模板序列一致性超过()[单选题]13. 5人类基因组大小大约是多少Mb() [单选题]14. 如果有一段DNA序列,它可能编码多少种蛋白质序列() [单选题]15. UTR的含义是() [单选题]16. 如果你需要查询文献信息,下列哪个数据库是你最佳选择() [单选题]17. 给定一段核酸序列,可通过什么方法查找上面蛋白质编码区() [单选题]18. 构建进化树最直接的错误来源是() [单选题]19. 1初级序列数据库 [填空题]_________________________________(答案:undefined) 20. 2,OMIM是 [填空题]_________________________________(答案:undefined) 21. 1常用的序列搜索方法 [填空题]_________________________________(答案:undefined) 22. 2人类基因组计划完成的四张图是 [填空题]_________________________________(答案:undefined) 23. 3系统发育树的构建方法 [填空题]_________________________________(答案:undefined) 24. 4系统发育树的两个特征是 [填空题]_________________________________(答案:undefined) 25. 5初级序列数据库是 [填空题]_________________________________(答案:undefined) 26. 6蛋白质二级结构的三种状态 [填空题]_________________________________(答案:undefined)。
■一、选择题:1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280 D. AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C. LocusLink D. PCR3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D. HTGS5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■PubMed D. PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变: A. 丙氨酸B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80% D. 250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
生物信息考试题及答案一、选择题(每题2分,共10分)1. 以下哪项不是生物信息学的主要研究内容?A. 基因组序列分析B. 蛋白质结构预测C. 疾病诊断D. 植物遗传育种答案:C2. 人类基因组计划的主要目标是什么?A. 确定人类基因组中所有基因的位置和序列B. 研究人类基因的表达调控机制C. 研究人类基因的进化历史D. 研究人类基因与疾病的关系答案:A3. 在生物信息学中,以下哪种算法常用于序列比对?A. BLASTB. PCRC. RT-PCRD. ELISA答案:A4. 以下哪种数据库不是生物信息学数据库?A. GenBankB. PDBC. PubMedD. Google Scholar答案:D5. 以下哪种生物信息学工具用于蛋白质结构和功能预测?A. SWISS-PROTB. PDBC. ExPASyD. PubMed答案:C二、填空题(每题2分,共10分)1. 生物信息学是利用__________技术处理和分析生物数据的学科。
答案:计算机2. 基因组学是研究__________的科学。
答案:基因组3. 转录组学是研究细胞中所有__________的表达模式。
答案:RNA分子4. 蛋白质组学是研究细胞中所有__________的组成和功能。
答案:蛋白质5. 生物信息学中的序列比对是指将两个或多个生物序列(如DNA、RNA 或蛋白质序列)进行__________,以识别它们之间的同源性或差异性。
答案:对齐三、简答题(每题10分,共20分)1. 简述生物信息学在医学研究中的应用。
答案:生物信息学在医学研究中的应用包括疾病的基因诊断、药物靶点的发现、个性化医疗的发展、疾病风险评估以及疫苗设计等。
通过分析大量的基因组、转录组和蛋白质组数据,生物信息学有助于揭示疾病的分子机制,发现新的生物标志物,以及开发新的治疗方法。
2. 描述生物信息学在农业研究中的作用。
答案:生物信息学在农业研究中的作用体现在作物基因组的解析、优良性状基因的发掘、病虫害抗性基因的鉴定、作物改良策略的制定以及农业生产的精准化管理等方面。
生物信息试题及答案考题一:1. 什么是生物信息学?生物信息学是一门综合学科,它融合了生物学、计算机科学和统计学等领域的知识和技术,旨在通过对生物序列、结构、功能和进化等信息的收集、管理、分析和应用,揭示生命现象和生物体的特性。
2. 生物信息学在生物研究中的应用有哪些?生物信息学在生物研究中有多种应用,包括:- 基因组学研究:通过对基因组序列的分析,探索基因组结构和功能,识别基因、编码蛋白质和非编码RNA等基因组元件。
- 转录组学研究:通过对转录组数据的分析,研究基因表达谱、异构剪切和转录调控等过程。
- 蛋白质组学研究:通过对蛋白质组数据的分析,研究蛋白质互作网络、翻译后修饰和蛋白质结构与功能等问题。
- 代谢组学研究:通过对代谢产物谱数据的分析,研究代谢途径、代谢物互作和生物样本间的代谢差异。
- 生物信息学工具开发:开发生物信息学软件和数据库,提供数据分析、可视化和挖掘的工具,并推动生物信息学的技术创新。
考题二:1. 生物序列中常见的两类序列是什么?生物序列中常见的两类序列是DNA序列和蛋白质序列。
2. 请简要解释DNA序列和蛋白质序列的意义。
DNA序列是生物遗传信息的载体,它决定了生物体的遗传特征和功能。
通过分析DNA序列,我们可以识别基因、预测基因功能,研究基因组结构和进化过程。
蛋白质序列是DNA翻译后产生的,蛋白质是生物体内多种生物学功能的主要执行者。
分析蛋白质序列可以预测蛋白质的结构和功能,从而理解生物体内蛋白质相互作用、代谢途径和信号传导等重要生物过程。
考题三:1. 什么是基因组学?基因组学是研究生物体基因组的学科,它包括了对基因组序列、结构、功能和进化等多个方面的研究。
基因组是一个生物体所有基因的集合,通过对基因组的研究,可以揭示生物体的遗传信息和特征。
2. 基因组学研究的主要内容有哪些?基因组学研究的主要内容包括以下几个方面:- 基因组测序:通过高通量测序技术,获取生物体基因组的序列信息。
生物信息试题及答案一、选择题(每题2分,共20分)1. 生物信息学的主要研究对象是()。
A. 蛋白质结构B. 基因组序列C. 细胞信号传导D. 生物分子相互作用答案:B2. 以下哪项不是生物信息学的主要任务?()A. 基因预测B. 蛋白质功能预测C. 疾病诊断D. 植物分类学研究答案:D3. 人类基因组计划的主要目标是()。
A. 确定人类基因组中的所有基因B. 确定人类基因组中的所有蛋白质C. 确定人类基因组中的所有核苷酸序列D. 确定人类基因组中的所有代谢途径答案:C4. 以下哪种生物信息数据库不是公共数据库?()A. GenBankB. Swiss-ProtC. PDBD. Myriad Genetics答案:D5. 在生物信息学中,BLAST是一种()。
A. 基因克隆技术B. 基因表达分析软件C. 序列比对工具D. 蛋白质结构预测方法答案:C6. 以下哪种序列分析方法不适用于大规模基因组数据?()A. 多重序列比对B. 单序列比对C. 基因预测D. 基因家族分析答案:B7. 以下哪种技术不是用于蛋白质结构预测的?()A. 同源建模B. 从头预测C. 基因克隆D. 蛋白质折叠模拟答案:C8. 以下哪种生物信息学工具主要用于蛋白质功能预测?()A. PfamB. BLASTC. ClustalWD. Swiss-Prot答案:A9. 以下哪种生物信息学数据库专门存储蛋白质结构数据?()A. GenBankB. Swiss-ProtC. PDBD. KEGG答案:C10. 在生物信息学中,以下哪种数据类型不是高通量数据?()A. 基因表达数据B. 蛋白质组数据C. 代谢组数据D. 单个基因序列答案:D二、填空题(每题2分,共20分)1. 生物信息学是应用__________和__________技术,研究生物大分子结构、功能和相互作用的科学。
答案:计算机;信息技术2. 人类基因组计划完成于__________年。
一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
《生物信息学》练习题及答案1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2;protein2:NP_187969.1;protein3: NP_190855.1;protein4:NP_565618.1;protein5: NP_200511.1;protein6:NP_191407.1(以FASTA格式)。
(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。
序列比对结果比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。
(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。
1.将蛋白序列保存为FASTA格式,存于txt文档;2.用Clustalx打开txt文本,保存为*.phy文件;3.用seqboot程序打开phy文件,输出结果文件*_seqboot4.用protdist程序打开*_seqboot文件,输出为*_protdist文件5.用neighbor程序打开*_protdist文件,输出为*_neighbor 文件6.用consense程序打开*_neighbor文件,输出为*_consense 文件7.用dratree程序打开*_consense文件得到进化树。
(注:由于seqboot软见无法正常运行,因此进化树无法显示)(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。
选择protein3:NP_190855.1一级结构网址:/doc/479b86d06edb6f1afe001f6e.html /tools/protparam.htmlNumber of amino acids:456氨基酸数目Molecular weight:51154.5相对分子质量Theoretical pI:8.69理论pI值Amino acid composition氨基酸组成Ala(A)306.6%Arg(R)286.1%Asn(N)153.3%Asp(D)275.9%Cys(C)51.1%Gln(Q)183.9%Glu(E)286.1%Gly(G)378.1%His(H)163.5%Ile(I)163.5%Leu(L)429.2%Lys(K)327.0%Met(M)51.1%Phe(F)173.7%Pro(P)163.5%Ser(S)4610.1%Thr(T)214.6%Trp(W)81.8%Tyr(Y)194.2%Val(V)306.6%Pyl(O)00.0%Sec(U)00.0%(B)00.0%(Z)00.0%(X)00.0%正/负电荷残基数Total number of negatively charged residues(Asp+Glu): 55Total number of positively charged residues(Arg+Lys): 60Atomic composition:原子组成Carbon C2270Hydrogen H3531Nitrogen N645Oxygen O686Sulfur S10Formula:C2270H3531N645O686S10分子式Total number of atoms:7142总原子数Extinction coefficients:消光系数Extinction coefficients are in units of M-1cm-1,at280 nm measured in water.Ext.coefficient72560Abs0.1%(=1g/l)1.418,assuming all pairs of Cys residues form cystines Ext.coefficient72310Abs0.1%(=1g/l) 1.414,assuming all Cys residues are reducedEstimated half-life:半衰期The N-terminal of the sequence considered is M(Met). The estimated half-life is:30hours(mammalian reticulocytes,in vitro).>20hours(yeast,in vivo).>10hours(Escherichia coli,in vivo).Instability index:不稳定系数The instability index(II)is computed to be48.99This classifies the protein as unstable.Aliphatic index:75.26脂肪系数Grand average of hydropathicity(GRAVY):-0.554总平均亲水性蛋白质亲疏水性分析所用氨基酸标度信息Ala:1.800Arg:-4.500Asn:-3.500Asp:-3.500Cys:2.500 Gln:-3.500Glu:-3.500Gly:-0.400His:-3.200Ile:4.500 Leu:3.800Lys:-3.900Met:1.900Phe:2.800Pro:-1.600 Ser:-0.800Thr:-0.700Trp:-0.900Tyr:-1.300Val: 4.200:-3.500:-3.500:-0.490分析所用参数信息Weights for window positions1,..,9,using linear weight variation model:1234567891.001.001.001.001.001.001.001.001.00edge center edge跨膜结构预测结果(没有跨膜结构)信号肽分析:二级结构预测三级结构预测网站/doc/479b86d06edb6f1afe001f6e.html/~phyre2、在拟南芥基因组数据库中(/doc/479b86d06edb6f1afe001f6e.ht ml/)查找编号分别为At4G33050,At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。
物信息学试题 '0—
GE GROUP system office room [GEIHUA16H-GEIHUA GEIHUA8Q8-UTR的含义是(B ) o motif的含义是(D)。 algorithm 的含义是(B )。 RGP 是(D ) o
A.编码区 B.非编码区 C低复杂度区域 D.开放阅读框 A.基序 B.跨叠克隆群 C.碱基对 D.结构域 A.登录号 B.算法 C. 比对 D.类推
A.在线人类孟德尔遗传数据 B.国家核酸数据库 C.人类基因组计划 D.水稻基因组计划
下列Fasta格式正确的是(B )。 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seql agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seql:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seqlagcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) o A. UniGene B. UniPro C. UniRef D. URF
mRNA 5Z端有(A )结构。 A.帽子 B.尾巴 C.帽子和尾巴 D.多聚核甘酸 利用中国知网文献数据库(中国知网)查找论文题目是“扩张蛋白家族蛋白序列分 析”发表在期刊“生物信息学” 2008年第7卷第3期上(C) o
A.第 3-5 页 B.第 93-95 页 C.第 193-195 页 D.第 293-295 页 目前应用于基因芯片表达数据统计分析的主要方法是(C) O A.卡方检验 B.相关分析 C.聚类分析 D.正态性分布检验 SAGE的含义是(A )。 A.基因表达连续分析 B.聚丙烯酰胺凝胶电泳 C.基因组分析 D.双 向电泳分析
domain的含义是(D)。 A.基序 B.跨叠克隆群 C.碱基对 D.结构域 mRNA 3,端有(B )结构。 A.帽子 B.尾巴 C.帽子和尾巴 D.多聚胞喀咤 NCBI中人类无冗余基因数据库是(A ) o alignment 的含义是(C)。 A. BLAST B. ClustalW C. Mega D. GCG
A.登录号 B.算法 C,比对 D.类推 Entrez使用儿种逻辑运算符对检索关键词做最基本的限制(C) A. 1种 B. 2种 C. 3种 D. 4种 微卫星标记是(C)。 A. RFLP B. SNP C. SSR D. RAPD 提交序列到GenBank中,使用的程序可以是(D )。 A. Entrez B. SRS C. Medline D. Bankit PDB是蛋白质的(B) o A.分类数据库 B.结构数据库 C.模体数据库 D.结构域数据库 限制性片段长度多态性标记是(A ) o A. RFLP B. SNP C. SSR D. RAPD CDS的含义是(A)。 A.编码区 B.非编码区 C.低复杂度区域 D.非调控区 构建进化树工具是(C)。analogy的含义是(D)。 A.登录号 B.算法 C,比对 D.类推 在真核生物中,一个基因cDNA的5,端起始密码子AUG的前后序列符合(A)规 则。 A. Kozak B. AU-AG C. SD D. Poly (A) n 将核酸序列按照6条链翻译成蛋白质序列后搜索蛋白质序列数据库使用的程序是 (B ) o
A. blastp B. blastx C. tblastn D. tblastx 利用 PubMed 文献数据查找论文 aTransgenic plants of Petunia hybrida harboring the CYP2E1 gene efficiently remove benzene and toluene pollutants and improve resistance to formaldehyden 的第~.作者是(D)。
A. Xiang T B. Bao L C. Li P D. Zhang D 基本局部比对搜素工具是(C ) o A. Mega B. ClustalW C. BLAST D. GCG 被誉为“生物信息学之父”的科学家是(D ) o A. Dulbecco B. Sanger C.吴瑞 D.林华安 DDBJ的含义是(C)。 A.美国国家生物信息中心 B.欧洲分子生物学实验室 C.日本DNA数据库 D.中国基因组研究中心 利用PubMed文献数据查找发表在“Nature, 2012, 487(7405): 43-45”上的论文 题目是(D) o
A. A map of the cis-regulatory sequences in the mouse genome B. The human CST complex is a terminator of telomerase activity C. Tumours: Less lactation may explain cancer rise D. Stem cells: a sporadic super state 利用 PubMed 文献数据查找论文 uCancer epigenetics: from mechanism to therapy”作者的单位是(C )。
A. University of California B. University of Columbia C. University of Cambridge D. University of Chicago 单核甘酸标记是(A)。 A. RFLP B. SNP C. SSR D. RAPD GenBank数据库的基本信息单位是(B )。 A. FASTA B. GBFF C. GCG D. ASN. 1A.天津市黄瓜研究所 B.中国农业科学院 C.中国科学院 D.中国农业
OMIM 是(A ) o A.在线人类孟德尔遗传数据库 B.国家核酸数据库 C.人类基因组计划 D.水稻基因组计划
accession number 的含义是(A )。 EST的含义是(A ) o A.表达序列标签 B.序列标签位点 C.高通量基因组序列 D.人工合 成序列
利用中国知网文献数据库(中国知网)查找论文题目是“黄瓜对不同温度逆境的抗 性研究”作者的单位是(A) o
大学
多序列比对工具是(B) o A. BLAST B. ClustalW EMBL的含义是(B) o A.美国国家生物信息中心 C. 口本DNA数据库
C. Mega D. GCG B.欧洲分子生物学实验室 D.中国国家基因组研究中心
A.登录号 B.算法 C.比对 D.类推 没有直接参与完成人类基因组计划的国家是(C ) O A.英国 B.中国 C.俄罗斯 D.德国 Blast结果中HSP的含义是(D) o A.空位 B.期望值 C.过滤 D.高分配对片段 GenBank登录号为SCU49845的序列,其DNA产度是(D)。 A. 1028 bp B. 3028 bp C. 4028 bp D. 5028 bp GenBank数据库中的登录号AAR19268是(A )。 A.水稻的DNA序列 B.水稻的蛋白质序列 C.人类的DNA序列 D.人类 的蛋白质序列
在真核生物的一个基因内含子两端,即外显子/内含子拼接边界处,其符合(B ) 规则。
A. Kozak B. AU--AG C. SD D. Poly (A) n 蛋白质信号肽的预测工具有(D) o A. nnpredict B. PredictProtein C. SingalD D. SingalP base pair的含义是(C )。 A.基序 B.跨叠克隆群 C.碱基对 D.结构域 A.曹辰兴 B.张松 C,郭红芸 D.郭延奎
Proteomics 的含义是(C ) o A.生物信息学 B.基因组学 C.蛋白质组学 D.表观遗传学 根据大量EST具有相互重叠的性质,通过计算机算法获得cDNA全长序列,这种克 隆基因的方法是(B ) o
A.重叠克隆 B.电子克隆 C.基因步移 D.基因重组 隐马尔科夫模型的代号是(A) o A. HMM B. CDD C. HTGS D. GSS Entrez数据库中的剪贴板的容量是(A )。 A. 500条记录 B. 1000条记录 C. 5000条记录 D. 10000条记录 UTR的含义是(B ) o A.编码区 B.非编码区 C.低复杂度区域 D.开放阅读框 GenBank 是(B)。 A.在线人类孟德尔遗传数据 B.国际核酸数据库 C.人类基因组计划 D.水稻基因组计划
利用中国知网文献数据库(中国知网)查找论文题目是“黄瓜无毛突变体叶片叶绿 A.曹辰兴 B.张松 C,郭红芸 D.郭延奎
体超微结构与光合特性”第一作者是(A ) o