转抗菌肽基因辣椒蛋白质检测技术研究
- 格式:pdf
- 大小:212.62 KB
- 文档页数:4
抗菌肽作为抗菌药物研究的新方向抗菌肽是一类天然存在于动物和植物中的小分子蛋白质,具有广谱抗菌活性。
近年来,随着抗生素耐药性的不断增加,对新型抗菌药物的需求越来越迫切。
在此背景下,研究人员开始将目光投向抗菌肽,探索其作为抗菌药物的潜力。
抗菌肽作为抗菌药物研究的新方向,具有很大的发展前景。
首先,抗菌肽具有广谱抗菌活性。
与传统的抗生素相比,抗菌肽可以同时作用于多种病原微生物,包括细菌、真菌和病毒等。
这一特性使抗菌肽成为一种潜在的替代抗生素的选择,尤其是对于多种耐药菌株。
此外,研究表明,抗菌肽还可以通过与生物膜相互作用,增强对细菌的杀菌效果。
这使得抗菌肽具有抗生素之外的独特优势。
其次,抗菌肽具有较低的耐药性发展潜力。
抗生素耐药性是当今医学领域面临的一个重要挑战。
研究发现,抗菌肽对于细菌产生耐药性的能力较低。
这是由于抗菌肽通过干扰细菌的膜结构、靶向细胞的关键蛋白和DNA等多种机制发挥抗菌作用,使得细菌难以产生有效的抗药机制。
这一特点使得抗菌肽成为发展新型抗菌药物的一个有利方向。
第三,抗菌肽具有较低的毒性和较高的生物活性。
与一些传统的抗生素相比,抗菌肽具有较低的毒性。
抗菌肽能够选择性地作用于细菌细胞膜或其他特定靶点,同时对宿主细胞的毒性较低。
这就意味着更少的副作用和更高的安全性。
另外,抗菌肽还具有更高的生物活性,即使在低浓度下也能发挥良好的抗菌效果。
这为抗菌肽的临床应用提供了更为广阔的可能性。
最后,利用基因工程技术对抗菌肽进行改良和优化,可以进一步提高其抗菌效果和稳定性。
研究人员通过改变抗菌肽的氨基酸序列,可以获得具有更高抗菌活性和更低毒性的新型抗菌肽。
此外,通过改变抗菌肽的化学结构、合成修饰等手段,可以改善其稳定性和生物利用度。
这些技术手段的不断发展,将进一步推动抗菌肽作为抗菌药物的研究和开发。
综上所述,抗菌肽作为抗菌药物研究的新方向,具有广泛的应用前景。
其广谱抗菌活性、较低的耐药性发展潜力、较低的毒性和较高的生物活性,使其成为抗生素替代品的潜在选择。
生物信息学方法鉴定和验证新型抗菌肽引言随着抗生素耐药性的日益严重,寻找新型抗菌剂成为了当前生命科学研究领域的重要课题之一。
而生物信息学方法的综合应用为寻找并验证新型抗菌肽提供了一种高效的解决方案。
本文将介绍生物信息学在鉴定和验证新型抗菌肽方面的方法,并讨论其应用的潜力和限制。
鉴定新型抗菌肽的生物信息学方法1. 序列分析序列分析是生物信息学中最基础的方法之一。
通过分析已知抗菌肽的氨基酸序列,构建肽段频率、保守性、衍生标签等模型,并将这些模型应用于未知序列的预测。
同时,可以使用多序列比对方法来确定与已知抗菌肽相似的序列,以发现新型抗菌肽候选物。
2. 结构预测结合序列分析的结果,生物信息学方法还能预测新型抗菌肽的结构信息。
通过物理化学性质和二级结构的推测,可以预测抗菌肽的折叠方式、α-螺旋、β-折叠等结构特征。
这种结构信息有助于了解抗菌肽的抗菌机制和调控机制,并对新型抗菌肽的设计和优化提供理论基础。
3. 基因组分析基因组分析是高通量生物信息学方法的一种应用。
通过整合已知抗菌肽的基因组学数据,并结合不同物种的基因组数据,鉴定潜在的新型抗菌肽基因家族。
通过比较基因的编码区和启动子的特征,可以推测新型抗菌肽的转录调控机制。
验证新型抗菌肽的生物信息学方法1. 模拟和动力学研究利用分子动力学模拟和蛋白质折叠算法,可以预测抗菌肽与膜蛋白的相互作用方式。
通过模拟抗菌肽与膜蛋白结合的能量和稳定性,可以验证其抗菌活性和选择性。
这种方法可以为抗菌肽的设计和优化提供理论指导。
2. 抗菌活性测定通过体外实验,如最小抑菌浓度(MIC)、最小杀菌浓度(MBC)和抑制区域直径,可以测试新型抗菌肽对不同细菌的抗菌活性。
与已知抗菌肽进行比较,验证其抗菌效果和选择性。
同时,可以使用荧光探针和流式细胞术等技术,了解新型抗菌肽与细菌的作用机制。
3. 生物分子互作网络分析通过构建抗菌肽与靶点、代谢途径、细胞信号传导等生物分子的互作网络,可以揭示抗菌肽的多靶点作用机制。
辣椒小G蛋白CaROP的生物信息学分析马思洁;朱天生;何璐;杨叔青【期刊名称】《新疆农业科学》【年(卷),期】2024(61)1【摘要】【目的】研究辣椒内小G蛋白CaROP的生物学功能、蛋白理化性质、蛋白结构及系统发育关系。
【方法】运用ProtParam、ProtScale、SignalP5.0、TMHMM、NetPhos3.1和NetCGlyc1.0等生物信息学软件分析9个CaROP蛋白的蛋白理化特性;运用SOPMA和SWISS-MODEL等生物信息学软件预测分析9个CaROP蛋白的结构;运用生物信息学软件MEGA11分析9个CaROP蛋白的系统发育关系。
【结果】9个CaROP蛋白的亲水性总平均值均小于0,均为亲水蛋白,其中6个为稳定的亲水蛋白;9个CaROP蛋白均无信号肽,即均为非分泌性蛋白;9个CaROP蛋白无跨膜结构域,即均非膜蛋白;9个CaROP蛋白均存在磷酸化位点,均无糖基化位点。
9个CaROP蛋白的主要二级结构原件为无规则卷曲和α-螺旋,其次是β-折叠,最后是β-转角。
9个CaROP蛋白聚为4个分支,其中分支Ⅰ和分支Ⅲ各包括1个CaROP蛋白。
分支Ⅱ包括2个CaROP蛋白,其余5个CaROP蛋白均聚于分支Ⅳ中。
【结论】9个CaROP蛋白具有完整的Rho功能域,均为非分泌性亲水蛋白。
9个CaROP蛋白在系统进化树中共聚为了4个分支,其三级结构建模的预测结果也均较为理想,9个CaROP蛋白结构较稳定。
【总页数】11页(P165-175)【作者】马思洁;朱天生;何璐;杨叔青【作者单位】塔里木大学农学院;南疆农业有害生物综合治理兵团重点实验室【正文语种】中文【中图分类】S641.3;S188【相关文献】1.家蝇小热休克蛋白(sHsp20.6)的生物信息学分析2.白蛾周氏啮小蜂气味结合蛋白CcOBP3的生物信息学分析3.小立碗藓扩展蛋白基因家族的鉴定与生物信息学分析4.日本血吸虫小蛋白型多药物/代谢物排出蛋白样基因(SMR-like)的发掘和生物信息学分析5.菜小G蛋白BvRab基因家族的全基因组鉴定及生物信息学分析因版权原因,仅展示原文概要,查看原文内容请购买。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910169731.1(22)申请日 2019.03.06(71)申请人 江苏丘陵地区镇江农业科学研究所地址 212400 江苏省镇江市句容市华阳镇弘景路1号江苏丘陵地区镇江农业科学研究所(72)发明人 孙国胜 张昌伟 马志虎 许可翠 戴忠良 (74)专利代理机构 南京申云知识产权代理事务所(普通合伙) 32274代理人 王云(51)Int.Cl.C12N 15/82(2006.01)A01H 5/00(2018.01)A01H 6/82(2018.01)(54)发明名称一种辣椒CRISPR-Cas9基因编辑方法及其应用(57)摘要本发明公开了一种辣椒CRISPR/Cas9基因编辑方法及应用,属于基因编辑技术领域。
首先设计s g R N A 引物M M D 1C a C R I S P R -C a s 9-F 和MMD1CaCRISPR -Cas9-R,构建辣椒基因编辑载体;利用植物花粉纳米磁转化技术介导转化,实现对辣椒的基因编辑。
本发明首次在辣椒中使用植物花粉纳米磁转化技术作为基因编辑的转化方法,并通过CRISPR/Cas9基因编辑技术获得单基因敲除突变植株,突变率达到60%;为后续多基因敲除,基因片段插入、替换等奠定技术基础。
权利要求书1页 说明书3页 附图2页CN 109722446 A 2019.05.07C N 109722446A权 利 要 求 书1/1页CN 109722446 A1.一种辣椒C R I S P R-C a s9基因编辑方法,其特征在于,首先设计s g R N A引物MMD1CaCRISPR-Cas9-F和MMD1CaCRISPR-Cas9-R,构建辣椒基因编辑载体;利用植物花粉纳米磁转化技术介导转化,实现对辣椒的基因编辑。
2.根据权利要求1所述的一种辣椒CRISPR-Cas9基因编辑方法,其特征在于,包括以下步骤:(1)构建辣椒基因花粉纳米磁转化介导转化载体MMD1CaCRISPR-Cas9载体;(2)将载体质粒DNA、纳米磁珠、花粉培养基、辣椒花粉混合后进行磁转化,得到磁转化花粉;(3)将磁转化花粉晾干后,进行人工授粉;(4)收取转化种子后,播种进行鉴定。
抗菌肽工程中心设计方案一、项目背景抗菌肽是一类具有广泛抗菌活性的生物分子,能够对多种细菌、真菌和病毒进行杀灭和抑制,并且具有低毒性、不易产生耐药性等优点。
随着抗生素耐药性的增加以及传染病的频繁发生,寻找新的抗菌药物成为当前的研究热点之一。
抗菌肽的研究与应用已成为生物医药和农业领域的重要课题,因此,建立一所专门从事抗菌肽工程研究的中心成为了迫切需要。
二、中心定位抗菌肽工程中心是一个集科研开发、技术转化和产业培育于一体的综合性研究机构。
中心的定位是面向国内外广泛的医疗、医药、农业等行业,致力于抗菌肽相关领域的前沿研究和技术创新,推动抗菌肽工程技术在产业中的应用,促进相关领域的发展。
三、中心设施1. 实验室中心拥有一流的实验室设施,包括细菌培养室、真菌培养室、生物制剂实验室、蛋白质表达实验室、抗菌活性测定室等多个功能齐全的实验室。
实验室的风险评估和安全设施齐备,能够满足不同研究项目的需求。
2. 仪器设备中心配备了先进的实验仪器和设备,包括基因合成仪、蛋白质纯化仪、质谱仪、透射电镜、荧光显微镜、高通量测序仪等。
这些设备能够满足从基础研究到产品开发的各个阶段的需要。
3. 办公区中心设有专门的办公区,配备了先进的信息技术设备和专业的软件工具,为科研人员提供良好的科研环境和高效的科研支持。
四、中心研究方向1. 抗菌肽的设计与合成中心将着重开展抗菌肽的设计与合成研究,包括基于天然抗菌肽的改造与优化、人工设计抗菌肽分子等方面的工作,目标是开发出更高效、更稳定的抗菌肽分子。
2. 抗菌肽的转基因研究中心将开展抗菌肽在作物、家畜等生物中的转基因研究,以期提高农作物和家畜的抗菌能力,从而降低疾病发生的风险。
3. 抗菌肽的应用研究中心将进行抗菌肽在医药、医疗器械、保健品、农药、兽药等领域的应用研究,以推动抗菌肽技术的产业化应用。
五、中心建设方案1. 人才引进中心将引进国内外优秀的抗菌肽研究团队和专家学者,组建具有国际水平的研究团队,培养和引进高层次科研人才,为中心的长期发展奠定人才基础。
转基因检测原理在当今的科技领域,转基因技术的应用日益广泛,而与之相伴的是对转基因产品进行准确检测的重要性。
转基因检测不仅关乎食品安全,还涉及到环境保护、贸易公平等诸多方面。
那么,转基因检测的原理究竟是什么呢?要理解转基因检测的原理,首先得明白转基因是什么。
转基因,简单来说,就是将一种生物的基因片段转移到另一种生物的基因组中,从而赋予后者新的特性或功能。
而转基因检测,就是要找出这些被引入的外来基因片段或者由其产生的特定蛋白质。
目前,转基因检测主要基于两种基本原理:核酸检测和蛋白质检测。
核酸检测就像是在一个庞大的基因图书馆中寻找特定的一本书。
我们知道,基因是由核酸组成的,包括脱氧核糖核酸(DNA)和核糖核酸(RNA)。
在转基因生物中,会存在特定的外来基因片段。
检测人员通过提取被检测样品中的核酸,然后利用各种分子生物学技术来检测这些外来基因片段是否存在。
其中,最常用的核酸检测方法之一是聚合酶链式反应(PCR)。
PCR 就像是一个基因的复制机器,它能将特定的基因片段大量扩增,从而使原本微量的基因变得容易检测到。
检测人员设计出与转基因序列互补的引物,如果样品中存在目标转基因序列,PCR 反应就能成功进行,产生大量的扩增产物。
通过检测这些扩增产物,就能判断样品是否为转基因。
另一种核酸检测方法是基因芯片技术。
这就好比是一个基因的大拼盘,将大量不同的基因片段固定在芯片上。
当被检测的核酸与芯片上的特定基因片段互补结合时,就能检测出转基因的存在。
除了核酸检测,蛋白质检测也是转基因检测的重要手段。
因为基因表达的最终产物往往是蛋白质,检测特定的蛋白质也能间接证明转基因的存在。
例如,酶联免疫吸附测定(ELISA)就是一种常用的蛋白质检测方法。
它利用抗体与抗原的特异性结合来检测目标蛋白质。
检测人员先制备针对转基因产生的特定蛋白质的抗体,然后将样品与抗体混合。
如果样品中存在目标蛋白质,抗体就会与之结合,通过一系列的显色反应,就能判断样品是否含有转基因成分。
转基因检测的主要技术方法及基本流程下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。
文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!本店铺为大家提供各种类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you! In addition, this shop provides you with various types of practical materials, such as educational essays, diary appreciation, sentence excerpts, ancient poems, classic articles, topic composition, work summary, word parsing, copy excerpts, other materials and so on, want to know different data formats and writing methods, please pay attention!转基因检测的主要技术方法及基本流程在现代生物技术的发展中,转基因检测成为了一项重要的技术,它可以用来检测食品、农作物和生物体中是否含有外源性基因,从而保证食品安全和生态环境的稳定。
一、摘要抗菌肽是一类具有广谱抗菌活性的小分子肽,具有高效、低毒、不易产生耐药性等优点。
本实验旨在通过高效液相色谱(HPLC)技术分离纯化抗菌肽,并通过抑菌圈法测定其抗菌活性。
实验结果表明,成功分离纯化了抗菌肽,并测定了其最小抑菌浓度(MIC)。
二、引言抗菌肽是一类具有广谱抗菌活性的小分子肽,广泛存在于各种生物体内,如昆虫、鱼类、两栖动物和哺乳动物等。
抗菌肽具有高效、低毒、不易产生耐药性等优点,因此在抗菌药物的研究和开发中具有广阔的应用前景。
本实验通过HPLC技术分离纯化抗菌肽,并对其抗菌活性进行测定。
三、实验材料与方法1. 实验材料抗菌肽粗提物:购自某生物科技公司;金黄色葡萄球菌、大肠杆菌、白色念珠菌:购自某微生物研究所;甲醇、乙腈:色谱纯;其他试剂:分析纯。
2. 实验仪器高效液相色谱仪(HPLC):某品牌;细菌培养箱:某品牌;无菌操作台:某品牌;电子天平:某品牌;抑菌圈测定仪:某品牌。
3. 实验方法(1)抗菌肽的分离纯化将抗菌肽粗提物溶解于适量甲醇中,采用反相高效液相色谱法进行分离纯化。
色谱柱:C18柱(4.6×250mm,5μm);流动相:乙腈-水(梯度洗脱);流速:1.0mL/min;检测波长:215nm。
(2)抗菌活性的测定采用抑菌圈法测定抗菌肽的抗菌活性。
将金黄色葡萄球菌、大肠杆菌、白色念珠菌分别接种于琼脂平板上,待菌落长成后,将抗菌肽溶液滴加于平板上,37℃恒温培养24小时,观察抑菌圈的大小。
四、实验结果与分析1. 抗菌肽的分离纯化通过HPLC技术分离纯化抗菌肽,得到单一峰,证明抗菌肽已成功分离纯化。
2. 抗菌活性的测定(1)金黄色葡萄球菌抗菌肽对金黄色葡萄球菌的MIC为10-7mol/L,抑菌圈直径为16mm。
(2)大肠杆菌抗菌肽对大肠杆菌的MIC为10-6mol/L,抑菌圈直径为15mm。
(3)白色念珠菌抗菌肽对白色念珠菌的MIC为10-6mol/L,抑菌圈直径为14mm。
㊀㊀㊀㊀㊀㊀㊀㊀㊀2024年4月第39卷第2期JOURNAL OF LIGHT INDUSTRY㊀Vol.39No.2Apr.2024㊀收稿日期:2023-10-19;修回日期:2024-01-25;出版日期:2024-04-15基金项目:国家自然科学基金青年科学基金项目(32101976,61906175);河南省科技攻关项目(232102210020,20210221014);河南省高等学校重点科研项目(22A520013,23B520004)作者简介:王晓(1982 ),男,河南省卫辉市人,郑州轻工业大学副教授,博士,主要研究方向为人工智能㊁生物信息学和食品信息学㊂E-mail :wangxiao@.cn王晓,吴洲,王宏伟,等.基于深度学习和蛋白质语言模型的抗菌肽预测模型研究[J].轻工学报,2024,39(2):12-18.WANG X,WU Z,WANG H W,et al.Research on antimicrobial peptide prediction model based on deep learning and protein language model[J].Journal of Light Industry,2024,39(2):12-18.DOI:10.12187/2024.02.002基于深度学习和蛋白质语言模型的抗菌肽预测模型研究王晓1,2,吴洲1,王宏伟3,王榕4,陈浩然11.郑州轻工业大学计算机科学与技术学院,河南郑州450001;2.河南省食品安全数据智能重点实验室,河南郑州450001;3.郑州轻工业大学食品与生物工程学院,河南郑州450001;4.郑州轻工业大学电子信息学院,河南郑州450001摘要:针对目前已有抗菌肽(Antimicrobial Peptides ,AMPs )预测模型的准确度(ACC )仍有待提高的问题,提出一种新的基于深度学习和蛋白质语言模型的抗菌肽预测模型DeepGlap ,该模型分别采用两个蛋白质语言模型对抗菌肽序列进行特征提取,将提取的特征向量融合后输入由多层双向长短记忆网络(mBi-LSTM )㊁一维卷积神经网络(1D-CNN )和注意力机制组成的深度学习网络中,并进行性能评估与优化㊂结果表明:该模型的ACC ㊁皮尔逊相关系数(MCC )和曲线下的面积(AUC )分别为0.739㊁0.489和0.81,优于已有抗菌肽预测模型的预测效果㊂关键词:抗菌肽;预测模型;食源性病原体;蛋白质语言模型;深度学习网络中图分类号:TS201.2;TP399㊀㊀文献标识码:A㊀㊀文章编号:2096-1553(2024)02-0012-070 引言食源性病原体是导致食品安全问题的重要来源之一,研究[1]表明,在畜禽养殖过程中使用抗生素会产生具有耐药性的人畜共患食源性病原体㊂抗菌肽(Antimicrobial Peptides,AMPs)作为抗生素的一种潜在替代品,是一类广泛存在于动植物体内的具有抗菌活性的小分子蛋白质或多肽,通过破坏细胞膜㊁干扰蛋白质合成㊁促使微生物发生自我毁灭等方式杀灭细菌㊁真菌㊁病毒等微生物或抑制这些微生物生长繁殖[2]㊂抗菌肽的鉴别有助于减轻抗生素依赖,降低因畜禽养殖过度使用抗生素而带来的耐药性病原体风险,对于研发新型抗菌剂㊁有效保障食品安全和维护公共健康具有重要意义㊂然而,通过湿实验来鉴别抗菌肽操作复杂,且耗费大量的时间与资源[3],因此有必要借助现代计算科学手段开发更高效的抗菌肽预测模型㊂目前,预测抗菌肽的计算方法主要有:1)传统的机器学习方法㊂其中,支持向量机㊁随机森林㊁XGBOOST 及集成学习都得到了广泛应用,如㊃21㊃㊀王晓,等:基于深度学习和蛋白质语言模型的抗菌肽预测模型研究ClassAMP使用随机森林和支持向量机实现了抗菌肽的预测[4];iAMPpred引入蛋白质序列的结构特征和理化性质,并与传统手工特征合并后输入支持向量机以进行抗菌肽的分类预测,可进一步提高抗菌肽的预测精度[5];IAMPE利用氨基酸的CNMR光谱提取特征向量,并与蛋白质的传统手工特征向量融合后输入支持向量机和随机森林来实现抗菌肽的分类预测,该方法获得了较好的预测精度[6];AMPfun 则通过提取序列的n-gram特征㊁AAC特征㊁理化性质等特征向量,并输入支持向量机中以实现抗菌肽的分类预测,进一步提高了抗菌肽的预测精度[7]㊂2)新型的机器学习方法㊂如iAMPCN通过不同的卷积神经网络(CNN)提取4种不同编码方法的特征向量,在实现抗菌肽分类预测的基础上,首次实现了抗菌肽的功能预测[8];sAMPpred-GAT使用图注意力机制,将结构特征引入深度学习网络中,进一步提高了抗菌肽的预测精度[9]㊂大语言模型是能够基于原有文本来预测下一个字符或词汇的一类神经网络,而蛋白质语言模型是大语言模型在生化领域的迁移应用,在输入蛋白质序列并学习序列中隐含的生化性质㊁结构信息等内在规律后,生成蛋白质的特征向量,这些特征向量可用于预测多种蛋白质属性㊂研究[10]表明,多种下游任务使用蛋白质语言模型进行预测,均取得了较好的效果㊂基于此,本文拟设计一种新的基于深度学习和蛋白质语言模型的抗菌肽预测模型DeepGlap,将两个蛋白质语言模型所生成的特征向量融合后,输入由多层双向长短记忆网络(mBi-LSTM)㊁一维卷积神经网络(1D-CNN)和注意力机制所组成的深度学习网络中,并对该模型的准确性进行验证,以期获得更好的抗菌肽预测效果㊂1㊀数据集与数据预处理迄今为止,已建立了大量的抗菌肽数据库,其中APD(Antimicrobial Peptide Database)作为早期建立的抗菌肽数据库之一,包含不同生物界(细菌㊁真菌㊁动物等)的抗菌肽数据,以及这些抗菌肽的分类㊁结构㊁活性等信息[11];LAMP(Linking Antimicro-bial Peptide)提供了各种生物体内外来源的抗菌肽序列信息,以及相关的文献引用和其他注释数据[12];CAMP(Collection of Anti-Microbial Peptides)汇集了来自不同物种的抗菌肽信息,包含各种结构分类信息[13];DBAASP(Database of Antimicrobial Activity and Structure of Peptides)是一个用于存储和提供抗菌肽信息的数据库,包括抗菌肽的序列㊁结构㊁抗菌活性㊁相关文献引用等信息[14];DRAMP (Data Repository of Antimicrobial Peptides)是一个综合的抗菌肽数据库,包含抗菌肽的结构数据㊁注释条目等[15];SATPdb(Database of Structurally Annotated Therapeutic Peptides)可提供大量的抗菌肽结构数据,其主要部分是通过计算工具预测获取的[16]㊂这些数据库的建立为研究人员提供了便利,有助于推动抗菌肽领域的深入研究㊂为了消除不同数据库数据分布不同所带来的影响,本文将一个综合基准评测数据集用于模型的训练和验证,该数据集包含了来自APD㊁LAMP㊁CAMP㊁DBAASP㊁DRAMP和SATPdb这6个数据库的抗菌肽和非抗菌肽数据㊂由于新数据库可能参考了较早数据库的数据,不同数据库之间的数据可能有重叠,因此本文采用CD-HIT工具[17]消除冗余数据,即当来自不同数据库的肽序列之间的相似度高于90%时,将其中一条数据删除㊂根据Y.Zhang 等[18]和K.Yan等[9]的研究,肽链过长可能会产生更复杂的结构,导致蛋白质难以合成,而肽链过短又可能无法包含足够的功能性位点或结构域,且在环境中易发生降解[19],故本文选择长度为10~100个氨基酸的序列,并删除包含非标准氨基酸(B,J,O, U)的序列,最终获得包含4550条抗菌肽和4550条非抗菌肽的基准评测数据集㊂本文采用CD-HIT工具删除独立测试集XUA-MP(包含1536条抗菌肽和1536条非抗菌肽)[19]与基准评测数据集中相似度高于90%的肽序列,确保数据的独立性,从而更客观地评价预测模型的泛化能力㊂2㊀特征提取传统手工特征提取方法通常依赖专家知识提取蛋白质序列的生化统计信息,无法全面准确地反映㊃31㊃㊀2024年4月第39卷第2期㊀蛋白质序列的复杂模式特征;而蛋白质语言模型通过无监督深度学习技术,学习数亿条蛋白质序列的复杂依赖关系和结构信息,可以全面准确地提取蛋白质序列的特征㊂因此,本文使用蛋白质语言模型Unirep和Protbert对抗菌肽序列分别进行特征提取,并将提取的特征向量进行融合,从而获得更全面的抗菌肽特征向量㊂2.1㊀Unirep蛋白质语言模型Unirep蛋白质语言模型采用长短时记忆网络(Long Short Memory Network,LSTM)作为基础架构,通过预测序列中下一个氨基酸值是否与真实氨基酸值相同,不断优化LSTM,最终使用多个LSTM的隐藏层单元平均值作为序列的特征向量㊂Unirep蛋白质语言模型使用多个图形处理器(Graphics Process-ing Unit,GPU),在UniRef50蛋白质数据库中约2400万条蛋白质序列上进行为期3周的训练[20],最终将不同长度的蛋白质序列映射为统一长度的1900维特征向量,通过这种方式可有效将具有较低统一性的蛋白质序列划分为结构相似性较高的类别㊂2.2㊀ProtBert蛋白质语言模型ProtBert蛋白质语言模型作为Transformer/ BERT架构的创新模型,使用来自BDF蛋白质数据库和UniRef50蛋白质数据库中超过2ˑ108条蛋白质序列进行广泛的训练,最终实现将不同长度的蛋白质序列映射为统一长度的1024维特征向量㊂该模型汲取了Transformer架构中的多头注意力机制,在较高水平全局特征的基础上能更加突出蛋白质序列的局部特征[21]㊂3㊀深度学习网络模型抗菌肽预测模型的预测流程为:首先,将抗菌肽序列分别输入蛋白质语言模型Unirep和ProtBert中,得到对应的1900维特征向量和1024维特征向量,并将这两个特征向量进行特征融合;随后,将融合的特征向量依次输入由mBi-LSTM㊁1D-CNN和注意力机制组成的深度学习网络中;最后,输入由Flatten操作㊁批归一化(Batch-Normalize)和Sigmoid 激活函数组成的输出层中,完成抗菌肽的分类预测㊂本文所提出的模型采用ReduceLROnPlateau动态学习率算法,该算法是深度学习框架PyTorch中的学习率调度器之一,可在训练过程中根据验证集上的性能指标动态调整学习率,如在验证集性能停止提升时降低学习率,以帮助模型更好地收敛㊂具体而言,当测试集的准确度(ACC)连续两个epoch 保持不变时,ReduceLROnPlateau动态学习率算法会将学习率调整为原学习率的0.7倍,直到达到最大epoch值为止㊂本文在模型训练过程中采用二分类交叉熵损失函数,损失(Loss)的计算方法如式①㊁式②所示㊂Loss=1NðN n=1l n①l n=y n㊃log x n+(1-y n)㊃log(1-x n)②式中,l n是单个样本的损失值,n是当前样本标号, N是样本数量,x n是模型输出,y n是真实标签㊂本文利用ADAM算法优化模型,批量大小为64,初始学习率为0.001,并采用十折交叉验证,每一折包含20个epoch㊂3.1㊀mBi-LSTM循环神经网络(Rerrent Neural Network,RNN)已广泛应用于处理时间序列和文本数据,但在处理较长序列数据时,存在无法提取序列的长期依赖的限制㊂为了解决这个问题,学者们将LSTM作为RNN的一种变体㊂LSTM引入细胞状态的概念,以保持前后时刻之间的信息流动,并通过遗忘门㊁输入门和输出门这3个门结构对输入信息和隐藏状态进行调控㊂然而,传统RNN和LSTM在信息传递方面都是单向的,无法获取未来状态的信息㊂蛋白质序列可类比为生物学上的一种语言:肽段相当于句子,而氨基酸残基则类似于单词㊂因此,氨基酸残基之间的上下文关系对预测结果至关重要㊂为了弥补LSTM 的局限性,本文采用mBi-LSTM从相反的方向学习传统特征向量的输入,在不同方向上捕捉序列中的关键模式和信息,从而更全面地表征蛋白质序列,更好地学习和捕获更复杂序列数据中的依赖关系㊂3.2㊀1D-CNN1D-CNN作为深度学习中提取一维数据的网络㊃41㊃㊀王晓,等:基于深度学习和蛋白质语言模型的抗菌肽预测模型研究架构,可用于序列数据的特征提取㊂1D-CNN能接收来自mBi-LSTM层的输出向量,捕捉序列中的局部特征,并通过堆叠多个卷积层,学习更高级㊁更抽象的特征向量㊂3.3㊀注意力机制注意力机制最初是为了解决机器翻译任务而提出的,在自然语言处理领域有着广泛的应用㊂随着研究的不断深入,注意力机制在计算机视觉领域和图像处理领域均取得了突出的成果,其善于从输入数据中挖掘重要信息,并有效地集成多视图特征[22]㊂此外,注意力机制常与RNN相结合用于生物信息学,且在生物序列分析问题中取得了较高的性能得分[23]㊂3.4㊀输出层输出层的作用是将神经网络处理后的特征向量进行变形㊁加工,最终输出Flatten操作㊁批归一化㊁Sigmoid激活函数等分类结果㊂其中,Flatten是神经网络中的一种操作,通常用于从多维输入数据中拉平数据维度,以便将其作为全连接层的输入㊂在本文中,由1D-CNN输出的向量维度为3维,通过Flat-ten可将其变成2维,以便于输入全连接层进行后续分类处理㊂批归一化的主要思想是在每个训练批次的数据上进行归一化,以确保输入数据的分布稳定性㊂具体操作为:计算每个批次数据的平均值和标准差,然后对数据进行归一化,使其平均值为0,标准差为1㊂计算方法如式③所示㊂x i+1=x i-μBσBα+β③式中,x i+1是批归一化后的数据,μB是数据样本的平均值,σB是数据样本的标准差,α和β分别是对数据样本进行的拉伸和偏移,i是x的时间步㊂对特征向量进行所有处理后,通过线性层对其进行分类,验证是否为抗菌肽㊂线性层有较高的分辨能力,如式④所示㊂x t=W t l x(t-1)+b t④式中,x t和x(t-1)分别是输出向量和输入向量,W t l是权重矩阵,b t是线性层的偏差,t㊁l是时间步序号㊂除第一层和最后一层外,将批归一化用于每个线性层的输出;将Sigmoid激活函数用于最后一层的输出㊂Sigmoid激活函数可将输出转化为0~1,并以此作为概率,认为ȡ0.5的输出为抗菌肽,<0.5的输出为非抗菌肽㊂Sigmoid激活函数如式⑤所示㊂S(x)=11+e-x⑤式中,x为最后一层的输出㊂4㊀模型性能评估与优化4.1㊀性能评估通过对模型性能进行评估,可在众多参数的组合中选出最适合该预测模型的参数组合,从而有效预测抗菌肽㊂在本文中利用5个指标来评估模型性能,其计算公式如式⑥所示㊂ACC=TP+TNTP+TN+FN+FPMCC=TPˑTN-FNˑFP(TP+FN)(TP+FP)(TN+FP)(TN+FN)Sn=TPTP+TNSp=TNFP+TNìîíïïïïïïïïïïï⑥式中,TP㊁FP㊁TN和FN分别是真阳性㊁假阳性㊁真阴性和假阴性;当ACC=1时,说明所有的抗菌肽预测正确,当ACC=0时,说明所有的抗菌肽预测错误;MCC是皮尔逊相关系数,MCC越接近1,则表示模型综合性能越高,MCC越接近0,则表示模型性能越接近随机分类器,MCC越接近-1,则表示模型的综合性能越差;Sp是模型的特指度,Sn是模型的灵敏度,二者分别代表模型预测抗菌肽和非抗菌肽的能力㊂4.2㊀模型优化为了使融合向量能更好地反映抗菌肽特征,本文在使用基准评测数据集进行训练和验证时,尝试不同的特征向量融合方法,包括自注意力机制融合特征向量㊁交叉注意力机制融合特征向量和向量拼接,并采用十折交叉验证来保证实验结果的可靠性㊂不同特征向量融合方法的效果见表1㊂由表1可知,向量拼接法对应的ACC最高,模型预测效果最好㊂4.3㊀参数优化4.3.1㊀mBi-LSTM层参数优化㊀为了使mBi-LSTM㊃51㊃㊀2024年4月第39卷第2期㊀达到最优效果,训练过程中在基准数据集上进行mBi-LSTM层参数优化,并采用十折交叉验证来保证实验结果的可靠性㊂mBi-LSTM的层数分别设置为1~7层,不同mBi-LSTM层参数优化的效果见表2㊂由表2可知,当mBi-LSTM层数设置为2层时, ACC最高,模型预测效果最好㊂4.3.2㊀1D-CNN层参数优化㊀为了使1D-CNN层能更好地处理mBi-LSTM层的输出向量,训练过程中在基准评测数据集上进行1D-CNN层的参数优化,并使用十折交叉验证来保证实验结果的可靠性㊂1D-CNN层的输入通道数分别设置为2个㊁4个㊁6个㊁8个和10个,卷积核感受野大小分别设置为1600㊁1800㊁2000㊁2200和2400,不同通道数模型及不同卷积核感受野大小模型的效果分别见表3和表4㊂由表3和表4可知,输入通道为2个㊁卷积核感受野大小为2000的模型ACC最高,模型预测效果最好㊂表1㊀不同特征向量融合方法的效果Table1㊀Effect of different teature vectorfusion methods方法ACC MCC Sp Sn自注意力机制0.640.300.750.54交叉注意力机制0.500.00 1.000.00向量拼接0.740.480.630.84表2㊀不同mBi-LSTM层参数优化的效果Table2㊀Effect of optimizing parametersof different mBi-LSTM layers层数/层ACC MCC Sp Sn 10.700.410.830.56 20.740.490.840.64 30.680.380.610.75 40.700.410.670.74 50.710.440.850.56 60.710.430.740.67 70.720.440.790.63表3㊀不同通道数模型的效果Table3㊀Effect of models with differentchannel number通道数/个ACC MCC Sp Sn20.730.490.840.6440.690.430.900.4960.700.420.800.6080.700.410.730.67100.710.420.750.665㊀实验结果分析本文将所提出的模型DeepGlap与10种较先进的预测模型(包括amPEPpy㊁AMPfun㊁AMPEP㊁ADAM-HMM㊁AMPIR㊁AMPScannerV2㊁AMPGram㊁Deep-AMPEP30㊁CAMP-ANN㊁sAMPpred-GAT)在独立测试集XUAMP上进行比较,结果见表5㊂由表5可知,本文所提出的模型DeepGlap在ACC㊁MCC和Sn方面均有较好的性能,表明模型的准确率和泛化能力均达到了较高水平㊂而模型Deep-AMPEP30的Sp虽达到了1.000,但Sn非常小,说明该模型大幅度偏向于预测正样本,综合预测精度较差㊂为了进一步验证模型的优劣性,本文采用ROC (Receiver Operating Characteristic)曲线下的面积(Area Under the Curve,AUC)来评估模型的性能, AUC越大,表示模型的性能越好,误报率越低,反之模型性能越差,误报率越高㊂不同模型的AUC如图1所示㊂由图1可知,本文所提出的模型DeepGlap 的AUC最大(为0.81),表明该模型拥有更好的预测能力,且误报率较低㊂表4㊀不同卷积核感受野大小模型的效果Table4㊀Effect of models with different convolutionkernel receptive field sizes卷积核感受野大小ACC MCC Sp Sn 16000.660.390.690.7018000.660.400.940.3920000.700.490.840.6322000.710.430.790.6224000.700.420.840.56表5㊀不同模型在独立测试集XUAMP上的效果Table5㊀Effect of different models on theindependent test set XUAMP模型ACC MCC Sn SpamPEPpy0.6790.4310.4000.958AMPfun0.6740.4140.4060.943AMPEP0.6610.4290.3300.992 ADAM-HMM0.6840.3900.5210.847AMPIR0.5630.1560.2660.859 AMPScannerV20.5680.1370.5230.613 AMPGram0.5640.1310.4450.682 Deep-AMPEP300.5330.1830.065 1.000 CAMP-ANN0.5840.1820.3850.782 sAMPpred-GAT0.7150.4640.5300.900DeepGlap0.7390.4890.6350.843㊃61㊃㊀王晓,等:基于深度学习和蛋白质语言模型的抗菌肽预测模型研究图1㊀不同模型的AUCFig.1㊀The AUC of different models6㊀结论本文针对抗菌肽的精准鉴别问题,提出了一种新的基于深度学习和蛋白质语言模型的抗菌肽预测模型DeepGlap,该模型使用蛋白质语言模型Unirep 和ProtBert 提取抗菌肽的特征,再使用包含mBi-LSTM㊁1D-CNN 和注意力机制的深度学习网络进行堆叠,并对模型参数进行优化,得到如下结论:相较于已有抗菌肽预测模型,该抗菌肽预测模型的预测效果更佳,有望成为一个有前景的抗菌肽预测工具,以辅助新型抗菌剂的研发,降低耐药性病原体的感染风险㊂参考文献:[1]㊀WHITE D G ,ZHAO S H ,SIMJEE S ,et al.Antimicrobialresistance of foodborne pathogens [J ].Microbes and Infection ,2002,4(4):405-412.[2]㊀KUMAR P ,KIZHAKKEDATHU J N ,STRAUS S K.Anti-microbial peptides :Diversity ,mechanism of action and strategies to improve the activity and biocompatibility in vivo[J ].Biomolecules ,2018,8(1):4.[3]㊀ZHANG R N ,WU D ,GAO Y T.Progress on the designand optimization of antimicrobial peptides [J ].Journal of Biomedical Engineering ,2022,39(6):1247-1253.[4]㊀JOSEPH S ,KARNIK S ,NILAWE P ,et al.ClassAMP :Aprediction tool for classification of antimicrobial peptides[J ].IEEE-ACM Transactions on Computational Biology and Bioinformatics ,2012,9(5):1535-1538.[5]㊀SHARMA R ,SHRIVASTAVA S ,SINGH S K ,et al.Ani-AMPpred :Artificial intelligence guided discovery of novelantimicrobial peptides in animal kingdom [J ].Briefings inBioinformatics ,2021,22(6):bbab242.[6]㊀KAVOUSI K ,BAGHERI M ,BEHROUZI S ,et al.IAMPE :NMR-assisted computational prediction of antimicrobialpeptides [J ].Journal of Chemical Information and Model-ing ,2020,60(10):4691-4701.[7]㊀CHUNG C R ,KUO T R ,WU L C ,et al.Characterizationand identification of antimicrobial peptides with differentfunctional activities [J ].Briefings in Bioinformatics ,2020,21(3):1098-1114.[8]㊀XU J ,LI F Y ,LI C ,et al.iAMPCN :A deep-learningapproach for identifying antimicrobial peptides and theirfunctional activities [J ].Briefings in Bioinformatics ,2023,24(4):bbad240.[9]㊀YAN K ,LYU H W ,GUO Y C ,et al.sAMPpred-GAT :Prediction of antimicrobial peptide by graph attention net-work and predicted peptide structure [J ].Bioinformatics ,2023,39(1):btac715.[10]FERRUZ N ,HÖCKER B.Controllable protein design withlanguage models [J ].Nature Machine Intelligence ,2022,4(6):521-532.[11]WANG G S ,LI X ,WANG Z.APD3:The antimicrobialpeptide database as a tool for research and education [J ].Nucleic Acids Research ,2016,44:D1087-D1093.[12]ZHAO X W ,WU H Y ,LU H R ,et MP :A databaselinking antimicrobial peptides [J ].PLoS ONE ,2013,8(6):e66557.[13]THOMAS S ,KARNIK S ,BARAI R S ,et al.CAMP :Auseful resource for research on antimicrobial peptides [J ].Nucleic Acids Research ,2010,38:D774-D780.[14]GOGOLADZE G ,GRIGOLAVA M ,VISHNEPOLSKY B ,et al.DBAASP :Database of antimicrobial activity andstructure of peptides [J ].FEMS Microbiology Letters ,2014,357(1):63-68.[15]KANG X Y ,DONG F Y ,SHI C ,et al.DRAMP 2.0,anupdated data repository of antimicrobial peptides [J ].Sci-entific Data ,2019,6:148.[16]JHONG J H ,CHI Y H ,LI W C ,et al.dbAMP :An inte-grated resource for exploring antimicrobial peptides with functional activities and physicochemical properties on transcriptome and proteome data [J ].Nucleic Acids Research ,2019,47:D285-D297.[17]FU L M ,NIU B F ,ZHU Z W ,et al.CD-HIT :Accelerated for clustering the next-generation sequencing data [J ].Bioinformatics ,2012,28(23):3150-3152.[18]ZHANG Y ,LIN J Y ,ZHAO L M ,et al.A novel antibacte-rial peptide recognition algorithm based on BERT [J ].Briefings in Bioinformatics ,2021,22(6):bbab200.[19]XU J ,LI F Y ,LEIER A ,et prehensive assessmentof machine learning-based methods for predicting antimi-crobial peptides [J ].Briefings in Bioinformatics ,2021,22㊃71㊃㊀2024年4月第39卷第2期㊀(5):bbab083.[20]ALLEY E C ,KHIMULYA G ,BISWAS S ,et al.Unifiedrational protein engineering with sequence-based deeprepresentation learning [J ].Nature Methods ,2019,16(12):1315-1322.[21]BRANDES N ,OFER D ,PELEG Y ,et al.ProteinBERT :Auniversal deep-learning model of protein sequence and function [J ].Bioinformatics ,2022,38(8):2102-2110.[22]HOCHREITER S ,SCHMIDHUBER J.Long short-termmemory [J ].Neural Computation ,1997,9(8):1735-1780.[23]YU Z X ,HUANG F ,ZHAO X H ,et al.Predicting drug-disease associations through layer attention graph convolu-tional network [J ].Briefings in Bioinformatics ,2021,22(4):bbaa243.Research on antimicrobial peptide prediction model based on deep learningand protein language modelWANG Xiao 1,2,WU Zhou 1,WANG Hongwei 3,WANG Rong 4,CHEN Haoran 11.College of Computer Science and Technology ,Zhengzhou University of Light Industry ,Zhengzhou 450001,China ;2.Henan Key Laboratory of Data Intelligence for Food Safety ,Zhengzhou 450001,China ;3.College of Food and Bioengineering ,Zhengzhou University of Light Industry ,Zhengzhou 450001,China ;4.College of Electronic Information ,Zhengzhou University of Light Industry ,Zhengzhou 450001,ChinaAbstract :In response to the need for improving prediction accuracy (ACC )in existing models for AntimicrobialPeptides (AMPs),a novel AMP prediction model called DeepGlap was proposed.This model utilized two proteinlanguage models for feature extraction from AMP sequences,followed by fusion of feature vectors.These fusedvectors were then input into a deep learning network composed of multiple layers of bidirectional long short-term memory networks (mBi-LSTM ),one-dimensional convolutional neural networks (1D-CNN ),and attentionmechanisms.The model underwent performance evaluation and optimization.Results indicated that the model achieved ACC ,the Pearson correlation coefficient (MCC ),and the area urder the curve (AUC )values of 0.739,0.489,and 0.81,respectively,demonstrating superior predictive performance compared to existing AMPprediction models.Key words :antimicrobial peptide;prediction model;foodborne pathogen;protein language model;deep learningnetwork㊀[责任编辑:杨晓娟]本刊数字网络传播声明本刊已许可中国知网,万方数据资源系统,维普网,国家科技学术期刊开放平台,博看网,超星,中国科技论文在线,中教数据库,长江文库,CABI,CA,AJ.VINITI,EBSCO host ,Ulrichs,FSTA 等在其系列数据库产品中以数字化方式复制㊁汇编㊁发行㊁信息网络传播本刊全文㊂其相关著作权使用费与本刊稿酬一并支付㊂作者向本刊提交文章发表的行为即视为同意我刊上述声明㊂㊃81㊃。
抗菌肽的提取分离及抑菌机理研究进展一、本文概述抗菌肽,又称抗菌蛋白质或抗菌因子,是一类具有抗菌活性的多肽或蛋白质。
自20世纪80年代以来,抗菌肽因其独特的抗菌机制和广泛的应用前景,受到了全球科研人员的广泛关注。
本文旨在综述抗菌肽的提取分离技术以及其抑菌机理的最新研究进展。
文章首先对抗菌肽的定义、分类及其抗菌特性进行概述,接着详细介绍抗菌肽的提取分离方法,包括传统提取方法、现代生物技术提取方法以及新兴的纳米技术提取方法等。
随后,文章对抗菌肽的抑菌机理进行深入探讨,包括其直接杀菌作用、免疫调节功能以及与其他抗菌剂的协同作用等。
文章对抗菌肽的研究前景和应用领域进行展望,以期为抗菌肽的研究和开发提供有益的参考和启示。
二、抗菌肽的提取方法抗菌肽的提取和分离是抗菌肽研究的重要环节,其方法的选择和优化直接影响到最终产物的纯度和活性。
抗菌肽的提取方法主要包括物理法、化学法、生物酶解法以及近年来兴起的基因工程技术等。
物理法主要利用温度、压力、溶剂等因素对抗菌肽进行提取。
例如,通过控制温度和压力,利用超临界流体萃取技术可以从生物组织中提取抗菌肽。
这种方法具有提取效率高、对原料破坏小等优点,但设备成本较高,操作复杂。
化学法主要利用化学试剂对抗菌肽进行提取。
常用的化学试剂包括酸、碱、有机溶剂等。
酸碱提取法通过改变溶液的酸碱度,使抗菌肽从组织中溶解出来。
有机溶剂提取法则利用有机溶剂对目标物质的溶解能力,将抗菌肽从原料中提取出来。
化学法提取效率高,但可能引入杂质,影响产物的纯度。
生物酶解法利用特定的酶对原料进行水解,从而释放出抗菌肽。
这种方法具有条件温和、产物纯度高等优点,但酶的选择和酶解条件的优化是关键。
常用的酶包括蛋白酶、纤维素酶等。
近年来,随着基因工程技术的发展,越来越多的研究者开始利用基因工程手段提取抗菌肽。
通过基因克隆和表达,可以在体外大量合成抗菌肽,从而实现对抗菌肽的高效提取。
这种方法具有产物纯度高、产量大等优点,但技术难度较大,需要较高的研究水平。