基于随机信号全序列特征的蛋白质亚细胞定位
- 格式:pdf
- 大小:287.71 KB
- 文档页数:7
《基于序列编码的蛋白质亚线粒体定位预测方法研究》篇一一、引言蛋白质的亚细胞定位在生物信息学和细胞生物学中具有重要价值。
其中,蛋白质在亚线粒体中的定位更是与细胞的能量代谢、信号传导等关键生物学过程密切相关。
近年来,随着生物信息学和计算机技术的快速发展,基于序列编码的蛋白质亚线粒体定位预测方法成为了研究的热点。
本文旨在探讨基于序列编码的蛋白质亚线粒体定位预测方法,为相关研究提供新的思路和方向。
二、方法与原理基于序列编码的蛋白质亚线粒体定位预测方法,主要利用生物信息学手段,通过分析蛋白质序列的编码信息,预测其亚线粒体定位。
该方法主要包括以下几个步骤:1. 蛋白质序列获取与预处理:从相关数据库中获取蛋白质序列信息,进行必要的预处理,如去除低质量序列、冗余序列等。
2. 序列编码:将预处理后的蛋白质序列转换为数值型编码,以便于计算机进行分析。
常见的编码方式包括氨基酸理化性质编码、结构特征编码等。
3. 机器学习模型构建:根据转换后的序列编码,构建机器学习模型。
常用的模型包括支持向量机、神经网络等。
通过训练模型,使其能够根据蛋白质序列的特征预测其亚线粒体定位。
4. 预测与评估:利用构建的模型对未知蛋白质进行预测,并通过交叉验证、ROC曲线等手段评估模型的性能。
三、实验与分析本部分以某蛋白质数据集为例,详细介绍基于序列编码的蛋白质亚线粒体定位预测方法的实验过程及分析结果。
1. 数据集准备:从公共数据库中获取蛋白质序列及其亚线粒体定位信息,构建用于实验的数据集。
2. 序列编码:采用适当的编码方式将蛋白质序列转换为数值型编码。
3. 机器学习模型构建与训练:利用编码后的序列数据,构建并训练机器学习模型。
通过调整模型参数,优化模型性能。
4. 预测与评估:利用训练好的模型对测试集进行预测,并计算预测结果的准确率、召回率等指标。
同时,通过绘制ROC曲线评估模型的性能。
实验结果表明,基于序列编码的蛋白质亚线粒体定位预测方法具有较高的准确性和可靠性。
《基于序列编码的蛋白质亚线粒体定位预测方法研究》篇一一、引言随着生物信息学与生物统计学的迅速发展,基于蛋白质序列编码的生物分子研究成为了重要的科研领域。
尤其是对细胞器内的蛋白质研究,它直接关乎着生物的代谢和生理功能。
本论文重点介绍基于序列编码的蛋白质亚线粒体定位预测方法研究。
蛋白质亚线粒体的定位对其在细胞中的功能和作用至关重要,因此,发展有效的预测方法具有重要意义。
二、蛋白质亚线粒体定位的重要性线粒体是细胞内重要的细胞器,它涉及到能量转换、细胞凋亡等多个关键生物学过程。
而亚线粒体则是线粒体内更精细的结构单元,它们在维持细胞正常功能中起着重要作用。
蛋白质的亚线粒体定位决定了其在这些结构中的功能和角色。
因此,精确预测蛋白质的亚线粒体定位有助于理解其功能和其在疾病中的潜在作用。
三、序列编码与蛋白质定位预测近年来,利用序列编码技术预测蛋白质亚线粒体定位已成为研究热点。
这种方法主要基于蛋白质的氨基酸序列来预测其可能的位置。
氨基酸序列包含了蛋白质的大部分信息,包括其结构、功能和与其他分子的相互作用等。
通过机器学习算法和深度学习技术,我们可以从这些序列中提取出有用的信息,用于预测蛋白质的亚线粒体定位。
四、方法与技术本研究采用基于深度学习的序列编码方法进行蛋白质亚线粒体定位预测。
具体流程包括:首先收集已知蛋白质亚线粒体定位的数据集;然后利用机器学习算法进行预处理和特征提取;最后利用深度学习模型进行分类预测。
具体步骤如下:1. 数据准备:从公开数据库中收集已知的蛋白质序列和其亚线粒体定位信息,构建训练集和测试集。
2. 特征提取:利用机器学习算法对氨基酸序列进行特征提取,包括一维卷积神经网络、循环神经网络等。
3. 模型构建:采用深度学习模型如卷积神经网络(CNN)或循环神经网络(RNN)进行分类预测。
4. 模型训练与优化:使用训练集对模型进行训练,并利用测试集进行模型评估和优化。
五、结果与讨论经过大量的实验和数据分析,我们成功构建了基于序列编码的蛋白质亚线粒体定位预测模型。
《基于多类特征融合的蛋白质亚线粒体定位预测研究》篇一一、引言蛋白质是生命活动中不可或缺的组成部分,其在细胞内的作用位置对其功能至关重要。
在蛋白质的研究中,确定其亚细胞定位,特别是其在亚线粒体上的定位,是了解其功能和相互作用的重要途径。
近年来,随着生物信息学和计算生物学的飞速发展,利用计算手段预测蛋白质的亚线粒体定位已经成为可能。
本文提出了一种基于多类特征融合的蛋白质亚线粒体定位预测方法,以提高预测的准确性和可靠性。
二、蛋白质亚线粒体定位预测的重要性蛋白质的亚线粒体定位与其功能紧密相关,是细胞进行各种生化反应和生命活动的基础。
准确预测蛋白质的亚线粒体定位,有助于理解其在细胞内的功能和相互作用,为疾病的治疗和药物研发提供重要依据。
然而,由于蛋白质的复杂性和多样性,传统的实验方法耗时耗力,因此,开发一种高效、准确的计算预测方法具有重要意义。
三、多类特征融合的预测方法针对蛋白质亚线粒体定位预测的问题,我们提出了一种基于多类特征融合的预测方法。
该方法首先收集蛋白质的多种特征,包括序列特征、结构特征、理化性质等。
然后,通过机器学习算法将这些特征进行融合,训练出预测模型。
在训练过程中,我们采用了交叉验证的方法,以避免过拟合和欠拟合的问题。
四、特征选择与模型构建在特征选择方面,我们选择了多种具有代表性的特征,包括氨基酸组成、二肽组成、蛋白质的结构域信息、理化性质等。
这些特征能够全面反映蛋白质的属性和特点,为模型的训练提供丰富信息。
在模型构建方面,我们采用了支持向量机(SVM)、随机森林(Random Forest)和神经网络(Neural Network)等机器学习算法。
通过对比各种算法的性能,我们选择了最适合当前问题的算法进行模型训练。
五、实验结果与分析我们使用独立的测试集对模型进行了测试,结果显示,基于多类特征融合的预测方法在蛋白质亚线粒体定位预测上取得了较高的准确率。
与传统的单一特征预测方法相比,我们的方法在准确率、召回率、F1值等指标上均有显著提高。
蛋白质亚细胞定位及其功能研究蛋白质是生命活动中极为重要的分子,它们是生物体内构成细胞、组织和器官的基本组成部分。
蛋白质的特殊结构表现为它们在空间上呈现出巨大的多样性。
这种空间分布不只是随意的,蛋白质分布的外延横跨从细胞核到细胞外的所有场所,并对生命活动产生了重要影响。
通常情况下,它们在某一段时间内驻留在一些特定的细胞结构中,这些结构被称为亚细胞结构。
其亚细胞定位的好坏会直接影响蛋白质的最终功能,因此,研究蛋白质分布的亚细胞机理是目前细胞生物学的热门领域之一。
蛋白质的亚细胞定位是由信号序列和靶蛋白体系共同作用的结果。
信号序列是蛋白质的一部分氨基酸序列,它可以指引蛋白质在亚细胞结构中寻找到它的特定位置。
而靶蛋白体系则是在这个位置上发挥作用的一系列蛋白质复合物。
总体来说,蛋白质的亚细胞定位是基于这些靶蛋白体系。
细胞器是亚细胞结构的重要组成部分,因为它们在细胞生理和代谢过程中发挥着极其重要的作用。
例如,具有高度分化的细胞,如骨胶质细胞和肌肉细胞,会形成工艺复杂的细胞器,用于完成特定的蛋白质合成和质量控制过程。
另外,一些常见的细胞器如粒线体、内质网和高尔基体都与特定的蛋白质分布和细胞功能密切相关。
例如,线粒体是一个小的细胞器,它是能量合成最重要的细胞器之一,通过线粒体呼吸链生成的ATP来支持细胞代谢过程。
线粒体内部成功保持着我们身体最重要的化学反应:糖的不完全氧化。
此外,线粒体还承担着细胞凋亡、细胞信号转导等重要功能,其蛋白质成分的亚细胞定位对于人体健康和疾病诊断具有重要意义。
此外,内质网和高尔基体也是细胞生理所不可缺少的两个细胞器,它们内部的蛋白质以及与细胞数据合作所起的作用在于建立葡萄糖代谢、生理学循环和免疫系统。
内质网是一个有复杂结构和功能的细胞器,它是蛋白质合成、折叠和修饰的重要部位,还参与到细胞调节、快速响应与细胞间互做的作用机制。
高尔基体主要完成细胞内蛋白质的修饰、分泌和发挥一定作用的功能,它的分布和功能对于细胞内许多生化反应和病程的进程具有重要影响。
《基于多类特征融合的蛋白质亚线粒体定位预测研究》篇一一、引言蛋白质是生命活动中不可或缺的组成部分,其在细胞内的定位决定了其功能的发挥。
而亚线粒体作为细胞内的重要结构,与蛋白质的定位密切相关。
因此,研究蛋白质的亚线粒体定位对于理解细胞功能和疾病机制具有重要意义。
本文旨在通过多类特征融合的方法,对蛋白质的亚线粒体定位进行预测研究。
二、研究背景及现状近年来,随着生物信息学和计算生物学的发展,蛋白质亚线粒体定位预测已成为研究热点。
目前,大多数研究主要依赖于序列信息或结构信息对蛋白质进行定位预测。
然而,单一类型的特征信息往往无法全面反映蛋白质的复杂特性。
因此,如何有效地融合多种特征信息,提高预测准确率是该领域的研究重点。
三、研究方法本文提出一种基于多类特征融合的蛋白质亚线粒体定位预测方法。
该方法首先收集蛋白质的序列信息、结构信息以及其他相关生物信息,如基因表达数据、蛋白质互作网络等。
然后,利用机器学习算法和深度学习技术,对多种特征信息进行融合和模型训练。
最后,通过交叉验证和独立测试集对模型进行评估。
四、特征提取与融合在特征提取阶段,我们首先对序列信息进行预处理,包括氨基酸组成、物理化学性质等。
同时,我们还利用生物信息学工具获取蛋白质的结构信息和基因表达数据。
此外,我们还考虑了蛋白质互作网络等生物网络信息。
在特征融合阶段,我们采用主成分分析等方法,将多种特征信息进行降维和融合,以提取出更具代表性的特征。
五、模型训练与评估在模型训练阶段,我们采用了支持向量机、随机森林、神经网络等机器学习算法和深度学习技术。
通过大量实验,我们发现深度学习技术在处理高维、非线性问题时具有较好的性能。
因此,我们采用了深度神经网络对融合后的特征进行训练。
在模型评估阶段,我们采用了交叉验证和独立测试集对模型进行评估。
通过对比不同模型的性能,我们发现融合多种特征的模型在预测准确率、灵敏度、特异度等方面均有所提高。
六、结果与讨论通过对大量蛋白质数据的预测和分析,我们发现基于多类特征融合的蛋白质亚线粒体定位预测方法具有较高的准确率。
《基于多类特征融合的蛋白质亚线粒体定位预测研究》篇一一、引言蛋白质作为生命活动中不可或缺的分子,其精确的定位对于细胞功能的正常运作至关重要。
其中,亚线粒体定位是蛋白质功能研究的关键一环。
传统的蛋白质定位预测方法通常依赖于单一特征或简单的特征组合,这在一定程度上限制了预测的准确性和可靠性。
因此,本研究提出了一种基于多类特征融合的蛋白质亚线粒体定位预测方法,旨在提高预测的准确性和可靠性。
二、研究背景及意义随着生物信息学和计算生物学的发展,蛋白质定位预测已成为研究蛋白质功能的重要手段。
然而,传统的定位预测方法往往只考虑单一特征或简单的特征组合,这导致预测结果的准确性和可靠性受到限制。
因此,研究多类特征融合的蛋白质亚线粒体定位预测方法具有重要意义。
该研究不仅有助于更准确地理解蛋白质在细胞内的分布和功能,还可为疾病诊断、药物研发等领域提供重要依据。
三、研究方法本研究采用多类特征融合的方法,对蛋白质亚线粒体定位进行预测。
具体步骤如下:1. 数据收集与预处理:收集蛋白质的序列、结构、理化性质等多类特征数据,并进行预处理,包括数据清洗、标准化等。
2. 特征提取与选择:利用生物信息学和机器学习技术,从预处理后的数据中提取与蛋白质亚线粒体定位相关的特征,并选择具有代表性的特征。
3. 特征融合:将提取的特征进行融合,形成多类特征融合的数据集。
4. 模型构建与训练:利用机器学习算法,构建蛋白质亚线粒体定位预测模型,并进行训练和优化。
5. 模型评估与验证:利用独立测试集对模型进行评估和验证,分析模型的性能和可靠性。
四、实验结果通过多类特征融合的方法,我们构建了蛋白质亚线粒体定位预测模型,并取得了较好的预测效果。
具体实验结果如下:1. 特征融合效果:通过将多种特征进行融合,我们得到了更全面、更准确的蛋白质特征描述,提高了模型的预测性能。
2. 模型性能评估:利用独立测试集对模型进行评估,我们发现模型的准确率、召回率、F1值等指标均有所提高,表明模型的性能和可靠性得到了提升。
蛋白的亚细胞定位预测方法
随着生物信息学和计算机技术的发展,蛋白质的亚细胞定位预测成为了一项研究热点。
蛋白质在细胞内的位置决定了其功能和相互作用方式,因此准确地预测蛋白质的亚细胞定位对于深入研究细胞生物学和疾病发生机制具有重要意义。
目前,蛋白质的亚细胞定位预测方法主要包括基于序列特征、基于机器学习和深度学习等多种方法。
其中,基于序列特征的方法主要通过分析蛋白质的氨基酸组成、静电性、亲水性等特征来预测其亚细胞定位。
而机器学习和深度学习方法则利用大量已知的蛋白质亚细胞定位信息进行训练,并通过预测新蛋白的亚细胞定位来提高预测准确率。
此外,还有一些集成多种方法的综合预测模型被广泛应用于蛋白质亚细胞定位预测中。
这些模型可将不同方法的预测结果进行整合,从而提高预测准确度。
总之,蛋白质的亚细胞定位预测方法涉及多个学科领域,需要多种技术手段的综合应用。
未来,随着生物信息学和计算机技术的不断发展,蛋白质亚细胞定位预测方法将进一步提高其预测准确率和应用范围。
- 1 -。
生物技术研究中的亚细胞定位技术在生物技术领域中,亚细胞定位技术是一个非常重要的研究方向。
它可以帮助科学家们更加深入地了解细胞的结构和功能,从而为开发新的治疗方法和药物提供更加有力的支持。
本文将从亚细胞定位技术的基本原理、常用技术手段、应用前景等方面对该技术进行介绍,希望能对广大读者有所启示和帮助。
一、亚细胞定位技术的基本原理亚细胞定位技术是通过特殊的标记物将目标蛋白或核酸与荧光染料等进行结合,从而在显微镜下直接观察其分布情况和功能。
这种技术可以基于不同的特征点,如蛋白质的序列、结构、功能等准确地确定目标分子的位置,实现对细胞分子级别的研究。
基于蛋白质序列的亚细胞定位技术一般是利用生物信息学手段预测目标蛋白的亚细胞定位,如通过生物信息学分析结构域和信号肽等信息,预测蛋白在细胞内的不同位置。
基于蛋白质结构的亚细胞定位技术则是通过将目标蛋白标记为荧光染料等,观察其在细胞内的分布情况及亚细胞结构的变化,确定蛋白质的定位位置和功能。
基于蛋白质功能的亚细胞定位技术则是通过寻找目标蛋白质在特定生物过程中的功能表现,来确定其在细胞内具体的位置和作用。
二、常用亚细胞定位技术手段1、荧光染色法:利用荧光标记物对细胞或标本进行染色,可以有效地观察细胞亚结构和分子的输送、动力学等变化。
其中较常用的荧光标记物包括著名的荧光素氰化物(FITC)、四甲基罗丹明(TRITC)等。
2、蛋白质功能标记法:通过将目标蛋白标记为可以直接测定的荧光标记物或酶标记物,能够高效而准确地观察该蛋白质在生物过程中的功能表现、位置以及与其他蛋白质的交互等。
3、亚细胞分离与富集技术:通过将细胞壁或细胞膜破裂,并采用超离心和高压液相色谱等技术手段,将特定亚结构或特定蛋白质富集起来,以便于进行深入的分子水平研究。
三、亚细胞定位技术的应用前景亚细胞定位技术在生物学、医学等众多领域都有着广泛的应用前景。
特别是在生物医学领域,亚细胞定位技术不仅可以帮助科学家们深入了解疾病的病理学基础,还可以发掘新的治疗手段和药物靶点。
蛋白质亚细胞定位预测及检测技术研究进展蛋白质是生命中最重要的分子之一,其功能涉及细胞内外的许多生物学过程。
蛋白质的亚细胞定位是揭示其生物学功能的关键因素之一。
因此,蛋白质亚细胞定位预测及检测技术一直是生命科学研究的热点之一。
本文将介绍蛋白质亚细胞定位预测及检测技术的研究进展。
一、蛋白质亚细胞定位预测技术蛋白质亚细胞定位预测技术是通过利用蛋白质本身序列和结构信息推断蛋白质在细胞内的位置分布。
常见的方法包括基于序列、基于结构以及综合方法三种。
基于序列的蛋白质亚细胞定位预测方法是通过分析蛋白质序列中固有的氨基酸特性、保守区域以及启动子区域等信息,来预测蛋白质的亚细胞定位。
该方法简便易行,但是在预测准确性和广泛性等方面还存在着不少问题。
基于结构的蛋白质亚细胞定位预测方法则是通过模拟蛋白质在细胞中的空间构型来推断其亚细胞定位,其中常见的方法包括Homology模型和其他基于结构预测的方法。
该方法精度较高,但是其应用范围受限于数据量和结构信息的获取难度。
综合方法则是在上述两种方法的基础上进行融合以提高蛋白质亚细胞定位预测的准确度。
二、蛋白质亚细胞定位检测技术蛋白质亚细胞定位检测技术是指通过实验手段来验证蛋白质的亚细胞定位。
常见的方法包括免疫荧光、免疫印迹、蛋白质质谱等。
免疫荧光技术是通过将荧光标记的抗体与蛋白质结合,使其在荧光显微镜下呈现出特定的亚细胞定位。
该技术适用于细胞和组织水平的蛋白质定位研究。
免疫印迹技术则是通过将蛋白质从细胞组织中分离出来,然后使用特异性抗体来检测蛋白质的亚细胞定位。
该方法适用于较高纯度的蛋白质样品,但是不适用于细胞和组织水平。
蛋白质质谱技术是通过将蛋白质进行蛋白质质量分析和结构鉴定来确定其亚细胞定位。
该方法适用于各种类型的蛋白质样品,但是需要特殊的设备及技术支持。
三、蛋白质亚细胞定位预测及检测技术研究进展随着生命科学的不断发展,蛋白质亚细胞定位预测及检测技术也不断创新和完善。
近年来,人工智能在蛋白质亚细胞定位预测方面也发挥了重要作用。
蛋白质亚细胞定位预测深度分析蛋白质是生物体内功能多样且不可或缺的分子机器。
了解蛋白质在细胞内的定位对于揭示生命的本质和疾病的发生机制具有重要意义。
蛋白质亚细胞定位预测是一项重要的生物信息学研究任务,它可以帮助我们了解蛋白质的功能和作用机制。
本文将深入分析蛋白质亚细胞定位预测的方法和技术,并探讨在这一领域中面临的挑战和未来的发展方向。
蛋白质的亚细胞定位是指蛋白质在细胞内特定结构或细胞器的位置,如核、细胞质、线粒体等。
准确预测蛋白质的亚细胞定位可以帮助我们理解蛋白质的功能和参与的生物过程。
目前,已经有许多方法和工具被开发出来用于蛋白质亚细胞定位预测。
这些方法可以分为两大类:基于序列和基于结构的方法。
基于序列的方法主要利用蛋白质的氨基酸序列进行预测。
这些方法通常采用机器学习算法和特征提取技术,如k近邻算法、支持向量机和随机森林等。
基于序列的方法的优势在于数据获取方便和计算速度快。
近年来,深度学习技术的兴起使得基于序列的方法在蛋白质亚细胞定位预测中取得了重大突破。
深度学习技术的特点是通过多层神经网络自动提取特征,从而提高预测准确度。
然而,基于序列的方法在预测一些复杂亚细胞定位时仍存在一定的挑战,因为序列信息可能不足以描述蛋白质在细胞内的定位。
基于结构的方法则利用蛋白质的三维结构进行预测。
蛋白质的结构可以通过实验方法如X射线晶体学得到,也可以通过计算方法如蛋白质折叠预测获得。
基于结构的方法的优势在于能够利用蛋白质结构中蕴含的详细信息,如静电、疏水和氢键等。
这些信息对蛋白质亚细胞定位具有重要意义。
然而,得到蛋白质结构的实验工作耗时且昂贵,所以基于结构的方法在大规模应用中仍面临一定的困难。
虽然已有许多方法和技术可用于蛋白质亚细胞定位预测,但仍然存在一些挑战。
首先,蛋白质亚细胞定位是一个非常复杂的问题,蛋白质可能在细胞内具有多个位置或动态变化的定位。
因此,目前的预测方法还需要进一步提高预测准确度和可解释性。
其次,蛋白质亚细胞定位的预测受到蛋白质本身性质的限制,如重组蛋白、高表达蛋白和疾病相关蛋白等。
基于随机信号全序列特征的蛋白质亚细胞定位1肖绚1, 2,邵世煌1,丁永生11东华大学信息科学与技术学院,上海(201620) 2景德镇陶瓷学院机电学院,江西景德镇(333001)E-mail :shshao@摘 要:当今生物信息学领域中,蛋白质亚细胞定位是一个重要和富有挑战的工作。
在伪氨基酸成分和随机信号处理方法的基础上,本文提出了一种随机信号全序列特征的蛋白质亚细胞定位方法。
利用随机信号复杂度作为伪氨基酸成分,在Jackknife 和Independent 测试中比以前的方法得到了更高的预测成功率。
关键词:蛋白质,亚细胞定位,随机信号处理,复杂度中图分类号:TP384, TP311.121.引 言细胞分室化是真核细胞进化中出现的一个历史性的事件。
细胞分成不同的细胞器以后,各个功能相关的蛋白质聚集在某个细胞器以内,从而完成特定的功能。
对于蛋白质被分选到特定的细胞器的过程和机制,人们并没有完全的了解。
但是如果蛋白质被分选到错误的细胞器中,该蛋白质较快被降解。
因此了解蛋白质在细胞器的定位对于了解蛋白质的功能,了解蛋白质的作用网络具有重要意义[1]。
即使对一个已经知道功能的蛋白质,了解它的亚细胞定位对理解它特殊的酶通道也是有帮助的[2]。
传统的生物实验方法可以确定亚细胞的位置,如细胞分馏法、电子显微镜方法和荧光性显微镜方法。
但是这些方法耗时、价钱昂贵并且带有一些主观的假设和不确定性[3],所以设计有效的利用计算机来预测蛋白质亚细胞位置的方法是非常必要的。
实际上蛋白质亚细胞定位的计算机预测已经成为当前生物信息学的一个重要问题[4]。
目前已经有很多生物信息工具可以进行蛋白亚细胞定位的预测,例如,以往利用氨基酸的组成、信号肽的预测、或者氨基酸序列组合顺序信息(如双氨基酸序列的组合信息等)来预测。
提高蛋白质亚细胞定位的精度,一个关键的问题是如何优化表达蛋白质的统计特性。
有两种常用的表达蛋白质的方法:连续模型和离散模型。
连续模型就是用整个氨基酸序列表示蛋白质,由于蛋白质序列在长度和氨基酸顺序上的巨大复杂性,很难对连续模型建立一个切实可行的预测器[5]。
离散模型就是用氨基酸成分来表示蛋白质[6],Nakashima 等在1994年首先提出了用蛋白质的氨基酸组份和残基的发生频率来区分细胞内和细胞外蛋白质的算法,但对于细胞内的蛋白质没有进行细分[7]。
应该指出的是大部分现有的算法仅仅是建立在20个氨基酸成分的基础上。
虽然这是一种合理的近似方法而且确实也产生了一些很好的效果, 但是简单离散模型把所有的序列长度和顺序信息都丢失掉了,而序列排序信息也是很重要的。
在这方面一个重要的进步就是Chou 在2001年提出的伪氨基酸成分概念[8]。
伪氨基酸成分包括λ+20个离散数字:前面20个离散数字就是表示一般的氨基酸成分,从120+到λ+20数字表示λ个从氨基酸序列中得到的功能因子,如长度以及能反应序列排序效果的一些元素。
伪氨基酸成分的提出极大地刺激了蛋白质亚细胞定位的研究,如潘宇羲提出的利用随机信号的方法[9]。
成功运用伪氨基酸成分的关键在于优化选择能反应序列顺序和长度的影响因素,本文基于随机信号处理方法,首先 1本课题得到国家自然科学基金(60474037),教育部新世纪优秀人才支持计划(NCET-04-415),教育部高等学校博士学科点专项科研基金资助课题(20030255009)的资助。
利用我们提出的氨基酸数字编码模型,把蛋白质序列转换为0/1数字序列,再计算出它的复杂度,作为伪氨基酸成分,实验表明此方法可以大幅提高蛋白质亚细胞定位的预测成功率。
2. 方法2.1 氨基酸数字编码基于互补规则、相似规则、分子识别理论和信息理论,我们建立了新的氨基酸数字编码模型,如见表1所示[10]。
在表1中,只有2对是一个密码子对应于一个数字编码,有10个是二个密码子对应于一个数字编码,有3个是三个密码子对应于一个数字,有6个四个密码子对应于一个数字,有2个六个密码子对应于一个数字。
数字编码与氨基酸是一一对应的。
表中包含了7个完全互补对称对,另外3个为大部分对称。
它既符合氨基酸的物理化学特性,也符合信息理论的要求。
表1. 氨基酸二进制数字编码模型 Tab. 1. Amino acid binary code model codon amino acid binary notation codon amino acid binary notationccu ccc P 00001cuu cuc L 00011cca ccg cua cuguua uugcaa cag Q00100cau cac H 00101cgu cgc R 00110 ucu ucc S 01001cga cgg uca ucgaga agg agu agguau uac Y01100uuu uuc F 01011ugg W 01110 ugu ugc C 01111acu acc T 10000auu auc I 10010aca acg auaaug M10011 aaa aag K 10100aau aac N 10101gcu gcc A 11001gca gcgguu gucV 11010 gau gac D 11100gua guggaa gag E 11101ggu ggc G 11110 gga ggguaa uag end 11111uga.2.2 Ziv -Lempel 复杂度Ziv -Lempel 复杂度可用合成整个序列所需要的最小步来表示。
在合成过程中,只有两个步骤是允许的:加上一个新的符号确保每个序列子串都有唯一性或者从已合成的序列中拷贝最长的子串[11]。
现在叙述一般法则,设序列为:n S S S L 21 (1)它的子串表示为:)1(]:[21n j i S S S S j i S j i i i ≤≤≤=++L (2)对一个非空的序列求其复杂度)(S C LS ,可根据下面过程:]:1[]:1[]:1[]:1[)(11211M i S i i S i i S i S S H m k k +++=−−L L (3)从S 出发开始添加,现考虑中间步骤,设已生成前缀121−r S S S L ,n r <,并且下一个符合r S 是用添加操作完成的,记为:L L L 112121+−••→r r r n S S S S S S S S (4)这里r S 在后的记号“•”反映了r S 的生成过程。
生成法则为:先令1+=r S Q ,观察Q 是否可以从πsQ 用拷贝方法得到,其中r S S S L 1=,π表示将它前面的符号串的最后一个符号去掉后的结果,即有:r S S S SQ L 1==π (5)如果Q 不能从πsQ 中某个子串拷贝得到,则就用添加操作加上1+r S ,并加上一个记号“•”,这样又回到与刚才相同的情况。
如果1+=r S Q 可以从πsQ 中的魔鬼符号复制得到,则继续观察21++=r r S S Q 能否从πsQ 的某个子串复制得到,这时11+=r r S S S SQ L π。
如果有一序列如下:S =0001101001000101,则其LZ 复杂度为:⎩⎨⎧=•••••=6)(1011000100100010)(S C S H LS(6) 2.3 基于全序列特征的蛋白质亚细胞定位预测氨基酸经过数字编码后就变成了一随机信号,根据多维随机信号分析理论可知,自相关函数是描述随机过程在不同时刻之间相互依赖的数字特征,采用这种方式提取特征参量,实际上是利用了原始序列的自相关性与蛋白质亚细胞定位的统计关联性。
由于氨基酸组成和自相关函数特征参量在一定程度上反应了蛋白质的亚细胞定位信息,因此把它作为伪氨基酸成分将有利于预测准确率的提高。
我们一共用了6个伪氨基酸成分,一个是上文介绍的0/1序列复杂度,其它5个伪氨基酸成分如式(7)所示:111()(), 1, 2, , 5N i x i x i N λλλλλ−+=Φ=+=−∑L (7)这样一个蛋白质可以表示成一个26维的空间向量12326(,,,,)x x x x =T X L (8)其中20611(20)(20)20611, (120), (2126)k i j ji j k k k i j ji j f k f w x w k f w ==−−==⎧≤≤⎪+Φ⎪⎪=⎨Φ⎪≤≤⎪+Φ⎪⎩∑∑∑∑ (9) i x (i =1, 2, …, 20)为20个氨基酸成分,按照氨基酸单个英文字母编码的顺序排列A 、C 、D 、E 、F 、G 、H 、I 、K 、L 、M 、N 、P 、Q 、R 、S 、T 、V 、W 和Y ,i x (i =21, 22, …, 26)为6个伪氨基酸成分。
权重因子为:[]123456111111,,,,,,,,,,700070007000700070008000w w w w w w ⎡⎤=⎢⎥⎣⎦(10)假如有N 个蛋白质组成数据集S ,这个数据集可分为独立的m 个子集m S S S S S U L U U U 321= (11)子集按照亚细胞来分,每个子集的氨基酸个数用),,,2,1(m n K =ξξ表示,明显地m n n n N +++=L 21。
每个子集的标准向量定义为:),,2,1(,2621m x x x X L M =⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=ξξξξξ (12) 这里)26,,2,1(,11,L ==∑=i x n x n k i k i ξξξ (13)ξi k x ,表示在第ξ子集上第k 个蛋白质的第i 个向量。
设有一个蛋白质X ,它的亚细胞定位为未知,它可以是训练集中的蛋白质,也可以是其它的蛋白质,用同样的方法此蛋白质也可以表示为一个26维的空间向量,它与各子集标准向量之间的相似性表示如下:)ln(),(),(26322ξξξξξλλλL +=X X D X X F (14)上式的第一部分为马氏距离,第二部分是为了减小由于训练集各子集中的数据量不一致对预测准确性的影响而加上的,ξλi 是协方差矩阵ξC 第i 个特征值。
),,2,1(),()(),(12m X X C X X X X D T L =−−=−ξξξξξ (15)ξC 是各子集的协方差矩阵⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=ξξξξξ26,261,2626,11,1C C C C C L M O M L (16)协方差矩阵中的元素为[][])26,,2,1,(,11,1,,L =−−−=∑=j i x x x x n C j j k n k i i k j i ξξξξξξξ (17)它的预测算法为)},(,),,(),,({),(21m X X F X X F X X F Min X X F L =λ (18)由于氨基酸成分必须归一化,也就是),,2,1;,2,1(,1481,m N k x i i k L L ===∑=ξξξ(19)经过归一化后,这些20+6元素就不相互独立了。