蛋白质二级结构预测论文_李艳萍

导读:本文包含了蛋白质二级结构预测论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:蛋白质,结构,卷积,神经网络,基团,矩阵,长短。

蛋白质二级结构预测论文文献综述

李艳萍[1](2019)在《基于决策森林的蛋白质二级结构预测算法研究》一文中研究指出蛋白质是人类机体的重要组成并且机体内几乎所有的活动都需要具有特定功能的蛋白质参与。蛋白质的空间结构决定其主要功能。因此对于蛋白质结构的研究有助于更好的了解它的功能。但并不能直接通过模拟蛋白质的折迭过程来了解它的空间结构。然而蛋白质是由氨基酸序列组成的,因此,通过氨基酸序列来预测蛋白质的二级结构进而了解它的叁维构象便成为了一种常用的方法。在大数据、云计算和人工智能快速发展的时代背景下,采用机器学习的方法对蛋白质的二级结构进行预测已经成为生物信息学中的一个研究热点。基于决策树森林模型及机器学习技术,本文深入研究了蛋白质的八类二级结构预测,主要研究内容如下:针对蛋白质的八类二级结构预测问题,提出了一种基于梯度提升的决策森林预测算法。该算法基于氨基酸序列的PSSM谱特征采用交叉熵损失函数的二阶泰勒近似作为优化目标,以决策树确定的映射函数作为优化参数,通过贪婪地在特征值上选取最佳分裂点来构造决策树。此外,为了防止过拟合,进一步在目标函数中引入了_2L正则化项,以便控制模型的复杂度。在标准的CB513蛋白质二级结构评估数据集上,本文提出的算法达到了64.89%的_8Q准确率。针对梯度提升决策森林算法运行速度慢的缺点,本文基于直方图思想提出了一种快速梯度提升的预测模型。该模型通过直方图的方法将样本特征离散化,对于大量的样本数据采用单边梯度技术对数据进行采样,并采用特征绑定技术对多维特征进行降维,实现了样本数量和特征两个维度的并行。通过大量的实验对影响模型性能的指标进行分析,实验结果表明,基于本文所提出的快速梯度提升算法对蛋白质的二级结构进行预测,在测试集上的_8Q准确率达到了66.35%。另外,在同样的数据集上,相对于其他算法来比较,本文所提出的算法运行速度非常快,时间复杂度很小。(本文来源于《河南大学》期刊2019-06-01)

王蕾蕾[2](2019)在《基于条件随机场与深度学习的蛋白质二级结构预测》一文中研究指出随着生物信息学的发展,蛋白质数据库中的蛋白质序列信息越来越多,尤其是生物信息学的出现,使得人们能够更好地利用这些蛋白质信息了解生物系统。生物信息学可以利用这些序列信息寻找相关的蛋白质,并收集其他信息推测未知蛋白质的结构和功能等可能的特性。蛋白质结构分析预测也经常被用在药物设计中。通过实验方法获取蛋白质二级结构所需的成本高,专业人才紧缺,所以目前面临的核心问题就是利用生物信息学找到一种能够高效地预测蛋白质二级结构的算法。本文使用深度学习算法和条件随机场算法对蛋白质二级结构进行预测。在蛋白质数据处理中,本文用到了位置特异性矩阵(Position-Specific Scoring Matrix,PSSM),同时为了更好的表示氨基酸序列,使用了滑动窗口技术。在蛋白质二级结构预测算法方面,本文提出了两种学习分类方法:第一种是卷积神经网络结合Softmax分类器的算法,此方法改进了卷积神经网络的模型结构,针对梯度消失问题在各卷积层之后添加了修正线性单元(Rectified Linear Units,ReLU)激活层,为了最大限度地保留原始数据的重要特征,提取了全连接层之前的特征数据作为Softmax分类器的输入,对蛋白质二级结构进行分类和预测,与传统的卷积神经网络方法比较,此方法提高了预测精度。第二种是基于集成学习的思想:使用了一种简单的集成策略把卷积神经网络和条件随机场模型进行了结合,使得这两种学习器最大限度的发挥自身的优势同时弥补彼此的缺点,最后用本文的集成分类器对蛋白质二级结构进行分类和预测,提高了预测的精度。实验证明,本文提出的两种方法在公开的蛋白质数据集25PDB数据集上准确率有所提高。实验证明,由卷积神经网络和条件随机场模型基于集成学习策略组成的集成学习器在25PDB数据集上的预测准确率高于CNN-Softmax网络模型,所以,深度学习算法与条件随机场模型结合可以更好地提高蛋白质二级结构的预测准确率。(本文来源于《齐鲁工业大学》期刊2019-05-31)

王剑[3](2019)在《基于分组式的多分类器的蛋白质二级结构预测的算法研究》一文中研究指出蛋白质二级结构预测是蛋白质结构预测和理解蛋白质结构和功能的重要课题,主要工作是依据蛋白质氨基酸序列的编码特征正确识别出对应的蛋白质二级结构标签。本文采用25PDB蛋白质序列数据集,采用PSSM编码﹑正交编码和滑动窗口方法将氨基酸处理成伪图像对蛋白质二级结构预测做了研究,在研究过程中选定了叁种训练模型,分别是卷积神经网络﹑LSTM神经网络和随机森林。每个训练模型对应一个分组实验,在每个分组实验中对训练模型做了训练模型的优化设计:在基于卷积神经网络的分组实验中,设计了一个包含两个网络结构单元的一般卷积神经网络,每个网络单元包含主要的卷积层和下采样层,因为蛋白质氨基酸的伪图像对于卷积神经网络来说相对于真正的图像而言数据量较少,所以本文设计了一个可以增加输入冗余,解决一般卷积神经网络梯度偏离的残差卷积神经网络,实验证明这种卷积神经网络更加稳定,预测更准确。在基于LSTM神经网络的分组实验中,分别对伪图像在两个维度上切片生成序列数据对于一般的LSTM神经网络做了实验,因为直接切片会破坏蛋白质氨基酸序列的上下文特,所以本文采用滑动窗口操作在蛋白质序列维度生成了多个BP神经网络隐层,将这些BP神经网络隐层神经元的输出当作序列数据输入LSTM神经网络,实验证明添加BP神经网络隐层的LSTM神经网络能更好的提取蛋白质序列的上下文特征。在基于随机森林的分组实验中,本文将残差卷积神经网络在最后一个平均池化层提取的样本特征作为随机森林的输入,相当于为随机森林做了一个特征提取器,实验证明添加了特征提取器的随机森林预测结果会有很大提升。在分组实验结束之后,本文利用ensemble方法将实验中叁种优化设计之后的模型进行了整合,将残差卷积神经网络﹑加入了BP神经网络隐层的LSTM神经网络和添加了特征提取器的随机森林模型在每个蛋白质二级标签上的输出概率相加,取最大概率对应的标签作为ensemble模型的输出,实验证明ensemble模型相对于叁类成员模型的预测结果均有提高。(本文来源于《齐鲁工业大学》期刊2019-05-31)

朱树平,刘毅慧[4](2019)在《蛋白质二级结构在线服务器预测评估》一文中研究指出蛋白质二级结构的预测,对于研究蛋白质的功能和人类生命科学意义非凡。1951年开始提出预测蛋白质二级结构,1983年对于二级结构的预测只有50%的准确率。经过多年的发展,预测方式不断的改进和完善,到如今准确率已经超过80%。但目前预测在线服务器繁多,连续自动模型评估(CAMEO)也只给出服务器叁级结构的预测评估,二级结构评估还未实现。针对上述问题,选取了以下6个服务器:PSRSM、MUFOLD、SPIDER、RAPTORX、JPRED和PSIPRED,对其预测的二级结构进行评估。并且为保证测试集不在训练集内,实验数据选取蛋白质结构数据库(Protein Data Bank,PDB)最新发布的蛋白质。在基于蛋白质同源性30%、50%和70%的实验中,PSRSM取得Q3的准确率分别为91.44%、88.12%和90.17%,比其他预测服务器中最高的MUFOLD分别高出3.19%、1.33%和2.19%,证明在同一类同源性数据中PSRSM比其他服务器有更好的预测效果。除此之外实验也得到其预测的Sov准确度也比其他服务器要高。比较各类服务器的方法与结果,得出今后蛋白质二级结构预测应当重点从大数据、模板和深度学习的角度进行研究。(本文来源于《生物信息学》期刊2019年01期)

郭延哺,李维华,王兵益,金宸[5](2018)在《基于卷积长短时记忆神经网络的蛋白质二级结构预测》一文中研究指出鉴于不同类型氨基酸的相互作用对蛋白质结构预测的影响不同,文中融合卷积神经网络和长短时记忆神经网络模型,提出卷积长短时记忆神经网络,并应用到蛋白质8类二级结构的预测中.首先基于氨基酸序列的类别信息和氨基酸结构的进化信息表示蛋白质序列,并采用卷积提取氨基酸残基之间的局部相关特征,然后利用双向长短时记忆神经网络提取蛋白质序列内部残基之间的远程相互作用,最后将提取的蛋白质的局部相关特征和远程相互作用用于蛋白质8类二级结构的预测.实验表明,相比基准方法,文中模型提高8类二级结构预测的精度,并具有良好的可扩展性.(本文来源于《模式识别与人工智能》期刊2018年06期)

张帅燕[6](2018)在《基于卷积神经网络的蛋白质二级结构预测》一文中研究指出蛋白质主宰着生命活动,使生命体呈现如今复杂多变的状态,在生命系统的构建中起了重要的作用。蛋白质二级结构是蛋白质形成稳定构象的重要基础,是研究蛋白质叁维结构的重要前提。二级结构的研究可以为研究蛋白质的功能以及序列之间的相互作用模式提供基础,有助于理解生物的活动以及各类生物性状,有利于新药的研发。所以,从大量的蛋白质序列中提取出有用的生物信息是目前的重要工作。本文针对氨基酸提出来一种新的编码方式,即基团编码方式,这种编码方式是依据氨基酸内部形成稳定分子官能团定义的编码方式,42个官能团构成了基团编码方式。并且通过深度学习中的卷积神经网络和自动编码器进行特征提取。(1)基于新的基团编码方式的预测将基团编码与传统的正交编码方式用支持向量机(Support Vector Machine,SVM)进行分类预测,将得到的预测结果进行比较,选取的实验数据为CB513和25PDB。实验中设置2个实验,实验1:对基团编码和正交编码通过支持向量机进行结果对比,通过结果可以发现本文提出的基团编码比正交编码结果要高出1.08%。实验2:对基团编码和正交编码都选取两种不同划分格式的验证,即G、H、I是H,B、E是E,其它都是C以及H是H,E是E,其它都是C的划分格式。可以发现本文中选取的G、H、I是H,B、E是E,其它都是C的划分结构是所有结构中最难的,得到的准确率是最低的。(2)基于卷积神经网络的二级结构预测基于基团编码方式与位置特异性打分矩阵(position specific scoring matrix,PSSM)组合数据的特征提取,用卷积神经网络(Convolutional Neural Network,CNN)对组合数据进行特征提取后送入贝叶斯分类器中得到分类预测结果。用卷积神经网络提取特征后送入贝叶斯分类器中得到的结果要比直接送入贝叶斯分类器的结果高出5%。(3)基于自动编码器的二级结构预测将基团编码方式与位置特异性打分矩阵(PSSM)组合,分别采用单层和两层的自动编码器来进行特征提取,之后送入贝叶斯分类器中得到分类预测结果,可以发现含有两个隐含层的堆迭自动编码器的准确率是最高的,比单隐含层自动编码器高出1.04%,比贝叶斯分类器结果高出2.69%。(本文来源于《齐鲁工业大学》期刊2018-05-23)

杜月寒[7](2018)在《基于多分类器融合的蛋白质二级结构预测方法研究》一文中研究指出作为生物信息学领域的一项基础性研究,蛋白质二级结构预测对确定蛋白质的空间结构、明确蛋白质功能等有着重要的意义。虽然可以通过实验测定蛋白质结构,但其耗时耗力难以满足当下日益增长的蛋白质序列数据处理需求,借助机器学习手段预测蛋白质结构势在必行。由于现有单分类器二级结构预测方法的效果难以继续提升,本文尝试对多分类器融合方法展开研究,以期改善结构预测的效果。本文以基于多分类器融合的蛋白质二级结构预测方法为研究对象,主要内容如下:首先,本文总结了蛋白质的分子组成信息、结构分类信息以及常用的蛋白质数据库;并从同态融合学习和异态融合学习两个角度出发,对多分类器融合学习方法进行了细致梳理和综述。由于特征向量的构造以及多分类器融合方法的设计是基于多分类器融合的蛋白质二级结构预测方法的两个重要环节,上述综述为本文的研究提供了理论基础和应用前提。其次,本文提出基于多重进化矩阵加权融合的蛋白质二级结构预测方法。该方法使用基于近相关蛋白比对得到的打分矩阵和基于远相关蛋白比对得到的打分矩阵作为成员分类器——支持向量机的输入向量;对成员分类器输出的后验概率信息运用加权融合方法进行处理,利用成员分类器在训练集得到的分类错误率求得各个成员分类器权重,构造基于加权融合方法的多分类器融合模型。实验结果表明该方法能够有效提高蛋白质二级结构预测准确率。最后,本文提出一种基于熵的动态自适应加权融合蛋白质二级结构预测方法。该方法设计了两种加权系数,一是根据成员分类器输出的样本后验概率信息计算出的熵值来调节权重大小,熵值越大的分类器赋予的融合权重越低;二是根据成员分类器对分类结果的“自信”程度,动态调整其加权参数。最后通过加权投票的方法实现融合,得到最终的预测结果。实验结果表明该方法能够有效提高蛋白质二级结构预测准确率。(本文来源于《齐鲁工业大学》期刊2018-05-23)

王剑,成金勇,赵志刚,鹿文鹏[8](2018)在《基于CNN与LSTM模型的蛋白质二级结构预测》一文中研究指出蛋白质结构的预测在理解蛋白质结构组成和蛋白质的生物学功能有重要意义,而蛋白质二级结构预测是蛋白质结构预测的重要环节。当PSSM位置特异性进化矩阵被广泛应用于将蛋白质初级结构序列编码作为输入样本后,每个残基可以被表示成二维空间的数据平面,由此文中尝试利用卷积神经网络对其进行训练。文中还设计了另一种卷积神经网络,利用长短记忆网络感知了CNN最后卷积特征面的横向特征和纵向特征后连同卷积神经网络的全连接共同完成分类,最后用ensemble方法对两类卷积神经网络模型进行了整合,最终ensemble方法中包含两类卷积神经网络的六个模型,在CB513蛋白质数据集测得的Q3结果为77.2。(本文来源于《生物信息学》期刊2018年02期)

张帅燕,刘毅慧[9](2018)在《自动编码器方法的蛋白质二级结构预测》一文中研究指出蛋白质二级结构预测是进行蛋白质叁级结构研究的重要基础,氨基酸的编码方式对二级结构预测有一定的影响。本文应用了一种新的组合编码方式,即将基团编码与位置特异性打分矩阵(PSSM)进行组合的编码方式。本文中提出的基团编码是针对氨基酸的一种新的编码方式,基团编码是根据氨基酸内部组成来进行编码的,由42位属性组成。本文选取位置特异性打分矩阵(PSSM)中的Blosum62进化矩阵和新的基团编码进行组合,形成新的编码方式。然后对CB513和25pdb两组数据分别进行实验。本文中将采用贝叶斯分类器与自动编码器两种方法来对这种新的编码方式进行实验,然后比较这两种方法得到的两组数据的结果。可以很明显的发现采用自动编码器的实验结果要比使用贝叶斯分类器的结果要高出1.65%。在本文的实验中,可以提取特征的自动编码器的预测准确率更好。(本文来源于《生物信息学》期刊2018年01期)

谢尚欣[10](2017)在《基于深度学习的蛋白质二级结构预测》一文中研究指出蛋白质二级结构预测是生物信息中一个重要研究的领域。随着人工智能的发展,很多研究人员已经开始使用机器学习来预测蛋白质二级结构,效果比传统的方法显着,但还需继续提高。本文分别使用模糊支持向量机(FSVM)、卷积神经网络(CNN)结合FSVM、CNN结合长短期记忆网络(LSTM)这叁种方法对蛋白质二级结构进行预测,主要工作如下:(1)FSVM预测蛋白质二级结构。首先,在高维特征空间构造两个通过类中心的初始超平面,并生成平行于这两个初始超平面的近似最优分割超平面;然后,基于这个近似最优分割超平面为训练集中的每个样本点设置隶属度值;最后,基于特征空间中的超平面训练FSVM,并结合基于序列的结构相似性,提高预测效果。在四个独立的测试集(RS126,CB513,data1199及CASP)上,FSVM分别实现94.2%,93.1%,96.7%和92.1%的Q_3准确率,及91.7%,89.7%,94.1%和89.6%的SOV准确率。(2)CNN结合FSVM预测蛋白质二级结构。首先,我们将蛋白序列中向量形式特征转化为矩阵形式特征;然后,使用CNN从原始特征表示中提取蛋白质的抽象特征表示;最后,基于这些抽象特征训练出FSVM分类器,并在四个独立的测试集上进行测试。算法分别实现94.3%,93.8%,97.1%和92.7%的Q_3准确率,以及92.5%,90.4%,94.5%和90.2%的SOV准确率。(3)CNN结合LSTM预测蛋白质二级结构。首先,由于CNN具有移动不变性,我们使用多个不同大小的卷积核提取不同范围的局部特征;然后,考虑到蛋白质序列中残基间存在依赖性,我们使用双向LSTM提取全局特征;最后,将局部特征与全局融合形成最后特征,并用soft-max分类器进行蛋白质二级结构预测。在四个独立的测试集上,我们的算法分别实现94.5%,94.2%,97.2%和93.5%的Q_3准确率,以及92.2%,90.3%,94.8%和90.1%的SOV准确率。实验结果表明,这叁种方法对蛋白质二级结构预测有较高的准确率。最后,本文分析上述方法存在的不足和进一步的研究方向。(本文来源于《浙江理工大学》期刊2017-12-15)

蛋白质二级结构预测论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着生物信息学的发展,蛋白质数据库中的蛋白质序列信息越来越多,尤其是生物信息学的出现,使得人们能够更好地利用这些蛋白质信息了解生物系统。生物信息学可以利用这些序列信息寻找相关的蛋白质,并收集其他信息推测未知蛋白质的结构和功能等可能的特性。蛋白质结构分析预测也经常被用在药物设计中。通过实验方法获取蛋白质二级结构所需的成本高,专业人才紧缺,所以目前面临的核心问题就是利用生物信息学找到一种能够高效地预测蛋白质二级结构的算法。本文使用深度学习算法和条件随机场算法对蛋白质二级结构进行预测。在蛋白质数据处理中,本文用到了位置特异性矩阵(Position-Specific Scoring Matrix,PSSM),同时为了更好的表示氨基酸序列,使用了滑动窗口技术。在蛋白质二级结构预测算法方面,本文提出了两种学习分类方法:第一种是卷积神经网络结合Softmax分类器的算法,此方法改进了卷积神经网络的模型结构,针对梯度消失问题在各卷积层之后添加了修正线性单元(Rectified Linear Units,ReLU)激活层,为了最大限度地保留原始数据的重要特征,提取了全连接层之前的特征数据作为Softmax分类器的输入,对蛋白质二级结构进行分类和预测,与传统的卷积神经网络方法比较,此方法提高了预测精度。第二种是基于集成学习的思想:使用了一种简单的集成策略把卷积神经网络和条件随机场模型进行了结合,使得这两种学习器最大限度的发挥自身的优势同时弥补彼此的缺点,最后用本文的集成分类器对蛋白质二级结构进行分类和预测,提高了预测的精度。实验证明,本文提出的两种方法在公开的蛋白质数据集25PDB数据集上准确率有所提高。实验证明,由卷积神经网络和条件随机场模型基于集成学习策略组成的集成学习器在25PDB数据集上的预测准确率高于CNN-Softmax网络模型,所以,深度学习算法与条件随机场模型结合可以更好地提高蛋白质二级结构的预测准确率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

蛋白质二级结构预测论文参考文献

[1].李艳萍.基于决策森林的蛋白质二级结构预测算法研究[D].河南大学.2019

[2].王蕾蕾.基于条件随机场与深度学习的蛋白质二级结构预测[D].齐鲁工业大学.2019

[3].王剑.基于分组式的多分类器的蛋白质二级结构预测的算法研究[D].齐鲁工业大学.2019

[4].朱树平,刘毅慧.蛋白质二级结构在线服务器预测评估[J].生物信息学.2019

[5].郭延哺,李维华,王兵益,金宸.基于卷积长短时记忆神经网络的蛋白质二级结构预测[J].模式识别与人工智能.2018

[6].张帅燕.基于卷积神经网络的蛋白质二级结构预测[D].齐鲁工业大学.2018

[7].杜月寒.基于多分类器融合的蛋白质二级结构预测方法研究[D].齐鲁工业大学.2018

[8].王剑,成金勇,赵志刚,鹿文鹏.基于CNN与LSTM模型的蛋白质二级结构预测[J].生物信息学.2018

[9].张帅燕,刘毅慧.自动编码器方法的蛋白质二级结构预测[J].生物信息学.2018

[10].谢尚欣.基于深度学习的蛋白质二级结构预测[D].浙江理工大学.2017

论文知识图

的cDNA序列和由此推导的氨基...蛋白二级结构预测蛋白二级结构预测一8蛋白质二级结构预测界面、XJ108和XJ69IsdB基因缺失序列在核...猪CRHR1蛋白质二级结构预测结...

标签:;  ;  ;  ;  ;  ;  ;  

蛋白质二级结构预测论文_李艳萍
下载Doc文档

猜你喜欢