基于智能算法的TA蛋白靶向预测方法研究

基于智能算法的TA蛋白靶向预测方法研究

论文摘要

随着人类基因组计划的实施,以及更多生物基因组测序计划的完成,生物学数据呈爆炸性增长,传统的生化试验方法已经远远不能满足需求。智能算法在生物信息领域有其独特的优势。已有研究表明,智能算法能成功解决生物信息学的这些问题。但是在蛋白质靶向预测上仍然面临着诸多问题和挑战。比如真核生物中末端锚定蛋白质(tail-anchored proteins,TA蛋白)靶向预测尚未有智能算法应用的实现。TA蛋白靶向与CpG岛的低甲基化存在相关性,因此,CpG岛的低甲基化可以作为TA蛋白靶向的相关特征因素。针对上述问题,本文做了大量的调研工作,对CpG岛识别及TA蛋白靶向预测进行深入的研究。大量的研究表明,已有的经典算法识别和分类准确率相对偏低,无法满足CpG岛序列识别和TA蛋白靶向预测等研究所要求的准确率。针对上述问题,本文以CpG岛序列识别为作为研究的切入点,TA蛋白靶向预测作为后续研究。采用智能算法可以很好的解决以上问题,同时提高了识别和预测的准确率。在CpG岛序列识别和TA蛋白靶向预测的研究中取得了不错的成果。本文的主要工作及创新点概括如下:1.本文提出了一种用遗传算法和隐马尔可夫模型结合的CpG岛序列识别方法。该方法通过遗传算法优化隐马尔科夫模型参数,得出的模型可以更好的用于CpG岛序列识别。2.本文通过严格筛选,我们获得了428个真核生物TA蛋白的数据,用于TA蛋白靶向定位预测;采用7种TA蛋白序列特征提取方法;并且增加了疏水性和电荷量这两类特征训练模型,可以有效的提高模型的分类准确率。3.本文构建了一种朴素贝叶斯的特征提取方法来提取TA蛋白序列特征。采用mRMR算法对蛋白质数据进行特征选择;最后,采用支持向量机去训练模型。在训练过程中基于网格方式对参数?和惩罚系数C进行优化,并对实验结果进行分析。4.本文分别训练并比较了5种机器学习模型在TA蛋白靶向预测的结果。即:随机森林(RF)、逻辑回归(LR)、朴素贝叶斯(NB)、K-最近邻(KNN)和梯度提升树(GBDT)。最后,本文利用遗传算法全局搜索的能力,对HMM参数进行优化。将其改进方案应用到CpG岛序列识别中,可以提高CpG岛序列识别的准确率。对于TA蛋靶向预测,构建了一种朴素贝叶斯特征提取方案,采用SVM可以实现对TA蛋白靶向预测。后续研究中,本文采用了七种特征提取方法来提取蛋白质序列特征,通过集成五种智能算法的分类结果,可以更好的预测TA蛋白在亚细胞器的靶向,预测精度达到84%。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景与意义
  •   1.2 国内外研究现状
  •     1.2.1 基因序列识别
  •     1.2.2 TA蛋白靶向预测
  •   1.3 论文研究内容及组织
  •     1.3.1 论文创新点
  •     1.3.2 本文的组织结构
  • 第二章 CpG岛序列识别与TA蛋白靶向定位
  •   2.1 CpG岛序列识别
  •   2.2 TA蛋白靶向定位
  • 第三章 基于遗传算法优化HMM的 CpG岛序列识别
  •   3.1 引言
  •   3.2 基于遗传算法的HMM模型
  •   3.3 本章小结
  • 第四章 基于朴素贝叶斯的TA蛋白特征提取
  •   4.1 引言
  •   4.2 基于朴素贝叶斯的TA蛋白特征提取
  •   4.3 本章小结
  • 第五章 基于集成分类器的TA蛋白靶向方法
  •   5.1 引言
  •   5.2 基于集成分类器的TA蛋白靶向方法
  •     5.2.1 特征提取
  •     5.2.2 特征选择
  •     5.2.3 特征归一化
  •     5.2.4 模型选择
  •   5.3 实验结果
  •     5.3.1 实验数据分析
  •     5.3.2 性能评估标准
  •     5.3.3 不同分类器的性能评价
  •   5.4 本章小结
  • 第六章 总结与展望
  •   6.1 总结
  •   6.2 展望
  • 参考文献
  • 攻读硕士学位期间的主要成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 何演林

    导师: 刘弘

    关键词: 遗传算法,隐马尔可夫模型,末端锚定蛋白,特征提取,模型融合

    来源: 山东师范大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 山东师范大学

    分类号: Q811.4;TP18

    总页数: 44

    文件大小: 3068K

    下载量: 71

    相关论文文献

    标签:;  ;  ;  ;  ;  

    基于智能算法的TA蛋白靶向预测方法研究
    下载Doc文档

    猜你喜欢