基于多源数据融合的支持向量机模型

基于多源数据融合的支持向量机模型

论文摘要

21世纪是大数据的时代,计算机技术飞速进步,数据的获取和储存都变得十分便利,数据的数量和形式都不可同日而语,很多部门每天都有巨大数量、不同形式的数据产生。大数据是由主体、来源和形式都不同的数据合并而成,不同数据集由于数据来源不同,彼此之间存在一定的差异性,但研究同一课题时,同样的解释变量和被解释变量在不同数据集之间又存在一定的关联。正是因为大数据具有数据来源差异性、高维性及稀疏性等特点,在对于多个来源的数据集进行分析时,需要准确挖掘出数据集间的异质性(heterogeneity)和同质性(homogeneity)并实现精准的预测效果是大数据分析的目标与挑战之一。目前多源数据分析已经在生物统计、个人征信等领域有了研究与应用,而对于文本分类问题,同样面临需要处理多个数据源的问题,比如针对用户的个性化垃圾邮件识别,针对多领域的情感分类任务等等。国内外关于文本分类的研究已经有很多,主流方法是在进行一定的特征工程后,基于统计学、机器学习等方法建立的分类模型,而且视实际问题而进行不同的处理,建立的模型都能够较准确的预测所研究的问题,而且模型都比较稳定效果较好的有支持向量机、boosting等方法。但是很少有学者意识到多源数据对于文本分类问题的同样存在着影响并在此基础上进行研究。本文在原始支持向量机的基础上,借助多源数据整合分析方法。提出组惩罚下的支持向量机模型,在Composite MCP(Minimax Concave Penalty)惩罚的基础上添加Sign-based惩罚,鼓励数据集间共同变量的系数符号相似,尽可能提取变量组内同时提取数据集之间的异质性和同质性,构建cMCPs(cMCP惩罚+Sign-based惩罚)-SVM模型,并且在模拟数据和实证当中的文本数据中分别进行模拟分析和实证分析。本文使用的方法属于双层变量选择方法,利用组坐标下降法求解最优化问题,并以样本外预测准确率(Accuracy)、真正例率(TPR)和AUC(Area Under Curve)值作为评价模型分类效果的标准。在三组模拟实验中,将cMCPs-SVM模型同cMCP-SVM模型、分数据集MCP-SVM模型进行对比,并从变量选择效果和分类效果两方面进行评价,发现cMCPs的支持向量机模型具有优势,且数据集内部相似性越大优势越明显。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景和意义
  •   1.2 文献综述
  •     1.2.1 分类方法与应用研究综述
  •     1.2.2 变量选择和多源数据分析研究综述
  •     1.2.3 支持向量机和变量选择研究综述
  •     1.2.4 研究述评
  •   1.3 本文组织结构
  •   1.4 本文贡献
  • 第二章 支持向量机和变量选择方法介绍
  •   2.1 支持向量机方法介绍
  •     2.1.1 最大间隔分类器
  •     2.1.2 支持向量分类器
  •     2.1.3 支持向量机
  •     2.1.4 损失函数加罚形式的支持向量机
  •   2.2 基于惩罚函数的变量选择方法
  •     2.2.1 单变量选择方法
  •     2.2.2 组变量选择方法
  •     2.2.3 双层变量选择方法
  •   2.3 基于惩罚函数的变量选择在支持向量机中的应用
  • 第三章 多源数据融合的支持向量机模型
  •   3.1 模型介绍
  •     3.1.1 模型基本形式
  •     3.1.2 惩罚函数选择
  •     3.1.3 目标函数
  •   3.2 模型计算
  •     3.2.1 求解过程
  •     3.2.2 算法
  •     3.2.3 调整参数的选择
  •     3.2.4 支持向量机模型评价标准
  •   3.3 本章小结
  • 第四章 模拟分析
  •   4.1 模拟设置
  •   4.2 模拟结果分析
  •     4.2.1 模拟一(显著变量完全相同)
  •     4.2.2 模拟二(大部分显著变量相同)
  •     4.2.3 模拟三(小部分显著变量相同)
  •   4.3 本章小结
  • 第五章 多用户垃圾邮件分类
  •   5.1 数据介绍和预处理
  •     5.1.1 数据介绍
  •     5.1.2 数据预处理
  •   5.2 模型建立与评估
  •     5.2.1 模型建立
  •     5.2.2 模型评估
  •     5.2.3 变量选择效果
  •   5.3 本章小结
  • 第六章 总结与展望
  •   6.1 总结
  •   6.2 存在的不足和展望
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 盖志浩

    导师: 方匡南

    关键词: 多源数据,整合分析,支持向量机

    来源: 厦门大学

    年度: 2019

    分类: 基础科学,经济与管理科学

    专业: 数学,宏观经济管理与可持续发展,信息经济与邮政经济

    单位: 厦门大学

    分类号: F224;F614

    总页数: 65

    文件大小: 3297K

    下载量: 27

    相关论文文献

    • [1].基于多源数据融合的武汉市精细尺度城市房价预测[J]. 北京测绘 2019(12)
    • [2].基于多源数据融合的复杂疾病建模方法研究[J]. 数学建模及其应用 2019(04)
    • [3].基于多源数据融合与分析的配电网可视化诊断系统的构建[J]. 电子技术与软件工程 2020(02)
    • [4].面向城市数据画像构建的多源数据需求与融合方法研究[J]. 情报理论与实践 2020(06)
    • [5].基于混沌时间序列预测的多源数据转换算法设计[J]. 国外电子测量技术 2019(06)
    • [6].基于多源数据的规划评估[J]. 中国建设信息化 2018(03)
    • [7].一种车载移动海量多源数据管理方法[J]. 遥感信息 2017(05)
    • [8].基于流量守恒定律下多源数据融合的交通状态监测和预测[J]. 城市地理 2017(14)
    • [9].基于多源数据融合的北京市职住空间特征研究[J]. 城市发展研究 2019(12)
    • [10].基于多源数据融合的审稿专家优选策略与功能实现[J]. 编辑学报 2019(S1)
    • [11].浅覆盖区多源数据融合整合的技术方法[J]. 地质通报 2008(07)
    • [12].多源数据分析在桥梁运营监测中的应用[J]. 公路交通技术 2019(03)
    • [13].多源数据在城镇村庄内部土地利用现状调查中的应用[J]. 住宅产业 2019(08)
    • [14].基于多网络架构的出租车监管系统多源数据融合技术方案[J]. 数字技术与应用 2018(03)
    • [15].基于动态化简的多源数据相似性评估[J]. 测绘与空间地理信息 2017(07)
    • [16].基于多源数据的三维建模方法研究[J]. 吉林建筑大学学报 2017(05)
    • [17].大数据榜单项目“多源数据融合集成与分析技术”启动实施[J]. 大众科学 2018(09)
    • [18].基于智汇卡的公交大数据应用研究[J]. 公路交通科技(应用技术版) 2020(01)
    • [19].基于相似连接的多源数据并行预处理方法[J]. 计算机应用 2019(01)
    • [20].基于多源数据融合的城市治理模式研究[J]. 行政科学论坛 2019(05)
    • [21].异地多源数据读写同步技术[J]. 现代计算机 2019(23)
    • [22].融合多源数据 破解融资难题[J]. 中国经贸导刊 2019(16)
    • [23].多源数据融合过程中的定位精度问题探讨[J]. 通讯世界 2019(09)
    • [24].多源数据一体化应用研究与实践——以管线规划辅助审批系统为例[J]. 测绘与空间地理信息 2018(09)
    • [25].基于多源数据融合的电力故障事件识别及预控系统[J]. 电子设计工程 2018(18)
    • [26].基于地理本体推理的多源数据一致性判别方法[J]. 科技通报 2017(07)
    • [27].基于中间件的多源数据交换系统[J]. 计算机技术与发展 2016(05)
    • [28].基于多源数据融合的统计数据空间网格化模型研究[J]. 浙江水利水电专科学校学报 2011(03)
    • [29].电子地图的多源数据导入与坐标地址的自编辑[J]. 测绘信息与工程 2009(04)
    • [30].浅谈边境地区挂图编制的多源数据融合[J]. 测绘与空间地理信息 2018(11)

    标签:;  ;  ;  

    基于多源数据融合的支持向量机模型
    下载Doc文档

    猜你喜欢