数据离散化论文_董跃华,刘力

导读:本文包含了数据离散化论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:粗糙,数据,属性,数据挖掘,形式,辐射源,粒子。

数据离散化论文文献综述

董跃华,刘力[1](2016)在《基于自适应改进粒子群优化的数据离散化算法》一文中研究指出针对经典粗糙集只能处理离散型属性的问题,提出一种基于自适应混合粒子群优化(AHPSO)的离散化算法。首先,引入自适应调整策略,以克服粒子群易陷入局部解的缺点,提高了粒子群全局寻优能力;然后对每一代全局最优粒子进行禁忌搜索(TS),得到当代最佳全局最优粒子,增强了粒子群局部搜索能力;最后,在保持决策表分类能力不变的情况下,将属性离散化分割点初始化为粒子群体,通过粒子间的相互作用得到最佳的离散化分割点。使用WEKA平台上的J48决策树分类方法,与基于属性重要度、信息熵的离散化算法相比,该算法的分类精度提升了10%~20%;与基于小生境离散粒子群优化(NDPSO)、参数线性递减粒子群的离散化算法相比,该算法的分类精度提升了2%~5%。实验结果表明,该算法显着地提高了J48决策树的分类学习精度,在对数据离散化时也有较好的性能。(本文来源于《计算机应用》期刊2016年01期)

焦磊,刘晓军,刘庭煜,倪中华[2](2016)在《一种面向生产调度规则挖掘的数据离散化方法》一文中研究指出针对车间生产数据的特点及数据挖掘技术对离散处理的客观需求,建立一种基于动态聚类的连续值离散化方法,并利用决策系统的相容性原则建立目标函数。对基于密度的聚类算法进行改进,提出一种单维度多半径聚类算法。将该聚类算法应用于离散处理,阐述了基于动态聚类离散算法的整体过程。实验数据表明,该离散算法可以保持决策系统原有的相容度,具有速度快、内存占用率低和自动化程度高等优点,且具有良好的通用性,适用于生产数据的离散处理。(本文来源于《计算机集成制造系统》期刊2016年01期)

张涛,师浩斌,李林,李朝辉[3](2016)在《决策连续形式背景的可视化数据离散化方法》一文中研究指出连续形式背景离散化是形式概念分析领域重要的基础问题之一。针对形式背景离散化的特殊要求,提出了一种可视化的数据离散化方法。该方法借助可视化方法对数据类别分布进行表示,将连续数据分布转换为图形分布,进一步利用视觉模糊性对图形空间进行处理,进而将决策连续背景离散化。通过UCI数据集上的实验表明,与传统离散化方法相比,采用该方法进行数据离散化后的二值形式背景具有结构简单且不失准确性的优点。(本文来源于《计算机应用研究》期刊2016年02期)

贾智皓,刘方[4](2014)在《服务于粗糙集信息处理的数据离散化技术》一文中研究指出粗糙集理论是处理不完备、不确定信息的有效数学工具,是目前数据挖掘、知识工程应用中关键技术之一。粗糙集一般针对离散数据进行处理,实际应用中,数据库中大量存在连续或分散型数据,因此离散化步骤在粗糙集信息系统分析过程中具有重要意义。文章简介粗糙集相关基础知识,从不同角度对现有离散化方法进行了分类,介绍了典型的离散化方法,给出了后续研究思考。(本文来源于《数字技术与应用》期刊2014年11期)

张永,张红蕊,路婧威[5](2014)在《海量数据离散化算法的并行设计与实现》一文中研究指出连续属性的离散化是机器学习和数据挖掘的重要预处理步骤,如何高效处理海量数据连续属性离散化已成为急需要解决的问题。近年来兴起的Hadoop技术能够有效处理基于海量数据的应用。为此,设计和实现一种基于MapReduce编程模型的连续属性离散化并行算法,并给出算法设计的方法和策略。在保证离散效果的情况下,使用不同大小数据集在不同节点的集群环境下的实验结果表明,所设计的并行离散化算法具有较高的执行效率和较好的可扩展性,适合用于海量数据的快速离散化处理。(本文来源于《计算机应用与软件》期刊2014年06期)

刘小龙,江虹,吴丹[6](2013)在《基于CACC的连续数据离散化改进算法》一文中研究指出针对粗糙集及主要机器学习算法一般都无法高效处理连续数据的问题,提出一种基于CACC的连续数据离散化的改进算法。该算法采用CACC标准选取断点,通过增加数据不一致率约束条件,从而减少数据丢失信息量。仿真结果表明,CACC改进算法与Modified Chi2、Extent-Chi2、CAIM、CACC算法相比,并通过C4.5和SVM算法验证,数据识别率和精度可提高近8%。(本文来源于《计算机工程》期刊2013年04期)

桑雨[7](2012)在《连续数据离散化方法研究》一文中研究指出随着数据量的爆炸性增长以及信息技术的高速发展,数据挖掘与机器学习已成为当今研究的热点。目前,现实世界中往往呈现连续属性值的数据,而很多数据挖掘与机器学习分类算法仅仅适用离散属性值的数据。因此,必须将连续属性值的数据进行离散化,否则,这些分类学习算法无法正常工作。针对此问题,本文系统分析了现有的连续数据离散化方法,并从离散化标准等方面进行了深入研究,主要包括:(1)提出一种单属性与多属性相结合的自底向上离散化方法,在考虑属性间关系的同时,综合衡量各相邻区间对之间的差异,寻找最好的合并区间。首先,我们通过最小描述长度理论和连续属性中相邻区间对的重要性,提出一种结合单属性与多属性的离散化标准,并在理论上分析了此标准的优势;进一步,基于此标准,提出一种启发式的自底向上离散化算法,寻找最优的离散化结果;最后,在UCI数据集上的实验结果表明,与现有的离散化方法相比,此方法显着提高了C4.5决策树与支持向量机分类器的学习精度。(2)提出一种基于非线性降维技术的高维数据离散化方法,有效解决了高维非线性数据的离散化问题。首先,我们提出一种基于局部邻域优化的线性嵌入算法,将高维数据降维至低维空间中,有效保持了原始数据的几何关系结构。该算法克服了数据的几何关系结构容易被扭曲的缺陷;其次,提出一种基于面积的卡方离散化算法,从概率的角度考虑每对区间被合并的可能性,有效离散低维数据空间中的每个连续属性。实验结果表明,此方法得到了较好的离散化结果以及更简化的知识,提高了分类器的学习精度。另外,此方法应用在计算机视觉和图像分类中,取得了很好的效果。(3)提出一种改进卡方统计的数据离散化方法,提高了基于统计独立性离散化方法的质量。首先,我们分析了卡方函数中自由度选取的不足,给出了自由度选取的修正方案;其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了卡方计算的准确性。实验结果表明,改进的方法产生了较高的类属性相互依赖冗余值,并显着提高了C4.5决策树与Naive贝叶斯分类器的学习精度。(本文来源于《大连理工大学》期刊2012-06-18)

张小梅[8](2012)在《基于类-属性关系依赖度的数据离散化方法》一文中研究指出提出了一种基于类-属性关系依赖度的数据离散化方法,其特点是:借助统计学的λ相关系数,有效地捕获类-属性间的相互依赖,以此来选取最佳断点.并利用粗糙集属性依赖度分析方法,对实验数据进行有效分析,挖掘出对决策分析影响大的属性,去掉对决策分析影响小的冗余属性,以此构造数据挖掘模型.实例测试表明:该方法显着提高了决策树的分类学习精度,尤其在乳腺癌的症诊断上效果显着.(本文来源于《兰州交通大学学报》期刊2012年03期)

周凡程[9](2012)在《粗糙集理论在数据离散化中的应用研究》一文中研究指出连续属性离散化技术是数据预处理过程中重要的组成部分,直接关系到数据挖掘或机器学习的效果。基于粗糙集理论的数据离散过程一般分为叁个步骤:提取候选断点集合;选取结果断点子集;应用结果断点子集进行离散化。第一步候选断点的确定是解决离散化问题的基础。在保证决策表相容性的前提下,使候选断点集合具有尽可能小的基数,不但可以减少结果断点集合的计算量,而且可以减小计算过程的时间和空间开销,对整个离散化算法的后继工作具有十分重要的意义。本文基于此做了如下工作:1)详细分析了基于粗糙集的离散化过程的叁个步骤:提取候选断点集合;选取结果断点子集;应用结果断点子集进行离散化。其中,前两个步骤是整个离散化算法的关键,现有的离散化算法都将研究的重点放在了结果断点子集的选取上,而忽略了候选断点集合的提取。本文以候选断点集的提取为主要研究内容,进行了仔细分析。2)针对候选断点集提取,提出了基于Shadowed Sets的候选断点提取算法.该算法根据实例在单属性上的分布,对数据样本进行分类,采用ShadowedSets计算出各类的上下近似,最终提取出候选断点集。使用多组UCI数据对此算法的性能进行检验,同时还与其它候选断点集提取算法做了对比实验。实验结果表明,此算法能有效地减少数据集候选断点的数目,提高离散化算法运行速度和识别率。3)将基于Shadowed Sets的连续属性离散化算法应用到雷达辐射源信号识别中,通过分析粗糙集理论中离散化与属性约简之间的关系,认识到离散化和属性约简在本质上都是对冗余等价关系的约简,在此认识的基础上,改进了基于粗糙集的雷达辐射源识别模型结构,最后,利用该改进的雷达辐射源识别模型对雷达辐射源特征数据库进行识别,实验结果证明了基于粗糙集理论的特征选择模型能有效地提取出数据中的有用信息,简化数据结构,从而可以简化神经网络分类器的结构,缩短分类器训练时间,提高分类器泛化能力。(本文来源于《国防科学技术大学》期刊2012-06-01)

桑雨,李克秋,闫德勤[10](2012)在《基于改进χ2统计的数据离散化算法》一文中研究指出在基于χ2统计独立性的离散化算法中,自由度与期望频数的选取直接影响χ2计算的准确性,从而影响离散化的性能.为此,提出了一种基于改进χ2统计的数据离散化算法,提高了基于统计独立性离散化算法的质量.首先,分析了χ2函数中自由度选取的不足,给出了自由度选取的修正方案;其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了χ2计算的准确性.实验结果表明,改进的方法显着提高了C4.5决策树与Naive贝叶斯分类器的学习精度.(本文来源于《大连理工大学学报》期刊2012年03期)

数据离散化论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对车间生产数据的特点及数据挖掘技术对离散处理的客观需求,建立一种基于动态聚类的连续值离散化方法,并利用决策系统的相容性原则建立目标函数。对基于密度的聚类算法进行改进,提出一种单维度多半径聚类算法。将该聚类算法应用于离散处理,阐述了基于动态聚类离散算法的整体过程。实验数据表明,该离散算法可以保持决策系统原有的相容度,具有速度快、内存占用率低和自动化程度高等优点,且具有良好的通用性,适用于生产数据的离散处理。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

数据离散化论文参考文献

[1].董跃华,刘力.基于自适应改进粒子群优化的数据离散化算法[J].计算机应用.2016

[2].焦磊,刘晓军,刘庭煜,倪中华.一种面向生产调度规则挖掘的数据离散化方法[J].计算机集成制造系统.2016

[3].张涛,师浩斌,李林,李朝辉.决策连续形式背景的可视化数据离散化方法[J].计算机应用研究.2016

[4].贾智皓,刘方.服务于粗糙集信息处理的数据离散化技术[J].数字技术与应用.2014

[5].张永,张红蕊,路婧威.海量数据离散化算法的并行设计与实现[J].计算机应用与软件.2014

[6].刘小龙,江虹,吴丹.基于CACC的连续数据离散化改进算法[J].计算机工程.2013

[7].桑雨.连续数据离散化方法研究[D].大连理工大学.2012

[8].张小梅.基于类-属性关系依赖度的数据离散化方法[J].兰州交通大学学报.2012

[9].周凡程.粗糙集理论在数据离散化中的应用研究[D].国防科学技术大学.2012

[10].桑雨,李克秋,闫德勤.基于改进χ2统计的数据离散化算法[J].大连理工大学学报.2012

论文知识图

预处理后各瓦斯浓度时间序列平面与二元二次趋势面拟合法模拟地表...本文程序模块图工作面瓦斯浓度时间序列分析贝叶斯网...不同无线传感器原型[40]数据离散化

标签:;  ;  ;  ;  ;  ;  ;  

数据离散化论文_董跃华,刘力
下载Doc文档

猜你喜欢