序列相似性查询论文_李敏,于长永,张峰,马海涛,赵宇海

导读:本文包含了序列相似性查询论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:相似性,序列,时间,度量,距离,索引,时空。

序列相似性查询论文文献综述

李敏,于长永,张峰,马海涛,赵宇海[1](2019)在《基于LSH的时间序列DTW相似性查询》一文中研究指出提出了一种新颖的基于LSH的时间序列DTW相似性近似查询算法,较好地解决了DTW相似性查询速度慢的问题.首先,分析了DTW相似性度量的特点,即时间弯曲的重要特性;其次,将该特性与LSH函数相结合,设计了高效的DTW相似时间序列过滤方法.在很大概率程度上保证了相似的时间序列至少具有一个相同的LSH函数值;最后,给出了一个基于过滤加验证框架的时间序列DTW相似性近似查询算法,该算法利用低维的Hash索引加快候选集合的筛选,从而加快查询速度.实验结果表明,在保持较好的召回率的情况下,本文提出的方法较现有算法有效地提高了DTW相似性查询速度.(本文来源于《小型微型计算机系统》期刊2019年10期)

刘杰[2](2016)在《时间序列相似性查询的研究与应用》一文中研究指出本文深入研究了多维时间序列相似性查询的有关方法,重点分析了多维时间序列预处理技术和相似性度量方法,提出了一种改进的多维时间序列线性分段方法,并且以该分段方法为基础,提出了一种新的基于形态特征与动态时间弯曲距离的多维时间序列相似性度量方法,并且通过具体方法进行了相应的论证,最后运用改进算法设计并实现了具体应用。本文的主要内容如下:1)多维时间序列数据的模式表示。多维时间序列的模式表示是多维时间序列研究的基础。本文首先在PAA分段线性方法的基础上提出了PAA_ERR算法,该方法能够在时间维上对原始时间序列进行降维处理,PAA_ERR方法通过计算所有维度上拟合误差确定分段滑动窗口的大小,最后在分段后的时间序列上提取序列的倾斜角和形态特征值作为序列的模式表示,实验表明该算法能够很好的对时间序列进行拟合,并且计算简单易于实现。2)多维时间序列数据的相似性度量方法。本文根据多维时间序列数据的特点以及已有相似性度量算法的优缺点,提出了基于动态时间弯曲距离的SA_DTW方法。该方法首先通过PAA_ERR算法将时间序列数据在时间维上进行降维处理,求出时间序列数据的模式表示,也就是序列各个分段的形态特征与倾斜角,最后通过求时间序列模式矩阵中不同维度之间的动态时间弯曲距离来进行相似性查询。实验表明,该方法能够有效的提高相似性查询的准确性。3)本文在上述改进算法的基础上设计并实现该多维时间序列算法的原型系统以及将其初步运用到实际。原型系统主要由叁个模块所组成,分别是时间序列模式表示模块、时间序列相似性查询模块以及改进算法的应用展示模块。前两个模块主要用来体现展现PAA_ERR和SA_DTW算法的实际运行效果,第叁部分的展示模块能够提供实时数据,通过采集屏幕手势滑动的轨迹点数据,来进行时间序列相关图形的相似度比较,结果表明SA_DTW方法对这些时间序列具有较好的匹配效果。最后基于原型系统所完成的桌面助手应用具有使用简单,灵活,操作方式多样的特点。(本文来源于《北方工业大学》期刊2016-06-07)

孙宏伟[3](2016)在《基于DTW距离的时间序列相似性查询和shapelets分类算法研究》一文中研究指出随着时间序列挖掘相关技术的不断发展,如何权衡算法效率与准确性成为研究人员关注的焦点。由于时间序列的高维性和复杂性特点,通常难以既高效又准确地对时间序列进行分析和处理。因此在不丢失关键信息的前提下,对时间序列进行适当的降维处理,降低算法中对数据维度依赖性极大的运算复杂度,以获得高效与准确两者的平衡有一定的理论意义和应用价值。本文分析了时间序列挖掘算法的特点,重点对相似性查询和分类的关键技术进行了研究,分析比对了经典算法以及其存在的问题,提出基于滑动窗口分段的下界距离算法和基于高效子序列匹配的shapelets转化分类算法,从理论和实际数据两方面证明了改进算法的可行性和有效性。主要工作如下:(1)时间序列基础算法分析。针对时间序列挖掘中的表示方法和距离度量方法进行了总结与分析,列举相应的经典算法进行详细说明,并对其进行比较。介绍并分析了时间序列相似性查询与分类的研究目的、算法原理、实际应用等相关内容。(2)提出基于滑动窗口分段的下界距离算法。下界距离算法在提高时间序列相似性查询效率、减少冗余计算等方面起非常重要的作用,现有的基于点对累积近似表示法的下界算法,相似度计算的时间代价较小,但当时间序列振幅波动较大时,往往不能紧致地拟合时间序列。针对这一问题,在下界算法中引入滑动窗口分段表示法,提出一种基于滑动窗口分段的动态时间弯曲下界算法,构建拟合度更高的上下边界曲线,对时间序列进行过滤,筛除相似性较差的时间序列。该算法能够有效地简化时间序列相似度的计算过程,降低运算复杂度,提高相似性查询效率,且当时间序列的振幅波动较大时,取得较高计算精度与效率。(3)提出基于高效子序列匹配的shapelets转化分类算法。由于大量复杂的距离计算,使得整个分类过程效率非常低,会耗费大量时间,现有的优化算法都无法彻底解决这个问题。针对这一问题,在shapelets分类算法中引入点对累积近似表示法和一种高效子序列匹配算法,提出一种基于高效子序列匹配的shapelets转化分类算法,先用点对累积近似表示法对数据进行适当的降维处理,之后用子序列匹配算法简化分类过程。高效子序列匹配算法可以与shapelets分类算法有效地结合,能够在保证较高分类准确度的同时,较好的简化算法计算过程,提高分类效率。(本文来源于《太原理工大学》期刊2016-04-01)

钟丽娟[4](2016)在《时间序列数据相似性与聚合top-k查询算法研究与应用》一文中研究指出时间序列数据普遍存在于生活中各个方面的应用领域中。一般的,时间序列数据是一个包含时间戳及数值的有序序列。近年来随着传感网络等技术的发展,在金融、医疗、交通、环境监测、数字文物保护等领域高速产生并累积了大量的时间序列数据。如何高效的对海量时间序列数据进行挖掘和管理成为目前新的挑战。本文针对海量时间序列数据查询和管理方面存在的若干问题,研究了时间序列数据的相似性问题、聚合top-k查询问题并实现了面向文物保护的时间序列数据的管理原型系统等。本文的具体工作如下:研究了时间序列数据相似性问题,提出了基于形状信息的相似性度量方法——趋势距离相似性度量,解决了时间序列数据中的多种形变及多尺度相似性定义导致的难以准确判断数据间的相似度的问题。本文首先对目前已有的时间序列数据相似性度量方法进行了总结和分析,随后提出了趋势距离相似性度量方法并在多个数据集上进行了实验。研究了时间序列数据聚合top-k查询问题,提出了I/0高效的查询算法,解决了海量数据集上查询速度慢的问题。目前已有的时间序列数据聚合top-k查询算法的速度瓶颈在于查询过程中访问磁盘次数过多。为解决此问题,本文提出的算法引入新的索引结构和剪枝策略,实验结果表明该算法能有效降低查询过程中访问磁盘的次数,提高查询速度。设计并实现了面向文物保护的时间序列数据的管理原型系统。本系统包括时间序列数据流分析组件、历史时间序列数据存储管理组件及两者之间的连接,加强了文物监测现场的数据分析支持,更符合面向文物保护的时间序列数据管理需求。(本文来源于《浙江大学》期刊2016-01-31)

程习锋,万定生,王亚明[5](2013)在《水文时间序列相似性查询优化算法》一文中研究指出为了快速、准确找出给定时间段相似的水文过程,提出了一种语义相似性匹配下加权动态时间弯曲距离和标准欧式距离结合的查询优化算法。针对水文数据特点,在小波变换、特征点分段和语义符号化过程的前提下,用语义相似匹配和离散区间初步筛选候选集,使用加权动态时间弯曲距离对候选子序列进行近似匹配,利用改进欧式距离通过左右搜索法进一步优化相似结果。以鄱阳湖康山站日水位数据为例,表明了该算法在降低时间复杂度的前提下较准确地找出相似子序列。(本文来源于《计算机工程与设计》期刊2013年11期)

郭小芳,李锋,叶华[6](2013)在《基于B~+-tree索引的多元时间序列相似查询》一文中研究指出为提高多元时间序列相似查询执行效率,采用了基于距离索引结构的相似查询算法。利用主成分分析方法对多元时间序列数据降维并在此基础上进行聚类,以聚类质心为参考点,将各类变换到一维空间,利用B+-tree结构进行索引查询,找到与查询序列最相似的k个MTS序列。实验表明查询效率和准确性都有比较大的提高。(本文来源于《计算机工程与应用》期刊2013年22期)

李晓嵘[7](2013)在《GML时空聚类及时空序列相似性查询关键问题研究》一文中研究指出随着现代信息技术的飞速发展,GIS作为现代信息技术的重要组成部分,仍然存在着信息数据共享和互操作的问题。这样,使得GIS工作缺乏较好的沟通和交流,为此,OGC推出了GML规范,使得可以在各种GIS数据间架起一座桥梁,实现GIS界的四通八达。GML(Geography Markup Language,地理标记语言)作为网络环境下的一种地理信息编码规范,随着计算机技术、网络技术、数据库技术的不断发展,已广泛应用于各个领域;随着LBS(Location Based Service,基于位置的服务)市场的扩大,大量的GML时空数据不断涌现,GML在给人们带来便利的同时也产生了一系列的问题,其中最突出的问题是信息过量,信息的利用率不高,对于信息的处理超出了人们的能力。传统的数据挖掘技术面向结构化数据,无法解决变化的、具有层次结构的GML数据,为此,本文着力于研究GML时空聚类的问题。时间和空间关系作为世间万物的基本参照系,使得时空序列数据在现实生活中广泛存在,而且数据呈现“几何式”的增长。这些大量的数据背后蕴藏着众多具有参考价值的信息。如何从海量的时空数据中提取知识,分析其结果,给决策者提供有用建议,已经成为目前空间数据挖掘亟待解决的问题。目前GML时空序列相似性查询的研究还很有价值空间,特别是针对海量的GML数据。针对GML时空聚类和时空序列相似性查询的当前研究状况,本文做了主要以下几个方面的研究工作:(1)、详细的阐述介绍了GML时空数据的模型。对时空数据的多种模型分析方式做了描述,并针对海量数据的存储阐述了基于HBase的GML时空数据模型。(2)、对GML时空聚类的算法进行了研究,阐述了经典的聚类算法(划分方法、层次方法、基于密度的算法、基于网格的算法、基于模型的算法),并在经典算法的基础之上提出了基于空间邻近关系的K-均值聚类算法和基于空间邻域的GML时空聚类算法,分别的对相应算法进行的实验的验证,对空间邻近关系的K-均值聚类算法进行了区域经济发展空间相关性验证、区域经济发展空间聚类分析和区域经济发展时空聚类分析等。(3)、对GML时空序列相似性查询的研究做了深入的研究,特别是基于空间邻近关系的GML时间序列相似性查询的研究,采用了我国大陆31个省直辖市1997年~2012年共16年的国民经济统计数据,分别对GDP1per、GDP2per和GDP3per在相似性度量计算之前要进行标准化处理,分析反映区域经济发展水平,反映区域叁大产业的结构。(本文来源于《江西理工大学》期刊2013-05-29)

孙洪峰[8](2013)在《针对区间型时间序列的降维与相似性查询研究》一文中研究指出在大数据时代的众多数据类型中,时间序列因其在众多领域内的广泛应用而受到普遍关注,包括降维、索引、查询在内的诸多技术被广泛研究。但某些应用场景更关注数据的范围而非精确值,用传统的时间序列数据类型进行描述并不合适。为此,本文在时间序列的基础上引入了区间型时间序列这一新数据类型。区间型时间序列在每一个时间点上用一个区间来对测量值进行描述。本文提出了区间型时间序列的降维算法,并基于此给出了一个相似性查询系统的实现。本文首先对时间序列的研究意义进行了讨论,进而提出区间型时间序列的定义,并分析了其基本性质。接着先是对传统针对时间序列的降维算法进行了回顾与分析。本文的核心工作是提出了一种基于正交变换的针对区间型时间序列的降维算法。在此基础之上,以R*树为索引结构实现了针对区间型时间序列的相似性查询系统。另外,分别做了实验证明了降维算法和查询系统的性能。(本文来源于《大连理工大学》期刊2013-05-02)

汤春蕾,董家麒,戴东波,朱扬勇[9](2011)在《一种序列模式的相似性查询算法》一文中研究指出数值型序列在很多应用中存在,如超市的POS销售记录和证券交易所的股票买卖数据等.在此类数据中查询与给定序列模式相似的子模式具有重要的现实意义.提出一种趋势融合的序列相似性查询算法NSS_QA,首先对所有序列进行单调区间的"融合"处理,然后根据各区间的长度比例和幅度比例产生序列模式的候选集,最后定义了一种新的相似性度量来计算并返回查询结果.该查询算法能找到与给定序列模式"放大"或"缩小"的模式结果.实验结果表明,提出的算法能找到在总体形状上与给定序列模式相似的所有模式,且在时间上具有较好的伸缩性能.(本文来源于《计算机研究与发展》期刊2011年S3期)

毛红保,冯卉,杨建华,刘亚军[10](2010)在《面向相似性查询的时间序列距离度量方法述评》一文中研究指出从一元时间序列和多元时间序列两个方面对当前提出的主要时间序列距离度量方法进行了述评。深入分析了各种算法的原理和特点,比较了算法对时间序列形变的支持情况以及时间复杂度。从客观上讲,各种算法之间并不具有绝对的优劣关系,每种算法的原理和特点各异,适用的问题领域也不一样。对于工程应用中选择时间序列距离度量方法具有指导意义,同时对于设计新的距离度量方法也具有参考价值。(本文来源于《计算机工程与设计》期刊2010年19期)

序列相似性查询论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文深入研究了多维时间序列相似性查询的有关方法,重点分析了多维时间序列预处理技术和相似性度量方法,提出了一种改进的多维时间序列线性分段方法,并且以该分段方法为基础,提出了一种新的基于形态特征与动态时间弯曲距离的多维时间序列相似性度量方法,并且通过具体方法进行了相应的论证,最后运用改进算法设计并实现了具体应用。本文的主要内容如下:1)多维时间序列数据的模式表示。多维时间序列的模式表示是多维时间序列研究的基础。本文首先在PAA分段线性方法的基础上提出了PAA_ERR算法,该方法能够在时间维上对原始时间序列进行降维处理,PAA_ERR方法通过计算所有维度上拟合误差确定分段滑动窗口的大小,最后在分段后的时间序列上提取序列的倾斜角和形态特征值作为序列的模式表示,实验表明该算法能够很好的对时间序列进行拟合,并且计算简单易于实现。2)多维时间序列数据的相似性度量方法。本文根据多维时间序列数据的特点以及已有相似性度量算法的优缺点,提出了基于动态时间弯曲距离的SA_DTW方法。该方法首先通过PAA_ERR算法将时间序列数据在时间维上进行降维处理,求出时间序列数据的模式表示,也就是序列各个分段的形态特征与倾斜角,最后通过求时间序列模式矩阵中不同维度之间的动态时间弯曲距离来进行相似性查询。实验表明,该方法能够有效的提高相似性查询的准确性。3)本文在上述改进算法的基础上设计并实现该多维时间序列算法的原型系统以及将其初步运用到实际。原型系统主要由叁个模块所组成,分别是时间序列模式表示模块、时间序列相似性查询模块以及改进算法的应用展示模块。前两个模块主要用来体现展现PAA_ERR和SA_DTW算法的实际运行效果,第叁部分的展示模块能够提供实时数据,通过采集屏幕手势滑动的轨迹点数据,来进行时间序列相关图形的相似度比较,结果表明SA_DTW方法对这些时间序列具有较好的匹配效果。最后基于原型系统所完成的桌面助手应用具有使用简单,灵活,操作方式多样的特点。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

序列相似性查询论文参考文献

[1].李敏,于长永,张峰,马海涛,赵宇海.基于LSH的时间序列DTW相似性查询[J].小型微型计算机系统.2019

[2].刘杰.时间序列相似性查询的研究与应用[D].北方工业大学.2016

[3].孙宏伟.基于DTW距离的时间序列相似性查询和shapelets分类算法研究[D].太原理工大学.2016

[4].钟丽娟.时间序列数据相似性与聚合top-k查询算法研究与应用[D].浙江大学.2016

[5].程习锋,万定生,王亚明.水文时间序列相似性查询优化算法[J].计算机工程与设计.2013

[6].郭小芳,李锋,叶华.基于B~+-tree索引的多元时间序列相似查询[J].计算机工程与应用.2013

[7].李晓嵘.GML时空聚类及时空序列相似性查询关键问题研究[D].江西理工大学.2013

[8].孙洪峰.针对区间型时间序列的降维与相似性查询研究[D].大连理工大学.2013

[9].汤春蕾,董家麒,戴东波,朱扬勇.一种序列模式的相似性查询算法[J].计算机研究与发展.2011

[10].毛红保,冯卉,杨建华,刘亚军.面向相似性查询的时间序列距离度量方法述评[J].计算机工程与设计.2010

论文知识图

序列相似性查询系统的体系结构1 基于改进的 BORDA 计数法的多元时间序...序列相似性查询的关键问题:横向...在GenBank中的序列相似性查询在GenBank中的序列相似性查询东方(A)股票交易情况

标签:;  ;  ;  ;  ;  ;  ;  

序列相似性查询论文_李敏,于长永,张峰,马海涛,赵宇海
下载Doc文档

猜你喜欢