2021EDBT-Twin Subsequence Search

作者: Caucher | 来源:发表于2021-03-17 11:14 被阅读0次

2021EDBT-Twin Subsequence Search
DP常见套路
2018-06-03
POJ 3061: Subsequence
522. Longest Uncommon Subsequenc
Numbers of palindromic subsequen
673. Number of Longest Increasin
ARTS-0
2019-03-28
2019-02-09

标题：时序数据中的twin子序列搜索

编者的思考：

本文基于切比雪夫距离做similarity search，距离衡量是比较新颖的，但是索引/查询方法不算新颖，基本上基于iSAX的思路，首先对序列进行表示，然后按范围层次化构建索引，用插入的方法找近似和距离下界，再提供剪枝方法。本文甚至都没用表示法，只用了全序列切比雪夫距离的计算找最接近的节点，算法还有很多改进的空间。
本文做的是subsequence matching，但是没有挖掘到overlapping, continuous的关系(ULISSE)，粗粒度的把所有subsequence加入索引中，还有优化空间。

ABSTRACT

本文是基于切比雪夫距离的subsequence matching，称为twin subsequence。
首先改造了现有的索引方法，使之可以计算此问题；然后定制设计了TS-Tree Index，效果更好。

1. INTRODUCTION

用了一幅图来表达某些时候切比雪夫距离比ED更容易捕捉序列特征。

image.png

实现twin search，可以用sweepline顺序横扫，但太慢，UCR Suite的方法不适用于此。
改造的索引方法有KV-Index和iSAX，设计了一个filter-verification进行改造。定制的索引用了Minimun Bounding Time Series（MBTS），在每个节点都有一个upper/lower bound series。

2. RELATED WORK

sweepline的UCR Suite和Matrix Profile，不适用于切比雪夫距离；
wavelet信号比较古老的降维，后来有SAX分支的多种方法，ADS+基于query workload有自适应，MESSI,ParIs做了分布式；
最近有KV-index；
通用的任意 $L_p$ norm index方法；
之前做了基于切比雪夫距离的pair和bundle的挖掘，用的是sweepline的方法；后来又对地理数据，基于ED和MBTS做了索引。

3. PROBLEM DEFINITION

3.1 Problem Statement

twin subsequence和ED之间有一定关系，如下图：

image.png

有关z-normalization方面，作者提供了三种方案，RSM，NSM，先全序列norm了之后，再SM。

3.2 Filter-verification approach

思路是先筛出candidate，然后再计算精确距离进行verification，如果是z-norm的，可以先选Q中绝对值大的点，可以做early abondon，类似于UCR Suite的技术。

4. TWIN SUBSEQUENCE SEARCH WITH EXISTING INDICES

主要思想是如果两个序列是twins，即它们对应位置的极值差都不超过 $\epsilon$ ，那么它们的均值差也不超过 $\epsilon$ 。
还有，如果两个序列是twins，那么它们中的任一对对应的子序列，也是twins。

4.1 KV-Index

因为均值有范围了，所以KV-index也可以用了，但是不适用于NSM。

4.2 iSAX

每一个segment均值皆有范围，iSAX树索引可以做LB近似判断，也可以使用。

5. THE TS-INDEX

上面两个算法，用于此场景时，会有大量的假阳性，性能不高，下面提出定制款。

5.1 Index Structure

MBTS，是一组时间序列的包络序列，每个位置都取相应位置的极值，进行包络。
索引也是类似的结构，每个叶子节点指向一组subsequences，用MBTS进行summarize。中间节点指向若干叶子，也是这些叶子的MBTS，越向根部越松，范围越宽。所有叶子节点永远在同一个level上。

5.2 Index Construction

中间节点有下层孩子节点，叶子节点的孩子节点就是各个subsequences，扇出有区间限制。
插入的时候逐层选择距离最小的节点进行继续。
一旦插入溢出（叶子节点就是承载足够多的序列，中间节点就是超出扇出限制），就要分裂成两个同层兄弟节点。对于叶子节点，分裂就选两个种子subsequence（距离最远的），然后对剩下的subsequences依次进行选择插入，目标函数是MBTS的扩张要尽可能小。对于内部节点，就要选择两个基线子节点，然后计算其他子节点和基线子节点的距离，选距离小的插入。
注意，这样的分裂方式，是会向上传播的，即下层节点的分裂可能会导致上层节点的扇出增加，然后也要分裂，逐级向上传递。
也就是说，这是一颗向上生长的树（类似B+树）。

5.3 Query Execution

查询基于的一个Lemma是：如果Q和某个subsequence S是twins，那么它和包络S的区域B的距离一定不大于 $\epsilon$
接下来就是遍历+剪枝了。对于z-norm，也可以实现early abondon。

image.png

6. EXPERIMENTAL EVALUATION

image.png

在Query Length，数据集都很小的情况下做的实验，比对应的iSAX和KV-INDEX略好，仍需敲定。

网友评论

本文标题：2021EDBT-Twin Subsequence Search

本文链接：https://www.haomeiwen.com/subject/waidcltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2021EDBT-Twin Subsequence Search

编者的思考：

ABSTRACT

1. INTRODUCTION

2. RELATED WORK

3. PROBLEM DEFINITION

3.1 Problem Statement

3.2 Filter-verification approach

4. TWIN SUBSEQUENCE SEARCH WITH EXISTING INDICES

4.1 KV-Index

4.2 iSAX

5. THE TS-INDEX

5.1 Index Structure

5.2 Index Construction

5.3 Query Execution

6. EXPERIMENTAL EVALUATION

相关文章

2021EDBT-Twin Subsequence Search

DP常见套路

2018-06-03

POJ 3061: Subsequence

522. Longest Uncommon Subsequenc

Numbers of palindromic subsequen

673. Number of Longest Increasin

ARTS-0

2019-03-28

2019-02-09

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读