美文网首页
数据挖掘(异常检测)——相似度

数据挖掘(异常检测)——相似度

作者: EL33 | 来源:发表于2021-05-21 00:42 被阅读0次

DataWhale 组队学习 2021.05 组队学习系列笔记四

异常检测(相似度)

LOF 方法是一种典型的基于密度的高精度离群点检测方法。
在 LOF 方法中,通过给每个数据点都分配一个依赖于邻域密度的离群因子 LOF,进而判断该数据点是否为离群点。若 LOF >> 1, 则该数据点为离群点;若 LOF 接近于 1,则该数据点为正常数据点。

实现(sklearn):

sklearn.neighbors.LocalOutlierFactor(n_neighbors=20, ***, algorithm='auto', leaf_size=30, metric='minkowski', p=2, metric_params=None, contamination='auto', novelty=False, n_jobs=None)[source]

  • n_neighbors = 20:即k,检测的邻域点个数超过样本数则使用所有的样本进行检测
  • algorithm = 'auto':使用的求解算法,使用默认值即可
  • contamination = 0.1:范围为 (0, 0.5),表示样本中的异常点比例,默认为 0.1
  • n_jobs = -1:并行任务数,设置为-1表示使用所有CPU进行工作
  • p = 2:距离度量函数,默认使用欧式距离。(其他距离模型使用较少,这里不作介绍。具体参考官方文档
    from sklearn.neighbors import LocalOutlierFactor
    clf = LocalOutlierFactor(n_neighbors=k + 1, algorithm='auto', contamination=0.1, n_jobs=-1)
    clf.fit(data)
    # 记录 k 邻域距离
    predict['k distances'] = clf.kneighbors(predict)[0].max(axis=1)
    # 记录 LOF 离群因子,做相反数处理
    predict['local outlier factor'] = -clf._decision_function(predict.iloc[:, :-1])

相关文章

  • 数据挖掘(异常检测)——相似度

    DataWhale 组队学习 2021.05 组队学习系列笔记四 LOF 方法是一种典型的基于密度的高精度离群点检...

  • 异常检测算法速览(Python代码)

    一、异常检测简介 异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点、异常值检测等等。 1...

  • 数据相似度检测

    http://blog.sina.com.cn/s/blog_1777542730102xuqz.html上面这个...

  • 数据挖掘(异常检测)——概述

    DataWhale 组队学习 2021.05 组队学习系列笔记一 核心内容: 一、 异常检测是做什么:划分正常数据...

  • 异常点检测方法

    一、基本概念 异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。 常见的异常成因:数据来源于不同的类(异常对象...

  • 异常检测(四)——基于相似度的方法

    异常检测——基于相似度的方法 基于距离的度量 基于密度的度量 1.概述 “异常”通常是一个主观的判断,什么样的数据...

  • 异常检测

    一、基本原理 异常检测(Anomaly Detection或Outlier Detection)指的是通过数据挖掘...

  • Isolation Forest

    摘要:iForest用于挖掘异常数据,如网络安全中的攻击检测和流量异常分析,金融机构则用于挖掘出欺诈行为。算法对内...

  • 0x14 异常挖掘,Isolation Forest

    摘要:iForest用于挖掘异常数据,如网络安全中的攻击检测和流量异常分析,金融机构则用于挖掘出欺诈行为。算法对内...

  • 数据挖掘(异常检测)——线性方法

    DataWhale 组队学习 2021.05 组队学习系列笔记三 补充内容:一、PCA实现流程,设有 m 条 n ...

网友评论

      本文标题:数据挖掘(异常检测)——相似度

      本文链接:https://www.haomeiwen.com/subject/goyijltx.html