无监督的数据异常检测算法(2)- COF
1.COF-基于连通性的局部异常因子检测方法
在LOF中,
其使用一种称为链接距离的最短路径方法来估计邻域的局部密度。从数学上来讲,这个链接距离是连接所有
虽然COF克服了LOF算法对于序列数据和低密度数据对象不能有效度量的缺陷。但是由于COF增加了连接路径的建立,因此计算会比LOF更为复杂。
1.1 Enhancing effectiveness of outlier detections for low density patterns - 提高低密度模式离群点检测的有效性
介绍
基于密度的异常检测方案LOF,并未明确的将所检测的数据分为离群值与非离群值。如果需要划分的话,就需要人为给出阈值对其进行分隔。由于数据的LOF值是通过比较其与邻域的密度获得的,因此它比基于距离的方案具有更强的建模能力,基于距离的异常检测方案进对于数据本身的密度??
”Algorithms for Mining Distance based Outliers in Large Datasets”-大数据中基于距离的异常值挖掘方法
基于密度的方案的弱点在于它只考虑了一个对象与其邻居的密度之间的差异。因此,如果异常值的密度接近其邻居数据点的密度,则其有效性就会降低。因此,本文提出一种基于连通性的离群因子(COF)方案,并说明COF相较于LOF在效率和性能上的改进。
提出问题
However,one weakness of the density based scheme is that it may rule out outliers close to some non-outliers pattern that has low density.
虽然基于密度的异常值检测方案很强大,然而,基于密度的方案的一个弱点是它可能会排出接近某些具有低密度的非异常值模式的异常值。
虽然高密度可以反映数据的逻辑形式,顺序或排列。但是它并不是必要条件,至少在当前文献定义的形式中是这样。因此,离群值并不总是比它所偏离的模式的密度低。如下图示例:
在上图中,
基于上述问题,通过COF进行解决。
COF概述
上述问题的解决方案基于区分“低密度”与“孤立性”的想法。低密度通常是指一个物体“近”邻域中的物体数量较少,而孤立性指的是一个物体与其它物体“连接”的程度。因此,隔离可能意味着低密度,但另一个方向并不总是正确的。如上放示例图中,点
在一般情况下,低密度离群值是偏离高密度模式的结果,而孤立的离群值是偏离连接模式的结果。离群值指标应该考虑到这种情况。
我们观察到具有低密度的团通常表现出低维结构,例如上图中
首先引入一些符号,然后再设定基于连通性的异常检测方法。
定义1:
在以下定义中,令
定义2:
A set based nearest path, or SBN-path, from
on is a sequence such that for all , is the nearest neighbor of set in 翻译不明白了=。=
假设一个集合最初只包含一个数据
定义3:
令
其中
我们称每一个
当SBN路径中某一次路径寻找中出现多个相同的邻居点,通过预先设定好的规则打破平局,SBN路径就是唯一的!
定义4:
令
因为从
在上式中,将求和符号后面的分式视为权重,那么平均链接距离可以被视为SBN轨迹的成本描述中的加权距离平均值。将较大的权重分配给较早的“terms”。因此,如果靠近
定义5:
令
它表示一个点偏离一个模式有多远。
举例
以上图为例。数据点的分布模式是一条线,并且有两个离群点。
假设:
我们现在计算三个样本点的平均链接距离,以此来显示这些样本点的COF值是如何以适当的方式反映“偏离模式”的。
对于点1:
第
从点1到
这个SBN路径是怎么来的呢?这里就是通过SBN- Trail,也就是SBN路径的寻找轨迹而获得的。
从1开始,距离1最近的是2,第一步轨迹就是<1,2>,现在走到了2,下一步就是从2开始寻找下一步走到哪。
这里也就明白了,因为会存在在选择下一步走到哪时,从当前位置到多个点的距离相同,这里就需要通过提前制定的规则进行选择,以保证唯一路径。
当前点1的路径轨迹为:
文中的cost description的意思就是,路径中每一步的步长,文中使用的是
每一个轨迹的步长为:
根据点
此时对于点1,有:
根据
计算可知:
同理计算点2的平均链接距离:
点7的平均链接距离:
可以同样地计算其它点的平均链接距离,对于偏离“模式”较多的点,例如点1,点2,其成本描述列表中的前几项往往比偏离较少的点的值更大。成本描述列表中的项目被赋予更大的权重,它们对相应的平均链接距离贡献更大,平均链接距离是成本描述中的值的加权和。
因此,强烈移动的点将比弱移动的点具有更大的平均链接距离。在一般情况下,强烈移动点的
COF计算步骤
1. 距离度量尺度
距离度量方式同1.2.1.2中介绍的距离度量方式
在下述内容中统一使用
2. 第 距离
- 在集合中至少存在
个点 使得 - 在集合中至多存在
个点 使得
简而言之:点
3. 距离邻域
设
此处的邻域表示的是具体的点,这个邻域集合中包含所有到点
4. 局部最短路径
从第
A set based nearest path, or SBN-path, from
on is a sequence such that for all , is the nearest neighbor of set in
对于所要计算基于连通性的局部离群因子的点
- 从点
开始在 中寻找距离 最近的点 ,即 。 - 再从点
开始不断通过最短的轨迹花费寻找下一个点,直到走遍 。
行走的路径就是局部最短路径。
这里会出现两个问题
Q :当出现有多个点可以选择的时候,该选择哪一个点?
A:原论文中所述为,定义一个规则来打破平局,是的最短路径具有唯一性。
Q:当出现不同方向,路径应该是什么样的?
A:像二叉树一样来确定最小的路径轨迹花费。
将从
5. 局部最短路径轨迹花费
在寻找最短路径时,每走一步的步长
将第
6. 局部平均链接距离
根据最短路径轨迹花费定义局部平均链接距离
此处的
7. 基于连通性的局部离群因子
将点
其表达的意思即为: