基于模式识别的电能表监测数据的处理
DPC密度峰值聚类
输入:用于模型训练的数据集
输出:划分
- 计算任意两点间的距离
- 计算局部密度
- 计算相对距离
- 以
为横轴, 为纵轴画出决策图 - 利用决策图,
和 大为簇中心点, 小但 大为噪声点 - 把剩余点分配到最近邻且中心局部密度比它大的簇中
基于两步分配策略和共享近邻相似度的密度峰值聚类方法
输入:样本数据集
输出:聚类结果
步骤一:对数据集
步骤二:计算距离矩阵
步骤三:计算每个样本点的局部密度
此处的局部密度为基于共享近邻的局部密度衡量,共享近邻为样本点之间共同的
其中,
步骤四:计算每个样本点的相对距离
将聚类过程中的相对距离定义为:
在上式中,
步骤五:计算决策值
步骤六:构建决策图或者根据排序好的
步骤七:在决策图中选择右上角的点或者在
步骤八:进行必然从属点分配,得到初步聚类结果。
必然从属点,假设已知样本点
步骤九:进行可能从属点分配,得到最终聚类结果。
可能从属点,已知点
必然从属点的分配策略:
输入:初始聚类中心集
输出:初步聚类结果
-
初始化队列
,将初始聚类中心集合 全部放进队列 -
选取队列
的队头样本 ,标记已访问,找出 点的 近邻集合 -
任选集合
中的一点 ,如果 满足这两个条件 - 它是未分配点
- 点
与点 的共享邻居满足必然从属点分配判断式,则将它赋予样本点 的类别标签,并加入队列 队尾,遍历整个集合 。
-
遍历队列
,直到队列 为空,得到初步聚类结果
可能从属点分配策略
输入:初步聚类结果
输出:最终聚类结果
- 构造全
辨识矩阵 - 从辨识矩阵
中挑选一个样本 , 表示行号,统计其 近邻中属于各个不同簇类的数量,即当 的 近邻中属于类簇 的样本有 个时,就在辨识矩阵 所对应的第 行 列记为 ,遍历整个辨识矩阵。其中 , - 找出
中最大的点 (第 行第 列),如果 则将其对应原矩阵的样本点 归属于类簇 ;如果 ,则令 ,扩大其 近邻的搜索半径范围,同时更新辨识矩阵 。其中 - 若所有的样本分配完成,结束算法2,否则转步骤2
在通过上述的基于两步分配策略与共享近邻的密度峰值聚类对区域总站中对区域中全部电能表的监测数据进行模式识别的过程中。
首先,通过区域总站与所有电能表之间的通信过程进行数据采集,在区域总站中获取到电能表的实时监测数据,在区域总站对监测数据进行后续的存储管理之前,需要对实时采集到的监测数据进行异常识别。
基于模式识别的实时监测数据的异常检测逻辑过程:
- 通过历史数据进行模式识别,建立不同模式的模型,如DPC模型
- 获取电能表的实时监测数据
- 将实时监测数据放入DPC模型,在聚类模型中通过实时监测数据点呈现出的与簇类中心的相对距离进行异常检测
- 对检测出的异常数据通过重采样的方式进行处理,消除异常电能表监测数据
在这个过程中,存在什么问题,在模式识别的过程中,是否需要模型的动态更新进行模式识别的优化。
在现有的通过聚类模型进行电能表实时采集数据的检测过程中,需要通过历史数据进行模式识别模型的建立,并且通过每个电能表的历史监测数据所在的簇类进行模式标签确定,之后对于电能表通过该模式对应的数值变化模式进行异常监测。从而保证对于电能表监测数据采集的准确性。
但是在这个过程中因为存在着民用电能表的使用模式变化,所以需要在模式识别的过程中对单个电能表出现的模式变化进行进一步的异常检测优化,也就是对电能表的每日子序列放入模型进行识别优化,在这个过程中对于用电时序数据在聚类模型中的簇类评估,需要通过新增时序数据在子序列数据空间中与簇类中心点之间的近邻关系进行判断。但是在近邻关系的判断过程中需要计算新增每日用电时序数据与数据空间中每个序列之间的相似程度,在对实时数据进行异常监测的过程需要耗费较多的时间,不具有实时性,所以在这个过程中,需要对于获取到的密度峰值聚类模型,需要通过新增的每个电能表的每日时序数据进行与聚类中心之间的距离判断,之后通过距离关系进行所属簇类
步骤一:通过区域总站对电能表的每日数据同步进行电能表的每日新增用电数据采集。
步骤二:通过电能表的用电模式变化过程中的波动程度对电能表每日子序列之间的距离进行优化,并根据优化后的子序列距离获取离群因子
- 通过区域电能表的历史用电数据获取用于模式识别的聚类模型。
- 通过新增每日用电数据在聚类模型中的变化信息获取模式波动程度。
- 通过模式波动程度对单个电能表的子序列距离进行优化,并根据优化后的距离获取新增子序列的波动程度。
步骤三:通过优化后的离群因子进行电能表用电异常检测过程。