基于模式识别的电能表监测数据的处理(DPC密度峰值聚类)
本文最后更新于256 天前,其中的信息可能已经过时,如有错误请发送邮件到big_fw@foxmail.com




基于模式识别的电能表监测数据的处理

基于模式识别的电能表监测数据的处理

DPC密度峰值聚类

输入:用于模型训练的数据集

输出:划分

  1. 计算任意两点间的距离
  1. 计算局部密度
  1. 计算相对距离
  1. 为横轴,为纵轴画出决策图
  2. 利用决策图,大为簇中心点,小但大为噪声点
  3. 把剩余点分配到最近邻且中心局部密度比它大的簇中

基于两步分配策略和共享近邻相似度的密度峰值聚类方法

输入:样本数据集,其中是样本数量,样本近邻数

输出:聚类结果

步骤一:对数据集进行预处理,其中包括标准化处理、缺失值处理等

步骤二:计算距离矩阵

步骤三:计算每个样本点的局部密度

此处的局部密度为基于共享近邻的局部密度衡量,共享近邻为样本点之间共同的近邻相似度。对于共享近邻相似度

其中,表示样本点之间的共享近邻集合,表示共享近邻集合中的样本点数量。表示与共享近邻集合中任意一点的欧氏距离,只有当都属于彼此的近邻集合时才计算两点之间的共享近邻相似度。对于距离之和的倒数,可以用于衡量两个点的局部信息也就是两点周围的密度。基于两点间的共享近邻相似度的计算可以进一步获取到局部密度,也就是样本点的局部密度为与其相似度最高的个点的相似度之和:

步骤四:计算每个样本点的相对距离

将聚类过程中的相对距离定义为:

在上式中,表示样本点到其近邻集合中每个数据点的距离和,对于样本点表示在局部密度大于的样本点中选取一点,并满足两点间的距离与其各自近邻距离之和的乘积最小。对于低密度区域点,其近邻距离相对较远,通过上式的计算可以对相对距离进行补偿。

步骤五:计算决策值,并将决策值进行降序排列。

步骤六:构建决策图或者根据排序好的值构建

步骤七:在决策图中选择右上角的点或者在图中选择决策值较大的点作为样本聚类中心,得到样本初始聚类中心集合。

步骤八:进行必然从属点分配,得到初步聚类结果。

必然从属点,假设已知样本点的簇类标签为,样本点为未分配点,当满足下式条件时,则称是簇的必然从属点。

步骤九:进行可能从属点分配,得到最终聚类结果。

可能从属点,已知点的簇标签为,点为未分配点,当满足下式条件时,则称是簇的可能从属点。

必然从属点的分配策略:

输入:初始聚类中心集,样本近邻数,距离矩阵

输出:初步聚类结果

  1. 初始化队列,将初始聚类中心集合全部放进队列

  2. 选取队列的队头样本,标记已访问,找出点的近邻集合

  3. 任选集合中的一点,如果满足这两个条件

    1. 它是未分配点
    2. 与点的共享邻居满足必然从属点分配判断式,则将它赋予样本点的类别标签,并加入队列队尾,遍历整个集合
  4. 遍历队列,直到队列为空,得到初步聚类结果

可能从属点分配策略

输入:初步聚类结果,样本近邻数,未分配点数量,聚类中心个数

输出:最终聚类结果

  1. 构造全辨识矩阵
  2. 从辨识矩阵中挑选一个样本表示行号,统计其近邻中属于各个不同簇类的数量,即当近邻中属于类簇的样本有个时,就在辨识矩阵所对应的第列记为,遍历整个辨识矩阵。其中
  3. 找出中最大的点(第行第列),如果则将其对应原矩阵的样本点归属于类簇;如果,则令,扩大其近邻的搜索半径范围,同时更新辨识矩阵。其中
  4. 若所有的样本分配完成,结束算法2,否则转步骤2

 

在通过上述的基于两步分配策略与共享近邻的密度峰值聚类对区域总站中对区域中全部电能表的监测数据进行模式识别的过程中。

首先,通过区域总站与所有电能表之间的通信过程进行数据采集,在区域总站中获取到电能表的实时监测数据,在区域总站对监测数据进行后续的存储管理之前,需要对实时采集到的监测数据进行异常识别。

基于模式识别的实时监测数据的异常检测逻辑过程:

  1. 通过历史数据进行模式识别,建立不同模式的模型,如DPC模型
  2. 获取电能表的实时监测数据
  3. 将实时监测数据放入DPC模型,在聚类模型中通过实时监测数据点呈现出的与簇类中心的相对距离进行异常检测
  4. 对检测出的异常数据通过重采样的方式进行处理,消除异常电能表监测数据

在这个过程中,存在什么问题,在模式识别的过程中,是否需要模型的动态更新进行模式识别的优化。

在现有的通过聚类模型进行电能表实时采集数据的检测过程中,需要通过历史数据进行模式识别模型的建立,并且通过每个电能表的历史监测数据所在的簇类进行模式标签确定,之后对于电能表通过该模式对应的数值变化模式进行异常监测。从而保证对于电能表监测数据采集的准确性。

但是在这个过程中因为存在着民用电能表的使用模式变化,所以需要在模式识别的过程中对单个电能表出现的模式变化进行进一步的异常检测优化,也就是对电能表的每日子序列放入模型进行识别优化,在这个过程中对于用电时序数据在聚类模型中的簇类评估,需要通过新增时序数据在子序列数据空间中与簇类中心点之间的近邻关系进行判断。但是在近邻关系的判断过程中需要计算新增每日用电时序数据与数据空间中每个序列之间的相似程度,在对实时数据进行异常监测的过程需要耗费较多的时间,不具有实时性,所以在这个过程中,需要对于获取到的密度峰值聚类模型,需要通过新增的每个电能表的每日时序数据进行与聚类中心之间的距离判断,之后通过距离关系进行所属簇类

步骤一:通过区域总站对电能表的每日数据同步进行电能表的每日新增用电数据采集。

步骤二:通过电能表的用电模式变化过程中的波动程度对电能表每日子序列之间的距离进行优化,并根据优化后的子序列距离获取离群因子

  1. 通过区域电能表的历史用电数据获取用于模式识别的聚类模型。
  2. 通过新增每日用电数据在聚类模型中的变化信息获取模式波动程度。
  3. 通过模式波动程度对单个电能表的子序列距离进行优化,并根据优化后的距离获取新增子序列的波动程度。

步骤三:通过优化后的离群因子进行电能表用电异常检测过程。


文末附加内容
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇