...手机男性手机的聚类分析-水清木华科技
万明傲
[摘 要]随着信息技术的发展,数据挖掘技术得到了广泛的关注,聚类分析数据挖掘是其中一个重要的研究方向。聚类分析的方法主要有层次方法、划分方法、基于密度的、网格的以及模型的方法,聚類分析已经广泛地应用于模式识别,数据分析,图像处理,以及市场研究等。本文对供电系统中聚类分析的应用进行进一步探究。
[关键词]聚类分析;数据挖掘;
中图分类号:T4 文献标识码:A 文章编号:1009-914X(2017)28-0083-01
在电力系统中,无论是发电厂、变电所还是调度所,无不记录着大量的关于电气元件、电能信息等方面的数据,加之由于我国实施电力市场改革,各个发电厂每30min向电力公司进行一次发电量和电能价格的报价,以参与竞价上网,因此有着巨大的市场信息数据有待分析处理。面对这种数据的增加,将数据挖掘中的聚类分析法应用到电力体统中,利用现有的计算机技术以及各个相关领域的知识,以这些积累下来的数据为研究对象,找出隐藏在这些数据背后的有用的知识来,从而为人们的决策提供有力的依据。
1.聚类分析方法概述
聚类技术的优越性主要体现在算法方法,算法的好坏主要通过算法的可伸缩性、处理不同类型属性的能力、发现任意形状的聚类、最少的参数和确定参数值的领域知识、处理噪声数据的能力、对于输入记录的顺序不敏感、高维性、基于约束的聚类以及可解释性和可用性进行衡量,目前聚类分析算法可以划分为以下几类: 层次方法、划分方法、基于密度的方法、基于网格的方法和基于模型的方法。
1.1 层次方法
通过将数据划分为若干组形成树形的结构来进行聚类分析,根据构建数方式的不同也可分为自顶向下的分裂算法和自底向上的凝聚算法两种。
1.2 划分方法
划分方法是指将给定的大量数据通过一定的规则或不同的划分方法分成多个组或簇,每个组中都应该至少包含一组数据,同时,每个组之间具有显著的不同,不同类型的数据只能属于不同的组。通过划分法形成的每个组中的数据具有很强的相似性,便于进行整体分析。
1.3 基于密度的方法
该方法是指通过相邻局域的密度超过某个阈值而发生持续聚类的方法,也就是说,在每个给定的区域内都将包含一定数目的点,从而通过该方法来过滤掉一些异常点,提高数据分析的效率。
1.4 基于网格的方法
该方法将数据对象划分为有限数目的单元型式,从而形成一个网络结构,在网格上进行聚类操作,加快了处理速度。
1.5 基于模型的方法
可以将每个已有的簇假定为一种模型,通过寻找对该模型的最佳拟合而优化给定数据与模型间的适应性,其数据一般是通过潜在的概率分布生成的,算法一般采用统计学原理或神经网络的方法。
此外,随着不同于传统存储的静态数据的流数据的大量产生,也为相应的流聚类分析方法研究提供的基础,成为近年来研究的热点方向。
2 聚类分析法在供电系统中的应用
2.1 聚类分析在电力客户分类中的应用
客户分类是企业通过有效的分类收集、整理和分析客户档案材料,根据客户的不同的特点,把一个巨大的、复杂的客户群分成几个不同的行为特征和属性的目标客户的过程。客户的分类是相对的,同一个客户群体里的客户并不是完全一样的,他们只是在某一方面或是他们都共同拥有某一个特征,随着客户的发展,同一个客户群体里的客户也在发生变化,企业及时根据客户的特征重新分析,对客户的分类原则进行调整。客户分类在某种意义上来说是一个整合聚集的过程。利用数据挖掘的聚类分析法可以给企业决策者提供非常实用的管理依据。通常的聚类分析步骤如下:1、判断数据性质。逐个扫描数据样本,对比每一个样本与前一个样本的关系,用于判断该数据样本是否有聚类特征,若有则继续执行,否则认为该数据不适合聚类分析;2、划分数据群。利用某个聚类算法将一个合适聚类分析的数据群D分割成不同的数据群C={C1,C2,...,Cp}。其中D=C1UC2U…Ucp;3、判断数据群属性。根据被分割的字数据群中,Ci,i=1,2,…,p,各数据的自然属性,归纳总结出该子数据的特征。若自数据群Cj中的特征集合为R—{r1,r2,…,rq}—。一个数据群可能有多条特征即q≥p;4、评价聚类结果。依据被归纳总结出的自数据群的特征建立评估函数Eval(r),评估每一个字数据群特征,针对不同的特征,函数Eval(r)是不同的。一个被评估成很高可信度的聚类结果才能被应用于实际,否则将重复上述过程,只能找到一个可用结果为止。
2.2 聚类分析在电力系统不良数据中的应用
电力网络中大量实时数据的准确与否决定着电力系统运行的安全与稳定。为了确保电力系统运行的可靠性,就必须对电力系统的不良数据进行辨识诊断。系统的故障都具有一定的模糊性,将模糊数学理论引入电力变压器的故障诊断,对电力变压器的油中气体成分分析数据进行聚类分析。论文通过K-means和Isodata算法的比较,采用ISODATA算法进行聚类分析,同时在聚类中利用K-means算法对ISODATA算法进行数据预处理利用其结果得到ISODATA算法初始聚类中心。并借助Matlab软件作出二维图形和三维图形的投影图,能够更直观的看到聚类的效果,结果证明ISODATA算法有利于工程实际应用。
2.3 聚类分析在超短期电力负荷中的应用
目前的电力系统负荷按照监测周期的长度,大体上可以分为超短期、短期、中期和长期四种。在一天中各个时间段特定时刻监测到的负荷值称为超短期电力负荷,其数据间隔一般为15 min,对数据值进行分析及预测可以为电力系统的安全监视和预防性控制提供重要依据。当前国内外学者对超短期负荷的研究主要集中在负荷值的预测上,提出了传统预测方法和现代预测方法。尽管预测方法日趋成熟,但是并没有对负荷的预测值或实际值做进一步数据处理,电力系统需要人为的观察负荷值或负荷曲线(预测或实际),然后做出调度决策,容易造成一定的误差,并且带来一定的不便。由于传统的模糊C均值(FCM)聚类具有对初始条件敏感、容易陷入局部最优解等缺点,采用蚁群聚类得到最优的类别数,作为FCM聚类的初始条件。通过聚类将负荷数据软性划分归类,可以减少人为失误。然后对聚类结果用LM神经网络进行预测。最后通过仿真实验验证该方法的合理性、有效性。
2.4 聚类技术在电力营销系统中的应用
聚类技术在电力营销系统中的应用主要体现在对不良数据进行修正、对负荷进行预测、对变压器故障进行判别、对电力用户进行分类、对用户信用进行评价等。对不良数据进行分析主要是建立在传统的聚类算法基础之上,对聚类过程中所应用到的基本参数进行分析,并对其中的相关负荷特征曲线进行提取,对不良数据进行修整。对用户的用电数据通过选取最佳的角力方法,得出具有代表性的负荷曲线,使电力企业能够对用户的用电模式有所了解,并制定出相应购电合同,从而增加电力企业的经济效益。电力企业一般根据用户所提出的不同需求,采用聚类分析的方式,将用户分成不同的组别,并根据分组结果对不同组别之间存在的差异进行分析,并针对分析结果制定出不同的营销策略,在很大程度上促进了电力企业在经济效益方面的提高。对用户信用进行评价主要是通过建立基于聚类分析法的用户信用评价算法,对不同的用户组别制定不同的量化依据,从而实现对用户信用等级评定。
3 结束语
聚类分析是数据挖掘的重要功能之一,随着对数据挖掘的重视,使得聚类分析的相关研究也取得了长足的发展,其相应的聚类分析方法已经应用到了人工智能科学的所有方面,且取得了良好的效果,相信在未来随着信息技术的进步,聚类分析将会有更为广阔的应用空间。
参考文献
[1] 李仁义.数据挖掘中聚类分析算法的研究与应用[D].成都:电子科技大学,2012.
[2] 傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434.
[3] 李仁义.数据挖掘中聚类分析算法的研究与应用[D].成都:电子科技大学,2012.
[4] 傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434.
[5] 许进文.数据挖掘中聚类分析算法及应用研究[J].计算机光盘软件与应用,2013(06).
[6] 陈吉平.构建0racle高可用环境:企业级高可用数据库架构、实战与经验总结[M].北京:电子工业出版社,2008:245-302.endprint