周欣
摘要:随着很多高新技术的进步与发展,比如说大数据、云计算、社交网络、移动通信以及大数据等新兴的信息化技术正在逐渐渗透到各行各业中。其中电力企业作为我国技术密集型与资产密集型的典型行业代表,数据量正在迅猛增长。信息技术已经在生产、基建、办公、经营、管理等多个领域全方位覆盖。
关键词:电力信息化;电力招标采购;大数据;数据分析
1 大数据分析基本方法
1.1 数据统计 / 分析
通过统计与分析实现满足大多数的用户需求,其中一些实时性要求较高的需求经常采用 Oracle Exadata、EMC GreenPlum、以及基于 MySQL 的列式存储Infobright 等工具方法。一些批处理操作或者基于半结构化数据的需求则可以使用 Hadoop 工具进行统计与分析,大数据的统计和分析的主要特点和挑战在于涉及的数据量大,进行计算分析时其对系统资源,尤其是 I/O 的并发要求非常高。本文使用的主要统计和分析地方法如下:(1)数据 ETL:收集来自信息系统的历史和实时数据,转为特定格式后导入分析平台的存储模块。(2)分类统计:用简单的归纳和数学统计的方法整理历史上的既有数据生成报表等内容。(3)多维分析:维即分类统计的基本元素,一般为一条记录中的一个字段,多维分析是指组合多个维,并对他们进行分析操作,如缩放单位尺度,选取特定范围等。
1.2 数据挖掘
与统计和分析最大的不同在于数据挖掘往往没有预先设定好的内容范围,其主要突出现在数据层面上进行的基于各种算法的计算和分析,从而实现预测的效果,并作为一些高级别数据分析的凭证和基础。数据挖掘的典型算法:用于聚类的K-Means、用于统计学习的 SVM 和用于分类的 Naive Bayes 等。数据挖掘的主要分析工具 :spark、Hadoop Mahout 等。数据挖掘过程的主要特点和挑战在于挖掘的算法非常的复杂,且计算涉及的数据量以及计算总量都非常多且复杂。数据挖掘目的在于:通过数据利用算法找出潜在的关联性,预测一些将来的发展趋势。
2 招标采购数据分析用例
2.1 数据清洗和分类统计
分类统计旨在解决招标采购数据的杂乱性,需要将其进行清洗,清洗的主要工作在于字段格式和字段选项的统一,如将 10kv 电缆归纳为电力电缆,否则填报人员的不同用词将会导致统计困难。对于使用自然语言描述的招标内容则需进行分词后提取有用的信息再进行分类。分类统计需要建立多个维度综合统计,包括时间、物资类别、委托单位、中标单位、金额等,作为报表数据的来源和后续分析的基础,整理后的维度越多,数据质量越高,则分析结果越为准确。如按年度分析各单位的委托金额,同时可以看到各年度的总金额如下:
如将时间维度缩放到月,可以看到更细颗粒度的信息。
2.2 关联分析
关联分析旨在找到两个或多个统计项之间的联系,通常以关联度表示,正值表示两者相关性更高,负值则反之,数值越大关联性越强。经过此类分析,我们能找到原本在业务上就有关联的物资,如采购电缆的同时往往需要一些周边产品。还有一些关联物资并不存在实际工作上的相关性,造成他们具有相关性的可能性是季节,地域等其他方面的原因。委托公司可根据此项分析结果,在发布一类物资的招标信息时,可以同时考虑另一种相关性强的物资的采购,哪怕他们并不是真正有关,从而可以提高工作效率。
2.3 流程分析
流程分析可以找到各招标类别在各环节上的耗时,如统计申报,立项,发标,开标,中标,结项等环节在物资框架,专项,超市化等招标类型下的耗时。最后的结果存在较大的差异性,因此必须与实际工作结合分析,有可能能找到可以优化的工作流程。
2.4 项目优化
此分析需要与招标采购信息系統实时合作,旨在找到可以合并的招标项目,由于电力系统物资的特殊性,不可能有大范围的厂家进行生产投标,也不可能有大范围的委托单位,往往同类物资的委托方,厂家也都相同 ,通过解读分析数据,可以避免重复发布,提高工作效率。合并的方法是设计一套合并权重,针对不同的合并目标设置不同的数值,最后得出一个数值化的合并推荐度。项目合并有两个主要方向,一个是合并委托方的招标信息,此类合并的关键权重值有:委托方,物资类别,招标时间。委托方得知自己发布了相近的委托后,可以根据实际情况决定是否可以将其合并为同一份委托。另一个是合并厂家的投标信息,此类合并的关键权重值有:物资类别,招标时间。厂家设置好自己的情况后,即可合并投递类似的委托。这些推荐信息有可能可以帮助双方更快更好地进行合作。
2.5 项目预测
此分析针对特定物资进行分析,绘制时间 - 金额的招投标信息散点图,随后对此数据做线性回归拟合,便可以预测下一个时间段可能的采购数量,此类预测对数据量有一定的要求,建议针对电缆等长时间采购的常规物资进行分析。
3 应用实效
基于上述分析方法,电力招标采购信息分析系统可以让用户选择所需的分析维度和分析层次,实时生成报告图表,并提供小段文字解读,供用户参考使用。还提供了年度和月度报告。数据分析可以提高现有信息管理工作的专业化,精细化水平。
基于大数据分析使我们能更好地管理电力招标采购中的各类信息,并且经过一定的分析提炼出它的隐藏价值,本文较粗浅地给出了一些应用实例,希望可以借以提高日常工作的效率。
参考文献:
[1]P Harrington.“Machine learning in action”[M].Greenwich:Manning Publications,2012.
[2]王瑞雷,栾静,潘晓花 , 卢修配 . 一种改进的中文分词正向最大匹配算法[J].计算机应用与软件 ,2011(03).
(作者单位:江苏省设备成套有限公司)