探索数据挖掘技术在甲醇价格预测模型中因素分析的应用

2015-12-01 01:57窦昀翬
上海化工 2015年9期
关键词:数据挖掘港口甲醇

窦昀翬

上海华谊(集团)公司(上海 200025)

化工管理

探索数据挖掘技术在甲醇价格预测模型中因素分析的应用

窦昀翬

上海华谊(集团)公司(上海200025)

介绍了数据挖掘技术的含义,以甲醇价格预测模型的建立为例,通过对已知因素的分析、计算和统计,确定了影响甲醇价格变化的因素及其影响值。运用数据挖掘技术客观地显现影响甲醇价格变化的真实因素,避免人为情绪波动对预测工作产生负作用。

数据挖掘价格预测因素分析

信息和数据的交互是信息时代的特征和产物,随着电子商务的兴起与发展,人们已经认识到信息和数据的重要性,它既是全程工作运转的记录累积,也是驱动商业行为的动力之源。正如阿里巴巴、京东等公司的掌门人所夸耀的,目前他们的交易平台可以在用户模糊输入产品信息进行产品搜索时,自动匹配出买家和卖家的精准内容,从而使用户在数量庞大的产品中找到自己最想要的或相关度最高的产品。这种互联网技术的应用,正是基于数据挖掘(Data Mining)技术而实现的。

1 数据挖掘的定义

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又具有潜在有用信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB(太字节,1 TB=1024 GB)计。从海量数据中提取有用的知识成为当务之急,数据挖掘就是为顺应这种需要应运而生并发展起来的数据处理技术,是数据库知识发现(Knowledge Discovery in Database)的关键步骤[1]。

数据挖掘功能一般可以分为两类:预测和描述。描述性挖掘功能用来描述数据库中数据的一般特性,而预测性挖掘功能是在现有数据上进行推断,以进行预测。数据挖掘是从大量数据中抽取知识的过程,鉴于数据本身的性质,那些符合推理和统计原理、信息论、遗传算法和神经网络的知识被首先运用到知识发现的算法设计中。[2]

数据挖掘与传统意义上的统计学不同。统计学推断是由假设驱动的,即形成假设并在数据基础上进行验证;数据挖掘是由数据驱动的,即自动地从数据中提取模式和假设。数据挖掘的目标是提取可以容易转换成逻辑规则或可视化表示的定性模型,与传统的统计学相比,更加以人为本。

2 问题的提出

甲醇价格预测模型通过分析历年数据,借助统计学理论来推导甲醇价格后市变化的可能性。正确的模型可以降低主观判断中人为因素的影响,并适当延长后市判断的时间周期,相比于原来仅依据经验来进行中长期预测的结果,具有可度量性。

建立甲醇价格预测模型,首先需要找到影响甲醇价格变化的因素。在现实工作中,影响甲醇价格的因素有很多,如上游的价格和供给、下游需求、进出口情况、产量、区域内的库存能力、运输条件、气候、地理环境及不可预知的各类突发因素等,这些因素和甲醇价格之间有着必然关系或间接关系,可能随时都会对甲醇价格的变化产生单独作用力或合力。人们在事后回顾价格走势时,通常容易指出影响甲醇价格的变化主要因素,但在分析影响因素、预测后市价格时,如果仅凭主观判断和经验判断,会出现众说纷纭、“百家争鸣”的情况,特别是在行情胶着的情况下,更难以理清影响价格因素的关键和核心。

统计分析是应用最早、也是目前最成熟和行之有效的一种数据挖掘方法,其关键是构造合适的统计模型和数学模型来解释被分析的数据。该方法要求使用者具有较丰富的相关领域知识。统计分析一般由两个步骤构成:首先,使用者从数据库中选择抽取适当的数据;其次,使用者执行统计分析工具提供的可视化功能和分析功能来寻找数据间的关系,并构造统计模型和数学模型来解释数据。其中第二步是反复的和不断求精的。

本课题搜集了2008年1月至2014年7月的甲醇月度价格,并采集了每月的主观和经验因素,通过数据挖掘技术,从定性和定量两方面确定影响甲醇价格的因素指标及影响比重。数据处理采用Eviews 6.0软件。

3 影响因素的计算

从现实情况了解到,目前影响甲醇价格变化的因素可分为宏观因素、主观因素和突发因素等,其中纽约商品交易所轻质低硫原油(WTI)期货交易价格、工业品出厂价格指数(PPI)、制造业采购经理人指数(PMI)为宏观因素,中国及周边地区港口的月度均价、华东地区主流煤炭交易价格、全国甲醇月度产量、华东地区甲醇价格等为主观因素,局部战争、气候、地质及交通变化等为突发因素。

3.1数据的归一化

为统一数据的量化,方便对数据进行分析和计算,需要对已采集到的各类数据进行归一化处理。本课题采用通过计算变量的标准化得分来进行数据的归一化处理,转换函数为:

其中x为原始样本数据,u为样本数据的均值,σ为样本数据的标准差。

3.2异常值的分析与处理

通过分析各个指标的时间序列趋势图(见图1),发现一些异常值,这些异常值大体可分为两类:

(1)统计错误,如2012年12月的煤炭价格;

(2)受突发因素影响,如2008年12月由于金融危机导致的甲醇价格下降和2013年11月由于国外装置故障导致的甲醇价格突然上涨。

图1 甲醇价格影响因素趋势图

统计错误导致的异常值主要通过移动平均法来处理,而突发因素导致的异常值则不需要处理。

3.3甲醇价格与各影响因素之间的相关性分析

图2为甲醇价格与各影响因素的趋势图,表1给出了甲醇价格(出罐价格)与各因素的相关系数,由此可看出,甲醇价格与各影响因素具有一定的相关性,尤其与中国港口到岸价格、WTI价格、进口价格、PPI的相关程度都很高(相关系数>0.5),这说明利用甲醇价格与影响因素之间的关系进行预测是可行的。

左侧线条自上而下依次为:中国港口价格、甲醇港口出罐价格、WTI价格、甲醇进口月均价格、国内煤炭月均价格、甲醇月进口量、PPI、PMI、国内甲醇产量

表1 甲醇出罐价与各因素的相关系数

3.4各影响因素之间的相关性分析

(1)各国港口到岸价之间的相关性

中国及周边国家和地区主要港口甲醇交易月度价格趋势见图3,通过计算后得到的各因素相关系数值见表2。

虚线处从上至下依次标识为:甲醇的中国港口价格、印度港口价格、中国台湾省港口价格、日本港口价格、东北亚港口价格和韩国港口价格

表2 各国港口价格的相关系数

从图3和表2可以看出各国港口甲醇到岸价格具有很强的相关性(相关系数都在0.95以上),而在进行统计分析时不能同时考虑它们,只能选择一个做代表,综合考虑,认为选择中国港口价格更具有代表性和现实意义。

(2)各因素之间的相关性

各因素之间的相关性见表3,所有的国外港口价格已用中国港口价格代替,可以看出,某些影响甲醇价格的因素之间也存在较强的相关性,这种相关性会对统计分析结果产生影响,所以需要对这些因素进行筛选,这将在以后的模式匹配工作中进行。

表3 各影响因素之间的相关系数

4 影响因素的确定

4.1纯统计学方法

逐步回归法是多元回归分析中克服变量相关性的常用方法。运用逐步回归法得到的回归结果如表4所示,拟合程度为96.5%。表4表明在考虑变量相关性的条件下,对甲醇价格有显著影响的变量包括:中国港口价格、产量、WTI价格、煤炭价格、出口量和PPI。

4.2考虑变量的实现意义

根据业内专业人士的经验建议,在现实情况中,“进口量”对甲醇价格的影响远大于“出口量”,因此选择“进口量”作为影响因素。用“进口量”替代“出口量”的回归结果如表5所示,在回归模型中,虽然“进口量”对甲醇该变量不会影响其他变量的统计性质。

表4 运用逐步回归法的回归结果

5 结论

通过分析计算和数据挖掘技术的应用,甲醇价格的影响因素最终确定为中国港口价格、产量、进口量、原油价格、煤价和PPI。这些因素覆盖了宏观因素和微观因素两方面,而且因素影响值的大小也通过计算得以确定。

由于影响甲醇价格变化的因素存在复杂性,本研究也存在一定的局限性:第一,没有考虑到突发性的影响因素,该类因素虽然可以采集,但因为具有临时性和多变性,无法确立和计算;第二,由于数据采集的原因,所有影响因素的采集时间存在不同步,如原油价格是采集当期之后一个月的期货价,主要反映了人们对甲醇原料供给的信心影响指数;第三,可能存在还未发现的影响因素,需要今后在工作中不断发现积累和计算。

表5 “进口量”替换“出口量”的回归结果

[1]数据挖掘技术简介[Z].[2004-01-29].http://www.yesky. com/430/1763930.shtml.

[2]陈畴镛,陆锦洪.数据挖掘方法在供应链产品价格预测中的应用[J].杭州电子工业学院学报,2002,22(6):19-23.

Application of Data Mining Technology in Factors Analysis of Methanol Price Forecast Model

Dou Yunhui

The implication of data mining technology is introduced.Taking the methanol price model as an example, the known factors are analyzed,calculated and counted,and the factors affecting the methanol price and corresponding influence values are determined.Applying data mining technology can objectively reflect the real factors that affect methanol price and avoid effects of human emotions in forecasting work.

Data mining;Price forecasting;Factor analysis

TP 311.13

窦昀翬男1979年生本科工程师从事化工产品专业销售管理工作

2015年7月

猜你喜欢
数据挖掘港口甲醇
低温甲醇洗甲醇换热器腐蚀原因分析
聚焦港口国际化
中国港口,屹立东方
探讨人工智能与数据挖掘发展趋势
港口上的笑脸
直接转化CO2和H2为甲醇的新催化剂
基于并行计算的大数据挖掘在电网中的应用
惠东港口
上半年甲醇市场走势分析及下半年展望
一种基于Hadoop的大数据挖掘云服务及应用