韩 戟何成浩苏 星施成云刘东映
(1.云南电网有限责任公司物资部,昆明 650011;2.云南电网有限责任公司临沧供电局,云南 临沧 677000;3.昆明能讯科技有限责任公司,昆明 650051)
一种基于SVM的电力行业物资需求预测方法
韩 戟1何成浩2苏 星2施成云2刘东映3
(1.云南电网有限责任公司物资部,昆明 650011;2.云南电网有限责任公司临沧供电局,云南 临沧 677000;3.昆明能讯科技有限责任公司,昆明 650051)
为了减少物资需求审核工作量,提高审核效率和准确率,提出一种基于SVM的电力行业物资需求预测方法。该方法首先分析历史样本数据,把物资需求审核转换分类问题,然后对数据预处理,结合电力领域知识库,定义及提取需求特征,最后通过支持向量机训练出模型,实现对物资采购数量和种类的审核。实验结果表明,该方法审核精度为87.3%,说明利用领域知识库,基于能够SVM的电力行业物资需求预测方法能够有效提高审核效率和准确率。
支持向量机;分类;领域知识库;物资采购;审核
随着电网行业的迅速发展,物资采购量日益增长,迫切需要在物资管理系统中引进一个有效的审核模型,用机器协助人工提出物资采购审核参考意见,以减少审核工作量,提高审核准确率。
近年来,统计机器学习技术突飞猛进,支持向量机(SVM)便是其中显著代表。支持向量机是以统计学习理论为基础的一种机器学习方法,它克服了神经网络和传统分类器的过学习、局部极值点和维数灾难等诸多缺点,具备较强的泛化能力,现已是机器学习的主流方法,在各领域广为使用,屡试不爽[1-2]。例如,基于SVM的天气预报,基于SVM的WiFi定位,SVM在微博话题跟踪的应用等,并且取得良好的效果。
针对电网行业物资需求审核实际情况,审核结果无非就是根据申报的各项来判别提出的需求是合理还是不合理,完全可以符合一个分类问题,根据需求参数把审核结果分为两类。这样,就可以采用主流机器学习方法解决审核问题了。同时,该行业上报的物资需求记录具有不完全结构化、短文本的特点,在当前分类的方法中,SVM是基于统计的机器学习模型,它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。鉴于SVM的特点,其在小样本分类问题上的效果已经在文本分类、手写体识别、自然语言处理等方面得到了验证[2]。
本文围绕如何让电网行业需求计划审核转换为一个分类问题,利用历年经验数据,通过机器协助审核,减少审核工作量,降低对审核人员的要求,提高审核效率和准确率,提出一种基于SVM的电力行业物资需求预测方法。
本文创造性地提出,将电力行业物资需求预测问题转换为文本分类问题。基于SVM的电力行业物资需求预测模,首先,抽取物资需求历史的文本数据,在电力领域知识库下进行特征提取,特征向量通过SVM进行电力行业文本内容分析模型训练。然后,选出电力行业物资文本数据,对半结构化数据预处理,进行领域实体识别等信息抽取,确定好物资需求文本特征[3-4]。最后,SVM 通过训练好的模型,对行业物资需求做出预测。
1.1 电力行业物资需求模型特征选择
首先对文本进行预处理,预处理包括,分词、去除停用词(stop words)、词频统计等。首先对电力行业文本进行中文分词处理,采用中科院计算所的分词系统接口实现,并在此基础上借助于电力领域知识词库,进行领域词分词处理,并进行领域词标识[5]。文本分词完成后,由于该半结构化需求文本的特殊性,并没有停用词出现,所以不需要去除停用词这一步骤[7]。本文采用的是NLPIR分词系统,NLPIR分词系统在汉语分词体系架构下增加了对英文词法分析的支持,可以自动识别英文词汇的原型、词性标注、命名实体与关键词;并在当前汉语词法分析的基础上,实现了文档的完整语义分析,自动提取文档的人名、地名、机构名、文章作者、发布的媒体、关键词与摘要,是当前中文信息处理的必备神器[8-9]。然后扫描文档,统计出每个词的词频、领域内文档频率及非领域内文档频率。
巧妙借用文档聚类的思想,根据基建工程物资需求,整理出一些典型工程样本,从样本里选出特征值,对项目名称、所属部门、物料等单独做特征不太灵活的样本值进行预处理、分词、实体识别后,进行特征选取,再确定特征集。对于建设性质、项目类别、等级、工期等样本值可以单独做特征,得到特征如 2014年临沧供电局办公用品(低值易耗品)项目,从中提取为临沧、供电局、办公用品 3个特征,建设性质里提取新建、绪建特征等,每一个特征为一维,构造一个SVM向量空间[10-11]。
表1 构建的特征向量
1.2 电力行业物资需求模型训练
在对文档进行训练和分类前,把文档表示成计算机可以处理的形式[12]。
选择已审核的物资需求的历史数据记录 4000条,将每一条记录做成一个txt文本,标上类别号。
以预先准备好的4000个训练文本作为输入,进行分词、去停用词等处理,然后进行TFIDF词频统计、缩放等构造标准的输入向量,格式见表2。
<索引>是以1开始的整数,可以是不连续的,表示在一篇文档中出现第几个特征项;<特征值>为实数,在此设为该特征项的权重。
2.1 实验数据分析
为了验证提出基于 SVM文本分类方法解决物资需求预测的有效性,本文设计了几种分类方法的对比实验,测试语料采用了云南电力近两年的4000篇历史审核数据作为领域测试文本。实验初步选取,将文档频率大于一定阈值α 的词作为特征空间,选取1000维特征空间。分别采用改进TFIDF、DTFIDF方法、WTFIDF方法选择特征空间和特征权重进行计算。实验训练了一个两类分类器,用于对审核合理文本和不合理文本进行分类。
表2 构建的特征向量
表3 三种不同文本分类方法的时间测试结果
2.2 实验评价方法
采用准确率、召回率、F值的评价方法,具体评价参数见表4。
表4 三种不同文本分类方法的时间测试结果
2.3 实验结果分析
实验结果表明:测试的准确率为 87.8,召回率为97.825,而准确率的没有达到90%以上原因是,系统中很多细节方面有待改进,比如文本预处理提高,一些特征不易获取等都直接影响到审核的准确率;表明该模型对解决实际问题还未考虑周全,有待进一步融合更多特征。
本文针对电网行业物资需求审核准确率和效率问题,提出了一种基于SVM的电力行业物资需求预测模型。通过把物资需求审核转换为分类问题,对历史采购数据进行预处理,利用领域知识库,抽出特征转换成特征向量,由支持向量机训练成模型,实现物资采购种类预测,物资采购数量预测。实验结果表明,本方法相对于同类分类方法精度高、可靠性好。需要说明的是,①本文的数据来源于历年项目采购数据,这些数据不包含那些难于获得的特征,比如地理环境,天气状况以及工程项目更详细的信息等,这些特征也是影响物资需求的重要因素;②随着时间的推移,技术革新,原模型没有的一些新的零件,物品涌现,预测精度自然会下降;③如何获得这些特征并融合进模型来提升预测准确率,如何提升对新物品的采购数量和种类预测的准确率,是下一阶段研究的重点。
[1]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1): 26-32.
[2]Chih-Chung Chang,Chih-Jen Lin,LIBSVM:a Library for Support Vector Machines[DB/OL].http://www.csie.ntu.edu.tw/cjlin/libsv,2001-05-15/2003-10-25.
[3]刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30(4): 14-15,175.
[4]刘晓志,黄厚宽,尚文倩.带专业词库的特征选择[J].北京交通大学学报(自然科学版),2006,30(2): 97-100.
[5]张玉芳,彭时名,吕佳.基于文本分类 TFIDF方法的改进与应用[J].计算机工程,2006,32(19): 76-78.
[6]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1): 32-42.
[7]文勖,张宇,刘挺,等.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2): 33-39.
[8]俞鸿魁,张华平,刘群,等.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2): 87-94.
[9]周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5): 804-809.
[10]王浩畅,赵铁军.基于SVM的生物医学命名实体的识别[J].哈尔滨工程大学学报,2006,27(z1): 570-574.
[11]陈锦,常致全,许军.基于HMM的生物医学命名实体的识别与分类[J].计算机时代,2006(10): 40-42.
[12]刘非凡,赵军,吕碧波,等.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1): 7-13.
The Kind of Electric Power Industry Material Demand Forecasting Method based on SVM
Han Ji1He Chenghao2Su Xing2Shi Chengyun2Liu Dongying3
(1.Yunnan Power Grid Co.,Ltd,Kunming 650011;2.Yunnan Power Grid Co.,Ltd,Lincang Power Supply Bureau,Lincang,Yunnan 677000;3.Kunming NXScience and Technology Co.,Ltd,Kunming 650051)
The method,based on SVM,a kind of electric power industry material demand forecasts ,has been proposed,in order to reduce audit work of the material demand,improving the efficiency and accuracy.Firstly,the method analyzed historical sample data and translated materials demand audit into classification problem.Secondly,it need preprocessing the data,making it standardization.Defining and extracting demand characteristics by combining power domain knowledge base.Finally,support vector machine,by training model,finished the audit work on types and amounts of material purchase.
SVM; classification; domain knowledge base; material purchasing; review
云南电网有限公司科技项目基金资助项目(YNKJ00000099)
韩 戟(1971-),男,山东省济南市章丘市人,本科,高级经济师,主要从事物资仓储配送、招标采购与综合管理工作。