郑 斌
(中国石化销售股份有限公司,北京 100728)
大数据技术是指实现一切大数据采集与预处理、存储管理、大数据分析挖掘、大数据安全和大数据可视化的技术手段,是大数据价值实现的重要条件。大数据技术能够从海量数据中快速获取有价值信息,因而获得快速发展。当前,大数据技术已经深入各行各业,尤其在金融、互联网、电信、电子商务等行业取得了显著的应用效果。
在质量管理领域,随着信息化水平提升,质量信息的获取越来越便捷,大数据技术与质量管理相结合成为企业提升质量管理的重要手段。应用大数据技术对产品质量信息进行管理,能够对海量的数据和信息进行分析、处理和预测,有助于加强质量预防,将质量控制关口前移;通过对大量数据的分析评价可以监视生产过程的动态变化和产品的特性及趋势,可以适当地采取预防措施并进行质量改进[1]。在我国,大数据技术在质量管理领域的应用日益广泛,在制造业质量管理、食品安全治理、政府质量监管等方面取得成功应用[2-7]。但在成品油销售行业,在质量管理方面开展大数据技术研究与应用的鲜有报道。
本文针对传统成品油质量管理中存在的突出问题,尝试利用大数据技术,挖掘质量数据背后的规律性和趋势性关系,在供应商油品特征画像、外采油品溯源以及汽油辛烷值指标检测方面进行了探索性尝试,并建立了成品油质量大数据分析平台应用于质量管理当中,开创了运用大数据技术解决成品油质量管理问题的新思路、新途径。
成品油质量管理贯穿于采储运销的整个业务流程,业务链条长、涉及单位多、影响因素复杂。外采油品是销售企业重要的资源补充,也是最大的质量风险源,是质量管理的重点和难点。中国石化销售企业通过建立完善的质量管理体系,强化源头管理和过程管控,质量管理水平不断提升,但在防范外采质量风险、流通过程质量监控等方面,仍然存在一些传统管理手段难以解决的问题。
销售企业油品采购涉及的供应商数量众多。传统的质量管理,企业间乃至质检室之间数据不能共享,存在信息孤岛,质量管理人员只能了解自己范围内的供应商质量数据,对于供应商的产品质量特点认识存在局限。
外采油品来源复杂,产品质量良莠不齐,非法调和油品以及合格但不好用的油品在市场中长期存在,仅关注产品质量是否合格早已不能满足质量风险管控的要求。而识别潜在质量风险对于人员能力的要求较高,目前一线质检人员透过数据发现潜在风险的能力还普遍不足。
外采供应商为了将调和油品或源头不明的油品卖入销售企业,伪造油品来源的事件时有发生。识别和追溯外采油品的来源,是防范外采质量风险的重要手段。但传统的人工查验报告单真伪和比对质检数据一致性的方法准确性不高,质量管理人员鉴别油源真伪和追溯油品来源的手段有限。
汽油辛烷值和柴油十六烷值是汽柴油采购、储运和销售过程中重要的质量控制指标。销售企业点多线长面广,虽然实验室众多,但辛烷值机、十六烷值机等检测仪器往往一个省公司只有1台,检测需要跨区域送检,耗时长、成本高,是销售企业质量管理的瓶颈。
2011年,中国石化开始在销售企业建设实验室信息管理系统(LIMS),至2017年3月,建成了覆盖30多家销售企业、380多座实验室的集中式LIMS系统。销售企业LIMS系统的应用,实现了数据的集中存储和统一管理,采购、储存、运输、销售各环节的质量数据得以收集和积累,初步形成了中国石化的成品油质量数据库(检验样品数超过320万条)。海量质量数据的积累为应用大数据技术奠定了基础,因此,如何利用大数据技术,挖掘数据背后的规律,改进质量管理手段、提升质量管理水平显得尤为迫切。
用户画像是商业领域中典型的大数据分析应用,通过对用户历史数据的分析来对用户进行“标签化”处理,并且实现对于用户群体特征的概括,从而实现对用户的深度了解,并根据不同的应用场景转化为相应的商业价值。
为了便于管理人员准确地了解每个供应商的油品质量特点,借鉴用户画像的思路,尝试运用油品群落分析的方法,为供应商油品进行特征画像。油品群落分析的流程如图1所示。以汽油产品为例,采用决策树和K–means算法,建立了汽油质量群落划分模型。首先,按照油品来源,从业务意义上将油品划分为配置油和外采油。其次,根据配置油和外采油的特征,使用决策树分类模型,采用分类监督划分的方法,将油品划分为四大类(典型配置油、典型外采油、类配置外采油、类外采配置油)。然后,采用K–means无监督聚类的方法,根据油品间的相似性,将相似程度高的油品聚为一类,由此将每一大类油品细分为5个群落。最后,对每个细分群落的油品进行标签化(关键指标特征刻画描述),从而实现供应商油品特征画像。
图1 供应商油品群落分析示意
图2为某供应商92#汽油的群落划分结果。从图2可见,该供应商79.7%的样本落入典型配置油群落1,说明该供应商92#汽油的质量比较稳定,绝大多数属于这一类别。通过典型配置油群落1的特征标签(馏程类指标低,馏程短,20℃密度小,硫含量低),可以了解该供应商92#汽油的主要特征是馏程类指标低,密度低,硫含量低。通过油品特征画像,使质量管理人员统一了对供应商的认识,更加直观地了解供应商的油品特点,加深对于供应商的理解,从而在油品入库时更加高效、准确地进行质量把关。
图2 供应商92#汽油群落划分结果
为了解决外采油品人工溯源准确率不高的难题,提出了一种基于大数据算法辅助人工溯源的方法。出自同一生产企业的油品具有相似的质量特征,根据相近相似原理,如果能够从历史数据中找到与待溯源样本质量特征相似的油品,则可以根据相似样本的来源推断该油品来源。基于K近邻算法,构建了外采油品生产商匹配模型:以汽油为例,以汽油的常规理化指标(研究法辛烷值、硫含量、烯烃含量、芳烃含量等)作为特征向量,采用欧式距离作为衡量样本间相似度的度量方法。通过计算相似度在历史数据库中找出与待溯源样本最相似的5个样本,将该样本与5个最近邻样本的生产商信息进行匹配,当该样本与其中一个或多个样本的生产商信息匹配成功时,判断该样本所述生产商为真;否则,判断该样本所述生产商为假,该样本来源存疑,并给出预警。
典型的模型匹配结果如表1所示。
表1 生产商匹配模型的匹配结果
由表1看出,外采油样本(2130700)的模型匹配结果显示,在5个最近邻中有3个样本与该样本为同一个生产商,且样本距离最近,从而提示该溯源样本的油源为真实的。而对于未匹配成功的样本,除了来源预警之外,还可以提示油品可能的真正来源。外采油样本(2121049)的5个最近邻中,待溯源样本与第一个样本的相似度显著高于其余4个,指示这两批次油品可能来自同一来源。经过人工追溯核实,证实该两批次油品确实出自同一源头。将该模型进行部署应用,通过实时抽取LIMS数据,可以为每一批次的外采油品进行实时的来源分析。经实践证明,该方法具有良好的可行性,能够有效辅助管理人员识别和追溯外采油品来源。
为了解决采储运销全环节质量管控中存在的汽油辛烷值指标检测难度大的问题,基于历史质量数据,研究构建了一种研究法辛烷值回归预测模型。
汽油的多项理化指标与辛烷值具有良好相关性,如烯烃、芳烃、MTBE等是汽油辛烷值的主要贡献者,烯烃、芳烃、氧含量与辛烷值具有直接且显著的相关性。基于成品油质量数据库中含有辛烷值检测结果的历史样本数据,提出一种汽油辛烷值的回归预测方法。采用随机森林回归算法,选择与汽油辛烷值具有相关性、且常规检测易于获得的理化指标(烯烃含量、芳烃含量、氧含量、馏程和密度)作为自变量,建立了研究法辛烷值回归预测模型[8]。
将模型预测结果与标准辛烷值机检测结果的偏差进行了统计分析,并与销售企业目前常用的中红外分析仪的检测结果进行了比较。图3为回归预测模型与中红外检测的偏差分布图。由图3可见,该模型的预测精度很高,95%的预测结果偏差在1个单位以内,模型的预测精度显著优于中红外分析仪的检测精度,能够满足销售企业质量监控的需要。将预测模型进行部署,通过实时抽取LIMS数据库中新入库汽油的检测数据,从而实现了汽油辛烷值的在线预测。
图3 回归预测模型与中红外检测的偏差分布
基于LIMS系统的实时数据和大数据分析挖掘的研究成果,采用可视化技术,搭建了成品油质量大数据分析平台(见图4),形成了油品质量管理、供应商管理和管理驾驶舱3个应用模块,帮助管理人员更加直观地理解数据、科学决策。
图4 成品油质量大数据分析平台架构
3.4.1 油品质量管理模块
在油品质量管理模块,包括了供应商群落分析、油品生产商溯源、质量指标预警、辛烷值预测等功能。管理人员通过供应商群落分析,能够了解每一个供应商的油品特征,识别不同群落的油品差异,以及哪些供应商具有相似的质量特点,在质量把关时做到心中有数;通过生产商溯源,能够对每一批次油品的来源进行鉴别并辅助进行溯源。
除此之外,通过对历史数据的挖掘分析,制定了油品质量指标的量化评分规则,建立了油品质量量化评价及警示模型,对每一批次新进油品进行量化评价,并对得分较低的项目进行警示,辅助管理人员识别潜在质量风险,及时采取科学处置措施。
3.4.2 供应商管理模块
在供应商管理模块,包括了供应商指标分布、指标差异分析、质量指标控制、供应商量化评价等功能,管理人员能够从不同维度对供应商及其油品质量进行监控。通过指标分布及差异对比,了解供应商每一项质量指标的分布特点,以及不同供应商的指标差异;通过质量指标控制,可视化地监控供应商的质量状态,及时掌握供应商产品质量波动;通过供应商量化评价,全面了解供应商的产品质量水平,为优化供应商结构、提升采购质量提供科学支撑。
3.4.3 管理驾驶舱模块
在管理驾驶舱模块,涵盖了不合格油品情况、不合格指标趋势、内外油指标对比等多项功能,管理人员突破LIMS系统中只看到本省质量数据的局限,可以多维度了解全国的质量管理情况,不合格产品的分布及趋势,质量风险集中在哪些方面,以及配置油与外采油的质量差异,从而更好地管控采购油品的质量风险。
大数据蕴藏着巨大价值,要充分发挥大数据技术的优势,助推企业管理创新,防范质量风险,实现质量提升,还需要做好以下几个方面的工作。
随着信息化水平的不断提升,销售企业的大数据时代已经来临。传统的质量管理模式和方法,已经不能满足新形势下的管理需求。因此,必须改变传统的数据是静止的、陈旧的、过后无用的思维,树立数据是资源、数据是效益、数据分析是生产力的理念[3],在质量管理中充分运用大数据思维,提升大数据分析能力,从而实现质量管理的革新和提升。
大数据技术在防范质量风险、提升质量管理方面拥有广阔的应用前景。对采储运销全环节的质量数据进行整合,构建成品油全生命周期的管理数据链条,设定“质量预警阈值”,通过预警提前识别潜在风险,并有效追溯问题源头。对历史退货油品数据进行挖掘分析,确定问题油品的判定规则,从而对重复、异地提交的问题油品进行预警。打通不同信息系统间的壁垒,整合外采系统的供应商商流信息、LIMS系统的产品质量信息以及商客、零管系统的客户投诉信息,运用大数据技术,建立全面的供应商评价及信用体系,从而实现供应商精益管理。
本文中建设的成品油质量大数据分析平台,是基于LIMS系统构建的应用于成品油质量管理的数据分析应用平台。随着成品油储运物联网的建设与应用,将大数据、物联网以及云计算技术相结合,建设更广泛的企业级大数据技术平台,提升数据资源的利用能力,推进智慧管理模式建设,将是未来的发展方向。
针对传统成品油质量管理手段存在的局限性,将大数据技术引入成品油质量管理,在油品特征画像、外采油品溯源以及汽油法辛烷值预测等方面开展了探索性研究,提出了新的解决方案。建立的成品油质量大数据分析平台,对于提升管理人员对油品质量的洞悉力,防范外采油品质量风险,提升供应商精细管理起到了显著作用。大数据技术在销售企业质量管理中具有广阔的应用空间,随着质量数据日益积累、应用范围不断扩大,以及数据挖掘能力的提升,必将为销售企业质量管理升级和提升经营创效能力发挥更大的作用。