张 云,马霄腾,曾亚恒
(南京国电南自自动化有限公司研发中心,南京 210007)
随着电力系统安全自动装置的产量越来越大,大批量装置生产过程中的质量保证和生产过程效率优化环节被提到更重要的位置。装置从生产线上下来后,由于刚刚生产和生产过程本身的原因,可能会出现少量漏焊、虚焊、松动和器件损毁等硬件缺陷,另外在软件和配置文件下载灌装过程中,有可能出现版本不一致,配置错误等软件缺陷。需要及早在出厂前暴露,并且硬件器件性能也需要运行一段时间来稳定。
因此需要在生产制造流程中增加一道72 h装置高温老化的工序,将装置放在高温老化车间中带电运行72 h,尽快暴露软硬件隐患和缺陷,作为其中加速装置硬件具有一致性和稳定性,提前暴露装置软硬件缺陷,是保证装置长期可靠运行的不可或缺的重要一环。
对大批量装置生产高温老化后的异常结果进行快速分析和定位,是很有价值的工作。目前每台装置高温老化后的异常分析和判定工作,都是通过人工检查来进行,不仅效率低,而且对工人技术要求极高,并且准确度不高。随着装置类型和数量的大幅增加,导致该流程时间成本和人工成本更加高昂,需要立即优化和提升。
针对该生产需求,提出了一种针对安全自动装置的集群式高温老化异常监视方法,并相应开发了1套针对大批量装置高温老化异常的监视软件,用来进行异常现象监视。
集群式装置高温老化监视层级结构如图1所示。为了实现同时批量监视装置高温老化异常,建立了2层结构,每辆通电车包括20台装置,通过1台交换机进行级联,然后10辆通电车的交换机再级联到集群式高温老化监视软件所在的交换机。
图1 集群式装置高温老化监视层级结构
为了简化管理和配置,每辆通电车的所有装置都是同类型装置。高温老化软件通过2级对装置高温老化进行异常监视管理。
集群式装置老化异常监视的主要流程如图2所示。流程的绝大部分步骤都由以前的人工操作改成由专门开发的集群式高温老化监视软件来替代。步骤的详细细节在后续章节中进行说明。
图2 集群式装置老化异常监视流程
本方法和软件实现的详细方案如下。
由于生产装置很多,需要提高高温老化效率,可以批量进行高温老化。高温老化异常监视软件提供集群式批量分层老化异常监视功能。老化监视软件同时最多管理10辆通电车,将每辆通电车作为1个通电管理和异常监视单元,每辆通电车单元最多管理20辆同类型装置。
每辆通电车单元提供以下几种主要功能。
“启用”:该辆通电车纳入了通电老化异常监视管理。
“禁用”:该辆通电车退出了通电老化异常监视管理。
“开始通电”:该辆通电车开始启动一轮通电老化。
“结束通电”:该辆通电车结束当前通电老化。
“通信检查”:对该辆通电车的所有装置进行装置通电老化前和监视软件的通信完好性检查。
“异常关键字设置”:对该辆通电车所有同类型装置进行装置通电老化前的日志异常记录关键字选择和设置。
“异常记录分析”:通电过程中,轮询监测并上传保存的装置通电日志异常记录供查阅。
3.2.1 通信稳定性检查
在装置高温老化前,老化监视软件以每台通电车为单位和该通电车的每台老化装置之间进行通信稳定性检查,通过巡检报文的正常应答,确认通信正常,防止通信连接不正常,导致高温老化时无法进行日志异常记录轮询。
3.2.2 日志异常关键字设置
在装置高温老化前,老化监视软件预先匹配设置的日志异常关键字,来检索装置日志记录中是否存在异常日志记录。
为了既有操作简便性,又有适应未来的灵活性,装置老化监视软件内置了不同平台类型的日志异常记录关键字表供匹配选择。但同时为了适应将来新装置平台和装置类型,装置老化监视软件提供可编辑调整日志异常记录关键字表功能。
典型的日志异常记录关键字,如上电,复位,CRC(循环冗余校核)不一致,闭锁,看门狗,通信中断等。
当确认通信完好并且设置日志异常关键字后,就可以进行72 h高温老化。
当通电车进入高温车间,老化监视软件点击该通电车单元的“开始通电”按钮,则开始72 h高温老化过程。同时通电车上所有装置的通电老化开始时间就是按下该按钮的时间。装置记录下该时间,作为后续分析该装置高温老化时的异常日志记录的开始时刻。
当通电车准备退出通电老化实验时,老化监视软件点击该通电车单元的“结束通电”按钮,则结束通电车单元此轮高温老化过程。通电车上所有装置的通电老化结束时间就是按下该按钮的时间。装置记录下该时间,作为后续分析该装置的异常日志记录的截止时刻。
注意:高温老化异常监视是一个动态过程,以每辆通电车为单位,可单独进行高温老化投退,而不是集齐所有通电车的所有装置才进行高温老化,这样适应制造中心流水线的流程。
3.4.1 运行状态日志记录方法和格式
装置高温老化过程中,运行软件内置运行状态日志记录功能,用于运行状态记录便于进行后续问题分析。示例见表1。
表1 日志记录格式示例
(1)日志结构:日志所有内容按文本格式记录。
日志每条信息分行记录,以换行符“ ”结束。
最大日志条目数有限。
日志结构分为2个区域:日志头部区域和日志具体条目区域。
(2)日志头部区域记录如下信息:日志格式版本,日志总条目数,日志当前有效条目数,最新日志写入位置。
(3)每条日志条目记录如下信息:记录时间,记录详细信息。
(4)日志顺序循环覆盖。最新日志覆盖最旧的日志。
3.4.2 周期轮询和分析日志异常记录
在72 h高温老化过程中,老化监视软件每隔2 h轮询,按通电车单元→装置的层级调阅每台装置的日志记录并进行详细分析。日志轮询和异常分析流程如图3所示。
图3 日志记录轮询和异常分析详细流程
3.4.3 老化异常日志记录详细信息显示
老化监视软件的告警界面上装置分板卡列表详细显示本装置老化期间检测到的所有异常日志记录,并按事件先后次序排列。
为了便于对装置高温老化发现的异常现象与该装置生产环节的其他信息建立关联,进行后续跟踪和异常现象综合分析。装置高温老化监视软件扫描装置序列号,将装置序列号和高温老化异常日志记录信息自动上传到MES系统(生产管理系统)的数据库。
装置高温老化异常记录上传和建立关联方法如下。
(1)在MES生产管理系统的数据库上建立新的老化异常信息表。
信息表主要条目:装置序列号,异常板卡来源,记录时间,异常关键字,记录详细信息。
(2)用序列号扫描枪扫描装置序列号。
(3)高温老化监视软件网络连接MES系统的数据库。
(4)上传装置序列号和老化异常记录信息数据到数据库。
(5)MES系统通过装置序列号来关联装置生产过程中的其他信息。
当发现装置高温老化过程中出现异常日志记录后,需要对装置高温老化异常原因进行离线深度分析,便于改进。方法如下。
(1)生产制造专业技术人员分析装置高温老化出现的异常记录现象与MES系统中记录的该装置生产制造其他环节发现的异常现象是否有相关性和一致性,比如单板测试环节,装置联调环节。
若有相类似的现象,则分析这些现象是否为同一原因产生的。
(2)在MES生产管理系统的数据库中统计分析同类装置中出现类似老化异常记录的概率分布情况。
分析该异常记录现象是偶发性还是大面积异常现象。
若是出现大面积异常现象,则要彻底搞清原因,不然会出现批次质量问题。
(3)结合异常日志记录和后续联调测试记录,由专业技术人员继续分析,必要时,需要进一步实验和测试。比如硬件系列分析与测试:金相分析,扫描电子显微镜及能谱分析,X射线无损分析,热变形测试,振动测试等。比如软件系列分析与测试:缺陷复现,外部压力测试,逻辑分析等。
最终分析清楚哪个环节导致的原因:硬件设计、硬件制造、软件配置、软件设计、版本匹配和使用不当。
(4)根据分析定位的异常原因,进行后续改进和优化,比如:替换器件,保证器件质量一致性,提升制造工艺,优化生产流程;硬件参数容量冗余设计,修正软件缺陷,更改配置,增加调试项目清单等。
本文介绍了一种电力系统安全自动装置的集群式高温老化异常监视方法和软件。通过在生产制造中心大规模推广该方法和软件,取得了明显的经济效益。显著降低了对一线工人的技术要求,由以前熟练掌握装置内部功能细节的技术工人,降低为仅仅会操作电脑即可的简单技术工人。大幅节省大批量装置高温老化流程环节的工时,工时缩短70%。并提高装置高温老化异常现象人工检查时的正确检出率。为公司产品质量缺陷及早暴露提供了更好的手段,从而提升了公司的自动化产品出厂质量。