对电脑体育彩票终端机故障规律及其数据安全保障体系的探讨

2015-12-20 07:36陈德军
电子测试 2015年23期
关键词:终端机故障率保障体系

陈德军

(盐城市体育彩票管理中心 ,224005)

对电脑体育彩票终端机故障规律及其数据安全保障体系的探讨

陈德军

(盐城市体育彩票管理中心 ,224005)

本文借助电子产品可靠性方面的研究成果对彩票终端机故障规律进行探讨,揭示了终端机故障的宏观必然性与微观偶然性,以此为基础提出了故障控制策略,并对电脑彩票终端机数据安全保障体系建设问题提出了设想。

电子产品;故障曲线;控制策略;保障体系

0 引 言

“十二五”规划期间,预计盐城电脑体育彩票销售规模达45亿元,为体育事业的发展和社会公益做出了重大的贡献。回顾电脑体育彩票终端机使用情况,分析其故障规律,总结维修经验,对保障电脑体育彩票数据安全,保持电脑体育彩票健康、持续、稳定发展具有重要意义。

体彩刚进江苏之际,根据国家体彩中心的安排,江苏省体彩中心对当时福建电脑体育彩票系统进行了考察,参照当时福建体彩机器配置模式自行采购零部件组装了300台PC机作为电脑体育彩票销售终端机。这批机器大约使用了一年半时间。对于这批机器,一方面是零部件的可靠性不高,另一方面国家体彩中心配套的加密卡稳定性有缺陷,再加上当时终端机软件设计在故障容错能力方面有欠缺,在实际使用中故障率偏高。基于这个情况,再加上对统一管理因素的考虑,国家体彩中心决定放弃自行组装PC的代用模式,选用专用POS机作为彩票销售终端机,99年11月江苏的PC兼容机全部换用日本欧姆龙公司的RS6500专用POS机,盐城亦是。此后几年又陆续淘汰了RS6500型POS机,更换成高腾、英特达几批不同型号的机器。到2015年全市高腾、英特达装机总量达到1060台。这些机器因出厂批次的不同,配用的零部件有差异,先后曾经大面积发生打印机类、键盘类和读票机类等问题,我市级中心会同上级部门研究并采取改进措施,有效地解决了问题。

从近几年全省故障统计情况看,全省终端机故障率处于一个相对稳定时期。据省中心技术部门汇总统计各市上报的2012年~2014年度共36个月的终端机故障情况,终端机的故障点主要集中在打印机类(占48.11%),键盘类(占20.35%),读票机类(占8%)三个方面,占终端机故障总数的76.46%。如果剔除打印机热敏头因长期使用受化学侵蚀和键盘物件布局不合理因素故障,以及销售员带电拔插现象,自2012年以来,全省连续三个月的终端机平均故障间隔时间(MTFB)都超过1万小时,不低于终端机出厂可靠性指标(MTFB=1万小时)。这个情况表示全省在用的终端机的主机没有出现因使用时间长而可靠性下降的问题。在此要作特别说明的是,盐城1060台终端连续使用近五年时间考验,每年故障点和故障率相对稳定,表明机器的故障率没有随使用延长而明显降低。市中心每月统计故障情况,目的在于及时监控全市终端机可靠性变化情况。在终端机可靠性没有出现明显下降情况,使用淘汰办法更换终端机不是控制机器故障率的合理做法。

夏季高温和雷雨天气对于电子产品来说,是不利的使用环境,也是电子产品故障高发的季节,我市许多彩票终端机在露天工作,加上通风降温不良,机器故障率季节性上升是自然规律,对此需要从改善环境方面采取措施,积极防范事故。不改善机器工作环境,仅靠换机器和备件是很难降低机器故障率的。如果我们仔细分析电子产品在使用中故障规律,就会发现不良环境下更换新机器会面临更大的故障高发风险。

1 对设备故障规律的探讨

从本质上看,所有产品都会发生故障,只是发生故障的时间取决于产品设计、选用的材料、产品的工作环境、以及设备承受的压力。产品故障有不同的发生模式,导致故障的原因也多种多样,质量监控中没有发现的制造缺陷,产品设计承载强度不够,材料选用不当,制造过程遗漏的污染物等等,都会导致产品发生故障或性能下降。一般而言,机械零件的寿命服从对数正态分布、正态分布或威尔分布,电子设备的寿命则服从指数分布,即电子产品可靠度为

(表1)

R(t) = P( T > t ) = (exp(-λt)

其瞬时故障率函数λ(t) = λ,是不随时间而变的常数。

美军对航空技术装备故障率做了大量研究,总结出6种基本类型故障曲线(如表1)。

浴盆曲线是一种典型的故障曲线。产品寿命初期故障率相对较高,这是由设计和制造上的缺陷,如材料不合格,装配不当,质量检验不认真等因素造成的。经过产品磨合和调试后,不合格的产品在正式投入使用前被淘汰掉。在早期的高故障期之后是产品的偶然故障期,也是产品的有用寿命期,其特点是故障率低且稳定。偶然性故障是由偶然性因素引起的,如制造工艺上的偶然缺陷、材料缺陷、维护不良、操作不当、以及环境因素等造成的。设备在什么时候发生偶然性故障是不可预测的。一般来说再好的维护工作也不能消除偶然性故障。在产品有用寿命期之后是耗损故障期,特点是随使用时间的增加故障率迅速上升,是由产品的磨损、疲劳、腐蚀、老化、耗损等因素导致产品内在的物理和化学特性发生变化而造成的。

机械动力类产品一般都有浴盆故障率曲线,产品寿命为正态分布,特点是产品寿命在T1~T2时间段的可能性很大,寿命少于T1时间或大于T2时间的可能性比较小。

电子类产品的故障率一般为常数,或早期产品寿命随时间略有变化,但很快进入稳定不变期。电子产品的寿命分布为指数分布,特点是使用时间超过某个特定时间Ts后,使用时间继续延长,寿命概率保持不变。换言之,虽然使用寿命时间T2比T1大,但T2出现的概率与T1出现的概率是相同的。这就是美国军方对电子产品不规定使用寿命限定的原因。例如美国的航天飞机,是60年代设计,70年代制造的,机上使用的计算机PC8080其民用产品是70年代后期投放市场的PC80计算机,其后出现了8086,80286,80386,486,586,PⅡ,PⅢ,PⅣ及I(X)型号。现在,时间过了30多年,民间的PC80计算机早无足迹,但美国航天飞机上的PC80机器至今还在继续使用。

2 对终端机故障机理的探讨

体彩销售终端机本质上是在一台普通计算机上配专用体彩销售软件而成的专用计算机,对其硬件故障的探讨可以完全引用计算机行业多年来积累起来的计算机故障机理研究成果。本节所用材料来自美国德州仪器公司技术开发组的P.Viswanadham & P.Singh 著《 Failure Modes and Mechanics in Electronic Packages 》一书。

2.1 电脑设备的故障类型

电脑彩票终端机出现的各种电子故障可归为短路故障、开路故障和间歇性故障三种类型。如雷击造成的Modem卡故障是典型的感应电击穿短路或烧蚀开路故障,而终端电子储存盘出现间歇性故障和开路故障。

2.1.1 短路故障

当在两条线路之间出现导一条导电路径时,就会发生电路短路。电荷迁移、金属迁移、离子污染、侵蚀、机械应力、制造缺陷等都是可能导致电路短路的原因。有时候,短路电流明显增大引起过载电流导致灾难性故障。电子产品起火就是短路故障的恶果之一。短路产生的大电流引起元件温度升高,如果再加上潮湿影响,高温会增强短路机制,最终导致设备故障。

2.1.2 开路(断路)故障

某个电路的走线因工作应力而断裂使电路不导电,就出现开路故障。当焊接点有极细小的裂缝时,断路故障呈现出高阻抗电路特征。电子设备中不同材料不同的热胀冷缩特性在材料之间产生机械性热应力,是导致电路断路故障的主要原因。腐蚀、金属迁移、机械应力都会造成大量的开路故障。元器件上接插部件的制造缺陷,如插头空隙、对金属材料的过度加工、工艺污染等都会使接插部件所能承受的机械应力达不到正常工作应力要求,导致产品发生早期故障。另一方面,设备使用一段时间后因磨损或材料性能下降也会导致开路故障,提前终止产品设计寿命。对电路进行通断性检测,很容易诊断是否有开路故障。

2.1.3 间歇性故障

顾名思义,是暂时性故障,开机后时有时无,维修时又可能没有故障。这类故障有时会随机器温度变化时有时无。电脑中的接插件最容易出现此类故障。当元器件的工作参数受工作时间和环境压力影响出现漂移时,电子噪声也会使设备产生间歇性故障。电脑中的冷却风扇和机械硬盘和软盘产生的振动对间歇性故障有强烈影响。阿尔法粒子有时也会引起间歇性故障,尤其是引起内存故障。如果不良环境压力持续增大,间歇性故障会演变为永久性短路或开路故障。电脑中的板卡插槽与金手指,电子盘插针和插座,都是间歇性故障的高发区。

2.2 电脑部件故障机理

2.2.1 电路板故障

电脑中使用的电路板基本上都是环氧树脂玻璃纤维多层板,通过表面或内部铜质导线为板上的分立元器件提供电源和信号连接通道。由于制造过程中使用的 材料性能及其化学特性,以及加工过程的复杂性,在成品板中产生的缺陷会导致设备在使用中发生故障。

(1)电路板预浸料坯缺陷

玻璃纤维板夹层间的细微裂纹及高温高湿环境下铜介质迁移场所是离子污染和雾化通道,最终要导致电脑发生短路故障。

(2)信号/电源走线刻蚀缺陷

铜箔抗蚀涂层清除不干净,残留的抗蚀涂层使非引线区域的铜箔不能彻底被腐蚀清除,造成电路短路。刻蚀过程中抗蚀涂层脱落会使铜线遭到腐蚀发生断路故障。电路板制造中的模压过程可能造成导线断裂或重叠等机械性损伤,尤其是接触不良会引起间歇性故障。铜箔上的手印和汗渍会使铜箔氧化。铜箔上沉积的油脂、粉尘、纤维、毛发、皮屑都会使夹层粘贴不紧密而产生裂缝,铜箔上的划痕还可能引起短路或断路。

(3)焊孔缺陷

电路板上钻孔的表面质量及孔内的镀铜质量对焊孔的可靠性有严重影响。毛糙的孔壁容易产生虚焊。没有钻通或部分钻通的焊孔会造成断路故障。不合适的钻孔操作会使环氧树脂钻屑结块,使镀铜层粘贴不良。钻孔还可能使电路板内的夹层分离从而导致使用故障。孔内镀铜缺陷在波峰焊接时也会引起假焊问题。

(4)掩膜缺陷

掩膜的作用是保护膜下的铜质电路不受刻板、焊接、电镀化学、大气侵蚀和退化、以及装配操作的损害。掩膜与焊孔对位偏差会造成元器件管脚焊接不良。

2.2.2 元器件安装故障

电子元器件在电路板上有两种安装方式。一是插孔安装,管脚直接插入电路板焊孔,焊接在电路板上。这种方式已经使用了几十年,元件安装牢固,并且焊脚尺寸较大,不适用于高密度安装。目前,计算机设备中大量采用的是表面贴装技术,元件尺寸可以做得非常小,能够在较小的电路板上安装更多的元器件,有利于电子组件的小型化。但表面贴装焊点容易受不同材料因热胀冷缩不同而产生的复合应力的影响,从而发生焊点故障。

2.2.3 连接故障

虚焊故障是电子器件连接中常见的缺陷,其产生原因多种多样。焊接中产生的气泡是导致虚焊的一个主要原因。表面贴装技术采用的粘贴工艺和材料对连接质量也有重要影响。焊接点的热胀冷缩应力有可能撕裂焊脚,电路板没清除干净的焊料颗粒也会引起短路故障。

2.2.4 侵蚀与迁移故障

金属材料因电化学作用而产生的侵蚀现象容易造成断路故障,而金属材料的迁移(金属晶体生长)则可能造成短路故障。

2.2.5 连接件故障

机械、热应力、磨损、侵蚀、加工污渍、制造缺陷等因素,单独或组合作用会导致连接件发生故障。连接头松头,插脚接触力小,板卡振动等因素会引起间歇性故障。

2.2.6 电超载(EOS)和静电放电(ESD)

电应力失效约占所有半导体现场失效的50%。有两种失效形式:(1)电压引起的失效,起因于绝缘损坏或氧化物击穿;(2)电流引起的,金属敷镀层因放电电流而加热烧毁或熔化。电压或电流超载时间大于1μs所引起的破坏称为电超载失效,小于1μs的称为静电放电失效。来自电源通断、继电器动作的电压或电流的瞬时作用都能引起EOS。在EOS时,大电流引起的高温失控状态能使硅熔化造成短路,也可能因金属敷镀层熔化而造成断路。

静电放电(ESD)是积累的静电电荷(100V~20kV)通过低电阻的集成电路模块对地快速(数百皮秒~1ms)放电,损坏绝缘薄膜(如氧化物闸门),以及在CMOS中引起热效应。在静电作用下,电子部件的性能通常下降,有时完全失效。大电荷静电放电容易给电子设备带来致命损伤。在干燥环境下,如果不采取静电防护措施,人体自身携带的静电就足以摧毁一个集成电路模块。对电子产品失效机制的研究表明,对电子设备制造、维修以及操作人员的培训是将电应力损伤减到最小的关键所在,因为他们不但对大多数电荷积累而且对大多数放电负有责任。防止ESD有三种方法:

(1)将电荷积累减到最小或消除。

(2)将积累的电荷引入导体中。

(3)把绝缘体中积累的电荷中和掉。

关于ESD对电子设备的危害问题,以及雷电产生的感应电对用电话线路传输数据的Modem卡的破坏机理,《 Predicting Semiconductor Failure Modes 》一文有详细论述。该文已全文译出,在此不赘述。

2.3 基于故障机理的推论

从上述的6种故障的粗略机理分析可见,设计、制造、工作环境、操作使用方法等环节的多种危害因素都会对终端机的可靠性产生影响。一个故障现象的产生,往往是多种因素组合作用的产物。对于某台具体终端机来说,各种危害因素怎样组合,什么时候才使设备发生故障具有很大的偶然性,而且这种偶然性不会随机器使用时间的长短发生显著性变化,这就是计算机设备故障规律中故障率基本恒定,设备寿命呈指数分布的根源所在。改善机器工作环境,加强维修保养,从客观上讲,有助于抑制危害因素,控制终端机故障率,但不可能彻底消灭故障。对于新投入使用的终端机,危害因素并未减少,同样面临着故障问题。由于故障机理分析中的危害因素是客观存在,并且是不可能消灭的,因此,任何想一劳永逸地解决终端机故障问题的方案是不存在的。大批量更换终端机并不能消除各个环节的故障危害因素,因此,设想通过大批量更换终端机来消除终端机故障问题,易劳而无功。体彩中心作为终端机厂商的用户,对机器设计制造过程无能为力,对终端机使用环境条件的控制力度也有限,面对全市1060台装机量,我们要承认客观存在的大量危害因素,在思想观念上要认识到,宏观上个别终端机出故障是必然的,而在微观上故障出在哪一台是偶然的。对彩票终端机故障管理的基本思路应该是:宏观上采取措施减少危害因素;微观上提高维修工作效率,减少故障停机损失。

3 终端机故障控制策略探讨

电脑彩票终端机,不论是新机器还是旧机器,在使用中都面临着客观存在的高温、雷电、潮湿、粉尘、大气污染(硫化物、碳化物等)、感应电场等故障因素。这些危害因素与机器故障有密切关系,但在什么时候以什么方式使终端机出现什么故障有很大的随机性。由于这些危害因素在客观上是不可能得到根除的,这就迫使我们要承认宏观上终端机出故障的必然性,而彩票安全要求我们必须采取措施保障终端机数据安全,保护电脑体育彩票的整体利益。

3.1 终端机故障控制策略的核心思想——保障数据安全

从电脑彩票设备安全管理上看,既然电脑彩票终端机发生故障有其客观必然性,把终端机故障控制策略目标定位在终端机不出故障这个不可能实现的目标上就是错误的。彩票终端机故障造成的主要危害是彩票数据丢失、不准确等影响彩票正常开奖,其次是耽误销售时间,影响销售量并增加维护费用开支。终端机故障控制策略要针对其主要故障危害,控制策略的核心应该是确保终端机数据安全,手段是建立彩票终端机数据安全保障体系。

3.2 数据安全保障体系的基本方针

建议以“严格控制,确保数据,预防为主,维修为辅”作为终端机数据安全保障体系的基本方针。

严格控制,是指对电脑体育彩票技术体系进行严格控制与管理,严格执行技术管理规章制度,坚决把终端机故障危害控制在不丢失数据范围内,坚决杜绝有令不行,有禁不止,随意行动,盲目操作,小问题捅大纰漏。

所谓小问题捅大纰漏,是指终端机上某个部件发生故障使机器自身不能正常输出如票样、无兑奖数据源等,销售员或机器维修人员不按《终端机故障处理管理条例》等管理规定的要求进行处理,耽误了销售时间,亦产生了社会纠纷。

确保数据,是指维修工作在任何情况下的第一任务是数据安全。要按照省中心颁发的《终端机故障处理管理条例》要求,完善制度保障安全。只有在开奖前不影响数据准确性,才能避免销售纠纷,才可以把终端机故障危害控制在能够接受的范围内,才能保证电脑彩票数据安全。

预防为主,维修为辅是指在技术安全管理上从二个层次采取防范措施。第一个层次是防止单个终端机故障危害扩大化。无数据性故障,就把故障机器可能产生的危害控制在可接受范围内。省颁布的《终端机故障处理管理条例》及《关于对电脑彩票销售点终端机不及时送修现象的管理办法》就是解决这个层次的保障问题。第二个层次是采取措施改善终端机工作环境,减少销售员不良操作行为,从而减少客观存在的引发终端机故障的危害因素对终端机的损害,降低机器故障率。同时进一步改善维修工作条件,提高故障处理响应速度和维修效率,减少故障停机损失。

3.3 终端机数据安全保障体系结构架构设想

初步设想的终端机数据安全保障体系应由三个部分组成:(1)组织架构;(2)信息架构;(3)物流架构。对数据安全保障体系架构的设想,不是抛弃现有的电脑体育彩票终端机维修体系,而是要对此加以改进和完善。

3.3.1 组织架构

目前我市现行的维修体系主体上是省市二级架构,正调整为省市县三级维修机构。不论是几级架构,都必须解决好维修工作的决策问题、执行问题、核查问题和条件保障问题。其中的人员保障问题和工作条件保障问题,尤其是维修人员方面存在的人员到岗能力不到岗问题,多年来都没有得到很好解决。在这方面有许多细节问题需要深入研究,有些问题还涉及市、县管理机构领导的思想观念问题。

3.3.2 信息流架构

信息流架构是数据安全保障体系组织架构协调运转的基础。信息沟通不畅,必然造成组织架构配合困难,运转不灵,甚至相互埋怨。保障信息流畅,需要规章制度、行政管理、检查监督几个方面共同努力做好工作。在组织结构中存在的信息私有化问题,也是各级体彩管理机构要认真研究解决的问题。

3.3.3 物流架构

近年来,省、市终端机技术维修工作中的物流工作还是比较流畅的,但物流渠道中的不良品的沉淀问题仍然是个要加以研究解决的问题。进一步怎样减少沉淀损失,提高维修备件利用效率,是改善现行物流结构的重要议题。

3.4 终端机数据安全保障体系的工作模式

引用我市ISO9000系列标准中建议的管理工作模式,采用计划——试验——执行——检查改进,四个阶段螺旋式循环发展工作模式,逐步完善数据安全保障体系,提高安全保障水平。这个模式称为PDCA循环模式,其精髓是采用负反馈校正机制对初始的第一个循环执行效果进行检查评审:(1)总结经验,把有效的好的做法形成书面工作规范,今后遇到同类问题照搬照套,避免重复尝试,节约时间、节约成本、减少差错和失败风险;(2)发现新问题,在一个新层次上再进行PDCA循环,解决问题后又形成书面的补充工作规范。PDCA循环的负反馈核心机制可以推动终端机数据安全保障体系的工作不断完善,水平不断提高,可以使安全保障从被动地应付故障维修逐步走向主动地控制故障,彻底扭转被动应付局面。

3.5 保障体系建设步骤初步设想

建设终端机数据安全保障体系,不是要否定和推倒现行的终端机维修工作体系,而是在现有基础上,逐步向“严格控制,确保数据,预防为主,维修为辅”的数据安全保障体系过渡。对建设步骤的初步设想框架是总体规划,分步实施,PDCA循环完善。在总体规划阶段有四个重要问题需要深入研究探讨:

1)体系结构的迁移问题。保障体系的组织结构、信息结构、物流结构都存在着优化问题。

2)建立和完善新体系的规章制度及操作办法问题。考核与奖励问题的难点在于:(1)用什么指标考核?(2)怎样解决单位内部的平衡问题?

3)人员培训问题。

4)技术装备条件问题。

5)效率与成本问题。

4 结束语

本文对建设电脑彩票终端机数据安全保障体系提出了一些粗略的构想,对其中面临的主要问题有所涉及,但还没有形成明确解决方案,仅起抛砖引玉之用,希望从事终端机管理和维修工作的同仁共同关注和探讨这些问题,以集众人的群体智慧共同保障电脑彩票系统安全,为体育彩票持续、稳定、健康发展做一份贡献。

[1](美)查利R.布鲁克斯 阿肖克.考霍莱著 谢斐娟 孙家骧译,工程材料的失效分析,机械工业出版社,北京,2003.4。

[2] P.Viswanadham & P.Singh, Failure Modes and Mechanics in Electronic Packages, Chapman & Hall, New York, 1998。

[3] 秦英孝主编,可靠性•维修性•保障性概论,国防工业出版社,北京,2002.10。

[4] D.Hadden, P.bergstrom, T.Samad, H.bennet, Application Challenges: System Health Management for Complex System。

[5] F.Kimura, T.Hata, N.Kobayashi, Reliability-Centered Maintenance Planning based on Computer-Aided FMEA。

[6] E.Landwehr, M.Carroll, Hardware Requirements for Secre Computer Systems: A Framework。

The Discussion on Malfunction Rule and Data Security Assurance System of Computer Sports Lottery Terminal

Chen Dejun
(Yancheng Sports Lottery Management Center,224005)

This thesis discusses the malfunction rule of lottery terminal on the basis of the research achievements about the reliability of electronic products. Revealing the macroscopic inevitability and microcosmic contingency of terminal malfunction, the thesis sets forth some malfunction controlling strategies and assumes a lot on the construction of data security assurance system of computer lottery terminal.

electronic products;malfunction curve;controlling strategy;assurance system

猜你喜欢
终端机故障率保障体系
通过控制策略的改进降低广五直线电机的故障率
ETC关键设备准入标准及运行保障体系构建
重庆ETC手持终端机方案探讨
关于构建战区联合作战后勤聚合保障体系的思考
在全市率先实现村级就业社保便民服务小型终端机全覆盖
探索零故障率的LED智能显示终端
冷轧机操作站终端机的改造性修复
基于故障率研究的数字保护最优检修周期
构建更安全可靠的机房电源保障体系
健全大数据安全保障体系研究