宁金叶,徐 谦,罗小丽,宁高容
(1.湖南电气职业技术学院 大数据与人工智能研究所,湘潭411101;2.湖南工程学院 电气与信息工程学院,湘潭411104;3.中国航天科工运载技术研究院 北京分院技术中心,北京101500)
在国家“核高基”重大专项的支持下,以龙芯、中标麒麟、达梦等为代表的国产高性能处理器、操作系统和数据库等软硬件技术迅猛发展,在军用、工业及民用领域内得到广泛应用.2018年6月,龙芯中科发布了一套高性能的网络平台“3A3000+7A1000”,实现了从硬件到操作系统、应用的完全国产、自主、可控[1-3].但是,在一系列的装备联调联试和实际应用过程中,国产计算机相继出现业务系统的可靠性问题,特别是环境适应能力与可靠性方面,自主可控计算平台的软硬件产品性能相比国际先进水平还存在着一定的差距[4-6].因此,如何优化国产计算机的环境适应能力与系统可靠性成为计算机自动控制领域的研究热点[7].
本文主要研究基于车载环境计算资源受限情况下国产计算机的环境适应能力,即采用压力测试试验和可靠性摸底试验对国产计算机(龙芯3A3000+7A1000)进行环境适应能力验证,采用冒烟测试获取计算机的环境适应阈值[8-9].
试验内容主要包括两种:压力测试和可靠性摸底试验,采用冒烟测试获取计算机的环境适应阈值.
压力测试包括四种情况,其环境条件及时间要求如表1所示.
表1 压力测试环境条件及时间要求
(1)常温老炼试验
老炼时运行压力测试程序或屏幕保护程序.在正常大气条件下,设备累积老炼时间不小于200 h.可在整机老炼试验期间开展电源适应性试验.在特殊情况下,可采用高温老炼.老炼试验条件及要求如表2所示.
表2 老炼试验条件及要求
测试方法及结果:
考虑到常温老炼试验的环境条件与连续工作试验相同,把常温老炼试验放在连续工作试验一同进行.详细试验情况见连续工作试验.
(2)高温工作试验
被测计算机放在高温试验箱内;以不大于5℃/min的速率将箱内温度升高至55℃,直到设备内部温度稳定(保温2 h);计算机启动工作,运行屏保程序或测试程序,连续工作200 h;计算机停止工作,以不大于5℃/min的速率将箱内温度降低至正常温度.被测计算机温度恢复到常温稳定后,开机工作进行计算机的功能检查.高温工作实验过程中,设备的温度剖面如图1所示.
图1 高温工作试验温度剖面
测试方法及结果:
第一阶段:将被测计算机(1号机、4号机)放置在试验箱内,以不大于5℃/min的速率将箱内温度升高至+55℃直到设备内部温度稳定(保温2 h);计算机启动工作,并运行LTP测试程序,测试负载设置为满载的80%;连续工作50 h(两台设备累计100 h),被测计算机正常工作.
第二阶段:将试验箱温度升高至+60℃,并保温2 h,计算机启动工作,并运行LTP测试程序,测试负载设置为满载的80%;连续工作24 h(两台设备累计48 h),1号机和4号机均正常工作.
第三阶段:将试验箱温度升高至+65℃,并保温2 h,计算机启动工作,并运行LTP测试程序,测试负载设置为满载的80%;其中1号机连续正常工作24 h,4号机正常工作2 h后出现死机现象,断电重新开机后,依然出现死机现象.
(3)低温工作试验
被测计算机放在高温试验箱内;以不大于5℃/min的速率将箱内温度降低至-25℃,直到设备内部温度稳定(保温2 h);计算机启动工作,运行屏保程序,连续工作200 h;计算机停止工作,以不大于5℃/min的速率将箱内温度恢复至正常温度.被测计算机温度恢复到常温稳定后,开机工作进行计算机的功能检查.低温工作实验过程中,设备的温度剖面如图2所示.
图2 低温工作试验温度剖面
测试方法及结果:
第一阶段:将被测计算机(1号机、4号机)放置在试验箱内,以不大于5℃/min的速率将箱内温度降低至-25℃直到设备内部温度稳定(保温2 h);计算机启动工作,并运行LTP测试程序,测试负载设置为满载的80%;连续工作50 h(两台设备累计100 h),计算机正常工作.
第二阶段:将试验箱温度降低至-30℃,并保温2h,计算机启动工作,并运行LTP测试程序,测试负载设置为满载的80%;连续工作24 h(两台设备累计48 h),1号机和4号机均正常工作.
第三阶段:将试验箱温度降低至-35℃,并保温2 h,计算机启动工作,并运行LTP测试程序,测试负载设置为满载的80%;连续工作24 h(两台设备累计48 h),1号机和4号机均正常工作.
(4)连续工作试验
计算机完成了720 h连续工作测试,测试过程分为全面测试(包括系统2D图形性能、3D图形性能、网络性能、系统I/O性能、系统性能)、压力测试(包括CPU,内存,磁盘等信息;测试过程中全时段运行LTP测试软件,测试负载设置为80%).测试时间分配如图3所示.
图3 连续工作720小时LTP测试时间图
1)四次全面测试数据对比(共35天)
通过四次(共35天)全面测试数据可知,在经过长时间压力工作后,国产计算机的2D图形处理、3D图形处理、磁盘读写性能、网页性能等未出现下降.
2)三次长时间压力测试数据对比(共30天)
通过对三段长时间压力测试数据的比较可知,在经过长时间压力工作后,国产计算机的CPU使用率、内存使用率、磁盘读写速度等未出现明显变化.
可靠性增长摸底试验的目的是通过系统施加逐步增大的环境应力,摸清产品对一定条件下环境应力的承受能力.本次可靠性摸底试验共分三阶段进行:可靠性增长试验剖面(1)3个循环的试验、可靠性增长试验剖面(2)3个循环的试验、可靠性增长试验剖面(3)2个循环的试验.可靠性增长试验剖面(1)、(2)、(3)图如图4所示.
图4 可靠性增长试验剖面图
可靠性摸底试验共进行了8个循环的试验.试验过程中,计算机运行LTP测试程序,测试负载设置为80%;两台被测计算机(1号机、4号机)均正常工作,未出现死机、重启等不正常现象.
(1)问题分析
在进行高温试验时,在温度+65℃的环境下,计算机运行LTP测试程序,测试负载设置为80%;被测的4号计算机出现死机现象,重启后依然出现死机现象;恢复到常温后,计算机正常工作.针对故障现象,研究团队对国产计算机的龙芯3A3000处理器的CPU温度进行实时跟踪,计算机环境温度在+55℃和+60℃时,CPU的核心温度分别达到了99℃和104℃.
经查询产品手册,得知龙芯3A3000-I的结温为105℃[2-3].通过简单计算,在+65℃环境温度下,CPU温度将超过105℃,CPU将不能正常工作,故导致计算机死机现象.
(2)解决措施
对计算机的散热设计进行进一步优化,或通过降低CPU主频来降低功耗;经过测试,当龙芯3A3000处理器主频为1.4 GHz时,主板功耗约45 W;当龙芯3A3000处理器主频为1.2 GHz时,主板功耗约38 W.经采用费舍尔组合测试验证了系统的稳定性[10-11],由此可见降低主频可以显著降低CPU功耗,从而降低温度,提高环境适应能力.
环境适应能力研究分析:通过对国产龙芯计算平台的软硬件优化设计、采用压力测试试验和可靠性摸底试验进行环境适应能力验证,国产龙芯计算平台在-35℃~+60℃的环境条件下,可以正常工作(环境适应能力与设备的散热环境有关),其环境适应能力不低于同类型非国产计算机.
软件可靠性研究分析,通过对国产计算机在长时间、高负载运行时的功能、性能进行测试分析,系统能够长时间正常运行,未发生死机、重启、内存溢出异常等现象.