武 林
内容提要:军人保障卡大数据建设,是我军大数据建设的重要组成部分,是建设现代化实战化后勤的必然要求。加强军人保障卡大数据建设,应着力抓好3个环节:一是强化数据采集来源规划,二是深化数据融合技术研究,三是优化数据应用内容设置。
军人保障卡大数据建设,是我军大数据建设的重要组成部分,是建设现代化实战化后勤的必然要求。按照中央军委后勤保障部关于军人保障卡深化运用实施的指导意见,要重新梳理军队改革中产生的新变化和新需求,协调建立与军队人力资源管理部门数据共享机制,构建形成全军人员供应保障大系统,全面部署应用全军人员基础数据共享库,利用大数据工具实时分析人员供应保障特点规律,建立为后勤政策制度优化改革提供决策支持的常态机制,实现军人保障卡应用由“以管理为中心”模式向“以服务为中心”模式转变。军人保障卡大数据建设,核心内容是数据采集来源规划、数据融合技术研究和数据应用内容设置3个部分。只有做到科学规划数据采集来源,才可为军人保障卡大数据建设提供可靠、多样化的数据“原料”输入,为进一步拓展保障卡应用领域,提升保障卡应用服务效能提供数据基础。只有构建可用性强的数据融合技术,才可在海量数据中提取有效信息,提升大数据应用系统的运行效能。只有设置符合军队需求的数据应用内容,包括数据服务和数据产品,才能真正将数据资源转化为辅助首长机关决策效能,从而提升部队管理和军事斗争准备水平。
当前的军人保障卡储存的主要是军队单位和个人后勤供应保障方面的信息,支持作战和人员特点分析的信息较少,随着部队训练实战化程度的提升和军事政策制度改革的展开,需对现有数据采集来源作进一步规划,将保障卡现有的保障功能同部队的实战需求相结合,建立与军队人力资源管理部门、军队训练管理部门、军队作战部门的数据共享机制,增添反映人员军事训练、作战、军事技能水平、军事职业教育等军事化属性较强的字段,集成后勤保障、军事技能培训、作战数据收集等功能,将军人保障卡真正建设为“军味浓”“战味浓”的人员保障卡,并以军人保障卡数据、军人保障标识牌数据为基础构建平战一体的军队人员基础数据库,支撑我军的实战化训练转型和未来作战。可考虑在基本属性字段、人员军事职业教育情况、人员任职资格属性、训练演习记录、联合作战任职资质、实战经历、非战争军事行动、军官职业属性字段8个领域新增数据项(详见表1),充实军人保障卡数据类型,增强军人保障卡的军事化实战化属性。
表1 军人保障卡新增数据项
随着系统的不断升级,军人保障卡数据呈现表现形式多样化、规模巨大化、业务复杂化的特点,对信息处理的及时性、准确性和可靠性的要求相较以往进一步提高。通过开发适应军人保障卡数据特点的数据清洗与融合技术,对采集的多源军人保障卡数据进行进一步的整理和优化,可使军人保障卡数据资源信息结构更加合理、价值密度更高,对各类业务场景描述更加全面有效。一是开发数据清洗与融合技术相关工具。根据采集数据的类型、量级、特点确定数据采集的相关工具和技术。考虑到军人保障卡数据涉及的密级较高,可通过在用户端系统连接开源数据采集软件采集数据,使用 Apache Flume、Fluentd、Logstash、Splunk Forwarder等开源工具采集数据,使用包括Kettle在内的各类开源ETL工具开发数据清洗技术。二是制定清洗与融合规则。利用Kettle设置数据转换规则,根据采集数据的特点和不同业务场景特点设置最优融合规则。三是加强数据特征提取研究。对每个入库的分析样本进行分类,根据分析样本的业务特点进行特征化描述,并以向量、矩阵、数组、数据框和列表的形式对上述描述结果予以量化,从而提取分析样本的数据特征。四是加强融合算法研究。融合算法的研究,主要是对提取的多源数据特征进行特征级融合(基本技术途径如图1),根据提取的数据特征、采用不同的特征级融合方法进行融合(具体方法分类如图2),从而使新形成的数据库包含的信息更加有效、对分析样本描述的准确性更高。
图1 特征级融合基本技术途径
图2 特征融合方法分类
根据我军现有业务提升需求,以实战化标准为牵引,围绕军人保障卡数据资源的应用内容设置,主要是聚焦军事人员抽组配置、军事教育资源与训练任务分配、军队卫勤保障系统改进、军队军需供应保障系统改进4个方面用功求效。
可考虑采用面向军人保障卡大数据的用户画像方法,为军事行动的开展提供决策支持。随着我军事行动强度的加大和任务类型的拓展,临时抽调人员执行任务的情境更多。同时,由于类似任务的突发性和急迫性,对抽调人员的专业特点和技术战术水平有较高要求。在短时间内根据任务需求科学精准配置所需人员,在各任务方向形成合力,事关部队作战效能的发挥,对部队战斗力建设有重大意义,需依托军人保障卡及其他人员基础数据构建用户画像大数据分析模型(具体内容如图3),匹配适合不同类型任务的作战人员和单位,支撑任务部队人员编组结构的优化,为战时和紧急情况下向任务地区快速输送合适作战人员提供数据方法支撑和科学依据。用户画像大数据技术的实施途径分为3步,建立数据挖掘库,数据挖掘与建模,用户画像标签体系构建。
图3 面向军人保障卡大数据的用户画像方法技术途径
一是建立数据挖掘库。建立数据挖掘库,将人员、任务进行分类,并添加个性化标签,从军人保障卡数据分类体系中选取合适条目构建大数据分析模型。比如,可从人员履历数据中选取训练、教育、任职记录等数据,基础数据中的人员基本信息、单位基本信息等数据,单位编码数据中的单位级别、部队类别等数据构建一个基本作战人员的属性特征,作为数据挖掘库中的一条基本记录。
二是数据挖掘与建模。以用户画像和数据挖掘库为基础,进一步构建人员配置推荐系统,提升服务精准度。可以采用的算法有回归、决策树、支持向量机等,通过建模分析,进一步挖掘出部队人员的群体特征和个性权重特征,从而完善人员任务的价值衡量。
三是用户画像标签体系构建。利用用户画像构建数学模型,描述军人保障卡和相关任务的业务知识体系,主要包括:标签的分类、标签的级别、标签的命名、标签的赋值、标签的属性。
可考虑应用聚类分析方法支持军事教育资源与训练任务的分配计划实施,实现资源的动态分配与优化(技术途径如图4)。以军人保障卡履历数据为基础,将现有分析对象数据集划分为若干个群体,根据不同群体特点调整军事教育资源和训练任务内容与强度,实现军事教育资源和训练任务的优化配置与分析,具体技术途径包括数据分析模型构建,分析聚类结论和结果应用3个步骤。
图4 基于聚类分析的军事教育资源分配优化技术途径
一是数据模型构建。首先,根据军人保障卡业务逻辑推测和业务经验判断,梳理出可供模型使用的特征字段;随后,对异常值进行删除处理,考虑到聚类样本数量有限,进一步筛选实际进入聚类分析模型的变量数量。在聚类分析之前,针对所有数值型变量进行相关性检验,对于高度线性相关的变量只保留一个进入聚类过程。
二是聚类结论分析。聚类模型将把所有数据样本划分为不同组,以不同组的用户数量、占样本总量的百分比、该组的RMSSTD(Root-Mean-Square Standard Deviation)、该组不同指标的均值为基础,增加和军人保障卡业务相关的其他变量进行特征描述,得到用户群体分类(参见表2示例)。
表2 不同聚类群体分类示例
三是结果应用分析。根据上述群体特征,从参考数据中提取满足上述特征阈值的潜在目标受众,并进行相应的军事教育资源配置优化。例如,对于机关业务军官群体,在维持高级军事指挥课程培训的同时,增加基层军事技能和装备操作技能方面的培训,提升军官群体对基层作战单位运作流程的理解。对于特定士官群体,适当增加军事指挥、武器装备发展、外语等知识型课程方面的培训,提升对军事科学的感性认识,提高同指挥军官协作的默契程度。
军人保障卡卫生大数据涉及人员类别、身份类别、所在特殊地区、特殊勤务、特种人员、电子伤票、就医、体检、疗养保障等信息,对掌握我军人员身体健康水平,遏止各类多发病种的蔓延有重大意义。卫生数据还可支撑我军卫勤工作的改进,为在战时和紧急状况下制定相应预案提供决策支持。基于上述分析思路,拟从两个方面提升军队卫生工作的建设水平和效率。
一是构建疾病预防与控制模型,通过利用预测技术、聚类算法等数据挖掘手段,分析不同类型人员、不同类型疾病在不同时段、不同地区的分布情况,预测不同疾病的发展趋势和发展规律,从而有针对性地制定疾病管控措施,遏止多发病种的蔓延,减少伤病率,巩固我军战斗力。
二是构建健康医疗大数据模型,根据对不同类型人员就医情况的分析,提供定制化的诊疗服务方案,包括干部群体、一线部队人员、偏远地区人员、特种人员、退休老干部群体,推送健康提示和建议,在掌握我军重点群体健康医疗水平的同时体现人文关怀。
根据后勤保障部相关部门工作实施计划,需进一步深化军需供应保障应用,为被装给养预结算、供应保障提供数据支撑。军需数据包括被装保障数据和给养保障数据,可利用大数据分析手段对军需保障数据进行分析,对不同单位的被装和给养需求进行预测,对军需活动中出现的错供、漏供、重供情况进行趋势监控,实现对军需保障活动的高效管理。基于上述分析思路,拟从以下两个方面提升军队军需工作的质量效益。
一是利用马尔科夫链和统计回归技术构建军需预测模型,根据人员数量、编制调整情况、演训次数等影响因素构建面向不同单位的军需预测模型,及时掌控部队军需种类和数量的可能变化。
二是通过数据分析梳理军需活动中出现的错供、漏供、重供情况,并根据梳理结果构建监控模型,及时发现问题,并采取有效措施加以解决。