魏 骅 丁卫华 关 兆
近年来,世界各国官方和民间智库加大了对我国防和军队建设的研究,其中以美国尤甚。其投入力量之大、研究范围之广、综合分析之深,前所未有。美研究者通过对因特网公开资料等开源情报的初步分析,建立大数据统计、分析和预测模型,在比较及纵观性研究基础上,获得了大量研究成果,进而推动本国国防理念及技术应用的整体进步。通过观察美国海军战争学院等智库对大数据的利用,笔者认为,在新形势下,我国防大数据建设应全面提升保密意识,优先强化对现有开源数据的分级保密,同时加强我军在大数据分析方面的对等研究。
近年来,美国海军战争学院、海军分析中心、布鲁金斯学会、日本防卫研究所等智库专家学者频繁访华。通过与相关学者的交流发现,美、日等国在公开宣扬西太平洋军事和战略压力的同时,以亚太“再平衡”战略为指引,加快了军事西进对垒。在军事智库建设方面,着重于力量建设和发展,此举不仅加强了服务本国的军事理论和应用研究,更重要的是为其盟友提供了具有针对性的战术研究和风险研判。
以美国海军战争学院的研究为例。为进一步加强涉华研究力量,近两年,该学院成立了中国海洋研究中心(CMSI),聚合了海军战争学院长期参与对华研究的专家学者,同时邀请院外学者参与共同研究,并通过学术期刊《中海》按需发布,在按主题重点发布学术研究成果的同时,还开展对相关领域的回顾性研究。
《中海》自2008年开通网络版以来,已陆续发布12期,其内容主要涉及中国军方尤其是海军的科研创新、人才队伍建设、船舶基地建设等基础性、根本性问题。其中,运用大数据搜索分析方法进行归纳研究的案例逐渐增多。从该期刊第一期的研究文章《中国造船业的全面调查:商业发展与战略意义》一文中可以看到,作者通过搜集中国造船业的相关报道、学术文章、官方数据等数据,详细绘制出《自1999年起十年间中国各省份造船能力分布图》,吨位及标注非常详细。
国外智库专家普遍表示,中国目前正在公布越来越多的数据,从国有企业的上市信息到各类媒体的新闻报道,无所不有,这些数据对于他们的研究有直接帮助。美国海军战争学院教授肯尼斯·艾伦在其撰写的《解放军海军的招聘、教育和训练》一文中,通过对《解放军报》等媒体、《中国国防生》等著作、军队院校及普通高校国防生班报考指南、各省教育厅招考信息、百度百科等大量开源数据的综合分析、分类整理,完成了有关我海军生长军官特别是海军系统国防生教育训练的全面研究。
经调查了解,艾伦教授通过长期的数据“清洗”和整合分析,分散获得中国所有国防院校的招生计划,对国防生招生的数量和专攻领域、国防生后续的分配及训练项目都有了全面系统的认识,并通过表格等形式予以公开,形成了系统、翔实且具有极高价值的分析报告。
在与美国海军战争学院教授吉原恒淑等专家学者交流过程中,学者们向笔者展示了大量利用开源数据对我海军进行研究所得的全面、系统的研究成果,研究领域覆盖国防生教育体系、近海防务、大洋战略等范畴,内容多引自我军地公开的招生计划、学术刊物等素材,通过建立相关数学模型,利用非结构性海量数据分析方法,完成了对这些数据的系统整理,形成了对我海军人才培养方向、近海防务建设进度、海洋战略等情况详尽的分析判断。
数据是一种特殊的战略资源。新形势下推进国防大数据建设,应从根本上转变传统数据观念。大数据的核心是预测,其精髓在于分析信息时的三个转变:一是大数据技术可以处理与某个问题相关的所有数据,而不再依赖于随机采样数据;二是大数据更关注宏观问题,而不是微观精确度;三是大数据更关注事物之间的相关关系,而非因果关系。
第一个转变的实质,是彻底突破了信息缺乏时代和信息流通受限制的模拟数据时代给数据分析造成的局限,即只能通过随机选择样本进行采样分析。随机采样虽有其时代意义和使用价值,但实践证明,由于实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。大数据出现后,“样本即总体”成为可能,前述美国海军战争学院艾伦教授的工作即是如此。
第二个转变的实质,是接受了因数据量大幅增加可能造成结果不准确的现实,同时还要接受一些混乱甚至错误的数据混入研究数据库的可能。这个转变是数据发展趋势使然。据统计,在数据发展过程中,非结构性数据如网页和视频资源,占所有数据的95%。由于混乱和错误数据的出现,数据才真正体现出其完整性。
第三个转变的实质,是颠覆“知其所以然”的传统观念。拥有大数据技术后,数据分析指向的因果关系将逐渐被相关关系所取代。在某种程度上,研究者利用大数据技术,只需得知“会发生什么”而不是“为什么会发生”,而这正是大数据的价值。比如,谷歌公司曾把5000万条美国人最频繁检索的词条和美国疾控中心在2003~2008年间季节性流感传播时期的数据进行比较,从而预测出2009年甲型H1N1流感的爆发。谷歌声称,他们并不依赖特定检索词条的语义理解,只关注特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。
“看似不起眼的海量分散数据,一旦被加以整合分析,将能够形成对某一学科及领域十分透彻甚至影响深远的研究。”在数据日益“开源”的当下,这席话已不再危言耸听。面对日益严峻的信息安全危机,要进行换位思考,国防大数据科研不仅要加强对内关键数据的保护,更要注重对外数据的采集及分析研判。
通过基层调研发现,由于数据分散搜集、使用和保存,大多数数据管理部门并未意识到手中数据的重要意义,反而对数据予以公开传播。以国防生信息为例,虽然国防生的招生介绍并不属保密范畴,然而一旦将各高校教务信息中的招生信息进行汇总比对,就可形成对我军未来人才数量需求、建设目标、能力素质、职业化程度等情况的详细分析。
近年来,许多招收国防生的大专院校为了吸引更多优质生源,对国防生教育训练信息都予以公开,不仅包括国防生招收门类、选拔方案、培养协议,更细到平时训练、教学内容甚至包括学生个人简介及学习感言。类似内容“恰巧”成为国外学者研究的重点。因此,笔者建议我相关数据管理部门,不仅应从本岗位、本机构职责出发考虑信息安全,上级指导单位应更全面细致地考虑研究,站在数据使用者的角度“极端化”考量问题,同时建立数据分级管理体系,加强对分散数据的保管和风险研判力度。
目前,国内有关国防大数据的研究还较为分散,学者主要依靠内部或涉密资料加以研究,在观念上,比较轻视国内外开源数据分析;在应用上,对因特网数据检索与分析方法较为陌生。因此,我国相关领域研究者应加强内外研究统筹,在打通内部研究渠道的同时,加强本地跨学科、跨领域、跨区域的共同研究,强化对海外资源、信息搜集方法的应用和借鉴,全方位提升国防大数据科研的水平和效率。
除了借鉴国外方法,我国相关科研机构也应适当派遣人员前往海外学习参与研究,从而拓展研究领域和思维方式。据悉,包括美国国会研究服务部(CRS)、海军分析中心(CNA)在内的美国官方主要智库的对华研究部门,长期定向招募华裔研究人员。因此,相关机构在借鉴国外智库经验建立有关国家国别研究中心的基础上,可以考虑引入具有海外学习和工作背景的研究人员。
面对大数据时代日趋严峻的信息泄露风险,我国各级信息数据管理部门应当优先对现有数据进行分级保密管理,同时,大力推进国际搜索能力建设,通过提升信息采集能力,逐步开展并强化对外开源数据的对等研究,从而把大数据威胁转变为国防利器。
一要筛查涉军单位开源数据并分级管理。因特网和物联网解决了数据产生问题,云计算解决了数据、服务和计算资源的共享问题。当海量数据“奔涌”出现,传统的“一刀切”不公开和简单的物理隔绝等信息保密手段就显得捉襟见肘。以大数据技术取代传统保密手段,实现对海量数据的分级管理已成为必然趋势。以国防生信息为例,招生数量和培养方向均可对学生、家长公布,然而具体的培养计划、培训内容、专业素质及个人信息都应列为保密内容。这种“宏观公开,具体保密”的做法已经在美国较为通行。比如,著名智库兰德公司针对两岸台海危机出台的研究报告《恐怖的海峡?》中应用了美军“联合一体化作战模型”作为研究的重要工具,这个作战模型基本反映了美军在这些战争中的作战思想和战术特点。但是,美军在实际作战中极其重视而且大量使用的某些作战要素,在该报告使用的“联合一体化作战模型”中,既没有任何表达,也没有任何战术或技术数据。
二要加强国际搜索能力建设。目前,国内部分研究者过分依赖境外搜索服务,其中不乏军队科研机构和军事院校的相关人员,大多通过使用代理服务器等方式搜索国外的外文资料并加以研究。由于国外一些因特网公司已经具备强大的大数据分析能力,国内研究者对相关问题搜索所形成的数据基础已经成为其研判我军事科研动向的重要依据。比如,谷歌基于其所有搜索记录(以每天30亿条递增),对特定检索词条的使用频率与某些问题之间的联系进行分析,已在公共卫生领域取得突破性进展。但也必须认识到这一现象存在的隐患:谷歌、雅虎等主流境外搜索引擎看似便捷,但我研究者进行搜索时产生的海量数据亦尽在其搜索服务运营商掌控之中。因此,建议相关单位及学者,除加强对境外搜索引擎使用的监管外,更应加强国内外文搜索能力的建设,逐步发展起能够满足国内需求的搜索引擎。
三要加强开源数据应用研究。目前,我国学者受限于搜索引擎等工具壁垒,在获取开源数据方面存在一定难度,部分学者特别是社会科学领域的学者,不重视研究领域专业与技术的结合,不重视对开源数据的应用。如此一来,不仅呈现出技术与专业脱节的现象,而且直接影响到研究质量。军队科研机构和院校宜借鉴自然科学领域开源数据应用经验,引入成熟研究方法和可靠研究工具,加强开源数据应用研究,提高大数据分析研判能力,助推我国防领域的信息化建设。