基于MADL的外国军事开源情报数据库的分析与实现

2019-06-13 02:56王思佳夏绍模
指挥控制与仿真 2019年3期
关键词:情报信息信息源开源

王思佳,夏绍模

(陆军勤务学院,重庆 401331)

目前,据有关部门的统计,西方发达国家的情报中已经有高达95%的情报都是获取自公共开放的来源,开源情报研究作为一项现代基础性的研究工作,世界各国对其的重视程度明显得到了日益提升[1]。自中国人民解放军诞生之日起,就对军事情报工作十分重视,为满足国家安全以及国防和军队现代化建设需要,在我军内部逐步形成了一系列较为完善的军事情报体制,以此开展军事情报研究工作。军事情报的作用不容忽视,它在为各种军事任务提供情报支持的同时还对军事行动中的军队提供了保护。在传统的信息环境下,由于缺乏及时而广泛的信息和整理加工信息的技术手段,我军情报研究工作只能依靠图书馆和其他文献机构,这样的情报研究成果必然受到一定的限制。中央情报局也指出“不一定只有保密信息才有价值”,随着大数据时代的到来以及信息化社会的发展,来自互联网、电视、广播等公开媒体的开放式信息越来越多,从这些海量信息中获取到实用性强的情报对我军军事情报研究有着巨大的贡献,因此如何从大量纷繁复杂的公开信息中提取出有价值的军事信息并且实现信息共享是当前军事情报研究工作急需解决的难点与重点[2]。

开源情报研究在国外发展起步较早,尤其是美国这一发达国家在这方面的研究更是一直处于世界领先地位[3],而国内开源情报研究工作开展相对而言是比较晚的,同时可能由于将情报过于神秘化、缺乏对情报本质的认知等原因的存在,开源情报研究活动一直处于被动且零散的状态。近年来,才逐步开始出现了极少数面向军事领域开源情报采集的挖掘技术的相关研究[4],但仍然有研究层次不够深入、研究内容不够丰富和研究角度不够全面等问题的存在。

在这样的背景下,文章从外国军事开源情报信息源的搜集整理出发,运用爬虫软件实现资源的获取,基于SVM分类模型进行筛选得到军事类资源,最终形成一个基于MADL资源系统开发平台开发设计的外国军事开源情报数据库,实现了军事领域开源情报信息从搜集、处理到共享的全过程分析。

1 军事领域开源情报采集框架

基于军事领域的专业化特点和特殊需要,本文设计了基于军事领域的开源情报数据采集模型框架如图1所示:

图1 军事领域开源情报收集模型

1) 选择与军事领域相关的军事频道、新闻、视频、文档等公开信息的数字资源作为URL种子添加到URL库中;

2) URL管理器通过某种方式将URL提供给爬虫采集器并进行网页的解析和去重;

3) 对页面进行抽取,得到URL再次添加到URL库中,以便能够提供持续不断的新页面;

4) 过滤筛选并去除掉重复等杂乱无用的信息,得到实际的正文内容,然后利用SVM分类模型对正文内容进行分类,判断其是否为军事领域相关的信息,如果是则将其添加到军事开源情报数据库中;

5)基于MADL资源开发平台设计开发外国军事开源情报数据库,实现军事开源情报信息的共享。

2 军事开源情报信息采集与加工处理

2.1 信息源的搜集

为了能够设计开发一个完善的外国军事后勤开源情报数据仓库,首先就要获取到全面完整的信息源。通过收集,整理到来自北约、美国、英国、法国、俄罗斯、印度等国家与组织的政府部门、军事机构、军工企业、核心智库、重要媒体与商业数据库作为外国军事开源情报数字信息源,这些军事特色资源数据库收录的资源分为资讯类、文件类、出版类、参考类与视听类五大类,部分外国军事开源情报信息源如表1所列。

表1 外国军事领域开源情报部分信息源列表

2.2 信息的获取和处理

能否精确的判断某开源信息是否与军事密切相关是军事领域开源情报主题爬虫的主要问题之一。基于这样的研究目的,为了解决这一问题可以采用有关分类器的主题相关度评估策略,将网页内容中纷繁复杂的多类型主题统一分为两类:第一类是军事领域开源情报;第二类是它类情报信息。

分类算法种类较多,但其中基于SVM分类器的算法因为效果好、易于实现等优点得到了广泛的采用。因此可以采取基于SVM算法的文本分类来构建军事领域爬虫主题分类模型。主要步骤是[5]:

然而,纵观新中国建立以来我国住房用地基本制度的演进状况,单一国有制至今未变,但住房用地使用权通过“出让”进入市场,形成土地国家使用权、公民和法人使用权。尽管法律规定如此,但当今我国住房用地上的国家使用权占比很小,公民和法人使用权占绝对比重。很显然,现行住房用地基本制度(无论是从所有制还是从使用权角度来看)并不符合中国特色社会主义基本经济制度要求,必须继续深化改革,构建新时代中国特色社会主义住房用地基本制度。

1) 文本预处理:将从搜集整理到的信息源中收集到的包括军事领域开源情报和其他非军事领域的信息进行类别的标注、分类、转换和清洗过滤等。

2) 文本表示与特征选择:将具有非结构化特征的文本信息处理转化为能够被SVM识别的形式,可以先采用向量空间模型对文本信息进行表示成SVM所能识别的形式。

3) 分类模型训练与优化:SVM最大的优势就是能够寻找出相对最优的超平面,可以使得以尽可能大的分类间隔将两类样本正确无误的分开。

4) 主题预测:抽取网页中的正文,并按照与训练集相同的方式进行相关处理之后映射到特征向量空间模型中,然后通过前文所述的经过训练后的SVM分类器进行分类,最终得出判定结果。

3 外国军事开源情报数据库的设计与实现

3.1 开发平台与工序流程

依照军队文献信息资源数据库的一体化要求,采用数字图书馆应用软件系统MADL作为外国军事开源情报数据库设计与开发的软件平台。

3.1.1 硬件平台搭建

MADL开发平台对资源系统的硬件有一定的要求,外国军事开源情报数据库的实现是基于如表2所示的具体硬件设备配置。

表2 硬件配置

3.1.2 软件平台与工序流程设计

MADL资源系统开发平台软件平台的组成成分总共分为3个,分别是:MADL工具箱、资源加工平台和网站发布平台。MADL工具箱的主要作用是在客户端/服务器等模式的支持下提供系统初始化、系统升级以及数据导入导出等功能给系统管理员提供便利;MADL资源加工平台一共有5个子程序,分别是:内容管理、元数据编目、电子书制造、数据迁移和数据复制工具,它的作用是为系统管理员提供数字资源加工、标注与管理等功能;MADL网站发布平台的主要功能是通过Web页面提供资源发布服务和对数字资源进行检索与访问。在前文通过爬虫软件从收集整理的信息源中进行内容爬取,并经过SVM分类模型筛选出的关于外国军事领域开源情报信息数据的支撑下,通过MADL资源系统开发平台开发设计外国军事开源情报数据库,主要流程有以下几个方面:

1) 内容管理流程:系统管理员可以通过内容管理器对数据库、模板、MADL用户、系统信息进行管理。内部管理流程设计图如图2。在这部分,还应该重点关注对数据库分类的相关内容,首先应按照一定的使用意图和目的对军事开源情报产品进行分类,部分类别之间必定会存在重叠交叉的部分,也就是说一些外国军事开源信息可以同时用在不同种类的产品上。为了满足不同类别部队用户的需要,选择从两个维度对外国军事后勤开源情报信息资源进行分类,一是从学科种类维度,以《中国军事大辞海》为主,《中国分类主题词表》、《军队信息化词典》为辅助,将外国军事后勤开源情报信息分为军需勤务、军队财务、油料、卫生、军交运输、营房建设、物流仓储等;二是从情报产品种类维度,根据《陆军野战条令“FM2-0”》将外国军事开源情报产品分类为征候和预警情报、现实情报、常规军事情报、目标情报、科技情报、反情报、预测性情报等[6]。

图2 内容管理流程

2) 开源情报编目:外国军事开源情报信息作为网络信息资源的整理、整序和整合工作,被称为文献编目,网络信息资源按照存取方式划分为WWW信息资源、Telnet信息资源、FTP信息资源、Listserv/Mailing信息资源、Usenet/Newsgroup信息资源[7]。而对信息资源的编目必须使用数据的结构化数据即元数据。元数据编目工具的主要功能是能够让编目和检查人员对MADL数据库中元数据进行编目和检查。元数据编目流程如图3所示。

图3 元数据编目流程

3) 网站发布流程:基于Web平台建立一个外国军事开源情报数据库,为全军勤务机关决策和部队训练提供前沿的情报支撑服务,该数据仓库的主要功能有两大类:一是针对部队用户的服务功能,二是针对系统管理人员的管理功能。网站发布流程图如图4。

图4 网站发布流程

3.2 外国军事开源情报数据库服务模式与功能实现

为尽可能满足军事院校在全军人才培养和科技创新以及全军机关决策、部队训练的情报信息需求,基于MADL资源开发平台开发的外国军事开源情报数据库信息服务要更加人性化,更具有针对性,在此背景下制定了如图5所示的外国军事开源情报数据库服务模式。由于部分军事开源情报信息资源的保密要求和方便对用户访问权限的管理,外国军事后勤开源情报数据库将用户种类设置为系统管理员、检查人员、校内教职工、校内学生和校外访问者5个代表不同角色的用户,分别设置不同的查询权限。而用户行为管理的主要功能是统计用户检索、浏览、下载各类军事开源情报信息的情况,可以分析出不同类别用户对不同类别开源信息的需求情况,本系统采用WebTrends Log Analyze统计资源系统的访问量,以及各种开源信息被访问、下载的频率。基于MADL软件开发平台可以很方便简洁地实现快速检索、高级检索、统一检索三个功能,其余功能将从以下四点进行详细论述。

图5 外国军事开源情报数据库服务框架

1) 军事动态:军事动态模块的主要功能是定期更新推送外国军事情报信息,这些情报信息就是来自上文所收集整理到的信息源中,比如获取自联合国安全理事会网站的外国军事信息,联合国安全理事会作为唯一一个有权采取军事行动的联合国机构,为了维护国际的和平与安全,会经常召开各种会议包括对紧急特别事项的探讨、通过某种决议或者批准某个军事行动等,这些会议的召开及其探讨的内容与结果都会及时准确的在联合国安全理事会官网上进行发布,供个人到国家各个层面进行数据浏览访问。基于此,系统管理员从各信息源中第一时间获取到外国军事信息动态,并将其发布在军事动态模块中及时推送给用户。

2) 学科动态:学科动态模块主要体现的是不同军事专业相关的外国军事情报信息,将根据前文所述信息源及时准确获取到的外国军事情报信息按照油料、仓储、营房、采购、军队会计、军需勤务等不同军事学科汇总分类,比如致力于从采办、后勤等领域培养部队专业人才的美国国防军需大学,从它的官网收集到的外国军事情报信息就可以归类到采购或勤务等学科专业分类下。这样的分类可以帮助用户有针对性的按照不同学科专业查询搜索相关信息。

3) 军事译文:将在外国期刊杂志发表的有关军事类期刊论文从作者、关键词、摘要到正文的全部内容进行翻译入库到军事译文模块中,该模块中的军事译文可供用户查询浏览,当涉及下载环节时需要使用外国军事开源情报数据库专用币,这种币并不是通过充值的形式获取,而是需要用户通过共享信息作为交换,用户每共享上传一个军事译文或军事情报信息就会获得相应数量专用币用于下载自己所需的资料。

4) 提问反馈:军事情报需求不是一成不变的,用户对不同种类的军事情报需求是不一样的,只有形成一个灵活的军事情报反馈机制才能准确地把握用户的不同需求,更好地为全军机关决策、部队训练和各项军事行动战略任务服务。提问反馈模块就是用户进行提问交流的分区,有权限的管理员或老师可以对问题进行回答,通过这些问题反馈以及用户行为管理中对用户检索、浏览、下载各类军事开源情报信息情况的统计,可以有效地获取到用户的军事情报需求,不断改进数据库的情报服务工作。

4 结束语

纵观已有的研究,开源情报研究在国内一直处于被冷落的状态,但它的研究意义与价值是不容忽视的,尤其是在军事领域,本文从外国军事开源情报信息源的搜集整理为切入点,运用爬虫软件进行资源的获取,并且基于SVM分类模型进行筛选得到军事类资源,最终形成一个基于MADL资源系统开发平台开发设计的外国军事开源情报数据仓库,实现了军事领域开源情报信息从搜集、处理到共享的全过程分析,不仅有利于巩固院校重点学科在全军人才培养与科技创新的情报优势,还能够为全军机关决策、部队训练提供前沿的情报支撑服务。

猜你喜欢
情报信息信息源开源
校园武术“学、练、赛”一体化实践探索
睡眠者效应
传播开源精神 共迎美好未来
五毛钱能买多少头牛
2019开源杰出贡献奖
舞蹈资源管理系统对档案管理和舞蹈教学的作用
图书馆情报信息服务的创新发展
对公安情报信息意识的思考
图书馆情报信息服务的创新发展
开展配网快速复电的有效措施