,
随着信息技术的发展,信息爆炸带来的大数据压力和灵敏性要求都对情报工作带来了空前挑战,促使情报工作走向智能化阶段,其途径和重点已成为业界关注的焦点。目前,情报智能化研究大都停留在概念和理论层面。虽在思维方式方法论和技术研究方向等层面已有一定的相关研究与顶层设计[1-2],但在实践层面,尤其是在寻找有效提升情报智能化发展突破口上,研究相对薄弱。美军近期提出的“算法战”概念强调以算法为抓手,为探索情报工作的智能化发展路径提供了借鉴。
当前世界强国都在通过智能化发展提升国力、军力。2017年4月,美国防部副部长罗伯特·沃克宣布成立由国防部情报和作战支援主管约翰·沙纳汉中将领导的“算法战跨职能小组”(AWCFT),启动并统一领导全军“算法战”相关作战概念与技术应用研究,其目标是利用智能化技术手段将国防部的大量数据快速转换为可付诸于行动的情报与见解,开发先进的计算机视觉算法,提升“处理分析与传送”全动态视频能力[3]。“算法战”包含用计算机代码表达算法和运用算法构造系统两个核心概念[4]。该概念的提出是美国在深刻意识到大数据压力已非人力所能承受之后,在综合考虑军队的战略需求、面临的迫切问题和自身的技术水平等多重因素的基础上,以算法为重要抓手,以情报分析为试验田,各部门统一部署、分步实施,进而提高军队整体的智能化水平,从软实力方面谋求新军事优势的新举措。
“算法战”虽立足军事情报,但它给情报领域整体的智能化发展提供了新的思路,极具借鉴价值,主要体现在以下几方面。
算法是行为认知的根本途径。情报以数据、信息、知识、智能与智慧为主要研究对象,为最终的决策环节解决信息不完备的问题,所以智能与情报二者的关系始终不可分割[5]。对主体行为的认知是智能的重要方面。在认知过程中,无论是针对简单的个体动作,还是复杂的国家行为,都可以结合不同需求和不同条件,采用不同形式的算法特别是智能算法予以实现或部分支撑。
参照DIKW转化原则[6],在情报智能化发展中,若要将数据转换为信息,就必须用算法来解释数据;若要将信息转换为知识,就需要用算法总结知识;若要将知识转换为智能,就需要算法来训练机器。因此,在智能情报的工作过程中,应不断深化智能算法的应用。
算法是解决特定计算问题的一组代码,它既是算法开发者经验的总结,也是思维创造的体现和对信息的一种高度凝练。随着情报信息化进程的不断推进,不同层面的算法在情报工作各环节中发挥了一定作用,但呈现行为原发、重视不均、认识不明、利用分散等现象,算法的整体认识和智能水平均有待提升。
从算法应用角度看,一些具体问题以特定软件形式零散、重复、隐性存在,缺少顶层统一认识和规划,难以系统地开展评价、筛选等工作,使用者难以确定现有算法能否满足应用需求、如何选择不同问题的最优算法等问题,严重降低了工作效率和成效;算法之间的互补性、共享性较弱,算法应用的持续完善较难。
算法开发者大多处于“只见树木不见森林”的困境之中,缺乏整体认识,导致算法功能交叉重叠,定位混乱;低端重复现象严重,对短板弱项认知不足,可能出现研究投入的盲目跟风现象,造成算法的畸形发展。
从算法智能化水平看,随着大数据、人工智能的飞速发展,情报领域中原有算法普遍面临淘汰或更新换代,需要在新的智能手段基础上重新考虑算法实现的方式,研究基于智能技术的新型算法,策划并实现更有应用价值的功能和性能。对于以前尚未考虑算法应用的场景,需要赶上智能化技术发展进程,快步转变思维,积极创新算法在情报信息感知获取、知识处理、深度挖掘、智能分析、智慧服务等各流程中的作用点、作用模式和智能化实现程度,从问题、技术、实践等不同角度探索通过智能化算法推动情报领域智能化的新思路。
基于上述问题,通过算法体系构建的体系框架,一方面可将具体算法推而共之,形成整体认识;另一方面,可有效加强算法的系统性管理,利于算法评价和后期检索以及高屋建瓴地统一布局。算法体系还应充分体现“三性”:一是“先进性”,算法体系的先进性将促使算法的应用过程更加便捷高效,算法组织更趋合理;二是“完备性”,算法体系的完备性将为情报工作的开展在算法工具层面提供完备的视图,有利于查找科技情报工作中是否某个环节出现了算法的缺失或落后,避免重复开发;三是“系统性”,算法体系的系统性有助于系统分析算法,关系到算法之间联系的紧密程度,进而对算法之间的层级关系认识以及组合使用产生影响。
此外,算法体系构建过程中运用的多种分类方式可以让算法使用和开发人员从不同角度加深对算法技术本质的认识,便于根据特殊需求使用和改进,也有利于算法间的互相借鉴及合并嵌套使用,使研究人员真正地“站在巨人的肩膀上”。
体系是系统的连接,是复杂的、有目的的整体。算法体系要以体系化的方式对算法元素进行系统的整序,形成统一整体;同时应突出算法之间的内部联系和外部区别,从系统和元素两个层面帮助情报人员实现对算法的认识。
既突出“智能”又坚持兼容并蓄。从本体论角度出发,“智能算法”的提出仅仅是认知思维的变化,也就是认识层面的改变。随着人工智能等计算机科学的快速发展,众多“新颖”算法被归于“智能算法”。“智能算法”与传统算法之间并不具有排他性,如堆排序、高斯消去法等经典算法乃至数学思想在多种算法的融合下具有新的生机,因此智能算法体系是兼容并蓄的。
从体系的角度看,智能情报算法体系还要着眼于系统性。情报领域的算法应用涉及信息搜集、数据加工、情报分析、情报服务等方面,需要从情报研究与生产的完整生命周期出发,对体系的内容、层次和关系有系统的认识;同时要考虑算法具有很大的灵活性、分类界限模糊、分类方式不定等因素,结合客观工作需要,适当把握要素的粒度,完善算法类型,合理解构和关联体系内各个层次和类型的算法,系统定位各类型算法在体系内的位置,形成相对系统完备的科学体系。
在构成体系的具体算法的选择上,情报工作具有很强的实践性,各流程环节有自身的核心内容也有不同的特殊要求。对应的体系构建要紧密结合情报工作的科学性、综合性、针对性、及时性和创造性等特点,在整体和个体两个维度上保持实用性。同时,算法特别是以计算机代码表达的智能算法,究其本质仍属于技术的范畴,对其进行体系划分不能忽略算法的技术性质,而要着重体现其科学技术内涵,构建结果要符合开发、使用人员的技术性思维。
作为体系还应保持开放性。算法体系是一个动态的架构,其内部算法需要根据技术发展、需求变化而不断调整。如与目前的先进算法技术相对接,推陈纳新,不断提高体系的技术含量。另外,体系的构建与完善要向所有的参与人员开放,包括情报领域的算法开发者、使用者、改进者。
在同一研究领域下,算法虽然千变万化,但又万变不离其宗,具有很强的相似性,有利于体系的形成。所以基于上述原则,针对情报领域的具体实施环节和研究对象,参考构建军事体系的系统工程方法[7]确定以下逻辑步骤。
体系问题:明确问题所在,寻找主要矛盾。算法体系构建的主要问题在于合理的层内分类方式和层级划分标准。
使命分析:贴合情报工作应用场景,确认体系的使命。算法体系的主要使命是解决算法的无序化问题,便于管理和评价,有利于非技术人员了解体系内各算法的技术情况。
功能缺陷与需求分析:主要进行功能分析,确认目标实现的功能需求。算法体系在功能上要保证算法技术本质与实用性,突出层级关系。
体系结构方案:在上述分析的基础上提出体系构建方案。
结果分析与优化:对得到的结果进行分析评价并不断优化。
3.3.1 智能情报算法体系构成
在情报生产过程中,从数据到信息、从信息到情报等核心的转化过程中,包含信息搜集、数据加工、情报分析等诸多环节,智能算法起很大的作用。特别是在信息搜集、处理等环节,当前计算机视觉、自动翻译、文本处理等技术方面已经有大量实用性工作,可以为智能算法的形成与应用提供很好支撑。本文提出的主要算法方案和算法内涵包括了经典算法和火热的智能领域算法,最终得到如下算法体系组织关系视图(图1)。
首先是应用层。为了体系能更好地服务于情报研究的实际工作,方便情报研究人员根据具体操作环节对算法进行查询或整序,在算法层面上设置了应用层,该层对应研究工作中涉及的相应操作。在应用层的划分中,根据不同的细化程度和工作复杂性将具体操作继续进行不同程度地细分,比如信息搜集包括对信息查询和信息推荐,数据加工则包括机器翻译、数据清洗、同异名处理等具体应用。
其次是算法层。算法层是指在不同的应用过程中运用不同层次的算法,层次划分是根据算法功能对操作的支持直接性进行的层间划分,分为3层。
图1智能情报算法体系组织关系视图
一是特定算法。根据算法的实施进行划分,如在查询过程中,算法是采用词索引思想实施抑或依照字索引思想实施。由于实施思想与应用密切相关,所以该层是与应用层支持关系最近的层级。 二是中间件算法。本文借用了软件和服务程序中“中间件”这一概念,意指该层算法可以在不同的特定算法中共享使用,处于算法层的中间层级。层内划分是根据所针对的算法级别的问题不同而划分的,如优化问题、排序问题等。在功能上对应了细分问题的解决,对接了基础算法与特定算法。 三是基础算法。根据算法的对象、实现结构、逻辑、模型等基础要素进行划分,如采用了支持向量机(SVM)模型、神经网络模型或依照自然进化逻辑(遗传算法)等。这是算法层级中最底层的一级,但功能是所有算法应用的基础。
3.3.2 体系深化与思考
对于图1设计的智能情报算法体系,还有很多细节需着重考虑。第一,算法的归类角度——由上至下。由于分类的颗粒度大小问题,每一层算法可能在本层下仍有细分,存在子类算法(图2)。
图2算法层细分举例
某一种基础算法可以为多种上层算法提供支撑,如拓扑排序算法既属于图算法又属于一种排序算法。某一种复杂算法同时由同一层级或不同层级的算法组合支撑,很多实际应用的算法都存在这种现象。比如对于常见的分类算法最终都要进行优化,或者说很多分类算法就是在分类模型的基础上对损失函数做优化。
第二,应用的算法支撑角度——由下至上。 某一项应用由不同层次的算法支撑。以数据清洗为例,数据清洗可以再细粒度划分为异常识别与异常处理两种操作。异常识别要对属性异常(空值、错误、不一致)和重复异常做出检测,主要采取智能化算法中既有基于统计分析和模式的特定算法,也可直接使用聚类、关联规则和匹配算法等中间件算法;异常处理则主要使用排序、聚类等中间件算法。 某一项应用直接由底层算法支撑。同名区分所采用的方法有直接使用中间件算法的分类、聚类算法,也有直接使用基础算法的图算法(图3)。
图3 同名区分应用的算法
从个人发展角度出发,要及时通过高效率的算法工具来协助工作,关注热点算法的思想和原理,对算法的灵活运用保持充分的敏感性。比如在工作中养成良好的算法习惯,利用碎片化时间学习算法,多学习并掌握一些常见问题的通用解决模式,对于已解决的算法问题,要总结复盘实现思路、优缺点和改进方法,提高举一反三的能力,最终实现个人技能竞争力的提升。对于团体的发展,目前已有大量的信息资源平台。在算法层面可以建立类似的专业算法库,将算法作为重要的技术资源进行系统管理与利用;同时要塑造类似“算法战”的竞争性思维,提高算法意识。在如今的“智算”时期,需谨防被竞争对手技术突袭抢占先手,要把握机遇,勇攀高峰,逆流而上,力争在专业领域内获得更多话语权。
王延飞教授曾指出,尽管中国情报界历来对信息技术十分关注,但却缺乏对前沿技术的掌握和精通,人工智能、大数据的相关研究成果也由于缺乏足够的技术与数据资源支持而使得情报学研究很难有大的理论和方法突破[5]。以算法为例,利用计算机科学领域的研究成果,已有大量被进一步适用化改造的算法用于情报工作之中。较之其它研究领域,应用于情报研究领域的算法的深度与广度均明显不足,缺乏重大的专业性应用成果。因此,情报人员要更多地应用群体智慧、团队协同,最大程度地发挥工具、模型以及算法的优势,在建模、工具开发和算法开发等方面发挥重要作用[8]。加强对前沿技术的掌握与应用,适时地进行技术迁移,立足迫切的现实需求,坚持以实践为导向,进行创新性技术研究与生产,以技术驱动情报智能发展。