黄志良, 申 远, 胡 彪, 王适之
(空军预警学院,武汉 430019)
随着军事情报搜集手段、处理分析方法的快速发展,使得军事用户能够获得大量的不同类型、粒度、时空的军事情报资源,但是也会使得指挥员需要耗费很大的时间精力从海量的情报发掘有效信息资源;同时随着现代战场不断向陆、海、空、天、电、网等多维空间进行拓展,使得各类各级军事情报需求用户所需的军事情报范围、层次、粒度、时效性等千差万别,单纯靠用户认知去挖掘对军事需求用户有用的情报存在着很大的局限性。面对“情报泛滥”和“情报缺乏”的矛盾[1],如何采用有效的手段和方法向各类情报用户推送情报生成的产品已成为亟需解决的问题。
目前,情报服务模式主要有三种,包括情报检索服务、情报定制服务和情报推荐服务[2]。情报检索服务是各类情报用户在不同时机,为了满足对某类情报的某方面的需求,采用相应的检索技术,以词典搜索、关键词匹配等为主要手段,查找相关情报的过程[3]。情报检索服务一定程度上能够为用户提供所需的情报资源,但是优质情报的获得前提在于情报人员要具备能够认识到何时需要情报,能够正确地检索、评估和有效利用信息的综合能力,但是囿于用户的认知能力和特点,用户并不能总是明确描述自己的情报具体需求,并且随着“信息过载”、 “信息迷航问题”的加剧,单纯地依靠检索技术没有考虑不同类别的情报用户的需求差异,自然无法满足用户的个性化需求。情报定制服务是以模块化技术和柔性化制造技术为基础,通过用户定制获取用户信息,准确了解用户的需求,从而为用户提供更为精准的情报服务,提高情报使用效率[4]。相比检索服务“我提供什么,用户就接受什么”模式,情报定制服务采用批量生产,统一供应的服务模式,即“用户需求什么,我提供什么”的模式,能够对用户需求精准定位,为用户量身定做合适的情报内容和系统服务,因此在内容提供上更具有针对性,大大提高了用户获取情报的效率。但是情报定制服务的缺点在于情报定制是以“Pull”型驱动,严重依赖用户对需求的理解和表达,缺乏对用户上下文情景的研究,对于用户的隐式需求无法满足,并且无法根据用户需求变化提供自适应的情报服务。情报推荐服务是利用情报系统获取、分析情报用户作战任务过程中的行为和个性化情报需求特征,推导、预测用户的潜在需求,并实时跟踪用户的需求更新情况,主动将用户需要的情报资源提供给情报用户的活动[5]。情报推荐服务是以“Push”型驱动,主动提供智能化、个性化情报服务,是以推荐技术为核心,利用知识发现、数据挖掘、机器学习、人工智能等多种方法为用户提供合适的情报资源。相比情报检索服务、情报定制服务被动地为用户提供信息资源,情报推荐服务根据用户个性化特征,主动为用户提供合适的情报,并且当用户需求变化时,情报推荐服务的也能自适应变化,为用户提供个性化、动态化的情报资源。
作为情报推荐服务的核心,推荐技术已经在民用领域已经达到一个比较成熟的阶段。1992年,Goldberg等[6]提出协同过滤推荐算法,拉开了推荐技术研究的序幕,Goldberg还首次提出利用协同过滤推荐算法搭建推荐系统Tapestry;1994年,Resnick等[7]提出第一个自动化新闻协同过滤系统GroupLens,利用协同过滤思想来为用户提供符合个人偏好的新闻; 1995年,Ken[8]提出以文本词作为特征,建立基于内容的新闻过滤系统NewsWeeder;1998年,美国人工智能协会专门设立推荐技术的研讨会,使推荐技术在学术界受到了更多的关注;1999年,国际计算机学会建立推荐技术年会,并从此每年定期召开推荐技术研讨会;1999年,Towle & Quinn有关用户需求和偏好的推断来进行推荐,建立基于案例的食品推荐系统Entrée[9];购物网站亚马逊从2001年建立推荐系统以来,一直是推荐技术的积极响应者和推广者,被读写网称为 “推荐技术之王”;2004年以后,随着推荐技术的日益成熟,学者开始研究组合推荐技术,如将协同过滤推荐算法和基于内容进行融合;值得一提的是,Netflix作为一家在线影片租赁提供商,2007年开始举办Netflix大奖赛,奖励第一个能够将该网站推荐效果提升10%的团队100万美元,将推荐技术的研究推向了高潮,尤其基于模型的推荐技术得到了长足的发展[10];2017年,推荐技术领域建立了正式学术研讨会——RecSys,现在已经是新的推荐技术的研究和应用顶级年度盛会。随着理论研究的日益成熟,推动了推荐技术在工业应用的发展,外国许多大型公司相继部署了推荐系统,如亚马逊、Facebook、Linkedln、MySpace、Netflix、Google、Youtube等,都相应搭建了推荐系统并取得了良好的商业效益。随着推荐技术产生的巨大影响,出现了专门的正式会议和相关的专题研讨会,许多顶级学术会议大量收录了有关推荐技术的学术论文。
随着电子商务的蓬勃发展,推荐技术带来的巨大商业利润,开始引起中国学术界的关注和研究,相关的理论研究和实际运用成果开始增多。文献[11]是中国较早介绍推荐技术的技术资料,使得推荐技术开始被更多人了解与关注;1999年,清华大学路海明等[12]提出了基于Agent技术的个性化主动信息服务;2000年,电子科技大学何军等[13]提出一种分级信息存储模式和基于多播协议族的主动信息传送方法;2001年,曾炜等[14]提出一种基于频繁遍历路径的改进推荐算法,利用页面分层的思想,着重提高了推荐算法的效率;2001年,清华大学冯翱等[15]发布了一个基于 Agent的信息过滤系统——Open Bookmark,以实现个性化的主动信息服务;2003年,复旦大学邓爱林[16]对电子商务推荐系统关键技术进行研究,提出了基于项评分预测的IRPRec协同过滤推荐算法和基于项聚类的ICRec协同过滤推荐算法,设计并实现了一个多推荐模型电子商务推荐系统原型ECMner;2003年,复旦大学左子叶[17]发布了一个开放式电子商务推荐系统构架OARs;2004年,在第二十一届中国数据库学术会议、2005年全国理论计算机科学学术年会收录了关于推荐技术的文章,这标志着推荐技术的研究在中国开始丰富起来;2007年,北京航空航天大学张光卫等[18]提出了一种基于云模型的协同过滤推荐算法;2009年,中国科学技术大学刘建国等[19]对个性化推荐系统的发展现状进行详细的文献综述,为后来的研究者提供了理论参考。推荐技术的理论研究日渐成熟,推动了推荐技术在工业上的成功应用,中国大型的电子商务公司相继部署了推荐系统。2007年,受亚马逊推荐系统启发,当当网推荐系统1.0在上线,推荐系统开始发挥作用,能够帮助用户发现有价值商品、长尾商品销售等[20];2008年,淘宝推出推荐系统,逐渐实现了对淘宝用户的“千人一面”到“千人千面”的重大转变[21];2011年,百度在搜索引擎的基础上实现了推荐系统,使得百度业务全面扩展;2012年,京东部署了推荐系统,基于大数据和个性化推荐算法,实现向不同用户展示不同内容的效果;2014年,阿里巴巴推出阿里移动数据竞赛大赛,旨在解决现有推荐系统存在的技术问题,吸引了众多推荐技术研究者的参与; 2013年,腾讯宣布打造了腾讯云推荐引擎,该推荐引擎是面向广大中小互联网企业打造的一站式云推荐引擎解决方案,提供安全、便捷、精准、可靠的推荐系统服务,提升其业务的点击转化率和用户体验;今日头条的信息推荐算法自2012年9月第一版开发运行至今,已经经过四次大调整和修改,并于2018年发布了《今日头条算法原理》,对今日头条的推荐算法所使用的的推荐技术进行了详细的介绍,为推荐技术的落地提供了理论指导[22]。
推荐技术尽管在民用领域取得了较大的成功,军事领域还存在理论上和应用方面上的困难和问题,深入研究推荐技术在军事情报服务的应用将有助于提高情报产品的使用效益,加速各级各类指挥员决策过程,从而提升体系作战的能力水平。本文从军事背景出发,介绍推荐技术的——般框架,对推荐技术的核心—推荐算法进行了重点总结,并分析几类主流推荐算法的优点与不足,讨论推荐算法应用军事领域存在的问题,并展望推荐技术应用于军事情报服务的未来发展趋势。
推荐技术通常利用情报系统与用户的交互过程中,通过记录、搜集并分析用户的行为、习惯、兴趣等用户偏好信息,利用泛化策略(通过数据挖掘、机器学习等技术实现)泛化这些反馈数据,用以构建用户偏好模型;同时,在情报数据预处理过程中,通过特征抽取技术提取情报的结构化信息(如关键词、概念、n-grams等),目的是将来自于信息源的情报信息构建成情报描述模型;最后利用过滤模块将用户偏好信息与情报在表示空间进行匹配,将匹配度高的一组情报推荐给用户。图1为推荐技术的一般框架。
图1 推荐技术的一般框架Fig.1 General framework for recommendation technology
推荐技术的形式化表示为给定用户集合U={u1,u2,…,un},情报集合为I={i1,i2,…,im),uk(k=1,2,…,n)为第k个用户,ij(j=1,2,…,m)为第i条情报。兴趣度函数f(u,i),即f:UI→R+UI→R+度量用户u对情报i的兴趣度,R+={r11,r12,…,rnm}表示某用户对某情报的兴趣集合,则 ∀u∈U,要求得兴趣度函数最大值对应的情报i′,i′∈I,即
(1)
作为推荐技术的核心——推荐算法,根据推荐策略的不同,目前主流的推荐算法可分为协同过滤推荐、基于内容的推荐和组合推荐三类[23]。
协同过滤推荐算法的基本原理是在进行情报推荐服务过程中,根据情报用户特征来匹配要推荐的情报资源,是根据用户之间的相似度或情报之间的相似度来实现对目标用户的情报推荐[24]。针对协同过滤推荐算法的研究,其中,协同过滤推荐算法可分为基于记忆的协同过滤和基于模型的协同过滤,基于记忆的协同过滤是利用用户-情报评分矩阵来预测目标用户对某一特定情报的评分或形成一个推荐列表[25]。基于模型的协同过滤是利用数理统计、数据挖掘、机器学习等方法,根据用户与情报的历史交互行为(包括评分、浏览、标记、收藏等行为)建立模型,对比模型输出与实际结果来调整相关参数来实现目标用户的情报推荐[26]。
2.1.1 基于记忆的协同过滤
基于记忆的协同过滤可分为基于用户的协同过滤和基于情报的协同过滤,两者区别在于前者的评分是使用相似用户的评分来进行预测的,后者的评分是使用对相似情报的评分来进行预测的。
(1)基于用户的协同过滤。在该方法中,定义用户的邻域以便识别与正在为其计算评级预测的目标用户的类似用户集合。 为了确定目标用户的邻域,一般通过计算目标用户与所有其他用户的相似度。因此,需要在用户指定的评分之间定义相似度函数。常用来度量用户之间相似度的方法有欧几里德法、余弦相似度法、Pearson相关系数法等。假设用户-情报评分矩阵为R=[rui]m×n,rui表示用户u对情报i的评分。以Pearson相关系数法为例,∀u,v∈U,用户u、v的相似度为
sim(u,v)=Pearson(u,v)=
(2)
在计算出用户间的相似度后,一般采用K最近邻方法选取近邻用户,即挑选与目标用户最相似的k个用户。接着利用近邻用户的评分情况来为目标用户进行推荐,考虑到不同用户评分尺度的问题,先对近邻用户的评分增量值进行计算,然后再进行加权平均,则目标用户对某一情报的预测评分值为
(3)
基于用户的协同过滤适用于用户数较少、用户个性化偏好不太明显的场景。当用户规模变化时,需要重新计算相似度,扩展性较差;随着推荐数目的增加,基于用户的协同过滤倾向于推荐热门情报,出现“长尾效应”,覆盖率反而降低;用户与情报产生新的交互行为时,推荐系统并不能立即响应。
(2)基于情报的协同过滤。基于情报的协同过滤与基于用户的协同过滤原理类似,不同之处在于基于情报的协同过滤是计算情报之间的相似度。该方法首先计算情报之间的相似度,然后从目标用户评分过的情报集合中挑选与预测情报之间最相似的k个情报,最后根据近邻情报集合来预测待推荐的情报集合,则目标用户对某一情报的预测评分值为
(4)
基于情报的协同过滤适用于情报数较少、用户个性化偏好明显的场合。与基于用户的协同过滤一样,存在扩展性问题;当产生新的情报时,必须要更新情报相似度表,才能将情报推荐给用户。
2.1.2 基于模型的协同过滤
基于模型的推荐算法有很多,比较有代表性的算法有:基于朴素贝叶斯的协同过滤、基于矩阵分解的协同过滤、基于神经网络的协同过滤等。
(1)基于朴素贝叶斯的协同过滤。朴素贝叶斯模型是一种生成模型,通常用于分类,在推荐问题中将用户作为实例和情报视为要素,以便使用分类模型推断缺失的评分项[27]。该方法假设存在少量不同的评级,每个评级都可以被视为分类值,同时忽略评级之间的排序,例如三个评级:喜欢、中立和不喜欢,将被视为无序的离散值。在不同评级的数量较小的情况下,可以合理地使用这种近似值而不会显著降低精度。假设存在l个不同的评级,分别为{v1,v2,…,vl},vs(s=1,2,…,l)为第s评级的评分。评分矩阵为R=[rui]m×n,用户u对情报i评分集合为Iu={r1i,r2i,…,rni},由贝叶斯定理,可得:
(2)基于矩阵分解的协同过滤。2007年Nettlix矩阵预测大奖赛的兴起,使得矩阵分解方法广泛应用于推荐领域[28]。比较有代表性的算法有隐语义模型、奇异值矩阵分解、概率矩阵分解、偏置矩阵分解、非负矩阵分解等。以隐语义模型为例,该算法利用隐因子来表示用户和情报特征,将原始评分矩阵分解成两个低阶矩阵相乘,然后利用随机梯度下降法进行优化[28]。计算公式如式(6)所示:
(6)
式(6)中:Um×k、Vn×k分别为分解后的用户、情报特征矩阵;k为隐因子个数。矩阵分解算法的优势在于预测精度高,缺点在于生成推荐时间相对较长,解释性差。
(3)基于神经网络的协同过滤。神经网络算法利用神经元模拟人类大脑,神经元通过突触连接相互连接。在生物系统中,通过响应外部刺激对应的改变突触连接的强度来进行学习[29]。在人工神经网络中,基本计算单元也称为神经元,强度突触连接强度对应于权重,这些权重定义了算法的学习参数。神经网络最基本的架构是感知机,包含一组输入节点和一个输出节点。对于包含d个不同维度的数据,存在是不同的d个输入单元,输出节点与一组权重W相关联,用于将从激活函数得到的函数值线性映射到另一个维度空间上,激活函数以符号函数为例,则输出层输出可表示为
(7)
2.1.3 协同过滤算法的应用实例
目前,协同过滤推荐算法应用于军事领域的研究较为深入。胡旭等[30]针对协同过滤推荐系统存在的数据稀疏性和扩展性差问题,提出了初始聚类中心优化的K-均值项目聚类推荐算法;余苗等[31]利用层次向量空间构建用户兴趣空间,对情报用户的历史情报和定制信息,通过朴素贝叶斯分类算法挖掘用户兴趣,建立用户兴趣模型,提出了一种基于朴素贝叶斯分类算法的雷达情报按需分发技术;傅畅等[32]在分析军事情报和互联网信息特点的基础上,设计并实现了一个包括采集、处理、存储与检索的web军事情报挖掘模型,然后提出了一种面向军事情报应用的文本聚类方法;袁仁进等[33]围绕军事新闻推荐模型构建、军事新闻推荐模型更新及融合地理情境的军事新闻推荐模型三方面进行了研究,在用户兴趣模型构建方面,提出了一种基于向量空间模型和 BisectingK-means聚类的军事新闻推荐方法,同时顾及时间上下文对用户兴趣模型进行了更新,并构造了一种基于时间的遗忘函数,最后针对地理推荐问题,提出了一种顾及事件地理位置的军事新闻推荐算法,并构建了军事新闻个性化推荐原型系统。
基于内容的推荐算法,利用特征提取技术对用户和情报构建画像,即建立用户和情报特征向量,利用相似度方法计算两个向量的相似度来表示用户和情报的匹配度,将匹配度高的情报推荐给用户[34]。 基于内容的系统的主要组成部分包括离线预处理、离线学习和在线预测。离线预处理主要用于提取用户和情报特征,用户特征可以利用用户评分向量表示,而情报特征需要将非结构化的情报资源(如文本、视频、音频等)转化成结构化的情报内容,通常用关键词向量表示;离线学习部分用于创建汇总模型,通常是分类或回归模型,然后利用该模型对相关特征进行学习;在线预测利用前面的模型对目标用户提供实时情报推荐。当对非结构化格式的情报进行推荐时,特征提取过程尤为重要,该步骤能够将非结构化的情报用词袋表示,在此之前需要对数据进行清洗,包括停用词消除、词干还原和短语提取等。执行这些步骤后,进行特征选择,特征选择主要目的是只保留最丰富的特征信息,常用的方法有基尼系数、信息熵、卡方分布、偏差归一化等[35],然后关键字将转换为矢量空间表示。在向量空间表示中,文档表示为词袋,以及它们的频率。利用TF-IDF(term frequency-inverse document frequency)技术用来计算每个词语的重要性,该方法的主要思想是某词语在文档出现的频率越高,则表示该词语在越能够表示该情报的内容;同时该词语在不同文档中出现的次数越多,表示该词语对于不同文档的区分度低[36]。假设情报资源包含的文档数为N,包含词语ti的文档数为ni,hij表示词语ti在文档sj出现的次数,则词频Fij为
(8)
式(8)中:t表示在文档中出现的词语;ftj表示在文档sj中所有词语t出现的次数。逆文档频率为
(9)
则情报用关键词向量的每个分量表示为
(10)
在分别建立用户和情报特征向量后,计算两者的相似度,常用余弦相似度来计算。公式如式(11)所示:
(11)
式(11)中:U,I分别表示用户、情报向量。根据向量之间的相似度,可以得到用户与情报的匹配度来实现推荐。基于内容的推荐可以缓解数据稀疏性问题,实现简单,缺点在于该算法适用于文本类型或者特征容易提取的情报,也无法发现用户的潜在兴趣。
对于文本类情报,基于内容的推荐往往推荐效果更佳。王中伟等[37]针对军事用户的特点,提出了一种基于ISM(interpretative structural modeling method)方法的军事文本信息智能推荐技术。并采用分层思想,对推荐系统进行了架构设计,最后,以美军“沙漠风暴”军事文本内容推荐为例,构建了军事用户角色的特征层次模型,实现了情报信息的智能推荐,解决了新用户推荐的“冷启动”问题。电子科学研究院杨慧杰等[38]参考内容中心网络架构,设计了包含情报服务中心-情报服务站-情报用户三个层级的移动情报服务系统模型以及情报缓存节点模型;提出了基于在线学习的情报内容流行度估计函数,并在此基础上,提出了基于内容流行度的情报分发算法。古秦弋等[39- 41]在基于内容推荐技术的基础上,相继提出基于内容相似度的雷达情报筛选技术、基于加权内容相似度的雷达情报推荐技术和Relief内容相似度的雷达情报按需分发技术。
每种推荐算法都有其优势及缺陷,组合推荐算法的优势在于集成各算法优势,弥补各算法的缺陷,最大化提高推荐算法的推荐质量。组合推荐算法按照组合方式可以分为加权、切换、级联、特征扩充、元组合、特征组合、混合等[42]。
2.3.1 加权式组合
(12)
2.3.2 切换式组合
在推荐算法各个阶段的表现不同,各个算法应用场景不同以及算法性能各异,针对不同时机、推荐背景、任务需求应当切换相应的推荐算法,使得算法能够在合适的时间、场景发挥相应的性能。
2.3.3 级联式组合
级联式组合是一种分段推荐方法,第一阶段先利用一种推荐算法得到粗略的候选排序结果,第二阶段使用这个粗略的排名来进一步完善它并打破关系。这种方法能够利用各算法的优点,因此推荐效果较好。
2.3.4 特征扩充组合
特征扩充组合是将一种推荐算法学习到的特征信息融入下一种推荐算法,能够充分学习到用户或情报的特征信息,因此用户或情报画像更为准确。
2.3.5 元组合
元组合是将一种推荐算法输出作为另外一种算法的输入。在前者算法的基础上,可以进一步提升推荐算法的效果。
2.3.6 特征组合
特征组合方式是利用单个算法学习用户或情报的特征,能够有效解决数据稀疏性问题,使得推荐精度更高。
2.3.7 混合式组合
混合式组合是构建多种推荐算法,根据各算法的推荐效果选用推荐算法进行推荐。
目前,针对组合推荐算法在军事应用方面上的研究还比较少,但是单一推荐算法应用场景及推荐效果往往具有一定的局限性,因此组合推荐算法的研究还有很大的发展空间。针对组合推荐算法,张云龙等[43]先运用改进BP神经网络计算出威胁等级并排序,优先分发急需情报,然后引入匹配算法计算相似度,实现情报推荐;马建威[44]在传统的基于内容过滤方法和协同过滤方法基础上,提出了改进的混合推荐方法,该方法综合运用了基于用户的协同过滤算法和基于项目的协同过滤算法的优点,满足了信息推荐的可扩展和自动化程度高的要求。
其他常见的推荐算法还有关联规则推荐算法、基于知识的推荐算法、图推荐算法等。
2.4.1 关联规则推荐算法
关联规则推荐算法[45]是根据用户与情报历史交互数据来统计不同规则,将满足最小置信度阈值的和最小支持度阈值的作为可以输出的规则,然后将对应的情报推荐给用户。关联规则推荐算法关键在于规则的挖掘和选取,在海量数据的条件下,规则的挖掘与选取耗费时间长,算法效率相对较低。
2.4.2 基于知识的推荐算法
基于知识的推荐[46]不需要获取用户信息,可以直接利用领域知识或者案例,根据知识库的内容,将合适的情报推荐给用户。该算法不依靠用户对情报评价,且解释性较强,缺点在于知识较难获取,需要相关专家提供较为规范、可靠的领域知识。
2.4.3 图推荐算法
图推荐算法[47]将用户和情报抽象为两类节点,将用户与信息的交互行为表示用户对信息的选择关系,利用用户、情报和用户对情报的选择关系构成关联图,该算法克服了评分数据稀疏性对推荐性能的影响,并且算法的推荐性能和扩展性要好于传统推荐算法。
在应用研究上,吴小余等[48]运用专家系统的理论及方法的基础上,提出了对空情报自动分发系统方案;毛可[49]采用接口语义匹配等方法进行服务推荐可能产生服务不匹配或不可用的情况,提出一种基于历史事例推理的军事信息方法;凌艳香[50]研究了个性化军事信息推荐中的链路预测方法,构建了多节点、多链接、多属性的用户信息关系图,基于子图相似性的链路预测算法和多项式曲线拟合下的基于图核思想的链路预测算法,讨论了链路预测在个性化军事信息推荐中的应用,提出了基于用户偏好相似和基于信息价值关联两种推荐策略,同时还利用链路预测解决了推荐系统中的冷启动问题。
推荐算法一般依靠用户-情报评分矩阵来实现推荐,情报资源尽管是海量的,但是用户对情报的评分数据却是稀疏的,即因为用户时间或精力是有限的,往往存在的大量用户并不能对所有情报进行推荐。数据的稀疏性反映在评分矩阵上是使得矩阵变成高维稀疏矩阵,这使得相似度计算并不准确,推荐效果下降。针对稀疏性问题,文献[51]将基于用户的协同过滤和基于项目的两者预测评分动态混合加权,并引入相似用户对相似物品的评分作为间接预测评分,最后与直接预测评分加权形成用户对项目的最终评分;文献[52]利用基于物品属性信息的用户评分信息和时间效应,对评分矩阵进行扩展并丰富了数据源;文献[53]引入用户特征信息,并结合数据预处理、相似度加强和混合预测等方法,以期解决数据稀疏性给推荐系统带来的精度下降问题。
冷启动问题包括新用户冷启动问题、新情报冷启动问题和系统冷启动问题。新用户冷启动是指新的用户加入推荐系统,此时该用户并没有与情报产生交互行为,无法根据相似度方法进行匹配相应的情报;新情报冷启动是指新的情报加入推荐系统,很少或没有用户对该情报进行推荐,长期以往该情报很难获得推荐的机会;系统冷启动问题值是指推荐系统刚刚建立,只有少量的用户和情报,将新情报推荐给新用户较为困难。针对冷启动问题,文献[54]提出一种多重图排序的冷启动推荐方法。通过分析用户之间可能存在的信任度构建关系网络,利用多重图排序模型得到目标用户的最近邻集合,进而产生目标用户的推荐列表。文献[55]提出了一种结合协同概率矩阵分解与迭代决策树的推荐算法,该方法首先使用多层协同概率矩阵分解在多个维度上得到用户潜在特征,然后使用迭代决策树学习算法对特征和标签进行训练得到用户对项目的偏好,最后使用考虑约束问题的top-N推荐产生推荐列表。文献[56]设计了一个新的凸起框架-多级偏好回归来直接预测评级,该方法考虑到三个组成部分的影响:①用户属性与项目属性;②每个用户对项目属性的偏好;③项目在具有某些属性的一组用户中的受欢迎程度。调整三个组件的影响,可以解决用户,项目和系统的三种冷启动问题。
随着新的用户和情报加入到推荐系统后,计算量急速上升导致推荐实时性下降,如何在推荐质量损失不多的情报下保证推荐的实时性,是目前推荐算法研究的一个重点。针对扩展性问题,文献[57]提出一种基于用户聚类的协同过滤算法。该方法结合调用次数和服务的关键词,并利用TF-IDF方法计算用户对关键词的偏好度,构建用户-关键词偏好向量,以此进行用户聚类。文献[58]基于交替最小二乘法优化推荐算法,在优化算法的基础上对分两个部分优化:第一部分采用LBFGS算法使搜索方向快速计算出来;第二部分采用阻尼牛顿法求解步长因子。文献[59]提出了基于Spark平台的交替最小二乘法算法和物品相似度相结合的混合协同过滤算法,基于Spark分布式并行计算框架技术解决了可扩展性问题,同时又提高了算法推荐的准确性。
在实际应用过程中,用户偏好往往受用户所处的时间、地点、天气、网络状态、情绪状态等上下文信息所影响。传统推荐算法往往只考虑到用户和情报的关联关系,无法准确挖掘用户的偏好情况,而上下文信息的引入能够获取更多的知识来构建用户-情报偏好知识库,并且使得军事情报推荐不受算法应用场景的限制,推荐准确性能够得到进一步提升。
目前大多数关于推荐技术的工作都侧重于推荐情报给用户个体,很少考虑到将情报推荐给群体用户。在军事领域,不同军事用户之间往往存在很大相似性,且有些用户活动参与的军事任务与需求相同,往往可以将这些用户作为一个群体,并将推荐算法应用到群体推荐问题上。
深度学习已经成为互联网大数据和人工智能的一个热潮,该方法突破了传统机器学习方法的极限,是通过构建具有很多隐层的学习模型和海量的训练数据,来学习更有用的特征,从而最终提升预测的准确性[60]。基于深度学习推荐算法通常将用户和情报数据作为输入,利用深度学习模型学习训练用户和情报特征,并输出产生推荐列表。典型算法模型有自编码器、受限玻尔兹曼机、深度信念网络、卷积神经网络、循环神经网络等[61],这些模型在近几年在民用领域得到了广泛的研究,如能将其应用到军事领域,将能够有效提升军事情报推荐质量。
推荐技术是解决军事情报过载的有效手段,介绍了军事情报推荐技术的一般框架,并针对该技术的核心——推荐算法进行了综述,针对主流推荐算法包括协同过滤推荐算法、基于内容推荐算法、组合推荐算法等进行了总结,分析了各算法的优缺点,并针对推荐算法面临的问题给出了建议,最后根据最新研究成果,提出了推荐技术的未来可能发展趋势,希望能够对研究军事情报推荐技术领域的研究人员和工程技术人员能够有所裨益。