罗 威 田昌海 毛 彬 吴叔義 刘鹏年
(军事科学院军事科学信息研究中心,北京,100142)
当前,全球科技竞争日趋激烈,以论文、专利、报告、动态等为代表的科技信息资源呈爆炸增长之势,如何面向科技创新的实际需求,从海量科技信息资源中挖掘有价值的情报,依然是科技信息工作的重要内容。随着人工智能技术的快速发展,应用智能技术手段,创新科技信息资源开发模式,是科技信息机构迎接挑战机遇、创新工作模式、履行职责使命的必由之路。
聂荣臻元帅曾经深刻指出,“科技情报是科技工作的耳目、尖兵”。在“两弹一星”研制时期,科技信息的搜集与服务是科技情报工作的主要内容。近年来,随着全球科技竞争态势加剧,像美国这样科技高度发达的国家,也对科技信息越发重视。2017年,美国政府将科技情报纳入《国家安全战略》,指出“几乎所有的现代武器系统都依赖源于科技情报的数据”[1],确立了科技情报在国家安全中的重要地位。2020年,美国《国防授权法》提出“要加大核心领域预警与风险防范力度”,要求“国防部搜集所有影响美人工智能研发的境内外开源信息,了解对手、有效应对”[2]。2021年,美国著名智库战略与国际问题研究中心的报告指出,“应将有关国外人工智能系统与科技能力、科技计划及科技意图的情报作为核心情报收集任务”,“收集对手的技术和应用能力,以及国外科技部门创新的可靠信息”[3]。
2020年11月,美国著名智库战略与预算评估中心发布了《选择性披露:长期竞争的战略举措》报告[4],对如何披露国防相关信息进行了设计,提出了散布虚假信息以迷惑对手、隐藏核心信息以确保绝对优势等信息披露方式,同时该机构也承认“新能力的隐瞒越来越富有挑战性,不仅需要向国外情报机构隐瞒,还要向商业组织、民间机构和军事爱好者隐瞒”。从中我们可以看出,科技强国在国防相关科技信息的发布方面正越来越谨慎,我们搜集国外科技信息面临的环境也越来越复杂,既非简单的信息封锁,也非单纯的信息欺骗。在这种环境下,科技信息工作的重要性凸显。试想如果所有的科技信息都可以方便地从国外网站或专业数据库获取,那科技信息从业人员就只能做“搬运工”了。正是因为科技信息环境的复杂性,才需要广大从业者利用自身的专业素养,去广泛搜集、深入萃取高价值科技信息资源,做到去粗取精、去伪存真,还原事物的原貌。
当前,以大模型为代表的人工智能技术发展迅速,基本是以月为周期迭代推进。大模型在文本处理、图像标注、代码生成等很多方面都取得了成功应用,对相关行业发展产生了巨大影响。科技信息工作本身就具备数据密集型特征,需要开展大量的信息标注、挖掘和服务工作。应用生成式人工智能技术,不仅可通过问答方式提升科技信息服务的效果,而且可在少样本甚至零样本的场景下,实现信息资源的序化组织和内容揭示,大幅提升科技信息资源建设开发效能。同时,对高质量科技信息资源进行格式转换、筛选去重等操作,可将其作为语料库用于大模型继续预训练与微调,实现领域知识嵌入,提升大模型在科技领域的推理应用效果。
近年来,笔者所在单位紧密结合使命任务,深度应用人工智能技术对科技信息资源进行价值挖掘与服务应用,取得了一些初步成效,总结起来主要包括碎片化萃取、多模态关联、知识化积累、敏捷化服务、模型化嵌入、工具化赋能等六个方面的工作,如图1所示。
传统信息处理与服务的基本单元是篇,如搜索一篇报告或一篇论文,但在实际需求场景中,这样的粒度有时显得过于粗放,不易于制定搜索策略。比如,要搜集专家关于人工智能安全的言论,就难以通过构造检索策略来查找相关信息,因为言论的搜索需求在以篇为单元的信息集合中很难表达。这就需要根据一些常见的信息搜集需求,对以篇为组织单位的基础信息资源进行碎片化萃取,开发预置性数据产品。有了一批这样的数据产品,用户再搜集相关信息时,只需要针对特定的数据产品进行搜索即可。
碎片化萃取的关键是实现数据产品的设计与人机协同开发。具体来说,一要研究信息需求,确定预置性开发什么碎片化数据产品,如从每日采集的动态和报告中提取形成言论观点、能力描述、应用场景等数据产品。二要研究信息组织方式,确定碎片化信息的标注维度及相应的标签体系,如从技术域、作战域、军事行动线、装备采办线等维度对碎片化信息进行标注,技术域又可细分为生物技术、量子科学、先进材料、人工智能等。三要研究人机协同的开发流程,采用智能技术手段对科技信息进行挖掘标注的结果,还需要以人工方式进行质量检查和调整优化,这样一方面可提升数据产品质量,另一方面形成的过程数据可作为训练样本库,为进一步优化智能标注的效果提供集成支撑。
我们开发了能力描述集数据产品,主要是从动态和报告中抽取表征前沿技术最新能力进展的片段信息,并从技术领域、能力项等角度进行标注,从而较为系统、深入地积累前沿技术进展情况,为开展战略与情报研究提供高质量数据支撑。能力描述集的构建流程与效果示例如图2所示。
图2 能力描述集的构建流程与效果示例
除了文本型信息资源以外,图片、视音频等多媒体信息中也蕴含大量有价值的科技情报,可形成对文本型信息资源的有效补充。对多模态信息进行挖掘与关联分析,有助于更为全面地扫描发现情报线索并对其进行交叉验证,是当前科技信息资源智能挖掘服务的重要任务。
多模态关联的关键是做好计算机视觉等先进技术的领域适应性应用。图像识别、语音识别、多模态大模型等相关技术发展很快,开源工具层出不穷,应该紧跟最新技术进展,围绕科技信息业务需求开展针对性应用。一是实现序化整理,从海量科技信息中及时发现有价值的多模态信息,并对其进行元数据标注、分类、OCR识别、语音识别等加工处理。二是实现语义标注,从多模态信息中标注重点人物、装备等实体,以及发现架构图、场景图、概念图等情报线索。三是实现跨模态服务,将文本、图片、视音频信息映射到同一语义空间,可实现跨模态信息搜索;对不同模态信息中的相同实体进行对齐和信息汇聚,可实现跨模态情报对象关联分析。
我们针对研讨会类视频信息跟踪与研究需求,开发了研讨会视频信息挖掘工具,实现了演讲文稿识别与还原、演讲语音识别与转写、文本内容识别与提取等功能,并针对系列前沿科技研讨会视频进行了挖掘处理,为深入跟踪国外前沿技术进展提供了高质量信息支撑。研讨会视频信息挖掘流程及效果示例如图3所示。
图3 研讨会视频信息挖掘流程及效果示例
科技情报研究是知识密集型活动,需要进行大量的知识交流与传递,因此,科技信息机构内部的知识管理非常重要。项目、机构、人员、技术、装备等是科技情报研究的主要对象,但其信息来源分散,利用效率低。例如,要对美国DARPA的某项目进行跟踪研究,需要通过DARPA官方网站获取项目研究目标、研究内容等基本信息,通过预算网站获取其经费预算及年度计划安排的信息,通过合同网站获取其合同签订情况,通过国防承包商网站获取其最新动态,通过科技文献数据库获取其研究成果信息。将相关信息进行系统性汇聚、知识化积累,可极大提高信息利用与知识传递效率。
知识化积累的关键是形成常态化、规范化业务流程,提升领域知识的覆盖率、准确性和鲜活度。一是知识线索发现。从每日动态、报告中扫描发现高价值情报对象,作为知识化积累的输入。二是知识协同更新。设计不同类型情报对象的知识维度及知识加工要求,组建知识加工队伍,采用人机协同方式,从多个高质量信息源搜集汇聚关于情报对象的相关信息,并进行信息汇聚与整编工作。三是知识库构建。围绕不同应用需求,构建领域知识库与知识图谱,其中知识库主要面向用户共享传递知识,可采用百科平台构建,知识图谱面向计算机推理应用,从知识库中抽取、融合形成。
我们通过不断实践探索与迭代优化,形成了国防科技基本情况积累流程(如图4所示),每日常态化开展情报对象发现、信息素材搜集与汇聚、知识整编、知识审核等工作,构建了国防科技情报对象基本情况库,目前已经积累了项目、机构、人员、技术、活动等情报对象1.6万个,为各类用户系统了解情报对象基本情况提供了高质量知识支撑。
图4 国防科技基本情况积累流程及效果示意
科技信息工作中经常会遇到一些时间要求紧、质量要求高的应急性研究任务,一般需要对热点事件或用户指定主题进行快速信息汇聚、挖掘分析与推送服务。为了做好此类工作,需要形成科技信息敏捷化服务能力。具体来说,在开展常态化信息跟踪与汇聚过程中,预置性开展多维度标注;在执行应急性研究任务时,使用多维度标签精准框选相关信息,当预置性标签不能满足挖掘分析需求时,快速开展信息标注和挖掘分析等工作,以提升响应速度与成果质量。
敏捷化服务的关键是实现信息资源的按需标注和挖掘分析能力。一是快速开展问题解耦,即从各渠道应急性研究任务实践中梳理常见的任务类型,总结凝练研究问题解耦方法与信息挖掘流程。二是快速标注筛选信息,即搭建训练样本标注平台,开发信息分类、要素抽取等通用标注模型,构建模型训练、测试、部署、调优的工程环境,使得针对新的信息挖掘需求,可快速标注训练样本、开发标注模型、部署应用接口,支撑人机协同的信息快速标注和筛选。三是快速实现信息服务,即采用信息分析图表、地理信息系统、专题服务门户等方式,快速整合多来源、多粒度专题信息资源,面向用户提供高质量信息服务。
我们设计了敏捷化专题信息服务流程,开发了信息敏捷标注与可视化展示系列工具,在系列专题研究中发挥了较好的支撑作用。以前沿技术布局事件挖掘为例,开展了知识架构设计、训练样本快速标注、事件细粒度分类、事件要素抽取与归一、人机协同的数据构建、可视化页面开发等工作,如图5所示。
图5 前沿技术布局事件挖掘流程图
大模型训练过程本质上是一种信息压缩,即将海量高质量信息压缩成神经网络的参数,实现推理能力的跃升。科技信息资源规模巨大、类型多样,具备应用大模型的天然优势。将海量高质量科技信息资源作为基础语料用于大模型的预训练,再围绕序化组织、挖掘分析、智能服务等需求构建问答数据集,对大模型进行微调,可形成科技信息领域大模型,对科技信息资源的建设、开发与服务全链条进行业务赋能。
模型化嵌入的关键问题是围绕业务需求实现高质量领域大模型训练与应用。一是解决信息时效性问题。科技信息服务的时效性要求高,仅采用训练的方式将信息注入大模型显然不能满足时效性要求,一般可采用外挂信息库的方式实现大模型能力与信息搜索能力的集成,这就要提升对用户提问的理解能力和科技信息搜索的精准度。二是减轻幻觉问题。大模型有的时候会“一本正经”地“胡说八道”,目前这个问题不能完全根除,但可以通过提高训练样本质量、外挂信息库、开展幻觉检测等方式,减轻幻觉发生的频率、降低产生的影响。三是提升解决复杂问题的能力。有的科技信息需求比较复杂,无法通过一个提问表达清楚,需要分解成若干小的问题逐个提问,再对答案进行综合,这就需要分析常见的复杂问题样式,构造解耦模板库,并提升大模型的融合生成能力。
我们围绕赋能科研创新的需求,依托在科技信息资源建设、业务场景需求理解、领域大数据技术研发等方面的长期积累,开展了领域大模型研发与应用工作,探索了科技信息资源服务的新范式,基本思路如图6所示。
图6 领域大模型研发与应用思路
科技信息资源服务的目标是响应用户的多样化信息需求。在实际服务过程中,只依靠传统的信息检索与推荐服务方式,经常不能满足用户的个性化、精准化信息需求,这就需要采用软件与信息相组合的方式优化服务效果。由于业务场景的复杂性,开发大系统往往成本高、周期长、风险大。面向特定的业务环节开发系列小工具进行赋能,并根据应用情况不断迭代优化,往往能够事半功倍。也就是说,信息资源服务不再是信息本身的服务,还包括针对用户共性需求、通过挖掘信息价值形成的系列工具应用。
工具化赋能的关键是实现信息、技术与业务需求的有效融合。一要明确赋能点,以情报研究为例,要结合技术成熟度和业务需求迫切性,梳理出哪些环节可以开展数智赋能、具体怎么赋能。由于情报研究专家往往不了解技术能干什么,技术专家也不清楚情报研究的工作模式是什么,因此需要这两方面的人员共同探讨,特别是技术专家要深入参与情报研究重点任务,主动了解需求、思谋设计。二要筑牢工具底座求,在实践过程中,工具的数量会越来越多,要构建开放的工具底座,统一技术体制和开发要求,实现基础数据、关键服务、安全认证等共享共用,这样既可提高开发效率,又可为下步系统集成奠定基础。三要建立迭代优化机制,工具应用需要与业务场景不断磨合,先形成基本型,根据用户的使用情况不断明确业务需求,优化功能设计,再快速迭代形成新的版本,不断优化完善。
我们围绕赋能情报研究和战略研究工作,对动态跟踪、专题研究、产品整编、知识积累等业务的关键环节进行建模,应用人工智能技术挖掘科技信息资源价值,开发了国防科技情报研究工具箱,包括扫描监测类、线索发现类、情报整编类、目标画像类等8大类、30余个工具,目前已在一批研究课题中发挥了重要支撑作用。国防科技情报研究工具箱设计思路如图7所示。
图7 国防科技情报研究工具箱设计思路
科技信息资源智能挖掘服务是对科技信息资源、人工智能技术和业务需求响应的有机融合,没有成熟的模式可遵循,需要我们在实践中大胆尝试,及时总结模式规律,持续提升能力水平。
科技信息资源建设与开发其实是一个信息萃取转换的过程, 打通“大数据-小数据-语料库”的信息萃取转换链路,是科技信息资源智能挖掘服务要解决的核心问题。
首先,要将分散的信息汇聚成科技信息大数据。这是传统信息资源建设工作的主要内容,涉及对科技信息进行多来源搜集、标准化加工和体系化集成。在此过程中,人工智能技术可用于发现高价值信息源、对信息进行多维度标注、对信息集合进行关联对齐等。
其次,要从科技信息大数据中萃取系列“小数据”。在科技信息大数据中,对特定用户或用户群有价值的往往是很小的一部分,如何从中进行高效信息萃取、开发数据产品,是当前科技信息资源开发需要解决的首要问题。需要紧贴用户需求进行数据产品设计,应用人工智能技术,人机协同开展数据产品增值开发,形成多样化、多层次特色数据产品体系。
再次,要针对领域大模型构建与应用开发科技信息语料库。作为语料注入大模型或作为大模型外挂信息库,是未来科技信息资源发挥作用的重要形式。要兼顾传统信息资源服务和语料开发需求,建立一体化的科技信息资源加工作业流程,实现科技信息语料的按需转换,即从信息资源池中转换形成基础语料,从数据产品中转换形成微调语料,实现高质量、多样化语料的持续、稳定供给。
开展科技信息资源智能挖掘服务,人工智能技术的应用必不可少,但我们也要看到在很多业务场景中,人工智能技术的成熟度与应用效果还不能达到要求,必须人机协同开展相关工作。
首先,要充分利用人工智能技术最新成果。在应用过程中,要注重技术的适用性、可靠性和先进性。其中,适用性为第一原则,要求我们对业务需求和具体人工智能技术有深入的理解;可靠性则要求我们实际测试技术应用的效果,确保能真正地提能增效。
其次,要注重发挥人的作用。人工智能技术应用只是提高人的工作效率,并不能代替人,在科技信息智能挖掘服务过程中,需要由人来设计数据产品、标注训练样本、优化数据质量、设计大模型提示语等,对科技信息从业人员的能力素养提出了更高要求。
再次,要构建数据产品生产线。要设计人机协同的信息增值开发的业务流程,明确人做什么,机器做什么,各环节之间如何交互;要强化软件支撑,构建平台工具,对业务流程进行固化,对关键环节进行赋能;在实践过程中要不断磨合,对业务流程和软件进行优化完善,形成可用、高效的数据产品生产线。
科技信息资源智能挖掘服务的落脚点是服务,要求我们紧密围绕用户需求,设计并持续优化服务应用。
首先,要形成立体化信息服务体系。根据科技信息资源特点和用户需求,除了做好集成海量信息资源的门户服务、萃取信息价值的数据产品服务外,还要围绕科技信息资源深度融入业务场景、切实开展业务赋能创新思路举措,大胆尝试模型、工具、接口等服务形式,发挥综合服务效益。
其次,要形成敏捷服务能力。用户的需求千变万化,预置性服务形式往往不能满足要求,因此要打造敏捷服务能力。具体来说,要形成敏捷性信息搜集与挖掘能力,实现自动标注模型的快速开发与部署;要针对重点任务开展伴随式信息保障,通过“工具+数据产品”方式与用户进行迭代交互,不断优化信息服务效果。