基于数据挖掘的科技情报采集分析平台设计与实现

2019-12-23 10:39鲁文帅严晓芳
中国电子科学研究院学报 2019年8期
关键词:科技情报情报自动

鲁文帅,严晓芳

(1. 中国电子科学研究院,北京 100041; 2. 清华大学,北京 100084)

0 引 言

随着信息技术的不断发展,以大数据和人工智能为代表的一系列颠覆性技术正日益影响和改变人类的认知和行为方式,特别是自然语言理解,在一定程度上代替人工从事基础性和重复性的工作。与此同时,相比于大数据时代的数据更迭,传统的科技文本研究模式以孤立信息为源头、以专家经验为依据、以脑力劳动为工具,在信息维度、评判准则、更新速度等各个方面,都渐渐跟不上科技信息数据的产生节奏和消费速度[1-2]。随着数据科学和智能技术的发展,以计算机为基础的科技情报专用检索分析系统开始出现,成为辅助情报研究的有效工具,并渐渐开始应用到信息收集、数据筛选、主题分类、整合汇编、批量导出、关联分析等细分领域[3-5]。

美国基特软件公司于2009年就开始密切参与DAPAR软件研发挖掘情报信息,开发的Cognika情报系统已进入市场为分析人员提供科技情报[6]。专利CN101866340A提出了一种面向商品生产行业的情报搜索分析方法,基于元搜索技术对互联网进行覆盖检索,基于语义技术和网页结构技术分析产品属性,采用Web系统和产品报表给企业和政府提供与市场竞争相关的商品情报服务[7]。专利CN101334784A提出了一种面向互联网和第三方数据库的情报搜索、知识挖掘方法及其系统,能够响应用户对非结构化网页的搜索、分类需求,对信息员更新情况及时捕捉和提醒,并借助知识挖掘方法生成报告和导出文件,还可以通过机器学习算法主动发掘用户需求,为一般工作人员、专业情报人员、行业专家提供高质量和高新鲜度的情报服务[8]。然而,目前还没有较为主流的平台或技术能够完整覆盖情报研究的全流程。

本文提出一体化自动情报研究方法和平台设计,借助可编程、可固化的专家经验,和可训练、可迭代的机器学习,实现对科技信息文本的多元采集、自动清洗、智能分类、立体呈现、汇编报告、综合分析等主要环节和常用工具的全覆盖,实现流程各个基础环节的无缝连接,充分发挥专家经验和人工智能的各自优势和互补效应,有效克服当前科技信息研究领域辅助工具的一体化程度低、专家经验利用率低、智能化程度低等缺陷。测试表明,论文提出的方法和系统能够有效提高科技文本采集分析效率,具有较高的工程应用价值。

1 顶层设计

人类从事科技情报研究的一般流程是:情报检索,信息筛选,分类整理,汇编成文,撰写报告,反馈迭代。遵照前述流程抽象出数据流,进而给出本设计的平台顶层框架,包括数据采集、自动清洗、智能分类、情报呈现、汇编报告、人工干预等6个部分,如图1所示。按照层次不同,总体分为底层引擎和应用接口两部分,采集、清洗、分类是底层引擎,呈现、汇编、管理则是应用接口。其中,数据采集是平台获取多源情报数据的入口,自动清洗用于对原始的非结构化数据进行数据预处理,智能分类用于对预处理后的情报数据做可配置的分类预测,有序呈现用于对分好类的数据做后处理以实现摘要提取、浏览下载、主题推送,汇编报告依据主题对处理后的分类数据进行情报汇编集成和情报报告生成,系统管理模块用于对平台的全局变量、系统资源、用户组织、样本标记等进行管理。为了辅助情报研究工作,平台还附加了常用工具模块,嵌入平台中作为集中化的辅助工具。这些模块按照情报研究的流程模式组成可自动运行的一体化平台,部署在云服务器或本地服务器上,供远程或本地使用,实现从海量数据到科技情报的自动搜索分析流程。

图1 自动化情报平台的顶层设计原理框图

2 关键模块设计

2.1 数据采集和清洗

数据采集环节用于平台获取多源情报数据,包括对网络和本地的开源数据进行定制化采集,支持多媒体数据格式,包括文本、图片、网页、音频、视频等各类文件。设计中支持的可选参数包括:(1)目标源,即被采集的网站网址或本地路径,同时可录入中英文名称、语言类型、网站属性;(2)挖掘层级,即在网址或根路径下的访问深度,(3)外域权限,即是否通过站内链接、快捷方式访问域名或根路径外的数据,(4)文件类型,可筛选pdf,doc,html,jpg,mp4等,(5)线程个数,即采集任务使用的多线程数量,(6)触发方式,包括人工触发采集和指定时间自动采集。本地采集功能还支持对给定的本地路径下的各类文件和指定名称的数据库进行一键式导入和结构化提取。以上获取的各类原始数据存储在本地原始非结构化数据库中,其中文件存储在本地磁盘,文件属性存储在数据库表中。全部原始数据可以在前台通过条件检索进行浏览查看、人工修改、批量下载。

数据清洗环节用于对本地非结构化数据库的文件去重、文字提取、文本分词、去停止词、结构化等预处理功能。文件去重通过比对文件的URL链接、HD5值等属性值实现。文字提取是将多媒体文件转换为文本文件,即对pdf、word、html、jpg等文件中的光学字符而非文本字符通过标签结构提取、光学字符识别(OCR)等方法提取为txt文本,对音频文件进行语音识别得到txt文本,对视频文件进行帧提取后将字幕和音频提取转化为txt文本。文本分词是对文本进行n-gram分词,并依据系统内设的常用停止词库或自定义停止词库去除停止词,得到向量文件。经过数据采集和数据清洗,系统实现对原始数据的结构化向量获取。数据采集和清洗流程如图2所示。

图2 数据采集和清洗流程图

2.2 智能分类

智能分类环节用于对自动清洗后的结构化向量数据做面向不同主题的分类预测,将无序、无主题的数据库依据用户关注而变得有序,是平台的核心部分。为实现较好的分类预测性能,本文提出综合运用专家规则和机器学习两种模式共同组成智能分类引擎。专家规则分类的本质是正则运算,即由专家依据行业经验或统计结果设定显式规则,对于每一个情报主题分类及其下设的子类,通过前台操作定义该主题下的基本关键词库,利用与或非布尔逻辑和词集/词袋模型对分类规则进行明确配置,后台会根据此规则自动生成正则分类器,即专家规则分类器。机器学习分类,是依据用户提供的机器学习样本,基于某一种或几种机器学习算法(包括朴素贝叶斯、支持向量机、随机森林、贝叶斯网络、K近邻等),由后台自动训练,生成分类器代码,即为机器学习分类器。智能分类流程如图3所示。在本文中基于Java开源机器学习库WEKA实现机器学习分类功能。

配置后的分类器能够依据测试样本给出性能评估,包括分类速度、准确率、召回率等。在生成分类器后,当用户需要启动分类任务时,可以设定条件(包括来源网站、发布时间、文件大小、文件类型等),筛选针对的文件和面向的主题。不被选择的文件和主题不会被执行分类任务,将保留历史分类结果不变。在执行分类任务后,平台还基于分类器计算结果为用户提供分类后的轻量级条件筛选,如依据分类预测概率阈值筛选、依据词频阈值筛选等。此外,平台支持专家规则和机器学习两种分类方法的交互:一方面,专家规则分类的结果可以通过用户在前台标记后成为机器学习分类的训练样本;另一方面,机器学习分类的结果中包含了此类别的词频统计,可辅助用户制定新的专家规则。 通过智能分类环节,用户能够得到一个符合用户兴趣、且主题有序的定制化科技情报数据库。

2.3 数据呈现和汇编

情报呈现环节是应用接口之一,提供已分类数据库的操作接口,它与前述智能分类模块自动关联,根据用户在智能分类模块中定义的类别,对分类后的情报做有序呈现,支持条件排序,并提供浏览放大、批量下载、摘要提取、情报推送、人工标记等用户操作。批量下载功能可以使用条件检索,对分类后的情报资料做定制化的下载;摘要提取功能基于混合提取算法(包括模板提取算法、关键句段算法、开源提取工具等),对情报原文的主要内容做提炼;情报推送功能支持自动或人工推送邮箱、短信、微信,用户可以设定当有新的情报进入某分类时推送给预设的用户地址,也可以人工选定将哪些情报推送给用户;人工标记功能用于情报专家对分类后的结果做人工校准,平台可以依据人工校准的结果优化分类器参数,改进分类性能。

汇编报告模块用于按照应用层前台设定的主题和模板,自动生成某个主题的科技情报汇编报告。报告的主题、结构、格式、内容可由用户在前台自定义设置,颗粒度可以细化到各段落。段落内容的定义,既可以采用明确的专家规则,当分类情报数据库中有情报文本匹配该规则逻辑时,该条情报文本将被汇编;又可以采用机器学习,用户给出每段报告的例文,由平台学习例文并从情报数据库中判断匹配的情报文本后填入汇编报告。后台将自动按照前台配置生成报告引擎,该报告引擎基于已分类数据库,匹配规则、填充内容,生成定制化的科技信息汇编报告。

2.4 系统管理和常用工具

系统管理模块用于对平台的账号权限、组织机构、硬软件资源、其他全局变量进行管理。其中账号管理功能用于设置不同用户的基本账号信息,以及该用户对平台的使用权限;组织机构管理功能用于设定账户所属的单位和部门信息,并通过设定不同的数据库源实现机构之间的数据隔离控制;硬软件资源管理功能用于监视和配置各个账号、各个机构允许使用平台的线程数量,及占用平台的处理器百分比、硬盘存储空间、网络带宽大小、代理IP数量等,便于系统维护和资费管理;其他全局变量还包括菜单管理,以及各个模块默认分配的线程数量、代理IP地址、访问限制、默认推送地址等。

常用工具模块集成情报研究人员常用的小工具,便于用户在使用本专利所述平台进行情报研究过程中同步使用,包括影印资料识别、外文科技情报翻译、机器学习样本制作、文件批量重命名、嵌入脚本程序等。影印资料识别功能基于光学字符识别(OCR),用于将图片、扫描资料中的文字字符提取成文本;外文科技情报翻译功能基于深度学习翻译工具,能够把外文情报文本自动翻译成中文,并支持双语情报的语料学习,以提高情报专业领域的翻译准确率;文件批量重命名功能可以由用户设定命名规则,例如“日期+题目+作者+分类”等,然后对指定路径下的全部文件一键批量处理;嵌入脚本程序功能为用户提供脚本程序接口,用户可以将自主设计的小程序脚本嵌入到平台中,以增加用户的定制化功能,该功能支持跨编程语言的嵌入,例如在Java平台中嵌入Python或R或C语言的脚本。

3 测试与讨论

平台实例的前后台主体采用Java开发,分类算法代码采用Python开发,整套平台采用Web系统访问,将数据采集、自动清洗、智能分类、情报呈现、汇编报告、常用工具、系统管理共7个模块组成一体化的智能情报助手平台。整套软件平台部署在具有公网独立IP的云服务器上,网络带宽15 Mbit/s,服务器运行Linux操作系统,软件系统部署在Tomcat服务中,数据库软件采用MySQL。为测试使用效果,以面向约翰霍普金斯大学官方报告做检索为例,提取其中的技术文摘版块,软件运行后的界面如图4所示。

图4 软件运行的界面

经各类测试,平台对网络开源数据的采集速度达到600个文件/h,对文本文件的智能分类速度达到10万条/h,智能分类的平均准确率达到85%以上,在特定领域优化规则和样本后的分类准确率达到95%以上,生成摘要的速度优于10 s/篇,生成汇编报告的速度优于10 min/份。以上测试结果证明了本平台的设计思路和方法的正确性,并表明本文所述平台在实际应用中将极大提高情报研究工作的效率。由于平台的通用性设计,本平台还能够向科技情报以外的数据挖掘领域扩展,例如专利查新、产品检索等。

4 结 语

本文面向科技情报研究,提出了覆盖基础流程的一体化自动平台设计方法,借助可编程、可固化的专家经验,和可训练、可迭代的机器学习,实现对情报研究领域的多元采集、自动清洗、智能分类、多元呈现、汇编报告、综合分析等主要环节和常用工具的集成,实现情报研究各个环节的无缝连接,并充分发挥专家经验和人工智能的各自优势和互补效应,有效减轻情报研究的前期工作劳动量,提高效率,具有较好的实用前景和工程参考价值。

猜你喜欢
科技情报情报自动
情报
情报
基于数据工程的国防科技情报生态体系构建
情报
自动捕盗机
铜陵市科技情报工作存在的问题与发展对策
试论市场经济条件下农业科技情报自动化发展策略
加强科技情报档案管理工作的建议
让小鸭子自动转身
自动摇摆的“跷跷板”