面向创新的科技情报智能化服务系统构建
——以陕西省科技情报一体化服务平台为例

2022-09-16 06:50殷春连
计算机技术与发展 2022年9期
关键词:业务流程情报科技

辛 一,李 鹏,杨 阳,殷春连,矫 锐

(陕西省科学技术情报研究院,陕西 西安 710054)

0 引 言

科技情报的产生源于需求,科技情报的发展源于实践[1]。“科技创新,情报先行”,长期以来,科技情报为科学研究、技术创新、产业发展、社会进步、管理决策发挥着重要的支撑作用,充分体现了“耳目、尖兵、参谋”的核心价值。

2014年,国务院发布《关于加快科技服务业发展的若干意见》,提出“支持科技咨询机构、知识服务机构、生产力促进中心等积极应用大数据、云计算、移动互联网等现代信息技术,创新服务模式,开展网络化、集成化的科技咨询和知识服务,支持发展竞争情报分析、科技查新和文献检索等科技信息服务。”[2]该项政策的实施,极大地推动了科技情报与现代信息技术的融合发展,不断涌现出新业态、新模式。

十八大以来,随着创新驱动战略的实施,科技创新环境不断优化,科技体制机制改革深入推进,大数据、云计算等信息技术的迭代演化,科技情报工作持续向数据化、流程化、系统化、智能化方向发展,构建以大数据、云计算以及移动互联网等信息技术为支撑的科技情报服务系统成为创新科技情报服务模式、提升科技情报服务效能的重要方式。众多高校图书馆、各级科技情报(信息)服务机构、行业信息中心、信息技术企业等都在这些领域进行了有益的探索实践。

1 相关平台研发现状

科技情报工作的业务表现形式多种多样,包括文献检索、科技查新、收引查证、专题咨询、竞争情报、知识产权服务等。早期实践中,科技情报(信息)服务机构主要是围绕某一项特定业务形式,研发较为独立的业务系统,提供特定类型的情报服务。如,基于不同技术的科技查新系统的建设、流程再造以及移动端开发[3-5],不同收录引用系统在实践中的应用[6-7]。这些单一业务系统研发为综合性的科技情报服务系统的建设开发提供了有益的探索。

然而,随着大数据、云计算、人工智能、机器学习等信息技术的不断涌现,以及新的情报理论方法的出现,科技情报服务越来越趋向于计算化和智能化[1,8],赵志耘提出,大数据时代,情报研究方法在数据、信息和情报三个层次上均在发生变化。在数据层次上,面对多来源和规模庞大的数据,研究方法更密切地与大数据技术、计算机存储技术相结合以提高数据处理的效率;在信息层次上,研究方法与知识组织、信息融合结合解决信息分析和利用的效率;在情报层次上,研究方法更注重源于信息分析结果的综合、重构和解读[1]。因此,在大数据时代,以互联网信息技术、大数据技术、知识组织与发现技术等为支撑的综合性科技情报服务系统的研发与应用成为焦点和热点,科技情报(信息)机构在推动科技情报服务系统的智能化研发与实践应用方面进行了多种探索,如“面向众创的科技情报共享服务平台”[9]、面向区域科技创新智库建设科技情报服务平台体系[10]、基于大数据的情报信息自动处理平台[11]、面向战略决策的科技情报智能分析系统[12]等。

这些综合性科技情报(信息)服务系统的研发,大量应用了新的网络信息技术。数据挖掘、人工智能、知识管理等领域的理论及方法研究成果在系统研发过程中,比如,NLP(自然语言处理)、Multi-LP(多语言处理)与信息抽取与检索技术,应用于对海量多元异构数据资源的语义抽取;实时动态网络监测工作应用于对网络行为的监测、解析、管控、预测等;用户画像相关技术应用于对情报需求的精准识别等[13]。崔森等人基于隐马尔可夫模型和多策略评估模型,设计了一种应用于航天信息检索的纠错方法[14]。薛晓慧等人提出了一种利用ICTCLAS中文分词方法和TF-IDF算法网页个性化搜索自适应排序系统[15]。张峰等人探讨了文本处理技术、文本挖掘技术、复杂网络技术等在科技情报分析平台系统设计等方面的应用[16]。可以说,计算机信息网络技术在科技情报分析服务领域的应用,极大地提升了科技情报(信息)服务的质量[17],成为计算机信息技术与科技情报融合发展的新成果。该文以陕西省科技情报一体化服务平台的研发应用为案例,从需求分析、系统设计、主要功能、关键技术等方面对新形势下一体化、智能化科技情报服务系统的研发进行分析,为行业平台建设与应用提供借鉴。

2 需求分析

中国科技情报的产生源于需求,科技情报的发展源于实践[1]。因此,大数据环境下科研创新对科技情报服务的需求是科技情报工作的根本出发点。从科技情报工作的流程来看,海量信息数据是开展科技情报分析的基础;多样化的工具是提升数据分析效率的有效手段;专家智慧的参与是获得有价值的情报产品的智力支持。大数据时代,数据资源呈爆炸式增长,给快速、精准、全面、及时地从海量数据中识别、汇集、处理相关数据信息带来了极大挑战。与此同时,科技创新对于科技情报的需求从直接获取原始信息资料向获取具备更高附加值、能够直接支撑科研创新与管理决策的精准科技情报转变。因此,大数据环境下智能化科技情报服务系统应当能够有效提升科技情报的前瞻性、时效性、准确性、真实性,从而进一步支撑科技创新,包括:

①系统能够从不同数据源快速精准抓取数据,并能对海量的异构数据进行规范化的处理。

②系统能够有效地整合各种情报分析工具,对数据进行不同程度的挖掘,生成不同形式的数据分析结果。

③系统能够优化情报分析的过程,促进专家智慧与数据的交互,生成多种情报分析中间产品。

④系统能够提供不同类型情报服务业务,便捷、快速、准确满足用户多种的情报需求,易用友好。

3 科技情报一体化服务平台

3.1 设计目标

科技情报一体化服务平台以新形势下科研创新对科技情报服务的新需求为出发点,以数据获取-资源组织-信息分析-知识服务-情报产品-用户交互为主线,通过计算机信息技术在情报服务领域的应用,构建一个智能化、综合性、开放性的科技情报服务平台,实现多种数据的融合、科技情报分析工具的集成应用、科技情报工作流程化以及情报服务的多维度支持。同时,对科技情报分析与服务过程中产生的各阶段、各层次情报产品进行分类整合,形成知识库,并实现对知识资源的检索、查询及利用。

3.2 系统结构

科技情报一体化平台系统分为5个层次,分别是基础设施、资源中心、技术支撑平台、智能业务应用系统和平台门户,如图1所示,5个层次自下而上实现数据汇集、处理、分析、应用、服务等。

图1 科技情报一体化服务平台系统架构

①基础设施:搭建平台运行的信息网络环境。

②资源中心:主要是对NSTL、SNSTL、维普、万方、CNKI等非结构化数据库以及指定的网站、需要认证的网站、论坛、BLOG、微信、微博等数据进行抓取及标准化处理。同时对机构内的结构化数据进行数据迁移,对分散的文献、成果、论文进行整理、数字化并发布成网络数据库,从而达到将各类所需要的原始情报数据进行采集形成数据资源池的目的。

③技术支撑平台:技术支撑平台采用文本挖掘、自然语言处理、概念关系词典等核心技术,将数据进行自动分类、自动聚类、关键词自动标引、自动文摘、相似文献分析、信息过滤、关联规则挖掘、审核编辑等多种处理,对异形异构资源进行整合,实现跨库检索和跨数据库的参考链接,进而进行情报分析、加工。

④智能业务应用系统:在数据处理的基础上,按照业务流程,形成包括业务智能受理、智能加工分析、智能服务、智能化管理能多种智能化应用。

⑤一体化服务平台:以科技创新需求为导向,根据业务流程和服务规范,提供多样化的科技情报增值服务,如情报信息资源门户、情报检索服务、个性化服务、主动推送服务、生成简报、统计分析、竞争情报等。

3.3 业务流程

从业务流程上看,平台主要提供两个维度的服务:一是前端的以资源的检索、分析、结果反馈为链条的面向用户的科研自助评价系统;二是后台服务人员开展专业科研鉴证服务的“资源-工具-产品”的自动处理系统;这两个部分共同构成了一个完整的网络服务平台,如图2所示。前端可以根据用户的不同需求,便捷、易用、直观地向用户提供较为基础的科技信息检索结果。后端面向专业的科技情报服务人员,以海量数据为支持,集合多种工具,按照专业人员的普遍业务流程,输出具备更高附加值的科技情报产品。

图2 整体业务流程结构

3.3.1 科研自助评价业务流程

科研自助评价业务流程是面向用户的线上业务流程,如图3所示。用户在系统进行注册登录后,直接将服务需求上传到云端服务器,系统后台对用户需求进行判定后,按照用户需求对信息进行自动检索。本地局域网内已有数据资源可以直接调用,本地没有的资源通过远程访问共享服务器进行调用,数据检索完成后,进行数据清洗和数据分析,数据分析结果直接反馈在结果页面上。科研自助评价过程无专家参与,无复杂的数据分析,评价结果可在网页查询,但不能下载、不能保存。

图3 科研自助评价服务业务流程

3.3.2 专业科研鉴证业务流程

专业科研鉴证服务是以线上线下相结合的专业鉴证服务为中心的情报服务过程,如图4所示。用户注册登陆后,选择不同的业务类型,填写需求,受理员对需求进行初步确认并指派科研鉴证服务人员。科研鉴证服务人员与用户沟通委托内容,确定鉴证主题,随后依托平台丰富的数据资源,运用恰当的情报工具以及情报专家的知识及智慧,完成特定主题的数据分析报告。报告提交审核员进行一审和二审。审核通过后,按照标准模板自动生成报告,报告带有可查询、可追溯的二维码。鉴证过程中调用检索的数据、数据分析过程中产生的过程数据、最终生成的报告均进入机构知识库作为数据源参与新的科研鉴证过程。在业务流程中,用户可以通过PC端和移动端随时对业务处理的进度进行跟踪查询。

图4 专业科研鉴证业务流程

3.4 主要功能

陕西省科技情报一体化服务平台分为前台门户网站、情报服务子系统、邮件发送子系统、后台管理系统和认证中心等,各部分主要功能如图5所示。前台主要面向用户,通过门户网站集中展示平台资源,集成各类情报服务业务入口。后台管理主要面向工作人员和系统管理者,执行对情报服务的处理以及对系统进行维护管理等。

图5 陕西省科技情报一体化服务平台功能体系

3.4.1 科技查新

①用户通过Web表单在线提交信息服务需求、上载相关技术文件,自由选择服务方式,确定服务成本;②管理员对信息需求在线编号、指派任务;③后台服务人员在线了解任务,提交工作结果;审核员对其有审核权的结果,可在线审阅、修改、提交;④管理员可对各项工作进行在线监管;⑤经审核后,工作结果自动转换成报告标准格式,并自动生成带有水印、条形码和二维码的报告文档;⑥PC端及移动端工作进度以及工作情况推送与提醒;⑦自动生成报告档案数据库,并实现多途径的查询、统计、报表制作、浏览、打印等功能。

3.4.2 收录引用

①根据服务对象的不同情况进行服务模式选择。包括用户自助模式、专业鉴证模式以及后台服务模式。②可选报告模板。根据不同数据库可选择不同的元数据,报告可依据用户提交任务勾选不同服务自动进行调整,报告形成支持PDF和Word两种文件类型;③系统所涉及的数据库能够进行定期的整理和更新;④定期对数据库备份,对成果全文数据支持定期自动备份方案,提供系统日志,支持灾难性数据还原;⑤能够进行高速查询与精确检索;⑥可以进行云端调度与共享服务。

3.4.3 用户统一认证

通过统一用户管理系统(IDS),实现网上应用系统的用户、角色和组织机构统一化管理,实现各种应用系统间跨域的单点登录和统一的身份认证功能,用户登录到一个系统后,再转入到其他应用系统时不需要再次登录,简化了用户的操作,也保证了同一用户在不同的应用系统中身份的一致性,如图6所示。

图6 子系统认证流程

3.4.4 统一计费系统

通过统一身份认证系统,将个人身份与每个子系统的计费模块按照标准方式进行对接。计费系统可以进行账户管理,订单管理以及费用登记。可以支持基于会员制进行计时、计流量、计信息条目等多种不同计费方式,如图7所示。

图7 统一计费系统结构

3.4.5 机构知识库

情报成果集成中心主要对各类成果进行集成。这些成果一方面来源于原有的情报研究成果,平台利用数据转化工具使得原有的情报成果快速实现数字化,便于在情报分析的过程中更好地利用。此外,通过底层数据的分类集成和业务流程的智能化,在不同的节点和不同的业务流程线上产生大量新的数字化的情报成果,平台能够自动搜集整理新产生的数字化的情报成果并汇集到情报成果集成中心。情报成果集成中心是平台的各类情报产品的统一出口。

4 平台关键技术

4.1 基于互联网的服务流程设计

在调研基础上,对现有服务流程进行分解、抽象、设计,将原有的人工服务流程变为基于互联网的服务流程。服务流程设计一是满足用户单点登陆、便捷使用的需求;二是符合科技情报分析业务的流程规范;三是适应科技情报服务人员的工作习惯。在此技术上设计原型,并通过多轮次意见征求进行迭代完善。能够实现流程自定义,流程自定义采用微服务架构,符合WFMC、JMS等国际规范,并且符合微服务规范接口,流程自定义由流程梳理功能、业务建模功能、页面建模工具、工作流引擎、组装部署工具构成。通过对各类业务流程的归类、梳理,形成针对不同业务的流程集合。提供业务流程设计工具,以图形化的业务流程设计界面描述管理和业务所涉及的对象和要素,以及它们的属性、行为和彼此关系。可以动态集成在平台上,进行灵活的组装。

4.2 异构数据的统一表示

平台的数据资源来源不同。包括文献数据库(知网、维普、万方等)、网络数据库(PubMed、DOAJ等)、互联网信息(门户网站、论坛、微博)[18]、电子文档信息(WORD、EXCEL、PPT、PDF等)、关系型数据库(Oracle、Sybase、DB2、SQL Server)、纸介质文档(扫描件)等。这些数据资源的表现形式不同,平台提供了统一的数据存储、计算、共享架构,为信息服务应用提供统一的数据支撑,实现多数据源的横向和纵向数据融合,完成从数据生产、数据传输、数据存储、数据加工、数据利用的数据动态循环,保证数据的实时性、完整性、扩展性。

4.3 海量数据检索技术

科技情报研究服务的基础是数据资源,大数据环境下数据资源呈爆炸式增长,数据检索的要求一是范围要广、二是速度要快、三是对象精准[19],平台采用分布式混合检索系统(distributed hybrid retrieval system,DRS),对于本地系统数据、网络数据,采用基于元数据抽取技术和检索技术,获取异构检索结果中的每条元数据,实现全文、文摘等内容的检索定位获取。对于互联网信息,采用搜索引擎技术,包括网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。支持基于Spark、Hive、Impala等查询引擎,提供查询工具;查询结果以可视化方式呈现,支持导出为Excel,CSV格式,导出到HDFS可视化管理HDFS目录,可批量上传、下载文件。

4.4 新一代情报分发技术

随着移动互联网的发展,微信平台已经成为人们获取信息的重要通道。另外短信通知也是情报分发的重要手段。平台融合短信通知和微信平台,实现移动应用支撑技术,在服务端构建统一的移动服务框架,用来处理和前台移动端的数据互通与同步,使得电脑和手机的处理是一致的,对应同一个数据源。支持信息提醒、推送机制,从后台把信息推送到前台提醒查看详细信息,同时实现和电脑处理信息的同步;支持拉取信息功能,减少推送压力,根据需要去服务器查询;实现科技情报服务系统相关的相关产品通过移动终端进行推送。

4.5 情报挖掘技术

互联网上信息繁杂,良莠不齐,需要对情报进行自动收集,之后遴选过滤、挖掘和情报抽取。平台采用非结构化数据管理、文本挖掘、自然语言处理、概念关系词典等核心技术,对海量数据进行智能检索、自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、关联规则挖掘等。实现对海量数据预处理、多维特征分析,提供可视化预测和评估功能。

5 功能实现

5.1 运行环境

平台运行配置服务器2台(独立服务器),虚拟化使用。服务器满足以下要求:Inter 4核,16G内存,2T硬盘空间,磁盘镜像;系统软件采用Windows server 2008、SQL server 2008和DotNet framework v4.0;网络环境达到能访问外网和购买的数据库;支持HTTP协议,支持通过POP3协议发送邮件,在部署和测试阶段,服务器支持远程访问;有固定邮箱,支持smtp,可以用outlook、foxmail收发邮件,主要用于用户注册账号时给用户发送账号激活邮件。

5.2 软件系统

平台在机构知识库系统和文献管理系统两个主要软件上进行定制化开发。两个主体软件系统用于对海量文献数据进行管理操作以及对机构知识库进行管理,见表1。

表1 软件系统技术参数及主要功能

5.3 平台展示

“陕西省科技情报一体化服务平台”(见图8)整合了近30个数据库的异形异构数据。用户通过该平台可以获得定题检索、科技查新、收录引用、专题咨询等多种类型的科技情报服务。用户依托平台资源既可以开展自助检索、自助评价,也可以获得更为专业的科技情报产品服务。通过平台的应用,一是满足了用户多线并行、多任务并发、移动端跟踪、自助检索与专业服务相结合等多种要求;二是极大地提升了服务人员开展科技情报研究与服务的效率,降低了在文献检索、数据标准化处理、报告生成等方面花费的时间,将主要精力集中于数据分析、解读,结论生成,建议优化等,深化了情报服务产品的深度;三是显著降低了时间和空间对科技情报服务工作的制约。特别是在常态化疫情防控情况下,实现了无接触服务、远程服务。

图8 陕西省科技情报一体化服务平台主页

6 结束语

随着大数据、语义分析,人工智能等网络信息技术的不断进步,以及科技创新对于科技情报服务需求的不断提升,科技情报服务将不断地向着规范化、网络化、智能化的发展。从海量数据中更为全面、精准、快速的聚合资源,对数据进行高效、精准、深入的分析解读仍是科技情报服务系统优化改进的方向。陕西省科技情报一体化平台从创新需求出发,构建了一个以专业数据资源为基础,以数据检索分析挖掘技术为支持,以业务流程为依托,以面向创新的科技情报产品为输出的智能化平台,促进了数据流、业务流、管理流的有机统一,在实践应用中取得了比较好的效果。未来,平台将在特色数据资源的集成、对不同情报分析工具的集成和综合运用、不同层次科技情报服务产品开发与精准推送[20]、移动端优化等方面继续提升改造,以期为其他科技情报智能化系统的研发应用提供借鉴。

猜你喜欢
业务流程情报科技
情报
情报
情报
基于质量管理体系为基础的核心业务流程优化
科技助我来看云
动态业务流程管理在发电机组制造企业中的运用
科技在线
试论ERP环境下的会计业务流程重组
试论ERP环境下的会计业务流程重组
科技在线