■谢 鸣
贵州广播电视大学学报编辑部,贵州省贵阳市云岩区八鸽岩路138号 550004
随着信息技术的发展,继云计算、物联网、移动互联网之后,大数据成为媒体与大众关注的新技术。大数据是为有效应对“网络时代海量复杂数据带来的管理与应用难题”而产生的一种新的思维方式、技术体系和创新能力[1]。大数据具有规模大(Volume)、速度快(Velocity)、类型多(Variety)、价值大(Value)和真实性(Veracity)的“5V”特征[2],以及可记录、关联性、再组织的“3R”特性[3]。高校学报作为学术论文发表的“主要阵地”,数字化建设正逐步深入,数据流量急剧增加。如何将海量数据集中、存储、计算、分析,为读者、编者、作者、专家提供更好的服务,成为了高校学报发展面临的巨大机遇和挑战。期刊界学者们对其进行了深入的研究。韩璞庚[4]提出了三点应对策略。第一,利用大数据优势,进行学术信息的获取、存储、加工、辨识、处理;第二,建立学术期刊的大数据平台;第三,彻底转变传统编辑理念,实现责任编辑的全流程、动态化参与。周小华[5]研究了大数据时代学术期刊的转型与发展机遇,认为学术期刊要运用大数据技术跳出传统出版流程,积极探索以学术期刊为纽带的“大数据”全产业链和新业态发展路径。李宏弢[6]针对大数据时代学术期刊面临的危机,从思想、技术等视角提出了大数据时代华文学术期刊发展的战略选择。柴英等[7]研究了大数据时代学术期刊的导向功能、传播交流功能与评价功能的变革。吴锋[3]认为,大数据对科技期刊出版具有革命性的影响,将推进科技期刊编辑流程的再优化、科技期刊出版业态的多媒体化和科技期刊评价规则的多元化。祝兴平[8]以龙源期刊网TOP100期刊排行榜为例,分析了“大数据”对期刊产业数字出版的影响。田丁[9]认为,在大数据时代,科技期刊出版将快速变迁到数据化与多媒体化,科技文献将是数据、可视化和多功能分析软件共存的混合体,未来将出现期刊平台集约化与期刊个体全媒体、特色化发展的新形态。可见,以往的研究主要是解读大数据,认知大数据,为期刊的发展提供思路。虽然大数据技术为期刊带来了更广泛的发展空间,但是,高校学报并没有有效地利用大数据技术来完善自我建设。因此,本文以贵州省为例,分析贵州省29所高校学报的数字化现状,对学报各部门之间数据整合困难、数据分析困难及数据共享困难等问题进行剖析。结合大数据技术,一是搭建提供数据存储、数据处理和数据分析能力的学报共享管理平台,二是以“互联网+高校学报大数据”的创新模式,同步构建贵州省高校学报共享管理平台APP,实现随时随地为作者、编者、专家、读者服务。平台和APP的融合发展,优势互补,不仅可以盘活学报的“数据”,而且可以延伸学术知识资源的价值链[10]。
课题组于2015年3月—7月,采用搜索引擎和实地走访的方式对贵州省高校学报网站作了全面调研。贵州省29种高校学报,不同程度地开展了数字化建设,积累了大量的基础数据。数据资源主要来源于大型期刊数据库(加入了中国知网、万方数据库、中文科技期刊数据库等)、稿件采编系统服务器(实现网上在线投稿和在线编审的平台)、学报网站服务器(基于Internet建立自己的网站)、E-mail电子邮件或即时通信软件收稿四种信息系统。如表1所示。
表1 贵州省高校学报数字化现状[11]
虽然贵州省高校学报数字化进程初见成效,但这些都还是在原有纸本刊的基础上,进行传统意义上的修修补补,并没有进入到大数据时代的办刊思维,没有适应大数据时代的发展,创新办刊模式[4]。学报延续着计划经济时代的办刊模式,即组稿、审稿、编辑、出版、发行。作者、编辑、读者各自分立、各自为政,作者要寻找发表平台,编者要寻找合适稿件,读者要寻找学术信息,三者均将大量的精力花费在对信息碎片的挖掘、筛选和处理上[4]。
贵州省29种高校学报,数据资源主要来源于大型期刊数据库、稿件采编系统服务器、学报网站服务器、E-mail电子邮件或即时通信软件收稿四种信息系统,虽然基础数据相似,但是“异源异构”。首先,四种信息系统在物理上是个体的、分散的、各自存储、各自维护的,形成了物理孤岛;其次,数据资源由于建设时期不同,开发部门不同、使用设备不同、技术发展阶段不同和能力水平不同等原因,造成过量的数据冗余和数据不一致,又形成了逻辑孤岛。聚合贵州省29种高校学报的数据,需要解决学报现有系统中接口标准不统一、信息孤岛、数据异构等问题,从数据源头保证数据的准确性和一致性。
贵州省29种高校学报数据,虽然数据量大,但并非所有数据都有使用价值。分析贵州省29所高校学报设立的学报目录可知,学科分布相对集中,以社会科学、医学、计算机科学技术、生命科学、环境科学为主。虽然可以从海量的数据中发现隐含的知识和规律,提取有用的信息,但首先需要规范这些数据。因数据关系和类型复杂,传统的结构化数据分析方法已无法处理庞大且形式多样的数据信息,大量半结构化和非结构化数据将导致数据分析困难。
数据挖掘的前提是不同的数据之间能够进行彼此关联,但各类数据资源分散于不同的学报编辑部,且涉及到各部门的利益,如果不能在短期内打破利益壁垒,让各编辑部的非保密数据开放、透明,实现数据间有机的关联共享,大量的重要数据都无法发挥出应有的应用价值。
大数据时代,贵州省拥有得天独厚的发展优势。贵州省委、省政府按照党中央、国务院要求,先后下发《关于加快信息产业跨越发展的意见》《关于加快大数据产业发展应用若干政策的意见》《贵州省大数据产业发展应用规划纲要(2014—2020年)》等文件,明确提出实施大数据战略行动,打造全国大数据发展战略策源地、政策先行区、创新引领区和产业聚集区的目标[12]。2015年,作为贵阳大数据战略行动的重要内容,代号为“701”的覆盖贵阳全城的免费无线WIFI项目正式启动。该项目让数据产生新的价值,对建立贵阳云平台和大数据平台,推动贵阳大数据产业发展具有重要意义。
以大数据应用作为高校学报发展的战略引领,根据“加快贵州省各领域数据资源建设,启动大数据平台建设”的指导思想[13],一是建立学报数据共享管理平台,将作者、编者、专家、读者等信息传输和决策行为等纳入数字化管理,不仅可以实现投、审、查、编、排、校、发行一体化的目标,而且可以充分发挥数据集成的优势,进而靠规模扩大贵州省高校学报的影响力;二是同步推出构建学报数据共享管理平台APP,进一步补充和完善平台功能,在贵阳全城无线WIFI项目的支持下,作者、编者、专家、读者无论何时何地都能及时接收和查看动态信息、进行即时互动交流、完成移动支付,为学报积累更多的用户,提升用户的忠诚度和活跃度。为实现平台和APP的发展,提出以下建设建议。
学报数据资源的整合与利用涉及到贵州省29所高校学报,各学报的数据分散,仅仅依靠某一个或几个独立的部门无法达到预期效果。将贵州省29所学报的数据资源开发和利用起来,需要政府部门牵头,鼓励高校、科研机构、社会组织或企业整合、组建大数据研究机构,并由该机构对整合利用的体系进行统筹规划,制定统一的整合利用数据规范标准,并负责数据资源整合与应用的各项具体工作。最终确保有组织、有效率地处理各类数据资源,促进数据资源的整合、价值挖掘与综合应用[14]。
大数据平台建设有两种模式,一种是先构建数据存储平台,再构建处理平台,最后再构建数据分析和挖掘平台;一种是根据业务目标来分析是否涉及到大数据应用场景,根据应用场景来分析究竟涉及到哪些相互关联数据,然后进行数据建模,再来考虑如何高效可扩展地对这些数据进行存储、处理和分析[15]。结合贵州省学报数字化建设的实际,课题组认为第二种方式,更适合贵州省学报。以“数据整合、信息共享”的理念,先进行跨部门的汇聚整合,再挖掘数据的应用价值,完成协同服务,构建开放、智能的学报数据共享管理平台。
学报数据共享管理平台作为一个科学、完整、统一的信息共享平台,主要实现四大功能。一是异源异构数据采集:从源数据系统采集数据,统一各类数据的逻辑模型,实现数据的标准化统一存储和整合;二是海量数据处理,包括海量异构数据的融合转换、数据云存储、数据实时分析及数据挖掘等;三是构建学报共享管理平台,统一身份认证,达到了系统之间无边界的数据共享和应用;四是数据管理:实现数据共享平台的基础管理功能,对数据进行检验,保证数据的准确性、一致性和完整性,对数据质量进行统一管控。
学报数据共享管理平台底层采用分布式架构,并基于分布式架构开发数据处理功能,在数据处理基础上提供各类数据服务接口,与上层应用或其它系统实现数据共享。平台的系统架构如图1所示。学报数据共享管理平台构建统一对内、对外数据服务的基本框架,实现统一服务接口、统一服务处理、统一服务响应。该平台实现底层数据与上层应用的深度解耦,上层应用不需要关注底层数据的组织方式、计算方法、存储类型和位置。
作为大数据的必要准备,做好数据整合是一切的前提。数据整合可分两个步骤进行。第一步利用中间件技术,实现资源统一访问、调用;第二步是保存有价值的数据资源,整合后存入数据库,实现资源的整合。根据贵州省29种高校学报的数据来源,应分为两类进行整合。一是对加入大型期刊数据库、建设有稿件采编系统、学报网站的学报,直接从数据库中提取有用字段,将作者、编者、专家、读者、论文等内容数据抽取、分析、聚类,利用海量的数据构建六大数据库,即学报数据库、专家数据库、作者数据库、论文数据库、读者数据库和编者数据库,形成贵州省的学报资源云,如表2所示;二是对于采用电子邮件或即时通信软件接收投稿的学报,需要建设来稿自动登记、作者信息登记、学报信息、编者信息和读者信息模块以便及时高效地将所有来稿、作者信息、学报信息、编者信息和读者信息纳入上述数据库。学报拥有的信息并不全面,还应与作者群、读者群的博客建立良好的网络社会关系,有利于跟踪他们的后续研究成果。同时,运用大数据的信息挖掘与整合技术,分析六大数据库的数据,实现数据信息的价值。
编者数据库:可将编者按学科分类,为论文选择专业相近的编辑人员编辑加工稿件,不仅可以解决编者人员不足的问题,而且更利于编者把握文章的内容;编者可以从大数据所分析的学报转发、阅读和关注度等数据中,及时了解作者、读者关注的学术热点和兴趣点,有针对性的进行约稿。
专家数据库:可以区分出审稿专家的主要研究方向和次要研究方向,掌握专家在当前时期的研究动态,为论文推荐合适的专家,避免专家对论文所涉领域不熟悉或不感兴趣而导致退审或审稿不积极的情形,最大程度地减小评审偏差,提高审稿质量,保证审稿的时效性。
读者数据库:对每一位读者的阅读偏好和阅读兴趣进行充分的分析,了解读者的需求,准确定位每一位读者的使用习惯,向读者推荐学术问题指向性明确的期刊学报,向读者推荐学科重点、热点以便及时掌握最新信息,不仅可以减少读者搜索论文的时间,而且满足读者个性化和专业化的需求。
作者数据库:可以了解和掌握作者的研究兴趣和专长、承担的基金项目及其研究进展、合作关系、引证关系、作者的投稿习惯、论文产出率等,从而遴选、培养和挖掘出期刊的核心作者,有针对性地的组稿和约稿。
图1 学报数据共享管理平台系统架构
表2 高校学报有效数据字段表
学报共享管理平台,充分收集来自各种终端的数据资源,将数据进行整合、智能分析,并以统一的用户界面提供给用户,实现数据与业务的共享,成为编辑、作者、专家、读者之间一个重要的互动交流平台。作者在平台投稿后,与平台互联互通的参考文献校对系统、搜索引擎、智能文本分析工具等将对来稿进行学术不端智能甄别、中外公共文献数据比对、查重、原文核对、基本格式规范等“预处理”编辑,自动生成反映作者学术水准、学术贡献、学术知名度等的评估报告,对学术不端、学术创新进行甄别与判定[3],平台根据分析结论,对来稿进行处理。具有学术性、前瞻性或学术成果的来稿,平台先推荐审稿专家进行同行评审,最后,推荐编者对来稿编辑加工。文章定稿后,学报编辑部可选择适合自己刊物的论文进行录用预约,如预约了同一篇论文,平台会自动通知作者选择自己愿意登载的学报进行论文发表。反之,平台自动进行退稿处理。如图2所示。移动终端APP,即时向编辑、作者、专家、读者传递信息,编辑、作者、专家、读者可以及时对文章进行相应的处理。平台最终将实现智能编辑管理功能、期刊内容的在线发布功能、按需印刷、提高办刊效率、降低办刊成本、扩大读者群、提高引用率、扩大覆盖范围及提升学报核心竞争力的目的,更好地为读者和作者服务。
图2 平台工作流程
APP作为平台的一种补充,依托于移动终端,具有即时传递信息、简单的二次开发功能。编者、作者、专家、读者,随时随地登录移动终端APP或者保持APP在线,均能及时收到APP推送的学报动态、稿件状态、阅读材料、最新目录、期刊介绍、投稿须知等。作者收到APP推送的稿件、阅读信息后,可以登录APP进一步了解详细的审稿意见和阅读全文;专家收到APP推送的审稿信息后,可以下载稿件进行初步审阅,如果稿件研究方向不熟悉时,可通过APP及时退审以免耽搁稿件处理进程,如果稿件在研究领域内,可通过固定终端登录平台提交详细的审稿意见;编者可以通过APP及时了解作者、专家和读者的动态,利用APP进行集体约稿宣传和推广,也可以单独向某位作者、专家或读者约稿;读者通过APP主动推送的阅读材料,了解最新的科技研究板块和热点。另外,APP还可以开通移动支付功能,作者、读者和编辑部可以即时交流,转账也能即时到帐,提高编辑部的工作效率。
大数据的独特魅力在于新颖而又具有实际意义的数据挖掘。通过分析研究,课题组提出了以“数据整合、信息共享”的理念,构建开放、智能的大数据平台和以“互联网+高校学报大数据”的创新模式,并同步构建贵州省高校学报共享管理平台APP。科学的挖掘和研究本身不会创造价值的数据,洞察数据间的相关性,加快科技期刊的数字化建设,具有一定的可行性。但是,大数据背景下贵州省高校学报数字化转型,将会是一项耗时久、实施难度大、影响因素多的复杂系统工程。大数据时代,难的不是技术问题,而是技术之外的问题。比如数据安全、政策监管、数据开放、数据共享等等问题。高校学报既要充分认识到学报资源整合的重要性和迫切性,又要清醒地看到发展过程中的艰巨性和复杂性。实现大数据转型,还有待于各方进一步的探索和实践检验。
[1] 王强,李俊杰,陈小军,等.大数据分析平台建设与应用综述[J].集成技术,2016(2):2-18.
[2] 百度百科.大数据[EB/OL].百度百科.http://baike.baidu.com/link?url=E0Zzbr9oNC2WlclQMFksdLuVuNEG38OCKg 4SD6Cd6zCRsHVHZzlkKJiiIv1DQAoZ30sIa9EGf2tY _f73NYrtIifl7-JvbnoY_61bmcGb9eS.
[3] 吴锋.“大数据时代”科技期刊的出版革命及面临挑战[J].出版发行研究,2013(8):66-70.
[4] 韩璞庚.大数据视阈下的学术期刊:挑战与对策[J].甘肃社会科学,2015(1):72-74.
[5] 周小华.“大数据”时代中国学术期刊的转型与发展机遇[J].科技与出版,2014(4):102-104.
[6] 李宏弢.大数据时代华文学术期刊发展的战略选择[J].清华大学学报:哲学社会科学版,2015,30(6):89-96.
[7] 柴英,马婧.大数据时代学术期刊功能的变革[J].编辑之友,2014(6):28-31.
[8] 祝兴平.“大数据”与期刊产业的数字出版[J].出版参考,2013(34):12-13.
[9] 田丁.大数据时代科技期刊的未来形态[J].中国科技期刊研究,2014,25(2):232-236.
[10] 夏登武.大数据时代学术期刊的内容优化与价值重构[J].中国科技期刊研究,2016,27(3):264-268.
[11] 谢鸣,王丽,段娟,等.贵州省高校学报数字化现状探析与思考[J].贵州广播电视大学学报,2016(1):60-65.
[12] 贵州省经济和信息化委员会.贵州省大数据产业发展应用规划纲要(2014-2020年)[EB/OL].[2014-04-29].http://www.cbdio.com/BigData/2014-11/18/content_1913510.htm.http://www.gzjxw.gov.cn/zwgk/xxgk/xxgkm l/ghjh/fzgh/201404/t20140429_2194.htm l.
[13] 中国人大杂志.贵州:全国首部大数据地方法规出台[EB/OL].[2016-03-29].http://npc.people.com.cn/n1/2016/0329/c14576-28235301.htm l.
[14] 谈政府行业大数据应用切入点[EB/OL].[2014-10-11].http://blog.sina.com.cn/s/blog_493a84550102v62j.htm l.
[15] 姚国章,刘忠祥.大数据背景下的政府信息资源整合与利用[J].南京邮电大学学报(社会科学版),2015(4):20-25.