校、政、企合作共建共享特色数据库的范式探索

2017-10-30 18:51阮朝辉贺电陈刚
中国教育信息化·高教职教 2017年10期
关键词:元数据范式大数据

阮朝辉+贺电+陈刚

摘 要:本文通过对国内数据库建设历程的简要梳理,从价值取向、建设主体、服务对象等三个视角分析特色数据库建设及利用存在的问题,从而揭示出校、政、企合作共建共享特色数据库的必要性,进而提出校、政、企合作共建特色数据库的基本范型。

关键词:特色数据库;元数据;大数据;范式

中图分类号:G250 文献标志码:B 文章编号:1673-8454(2017)19-0021-04

在大数据时代,我国从制造业大国正在快速向创新型大国迈进,各种特色数据及其数据库的建设成了创新型大国建设必不可少的保障。但是,当前各种特色数据库建设和利用成效并不是很高,其中不乏数据库建设合力和执行力不足等原因。

一、国内数据库建设史概览

数据库(Database)是由文件管理系统发展起来的,按照数据结构来组织、存储、管理、存放在二级存储器中的数据集合,是把图、文、声、像等文献转化为电子计算机能识别的二进制数字后进行运算、加工、存储、传送、传播、还原、可供多个用户共享的数据集合。

特色数据库(Characteristic Database)是由特定的个人、团体、组织机构等基于有关价值取向和用户需求,利用数码技术对相关图、文、声、像、实物等进行收集、整理、加工、分类、存储、传播、还原、可供多个用户共享的数据结合。特色数据库与普通数据库的区别在于其独有的价值性、专业性、行业性、规范性、系统性、创造性和用户的指向性。

在近三十年,随着科学技术的飞速发展,我国数据库建设与利用从无到有,已经取得了辉煌的效果,已经迈入“国家大数据战略”时代。

1.从数据库的建设主体来看

我国数据库建设主体大致经历了政府职能部门仿效国外数据库建设时期,企业仿效国外参与数据库建设时期,政府委托企业或重点大学、科研院所开发自建特色数据库时期,个人、团体、企事业单位、科研院所等自主开发创建特色数据时期。目前我国数据库建设正处在政府主导、市场调控、多元开发主体并存时期,这已成为我国当代与未来数据库建设的主流趋势。

2.从数据库的内容建设来看

我国数据库的内容建设大致经历了三个时期:第一阶段,主要表现为由政府主导的传统文献(正式出版的纸本期刊、报纸和图书)的数码技术化和应用时期,这一阶段数据库的内容主要以文字信息为主。第二阶段,主要表现为由各数据库厂商以电子出版物方式出现的各种商业数据库时代,这一阶段数据库的内容主要以电子书刊、报纸、音频、视频资料等信息为主。第三阶段,主要表现为由各信息资源建设和使用机构自建特色、专题数据库时代,这一阶段数据库的内容主要以各信息资源建设和使用机构收集到的各类纸本资源、音频、视频资料、实物等信息为主。这三个时期的数据库建设基本上都是先有内容然后进行数字化存储、应用,是数字化滞后于内容时期。目前,数据库的建设内容除了正式出版文献和信息外,还包括灰色文献(非正式出版物、不可出版物)、用户信息等各種类型的信息资源,数据库内容建设已经迈入“存在皆为数据库建设内容”的内容与数字化同步发展时期。

3.从数据库的使用来看

我国数据库的使用大致经历了四个个时期:第一阶段,有线网络用户对各种数据的娱乐化需求概览时期,这一时期的数据并不成体系,而是多元泛载数据,为消遣、娱乐而查找数据,初始阶段的数据使用并不是对数据库的使用,而是对碎片文献的使用。第二阶段,是科研技术开发专业人员的指向需求的非泛载网络形式时期,这一阶段主要是以数字化的形式存放在光磁等非纸质介质中,借助于计算机技术进行传播和利用信息资源。第三阶段,是各科研院所和大学购买镜像(或包库)商业数据库,通过网络利用电脑传播和利用信息资源的网络形式时期,这一阶段推动了数据库、特色数据库使用的快速发展。第四阶段,是各数据库采用文字、声音、影像、动画、网页等多种媒体表现手段向用户提供服务,用户以电脑、手机等各种移动智能终端进行传播和利用信息资源,实现任何人、任何时间、任何地点、多元终端获得任何想要或想发表信息的全媒体形式时期。当前,我国的数据库建设已经迈入数据商、应用者及时共建共享泛在化时期。

二、当前特色数据库建设存在的主要问题

黄敏、都平平认为“高校特色数据库存在建库资源的同质化稀释了数据库特色、图书馆主导建库方式影响了数据库质量、区域性特色数据库共建共享难以保障、‘重建轻用导致资源利用率不高”[1]等问题。其实,从国内整个数据库建设过程来看,特色数据库建设存在如下更深层次的问题。

1.建设特色数据库价值取向的多元性,使数据库的特色属性被弱化

当商业价值取向占主导地位时,相应数据资料收集常以多、全、广、细为价值取向,相关建设主体甚至不惜对有关资料实行垄断性、捆绑性收集,利用平台实行专利保护,然后实行捆绑式、垄断式、自定价有偿使用等方式营销,这种现象不仅涉及到国内外大型商业数据库,而且国内个别特色数据库也存在这种现象。

当公益价值取向占主导地位时,相应数据资料收集常以专、精、特为价值取向,由此导致入库文献数量少、维护成本高、利用率低等问题,这种现象在国内高校特色数据库建设中比较常见。

当“为特色而特色”的价值取向占主导地位时,相应数据资料收集不乏以完成任务为价值取向,相关建设主体甚至不惜采用Gooseeker等抓取软件从已有其他数据库中收为己用数据,这种现象在一些个人或所谓研究团队的特色数据库建设中不乏案例。

2.承建主体的多元化,导致相关数据库的特色属性参差不齐

当特色数据库建设主体是政府及其职能部门时,不少数据资源就只能在具体政府的门户网站才能查到,对其应用者往往设有行政级别或设有行业部门、局域网等限制,而且相关入库数据也很少严格按照分门别类方式呈现,多数情况是按时间流程批量上传,不少文献上传时间滞后性相当明显,这就使得在《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)和《中华人民共和国国民经济和社会发展第十三个五年(2016-2020年)规划纲要》中都明确提出“加快政府数据开放共享。全面推进重点领域大数据高效采集、有效整合,深化政府数据和社会数据关联分析、融合利用,提高宏观调控、市场监管、社会治理和公共服务精准性和有效性。依托政府数据统一共享交换平台,加快推进跨部门数据资源共享共用。加快建设国家政府数据统一开放平台,推动政府信息系统和公共数据互联开放共享。制定政府数据共享开放目录,依法推进数据资源向社会开放。统筹布局建设国家大数据平台、数据中心等基础设施。研究制定数据开放、保护等法律法规,制定政府信息资源管理办法。”[2]endprint

当建设主体是纯商业企业时,由于商业企业的利润至上价值取向在不断强化,文献有偿使用就成了一种不得不接受的事实,虽然有偿使用相关文献信息比较方便快捷,但个人急需要使用相关文献信息时,未付费就不能使用;而且,在不少垄断的商业数据库中,个人付费使用的途径也是有限的,这就使不少特色文献信息很难发挥其普惠价值和最大化的增值效益。

当建设主体是事业单位(科研院所、大中专院校、各种馆所中心等)时,虽然这些单位或团队建了不少极具特色的数据库,但因受制于网络、著作专利权、生产运行维护成本、人力资源、技术平台等的制约,不少特色数据库也就成了“特色数据已建成,躲在深闺人难识”的产物。

当建设主体是自然人时,不论是基于何种价值取向而创建的资料库(还不能称为数据库),虽然具有不可低估的公益或功利价值,但是因其不少资料具有明显的自恋性、非权威性、甚至伪科学性等特性,即使可通过网络泛载存在和便捷化获取,或被捆绑式被动接受,也很难产生特色数据库的公益价值。如个人或小团队创建的游戏库、插件库等虽有特色,却备受诟病。

3.使用者的价值取向和技术支撑等差异制约着特色数据库的建设效度

在当代与未来,不仅人人都是数据的生产者,而且都是数据库的使用者。在数据库使用方面,不论是政府官员还是普通百姓,也不论是成年人还是未成年孩童,由于各自的需求取向不同,对促进特色数据库建设的推动力也各有差异。

特色数据库的产生之源就在于数据本身具有不同的价值,这种价值或是纯粹的消遣娱乐、或是消遣娱乐与功利杂糅需求、或是为了功利价值、亦或是超功利的人类精神文明传承与创造等,数据及其数据库本身是超功利和功利并存的存在物:即使数据使用是为了纯粹的消遣娱乐和超功利的精神文明传承,一旦该使用群体的人数达到一定的规模,就必然产生实事价值,当这种实事价值被相关商家捕捉到,就会组建团队开发相关的特色数据库,该数据库就具有了功利价值;如果相关数据及数据库是被相关族群利用为纯粹的精神建构和至善价值理性的传承,其商业价值就不同程度地裹挟了公益价值。当前之所以功利性数据及数据库发展非常迅速,就是因为数据的功利性价值得到了快速壮大,非功利性(纯精神性、公益性)价值被遮蔽或裹挟所致;正因为人的多重属性(动物性、人性、神性;惰性、求知性、宰制性、超越性;个体与社会性、趋利避害性等等)成就了数据及数据库的公益性和功利性价值,也奠基了特色数据库建设的效度和速度。

同时,由于现代技术的开发、应用、升级、换代等的快速发展,以及每个群体拥有、可用、使用相关技术(智能终端、网络环境、个体掌握应用技术等)的层级差异,促成了多元特色数据库开发、利用以及内容增加、使用方式等的多元化和层级化。不同的技术、不同的数据使用人群、数据不同的需求获取方式等决定了特色数据库建设的效度和速度。

三、DT时代的特色数据库建设范式

人类已经迈入了DT(Data Technology数据技术)时代,DT实事生活已经成为不可逆的存在与发展趋势。从国内外对数据库的建设和运行模式以及其实事价值来看,数据库建设既不能再实行纯商业建设范式,也不能再实行纯公益建设范式;而只能实行校、政、企三者结合的共建共享建设范式。

1.为什么要实行校、政、企三者合作共建共享特色数据库建设范式

有需求就有市场、有需求就有行动、有需求就有效果、有需求也可能有异化,这是人类活动的必然规律;即就是说,任何需求和市场、行动、效果之间,并不都是正能量的、符合人类共在至善价值取向的,都有可能产生异化,这就需要有一些手段、策略等来加以规范和引领,这也是特色数据建设必须注意的问题。

在DT时代,人人都是数据的生产者,人人都是数据的需求者,人人都是相关数据的自律者和他律者。对特色数据库建设而言,任何特色数据库的建设不仅需要物质(数据、经费、技术、人力等)基础作保障,而且其建设过程及其结果既能产生显现和隐性的经济效益,也将产生正能量和负能量的社会效益;而特色数据库的经济效益和负能量社会效益之间总是一种需要调和和规范的关系,学校、政府、企业(特色数据建设商)三者有效合作共建共享特色数据库,正是调和与规范该关系的主要手段。在DT时代,各类人群都有各自个性的和共性的特色数据需求,而真正正能量的特色数据需求需要教育(尤其是各级各类学校教育)的引领、政府的规范、企业的担责,这是由人性的趋娱性和需善性等決定的。虽然“人之初性本善”,但是对特色数据库的建设、使用、评价等的至善标准不完全是由个人先验的“善性”规定的,而是由族群后验的善行养成或规范的,因此,只有统合个人自律、学校引导、政府规范、企业担责等要素,才能最大限度地发挥特色数据库建设的公益性、至善性。

2.怎样开展校、政、企三者合作共建共享特色数据库建设

学校、政府、企业有效合作是建设正能量特色数据库的基本保证,是最大限度发挥特色数据库正能量的重要手段。

(1)学校提供用户需求、专业元数据、数据专业分类和推广数据库等主导特色数据库建设

学校的主要功能是教书育人。在DT时代,要实现绩效最大化的教书育人,高质量的专业特色数据库是重要保障。对高等院校而言,要最大化地实现学校的人才培养、文明传承、科学研究、服务社会等功能,高、精、尖、特的专业数据是必不可少的基础。因此,学校的功能和性质决定了特色数据库建设的市场需求;学校对文献信息的专业性需求及其便捷化获取方式的要求,既决定了特色数据内容建设的专业性、特色性、前沿性、多元性,也将有力促进数据提取方式的人性化、快捷化发展。同时,学校又为特色数据库的建设不断提供着最先进、最规范、最公益的元数据。简言之,学校(尤其是高等学校)既是特色数据库的巨大需求者(提供广阔的需方市场),也是最专业的建设者(元数据的供方市场),还是充分发挥数据正能量的引领者(数据产出市场);但是,学校因其全额财政拨款事业单位的属性,使得学校在自主建设和推广特色数据方面往往显得心有余而力不足,这就需要政府和企业支持。endprint

(2)政府制定应用规范、提供元数据、购买服务等推进特色数据库的多赢效果建设

政府既是大量特色数据的生产者,也是各种数据建设和利用的科学规范者、他律者。“法治政府和服务型政府,要加强发展战略、规划、政策、标准等的制定和实施,加强市场监管,加强各类公共服务提供,深化政府购买公共服务等。”[3]对特色数据库建设而言,政府既要提供数据库规范建设和使用的各种法律法规作保障,并加大法治执行力以剔除数据建设和使用的负能量;更要积极购买各种前沿特色数据形成公益、共享服务。创新型大国建设的不竭动力就是政府购买专利权、著作权,并为科研成果快速转化为生产力提供有效保障和服务。“世界知识产权组织(WIPO)发布的《2012年世界知识产权指标》报告称,中国在2011年就已经超美国成为专利申请第一大国;然而直到当前,我国每年授权的大部分专利还停留在纸上,专利转化率一直低于5%。”[4]要解决这一难题,实现从制造业大国向创新型大国快速发展,政府购买各种创新发明专利并促成其转化成生产力是重要路径。简言之,政府既是特色数据的生产者,也是特色数据服务的主要购买者和提供公益服务的保驾护航者,还是特色数据转化为生产力的主体责任者,这是中国特色社会主义建设创新型大国区别于其他国家的不可或缺路径,也是“实施国家大数据战略”的基本举措。

(3)企业利用市场机制、收集整理元数据、整合应用技术等壮大特色数据库

作为特色数据库建设商的企业,既是特色数据的直接经济收益者,也是特色数据库建设的最大推动者。在DT时代和激励的市场竞争中,传统垄断式的特色数据库建设正在快速地被消解,尤其是在各种数据抓取软件、人工智能快速发展的当代和未来,特色数据库建设商如果不与学校、科研院所、政府、行业以及专家学者等开展深度合作和嵌入式服务,仅仅沿袭从数据提供者那里购买数据再以专卖数据库的方式经营,不仅该数据的“特色”属性将很快消亡,该数据库本身也将很快消亡。简言之,特色数据库建设商完全可以充分利用其灵活的商业特性,通过有效的借力(政府、市场等的力量)、借脑(学校、行业、专家学者的智慧),在积极承担社会公益责任中以“帮别人赚钱”的方式发展特色数据库。

3.怎样检验校、政、企三者合作共建共享特色数据库

特色是事物所表现的独特色彩、风格等。“人无我有、人有我优、人有我全”等就是特色。检验一个数据库是不是特色数据库的标准并不是唯一的,而是多维度、多视角的,一般而言,数据库的内容、形式、服务、产出等四个维度是应该考虑的。

从元数据内容上检验:收集和存储的数据的数量多、全、广的数据库可称为特色数据;其他数据库没有而只有这个数据库独有相关数据,该数据库肯定是特色数据库;而只专注于行业、学科、地域、事件、特定对象(元数据)等建设的数据库,也可称为特色数据库或专题特色数据库。目前,国内外已成型的数据库,既有以数据数量多全廣而著称的特色数据库,也有以某一行业、专题数据为主的特色数据库或专业特色数据库。

从元数据的形式上检验:一般把正式出版物作为元数据收集、整理、加工、提供应用服务的数据库称为普通数据库;既有正式出版物也有非正式出版物(灰色文献)元数据、或仅有非正式出版物的元数据并提供服务的数据库称为特色数据库或自建特色数据库、特色机构库等。

从元数据的加工结果检验:一般把元数据按产生时间顺序自然累加入库,并提供简单检索查证服务的数据库称为常规数据库或普通数据库;把元数据进行专业分类、并提供全文检索或多种检索方式的数据库称为特色数据库。

从数据库服务的应用工具检验:往往把只提供PDF、CAJ等文本格式服务的数据库称为传统(普通)数据库;把能提供多种文本格式、多种还原方式、多种载体(PC机、移动终端等)同步呈现元数据的数据库称为特色数据库。目前,不论是数据库建设商还是各大图书馆、科研院所、自然人等宣扬的特色数据库就是能提供各种文本格式、多种还原方式、多载体等方式的数据库。

从数据库应用的产出效果检验:一般把只注重点击率、下载率的数据库称为常规数据库;把能提供统计引用率、成果分析报告、互动交流、受众分析等服务的数据库称为特色数据库……

四、结束语

在DT时代,应充分认识到政府不仅是资源的拥有者,还是规范或标准的主导者;学校是数据需求的主要市场;企业(数据库建设商)是数据库的主要建设者、是数据与应用技术整合创新的主体;只有校、政、企高效合作,才能创新特色数据库的内容、形式、服务效果,才能提高其多赢效果和促进创新型大国持续健康发展。

参考文献:

[1]黄敏,都平平.高校特色数据库建设及可持续发展问题研究[J].图书馆论坛,2012(5):83-86.

[2]中华人民共和国国民经济和社会发展第十三个五年规划纲要[EB/OL].http://www.china.com.cn/lianghui/news/2016-03/17/content_38053101.htm.

[3]中国共产党第十八届中央委员会第三次全体会议文件汇编[M].北京:人民出版社,2013:34.

[4]刘贤.重庆摸底专利保护:人才匮乏 转化率低于5%[EB/OL].http://www.chinanews.com/sh/2014/05-29/6227432.shtml.endprint

猜你喜欢
元数据范式大数据
范式空白:《莫失莫忘》的否定之维
孙惠芬乡土写作批评的六个范式
管窥西方“诗辩”发展史的四次范式转换