张文浩,高铭君
中共亳州市委党校图书信息科,安徽亳州,236800
网络信息时代大背景下,图书馆馆藏资源正不断朝着数字化方向转型,数字资源建设成为图书馆扩展馆藏资源的重要方式[1]。随着数字文献资源数量的不断丰富,各地图书馆开始挖掘具有本地地域特色的电子信息资源。特色数据库作为馆藏特色资源的集合体,具有十分重要的意义。亳州是四大药都之首,有着丰富的中药资源,中医药文化底蕴深厚。鉴于此,亳州党校图书馆于2011年投资建设成中医药文化特色数据库(以下简称中医药特色库)。早期由于开发技术落后及建设经验不足,一些潜在问题在使用中不断出现。随着大数据技术不断成熟,本着服务地方中医药企业,促进地域经济发展,着手搭建具有大数据分析研判功能的中医药文化特色数据库。大数据的基本功能与中医药的结合主要体现在以下几个方面:一是为传统中医药产业转型升级提供新机遇。二是为政府在中医药行业行为管控和治理中提供新思路。三是为中医药文化传承提供新载体。四是激发中医药市场的活力,有助于新健康产业的诞生。
“大数据”发展至今,已运用到社会的众多领域,在生产实践中大放异彩,大数据所释放的技术红利正普惠社会,目前大数据定义的界定,学术界尚未达成共识,理论体系不完善,仅是一种描述性解释[2]。比较有代表性的观点主要体现在两个方面:一是“大数据”的数据属性。“数据量超出传统关系数据库系统收集、存储和分析能力的数据集”[3],“人类所能获得的数据总和”[4],“无法在可承受范围内利用传统软件工具捕捉、管理和处理的数据集合”[5],即数据具有一般性和特殊性,大数据既包含结构清晰、逻辑科学的结构化数据,也包括大量普遍存在的半结构化、非结构化数据。二是“大数据”的社会属性。大数据与现代社会中的生产生活产生密切的内在联系,发挥数据背后的价值优势。“数量大其实只是一个表象,数据的内容、结构、工具和本身所包含的趋势变化更具有意义”[4],“大数据具有规模性、高速性、多样性及价值性等4V特性”[6]。“从大数据隐私这个特别而重要的视角审视人和数据的长久关系,技术是大数据价值体现的手段和前进的基石,实践是大数据最终价值的体现”[4]。
2010年7月,在陕西省省委党校召开了全国党校系统信息资源建设会,会议围绕各地方党校如何就尽早谋划好图书馆信息资源建设“十二五”规划,建立图书馆、信息化建设协调发展机制,扩大信息资源应用,实现信息资源共享等方面问题展开讨论。同年12月,《全国党校数字图书馆资源建设规划(2011—2015 年)》制定并发布,该规划明确指出:党校图书馆在现代化建设中,要结合本地文献资源特色,优先发展专题库建设。翌年,安徽省委党校在淮北市召开地市级党校系统信息和图书馆工作会议,邀请数字资源建设方面的专家就特色数据库规划及建设讲授建设经验,并制定了《安徽省党校系统图书馆自建数字资源建设规划(2011—2015 年) 》和《安徽省党校图书馆自建数字资源建设评估办法》。
图书文献资源数字化进程不断加快,图书馆已经进入全面数字化转型期,资源建设从纸质资源为主转向以数字资源为主[7]。亳州市委党校于2011年初规划建设中医药特色库。2014年,与安徽省委党校、六安市委党校、池州市委党校等签订了数字资源共享共建协议,是省内首批地市级党校参与数字资源共建共享的单位。中医药特色库下设6个子库,分别是亳州中医药文化资源库、亳州政府中医药政策文件资源库、亳州中医药文化活动库、亳州中医药养生资源库、亳州中医药企业资源库和亳州中医药文化旅游资源库。
中医药特色库信息每周更新一次,共计有相关信息条目1 270条,其中亳州中医药文化资源库295条、亳州政府中医药政策文件资源库120条、亳州中医药文化活动库470条、亳州中医药养生资源库101条、亳州中医药企业资源库217条、亳州中医药文化旅游资源库67条。亳州中医药文化资源库,涵盖了亳州籍或在亳州工作的中医名人及其相关著述理论,包含亳州民间中医偏方、特色方剂、中医见解理论等资源以及亳州地产中药、中药功效、种植历程等。中医药政策文件资源库主要收录当地市政府出台的中医药方面的文件、制度、政策及其解读、中央或安徽省关于中医药方面的政策文件等。中医药文化活动库收录亳州市围绕中医药及其相关产品开展活动的相关资料,如药博会、华佗祭祖大典、华佗五禽戏活动、药市开市活动等内容。中医药养生资源库包含亳州中药养生理论、养生名家、中药养生资源。中医药企业资源库收录了亳州注册在籍的药业公司及相关平台信息。中医药文化旅游资源库涵盖亳州药都地方特色旅游相关信息。
一是中医药特色库软件平台技术落后,实用性功能欠缺。亳州中医药特色库使用传统的ASP+ACCESS技术搭建。ACCESS为企业小型数据库,在数据库信息处理和容纳方面有限。ASP代码为早期WINDOWS系统中的开发语言,安全性较低,目前已停止更新。早期中医药特色库定位仅为校内使用,因此数据标准不统一,不支持数据的二次加工和多次调用,也无法同其他平台数据实现互相调用,无法实现资源共享。此外,中医药文化特色库平台功能也十分单一,在信息资源的搜集、整理、数字化、纠错、入库、发布等环节没有标准的操作流程,如元数据无法标引,检索功能欠缺,无法分类查询等。
二是中医药特色库数据更新速度缓慢、资源种类单一、数据源濒临枯竭。亳州市委党校中医药文库2011年9月投入使用,至2020年底,文库资源共计1 270条,平均每年更新127条。2011年下半年至2014年上半年信息更新最快,内容量占文库近50%,这一方面与可获得资源数量有关,另一方面也与获取资源的能力有关。资源种类单一则体现在80%以上内容为文本格式,音频、视频、期刊、图书、论文等内容较少。中医药特色库主要信息来源于网页,新闻报道及网站信息居多,如亳州晚报、亳州视听网、华佗五禽戏网以及亳州本地药企网站信息。单一的资源形式,也导致文库信息质量偏低,阅读价值不高,这无疑会降低中医药特色库的访问量。
三是平台建设非标准化,无法同其他平台共享数据。文化特色数据库是针对用户特定的信息需求,对具有利用价值的特定信息进行收集、处理、存储,并按照一定标准和规范而建立的信息资源库[8]。数据的特色性使得数据的影响领域有限,因此特色数据的互通共享才是特色数据库发展的命脉。拔掉“数据烟囱”、打破“信息孤岛”是最为有效的建设手段,共享也是未来信息系统发展的必然趋势。中医药特色库的建设过程中必须遵循共享的标准和原则,首要任务是建库的规范化[9]。早期,中医药特色库没有按照国内国际通行的规范标准实施,不能兼容图书馆普遍使用的CNMARC标准,对Z39.5协议、METS协议、CALIS元数据模板无法支持,对资源二次加工和多次调用等也无法实现,因此同其他信息平台进行数据互通存在障碍。
中医药特色库不仅能够为党校教职工提供中医药方面的文献资源,而且能为校外研究中医药文化专题的学者提供参考。建库之初,本着服务校内,为政府及相关部门提供中医药数据参考的宗旨,为方便查阅,在数据库内容上做了类别细分,由于技术条件限制及建设经验不足,没有数据检索及分析研判相应功能,因此数据查询、调用、使用极为不便。随着文库内数据量不断增大,信息检索变得非常冗繁,导致使用效率低下,数据活跃度不高,给用户造成数据库技术落后、功能不健全、界面不友好的印象。基于大数据技术的特色数据库平台,一方面能够使数据更加智能化,根据用户偏好和检索规律及时作出目的信息匹配,及时推送关联信息,从过去的“人找信息”变为“信息寻人”。另一方面,大数据所带来的对中医药产业市场发展的预判,对辅助党委政府作出发展相关经济决策有重要意义,尤其对帮助解决中医药产业发展问题和提升产业经济效益都十分有益。由此可知,中医药特色库建设结合大数据技术,不仅是未来发展的需求,也是现阶段应用需要。
近几年,亳州市中医药产业发展突飞猛进。然而,作为中国四大药都之首,亳州中药优势领先并不明显,全国范围内,知名度有待进一步提高。随着中医、中药产业信息化程度不断增强,与中医、中药相关的基础电子数据亟待被挖掘利用。从天眼查输入亳州中医、中药等关键字段,共计搜索到352条相关信息。与中医、中药相关企业、协会、商会、研究中心等信息则多达36 727条。以此为基数,与此相关的电子信息数据总量则更为庞大。比较知名的如亳州药通网、药亳商城网、亳州中药材交易中心网、中药材市场网等。由于平台架构不同,各平台数据互通困难,大量的中医药相关数据得不到充分利用,造成了无形的资源浪费。因此,开发建设具有大数据分析能力的中医药特色库,打破同各药企平台之间的数据壁垒,畅通访问渠道,提取、转化、利用好这些数据,能够盘活各主体之间的僵化数据,充分发挥好数据价值,以此推动中药产业发展。
特色数据库建设以满足特定读者的个性化资源需求为目标,按照一定的标准和规范,对特定的资源信息进行有序地收集、整理、存储[10]。目前市场上主流的专题数据库多以 TPI (信息资源建设与管理)系统为基础进行搭建,能够为用户提供完整的全文检索、电子图书制作、文件统一翻译、元数据标引、文件分类和管理等信息服务,实现对文本、图像、音频、视频等各种信息资源的管理。此外,特色数据库应能根据用户检索习惯推送个性化信息检索服务,如检索痕迹分析、检索模板、检索关键字等[11]。中医药特色数据库的建设围绕亳州本地中医、中药特色产业开展,平台主体架构以TPI系统为参考模型设计,基于大数据分析技术,具有对特色库内数据智能搜集、抓取、分析和研判等功能。
面向大数据的中医药特色库自底而上分别为数据获取层、数据存储层、数据处理层、分析应用层、服务接口层,如图1。数据获取层主要负责数据的攫取,从数据源上可以划分为云数据资源池、电子文献数据、纸质书电子化、共享平台数据、传感器数据、RFID数据、爬虫采集网络数据、移动数据等。从数据格式划分则包含文本、图像、音频、视频。存储层的设计根据业务数据特点,按照层级划分,企业数据、政府数据、高校数据由于应用范围差别较大,因此分层存储。另外对数据进行冷热性划分,按照数据访问频度把存储划分快速读写区和普通读写区,以提高访问速度[3]。数据处理层按命令对从存储中调取的数据进行组织与加工,依托ETL、数据挖掘等技术将非结构化、半结构化的杂乱的数据清洗转换为结构化数据,把分散、零碎的数据进行标准化处理,加工成有序的、有意义的数据,并整合在一起。分析应用层主要通过云计算或本地服务器计算引擎,把处理后的数据根据应用需求进行运算,导出结果,创建数据的可视化图表,供决策机构使用。服务结构层为不同对象提供有差别的数据服务,对分析层导出的数据进行跨平台一站式查询调用。界面分为web 、 api 、应用程序等方式。服务接口层有完善的索引及检索系统,能够为不同架构平台提供通信接口服务。
图1 面向大数据的中医药特色库模型
数据是数据库的核心,也是大数据分析的基础。因此,为数据库寻找优质的数据源才能实现特色数据库可持续发展。数据源的来源很多,除了线下采购、搜集整理外,互联网上的中医药相关的海量数据占据了绝大部分。但是这些数据大多是非结构化或半结构化的,因此无法拿来直接使用,需要进一步加工。网络数据的更新速度十分惊人,如何快速准确地抓取目标数据不是一件易事。亳州党校图书馆规模较小,受技术障碍、人才瓶颈等问题困扰,无法独自承担起数据资源的搜集整合[3]。因此必须整合地方政府及社会力量,建设地方中医药数据云资源池,才能源源不断为特色数据库提供数据源。如图2所示。
图2 中医药云数据资源池
亳州市建立了“浪潮云”数据中心,并搭建了“城市大脑”数据平台,用于城市的智慧化应用。因此,可以以此为契机,借助政府力量,申请开辟市级中医药云数据平台,开放端口,鼓励地方药企和高职院校数据接入。云数据中心是一个具有存储功能并可实时抓取网络数据的大型数据资源池,通过打通与本地具有中医药相关的企事业单位、高职院校、政府部门的数据平台接口,实现资源共享。数据池不进行数据结构的加工,仅仅是数据的中转存储。特色数据库通过云专线从数据池进行资源调用,并将各类数据转变为结构化数据存储,最终通过计算分析引擎进行大数据分析。
特色数据库建设要避免形成“信息孤岛”,不能闭门造车。以往,由于各种原因,特色数据库建设放在内网环境中,作为建设单位私有的电子文献资源,只能在共享协议框架下访问使用,数据库访问量低,使用率不高,数据库中数据无法发挥最大的社会效用,特色数据库价值无法体现,更无法给建设方回馈建设效益,因此特色数据库建设可持续性差,后期维护成本增高。随着以上问题被逐渐认识,许多单位、行业开始尝试在同属性系统下建立共建共享机制。如,各高校在自建特色数据库时一般都遵循CALIS标准,在教育部统一指导下能够最大程度地整合各地图书馆电子信息文献。中央党校明确提出搭建一个涵盖中央党校和地方党校特色数字资源库群的全国党校系统图书馆数字资源共建共享网络平台[12]。然而以上特色数据库建设模式开放程度受到行业标准限制,仍无法将各行业数据进行无差别整合,无法真正做到实现跨库、跨平台无间隙访问。
当前,大数据、5G、云计算、区块链等技术都要求数据具有更高的开放度,以提高数据使用的便捷性和灵活性,数据的开放度越高,其所产生的社会价值就越大。亳州中医药文化特色数据库应具有更高的开放度,不仅仅在系统内部开放,在保障数据安全的前提下可考虑跨行业、跨部门协同共建共享。亳州市为全国四大药都之首,是全球最大的中药材集散中心和价格形成中心,当地药商云集,药企众多,药材种植加工成集群模式发展,在中医中药方面具有得天独厚的优势,因此每天产生的与中医药相关的数据流量更为可观。充分采集利用好这些数据,就需要党校与各药企以及中医药相关高校找到共同的价值核心,找准结合点,画出同心圆,建立合作联盟关系。一是要依托政府相关部门,尤其医药主管部门,以此为纽带,与地方具有自建网站等信息系统平台的药企签署合作协议,打通中医药特色数据库与企业数据平台之间通路,争取中药企业的支持,合作研发具有促进企业运营发展需求特点的大数据分析模型,以数据为企业提利润促发展,找到合作共赢的良性循环模式。二是要与中医药高校联系紧密。亳州地方中医药学科发展滞后,起点不高,因此可以在全国范围内与具有合作意愿的中医药高职院校保持高度的合作,以亳州地方中药优势,以中医药特色数据库为结合点,联合高校打造“产、学、研”一体化的数据平台,形成数据互通、产学互通、学术互通的创新性平台互助合作联盟。
大数据背景下的中医药特色库具有更高的开放度,更好的实用性。充分利用好大数据分析技术,在突出“特色”数据的同时,让特色数据为政府提供决策辅助依据,为地方药企发展提供更好的指导分析,最终让特色数据产生实实在在的社会价值和经济效益。大数据开辟了一个新的领域,机遇与挑战并存,只有关注大数据,运用好大数据,把他打造成发展地方经济的新引擎,就一定拥抱美好的未来[13]。