付 琛 唐建伟 樊明华 中国联合网络通信有限公司江西省分公司 江西省南昌市 330029吴玉灵 江西省图书馆 江西省南昌市 330038
关键字:图书馆 数据中台 数据治理 元数据
江西省图书馆新馆位于江西省文化中心最核心,新馆于2020年正式开馆,总投资9.6亿元,总建筑面积9.6万平方米,设计藏书量1000万册,日最大接待读者能力达到2万人次。建成后的江西省图书馆,单体建筑面积跃居全国省级图书馆前三名,已成为我省文化服务的中心地标,成为了江西省文献保障、公共图书馆数字资源及服务、地方文献数字化建设、纸质图书采编配送、公共图书馆业务培训教育、公共图书馆服务网络发展共六大文化中心。
随着新馆的开放运行及服务,江西省图书馆在系统信息化、数字图书及电子资源智能化、图书馆的管理治理创新、读者的阅读体验感知陈旧等问题,是摆在图书馆发展和创新亟待提升的问题。随着5G、云计算、大数据、物联网、区块链、AI等技术的不断发展,将现有的数据资源平台将成为新技术的优良承载容器,为江西图书馆新馆在新时代下智慧创新提供有力的手段,必须建立强大的智慧化服务平台,构建基于江西省图书馆大数据平台的全业务的经营、管理及服务对象等数据信息,打通所有业务的信息数据孤岛,对收集的数据进行智能分析以及后期的应用开发,从而不断提升江西省图书馆新馆的信息化和智能化水平及管理治理能力。
分布式数据平台解决了数据的计算和存储的基础问题,但不是说部署了数据平台,数据的价值就自然的实现了。数据的采集、整理、加工、服务和应用的整个流程的研发模式也是非常关键的一环。
在图书馆行业初期,数据研发模式一般紧贴业务的发展而演变的,数据体系也是基于业务单元垂直建立,不同的垂直化业务,带来不同的烟囱式的数据体系。随着图书馆行业的发展,一方面数据规模在快速膨胀,垂直业务单元也越来越多,另一方面基于大数据的业务所需要的数据不仅仅基于某个垂直单元,使用全域的多样化数据(Variety)才能具备核心竞争力。跨垂直单元的数据建设接踵而至,混乱的数据调用和拷贝,重复建设带来的资源浪费,数据指标定义不同而带来的歧义、数据使用门槛越来越高。这些问题日益凸显,成为图书馆发展迫在眉睫必须要解决的问题。
一般信息化建设主要都是第三方公司进行研发,特别是政府、事业单位和大型图书馆,往往信息化建设开发商不少,很容易导致命名不规范、口径不统一、算法不一致等数据标准不统一,从而加大了数据分析的难度。例如入馆客流这样一个指标,可能就有多家厂商的闸机设备及系统数据来源。带来的问题是在数据分析过程中的汇聚和分析口径难以统一,数据统计差异大。
烟囱式开发的开发周期长、效率低,面向应用的服务化不足,导致业务响应速度慢;重复建设导致任务链冗长、任务繁多,计算资源紧张,数据时效性不好。由于数据模式是跟着垂直业务,导致不同业务产品线之间一些个性化需求的业务团队却无法相互提供更多支持。
由于没有统一的规范标准管理,造成了数据多份拷贝、指标重复计算等资源浪费。而数据表的层次、粒度不清晰,也使得重复存储严重,可以预见的未来的将会带来巨大的数据成本负担。
烟囱式开发的重复建设浪费技术资源。上线难下线更难,源系统或业务变更不能及时反映到数据上,加之数据不标准,研发维护难上加难。
通过数据中台的建设,我们可以做到:
(1)数据应该是可连接和萃取的、智慧的、能提升业务甚至创新业务的。
(2)数据应该是规范标准有序的、全面且多样化的、清晰且可见的。
(3)数据应该是及时计算和有效存储的、应该是可动态调优向上服务的。
图1 全域大数据中台之路
数据中台是以全域大数据建设为核心,从内容上看是管理和运维江西省图书馆最核心的基础数据,从技术上看,通过数据采集,计算加工,服务消费,覆盖了全链路的环节。
数据中台,是基于分布式数据平台之上,根据行业客户的业务场景量身定制的一整套数据智能解决方案,基于“互联网+”时代的数据价值思考,赋能图书馆,提升竞争力。基于云提供大数据计算、存储、调度、管道等基础设施的能力,数据中台关注于数据体系,规模化服务业务,保证数据质量,更大限度的发挥数据价值。数据中台连接了数据平台和数据应用,帮助图书馆实现数据资产化,着重于打通“一切业务数据化”和“一切数据业务化”的整个链条。数据平台解决“存”的问题,数据中台解决“通”的问题,数据应用解决“用”的问题,打通图书馆数据化的“存”“通”“用”三大环节,真正实现让数据产生价值。
数据中台全景图如下所示。
图2 数据中台全景图
全景架构图从下往上为数据流程体系。最底层为离线计算和实时计算的基础设施。再上层为垂直数据中心,提供数据采集接入、爬去采购等数据同步工作,将不同业务线的数据统一整合形成OneData体系。再上层为公共数据中心,通过业务板块、业务过程、业务维度构建OneData体系。数据中心之上是根据业务和产品构建消费者数据、内容数据等体系的萃取数据中心,即数据集市。到数据集市这一层就已经可以发挥其数据的价值,最后通过统一的数据服务中间件OneService统一提供数据对外应用数据服务。
全景结构图从左往右为产品结构体系。左侧为统一资产管理平台,主要用于进行数据治理,以减少大数据应用成本,中间为核心体系框架,右侧为智能数据研发平台,用来保证整体业务体系的稳定性以及健壮性。
数据中台涵盖了数据资产、数据治理、数据模型、全域数据中心、数据服务等多个层次的体系化建设方法。基于数据中台构建全域、实时、智能的大数据体系,配合相应的战略思考和组织架构,是图书馆数据化建设的成功的有利保障。
在数据体系之中,数据中台包括两个方面,一个是数据的技术能力,另一个是数据的资产。技术能力是指数据中台负责了所有业务数据的采集、加工处理、服务应用等工作,是一个多技术的整合。而数据中台不仅仅是一个数据的集合,经过处理后的数据不再像蜘蛛网一样眼花撩乱,他从各个业务线,业务域上的海量数据中提取核心内容,经过一定业务逻辑下的组装,还原出图书馆全链路下各个对象的行为树,同时能被灵活使用,并快速扩展。
广义的数据中台体系可以涵盖整个数据中台解决方案框架图,既包含数据技术平台,也包含数据开发、数据模型、数据资产和数据产品应用。而狭义的数据中台主要关注数据模型,算法服务,数据产品,数据管理等等,这些服务跟图书馆的业务有较强的关联性,是图书馆独有的且能复用的,比如图书馆自建的2000个数据公共层基础模型,300个主题域模型,5万个标签等,它是图书馆业务和数据的沉淀,不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。
数据中台的理念是让图书馆的整个业务都可以共享同一套数据技术与资产,数据中台的数据源自各业务系统,为集团业务体系提供了有力的算法、数据和技术支持。在数据中台的体系之下,图书馆不断扩大的业务版图内的各种业务数据,也都将按统一的方式接入中台系统,之后通过统一化的数据技术服务反哺业务。数据来自于业务,反哺业务,并循环往复,蕴含更大能量,形成一个数据生态,从而衍生无限的可能性。
图3 以数据中台为中心的数据闭环
建设数据中台对于图书馆来说是一个重大的投资决策。那么,为什么数据中台如此重要?
数据中台构建图书馆全域数据中心,将其中的公共数据层将作为所有数据服务开发的基础,公共数据层模型做到了“书同文,车同轨”,无论应用的数据模型有多复杂,总是能溯源到公共数据层的基础表,这奠定了数据核对和认知的基础,最大程度的避免了“重复数据抽取和维护带来的成本浪费。”
曾经图书馆的数据抽取就有多份,报表一份,数据仓库一份,各种数据集市也有一份,无论是抽取压力、维护难度及数据一致性要求都很高。
同时,统一的公共数据层将相关业务领域的数据做了很好的汇聚,消除图书馆内的数据孤岛,解决了数据互通的诉求,这点的意义巨大,谁都知道数据1+1>2的意思。
在图书馆,无论是专题、报表或取数,当前基本是烟囱式数据生产模式或者是项目制建设方式,必然导致数据知识得不到沉淀和持续发展,从而造成模型不能真正成为可重用的组件,无法支撑数据分析的快速响应和创新。
究其原因是模型建设往往是项目式的建设方式,一旦项目结束,在面对业务提出更多需求时,项目模型团队可能已经撤离了,或者考核指标早已经随着项目结束,模型提供者在主观上没有太大的积极性去满足新的需求,如果当初模型的扩展性设计的不好,或者时间太紧,或者系统稳定的需要,往往导致有心无力满足新的需求,结果是数据模型无法再扩展,成为事实上稳定的但无用的模型。
其实,业务最不需要的就是模型的稳定,一个数据模型如果一味追求稳定不变,一定程度就是故步自封,这样的做法必然导致其他的新的类似的数据模型产生,当越来越多的模型都采用自建的方式满足需求时,意味着老的数据模型就可能要离开历史舞台了,而留下的是割裂的成千上万的模型,也就失去了模型知识沉淀的可能,曾经做过一张几百个字段的万能宽表,由于太大后来就没人敢去动它,随着新的业务不断增加,这张宽表的价值却越来越低直至退出历史舞台。
数据模型不需要“稳定”,而需要不断的滋养,只有在滋养中才能从最初的字段单一到逐渐成长为图书馆最为宝贵的模型资产。
再以报表为例,图书馆报表成千上万的原因往往也是没有沉淀造成的,针对一个业务报表,由于不同的业务人员提出的角度不同,会幻化出成百上千的报表,如果有报表中台的概念,就可以提出一些基准报表的原则,比如一个业务一张报表,已经有的业务报表只允许修改而不允许新增,自然老报表就会由于新的需求而不断完善,从而能演化成图书馆的基础报表目录,否则就是一堆报表的堆砌,后续的数据一致性问题层出不穷,管理成本急剧增加,人力投入越来越多,这样的事情在每个图书馆都在发生。
图书馆的数据创新一定要站在巨人的肩膀上,即从数据中台开始,不能总是从基础做起,数据中台是数据创新效率的保障。
搞过机器学习的都知道,没有好的规整数据,数据准备的过程极其冗长,这也是数据仓库模型的一个核心价值所在,比如运营商中要获取3个月的ARPU数据,如果没有融合模型的支撑,得自己从账单一层层汇总及关联,速度可想而知。
标签也一样,图书馆打造标签可并不仅仅是做几个标签那么简单,它需要打造的是一个标签服务平台,要能最大限度的规范标签的格式,接入方式,组合方式,调用方式等等,只有这样,基于标签的二次快速创新才有可能,图书馆每发布一个新的标签,就意味着新增了一种能力,这才是数据知识的真正传承。
有了数据中台,有了公共数据层模型,新人可以系统的学习图书馆有哪些基本数据能力,新人可以从全域数据中心切入去全局的理解公司的业务概念,有了标签库,新人可以获得前人的所有智慧结晶,有了数据资产管理平台,新人能清晰的追溯数据、标签和应用的来龙去脉,所有的知识都是在线的,最新的,意味着新人的高起点。
当然,数据中台的建立不是一蹴而就的,每个图书馆都应该基于实际打造独有的中台能力,这不像传统的图书馆信息化建设,买一个成熟的产品套件或者实施一个项目就能自然实现。在这个过程中,需要遵循一些原则:
首先,图书馆的组织架构及机制需要顺势而变,比如以前负责数据的部门或团队往往缺乏话语权,面对业务需求往往是被动的接受的角色,这让一切数据中台的想法化为泡影,需要在图书馆战略高度为数据中台团队授权。
其次,要改变工作方式,现在很多图书馆的数据团队的主要工作内容就是项目管理、需求管理等等,当一个项目完成后又投入到下一个项目,做好一个需求后又开始负责下一个需求,虽然增加了数据团队的项目和需求管理经验,但并不能在某一个专业领域得到知识和经验的沉淀。事实上,数据人员只有深入的研究业务、数据和模型,端到端的去实践,打造出数据中台,才是最大的价值创造,才能使得持续创新成为可能。
第三,数据中台的团队要从传统的支撑角色逐步向运营角色转变,不仅在数据上,在业务上也要努力赶超业务人员,中台人员要逐步建立起对于业务的话语权,不仅仅是接受需求的角色,更要能提出合理的建议,能为业务带来新的增长点,比如精准营销。
DT时代,接下来整个社会会进入开放共享的时代,图书馆的数据不仅仅拥有支撑自有业务,将可以开放共享给整个图书馆的生态,从数据化运营走向运营数据,到那个时代,数据中台将成为图书馆最为宝贵的资产。
基于中国联通和阿里云多年的数据中台的建设经验,提供完整的数据中台方案和相关成熟的数据中台产品包括数据计算引擎、数据治理套件和数据开放套件。江西省图书馆智慧数据中台方案基于中国联通和阿里云多年宝贵经验得出3ONE理论(One Data,One ID,One Service),按照智慧化图书馆的应用场景,打造围绕读者和资源的数据的“存”“通”“用”的数据闭环。
大数据中台是本次智慧图书馆的核心模块之一,本次项目大数据中台从采集到加工处理到服务输出建设多种生产力工具来支撑,包括大数据开发套件、数据质量管理、数据模型-元数据管理、数据API平台、标签工厂、数据血缘、报表引擎和可视化大屏引擎等。
图4 数据中台整体架构
习近平总书记指出图书馆是国家文化发展水平的重要标志和文化场所。江西省智慧图书馆通过5G、大数据等技术创新,为广大群众提供了更加便捷的阅读服务,促进了全民阅读常态化、高效化、智能化,同时也将伴随着广大市民的阅读身影,成为江西省推进全民阅读的一道亮丽文化风景线,让崇尚阅读在全省上下蔚然成风。