公共文化智慧化描述信息抽取与挖掘

2021-09-07 10:00王威威化柏林
农业图书情报学刊 2021年8期

王威威,化柏林,2*

(1.北京大学信息管理系,北京 100871;2.公共文化服务大数据应用文化和旅游部重点实验室,北京 100871)

1 引言

随着中国社会的不断发展,人民群众对公共文化机构提出了更高效便捷、更智能和更人性化的服务要求,传统的服务理念和模式已经不能适应当前文化需求,公共文化智慧化的需求应运而生[1]。同时,大数据、人工智能、物联网、移动互联等新型信息技术的开发应用为公共文化机构实现服务和管理智慧化提供了基础[2]。公共文化智慧化是新时期满足公众文化需求、创新公共文化服务和管理模式、提升公共文化服务效能的重要手段[3,4],但是国内不同地区之间公共文化智慧化发展还很不均衡,建设水平参差不齐[5]。

公共文化智慧化已经成为公共文化服务和管理模式创新的重要内容之一。随着国内各类文化机构智慧化建设不断取得进展,与之相关的描述信息也以文字等形式保存并进行呈现,典型的如新闻网站报道、政府网站信息公开和公共文化机构官网等。其中公共文化机构官网作为文化机构的重要宣传窗口,以新闻公告、资讯动态等形式记录了大量与智慧化建设有关的描述信息,这些信息绝大多数包含在半结构化的文本中,具有分布广、密度低、动态性等特点。因此,本文选取省级和副省级城市的30 个公共图书馆、19 个博物馆,共计49 个场馆的官方网站为研究对象,针对官网中新闻动态版块的页面进行爬行与抽取,通过主题模型和聚类分析等方法揭示公共文化智慧化建设现状,对于公共文化机构更好地开展智慧化建设与服务具有积极意义。

2 相关研究述评

一般来说公共文化服务是指由公共文化机构,如图书馆、文化馆、博物馆等利用相应资源,向民众提供文化产品、设施和活动等服务,以满足民众的基本文化需求。因此本文仍将研究的范围限制在图书馆、博物馆等典型公共文化机构。

大数据是公共文化智慧化的基础,人工智能为公共文化智慧化提供了技术路径。关于公共文化智慧化理论的研究,刘炜等将大数据和公共文化服务创新结合起来,对公共文化大数据的来源、典型应用以及存在的问题进行了分析[6];罗丽等整理了智慧图书馆的理论研究、实践探索并提出构建文献元数据管理体系、构建精细准的服务机制、应用新型技术优化顶层设计等发展策略[7];郑建明等从公共文化服务智慧化顶层战略的角度提出了理论、技术、文化、人才、服务与治理六位一体的智慧公共文化服务发展框架,从“社会-技术交互论”的视角重新审视智慧公共文化服务中社会、技术、文化、服务与人之间的互动关系[8,9]。

随着时代变迁和人民群众文化需求的发展,公共文化智慧化的需求日益凸显出来,体现在智慧服务个性化需求、智慧服务泛在性需求、大数据环境下智慧服务需求3 个方面。智慧服务个性化意味着针对不同类型的用户提供精细化的服务,相比于粗放的传统服务模式更有针对性和更好的用户体验;智慧服务泛在性指用户可以在任何时间、任何地点获得公共文化服务;大数据在公共文化服务领域的作用主要体现在智慧型服务上,如洞察文化需求、优化资源配置、提供精准服务、丰富服务内容、扩大服务范围和提高服务质量等[6,10]。

公共文化智慧化离不开相应服务体系的构建。公共文化机构包含场馆建筑、硬件设施、软件技术、馆藏资源、人员等构成要素,在智慧化需求的推动下需要实现各要素的优化升级,构建智慧化的公共文化服务体系。王淼等提出基于SaaS 架构的智慧公共文化服务云平台构想,并分析了云平台的建设需求、资源和技术选择等[11];马捷等从智慧服务、智慧建筑、智慧管理3 个维度对高校智慧图书馆的功能结构进行了设计和构建[12];洪亮等从大数据驱动的视角讨论了图书馆智慧化服务体系的建构,包括基础设施层、数据资源层和服务应用层等,在大数据环境下重构图书馆信息服务的业务流程[13]。

信息抽取是从半结构化、非结构化文本中提取所含事实信息,使其更为结构化和更易使用。随着中国公共文化领域数字化与信息化不断推进,在网络上产生了大量包含潜在价值的文本信息,例如公共文化机构Web 页面中的馆藏目录、新闻动态、活动信息等。通过信息抽取技术对这类文本进行采集与处理,可以从中提取相关事实信息,并进一步分析挖掘。贾璐璐设计了基于正则表达式、爬虫等手段的图书馆信息采集系统,针对31 所重点高校的图书馆官网和国家图书馆网站中的书籍信息进行爬取分析[14];王晓笛等使用了基于规则的信息抽取方法,研究高校和政府网站新闻页面中包含的学者非正式科学交流活动[15]。

综上所述,学者们围绕公共文化智慧化的顶层设计、发展战略、需求分析、服务体系等内容进行了深入的探索。在公共文化信息抽取方面,多数是将信息抽取技术应用于公共文化机构服务之中,而不是用于公共文化服务现状研究,例如研究信息抽取技术在图书馆信息推送服务中的作用[17]、抽取技术用于数据挖掘、情报分析、参考咨询等[18]。相对应的,使用爬虫、信息抽取等技术手段针对公共文化领域发展总体现状进行的研究较少,已有研究通过在特定区域内开展调研了解当地公共文化发展状况[19],或使用文献计量法发现公共文化领域研究热点[20],但前者用于广泛性地研究时效率比较低,后者发现的研究热点不能直接反映公共文化服务的行业发展现状。因此,本文通过获取公共图书馆、博物馆官网信息对国内公共文化智慧化进程展开研究,以直观地了解国内公共文化智慧化建设现状。

3 公共文化智慧化描述信息抽取方法

3.1 研究设计

公共文化智慧化描述信息的抽取分析由数据获取、数据预处理、主题建模与聚类分析3 个模块构成,研究流程如图1 所示。

图1 研究流程框架图Fig.1 The flowchart of study design and procedures

数据获取模块通过前期调研选定省级和副省级城市的公共图书馆、博物馆范围,获取范围内公共文化机构官网新闻动态版块URL。利用Python 编写爬虫对上述机构网站的相关版块信息进行爬取,获得新闻动态页面的文本内容,将文本内容导入CSV 文件;在数据预处理模块,对爬虫获取的新闻动态页面文本进行清洗与筛选,从中抽取智慧化项目、功能特点描述文本等数据项;在主题建模和聚类分析模块,把智慧化项目描述文档作为实验数据分别进行LDA 主题建模和K-Means 聚类及可视化。LDA 主题模型需要预设主题数量,为了获得最佳主题数,选择主题一致性指标进行评价,主题一致性越高说明主题建模效果越好,此时对应的主题数量更优。K-Means 算法也需要预设聚类数量,将主题一致性计算得到的最佳主题数作为聚类预设数量,利用主题建模过程中所得参数对聚类分析过程进行优化。同时选择LDA 主题模型和K-Means算法对实验数据进行分析处理,主要目的是实现方法的互补,从而更全面地了解公共文化智慧化建设现状。LDA 主题模型通过对实验数据的主题聚合可以从中分析公共文化智慧化建设主题、对智慧化需求的回应程度、智慧化建设体系构成等。但是由于LDA 模型是一种3 层贝叶斯概率模型,即包括“文档-主题-词”3层概率分布,对于某个智慧化描述文档,其所属的主题服从“文档-主题”概率分布,不能单纯通过LDA主题模型清晰直观地获得文档所属主题,也不能直观地了解文档主题的聚集程度、数量多寡等。因此除主题模型外选择了K-Means 聚类算法并对聚类结果可视化,将相似度高的文档聚为一类可以更清晰地反映文档所属类别,可视化结果则能够体现不同类别的文档数量多少、相关主题发展是否均衡。

3.2 数据描述

抽取和分析模块所需实验数据来自公共文化机构网站中有关智慧化建设的描述信息,在选定公共文化机构的范围后,获取网站内新闻动态版块网页信息首先需要分析机构官网中相应版面网页的结构,其次根据网站的特点设计爬虫爬取特定版块内容。

3.2.1 新闻页面描述

公共文化机构的新闻动态版块内容属于新闻的一种,相应版块内与智慧化有关的新闻动态通常会在标题和正文中展现智慧化项目(What)、机构(Where)、功能特点(How)等要素,时间要素(When)则通常单独列出,收集方便。

以浙江省图书馆网站内一则新闻为例,新闻标题为“绍兴图书馆自助借还系统正式开通”,这是一种典型的“机构名+智慧化项目名+特征词(如开通、上线)”的形式,发布时间、来源、点击量等单独列出,最后是正文内容对智慧化项目及其功能特点进行详细描述。

结合新闻的一般要素和公共文化智慧化新闻动态的特点,将机构名、智慧化项目名、时间、功能特点等作为公共文化智慧化相关新闻动态的主要构成要素。

3.2.2 数据获取

研究的实验数据获取通过网络爬虫完成,爬取对象为公共图书馆等机构网站的新闻动态、活动资讯版块内容。数据爬取和分析基于Python3.6.3,爬虫的编写主要使用Requests、Beautifulsoup、Selenium 等Python 库,爬取结果经过整理后导出为CSV 文件。

3.2.3 数据概况

通过网络爬虫对49 个场馆官方网站中新闻动态相关页面进行爬取,场馆与网站详情见附录。采集图书馆网页共18 643 个,平均每个图书馆官网采集约621.4个新闻动态页面;采集博物馆网页共5 147 个,平均每个博物馆官网采集约270.9 个页面,页面数量按年份分布如图2 所示。

附录 公共图书馆官网URL 列表(共30 个)

图2 新闻动态页面数量-年份分布图Fig.2 The statistical bar chart for the number of news web pages by year

3.3 文本预处理

数据获取模块通过网络爬虫对公共文化机构官网的新闻动态页面进行了爬取,为了便于后续模型算法的处理,需要对爬虫所得结果进行预处理。

3.3.1 公共文化智慧化页面筛选

筛选与公共文化智慧化相关的页面共分两步进行。初次筛选通过一系列关键词完成,经过前期调研得到与公共文化智慧化密切相关且有代表性的关键词,包括“大数据”“智慧化”“智能”等,对爬取页面的标题和正文内容使用正则表达式匹配上述关键词;得到初步筛选结果后再排除包含关键词但与智慧化无关的记录,例如大数据相关的讲座、科普活动等。经过两次筛选得到公共文化智慧化相关的页面数据集,其中图书馆网页179 个,博物馆网页74 个。

3.3.2 信息抽取规则

针对爬虫采集、导出的网页数据,使用基于规则的抽取方法抽取智慧化项目名称、功能特点。通过分析总结智慧化项目描述文本的特点,总结典型的描述模式,制定相应的抽取规则。

智慧化项目名称在标题或正文内容中都可能出现,在标题中出现时由于标题长度限制往往不出现具体的功能介绍,在正文中出现时可能跟随有项目功能介绍、使用效果等。项目名称和功能特点的描述文字大都伴随着一定的特征词出现,通过统计分析特征词与描述文字的模式可以涵盖大多数抽取情景。

最终抽取得到智慧化项目及其功能特点描述文档分布为图书馆114 条,博物馆56 条。

3.3.3 中文分词

中文分词工具选择Python 环境下的Jieba 库,Jieba库是常用于中文分词的第三方库,支持精确模式、全模式、搜索引擎模式等分词方式,也支持用户自定义词典以提升分词效果[21]。自定义词典通常包含领域相关术语、长词,长词即本身有意义但在分词过程中可能被切分开的词语,加入长词有利于提升文本分析的效果。实验采用的停用词表以哈工大停用词表为基础,并通过观察分词效果手动补充部分停用词。

3.4 主题建模

主题模型是以无监督学习的方式对文档集的隐含语义结构进行聚类的统计模型[22]。主题模型认为文档的生成首先是选定了若干“主题”,然后选定词汇形成文档。主题是文档集合中所有词的条件概率分布,与主题关联性越高的词汇对应的条件概率越大。

3.4.1 LDA 模型构建

LDA 主题模型(Latent Dirichlet Allocation,LDA)最早由DAVID M B 等在2003 年提出,被广泛应用于文本挖掘领域,可以从文档集中提取出最能表达各个主题的关键词。通过爬虫和预处理阶段获得智慧化项目功能特点的描述文档集合,使用LDA 模型挖掘上述文档集中隐含的主题信息,从而分析公共文化智慧化建设情况、发展方向等。使用Python 的Gensim 框架实现LDA 模型的构建和训练。Gensim 是一款开源的第三方Python 工具,用于从非结构化文本中,无监督地学习文本隐层的主题向量表达,支持包括TF-IDF、LSA、LDA 和Word2vec 在内的多种主题模型算法[23]。

3.4.2 主题数量估计

LDA 主题模型需要提供文档集和主题数量,主题数量的选择会影响主题提取的效果。本文使用主题一致性(Coherence)判断在主题数量(num_topics)取不同值时模型的优劣程度,一致性分数越高代表模型聚合效果越好[24]。经过预实验和调研发现主题数量取值过小则主题内一致性不高,取值过高则主题过于分散,因此将主题数量取值区间设置为3~10 个,图书馆、博物馆模型主题一致性计算结果如图3 所示。

根据图3 的结果,主题数量num_topics 取4 时主题一致性最高,说明主题模型效果更好,因此选择num_topics=4 作为图书馆、博物馆主题建模的预设主题数量。

3.5 聚类分析

本文采用K-Means 算法进行聚类分析。K-Means是常用的一种聚类算法,K 表示需要将文档集划分成簇的个数,首先确定K 个初始点为每一簇的中心,将其余每个点按照离中心最近的原则划分到每个簇中,簇的中心值随之更新,重复划分过程直到每一簇的中心不再改变。K-Means 聚类使用Sklearn 库实现,参数K 的选择参考了主题建模的主题数量。Sklearn 是机器学习常用的第三方库,涵盖了回归、降维、分类、聚类等多种方法[25]。算法优化选取Inertias,即样本到最近的聚类中心的距离总和的结果,Inertias 值越小说明样本分布越集中。

互信息(Mutual Information,MI)广泛用于衡量两个数据分布的吻合程度,例如计算人工标注的真实数据分布与聚类算法预测的数据分布之间的互信息(MI),从而评价聚类效果。基于互信息方法的计量指标除MI 外,通常使用的有标准化互信息(Normalized Mutual Information,NMI)和调整互信息(Adjusted Mutual Information,AMI),前者取值范围[0,1],后者取值范围为[-1,1],NMI 和AMI 越大,代表两组数据分布越吻合。为评估聚类结果的可靠性,从图书馆和博物馆抽取结果中分别选择30%的数据进行人工标注,作为实验的测试集,利用Python 的Sklearn 库计算人工标注与模型预测结果的NMI 和AMI,结果如图4 所示,测试集预测结果与人工标注结果比较吻合。

图4 图书馆、博物馆测试集NMI 与AMIFig.4 The bar chart for normalized mutual information(NMI)and adjusted mutual information(AMI)of test sets

4 抽取结果分析

4.1 主题模型实验结果分析

公共图书馆、博物馆等机构在智慧化建设方面有其各自特点,在馆藏对象、服务模式、发展方向等方面都有一定区别。针对来自不同机构的文档分别使用LDA 模型进行主题抽取,可以通过主题的特点比较其智慧化建设方面的差异和联系。图书馆主题抽取结果如表2 所示,在每个主题输出的关键词中选择权重较高的关键词。

表2 图书馆新闻动态LDA 模型抽取结果Table2 LDA model extraction results of library news web pages

图书馆智慧化描述信息聚合得到的4 个主题,根据关键词的含义不同可以归纳为:①网上借阅;②智能化设备;③自助借还设施;④个性化服务。从公共文化智慧化需求的角度分析,表2 的抽取结果可以反映智慧服务的个性化需求、泛在性需求和大数据环境下开展智慧服务的需求:读者的个性化需求构成了图书馆从资源共享服务到面向用户服务的发展动力[26],图书馆根据读者的特点、需求不同进行个性化推送和服务可以更好地体现“以用户为中心”的理念;移动互联网、移动终端设备的普及丰富了民众获取公共文化服务的渠道和方式。图书驿站、总分馆制度、自助设施等构成的智慧流通模式,让图书在总馆和分馆之间、图书馆和驿站之间高效流通,实现网上借阅需求和线下图书投递的精准对接,让读者快速、就近获取所需资源;大数据环境下人工智能、机器人馆员不断发展,为读者提供更智能化的服务。

从公共文化智慧化服务体系的角度来看,表2 可用于分析图书馆智慧化建设过程中不同维度的功能结构:①智慧资源,可分为馆藏资源和业务数据两类,前者包括图书馆数字馆藏、知识库等,后者主要指图书馆日常服务和运行产生的数据。图书馆通过建设和管理这些数字资源,可以为数据挖掘、用户个性化推荐、图书馆智慧空间建设打下基础;②智慧流通,通过网上借阅平台、总分馆体系、书店或驿站服务点等结合的方式实现图书的高效流通,创新图书采购和借还流程,使读者借阅体验更加便捷高效;③智慧用户服务,利用机器人等智能终端设备为读者提供问答咨询服务,以及基于用户数据分析的精准推送和个性化服务;④智慧管理,通过智能终端设备实时监控场馆的环境因素如温度、湿度、光照以及场馆运行数据如人流量,智能调节场馆相关设施的运转状态,实现智能高效的智慧空间管理。

博物馆主题抽取得到4 个主题,其中两个主题的关键词相似度较高,因此进行了合并处理,结果如表3所示。

表3 博物馆新闻动态LDA 模型抽取结果Table3 LDA model extraction results of museum news web pages

表3 的结果比较符合智慧博物馆发展的3 个方面即智慧服务、智慧管理、智慧保护[27]:①智慧服务,即针对公众服务需求,利用数字化技术和信息网络技术,将静态博物馆资源动态化,对隐形历史文化资源还原,以多维展现互动形式、新型知识组织方式、多渠道信息实时推送、文创产品制造分享,实现公众与藏品的高度交互融合。在展览和观众体验方面,博物馆采用虚拟现实、增强现实、多媒体交互等手段为观众提供沉浸式、多样化的参观体验。②智慧管理,一方面是对藏品信息、数字资源的统一管理,另一方面是通过实时流量监测、观众行为采集等手段为博物馆观众管理工作提供支撑。③智慧保护,主要依靠智能感知技术、无损检测技术等手段实时监测文物保存环境,做到异常情况及时预警,有的配备了环境调控设备,实现完整的“监测-评估-预警-调控”预防性保护流程。

结合图书馆与博物馆智慧化主题,可以发现两类机构在智慧化建设方面存在一些共同点,同时也揭示了各自的独特之处。两类机构的共同点在于:①需求导向,在社会层面民众需要差异化、精准高效的智慧化公共文化服务,图书馆和博物馆通过不断创新服务模式,例如个性化推荐、读者荐购、图书智慧流通、藏品多媒体交互等应对不断发展的智慧化需求;②以用户中心的发展理念,重视用户在公共文化服务和管理中的地位,通过改变传统服务流程和服务手段,以及结合新技术提供崭新的服务模式从而更好地满足用户个性化、差异化的文化需求;③智慧资源建设,主要包括两大类即馆藏资源建设、业务及用户数据收集,前者通过数字化技术、移动网络、多媒体互动等供用户借阅参观,带来更加便捷和多样化的用户体验,后者则可以成为场馆运营决策的依据以及用户个性化推荐、差异化服务的基础;④技术敏感度高,图书馆、博物馆的智慧化离不开云计算、物联网、移动互联网、大数据等技术手段[28],通过物联网技术建立设备与人员之间的实时信息交互,通过移动网络满足智慧化服务泛在性需求,利用大数据和云计算技术实现及时、高效、准确的数据分析处理功能,共同促进公共文化服务和管理智慧化。

图书馆、博物馆在功能、馆藏等多个方面都有各自的特点,因此在智慧化建设中反映出的主题也有所区别:①用户和馆藏的关系。图书馆主题反映出的主要是读者通过线上平台、社区投递、分馆和图书驿站等服务模式获取馆藏图书,博物馆主题则着重观众与藏品的多媒体、交互式体验;②智慧流通方面的主题基本属于图书馆而非博物馆;③博物馆注重馆藏保护而图书馆主题不能体现这一点。总的来说图书馆主题更注重“获取”与“流通”,博物馆主题更注重“交互”与“保护”。

4.2 K-Means 聚类可视化

使用K-Means 算法对图书馆、博物馆文档集合进行聚类,聚类的可视化使用了Matplotlib 库和T-SNE算法。图书馆数据聚类结果的可视化如图5 所示。根据不同聚类标签下文档的关键词加权结果和表2 主题建模所得各个主题下的关键词匹配程度,为每一类选择最符合的主题。

图5 K-Means 聚类结果可视化(图书馆)Fig.5 K-Means clustering results of libraries

图书馆智慧化描述文档的聚类结果可视化显示自助借还设施、智能设备相关的文档较多,个性化推荐和网上借阅相关文档的数量明显较少。这说明现有的数据和抽取条件下,图书馆智慧化在自助借还设施、智能设备方面建设成果较多、受重视程度更高,而在个性化推荐、网上借阅方面建设不足。

结合表3 主题合并的情况,将博物馆聚类数预设为3。与图书馆聚类同理,根据不同聚类标签下文档的关键词加权结果和表3 主题建模所得各个主题下的关键词匹配程度,为每一类结果选择最符合的主题,可视化效果如图6 所示。

图6 K-Means 聚类结果可视化(博物馆)Fig.6 K-Means clustering results of museums

针对博物馆的聚类及可视化将描述文档聚为3 类,聚类结果的可视化显示不同类内部聚集程度较好,类之间区分比较明显且文档数量基本均衡。可视化结果说明在现有爬虫结果和筛选规则下,博物馆智慧化建设基本分为齐头并进的3 个方面,即智慧保护、智慧管理、数字化交互,与文献资料对智慧博物馆智慧服务、智慧保护、智慧管理三大功能的表述基本一致[27]。

5 结论与展望

经过对国内公共文化智慧化描述信息的抽取研究发现,图书馆和博物馆数据的主题建模结果反映出一些共同点和各自特点。两类机构的共同点在于:①需求导向的功能主题;②以用户中心的发展理念;③智慧资源建设;④技术敏感度高。各自区别主要体现在:①用户和馆藏的关系。图书馆主题反映出的主要是读者通过线上平台、社区投递、分馆和图书驿站等服务模式获取馆藏图书,博物馆主题则着重观众与藏品的多媒体、交互式体验;②智慧流通主题基本属于图书馆而非博物馆,这是两类机构最显著的区别;③博物馆注重馆藏保护而图书馆主题不能体现这一点。总的来说图书馆主题更注重“获取”与“流通”,博物馆主题更注重“交互”与“保护”。针对图书馆、博物馆智慧化描述文档进行K-Means 聚类和可视化发现,博物馆智慧化建设的各个方向较为均衡;而图书馆智慧化在自助借还设施、智能设备方面建设成果较多、受重视程度更高,而在个性化推荐、网上借阅方面建设不足。因此,图书馆应在个性化服务、网上借阅及其代表的智慧用户服务、智慧资源、智慧流通等方面加大研究和资金投入,从而更好地满足智慧服务个性化、泛在性以及大数据环境下信息采集和处理能力的需求。

博物馆官网URL 列表(共19 个)