“公共文化服务大数据分析实践”专题序

2021-01-06 23:49化柏林
图书情报研究 2021年2期
关键词:领域机构分析

化柏林

(北京大学信息管理系 北京 100871)

大数据在电子商条、社交网络、智慧交通等领域取得了成功应用,而图书馆、文化馆等公共文化服条机构存在着大量的多源异构数据,具有典型的大数据特征。公共文化领域如何借助大数据理念方法与技术解决行业里的问题,从资源、用户、技术与管理等多个角度提升公共文化服条水平与质量,促进领域快速健康发展,已经成为大数据时代需要结合行业实践深入研究的关键问题。

以图书馆、文化馆为代表的公共文化机构在网站上有着非常丰富的数据展示与信息内容,抓取网络信息并对其中的信息进行解析与抽取,转成结构化数据,并进行聚类分析与主题挖掘,能够很好地揭示公共文化服条机构的整体现状。为此,本期组织了“公共文化服条大数据分析实践”专题论文,该专题聚焦于公共文化服条大数据的应用场景探讨、网络数据采集以及主题分析挖掘,具体包括《公共文化大数据研究综述》、《公共文化服条大数据的应用场景分析》、《基于Scrapy与规则的公共文化服条机构官网信息采集与内容抽取》、《基于LDA的公共文化主题提取与演化分析》等4篇论文,其中前两篇侧重于理论探讨,后两篇侧重于分析实践。

《公共文化大数据研究综述》从理论研究、技术研究、应用研究三个方面对我国公共文化大数据的研究现状进行全现的梳理与总结,并对现有成果的研究方法进行了分类整理,讨论了公共文化大数据研究的特点与发展趋势。《公共文化服条大数据的应用场景》采用定性分析和文本分析两种研究方法,通过文献调研和公共文化机构数据采集与挖掘,对大数据在其他领域的成功应用进行归纳总结,并尝试形成领域依赖性不强的应用场景,把这些场景引入公共文化服条领域,结合公共文化领域的行业特点形成公共文化服条大数据的应用场景。公共文化服条大数据的应用主要包括用户为中心、精细化管理、数据化决策等三大类,共15个具体应用场景。

公共文化服条机构的官网信息中包含着大量有价值的数据与信息,对些信息进行实时采集与存储,能够为后续的集成、管理、分析与挖掘工作提供数据基础。《基于Scrapy与规则的公共文化服条机构官网信息采集与内容抽取》一文在分析公共文化服条数据分布与特点的基础上,通过Scrapy爬虫技术获取公共文化服条机构官网上的数据,利用正则表达式从半结构化及非结构化的文本中抽取目标数据。《基于LDA的公共文化主题提取与演化分析》根据各省级图书馆、文化馆官网所发布的活动资讯和新闻报道文本,经过预处理后对文本进行分词并使用TF-IDF算法提取关键词,结合LDA主题模型进行主题建模并分类。根据主题分类结果对所有文档进行主题标注,从时间和空间维度对文档主题进行统计分析和可视化展示。

猜你喜欢
领域机构分析
电子战领域的争锋
将现代科技应用于Hi-Fi领域 Perlisten S7tse
隐蔽失效适航要求符合性验证分析
2020 IT领域大事记
领域·对峙
电力系统不平衡分析
一周机构净增(减)仓股前20名
电力系统及其自动化发展趋势分析
一周机构净增(减)仓股前20名
一周机构净增仓股前20名