文内视觉资源复杂度计量分析框架与应用研究*

2016-12-14 07:41:54蓉唐振贵朱庆华
图书馆 2016年11期
关键词:复杂度图表计量

胡 蓉唐振贵朱庆华

(1.南京大学信息管理学院 南京 210023; 2.西南大学计算机与信息科学学院 重庆 400715)

·学术论坛·

文内视觉资源复杂度计量分析框架与应用研究*

胡 蓉1,2唐振贵1朱庆华1

(1.南京大学信息管理学院 南京 210023; 2.西南大学计算机与信息科学学院 重庆 400715)

学术文献内部的视觉资源(简称“文内视觉资源”)主要是其图表资源的集合,在学术交流与传播中扮演着重要角色。针对目前尚缺乏文内视觉资源复杂度计量分析方面的研究,文章提出一套复杂度分析框架,在设置复杂度判别规则,搭建文内视觉资源标注平台,选择图书情报领域样本期刊构建语料库基础上,从复杂度特征演化以及复杂度与研究主题关系两个维度进行计量分析,进而在一定程度上揭示图书情报学科的视觉表达态势。

文内视觉资源 复杂度 计量分析 分析框架 视觉表达

〔引用本文格式〕胡蓉,唐振贵,朱庆华.文内视觉资源复杂度计量分析框架与应用研究[J].图书馆,2016(11):40-44

1 引言

文内视觉资源主要指学术文献(如学术专著、学术期刊、学位论文等)内部的图表视觉资源集合。作为研究者学术成果显性表达的可视知识形态,文内视觉资源能集中反映学术研究的核心思想与架构,研究方法与过程,研究数据与结论,以直观且简洁的方式提高读者阅读和理解学术文献的效率[1],提升学术洞察力,因而成为学术研究成果的重要载体,在学术交流与传播中扮演着重要角色。

随着科研环境的发展以及研究技术的推动,近年来学术研究对象日益丰富,研究过程日趋完备与规范,研究数据海量趋势明显,各类研究工具及可视化技术的使用使得研究者对于复杂数据与分析过程的掌控能力不断增强,同时研究成果视觉呈现的复杂度也逐渐提升,文内视觉资源复杂度问题日趋显现。本文认为,对于学科发展而言,其科研成果视觉呈现的复杂度演化趋势在某种程度上反映出学科的视觉表达态势,将文内视觉资源作为可视知识计量单元进行分析,将从新的视角和更细的粒度拓展计量分析的对象,同时可以挖掘文内视觉资源复杂度与学科研究主题的关系,为科研分析与决策提供支持。为此,本文尝试对文内视觉资源复杂度特征进行计量分析,分析框架涉及复杂度判别规则制定、标注平台搭建、语料库生成、复杂度计量分析的推进过程。在研究对象选择问题上,由于学术期刊具有连续出版的特征,便于从时间维度探索其文内学术资源的发展与演化,为此,本文选择学术期刊这一文献类型,以图书情报学科较具代表性的《中国图书馆学报》为例,对分析框架进行案例应用。

2 相关研究概述

文内视觉资源复杂度计量分析涉及两方面的研究,一是文内视觉资源(图表)的研究,二是视觉复杂度的分析。文献调研结果表明,文内视觉资源研究主要涉及图表类型研究、图表设计等方面,其中图表类型研究的典型代表是Mitchell于1986年提出的族谱图[2],该研究将图(Graphic)分为图片(Picture)、造像图(Statue)与设计图(Design); Steiner在2008年的研究中将图(Graphic)划分为照片(Photo)、统计图表(Chart)、绘图(Drawing)、文本框(Text Box)、表格(Table)、地图(Map)和方程式(Equation)[3];如今CNKI学术图片知识库中的图片分类体系包括形态图、谱线图、曲线图、系统图、分析图五个大类,每个大类下又有28个以上的二级分类,体系较为庞大[4],由图表的复杂类型可以看出,如果对图表分门别类进行复杂度分析,其难度非常大,需要寻求更为抽象层次上的分析。图表设计研究方面,近年来图书情报领域研究较多的是知识图谱或可视化设计,主要涉及如何利用相关工具生成知识图谱或可视化图表[5-7],绘制过程一般包括样本数据获取、样本数据清洗、选择知识单元、构建单元关系、数据标准化、样本数据简化、知识可视化以及图谱结果解读几个环节,相较于图解表示型的图表,知识图谱类的图表生成过程更为复杂。视觉复杂度分析方面,计算机科学、信息与通信工程领域对其研究较多,涉及研究的主题有图像、网页、颜色、形状复杂度等方面[8-11],且多为算法视角的研究,针对文内视觉资源复杂度的分析较为稀缺。

此外,随着学术文献量的激增,文内视觉资源呈现爆发增长态势,逐渐汇集成为学术视觉资源大数据,为此CNKI专门构建学术图片库,以提供对文内图片资源的检索、对比和分析等知识发现功能,Figshare[12]则提供学术视觉资源的发布、存储、分享、管理与发现服务,且Peter Kraker等人还利用Figshare,基于Altmetrics的方法,采用“Captures”、“Mentions”、“Social Media”、“Views”以及“Downloads”几个指标对资源使用情况进行了统计分析[13-14]。然而,目前CNKI学术图片库或Figshare对文内视觉资源自身特征计量分析的支持力度有待提升,且相关研究与实践对“表”的关注较少,同时由于文内视觉资源“嵌入”文献,需在采集资源时就对其进行特征标注,才能进一步从资源集合视角进行特征计量分析。因此,本文尝试从复杂度视角切入,独立构建一个文内视觉资源复杂度计量分析框架,并通过对样本期刊的文内视觉资源分析进行案例应用。

3 文内视觉资源复杂度计量分析框架

本文所搭建的文内视觉资源复杂度计量分析框架由4个推进模块构成,如图1,框架侧重回答如下几个问题:①文内视觉资源的复杂度如何判别?②文内视觉资源的复杂度演化情况如何?③文内视觉资源复杂度与相关研究主题之间有何关系?其中,复杂度判别规则是基础,基于判别规则搭建的标注平台是重要支撑,在标注平台上通过实施人工标注形成语料库,进而可实现对文内视觉资源复杂度的演化分析,以及资源复杂度与研究主题之间关系分析。

3.1 复杂度判别规则

视觉复杂度常被定义为刺激物的物理特性,然而视觉复杂度涉及资源的视觉感知,其判别同样受到观者主观评价的影响,视觉复杂度影响着“第一印象”的形成[8],不同个体对复杂度的感知不同。由现有图表的复杂类型可知,很难对图表分门别类进行复杂度分析,因此本文寻求一种更为抽象层次上的分析,将复杂度划分为简单、适中和复杂三个级别。为了减少标注环节的随意性和偏差,使得标注过程相对有章可循,本文遵循“客观与主观相结合”的原则形成相关判别规则,如表1,分别设置了表和图的复杂度判别规则,规则中除了涉及行数、页数、元素、属性与关系(即图中元素间关系)多少的客观判别标准外,借鉴认知负荷理论(Cognitive Load Theory)[15]及相关测评方法[16]中对时间维度的关注,考虑到图表内容越复杂,对其进行识别与理解的时间(即认知载入时间)将越长,将时间因素引入判别规则,酌情增加复杂度。

表1 复杂度判别规则

3.2 标注平台与语料库构建

基于上述复杂度判别规则搭建的文内视觉资源标注平台支持对电子版学术文献的文内视觉资源抽取和特征标注,可以抽取与标注文内视觉资源多个维度特征,本文着重讨论复杂度特征。基于该平台,选择学术文献样本实施标注,即可构建文内视觉资源特征语料库,进而分析文内视觉资源复杂度演化情况;同时可结合对应的学术文献题录数据,从文内视觉资源复杂度与学科研究主题的关系维度展开分析。因此,语料库中的数据集将包括文献题录与原文、图与表及其复杂度特征元数据。

3.3 复杂度计量分析

一方面,通过计量分析可以看出文内视觉资源自身复杂度演化情况;另一方面,复杂度与研究主题关系维度的分析主要基于如下假设,即研究主题支配着图表的使用[3],特定的研究主题影响其图表的视觉表达特征;进一步推论,特定的研究主题会影响其图表的复杂度。而论文关键词是其研究主题的核心体现,从关键词与文内视觉资源复杂度的关系角度进行探索,是可行且有意义的。因此,具体实施分析时,需要将文献题录数据与复杂度特征元数据关联。综上,通过对上述文内视觉资源复杂度特征的计量分析,学科的视觉表达的态势也能在一定程度上得以反映。

4 案例分析

为验证该框架对文内视觉资源的标注与分析效果,本文选择图书情报领域具有典型性与代表性的两栖刊物[17]《中国图书馆学报》2005-2015年间发表的文献进行案例分析。

4.1 分析流程

分析流程分为原始数据采集、数据清理、数据抽取与标注以及数据分析四大环节,如图2,平台搭建以及数据获取与分析工作从2015年11月10日启动至2016年1月20日完成。

图2 分析流程

表2 文内视觉资源复杂度特征元数据片段

原始数据采集环节,从《中国图书馆学报》官方网站采集2005年第1期——2015年第6期原始数据(含题录和PDF格式原文)各1186份;数据清理环节,从1186份原始数据中剔除消息、动态、总目次、征稿启事等非研究型文章,经二次校对,最终确认1086份原始数据进入后续环节;数据抽取与标注环节,利用搭建的标注平台,对1086篇论文人工进行文内图表抽取与复杂度特征元数据标注,表2展示了标注完成的语料库中每篇论文所关联的文内视觉资源复杂度特征元数据片段,其中宽和高以像素为单位。1086篇论文共抽取图表及其复杂度特征元数据各2773个,初步构建文内视觉资源复杂度特征样本语料库。最后,数据分析环节,从文内视觉资源复杂度计量维度,以及复杂度与研究主题关系两个维度进行分析。

4.2 分析结果

(1)资源复杂度特征演化

如表3,本文采用复杂度比率来表示文内视觉资源复杂度特征占比情况,该指标属于“即年指标”,即以当年为单位,相应复杂度特征的图(表)数量与当年用图(表)总量的比值。具体复杂度比率可以细分为简单图(表)率、适中图(表)率和复杂图(表)率。如2015年《中国图书馆学报》用图量共114个,其中简单图量51个,则简单图率为45%;复杂图量23个,则复杂图率为20%。

表3 复杂度比率指标

如图3,2005-2015年间,复杂图的比率有不断增大的趋势,即从4%增长到20%以上,复杂表的总体增长趋势不明显,2013年达到10%。但总体上看,在所有的图与表中,大多数属于简单图表,当然,这是《中国图书馆学报》文内视觉资源的特征演化情况,而整个图书情报学科领域期刊论文的特征演化,还需覆盖更多的数据才能准确揭示。具体复杂图实例如“学术创新的扩散过程研究”中的“图1结构洞理论扩散时序网络”包括了398个节点和2241条弧;复杂表如“美国州公共图书馆员职业认证制度比较研究”一文,全文仅一个表(30行11列),但却因为文字内容较多,跨5个页面,成为样本中典型的复杂表。复杂图表的逐渐增多,一方面与图书情报学科研究对象、方法、数据、结论的复杂度日益增加有关,另一方面也反映了计算机处理技术及可视化软件驱动下,该学科在研究成果视觉表达方面的不断革新。

图3 图与表复杂度表达特征与演化

(2)资源复杂度与研究主题的关系

如前所述,论文是其研究主题的核心体现,可从

与文内视觉资源复杂度的关系角度进行研究探索。为此,本文首先从语料库中获取题录数据与资源复杂度元数据,并从题录数据中提取

,经

合并(如“本体”与“Ontology”合并为“本体”)后,进行复杂度与

共现分析,分析时关注三种复杂度特征中特征值为“复杂”的论文的相关

,并将

对应的该特征图(表)数量按照降序排列,取前20个

,如图4。

与“复杂图”对应的中,大部分

具有明显计量学主题特征(如知识图谱、Citespace、共被引分析、共现分析、信息计量等),由此推知计量学主题的研究偏好运用复杂图进行视觉表达;图书情报学、图书馆学、高效图书馆、图书馆2.0主题的研究成果也较多使用了复杂图;此外,复杂图常常与本体、关联数据、研究前沿、研究热点、可视化、社会网络分析等

共现。与“复杂表”对应的

中,各类图书馆主题,图书馆学情报学类主题,用户研究相关主题,数字不平等与数字鸿沟类主题,社会化搜索类主题,以及评价类主题较多使用了复杂表形式,究其原因,应是上述主题常常利用到大量调研数据,需要通过复杂表的形式对数据加以展示。

图4 复杂图表与研究主题关系

5 结论与展望

文内视觉资源在学术交流与传播中扮演着重要角色,针对目前尚缺乏文内视觉资源复杂度计量分析方面的研究,本文提出一套文内视觉资源复杂度分析框架,在设置相关复杂度判别规则基础上,搭建了文内视觉资源标注平台,并以《中国图书馆学报》为例构建语料库,从复杂度特征演化以及复杂度与研究主题关系两个维度,对其2005-2015年间发表的1086篇研究型论文及其2773个文内视觉资源进行了分析。

该框架是在文内视觉资源复杂度计量分析方面的有益尝试,框架较具通用性,可为学术视觉资源库建设与管理、检索与分析,以及更细粒度的知识服务提供参考。从框架应用案例来看,尽管本研究以《中国图书馆学报》为样本,所揭示的文内视觉资源复杂度特征分析伴生于该刊物,但作为本学科学术期刊的典型代表,该刊文内视觉资源复杂度特征与演化也能够折射出图书情报学科的视觉表达特征。总体来看,计量学主题的研究以及本体、关联数据方面的研究偏好运用复杂图进行视觉表达,可以预见,在图书情报领域不断加强量化与实证研究,以及大数据研究与处理技术不断增强的趋势下,量化研究成果的视觉表达特征将进一步凸显。

综上,本文初步构建了文内视觉资源复杂度计量分析框架,其中复杂度相关判别规则有待进一步细化和完善。在本文基础上,未来研究可以从两方面展开:①丰富文内视觉资源分析体系,进一步完善文内视觉资源特征分析框架;②将分析框架应用至图书情报学科内多种中外文期刊,以便进行比较研究,发现更多文内视觉资源的学科视觉表达规律。

(来稿时间:2016年5月)

1.张静. Figshare平台与CNKI学术图片库比较分析[J].科技与出版,2015(1):63-66

2.Mitchell, W.J.T.. Iconology: image, text, ideology[M]. Chicago: The University of Chicago Press,1986

3.Steiner,E. Visual scientific communication: the use of graphics in contemporary doctoral thesis [D]. Uppsala: Uppsala University,2008

4.CNKI图片库[EB/OL].[2016-01-20]. http://image.cnki.net

5.薛晓芳.知识可视化理论、方法和工具及军事医学应用研究[D].北京:中国人民解放军军事医学科学院博士论文,2014

6.肖明,邱小花,黄界,等.知识图谱工具比较研究[J].图书馆杂志,2013(3):61-69

7.杨思洛,韩瑞珍.国外知识图谱绘制的方法与工具分析[J].图书情报知识,2012(6):101-109

8.潘聪.基于眼动数据的网页美学因素研究[D].上海:上海交通大学硕士论文,2014

9.姜海蛟.基于形状复杂度的运动人体定位研究[D].保定:河北大学硕士论文,2014

10.赵倩,曹家麟,胡越黎.结合高斯多尺度变换和颜色复杂度计算的显著区域检测[J].仪器仪表学报,2012,33(2):405-412

11. Crutzen, R., Kruif, Linda de., de Vries,Nanne K.. You never get a second chance to make a first impression: The effect of visual complexity on intention to use websites[J].Interaction Studies,2012,13(13):469-477

12. Figshare [EB/OL].[2016-01-20]. https://figshare.com

13. Kraker, P., Lex, E., etc. Research data explored II: the anatomy and reception of figshare [EB/OL].[2016-01-25]. http:// arxiv.org/abs/1503.01298

14. Peters,I., Kraker, P.,etc. Research data explored: citations versus altmetrics [EB/OL].[2016-01-25]. http://arxiv.org/ abs/1501.03342

15. Sweller, J.. Cognitive load theory, learning difficulty, and instructional design[J]. Laming and Instruction,1994(4):293-312

16.李金波,许百华.人机交互过程中认知负荷的综合测评方法[J].心理学报,2009,41(1):35-43

17.张斌,贾茜.我国图书情报学的认知结构及其演化[J].中国图书馆学报,2014,40(212):31-47

Bibliometric Analysis Framework and Application Research on the Complexity of Visual Resources in Academic Literature

Hu Rong1,2Tang Zhengui1Zhu Qinghua1
( 1. School of Information Management, Nanjing University; 2. School of Computer & Information Science, Southwest University )

Visual resources in academic literature play an important role in scholarly communication and dissemination. So far, there are few existing studies on the complexity of visual resources in academic literatures with the bibliometrics approach. In this paper, an analytical framework on the complexity of the visual resources in academic literature is constructed. Then a sample journal was taken as an example of using the analytical framework to explore the complexity characteristic evolution and the relationship between the complexity and the research topics. Furthermore, the visual expression of the library and information science discipline is reflected to some extent.

Visual resources in academic literatures Complexity Bibliometric analysis Analytical framework Visual expression

G203

*本文系国家社会科学基金重大项目“面向大数据的数字图书馆移动视觉搜索机制及应用研究”(项目编号:15ZDB126)研究成果之一。

胡蓉,女,南京大学信息管理学院博士研究生,西南大学计算机与信息科学学院讲师;唐振贵,男,南京大学信息管理学院博士研究生;朱庆华,男,南京大学信息管理学院教授、博士生导师。

猜你喜欢
复杂度图表计量
《化学分析计量》2020年第6期目次
计测技术(2020年6期)2020-06-09 03:27:32
一种低复杂度的惯性/GNSS矢量深组合方法
关注日常 计量幸福
特别健康(2018年4期)2018-07-03 00:38:26
计量自动化在线损异常中的应用
消费导刊(2017年24期)2018-01-31 01:28:33
求图上广探树的时间复杂度
双周图表
足球周刊(2016年14期)2016-11-02 10:54:56
双周图表
足球周刊(2016年15期)2016-11-02 10:54:16
双周图表
足球周刊(2016年10期)2016-10-08 18:30:55
图表
世界博览(2016年16期)2016-09-27 18:25:26
某雷达导51 头中心控制软件圈复杂度分析与改进