陈丽君
〔摘要〕E-science环境迫切要求对存在于学校内部各个部门管理系统中孤立的科研数据进行搜集、聚合与可视化。以德克萨斯A&M大学数学系为例,进行基于Viewshare的学术群体的可视化,帮助院系科研人员找到潜在可能的合作者并共同开辟新的研究领域便于创建新的科研竞争优势,为学校人事管理部门的人才引进、科研部门进行科研成果的评价提供指导,为图书馆优化馆藏资源、开展学科服务提供数据支撑。基于Viewshare的学术群体可视化过程包括数据采集、数据规范与清洗、数据导入、数据多维可视化、数据分析和数据导出。
〔关键词〕Viewshare;学术群体;可视化;图书馆;德克萨斯A&M大学;数学系
DOI:10.3969/j.issn.1008-0821.2016.07.029
〔中图分类号〕G250252〔文献标识码〕A〔文章编号〕1008-0821(2016)07-0160-06
图书馆的使命与大学的使命紧密相连,图书馆员应该对大学的科研前景所面临的挑战做出积极的反应。LWendy[1]指出,图书馆应持续关注学术与信息技术的发展变化,尤其信息技术的发展与科学研究相互交织可能带来的新挑战。LRichard E[2]指出,图书馆正在成为新型的复合组织的一部分,E-science环境下科研活动的开放性、共享性和协同性决定了图书馆服务应进行前瞻性延伸,并以扮演不同利益相关者召集人的角色创新性地开展工作。本文以德克萨斯A&M大学数学系为例,探讨如何基于Viewshare实现该大学数学系研究优势、研究成果、研究人员协作关系的可视化和其他研究环境特征的可视化(PhD学位的授予机构及其所在地,虚拟国际规范文档(VIAF)规范记录和作者性别)等等,进而推动德克萨斯A&M大学所有院系教职员工数据的可视化,从而更直观地揭示不同系别教职员工间潜在可能的科研协作关系,帮助他们找到其他院系潜在可能的科研合作者并共同开辟新的研究领域,创建新的科研竞争优势,为学校的人事管理部门的人才引进、科研部门进行科研成果的分析与评价提供指导,为图书馆优化馆藏资源、开展学科服务提供数据支撑。MJessop[3]指出,数据可视化应该被当做一种学术活动,因为它创造知识并被应用于研究各种类型的数据及其之间的多维关联。HJeffrey等[4]指出,Viewshare有助于重要关系分析、特定领域上下文情景分析和因果模式分析。ALauren[5]指出,从许多学科的视角来看,基于Viewshare的可视化工具对进行探索性的科学研究来说十分珍贵,并指出Viewshare有助于反复地探索、比较数据趋势,有助于科学研究从可视化视角产生新的灵感。
1Viewshare平台概述
Viewshare(http:∥viewshare.org/)由美国国会图书馆负责的国家数字信息基础设施与保存项目(NDIIPP)和Zepheira公司合作开发,是一个免费的基于关联数据的馆藏数字资源可视化平台,它允许用户输入不同格式的(结构化的CSV或Excel格式的数字表格、JSON格式的数据、XML MODS文件、基于OAI-PMH的元数据以及ContentDM大型数据)馆藏数字资源数据,产生和提供个性化的交互式可视化用户界面(地图、时间线、标签云、复杂的分面导航),并支持用户将可视化界面嵌入到网页中分享给其他用户。因此,它具有可视化、交互性和共享性的特点。向Viewshare平台输入JSON格式的数据、XML MODS文件、基于OAI-PMH的元数据以及ContentDM大型数据时,所产生的可视化视图会伴随着数据的更新而更新,这些类型的数据适合通过网络服务器的形式导入Viewshare平台,因此,适合对那些经常更新的馆藏数字资源进行可视化,而结构化的CSV或Excel的数据格式较适用于相对封闭的、较少或几乎不进行更新的相对封闭的馆藏数字资源的可视化。该平台的具体使用方法见使用指南(http:∥viewshare.uservoice.com/knowledgebase/articles/77925-10-minute-viewshare-tutorial)。Viewshare已经在Viewshare在CWIHP数字档案馆[6]、密西西比大学档案馆[7]、布鲁克林公共图书馆[8]和加州数字图书馆[9]等等都得到了较好的应用,然而,目前国内外尚无将Viewshare用于学术群体可视化方面的研究。
2德克萨斯A&M大学数学系研究人员数据集的可视化实现过程
21数据采集
德克萨斯A&M大学现有3 800名教职员工、58 809名学生,据《美国新闻与世界报道》报道,该校位居美国公立高校的前25名和公立性工科院校的前10名,它是美国西南部最大的研究型大学,其教职员工的研究经费高达82亿美元。以德克萨斯A&M大学最大的院系之一数学系为例,该院系共有75名终身教授、25名客座教授和29名讲师。该系教职员工数据的采集来源包括学校名录主页(https:∥services.tamu.edu/directory-search/)、数学系名录主页、(http:∥www.math.tamu.edu/directory/faculty.html)教职员工个人主页、数学家谱系项目的链接(http:∥genealogy.math.ndsu.nodak.edu/)、虚拟国际规范文档(VIAF)的链接(http:∥www.viaf.org/)和地理数据库GeoNames(http:∥www.geonames.org/)。采集的数据包括教职员工的姓名及其研究领域,教职员工学位(学士、硕士、博士)授予日期、机构及其地理位置(经度、纬度)信息、聘任日期等等,这些数据被手工输入到电子数据表格中。这些数据类型多样,从静态的数据到动态的关联数据词汇表。采集数据时通过对该系教职员工的研究者与贡献者身份识别码(ORCID)进行核对,发现大部分教职员工都注册了ORCID。
22数据规范与清洗
并非采集的所有数据的格式都适合被Viewshare平台进行自动收割,需要进行规范与清洗。以Catherine Yan老师为例,对采集到的数据按照如下标准和格式进行规范(见表1)。主题元素“College”、“Bachelor granting institution”、“Master granting institution”和“PhD granting institution”依据美国国会图书馆名称规范文件(LC NAF)进行规范,研究领域依据国会图书馆学科主题词表(LCSH)进行规范,主题元素“PhD date”和“Hire date”依据ISO 8601标准进行规范,主题元素“PhD location”转化为经度与纬度数据。表1清晰地展示了“各主题元素”的数据格式。由于数学系所有教职员工的数据数量较大,将按照表1经过初步规范化、标准化的数学系所有教职员工的电子数据表格输入到Viewshare平台之前,有必要进行数据清洗,如对输入的错误数值、错别字,异形同义词或者缩写词等的清洗。本文采用免费开源数据清洗工具OpenRefine(http:∥openrefine.org/)对所有的数据进行快速、高效地清洗。
23数据导入
将数据导入到Viewshare需要首先在该平台上注册用户名。可导入的数据包括结构化的CSV或Excel格式的数字表格、JSON格式的数据、XML MODS文件、基于OAI-PMH的元数据以及ContentDM大型数据等多种格式。被导入的电子数据表格中行和列里面的数据被Viewshare转化为RDF,用户在可拖放的可视化创建工作区可以以不同的方式方便、快捷地看到被导入数据的可视化视图。
24数据多维可视化
Viewshare允许用户添加小工具Widget(基于研究领域的标签云图、研究领域列表、教职员工姓名列表、可对可视化数据进行检索的检索框、机构的Logo、滚动条、检索范围等等)便于对数据集进行更好的可视化检索。基于Viewshare创建的德克萨斯A&M大学数学系数据集的可视化视图见(http:∥viewshare.org/share/1a848a62-d6fa-11e2-8aa1-4040e007d488/)。默认的可视化视图是按照研究领域进行划分的该系教职工的个人数据记录列表,见图1。
在列表视图设置表中,标签被设置为按照研究领域的首字母顺序进行升序排序,镜头设置列表中,题名字段设置为链接到数学系主页教职员工的姓名,教职员工的个人记录包括搜集到除来自OCLC的权威记录编号外的所有个人属性数据。图2的标签是博士学位授予单位,便于以地图的形式显示该系教职工博士学位授予单位的地理位置信息,地理位置为具体的经度/维度数据,在地图中离得较近的机构以带颜色的气球进行区分,地图的缩放级别设置为“自动”,便于看到整个地图的全貌。在地图镜头设置中,题名为教职员工的姓名,被链接到教职员工的个人主页中。
图3是教职员工获取博士学位的时间与被聘任到德克萨斯A&M大学时的时间线视图。每条线都以教职员工的姓名作为标签,并链接到他们的个人信息记录上。上面那段时间线以年为单位,下面那段时间线以10年为单位,并以不同的颜色区分不同的单位。时间线镜头设置列表中,题名为教职员工的姓名,包含一个个人主页的链接。博士画廊视图是按照博士授予单位的首字母顺序进行排序的,其列表镜头设置中包括机构属性图像,图像来自数学系的网站。图像下面的姓名被链接到教职员工个人的虚拟国际规范档(VIAF)中,如果没有个人VIAF,图像下面的姓名被链接到按照研究领域划分的个人记录列表视图中。链接到VIAF的链接被直接链接到OCLC的身份档(WorldCat Identities),国会图书馆名称规范文档(LC NAF)和国际标准名称标识符(ISNI),每个教职员工的VIVF相当于一个RDF记录。目前OCLC的身份档中共有30 000 000个名称,包括个人、小说或电影中的虚拟人物(如哈利波特)、对象(如坦泰尼克号)和机构等,它提供机构或个人的作品及其相关信息、合著者的链接、个人的不同身份信息等等。创建的研究领域视图是按照研究领域的首字母顺序对教职员工进行排序的。题名为教职员工的姓名,并附有连接到他们所在院系主页以显示他们的研究成果的超级链接,大多数研究成果被链接到预印本或者arXiv.org上的相关信息中。
数据的可视化可以更加直观、快捷地揭示隐藏在数据之间有趣的语义关联关系。例如,如果用户在研究领域搜索小插件里输入“group”,检索结果中会显示研究领域与“group”相关的4个教职员工,其中3个人的研究领域是 “Combinatorial Group Theory”,另外一个人的研究领域是“Group Representations”(图4)。
当选择“Combinatorial Group Theory”时,会显示与之相关的不同视图和与该研究领域相关的每个教职员工的个人信息(图5)。图6是研究该领域的每个教职员工的博士学位授予单位的信息地图。
如果用户点击地图上的指针,就可以看到某个选定的教职员工的所有个人信息视图。当点击时间线时,就可以看到某个教职员工从获取博士学位到现在的所有重要的个人经历信息。从图中可以看到,从2000年开始,大多数教职员工每年都有个人聘任经历信息,一直持续到2009年该学校财政缩减时。2010-2011年德克萨斯A&M大学数学系没有新招聘老师,2012年仅招聘了一名新老师。研究领域的饼状视图将德克萨斯A&M大学数学系所有教职工按照研究领域进行划分,并显示了从事每个研究领域的教职员工人数占总教职员工人数的百分比。研究领域饼状视图显示,德克萨斯A&M大学数学系目前最具代表性的研究领域是“Partial Differential Equations”,而“Operator Theory”已经不再是该系目前的研究热点。这对新教职员工的招聘、该系的管理层制定该系的科学研究发展规划、图书馆管理者制定图书馆馆藏资源建设与发展规划和学科馆员开展学科服务来说,都具有较大的参考价值。图6基于特定研究领域的教职员工博士学位授予单位所在地的地图
26数据导出
可视化数据可以从Viewshare中以RDF/XML,JSON和wiki标记语言的形式导出重用。该研究中所有的视图都允许其他用户从Viewshare中以自己所需的格式免费下载。用户也可以基于Viewshare创建HUML视图,并将它嵌入到图书馆网站中,便于馆员更好地开展个性化的学科嵌入式服务。基于研究领域列表视图创建的HTML视图的主要内容包括个人姓名、性别、毕业院校及其地理位置、所在院系链接、性别、个人主页链接、个人照片、研究领域、个人的VIAF等。
3需要注意的问题与结论
(1)要充分保护个人的隐私问题。在搜集教职员工个人数据时,可能牵涉到个人隐私问题,然而有的教职员工不想让其公开,所以在搜集教职员工个人数据时,可以通知到他们个人,并让他们决定哪些信息可以搜集并公开,哪些信息不允许公开。德克萨斯A&M大学学术群体的可视化,可帮助图书馆员、学生、教职员工和其他利益相关者检索教职员工信息时,将所有的教职员工的个人信息作为一个整体进行浏览,并发现某个院系的教职员工参加的其他院系的跨学科的科研项目或科研活动。(2)数据的规范问题不可忽视。在进行可视化之前,需要对教职员工的个人数据进行规范,主要涉及到两个方面。一方面是使用前文所述的免费开源数据清洗工具OpenRefine去掉数据后面尾随空格,处理数据大小写问题,并纠正拼写错误等等;另一方面是用国会图书馆名称规范文档(LC NAF)对有关机构的名称进行规范。(3)要善于利用有关工具辅助数据处理过程。因为在本文的研究中发现并非所有的教职员工博士学位授予单位的地理位置(经度、纬度)信息都可以被添加到Viewshare平台,所以在以后的大型数据可视化研究项目的开始就需要用地理数据库(GeoNames)。(4)倡导研究人员申请注册并使用ORCID。作为非专著性的出版物,在线研究ID有必要链接到教职员工的个人出版物中,这就需要用到ORCID。如果每个教职员工都有ORCID,用Viewshare进行的可视化可能更加完美。
对学术群体进行可视化可以直观地揭示不同部门研究人员间潜在的联系,有助于他们之间的沟通与合作,便于他们找到来自其他学科的潜在的可能的科研合作者,并开辟新的研究领域,创建新的科研竞争优势。正如CLBorgman[10]所述,科学与人文之间的界限正日益变得模糊,这种界限的模糊急需学校进行管理与服务的延伸与重组。E-science环境下科研活动的开放性、共享性和协同性迫切要求对存在于学校内部各个部门管理系统中的孤立的科研数据进行搜集、聚合和可视化,图书馆在这种新的科研环境中应该走在前列,充分发挥自身在信息组织方面(创建控制词表、对采集到的个人数据和机构数据名称按照一定的标准进行规范等等)的优势,积极应对。比较遗憾的是,目前国内还没有开发出像Viewshare这样的免费的基于关联数据的可视化平台。E-science环境下,面临用户日益复杂多变的信息需求,国内图书馆界应该与国内外盟友携手紧跟时代的发展,以扮演不同利益相关者召集人的角色创新性地开展工作,帮助科研人员找到潜在可能的合作者并共同开辟新的研究领域,创建新的科研竞争优势,为学校的人事管理部门的人才引进、科研部门进行科研成果的评价提供指导,为图书馆优化馆藏资源、开展学科服务提供数据支撑,惟有如此,才能享受智慧地球带来的种种便利,实现人类社会的飞跃式发展。
参考文献
[1]Wendy Lougee.The Diffuse Library Revisited:Aligning the Library as Strategic Asset[J].Library Hi Tech,2009, 27(4):610-23.
[2]Richard E.Luce.A New Value Equation Challenge:The Emergence of eResearch and Roles for Research Librar-ies[EB/OL].http:∥www.researchgate.net/publication/263261432ANewANewValueEquationChallengeTheEmergenceofeResearchandRolesforResearchLibraries,2015-05-10.
[3]Jessop,M.Digital visualization as a scholarly activity[J].Literary and Linguistic Computing,2008,23(3):281-293.
[4]Jeffrey Heer,Ben Shneiderman.Interactive Dynamics for VisualAnalysis[J].Communications of the ACM,2012,55(4):45-54.
[5]Lauren Algee,Jefferson Bailey,and Trevor Owens.Viewshare and the Kress Collection:Creating,Sharing,and Rapidly Prototyping Visual Interfaces to Cultural Heritage Collection Data[J].D-Lib Magazine,2012,11(18):3.
[6]Deal,Laura.Visualizing Digital Collections[J].Technical Services Quarterly,2015,32(1):14-34.
[7]How Gloria Uses Viewshare:Exploring and Sharing Community History Through Interface Design[EB/OL].http:∥viewshare.uservoice.com/knowledgebase/articles/238997-phay-user-story,2015-06-30.
[8]The Brooklyn Collections Fulton Street Trade Card Collection and Viewshare[EB/OL].http:∥viewshare.uservoice.com/knowledgebase/articles/239606-the-brooklyn-collection-s-fulton-street-trade-card,2015-06-30.
[9]California Wildfires 2007 Web Archive[EB/OL].http:∥viewshare.uservoice.com/knowledgebase/articles/238378-overview-user-storie.s,2015-06-30.
[10]Borgman,C L.The digital future is now:A call to action for the humanities[J].Digital Humanities Quarterly,2009,3(4).
(本文责任编辑:孙国雷)