●葛欣旭,吕 燕,颜 蕴△(.中国农业科学院农业信息研究所,北京 0008;.宁夏图书馆,银川 7500)
网络学术信息资源整合探究
——以国外农业科技社团网站为例
●葛欣旭1,吕燕2,颜蕴1△
(1.中国农业科学院农业信息研究所,北京100081;2.宁夏图书馆,银川750011)
[关键词]资源整合;科技社团;标注分析;用户调研;平台框架
[摘要]针对网络学术信息资源海量增长,科研用户面临“知识爆炸而信息贫乏”的困境,以国外农业科技社团网站为例,进行网络学术信息资源整合探究。在科技社团网站资源价值分析的基础上,提出构建国外农业科技社团资源整合平台。通过对科技社团网站资源内容分析、用户调研分析,设计出资源整合平台框架结构。最后简要指出平台实现中需要注意的问题。
网络信息资源整合是指在网络环境下,采用数字化信息处理和集成整合技术,对多种来源的数字化信息资源有目的地进行重新组合的过程,同时为用户提供统一的检索界面,实现高效传播信息的一种服务方式。[1]网络信息资源整合不是简单的信息合并,而是在保证信息内容完整的前提下,创造性地加工与重组,按照“整合而非混合,整合而非兼并”的原则进行。其中,学术信息资源的整合具有更高的应用价值,进行跨学科领域的信息整合,从深度和广度上都有更大的加工重组空间。此外,从用户需求角度来说,提供整合学术信息检索平台可节省科研用户信息检索时间,提高信息检索的完整性和准确性,对于推动科研的发展具有重要意义。
2.1科技社团的资源价值
在网络学术资源中,专业领域科技社团网站上的学术信息不可忽视,因为科技社团在科研领域有着重要的作用和价值。
(1)科技社团是科技人员基于学术自由、平等交流、互动自主而自愿结合的社会组织,具有跨行业、跨部门、跨区域、跨国界、跨学科等组织网络优势和客观公正、地位超脱、非营利等社团属性优势。[2]
(2)全球非营利出版商同业协会(Association of Learned and Professional Society Publishers, ALPSP)调查显示,截至2007年全世界共有9250种同行评议期刊由科技社团出版社出版,其中的科技社团出版机构一般规模较小,仅在较窄的学科范围内出版几种期刊,但其期刊专业性强,在所属的学科领域中有着重要的地位和价值。[3]
(3)科技社团在创新知识产出、流动和应用等各要素上具有独特的功能,起到了知识交流、创新、推广和全方位的资源整合及多层次的权益维护等作用。[2]
(4)科技社团作为非营利性组织,网站上会发布许多开放性优质学术资源,如期刊、会议、新闻动态、时事通讯等。
(5)科技社团的学术活动是科研人员交流学术思想的重要渠道,科技社团网站提供相关领域内的最新科研动态,相较科研产出,更值得科研人员随时关注。
(6)科技社团刊物是科研人员发表学术论文的重要阵地,网站上随时更新投稿信息及最新焦点,便于科研人员把握论文撰写方向。
由于目前科技社团种类繁多,分布在不同国家和地区,科技社团的网站学术资源比较分散。对于大多数科研人员尤其受语言局限的中国科研用户来说,对在本领域发挥着重要作用的国外科技社团缺乏认知,在检索和查阅国外科技社团信息时存在一定困难,制约了科技社团学术信息的获取与学习。因此,如果能够建立一种有效的资源整合机制,将原本分散、独立
的科技社团网站信息资源通过专门的技术和结构整合在一起,构建统一高效的科技社团信息资源发布服务平台,可以提高科技社团网络学术信息检索和搜集的效率,将对学术研究具有重要的意义和价值。[4]
2.2国外农业科技社团概况分析
目前,国际上科技社团的种类和数量庞大,科技社团学术信息的质量参差不齐,要实现全部整合非常困难,也不符合实际需要,应该按学科、按领域逐步整合。笔者针对中国农业科学院的实际需求情况,以国外农业科技社团网站为例,进行科技社团网络学术信息资源整合探究。为保障资源整合平台的学术价值,对科技社团的筛选非常重要。根据图书馆电子资源建设的需要,笔者对中国农业科学院的科研用户深入研究,经过筛选和过滤,选定美国兽医协会(American Veterinary Medical Association)、美国农学会(American Society of Agronomy)、日本作物科学学会(Crop Science Society of Japan)、国际园艺学协会(International Society for Horticultural Science)等66个国外农业科技社团的门户网站作为学术资源整合目标,这些科技社团在各自的学科领域有着重要地位,在国际学术合作和交流中有着重要影响。同时,它们出版的学术期刊在中国农业科学院的被引频次较高,是农业领域重要的学术信息来源。
从国家分布来看,选定的科技社团分布于美国、英国、加拿大、印度、韩国、日本、捷克和比利时8个国家,分布情况见表1。其中,美国的数量最多,有45个,这是因为美国的科技社团发展和管理都比较成熟、规范,同时,在多个学科领域中美国的研究水平和影响力都居于世界前列。
表1 所选科技社团的国家分布情况
从学科分布来看,这些科技社团主要涉及兽医、畜牧、农学、食品营养学、园艺、林学、植物保护、资源环境、微生物、化学等学科,分布情况见表2。
表2 所选科技社团的学科分布情况
从内容来看,大部分网站内容繁多而复杂,但是科研用户并非关注所有信息,网站栏目设置正是对信息资源的分类。作为辅助,对所选科技社团网站的栏目进行标注分析,统计栏目共有率(同一栏目共有率=包含本栏目的网站数量/网站总数),可以初步界定网站资源整合的基本内容框架(选取标准为:同一栏目信息共有率>40%)。网站栏目的标注和统计结果见表3。
表3 所选科技社团的网站栏目标注分析
根据统计分析结果,网站资源整合的内容基本框架可设定为以下九个方面。
(1)About Us:有关科技社团介绍,包括机构的建立、发展历程、宗旨、目标和关注的学科领域等。(2)Committees/Executive Board:包括科技社团管理委员会的基本人员组成及委员信息等。(3)Publications:提供科技社团出版的期刊、杂志、书籍、会议记录和时事通讯等信息。其中,期刊信息包括期刊的整体介绍、名称、ISSN、出版国、语种、学科、创刊年、出版频率、期刊索引(卷期列表)、期刊相关新闻、订阅须知、作者投稿须知和期刊的开放性等。(4)News(Announcements):新闻、消息、通告等信息。(5)Meetings:科技社团的年会、国际会议等的举行时间、会议主题、参加会议须知等信息,以及往届会议的会议论文、会议记录、奖励信息等。(6)Member Center(Membership):主要包括会员入会的须知、流程、会费、会员利益等信息。(7)Blog(Forum):包括热点话题、学科领域最新观点等。(8)Awards:科技社团对会员的一些奖励信息、评奖办法等。(9)Contacts:包括科技社团的地址、电话、传真、邮箱等联系方式的信息。
为了解农业领域的科研人员和学生对国外农业科技社团的了解以及对其网站上的学术资源的使用情况,同时为资源整合平台整合内容框架的界定提供用户需求依据,使整合结果更符合用户的实际需要,通过网络问卷调查和当面问卷调查两种方式对中国农业科学院的科研人员和学生进行了调研(由于所选国外科技社团的前沿性和针对性,故将调研对象确定为学科领域专家、博士以及二年级以上研究生等较多关注国外科研进展的科研用户),并对回收的60份有效问卷进行了分析。基本调研结果如下。
(1)科研用户研究和关注的学科领域。从问卷的统计分析来看,调查用户研究和关注的学科领域分布比较广泛,基本覆盖了所选科技社团涉及的所有学科,说明选取的科技社团符合实际需要。其中,农学(综合农业)的研究和关注人数最多,占43.33%,其次是生物和兽医,水产学和林学关注人数较少,这与中国农科院的学科分布是相符的。另外,有6.67%的用户关注了5个学科,关注两个以上学科的占56.67%,这说明很大一部分用户要从多个学科领域获取学术信息。
(2)科研用户获取学术信息的渠道。调研发现,在获取学术信息时,使用图书馆网络数据库的人数最多,有83.33%的人会使用这一渠道;其次是Google Scholar,只有16.67%的调查对象会通过科技社团网站获取学术资源。科研人员对科技社团的资源价值认知不够,利用率不高。一方面由于科研人员不了解这些科技社团,另一方面则因为这些科技社团门户网站各自独立,信息比较分散,查询检索比较困难。
(3)用户了解科技社团的渠道和对科技社团作用的评价。调研发现,期刊杂志是科研用户了解科技社团的主要渠道,占比为61.54%;其次是通过学术会议和网上搜索。对于科技社团作用的评价,23.08%的用户认为科技社团信息对自己的工作和学习起到的作用很大;38.46%的用户认为作用较大;只有7.69%的用户认为作用较小,由此可以看出科研用户对科技社团资源价值的认可度较高,科技社团资源在科研工作中有着重要作用。另外,80%的用户对自己研究领域中不了解的科技社团有进一步了解的愿望和需求,可见科研人员对于从科技社团获取学术资源的兴趣比较大,对科技社团资源的价值认识逐步提高。
(4)用户关注科技社团网站的栏目情况。问卷中所列出的9个栏目内容都有用户关注,其中,Publications的被关注度最高,其次是Blog(Forum)、News (Announcements)、Meetings,这几个栏目的信息更新都比较快,时效性强,包含科研领域的前沿动态信息,科研作用比较大,将是资源整合的重点。
(5)构建国外农业科技社团资源整合平台的必要性评价。从调研结果来看,63.33%的用户认为构建国外农业科技社团资源整合平台非常必要;36.67%的用户认为必要,肯定了研究和系统构建的意义和价值。
综上,构建国外农业科技社团资源整合平台,一方面对于科研用户了解国外科技社团可以起到知识导航的作用;另一方面可以提高用户搜集和检索科技社团资源的效率,提高国外科技社团资源的使用率,符合中国农业领域科研用户的实际需求,具有应用价值和探索意义。
4.1资源整合平台目标分析
随着网络信息资源爆炸式增长,通用搜索引擎的局限性越来越明显,科研用户对专业化搜索引擎的需求越来越迫切。同时,对中国科研用户来说,检索外文网站的学术资源时,由于语言障碍,遇到的困难更大,以致忽视或错失了很多优质的网络学术资源信息,迫切需要一个正确引导。论文资源整合的目的是实现对国外农业科技社团网站资源统一检索和利用,并起到科技社团网络资源导航和发现的作用。
4.2资源整合平台功能分析
科研人员在检索信息时主要关心的是检索效率、信息更新速度、信息时效性、方法实现难易程度等。[5]
整合平台的框架结构功能实现上分为三个模块:数据获取、存储模块;数据清洗、整合模块;数据发布、服务模块。
(1)数据获取、存储。数据生成主要通过数据抽取技术实现,即综合运用网络爬虫和数据存储技术。数据存储有两种方式:本地实际存储数据资源和本地存储数据资源索引。如果将需求信息抽取出来存储到本地数据库,那么用户查询信息时可以直接调用本地数据库,检索速度只受本地网速影响,可以提高检索速率。此种方法需要定期抽取信息,以更新数据库。缺点是不能保证用户检索到的是原网站上的最新信息。因此,这种方法适合于更新频率较低的数据资源。如果本地数据库不实际存储资源数据,只存储信息资源索引,用户检索时通过索引实时抽取查询信息呈献给用户,可以保证查询结果始终是最新的,信息时效性较高,适合于更新频繁的信息资源。缺点是检索速度要受到各个科技社团网站网络状况的影响。综合考虑,可以将以上两种存储方式综合运用,将About us、Committees/Executive Board、Member Center(Membership)、Awards、Contacts以及Publications的部分更新频率相对较低的信息抽取出来存储到本地数据库,定期抽取更新,将其他更新频率较高的News(Announce-
ments)、Meetings等信息数据进行描述,存储信息索引。这样,一方面可以减轻本地存储库的负担,另一方面也可以保证用户的检索速率。本地存储的数据还可以用于后期的数据挖掘和知识发现等。
(2)数据清洗、整合。数据抽取后按内容类别存入资源分类存储数据库,形成初始数据库,这些数据需要进一步清洗、整合才能提供给用户使用。数据清洗主要包括资源一致性分析、完整性检验、冗余资源的筛选和排除、资源的规范性等。对清洗后的数据进一步分类标引,形成索引文件。如按照News、Meetings、Publications、Committees/Executive Board、Member Center、Awards、Contacts等内容分类标准,生成索引。
(3)数据发布、服务。清洗、整合后的数据最终存入发布数据库。调用发布库中的数据可以为用户提供科技社团发现导航服务、资源检索服务、动态资源调用服务等。发布库的数据可以用于数据挖掘等其他应用。用户界面设计上,提供科技社团索引目录、索引查询,按内容分类呈现科技社团最新的重要信息,尽量做到内容全面,页面简洁、易用。
4.3资源整合平台框架结构
根据前面的整合平台功能分析,科技社团网站信息资源整合平台的框架如图所示。
图 科技社团网站信息资源整合平台框架
本文提出的整合平台的基本框架尚未完全实现。后续研究中一方面将是实现平台的实际运行,并对平台的扩展性进行重点分析,使平台的使用范围进一步扩大;另一方面将是对平台的性能作进一步分析,不断完善,使平台符合科研用户的实际需求。同时,将平台的应用领域进一步扩展,增加学科范围,争取实现各学科领域重要科技社团网站资源的整合。
对于国外科技社团网站信息的抽取与整合服务可能会涉及资源知识产权和使用权限的问题,因此,平台建设应力图在不影响各科技社团网站运行的情况下进行,对于每项整合的资源都明确标注其来源,使科技社团网络资源导航和发现合理合法地发挥作用。
[参考文献]
[1]张晓娟,张洁丽.我国信息资源整合研究现状分析[J].情报科学,2009,27(1):26-31.
[2]陈宝国.科技社团推动新兴产业发展的问题与对策研究[J].学会,2011(11):14-18.
[3]中国科学技术协会学会学术部.国外科技社团期刊运行机制与发展环境[M].北京:中国科学技术出版社,2007.
[4]何蕾. Web信息资源整合系统的技术研究及实现[J].计算机工程与应用,2004(2):139-172.
[5]罗凯,等.一种信息资源整合优化模型及其性能分析[J].情报杂志,2012(10):152-155.
三大类型图书馆事业
[收稿日期]2014-03-06 [责任编辑]李海燕
[作者简介]葛欣旭(1988-),女,中国农业科学院农业信息研究所情报学专业在读硕士研究生,研究方向:农业信息管理;吕燕(1977-),女,宁夏图书馆助理馆员;颜蕴(1964-),女,中国农业科学院农业信息研究所文献资源发展部主任,研究馆员,硕士生导师,发表论文20余篇,研究方向:文献资源建设。
通讯作者:颜蕴。
[文章编号]1005-8214(2015)01-0059-04
[文献标志码]A
[中图分类号]G250.73