周李梅,刘 勤,麦丽芳,陈 敏
(1. 中国水产科学研究院南海水产研究所 广东广州 510300; 2.中国水产科学研究院东海水产研究所,农业农村部远洋与极地渔业创新重点实验室,上海 200090)
顺应大数据环境下文献信息资源的综合利用趋势,中国水产科学研究院承接的“渔业专业知识服务系统”,对渔业学科领域的专著、科技期刊文献、专利文献、项目信息、学位论文等各项文献情报进行了全面的搜集整理,为进一步提供知识服务打下文献数据基础。学位论文是作者为获得某种学位而撰写的研究报告或科学论文,一般不在刊物上公开发表,只能通过学位授予单位、指定收藏单位和私人途径获得。学位论文与期刊论文、会议论文一样,都是对科研、生产和教学工作具有重要价值的文献情报源。作为“渔业专业知识服务系统”整体文献情报信息展示与利用的重要部分,英文渔业学位论文的搜集是该类型文献分析与利用的基础,因此数据搜集应重点考虑来源的全面性与检索的准确性。
当前,集中获取英文学位论文最便捷、最主要渠道为商用数据库PQDT(ProQuest Dissertations and Theses Global)。PQDT是提供世界上最全面的学位论文服务平台,截至2019年上半年,收录了1743年以来,来自全世界各地超过3 000所大学的5×106篇引文与2.5×106篇全文作品 。PQDT又分为全文库与文摘库,国内机构主要通过中国高等教育文献保障系统(China Academic Library & Information System, CALIS)镜像访问两个数据库,但检索入口不同。从收录范围、收录数量、收录年限、更新速度方面,PQDT文摘库存在明显优势[1],故选定为英文渔业学位论文题录搜集的数据来源。
基于PQDT学位论文数据库,结合信息检索理论综合利用数据库检索功能拟定渔业学位论文检索策略,在力求数据集全面、可靠的情况下,进一步统计分析数据库可下载的字段信息,为当前英文为主的渔业学位论文的总体情况提供说明。本文通过对各个检索字段与功能的综合运用以及对检索字段之间关系的梳理,可为其他学科或研究课题英文学位论文检索提供参考。
PQDT文摘数据库提供了丰富的检索入口,包括简单检索、高级检索、命令行检索等。具体检索字段有:(1)文本字段,包括索引短语/关键词字段(index term/keyword,IF/DISKW)、所有主题和检索字段(all subjects & indexing, SU)、系统标引叙词(subject, EXACT)、主题词字段(subject heading, MAINSUBJECT)、文档标题字段(document title, TI)、文档全文字段(document text, FT)、摘要字段(abstract, AB)、全部文本字段NOFT;(2)作者字段(author, AU);(3)补充文件类型(supplemental file type, SPTYPE);(4)教育机构中的系部字段(department,DEP);(5)参考文献字段(reference,REF);(6)大学/单位相关字段,包括机构字段(university/institution,SCH),位置字段(university/institution location,ULO);(7)导师字段(advisor,ADV);(8)出版物卷期字段(volume/issue, DISVOL);(9)委员会成员字段(committee member, CMT);(10)学位论文/毕业论文编号字段(dissertation/thesis number,DISPUB)。
通过多次检索,反复试验,总结了PQDT文摘库文本字段之间的层级关系为:
NOFT=SU+TI+AB=(CC text+EXACT+IF/DISKW)+TI+AB
(1)
式(1)中,NOFT表示除全文之外的本文字段集合;SU表示所有主题和检索字段,具体包含CC text、EXACT、IF/DISKW三个部分,其中CC text表示PQDT数据库学位论文分类中4位分类字符后的文本内容 。
数据搜集主要通过主题检索与分类检索实现。
主题检索方面,对PQDT文本字段NOFT、SU、MAINSUBJECT、DISKW、AB、TI、CC text等分别进行了检验,并选择最合适的字段组配检索。其中互斥强的文本字段为DISKW,TI与CC text。在实际检索过程中,对3个字段应尽可能同时采用。摘要字段AB造成误检率高,直接舍弃。
分类检索方面,PQDT文摘库并未公示分类字段,但题录信息中存在主题分类4位数字代码具备实际检索功能,检索字段为CC。采用文献数据集逆向统计分析学位论文题录中的classification字段,提取每个4位代码代表的1~4个相近的主题,如0792包含的主题为aquaculture、aquatic sciences、fish production,可直接用于本次相关文献的检索,检索式为CC(0792)。以此类推,其他分类代码同样适用。
此外,部门字段DEP也具有一定的补充效果,可适当采用。本研究通过综合运用主题与分类检索字段,根据实际检索结果求证选用检索字段。
PQDT文摘库包括两个专题专辑,分别为人文和社会科学专辑(PQDT A - Dissertations and Theses A&I: the Humanities and Social Sciences Collection),收录主题领域为文学与语言、社会科学、历史、艺术;科学和工程学专辑(PQDT B - Dissertations and Theses A&I: the Sciences and Engineering Collection),收录主题领域为科学与技术。两个专辑可分别检索,也可合并检索。由于二者收录存在较大差别,合并检索误检率高,因此对科学和工程学专辑与人文和社会科学专辑分别设计了检索策略。
1.2.1 科学和工程学专辑检索策略
根据不同检索字段对本专辑的检索思路与检索过程分段验证,从而决定字段的取舍与组合。
表1 PQDT科学和工程学专辑渔业相关学位论文检索式分段检验Tab.1 Retrieval segmentation test on fisheries-related thesis in PQDT science and engineering collection
表1中检索词包括概括词与物种检索词:(1)概括词即渔业领域主题词,如fishery、aquaculture等;(2)物种类名,即常见鱼类的通俗英文名或拉丁名,如puffer、bream、salmon等。参考中图法列举常见的研究类型或经济价值较高的物种名为检索词。渔业物种类名繁多,不能穷尽,也受制于PQDT检索词上限,因此在物种类名选择上尽量精简。采用逻辑“或”连接物种英文常用名拟定初步检索式,并在检索过程中根据实际检索结果查找数据噪音,添加停用词,采用逻辑“非”去除这类干扰词。此流程在人文和社会科学专辑适用。
PQDT支持合并字段检索,不同字段检索标识符采用逗号隔开,即表示同时检索不同字段并返回所有去重后检索结果。确定科学和工程学专辑检索式综合组配为:TI,DISKW(概括词 OR 类名) OR CC(0792) OR DEP(fish* OR aquaculture),拟定具体检索式为:
TI,DISKW(fishery OR fisheries OR aqu* cult* OR aqu* breed* OR polyculture OR mariculture OR “marine culture” OR “marine resource*” OR fisherman OR seafood OR seaweed OR “sea weed” OR aquaculture OR aquaponic* OR trawl OR crustacean OR shrimp OR molluscan OR oyster OR algae OR “aqua* product” OR trammel net OR bycatch OR by-catch OR “mesh size” OR catch* per unit effort OR IUU OR fish* stock enhanc* OR ((fish* NOT ("fluorescen* in situ hybridization" OR "filter in situ hybridization" OR "FISH analysis" OR selfish OR fishbone OR “fisheye”OR “fish-eye”OR “fish-shaped” OR “fisher”OR “fishers” OR “fishplate”OR “durie-Salmon stag*”)) OR (bream OR darter OR croaker OR porgy OR “sea bream” OR pargo OR sparid OR Snapper OR flounder OR plaice OR “Tinca tinca” OR “tinca-tinca” OR tench OR “Amur ide” OR “black-pacu” OR turbot OR salmon OR trout OR kelt OR puffer* OR fugu OR bonito OR tuna OR carp OR chub OR wrasse OR perch OR bass OR weever OR tilapia OR mackerel OR eel OR Capelin OR hornpout OR “huso huso” OR acipenser OR MEDAKA OR mackerel OR Sardine OR shark OR tongue sole OR grouper OR mullet OR sturgeon OR Silvery pomfret OR halibut OR herring OR Bluefin OR hake OR Oncorhynchus mykiss OR whiting OR crappies OR “sea urchin” OR japonicus OR phytoplankton OR zooplankton OR “sea cucumber” OR lamprey OR burbot OR catfish OR charr OR litopenaeus vannamei OR fingerling OR atlantic cod OR haliotis OR cichlid OR seahorse OR snail OR goby OR cod fish* OR zebrafish OR “lean pacu” OR yellowtail OR otter OR “sea lion” OR whale OR shellfish OR scallop OR abalone OR oyster OR clam OR mussel OR crab OR shrimp OR crustacean OR krill OR lobster OR prawn OR Penaeus monodon OR whelk OR Cephalopod OR octopus OR copepod OR cuttlefish OR nautilus OR squid OR alga& OR seaweed OR spirulina OR "sea mustard" OR undaria OR hijiki OR sargassaceae OR enteromorpha OR eucheuma OR gelidium OR kelp OR laminaria OR seatangle OR laver OR porphyra OR Gracilaria OR saccharina OR Sargassum))) OR CC(0792) OR DEP(fish* OR aquaculture)
截至2018年12月31日,检索得科学和工程学专辑的记录为38 417条。
1.2.2 人文和社会科学专辑检索策略
人文和社会科学专辑采用的策略大致与科学和工程学专辑相同,但由于人文和社会科学专辑更偏向于社会科学、经济学、管理学等科目,采用的检索词偏概括主题词而非物种类名。将检索式分为多段,与科学和工程学专辑类似,采用分类检索与文本检索结合的方法。此外对“0503农业经济”类作了专门检索,与NOFT字段组配筛选渔业相关文献。
合并多个字段,并扩展部分渔业概况词后,得到人文和社会科学专辑渔业学科检索式为:
CC(0792) OR NOFT(algae OR shellfish OR fishery OR fishing OR aquaculture OR aquaponics OR seafood OR “marine resource”) OR SU("fish hatcheries" OR "fishing" OR "algae" OR "commercial fishing" OR "fish stocking" OR "fishing zones" OR "shellfish" OR "seafoods" OR "fish" OR "sport fishing" OR "fisheries" OR "fisheries management" OR "fishing industry" OR "fish production" OR "fishery economics" OR "aquaculture" OR "crustaceans") OR TI((fish* OR “aquatic product” OR seafood OR seaweed OR sea weed OR aquaculture OR shrimp OR molluscan OR oyster OR algae OR IUU) NOT(fisher OR fishbowl OR Fishbein)) OR (CC(0503) AND NOFT(fish*))
截至2018年12月31日,检索得人文和社会科学专辑检索结果3 999条记录。
认定检索效果的一般指标为检准率与检全率,研究中专门进行了抽样测试。
检准率也称查准率、相关率[2],可以表示为:
(2)
本次检索结果的检准率检验主要通过对数据的标引统计体现。项目组对1869—2017年科学和工程学专辑与1888—2017年人文和社会科学专辑的数据,合计36 484条记录进行了机器与人工联合标引,筛出693条完全不相关记录。计算
表2 PQDT人文和社会科学专辑渔业相关学位论文检索式分段检验Tab.2 Retrieval segmentation test on fisheries-related thesis in PQDT humanities and social sciences collection
检准率为:
渔业学科为综合性较强的学科,与海洋学、生物学、环境科学都存在密切的联系,本次检索结果筛选较为宽松。总体而言,本次分辑检索的检准率远超90%。
检全率也称查全率、命中率[2],可以表示为:
(3)
检全率检验一般采用特定数据集进行比对,特定机构发文作为检全率检验是较为常用的方法。ProQuest也于2017年开始收录中国大学学位论文[2],但仍以欧美大学为主,因此以国内大学的收录数据量不具备检全率检验的可行性。
美国部分高校学位论文自建数据库开放题录信息,项目组选取加利福尼亚大学(University of California, UC)渔业学位论文作为检全率检验数据集,通过该校开放存取网站eSholarship 检索获取2014—2018年的渔业学位论文141篇,其中129篇被总数据集涵盖。计算检全率为:
以加利福尼亚大学数据集可以看出,本次检索达到了较高的检全率。
截至2018年12月31日,检索得人文和社会科学专辑3 999条记录,科学和工程学专辑38 417条记录,合并去重,并去掉标引过程中的误检记录,得到40 558条记录,即40 558篇学位论文题录信息,基于该数据集对渔业学位论文总体分布情况进行了分析。
渔业学位论文在PQDT数据库中各年份均有分布,时间跨度较大。从数量上来看,1980—2018年期间,收录的渔业学位论文数量较为集中,渔业学位论文数量达26 142篇,占全部渔业学位论文数量的64%。
2000年来,随着渔业科学研究的深入,渔业学位论文数量均在1 000篇以上。如图1所示,1999—2010年PQDT数据库收录的渔业学位论文数量一直呈上升势态,在2010年全球的渔业学位论文数量达到了1 777篇的峰值;2010年后数量下降。
PQDT的学位论文均有一个或多个学科主题(Subject),每个主题对应一个4位分类代码,4位分类代码对应1~4个学科主题。40 558条渔业学位论文记录对应的主题频次为76 132次,选择篇频次超过1 000的主题分类代码,得出PQDT渔业学位论文主要主题分布情况,如表3所示。可见本次数据集的主要主题为水产养殖、水科学、鱼类生产、环境哲学、有机生物、动物学等,对应的主要分类为0792、0329、0472等。
PQDT数据库中渔业学位论文分布于31个国家/地区,其中美国25 569篇,占总数的63.0%,加拿大6 723篇,占总数的16.6%,渔业领域的北美文献约占总数的80%。其次,英国相关收录为5 598篇,占总数的13.8%。从图2可以看出,中国大陆的PQDT数据库中渔业学位论文数量为1 111篇,占总数的2.7%,爱尔兰、印度、瑞典、葡萄牙、西班牙等数据较为接近,其他22个国家或地区PQDT数据库中渔业学位论文数量为609篇。PQDT渔业学位论文数据源集中在北美与欧洲地区,主要是美国、加拿大、英国等。
表3 PQDT渔业学位论文主要主题分布Tab.3 Main subject classifications of fishery dissertations in PQDT
这里的机构为各类型院校,主要为高校。PQDT数据库中渔业学位论文分布于894所高校,以北美地区与欧洲地区高校为主。发文机构最多的为美国,合计478所,其次为英国177所,中国61所,加拿大56所,为渔业学位论文主要机构来源。机构的地区分布与文献数量地区分布总体较为一致,但加拿大高校在渔业学科的学位论文平均收录量远超其他国家。
PQDT收录渔业学位论文数量最多的十大高校分别为华盛顿大学、密歇根大学、加拿大达尔豪斯大学、英国斯特灵大学等,其发文数量如表4所示。
表4 PQDT收录渔业学位论文数量前十的高校Tab.4 Top10 universities of fishery dissertations in PQDT
部分学位论文为双语,统计所有渔业学位论文语种频次为40 629。英语学位论文为39 003篇,占渔业学位论文总数的96.2%,其次为中文学位论文1 105篇,占总数的2.7%;法语学位论文298篇,占总数的0.7%;西班牙语154篇,占总数的0.4%,其他语种文献极少。
对于PQDT数据库功能的研究,较早的有徐淑慧等[3]对PQDT的检索特点、界面情况进行了评述,白榕[4]、夏立娟和刘雯[5]对该库进行了检索功能分析与评价,二者主要从数据库检索、结果处理特点方面进行了评述,未深入到应用领域。项目组在数据库的功能简介与评述的基础上,实践了PQDT文摘库的各项检索功能,数据源方面对人文和社会科学专辑与科学和工程学专辑分别检索,应用方面创新性采用了部分字段,从而制定了比较完备的英文渔业论文检索策略,实现对渔业学科领域的学位论文题录的搜集。由于检索式的长度限制与对渔业学科的整体把握问题,可能造成少量检索主题的遗漏。此外PQDT收录的文献经常性地补充更新,会出现不同时间使用同一检索式检索得到不同的数据量的情况。ProQuest公司也在不断寻求与世界范围的高校的合作,不排除单次合作收录某一高校历年学位论文数据的情况[6]。
通过检索式设计,获得了PQDT渔业学位论文40 558条题录信息,统计分析了渔业领域学位论文的年度分布、学科、地区、语种分布,提供了英语语言为主的世界范围内渔业学位论文的数量分布概况。不足的是PQDT用户数据输出字段较单一,分析维度较少。后续研究应充分利用PQDT单篇学位论文页面中的词条,可进行页面抓取后,进行多维度综合分析,进一步揭示不同地区、年份、机构研究主题的分布。
本文形成了可操作的基于PQDT文摘库的渔业学位论文检索策略,并在检全率与检准率方面满足渔业专业知识服务系统的文献类资源建设的要求。文中的文本字段关系总结与创新性采用4位字符分类代码进行学科检索的方式,均可用于其他课题研究中,可为学位论文的主题检索策略提供重要参考。