百度学术的数据整合
——基于学术数据库覆盖率的案例研究

2018-03-14 05:46洪道广缪灵敏
现代情报 2018年3期
关键词:全文百度检索

洪道广 缪灵敏

(华东理工大学图书馆,上海 200237)

基于互联网学术数据资源整合的百度学术平台具有数据来源广泛、可以在线免费检索、使用方便等特点,自2014年6月正式推出以来被越来越多的读者使用。学术界也开展了对百度学术的研究与应用讨论,谢奇等对百度学术的功能、检索方法与技巧等方面进行了详细的讨论[1];张英健应用“百度学术搜索”,在期刊编辑中用于校核参考文献、审稿专家的选择及学术热点的发现,取得了良好的效果[2];覃燕梅等对百度学术与其他学术搜索系统的收录数据、检索功能、结果排序、数据挖掘服务、题录引用等功能进行了比较[3-4]。上述研究中,对于百度学术的数据来源及数据整合仅有简单的描述,或只是几个系统的简单结果数比对。本文通过案例对百度学术的数据来源、整合等作具体的分析探讨,尤其对整合的学术数据库覆盖率进行比较,以便使用户对百度学术的资源有更全面的了解,同时供平台数据进行整合建设进一步的改正与完善。

1 研究方法

百度学术搜索结果界面显示的内容包含学术文献的标题、作者、摘要、出处、引用次数及发表的年份,并提供文献在各平台或数据库的来源链接,对于可免费获取的文献提供免费下载标签。通过标题检索比对原始来源学术数据库的覆盖率是通常而有效的研究方法[5-8],本研究通过选用高级检索的题名检索,检索式如表1所示的中文与英文文献检索:

表1 百度学术的检索实例

选择“搜索引擎”作检索词,涉及的学科较广,具有一定的代表性。检索实践中发现,百度学术搜索结果显示的检出数常大于实际可显示的结果数,通常检索结果在500条内发现通过翻页基本上准确完整显示,如按上述中文检索中,显示约9 580多条相关结果,实际只显示到第14页(2017年6月1日检索,搜索设置设定每页显示50条记录)。本研究利用检索界面提供的二次检索,进一步限制年份及文献类型使检索结果数在500条以内,通过复制每页显示的文献记录并格式化处理,再导入数据库进行数据处理及比对。

英文文献实际采用“Search Engine”检索的结果数更多,这里采用复数是为了得到适中的结果数据,方便处理及比较。

目前学术数据库中,中文全文数据库主要有中国知网(简称CNKI)、万方数据资源(简称WF)及维普期刊数据库(简称VIP)等。外文数据库按照Calis引进的西文数据库目录,就有56个(2017年9月28日查询结果)[9],结合华东理工大学特点选用理工类全文数据库如Elsevier、Springer、IEEE、Wiley、Emerald等,同时利用了图书馆购买的SCI&SSCI及EI数据库等检索平台,数据年限自2000-2016年,中文期刊及学位论文数据较多,只选了2010-2016年数据,通过比对百度学术与各个来源数据库的检索结果,分析对应的覆盖数据及整合情况。

2 中文数据结果及分析

2.1 中文期刊的整合

中文期刊数据来源主要集中在中国知网、万方及维普期刊3个平台上的期刊数据。按表1检索条件,分别检索各数据库及百度学术(简称BD)对应该数据库来源的数据,结果分布如表2所示(2017年6月1日查询结果)。

结果表明百度学术对中国知网期刊、万方期刊、维普期刊均有很好的覆盖率,按上述数据对应的覆盖率分别为:98.3%、97.2%、96.4%。

除维普、万方资源、中国知网平台的期刊数据外,还有一些未包含在上述3个平台上的期刊论文,主要为在线科技论文及开放访问的论文。结果如表3。

上述检索出的结果数中,中国科技论文在线平台实际有相应的16条首发在线论文;而OAlib/Jourlib为开放期刊的平台,实际上此类期刊也被表2所列的数据库收录,只是由于其中一些文章题目标引不一致,如部分采用了中英文并列标题,例:“Search Engine Optimization搜索引擎优化初探”,实际出自期刊《计算机系统应用》2010年的文献;华艺线上图书馆(www.airitilibrary.com)集成港台出版的学术论文数据库,一些文献采用繁体的中文,从检索结果看实际上也包含了一些会议论文或其他类型文献。

表2 百度学术整合的主要中文期刊

表3 百度学术整合的其他中文期刊论文

百度学术中有大量标注免费的全文数据如来源于道客巴巴、豆丁网的数据,但去除表2、表3中的来源后,未见来自这些免费网站的独立数据。

2.2 中文学位论文的整合

百度学术的中文学位论文数据共1 026条,来自知网平台、万方数据平台共1 023条(其中438条为知网与万方共有数据),只有3篇论文来自厦门大学学术典藏库(dspace.xmu.edu.cn,可免费获取全文)的学位论文。对应具体的百度学术数据与中国知网、万方数据平台上的学位论文数如表4。

结果表明百度学术的学位论文其对CNKI、万方数据平台的覆盖率分别为92.6%、90.9%。

2.3 中文其他文献

百度学术平台的中文文献除学术期刊、学位论文外还有图书、学术会议、专利及其他类型,相比这些文献的数据量较少,按表1的中文检索(因数据量相比少,年限选择为2000-2016年的结果数),其中图书有219条,其中无来源出处115条,有可链接来源出处的104条;会议论文351条,专利记录287条,其他未明确类型的文献81条,均有相应的出处,见表5的数据(2017年6月1日查询),括号里的数据为百度学术检索的总数及其中前5个数据来源的检出数。

表4 百度学术中文学位论文整合

表5 百度学术中文其他文献的来源

图书数据有219条记录,无来源出处115条,可链接来源出处的有104条,主要来源有书问平台(bookask.com)、超星电子图书等来源的数据。无来源出处的图书只提供了相应作者及出版社信息。如《构建搜索引擎》一书,作者为李刚,宋伟,邱哲,人民邮电出版社于2006年出版等信息。

会议论文共有351条,只来源于万方及中国知网,其中万方数据255条,中国知网140条,而实际在万方及中国知网平台检索的结果数分别为282条和150条,覆盖率分别为90.4%,92%,其中对应2010-2016年的。

专利数据270条,只来源于Google Patents及万方平台,数据不完整,实际在万方平台中可查到694条,而检索中国国家知识产权局平台数据(按公开日期2000-2016)可得894条记录,中国专利覆盖率只有30.2%,因此专利数据收录不完整。

其他类别数据实际是百度学术平台抽取数据时由于格式等不规范所致,从检索结果看主要是期刊论文,也直接来自网络的文章。如表5中来源于chinalibs.net的52条数据中,均属期刊文献,百度学术标引时把期刊名当作者名。

3 英文数据结果及分析

3.1 英文文献的来源分布

英文学术数据来源分布广泛,按表1的英文检索结果分别选择期刊、会议论文、图书、专利、学位论文等类型作统计并对数据来源进行分析。为简化结果处理仅对每条文献数据中的第一个出处作统计。

选择期刊得到2 336条文献,统计第一条出处就有256条结果,其中前10个的结果如下:

表6百度学术英文期刊主要来源

序号数据库(结果数)序号数据库(结果数)1ResearchGate(373)6findarticles.com(88)2知网(297)7CiNii(69)3EBSCO(226)8OALib(68)4ACM(132)9Emerald(66)5Elsevier(102)10questia.com(46)

英文会议、图书的百度学术检出数据分别有632条、247条,统计第一条来源总数前6个的记录数占来源总数分别为90.4%、85.0%,专利共173条主要为美国专利,数据来源只有FreePatentsOnline及Google Patents。

英文会议论文对比SCI平台CPCI数据共326条其中检出数据为248条,覆盖率76.1%;EI中会议论文共537条其中419条检出,覆盖率为78%。

英文学位论文在百度学术中按上述条件检出的结果数只有7条,核查均不是学位论文,外文学位论文全文平台目前可利用的为Proquest(search.proquest.com)平台数据库,国内为镜像站点(如:http://pqdt.calis.edu.cn),可检索到26条结果,百度学术未提供相应的数据出处。另外百度学术基于Proquest数据6条,实际是学位论文,但百度学术的归类属期刊。

3.2 英文文献全文数据库的整合

许多英文期刊全文数据库平台提供免费开放的检索,只是阅读全文数据时加以访问限制,检索一些著名的英文全文学术平台数据与百度学术相应的检索结果(2017年6月15日检索结果),如表8。

表7 百度学术中英文会议论文、图书、专利论文来源

表8 一些外文全文文献平台数据比较

注:*数据库检索时结果中包含了“Search Engine”检索结果,在比对时先去除这部分数据。

对于免费开放的全文数据,如ScienceDirect平台中,14篇为可开放获取的免费全文(Open Access or Open Archive),百度学术在提供对应的免费标记(Elsevier免费下载)。从结果显示百度学术对上述全文数据库平台覆盖率均大于95%。

百度学术提供了SCI、SSCI、EI的核心期刊分类,对比我校购买的相应数据库进行检索并与百度学术查到的数据加以比较:

表9 不同数据库的结果数对比

表9中在SCI、SSCI、EI数据库查询到的相应期刊论文分别为330条、243条、250条,在百度学术总的英文期刊论文中,相应可检索到318条、232条、240条,具有良好的覆盖率分别为95.2%、94.8%、96.7%。

按百度学术平台的SCI、SSCI、EI分类检索的结果,比较对应实际在SCI、SSCI、EI的数据,结果说明百度学术提供对应分类的准确性。结果显示分类准确性较低SCI、SSCI准确率只有85%左右,EI的分类由于部分会议论文作为期刊论文而数据更低只有64.3%。如《Lecture Notes in Computer Science》,有18条数据在百度学术里了当作期刊论文数据实际为会议论文数据在EI中被选用;另外如期刊《Journal of the American Society for Information Science and Technology》,在SCIE、SSCI、EI数据库均有9条数据收录,百度学术平台可以检索到所有数据,但平台没有将其放入SCIE、SSCI分类里,只有2条归入EI分类数据。Information Processing and Management文献有15条记录,百度学术均可以检出,但没有在百度平台的EI分类里。

4 结 论

百度学术平台整合的学术数据包含学术期刊、学位论文、会议论文及专利论文等,检索结果与源数据库的比较看:

1)百度学术平台收集的中文期刊论文数据对维普、万方、CNKI中的中文期刊覆盖率分别高达96.4%、97.2%、98.3%,利用百度学术可以较全面地检出这三个平台的学术期刊论文,同时也可以同步检出其他在线论文如科技在线论文(paper.edu.cn)。

2)中文学位论文、会议论文主要来源自万方、CNKI数据库,百度学术整合的数据覆盖率90%~92%;百度学术中文图书主要来源为书问平台(bookask.com)数据、也有超星电子图书平台等;中文专利数据来源于Google Patents及万方平台数据,集成的中国专利数据不完整。对专利文献,需要读者利用国家知识产权局或欧州专利局等专门平台进一步进行访问。

3)百度学术平台收集的英文期刊论文对比SCI、SSCI、EI数据的覆盖率分别达到95.2%、94.8%、96.7%,对全文数据库Elsevier、Springer、Wiley、ACM、Emerald的数据覆盖率分别为96%、100%、97.8%、95.8%、95.7%。百度对外文核心期刊的论文有很好的收集,也提供SCI、SSCI、EI等的分类,但其分类准确性还需进一步提高,一些核心期刊本身是动态变化的数据,读者在使用时需要在相应的专业数据库里进一步确认。

4)百度学术整合了全文文献的来源,极大方便用户获取文献全文。普通用户利用百度学术可以获取免费的全文数据,而具有全文访问的用户可利用百度学术搜索到全文页面的链接直接获得全文,如我校的校园网用户可直接利用百度学术获取中国知网、万方资源的中文文献及Elsevier、Springer、Wiley、ACM、Emerald等英文全文文献,但一些全文数据库不能直接获取如维普期刊全文、EBSCO全文数据,比较发现在校园网访问这2个数据库时采用的是不同的镜像站点。

5)百度学术整合的一些元数据不规范或有错误。如未将OAlib开放平台期刊采用的中英文并列标题规范化,标引chinalibs.net中期刊文献,把期刊名当作者名等。百度学术检出的其他类别数据实际主要是期刊论文,一些文献实际上是会议论文也被分类在期刊论文,数据的规范化及有效归并处理问题既需要数据整合建设者密切注意及时消除,同时也要求使用者在检索及阅读结果时学会仔细甄别。

[1]谢奇,关晶,杨错.后GoogleScholar时代新的学术利器——百度学术搜索[J].农业图书情报学刊,2015,27(6):110-114.

[2]张英健.“百度学术搜索”在期刊编辑中的应用[J].编辑学报,2015,27(6):536-539.

[3]覃燕梅.百度学术搜索与超星发现系统比较分析及评价[J].现代情报,2016,36(3):48-52,60.

[4]赵功群,王恒.国内三大中文发现系统比较分析及评价[J].图书馆研究,2016,46(6):72-77.

[5]William H.Walters.Google Scholar Coverage of a Multidisciplinary Field[J].Information Processing & Management,2007,43(4):1121-1132.

[6]John J.Meier,Thomas W.Conkling.Google Scholar’s Coverage of the Engineering Literature:An Empirical Study[J].The Journal of Academic Librarianship,2008,34(3):196-201.

[7]洪道广.Google Scholar的数据整合研究[J].现代情报,2010,30 (7):39-41.

[8]Susanne Mikki.Comparing Google Scholar and ISI Web of Science for Earth Sciences[J].Scientometrics,2010,82(2):321-331.

[9]Calis西文数据库导航[EB/OL].http://project.calis.edu.cn/calisnew/calis_index.asp?fid=6&class=6.

猜你喜欢
全文百度检索
全文中文摘要
Robust adaptive UKF based on SVR for inertial based integrated navigation
2019年第4-6期便捷检索目录
全文中文摘要
专利检索中“语义”的表现
百度医生
百度“放卫星”,有没有可能?
构思精巧余味无穷 讽刺鞭挞淋漓尽致——再谈“虚荣”贯穿《项链》全文
国际标准检索
国际标准检索