学科发展热点推荐平台的实施模式研究

2011-05-17 02:49徐敏杨应全陈祖琴
现代情报 2011年1期
关键词:信息采集

徐敏 杨应全 陈祖琴

〔摘 要〕提出一个学科发展热点推荐平台的模型,致力于让许多新进科研人员能够迅速了解到相关学科领域的前沿和研究热点。本文详细阐述了模型系统的逻辑结构和设计思想并以信息采集模块为例,详细说明了信息推送的过程和如何通过爬虫程序在学术期刊网站上获取关键信息。

〔关键词〕学科热点;热点推荐;信息采集

DOI:10.3969/j.issn.1008-0821.20.01.032

〔中图分类号〕G250.73 〔文献标识码〕B 〔文章编号〕1008-0821(20)01-0127-03

Research of Implement Model of Recommended Disciplines Focus Platform

——Take the Function of Information Collection as ExampleXu Min Yang Yingquan Chen Zuqin

(Library,Chongqing University of Science & Technology,Chongqing 401331,China)

〔Abstract〕It proposed the mode of recommended disciplines focus platform which in order to enable new researchers to realize the subjects frontier study focus.The essay elaborated the logic structure and designed thought of system model and with the process of information collection as example to expound the information sending and how to get key messages from academic journals website via crawlers program.

〔Keywords〕disciplines focus;recommended focus;information collection

随着现代科学研究的深入,前沿研究热点越来越难把握,如何整合学术信息资源分类提取前沿热点,实现信息共建共享日益成为科研学术界普遍关注的问题。本文系中国冶金教育学会教育科学研究计划课题“学科发展热点推荐平台的实施模式研究”的成果之一,以冶金领域为例,构架一个为科研学术用户提供高质量、个性化和及时的热点信息服务的学科发展热点推荐平台模型。

1 平台简介

学科发展热点推荐平台指的是针对不同学科,首先收集该学科的核心期刊,以期刊或期刊中的不同版块为单位按其涉及的研究方向进行分类整理,再以每个期刊和期刊栏目下的文章为单位,通过对期刊的影响因子、期刊被引频次、期刊反应速率、期刊平均引文率、论文的自引和被引频次、论文发表周期等进行分析,进行数据挖掘,形成有效的学科热点。举例来说,以维普或万方的期刊全文数据库为数据源,以网页爬虫程序为数据采集工具,后台通过对不同指标赋予不同的权重进行数据评价,然后对结果进行分类汇总,用户通过前台界面进行查询浏览。

由于不同学科甚至同一学科的不同研究领域的发展程度是不同的,比如生物科技类期刊的影响因子一般高于机械类期刊,再就是医学临床类期刊的影响因子一般高于医学内科类期刊,所以我们对于期刊以及论文搜集整理后的第一步是以期刊或期刊中的不同栏目为单位按其涉及的研究方向进行分类整理,将其划分为一个个彼此独立的小单元,这样可以避免期刊论文评价中的强势学科的干扰,再以每个期刊和期刊栏目下的文章为单位,通过事先已经建立的具有不同权重值的指标评价体系表对采集的论文进行评价,提取其中关键信息。但是每个研究领域都有其自身的特点,不可能通过完全固化一种指标评价体系,所以考虑每个学科实力较强的一些研究机构可以制定出适合本学科的指标评价体系并能调整修改,为让结果更加符合用户的需求,用户可以对结果进行评价或提交自己认可的学科热点,从而产生用户主观知识热点。

2 学科发展热点推荐平台模型

学科发展热点推荐平台的相关人员分为平台设计者、平台架构者、数据提供者、数据获取者、终端用户五部分(见图1),其中平台设计者可以是一个或多个成员,他们往往来源于每个学科的核心研究机构,从概念模型到实际架构,从宏观设计到细节布局提出想法,最终形成实施方案,平台架构者利用技术来实现。平台架设成功之后其他成员主要进行数据提供和数据获取,而终端用户主要是热点信息获取的单位、组织和个人,他们可以获取热点并进行评价反馈。整个系统平台中操作权限和优先级别从高到底分别为“平台设计者和架构者>数据提供者和获取者>终端用户”。

20年1月第31卷第1期学科发展热点推荐平台的实施模式研究Jan.,20平台的操作一定是简洁高效的,符合用户使用习惯的,而后台数据的存储和处理过程是用户不可见的。当在用户界面进行信息需求的提交操作之后,通过数据存取接口来对需求进行分析,首先确定用户需求知识所属的学科,可以由一级学科划分至二级学科直至细分到某些特定研究方向,再根据研究方向确定知识点的来源,然后将数据返回至用户界面。由于现代学科的研究往往是多学科交叉,所以当用户在用户界面提交查询之后,通过数据存取接口的分析处理,可能会分别从学科1的成员1和学科3的成员q中提取知识(见图2),越是复杂的热点所涉及的成员就越多。简而言之就是对用户的需求进行分解归类,然后从特定栏目中提取资源提交用户,这些资源都是来源于各个学科的不同成员。以冶金学科为例,北京科技大学的冶金与生态工程学院作为平台中该学科类目的主干力量,起着制定冶金学科指标体系、提供资源、分解任务等方面的作用,然后其他冶金类的专科或本科院校或者个人用户可以通过适量付费的方式获取平台资源。

图2 学科热点推荐平台成员结构图

3 平台主要实现

平台能够为用户很好服务的前提是有一个良好的数据基础,因此如何能够及时、方便、快捷地从互联网上获取海量学术信息的指标信息成为一个关键,这些指标信息指的就是论文的题名、作者、单位、摘要、关键词、参考文献、相似文献、自引和被引频次、发表周期以及所属期刊的影响因子、被引频次、反应速率、平均引文率等,通过以上这些信息能够很好的捕捉出每个学科专业的热点。而这些数据的采集源就是一些大型的学术期刊网,众所周知,百度谷歌等大型搜索引擎都是可以直接索引学术期刊网的论文页面,同样也是获取以上那些关键信息的过程,只要不索引论文的全文和一些保密信息是不会产生版权问题的,因为对其的索引首先是方便用户的信息查询;其次是对学术期刊网的宣传,用户通过搜索引擎找到文章之后进入相应的学术期刊网采用单篇文本付费方式获取资源。本平台数据采集的流程与搜索引擎类似,只采集期刊论文的指标信息,不采集论文全文信息,同样不会产生版权问题,另外一个区别是除了索引信息之外还利用其进行热点推荐,让用户在点开某学科栏目页面之后了解最新的前沿,并能够通过点击热点论文直接跳转至学术资源网站的相应页面查看更多信息或付费下载。

平台的主要实现是依靠后台的信息收集整理和前台的用户推荐。平台前台主要是为了实现信息推送、信息展示和信息搜索这3种功能。前台学科热点服务主要为会员用户、访客用户和特定用户服务。首先是一般性的访客用户,他们只是利用本平台进行信息的浏览,通过平台的用户界面主观性地找寻某些研究领域的热点信息或学术资源,由于是一般性访客,出于知识版权的考虑,往往对其开放的资源很少;而对于在本平台注册的会员用户除了具备一般性访客的所有使用权限之外,平台还会定期利用E-mail和站内邮件等方式为其推送热点信息,同时会员用户也可以定制自己感兴趣的热点栏目,并根据级别开放不同层次的学术资源。而特定用户是指需求不明确,研究领域较复杂的特殊用户,平台在热点推荐的模式上可以既采用邮件式主动推送方式也可采取用户提交需求,专家答疑的方式解决问题(见图3)。而平台后台的实现主要是首先通过爬虫程序对学术网站相关学科的页面进行信息抓取,将所获得的关键信息存储起来,然后由该学科研究的专家成员根据本学科特点进行分析制定出热点评价指标体系,所获取的信息经过指标评价处理之后便形成热点,然后各个成员再根据要求提供自有资源,从而构成一个既有热点推荐也有学术资源共享的平台。本部分以平台后台信息采集为例,通过分析外部学术资源网情况来实现关键信息抓取的过程。以维普的中文科技期刊数据库为例,由于采用类似搜索引擎只抓取期刊论文展示页面的各项关键信息而不涉及其全文信息,所以不会产生版权纠纷等问题。

图3 前台热点服务模式图

3.1 后台信息采集过程

3.1.1 超链接分析

前面所讨论的是各个成员主动性地将自身资源贡献给平台加以整合利用,但是学术网站的资源往往更加丰富,本平台的一个热点指标评价系统就需要通过爬虫程序对互联网上某一领域学术文章的篇名、关键词以及所属期刊等指标进行收集比对分析,统计这些字段中的实义词的绝对词频、相对词频、期刊影响因子等属性来划定哪些为学科热点词汇。通过后台的爬虫程序定期对期刊网站进行页面信息的抓取以实现数据收集的目的,以维普期刊网的一篇名为“高塑性耐热Ni基合金”的文章为例,其页面链接为http:∥www.cqvip.com/qk/95120X/201003/34264684.html,通过对该超链接的分析发现,其中www.cqvip.com为维普期刊网站的一级域名;之后的qk字段为期刊的拼音缩写,即维普的所有期刊页面都存储在该域名下的qk目录中;95120X字段表示本篇论文所属的期刊《兵器材料科学与工程》,即《兵器材料科学与工程》的所有论文的页面都在该目录下;201003字段表示该期刊的发行年月或刊号,即该目录中为2010年3月份的《兵器材料科学与工程》的所有论文页面;最后的34264684.html就是本篇论文的页面。通过以上规律,我们的爬虫程序可以分层级地在指定的期刊页面进行遍历,以《兵器材料科学与工程》期刊为例,首先爬虫程序会在http:∥www.cqvip.com/qk/95120X/页面上获取所有年份以及月份的期刊的目录(见图4),接着再从每期的期刊的页面中进入每篇论文的页面,获取每篇论文的关键信息。

爬虫程序对页面的搜索是一个深度遍历的过程(见图5),首先爬虫对给予超链接的第一层进行遍历,如果没有发现下一层的超链接,则出错,捕捉异常,进行下一个超链接的遍历;若成功则抓取该页面的关键信息并进行存储,然后进入下一层的超链接。以维普期刊网的一个超链接为例,我们指定了《兵器材料科学与工程》这份期刊,爬虫程序会首先进入特定网址http:∥www.cqvip.com/qk/95120X/,本页面代码中

    猜你喜欢
    信息采集
    如何提高卷烟零售市场信息采集的有效性
    浅析卷烟消费者研究分析工作的运用与开展