LIS学术论文研究方法知识库构建与应用实验

2020-06-10 08:04陈忆金
图书馆论坛 2020年6期
关键词:学术论文知识库分析法

陈忆金

0 引言

科研论文数量迅速增长,如何在庞大的文本集合中快速获得需要的信息是每一位研究人员急需解决的问题。读者对科研论文全文内容的需求与对特定部分内容的需求同时存在。随着知识资源形态的多样化和用户知识需求的精准化,学术文献组织呈现出细粒度和语义化的发展趋势[1-2],帮助用户快速准确定位科学论文中的情报单元,并进行比较分析和战略阅读,就显得尤为重要[3]。

理解学术论文研究方法的组成部分及结构具有重要意义。从语言学角度揭示作者的写作意图、修辞结构等语义特征,分析识别内容组件,有助于实现深层次的知识组织与资源聚合[4]。学术论文研究方法的内容构成结构复杂,规范描述并准确表达论文中的研究方法的语义属性,是实现论文深度语义标引、知识挖掘和知识发现的基础[5-7]。在学术论文知识单元研究[3,8]中,普遍将研究方法作为论文整体结构中的一部分,但没有对研究方法自身的语义功能结构进行理想的表达,在一定程度上限制了学术论文研究方法这一重要情报的自动抽取和知识发现。

本文基于体裁理论,选取引文分析法、田野研究法、共词分析法、实验法、比较分析法和问卷调查法等6种研究方法为研究对象,剖析每种方法的知识单元构成;采用文本分析法,再选择CSSCI图情领域18种期刊,检索使用以上6种研究方法的论文,进行知识单元层次的深度标引,作为知识库构建语料;采用系统设计法,使用python的DjangoRestFramework框架,前端的html,css,Vue框架,mysql数据库开发学术论文研究方法学习系统;采用实验法,招募30位研究生使用系统,根据用户体验,使用可用性评价方法检验知识库的可用性。

1 基于体裁理论的学术论文研究方法知识单元划分与语料准备

1.1 体裁理论

体裁理论是篇章语言学的重要分支,1981年由Swales在分析学术期刊论文导言部分时提出经典的IMRD框架[9]。该理论强调每一种体裁都是参与者基于一个共同的目的而进行的交际事件。领域内作者为了与同行或读者交流,往往运用规范化的篇章结构表达固定的语义功能,弥补了单纯从定量分析语篇的不足,透过文本篇章结构的分布情况挖掘文本的语义功能。随后该理论在科技英语体裁分析中被广泛应用,相关研究针对Swales理论框架及研究方法提出了不少修正意见。语轮是一个由一系列词汇、主题意义和修辞特征所表明的具有统一意义倾向的语篇片段,语步则是为实现语轮的交际功能而划分的更细小的步骤[10]。一个语轮可以包含一个或多个语步。

1.2 学术论文研究方法

学术论文研究方法是指在科学研究、撰写学术论文过程中所使用的研究方法,具体指的是整个研究过程中的思路、程序、策略和方法。读者通过了解研究过程和方法,对研究成果的可靠性和质量有一个初步的判断,同时某些研究结果可能与所采用的研究过程和方法密切相关。不同的研究方法有不同的使用环境,也会有不同的效果,具体在论文中使用哪种研究方法由论文的研究主题以及研究对象决定,且在一篇论文中往往不只使用一种研究方法。

1.3 图书情报学论文中的研究方法知识单元划分

陆伟等[1-2]提出一种研究性论文的结构功能框架以实现对学术文本的理解;王晓光等[3]以科学论文为研究对象,以功能单元理论为基础,提出科学论文功能单元本体的设计方案,用于揭示科学论文正文各部分的语义特征;曹树金等[4]为解决网络信息资源聚合搜索的准确性,以体裁分析为理论基础,构建了细粒度聚合单元的源数据描述框架。本文首先根据Swales[9]提出的IMRD模型,即介绍、方法、结果和讨论4个语轮为实证型论文划分依据;然后根据杨瑞英[11]提出的介绍、理论基础、论证和结论4个语轮为非实证型论文划分依据;再从图书情报学期刊论文中,选择以引文分析法、田野研究法、共词分析法、实验法、比较分析法、问卷调查法等为主要研究方法的文章,结合每种研究方法的具体应用,划分语轮语步,以最小语步作为知识单元。

(1)引文分析法论文知识单元划分。结合邱均平[12]提出的文献计量学中有关引文分析法的介绍,使用引文分析法的文章中与该研究方法相关的内容可以具体划分为7个语轮22个语步。引文分析论文的知识单元划分结果见表1。

(2)田野研究法论文知识单元划分。田野研究包括6个主要步骤:提出研究问题;选择调查点或调查对象;取得进入现场的资格;进入现场并与当地居民建立友好关系;收集和分析资料;撰写研究报告。根据田野调查步骤,可将田野调查法的应用规则总结为7个语轮19个语步。田野研究法的知识单元构成见表2。

(3)共词分析法论文知识单元划分。共词分析过程是共词分析理论研究的出发点,也是将其应用于实证的基准。运用共词分析法进行文献情报的分析研究知识单元可分为4个语轮11个语步,在实际操作上有些步骤是可以合并的或重复使用的。共词分析法的知识单元构成见表3。

表1 引文分析法的知识单元分析

表2 田野调查法的知识单元分析

表3 共词分析法的知识单元分析

(4)实验法论文知识单元划分。实验法是为了发现社会现象之间的因果关系,对这种因果关系作出解释。实验要在特定条件下按照程序进行,需要精心准备后才能实施。根据实验研究的程序,本文将实验法的应用规则总结为5 个语轮23个语步。实验法的知识单元构成见表4。

表4 实验法的知识单元分析

(5)比较分析法论文知识单元划分。本文对比较分析法在图书情报领域中应用规则的构建以语轮和语步为单位,将比较分析法的应用规则总结为3个语轮11个语步,知识单元构成见表5。

表5 比较分析法的知识单元分析

(6)问卷调查法论文知识单元划分。根据调查研究不同阶段中的具体工作内容,并结合图书情报领域学术文章特点,本文将问卷调查法的应用规则总结为6个语轮31个语步。问卷调查法的知识单元构成见表6。

表6 问卷调查法的知识单元分析

1.4 知识库语料

本文选用学术期刊论文,将期刊来源限定为图书情报领域的18种CSSCI核心期刊,使用高级检索功能,以研究方法名称作为检索词,检索位置设置为全文,考虑人工处理样本量的限制,设置了相应的时间范围,分别在CNKI、万方、维普3个数据库中对使用相应研究方法的文章进行检索。对检索结果的筛选标准主要为:是否以该研究方法为主要研究方法,以及使用该研究方法的过程的规范性。最后用作研究方法论文知识库的语料概况见表7。

表7 学术论文知识库语料概况

2 知识库web系统构建流程

知识库的前端基于html5,css3,ES6 与Vue.js开发而成,实现与用户交互的功能,方便后期维护[14]。后端语言选择python开发,其中在web 开发方面有众多成熟框架,如Django,Flask,Tornado,每个框架都能满足不同的开发需求,对快速开发web系统有极大的优势。不同需求会使用不同的数据库,本系统选择mysql作为关系型数据的数据库,且为了方便后端进行数据库设计,使用python 对应Django 框架下的ORM模型设计关系型数据库;知识库用户访问记录等数据用非关系型数据库redis进行存储。

2.1 知识库构建的web系统功能需求

知识库web系统的构建要基于能够帮助用户更便捷地学习和掌握某一论文研究方法的需求。用户在学习某一研究方法时主要包括3个步骤:一是明确学习的研究方法;二是获取研究方法的学习资料;三是学习和实践研究方法。本文主要从第二个步骤考虑系统功能需求。

2.2 数据库模型建设

数据库设计主要包括5个实体:论文实体、研究方法实体、方法语轮实体、方法语轮对应的语步实体、论文对应每个语步抽取的内容实体。整个数据库的设计符合三范式的原则,且根据已有数据对相应的实体属性进行了一定的调整。

(1)数据来源。由于该系统的数据是学术论文研究方法的数据,有较高的准确性要求,因此本系统的数据人工采集之后会再验证准确性。数据包括研究方法的语轮、语步数据,以及研究方法的论文案例对应各语步抽取的内容数据。

(2)概念模型设计。本系统数据库概念模型采用的ER图模型,并使用UML的标准对ER图进行描述,其中通过在线网站processon 提供的UML描述图形进行ER图设计,出于方便,在一对多和多对多的关系设计里用黑色菱形表示多的一方。完整的数据库ER模型见图1(P52)。

3 论文研究方法知识库构建与功能设计

LIS学术论文研究方法知识库的用户交互界面见图2(P52),设计了5个主要功能以满足用户对研究方法的学习需求。

3.1 论文方法介绍

该功能用于展示论文研究方法的知识单元,如图2所示,左边方法区域展示了用于测试的6种方法,用户可以使用该功能有条理地学习各种研究方法,从而达到熟练掌握该方法的目标。

3.2 论文案例

该功能用于展示对应每个方法的论文案例数据,点击每个方法的图标可以查看到知识库里标注使用了该方法的论文案例,且在右边的搜索栏中输入相应的关键字进行搜索可以对展示的论文案例进行筛选,检索字段包括标题、来源期刊、主题、时间等。点击相应的论文链接可以跳转到相应的论文详情页。

3.3 论文搜索功能

该功能主要用于根据论文的属性,包括论文题目、主题、关键词、来源期刊等进行搜索,其中由于初始测试时导入的数据只包括论文标题、来源期刊,因此主要根据论文的期刊来源以及论文的标题作为检索项进行搜索匹配,搜索的结果会显示相应论文的来源期刊、标题以及所使用的论文方法,点击论文标题可以跳转至论文的详情页,该搜索页面与论文案例板块的搜索页面不同点在于论文案例板块的论文是首先根据论文方法进行分类后再对分类后的论文进行搜索,即以学习研究方法为导向进行论文的搜索学习,而论文搜索板块的搜索则无研究方法的限制,搜索范围是整个论文数据库的论文,暂时不支持类似知网的高级搜索。

图1 UML规范的ER图

图2 LIS学术论文研究方法知识库用户界面

3.4 关键词方法预览

该功能可以根据关键词对论文进行搜索,对搜索的结果进行统计,可以根据论文的主题、

关键词等进行搜索从而获得该类主题论文的常用研究方法分布情况,对某主题学术研究领域的研究方法使用情况进行分析,即使用者可以首先根据“关键词方法预览”板块的功能对准备进行研究的主题进行搜索获得常用的该主题领域的研究方法,然后通过“方法介绍”“论文案例”板块的功能对相应的论文研究方法进行学习。

3.5 论文详情呈现

该功能主要用于展示论文的详情页数据(如图3),包括论文使用的研究方法、论文的标题、来源期刊以及论文对应研究方法每个语步抽取的论文内容等,左边的方法栏可以点击每个语步使页面移动到相应的位置,从而使用户能根据需要来回切换,有针对性地对每个语步进行细致的学习。左下角的返回首页按钮可以点击返回到网页首页。

4 学术论文研究方法知识库的可用性评价

本研究招募30位图书情报学专业的硕士研究生作为样本,其中研究生一年级样本8个、二年级样本15个、三年级样本7个。每个被试者首先阅读研究方法知识库的功能介绍以及操作指南,然后使用研究方法知识库的方法介绍、论文案例、论文搜索、关键词-方法预览4种主要功能,并基于其用户体验对系统进行可用性评价。可用性评价基于系统可用性量表(SUS)[15]进行改进,采用五刻度量表进行测量,具体指标如表8所示,其中题1、3、5、7、9 为正面问题,题2、4、6、8、10为负面问题。

图3 论文详情页页面

对每个样本的题项得分进行计算,正面问题转化分值为x-1,负面问题转化分值为5-x,所有题目得分后乘以2.5即得到介于0-100 的分值。根据30 位被试填写问卷结果,统计得分为 S=84.5,该可用性分值大于国际公开资料显示的均值(66.4)[16],说明该知识库的可用性较好。各题项的平均得分分别为4.5、1.8、4.2、1.6、4.4、1.5、4.3、1.6、4.5、1.3。

表8 研究方法知识库可用性评价量表

5 结论

为探索图书情报学领域学术论文中所使用的研究方法的语义功能,为用户提供基于知识单元的细粒度检索服务,本文在分析论文研究方法知识单元结构的基础上,开发设计了学术论文研究方法知识库,为用户提供方法学习、论文案例、论文检索、关键词-方法预览等功能。

首先,基于体裁理论来分析引文分析法、田野研究法、共词分析法、实验法、比较分析法和问卷调查法的知识单元构成。研究结果表明,体裁理论能为分析学术论文研究方法的语义特征提供理论和方法基础。

其次,采用文本分析法,再选择CSSCI图书情报学领域的18种期刊中检索使用6种研究方法的论文,对其进行知识单元层次的深度标引,知识库的语料输入知识库。研究结果表明,基于体裁理论划分的研究方法知识单元具有很好的语义表现能力,为深层次知识单元标引奠定了基础。

再次,采用系统设计法,使用python 的DjangoRestFramework 框架,前端的html,css,Vue框架以及mysql数据库开发具有4种功能的学术论文研究方法知识库。研究结果表明,研究方法的知识单元分析是构建研究方法知识库的重要前提,相较于已有的学术论文检索系统,该知识库既能为用户提供对具体研究方法的全局把握,更能为用户提供具体使用研究方法的论文的细节以及语义检索。

最后,采用实验法,招募30位研究生使用系统,并根据用户体验,对其可用性进行评价。研究结果表明,本研究设计的学术论文研究方法知识库具有很好的可用性,用户体验良好。

总体而言,本研究揭示了论文研究方法使用过程各部分的语义特征,基于知识单元构成而设计的学术论文研究方法知识库能有效帮助用户学习研究方法,为学术论文研究方法内容的深度语义标引和本体开发奠定了基础,也为用户提供细粒度、多维度的论文研究方法内容的检索服务,提供了一种有效的学术论文知识发现与知识挖掘途径,完善了情报学视角下的学术论文研究方法的语义结构与功能理论,对面向知识发现的知识组织研究具有一定的参考意义。

后续研究方向包括:在知识单元构成基础上构建研究方法的语义本体,增加更多的研究方法种类,丰富知识库的功能,以及深入研究用户需求与研究方法知识单元之间的联系,为用户提供更好的交互体验等。

致谢 感谢华南师范大学经济与管理学院本科生林扬宇,研究生田燕飞、武佳佳、叶斌等在知识库构建过程中的辛勤劳动。

猜你喜欢
学术论文知识库分析法
本期主要学术论文英文题目及摘要
学术论文征集启示
异步机传统分析法之困难及其克服
学术论文征集启事
基于DEA分析法的全国公路运输效率分析
汉语近义词辨析知识库构建研究
基于层次分析法的智慧城市得分比较
基于层次分析法的智慧城市得分比较
电化学发光分析法测定糖尿病相关二肽
机构知识库建设的动力研究