薛家秀 欧石燕
摘 要:科学论文篇章结构解析是规范科学论文写作、理解其内容、快速定位和抽取论文中特定信息的前提与基础。文章采用文献调查法和对比分析法,从篇章结构建模、篇章结构自动解析、篇章结构应用三个方面对相关文献进行梳理和总结。研究结果发现当前针对科学论文篇章结构的研究主要集中在生物医学和计算语言学领域,以粗粒度的基于修辞结构的篇章模型为主,自动解析主要采用文本分类和序列标注两大类方法,在自动文摘、基于上下文的引文分析等任务中都有重要的应用。今后研究应扩展到其他领域,并聚焦基于修辞和论证结构的细粒度篇章结构建模,采用深度学习技术实现更精确的篇章结构解析。
关键词:科学论文;篇章结构模型;篇章结构解析
中图分类号:G312 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2019034
Research Progress on Discourse Structure Modelling and Discourse Parsing of Scientific Articles
Abstract Discourse parsing of scientific articles is the premise and basis for standardizing the writing of scientific articles, understanding their content, and quickly locating and extracting specific information from them. This paper analyzes and summarizes related literature from three aspects: discourse structure modeling, discourse parsing and their applications by literature survey and comparative analysis. The results show that the current research focuses on the coarse-grained models of discourse structure in the domains of bio-medicine and computational linguistics. Automatic discourse parsing mainly adopts two kinds of methods: text classification and sequence labeling. Discourse structure modelling and discourse parsing has important applications in many tasks such as automatic summarization and context-based citation analysis. Future research should be extended to other domains, pay more attention to fine-grained discourse structure models based on rhetoric and argumentation structure, and apply deep learning techniques to achieve more accurate discourse parsing.
Key words scientific articles; discourse structure model; discourse structure parsing
1 引言
自1665年第一本學术期刊《英国皇家学会会刊(Philosophical transactions of the Royal Society)》出版以来,学术出版已经有300多年的历史,科学论文已经逐渐发展成为科学研究者进行科学交流的重要载体。传统期刊论文是以线性结构呈现,读者需顺序浏览文章的全部内容才能获取所需信息,随着文献数量的爆炸式增长,这种线性结构难以满足科研人员的信息需求。
篇章修辞结构是指文章的功能结构,其定义文章各部分的顺序和修辞功能,如文章中某段文字的作用是介绍“研究背景”或阐述“研究目的”[1]。当今,随着数字出版的普及,越来越多的科学期刊采用在线出版的方式,但是很多期刊论文并不具有规范的结构。通过对论文的篇章修辞结构进行解析,将整篇文章以结构化的形式呈现出来,一方面有利于读者快速定位所需信息,另一方面便于文中重要信息的提取、集成和重用,此外,对于规范学术论文的写作方式、深入解读科学结论的论证过程也具有重要的意义。
本文首先对科学论文的各种篇章结构模型进行梳理和对比,然后对篇章结构解析的实现方法与技术进行总结,最后对篇章结构解析的应用进行探讨,为进一步研究科学论文的修辞结构和论证结构提供参考。
2 篇章结构模型
早在20世纪末,欧美学者就开始对科学论文篇章结构进行不同维度、不同粒度的探索与解析。本文主要梳理几种较为典型的篇章结构模型,并通过综合比较分析,总结其优缺点。
2.1 IMRaD线性模型
IMRaD模型是在学术界被广泛使用的一种科技论文写作规范组织结构,在实证研究型科学论文中的应用尤为普遍[2]。IMRaD模型主要分为四个部分:介绍(Introduction)、方法(Method)、结果(Result)和(and)讨论(Discussion),该模型的名称正是来自这四部分首字母的缩写。在科学论文写作过程中,有些作者也会在结尾部分加上结论(Conclusion),用于总结研究过程中的新发现和研究结论,这就成为了具有五个部分的IMRDC模型[3]。该模型与IMRaD模型没有本质区别,通常对它们不作区分(IMRaD/IMRDC模型中每部分的具体描述见表1)。
IMRaD模型具有两大特征:一是上下对称性,二是宽度变化性(见图1)。从论述过程来看,“介绍”部分从宏观角度对研究的整体内容进行概括,引入研究主题并介绍背景信息,然后逐渐缩小主题范围,聚焦到对具体研究对象的介绍;而中间的“方法”和“结果”部分则针对具体的研究问题进行论述;研究后的“讨论/结论”部分总结研究结果,又回到宏观角度对研究结果的意义进行拓展。整个流程涉及的主题范围由大变小,然后由小变大,因此也将其称为“酒杯模型”。
IMRaD模型属于平行结构,简单明晰,却并不受大多数读者的欢迎。荷兰奈梅根大学的学者Joy Burrough-boenisch[4]于1999年面向三种不同阅读人群——学者、编辑和同行评审者对该模型进行调查,发现只有编辑在阅读文章时喜欢这种模式,而其他两种类型的受访人员一方面表示不能适应这种行文习惯,另一方面则认为不能快速获得新知识,因此IMRaD模型在海量文献背景下难以适应读者的信息需求。
2.2 模块化模型
模块化模型是将文献内容按照功能划分为不同的模块,代表模型有Harmsze模型和ABCDE模型。
(1)Harmsze模型。2000年,荷兰阿姆斯特丹大学的Harmsze从促进科学交流的角度提出了模块化思想,将实证研究型科学文献划分为六个模块,并采用人工标注的方法在分子动力学领域的科学论文中进行了验证,这六个模块具体包括[5]:
①元数据信息(Meta-Information):支持模块,保证出版物内部的紧密衔接,包括书目信息(bibliographic information)、摘要(abstract)、参考文献(lists of references)、致谢(acknowledgement)、内容映射关系(map of contents)等;②研究现状(Positioning):介绍研究主题的相关研究状况(situation)和亟需解决的核心问题(center problem);③方法(Methods):对研究现状中核心问题解决方案的描述,主要包括实验方法(experimental method)、数值方法(numerical method)和理论方法(theoretical method)三种;④结果(Results):详细呈现实验过程中使用的数据(raw data)和实验获得的数据(treated result);⑤解释说明(Interpretation):对于实验结果的解释;⑥结论(Outcome):主要阐述科学文献的发现(findings)和下一步研究(leads to future research)。
除了上述六个模块,该模型还定义了模块间不同的组织链接(organizational links)和篇章关系(discourse relations)。组织链接以实现快速导航为目的,为不同模块之间提供联系,但并不涉及模块内部的切分,主要有六种关系:层次化关系(hierarchical)、邻近关系(proximity)、范围关系(range-based)、管理关系(administrative)、顺序关系(sequential)、表示关系(representational)[5]。篇章关系则只包括两种:一种是基于交流目的的关系,能够使读者更易于理解科学文献所要表达的观点,提高其接受程度,如论证关系(argumentation relation)用来说明句子X对句子Y是支持态度还是否定态度; 另一种是内容关系(content relations),能够使文献构建出信息流,如解决关系(resolution relation)用来标注句子X是句子Y的一种解决方法[5]。组织链接和篇章关系将各模块之间以及模块内部关联起来,使线性的科学文本形成一个网络,读者能够自由地在不同模块间跳转浏览,获得所需信息。
Harmsze的模块化模型是描述科学论文篇章内部修辞结构和论证结构的最早模型之一,是一种以科学交流为目的的粗粒度科学文献结构表示方法,揭开了篇章修辞结构研究的序幕。虽然其在设计上达到了科学交流的目的,但由于结构过于复杂,在实际中很少被采用[6-7]。
(2)ABCDE模型。ABCDE模型是由荷兰乌特列支大学的Waard和Tel基于修辞块(rhetorical block)理论提出的针对计算机会议论文的篇章结构模型[8]。ABCDE模型将科学出版物分为五类,分别是:标注信息(Annotations)、背景(Background)、贡献(Contribution)、讨论(Discussion)和实体(Entities),并以这五类的首字母命名该模型。
标注信息是科学出版物的元数据描述,采用都柏林核心元素集(Dublin Core,DC)描述,以解决从海量数据中识别特定文献的问题。中间三个部分是科学出版物的主体:背景信息描述当前研究状况和现阶段存在的问题;贡献指作者在研究中所进行的新的尝试,甚至编写的代码;讨论指作者所做工作和已有工作的对比以及未来要进行的研究。实体指从科学出版物的脚注或者参考文献部分识别出的参考文献、人名、网站等。实体信息可被进一步挖掘并转换为RDF三元组结构,包括实体所在的章节、链接类型(如参考文献、人物、项目等)和实体URI标识。该模型并没有定义摘要部分,而是通过从背景、贡献和讨论这三个论文核心部分中抽取出核心句构成结构化摘要。ABCDE模型将模块化思想与语义技术相结合,并通过Latex工具实现语义格式转化。
2.3 基于论证的模型
从科学交流角度来看,科学文献是作者论点及其论证过程的载体,文献传播实际就是作者希望能够通过完整的论证过程来说服读者接受自己的论点,因此依据作者论证过程将科学文献进行切分的模型被称为论证结构模型。代表模型有語用模型、论证分区模型和Mizuta模型。
(1)语用模型。2007年,Waard在ABCDE模型的基础上对论文中的修辞结构和知识元素进行进一步标注,试图呈现科学出版物中所包含的论证(argumentation)结构。为此,针对细胞生物学领域的科学论文提出了一个语用模型,该模型将文本内容划分为如下七个类别[9]:
①事实(Fact)指人们普遍接受的描述性陈述;②研究问题(Problem)描述了已知事实的矛盾之处或者其未知的方面;③研究目标(Research Goal)陈述研究要达到的目的,包含隐形假设和隐性问题;④方法(Methods)指进行实验的具体方法;⑤结果(Result)指实验直接的测量结果;⑥启示(Implications)指根据已知的事实和研究目标进行实验结果的说明;⑦假设(Hypotheses)是没有实验验证情况下进行的解释性说明。
接下来,Waard在此研究基础上,结合Harmsze的模块化思想和ABCDE模型的修辞块理论以及实证统计结果,对模块的粒度进行了优化,定义了篇章结构层次化模型(见图2)[10],从而保证科学论文中的修辞叙事流(rhetorical narrative flow)。
(2)论证分区模型。英国剑桥大学的学者Teufel采用论证分区方法对科学论文的论证结构和修辞结构进行了分析。1999年,Teufel针对计算语言学领域的论文提出了一个标注方案,被称为AZ-I模型[11]。该模型根据论辩中的修辞语步,将科学论文中的信息分为七大类,包括:研究目标(Aim)、背景(Background)、相关研究(Other)、研究起点(Basis)、对比分析(Contrast)、作者研究(Own)、篇章结构描述(Textual),并在计算语言学论文中进行了标注验证。2000年,Teufel通过对AZ-I模型进行细化,推出了AZ-II模型,并在计算语言学和生命科学两个领域的论文中进行了标注验证,以证明该模型的领域无关性[12](AZ-I和AZ-II模型各部分的具体介绍见表2)。
AZ-I模型和AZ-Ⅱ模型都完整地描述了科学论文中的科学论断及其论证过程。相比AZ-I模型,AZ-Ⅱ模型更加详细而具体:①将作者自己的工作进行了更具体的划分,分为研究方法、研究结果、研究结论和研究错误四个子类;②更加细致地将作者自己的工作与他人相关工作进行了对比,分为中立比较、研究空白和矛盾比较三个子类;③通过突出作者所做研究在研究方法的优势,使得对作者研究的论证更具有说服力,使读者更易于接受作者的观点。
(3)Mizuta模型。针对分子生物学领域存在大量实验数据和研究结果但不能快速精确定位这一突出问题,日本国立情报研究所的Mizuta和Collier通过对四种生物学期刊论文的篇章结构进行实证研究分析,在对AZ-I模型进行调整的基础上,提出了自己的浅层嵌套标注模型(见表3),并将其应用于信息抽取任务中,以实现对作者新发现和研究结果的快速定位[13]。
Mizuta模型主要关注作者自己的研究及其新发现,因此将作者研究部分进行了更为细粒度的划分,包括研究方法、研究结果、研究发现、研究影响等。此外,还在AZ-I模型基础上添加了“一致性”和“矛盾之处”两类,用于突出实验数据与研究发现之间的关系。
Mizuta模型中定义的类别在语义上是没有重合的, 但是在标注时,一个较长的复合句可能包含多个类别的信息, 因此在标注过程中允许嵌套标注,但考虑到标注数据的复杂性,只允许嵌套一层,如以一个嵌套标注的复合句为例,该句既属于“作者研究”中的“研究发现(INS)”类,又包含了实验数据和研究发现的“一致性(CNN)”信息(实例见表4)。Mizuta模型的作者利用该模型对随机选取的20篇生物学科学论文进行了手工标注,采用定性与定量相结合的方法,分析不同类别的主要特征,如各类别出现的位置、句子长度、在各节中的分布等,为基于该模型的科学论文自动标注奠定了基础[14-15]。
2.4 本体模型
(1)科学文献核心信息模型。科学文献核心信息(Core Information about Scientific Papers,CISP)模型是由英国威尔士大学的Larisa Soldatova和Maria Liakata[16]于2007提出的,采用本体工程方法对科学研究中的核心概念进行描述的一个本体模型。这里的科学研究泛指采用实验方法进行的各种研究,包括实际进行的调查、计算机执行的程序、理论实验等。CISP模型的描述形式与DC元数据规范十分相似,但不同之处在于:它不仅表示在科学论文中通常所呈现的书目信息,还包括一个完整的科学研究的具体内容。
CISP模型是建立在两个已有本体DOLCE和EXPO基础之上。DOLCE本体是一个顶层本体, EXPO本体则是一个描述“科学实验”具体过程和方法的领域本体。CISP模型的开发者通过对文献进行预标注和专家访谈,在DOLCE和EXPO本体的类中筛选出描述科学研究的八个核心概念(类)并为其定义了子类和属性,从而生成了CISP模型(见表5)。CISP模型中八个核心类的具体描述为:①调查目标(Goal of Investigation):指研究所要达到目标状态,如研究有所发现、方法得到检验、问题被合理论证等;②调查动机(Motivation):指为达到调查目的而实施调查的原因;③调查对象(Object of Investigation):指被调查的主要实体;④研究方法(Research method):指为完成科研任务而实施的科研方法,主要指科学实验方法;⑤实验(Experiment):指对已知变量和未知变量之间因果关系进行调查的步骤或程序;⑥实验观察(Observation):指由实验直接观察得到的结果,目标变量的值的集合;⑦调查结果(Result):指通过对观察结果的解释而得出的一组事实;⑧调查结论(Conclusion):指从观察、结果、假设和事實中推断出来的,以支持或否定一个研究假设的陈述。
为了更细致地描述科学研究,后续开发者在CISP模型基础上添加了假设等三个类别,衍生出了核心科学概念(Core Scientific Concepts,CoreSCs)模型[17]。①假设(Hypothesis):指一种需要被验证的研究领域中已知变量与未知变量之间因果关系的陈述;②模型(Model):指科学研究中使用的模型和研究框架,如公式、逻辑规则等;③背景(Background): 指某一科学领域内被人们普遍接受的或是持中立态度的事实性陈述。
CoreSCs模型采用了一个三层结构:第一层是11个核心科学概念;第二层是将核心概念中的方法(Method)类进一步分为新旧两类,新方法(Method-New)指在当前研究中使用的方法,旧方法(Method-Old)则指在前人研究中使用的方法;第三层是指核心科学概念的标识及与实例的关联,如表示同一方法的句子都会与“方法”类的标识符相关联。
CoreSCs模型与CISP模型没有本质区别,两者都是句子级别的信息语义标注模型,采用本体工程的方法对概念的语义进行明确而细致的描述,采用形式化表示有利于机器的理解和处理。CISP和CoreSCs本体模型都是试图从科学论文中解析科学研究的结构,对描述科学论文的篇章结构和语义提供了新的思路。这两个模型与上一节中提到的基于论证的模型有本质不同,后者是从声称科学论断所有权的角度解析论文中的论证结构。
(2)SALT本体。随着科学文献数量激增,人工进行语义标注的方式越来越难以满足科研工作者的实际需要,因此自动标注变得尤为重要。SALT(Semantically Annotated LaTex)本体提供了一个丰富的语义框架,利用语义元素来丰富科学出版物[18]。基于该语义框架,作者在进行创作时就能对科学文献进行语义标注,使文档由线性结构变为机器可读理解的结构化数据,既保证了标注结果的准确性,又便于文档的集成、管理与重用。
SALT模型采用层次结构,由三个语义层构成:最下层是文档本体(Document Ontology),描述科学文献的物理結构,即出版物(publication)、章节(section)、段落(paragraph)、句子(sentences)等物理单元之间的构成关系等;最上层是修辞本体(Rhetorical Ontology),对科学文献的修辞结构和论证结构进行描述;中间层是标注本体(Annotation Ontology),不仅提供科学出版物的元数据信息,还在文档结构本体和修辞结构本体之间构建语义桥梁。修辞本体是SALT模型中最核心的本体,包括三个部分:修辞结构、论证结构和修辞关系。修辞结构是在段落层面将出版物中的信息根据其功能和角色划分至不同的修辞块,是在ABCDE模型基础上进行改进而得。一方面将ABCDE模型中原来的Annotation类改为Abstract类, 用于概括地表示科学出版物的主要内容;另一方面添加了动机(Motivation)、情境(Scenario)和评价(Evaluation)三个类别,提供一个粗粒度且易于理解的修辞结构模型。修辞关系来源于修辞结构理论(Rhetorical Structure Theory)中定义的近30种修辞关系,如对照关系(Contrast)、条件关系(Condition)等,用来表示科学论断与解释说明之间的特定关系。修辞本体的最后一部分是论证结构,但在该模型中没有进行详细定义。
(3)修辞块本体。修辞块本体(Ontology Of Rhetorical Blocks,ORB)是W3C(World Wide Web)推出的标准化科学文献标识语言,是对科学出版物粗粒度修辞结构的形式化表示[19]。
ORB本体首先将科学出版物篇章粗略地分为头部(Header)、主体(Body)和尾部(Tail)三部分。针对主体部分,进一步分为引言(Introduction)、方法(Methods)、结果(Results)和讨论(Discussion)四个子类;针对尾部部分,进一步分为致谢(Acknowledgements)和参考文献(References)两个子类(ORB本体结构见表6)。总体来说,ORB本体本身对科学出版物只提供了一种简单、粗粒度的修辞结构描述,但是ORB允许利用其它本体或者元数据规范对上述粗粒度的描述进行拓展,提供更加丰富的语义信息。如针对头部(即Header类),可采用DC、BIBO、PRISM本体中定义的元素对其进行更加细粒度的描述。
ORB本体融合了已有科学篇章修辞结构模型的优势,不仅为不同学科领域的科学出版物创建了一个通用的粗粒度修辞结构,又为细粒度理解文档语义内容和文档出版提供了契机。
SALT和ORB本体均为领域通用型本体,但是SALT本体不能针对科学文献各个部分的属性进行深入分析,而ORB本体虽然也属于粗粒度修辞描述,但其扩展部分则恰好弥补了这一缺点,通过相关本体进行细化既能够体现领域特征又能够更加完整地描述语义。
2.5 篇章结构模型对比分析
针对上述篇章结构模型,我们从研究粒度、标注级别、是否包含篇章元素间关系、构建目的和适用领域五个方面对它们进行总结和对比(见表7)。最初的模块化篇章结构模型,是从科学交流角度出发,为了帮助读者快速定位科学论文中的特定信息(如作者的研究结果), 将线性的科学文本切分成不同的功能模块,使读者可根据自己的信息需求快速跳转到相应模块进行阅读。接下来,研究者们聚集于科学论文中的论证结构,依据作者的论证过程对科学文本进行切分,衍生出基于论证的篇章结构模型。自本世纪以来,随着本体的出现和发展,采用本体模型对科学论文的篇章结构进行建模成为一种趋势,因此出现了基于本体的篇章结构模型,能够对篇章结构中的模块以及模块间相互关系进行语义化描述。总体而言,篇章结构模型逐渐由粗粒度模块化模型逐渐向细粒度语义模型方向发展,越来越关注科学论文中文本片段间的修辞关系和论证关系,试图更加深入地对科学论文进行结构化表示,有利于科学论文内容的理解和重要信息的抽取。
3 篇章结构解析的实现方法与技术
篇章结构模型的构建为篇章结构解析提供了理论基础。许多学者基于篇章结构模型开展了一系列实践探索。早期阶段的研究,通过邀请领域专家对科学论文的结构进行人工标注,从而发现不同功能模块在科学论文中的分布情况[10,12]。鉴于手工标注的文献数量很少,时间代价和人力代价却很大,越来越难以满足科研需求,因此许多学者开始进行篇章结构自动解析的探索。
科学文献篇章结构自动解析实际上就是要识别文献的结构功能,即给定一个文本片段(句子、段落或章节)判断其属于哪个功能类别。在已有研究中使用的篇章结构自动解析方法大致可分为两类:一类是把篇章结构识别问题转换为文本分类问题,采用文本分类算法识别文本片段属于哪个功能类别;另一类是把篇章结构识别问题转化为序列标注问题,因为各功能类别在文档中的位置具有一定的规律性,如“研究目标”必定出现在“研究方法”之前, 因此可根据各类别在文档中出现的顺序来识别文本片段所属的类。
3.1 基于文本分类的篇章结构识别
采用文本分类算法进行篇章结构识别通常是观察不同特征在分类过程中起到的作用,探究不同特征与分类性能间的关系。使用的文本分类算法可分为三类:有监督学习、无监督学习和半监督学习。
科学文本的篇章结构分类不同于传统的基于主题的文本分类。在传统的主题分类任务中,大都以基于内容的主题词为特征进行类别判断,而篇章结构分类是要判断文本片段所属的功能类别,过多的内容特征反而会引入噪音,影响分类效果。通过对相关文献进行梳理后我们发现,在已有的篇章结构分类研究中所使用的分类特征可归为三类:
(1)内容特征。内容特征主要包括N-gram(一元词、二元词、句子中的前若干个词等)、章节高频词、不同功能类别中的线索词等[20-22]。如东京大学信息科学与技术研究所的Hirohata等人在语料中提取出一元词和二元词作为特征,然后计算这些特征与不同功能类别之间的共现强度(以X2来体现),反映出不同内容的单词能够体现不同的功能类别[20]。Dasigi等[21]通过可视化的方式展现了不同内容特征在功能类别识别时所起作用的大小,其中谓语部分(即动词)的作用普遍较大。
(2)位置特征。由于學术论文具有连贯性,篇章结构中的各部分往往具有一些固定的位置,如“引言”往往出现在文章最开始的部分,“结论”则常出现在文章的结尾部分,因此位置特征也是预测篇章结构的一个重要因素。目前在已有研究中使用的位置特征主要包括:文本片段所处的章节、所在章节的绝对位置、所在章节的相对位置、近邻特征(指当前待分类文本周围文本的所属功能类别)等[22-24]。位置特征反映的是不同功能类别处于一个“序列”状态之中,给类别识别提供了一个上下文环境,但是位置特征在实际应用中的效果却具有两面性。Mullen等[22]对文本片段所处位置和所在章节两个特征在篇章结构分类中的作用进行了对比,发现后者的作用要大于前者,两者一起使用时分类效果更好。但是,刘霞在研究中却得出了相反的结论,其发现使用位置特征的识别效果要差于不使用位置特征的效果,这可能是因为不同的特征提取方式和表示方式会带来不同的效果[23]。
(3)语言特征。语言特征主要包括引用、不同功能类别对应的动词线索词、动词类别、动词的曲折变化、词性、句法关系、主谓搭配、元话语特征(meta-discourse)、显性评价词、连接词等。其中,动词的曲折变化是指动词的时态、语态和情态变化;元话语特征是指在文本中组织篇章、表达作者写作意图、吸引读者注意力的一类特定表达[24-27]。Waard等在线邀请标注人员对各功能类别中动词的时态进行手工标注,发现各类别中使用的动词时态具有十分显著的区别,如现在式在“事实”部分中出现最多,过去式则在“结果”中出现最多,情态动词在“假设”中出现最多[24]。Cox等在章节功能识别任务中发现时态特征能够在该任务中起到十分显著的作用[25]。
采用分类方法识别篇章结构常用的算法包括朴素贝叶斯、支持向量机(SVM)、logistic回归、决策树和随机森林等。Teuful和Monens[26]使用AZ模型对训练语料和测试语料进行人工标注,然后提取句子位置、句子长度、词法特征、近邻特征和元话语特征等15种特征,采用朴素贝叶斯算法进行分类实验,达到了90%以上的分类精确率;Guo等[27]使用近邻特征、位置特征、N-gram、动词及类别特征、词性、语法关系特征以及时态和语态特征,采用支持向量机算法进行分类实验,获得了良好的分类效果。此外,他们还发现N-gram和动词这两类特征对所有类别的预测效果都很好,而其他一些特征只在识别某些功能类别时具有较好效果,如时态特征只对于识别“结果”和“方法”两个类别效果较好。Cox等[25]采用logistic回归、决策树和随机森林三种分类算法进行分类对比实验,并尝试解决篇章结构分类中的类别不平衡问题。实验发现,即使使用了均衡数据集分类性能也没有显著提升,动词时态是预测功能类别的一个非常重要的特征。
有监督的分类算法虽然能够取得良好的分类效果,但需要耗费大量的人工精力标注训练语料,因此许多研究者开始探索采用无监督学习和半监督学习方法进行篇章结构解析。Kiela等[28]使用N-gram、位置特征、动词及动词类别等特征,使用球面K-均值(Spherical k-means)聚类、基于最大期望优化的高斯混合模型(Exception Maximization-Gaussian Mixture Model,EM-GMM)和多级加权图聚类(Multilevel-Weighted Graph Clustering)这三种无监督学习算法进行篇章结构解析实验,发现多级加权图聚类算法效果最好,其F值达到70%。Varga等[29]基于论证区域的思想,在LDA主题模型基础上,提出了zoneLDA模型及其拓展模型zoneLDAb用于篇章结构识别。zoneLDA模型的原理是:假设句子中的单词服从主题的狄利克雷分布,在这一前提下,每一个句子都会有一个对应的潜在“主题”,如果每个主题对应不同的论证分区,则对含有相同词汇的句子聚类,可实现论证区域的识别。zoneLDAb模型则是zoneLDA模型的拓展,在zoneLDA模型基础上,通过设置变量对跨类别的通用词汇和针对某一类别的特定词汇进行区分,进行论证区域的识别。通过在科学和技术两个领域的语料上进行对比实验发现,在科学领域zoneLDA和zoneLDAb两个模型与LDA模型的F值差别不大,但在技术领域这两个模型的F值要远高于LDA模型,其中zoneLDA模型的F值又要好于zoneLDAb模型。
半监督学习介于监督学习与非监督学习之间,其所使用的语料往往只含有少量标注好的数据,需利用少量的标注好的数据进行分类器的训练。Guo等[30]利用位置特征、N-gram特征、动词及动词类别、词性等特征,采用主动学习(active learning)和自训练(self-training)相结合的方式从少量已标注数据开始进行分类器迭代训练,该研究采用10%标注数据进行实验,结果表明采用半监督学习的分类器性能要优于有监督学习的分类器,最终能够达到80%以上的精确率。主动学习是在每轮训练中由机器自动选择出一部分未标注数据(通常是分类器置信度较低的那部分数据)由标注人员进行标注后加入到训练集中,而自训练则是在每轮迭代中机器自动选择出分类器置信度较高的新标注数据加入到训练集中,通过不断迭代地训练并测试分类器直到全部数据标注完成。两种方法的区别是自训练是依靠少数已标注数据训练出来的分类器来标注数据,然后再加入到训练集中迭代训练模型,而主动学习是依靠人来选择,选择出置信度低的数据进行标注,将标注好的数据放入到训练集中训练数据。
3.2 基于序列标注的篇章结构识别
基于文本分类的篇章结构识别,其前提是将篇章结构中的不同部分看作是相互独立、互不干扰的独立个体。但是据我们的观察可以发现,篇章结构中存在一定的序列性,如“结果”部分往往会出现在“研究方法”后面,而很少出现在“背景介绍”之后。因此许多研究者将篇章结构识别问题转化为序列标注问题,并进行了一系列探索,常用的算法有隐马尔科夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional Random Fields,CRF)等。
Lin等[31]通过利用语言模型训练的二元词组合作为特征,使用隐马尔科夫模型(HMM)进行篇章结构标注,获得了较好的识别结果,整体识别正确率约为86%,该研究又在HMM模型加入了显性判别分析(Linear Discriminant Analysis,LDA)方法,将数据投影到低维度,使得同类别的数据能够尽可能靠近,不同类别的数据能够尽可能远离,研究证明,相比只使用HMM模型的方法,使用HMM+LDA的识别效果在总体上有了3%的提升,其中“结论”部分的识别准确率更是高达96%。Hirohata等[20]选用位置、近邻等特征,采用分类算法SVM和序列标注算法CRF进行了篇章结构自动识别对比实验,发现CRF的性能要优于SVM算法。陆伟等[1]使用自建的章节名称词表直接根据一些章节的标题(section heading)确定其功能类别,然后使用标题的位置特征、标题中的前两个词、整个标题以及与已经确定了类别的标题间的距离四个特征,采用CRF模型识别每个章节的功能类别,最终实验结果的F值在91%以上。
近年来,随着深度学习的不断发展,也有学者将该技术应用到篇章结构识别中来。Dasigi等[22]基于长短期记忆网络(Long Short Term Memory,LSTM),通过使用遗忘门、输入门和输出门来克服卷积神经网络无法解决长期依赖的缺陷,是序列化标注的一种新的解决方式,同时作者还引入了注意力机制(Attention Mechanism)使得模型在训练过程中能够更加注意关键特征,获得了75%的准确率。王东波等[32]针对LSTM不能考虑未来上下文这一局限,使用双向LSTM(Bidirectional LSTM,Bi-LSTM)从给定文本片段的开头和末尾分别学习有用信息,但该方法的准确率只有34.94%,明显低于作者使用的条件随机场和支持向量机两种方法,究其原因可能是实验使用的数据量较小,神经网络的参数没有得到充分训练。
4 篇章结构解析的应用
在信息爆炸时代,文献量的激增使得读者越来越希望能够快速理解文献且定位所需信息,而篇章结构解析能够为检索、定位、组织科学文献中的知识提供关键的位置信息,是进行深层次语义理解的关键步骤,在许多自然语言处理任务中得到了广泛应用。
篇章结构最早的应用是在科学论文阅读中, Harmsze的模块化篇章结构就是针对这一目的进行设计的。通过将线性的科学论文进行模块化分解,可以改变科研工作者的阅读模式,使其从传统的线性阅读转化为面向不同阅读目的的跳跃式阅读,从而提高阅读效率。其次,篇章结构解析在自动文摘中具有非常广泛的应用。Teuful和Monens[26]认为位于不同篇章结构部分的句子的价值是不一样的,因此首先識别出篇章结构中比较重要的部分,然后在其中选择重要的句子生成论文摘要。近年来,在基于上下文的引文分析中也注意到了篇章结构对于该任务的重要作用。据Ding等[33]的调查,“文献综述”与“引言”两部分中的引文频率远远高于论文中的其他部分。因此,在引文分析任务中加入篇章结构这一因素,能够确定被引内容在施引文献中的引用位置,通过为不同位置赋以不同的权重,能够更精确地评价引文的重要性。Zhu等[34]在引文分析中加入章节功能这一因素,充分考虑被引内容在不同章节功能间的分布情况,进而提出了一种更为全面的引文分析方法。
篇章结构解析也是分析科学论文论辩结构的基础。论辩挖掘是文本挖掘领域的一个新兴研究方向,重点关注文本中的论辩过程和结构。科学文本作为一种论辩文本,是论辩挖掘的重点研究对象。通过对科学论文中的研究背景、研究方法、研究数据、研究结论等各部分进行识别,能够为研究结论的得出提供逻辑支持。此外,利用篇章结构信息来跟踪科学概念和科学实体在科学论文中出现位置的变化,可以检测科学知识在传播中的变化,深入了解知识发展历程。如以前经常出现在“背景”部分的一个概念现在经常在“方法”部分出现,说明该概念已经从理论阶段逐渐发展到了应用阶段。
5 结语
篇章结构解析是定位科学论文中的重要信息、理解其内容的重要步骤。在本文中,我们对科学论文篇章结构建模和篇章结构解析的相关文献进行了梳理和总结。通过研究发现,篇章结构解析的研究已逐渐从理论研究阶段逐渐发展到应用研究阶段,但是仍然存在以下不足:①研究主要集中在生物医学和计算语言学领域,其他领域涉及到的很少,缺乏跨领域、通用的篇章结构模型;②当前的篇章结构解析主要是对粗粒度篇章结构的识别,针对全文的细粒度篇章结构识别研究较少;③篇章结构解析以修辞结构为主,较少涉及论证结构。
針对上述不足,未来针对科学论文篇章结构的研究,首要任务是对更多领域的科学论文进行深入分析与标注,完善论证结构,并与修辞结构相互补充,构建更加细粒度的、全面的篇章结构模型,同时也要注意提高模型的灵活性与可拓展性。在自动解析方面,要充分借鉴和利用自然语言处理中的新技术,尤其是深度学习技术,以提高篇章结构识别的精确度。最后,应促进篇章结构解析成果的应用,将其应用到科学论文引文分析、自动摘要、语义出版、信息抽取等更多任务当中,提高对科学文献内容的理解,促进知识发现和知识重用。
参考文献:
[1] 陆伟,黄永,程齐凯.学术文本的结构功能识别——功能框架及基于章节标题的识别[J].情报学报,2014,33(9):979-985.
[2] IMRAD[EB/OL].[2018-11-25].https://en.wikipedia.org/wiki/IMRAD.
[3] GLASMANDEAL H.Science Research Writing for Non-Native Speakers of English[M].Imperial College Press,2010.
[4] BURROUGH-BOENISCH J.International reading strategies for IMRD articles[J].Written Communication,1999,16(3):296-316.
[5] HARMSZE F A P.A modular structure for scientific articles in an electronic environment[D].Amsterdam:University of Amsterdam,2000.
[6] SHUM S B,CLARK T,GROZA T,et al.Scientific Discourse on the Semantic Web:A Survey of Models and Enabling Technologies[DB/OL].[2018-11-26].https://www.researchgate.net/profile/Agnes_Sandor/publication/268422724_Scientific_Discourse_on_the_Semantic_Web_A_Survey_of_Models_and_Enabling_Technologies/links/5472edf20cf2d67fc035d29c/Scientific-Discourse-on-the-Semantic-Web-A-Survey-of-Models-and-Enabling-Technologies.pdf.
[7] GROZA T,HANDSCHUH S,CLARK T,et al.A short survey of discourse representation models[DB/OL].[2018-11-26].https://oro.open.ac.uk/18565/1/DiscRep-ISWC-SWASD2009.pdf.
[8] WAARD A D,TEL G.The ABCDE Format Enabling Semantic Conference Proceedings[C].The Workshop on Semwiki.DBLP,2006.
[9] WAARD A D.A pragmatic structure for research articles[C].International Conference on Pragmatic Web,Icpw 2007,Tilburg,the Netherlands,October.DBLP,2007:83-89.
[10] WAARD A D,KIRCZ J.Modeling scientific research articles-shifting perspectives and persistent issues[C].Proc.ELPUB2008 Conference on Electronic Publishing,2008:234-245.
[11] TEUFEL S,CARLETTA J,MOENS M.An annotation scheme for discourse-level argumentation in research articles[C].Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics.Association for Computational Linguistics,1999:110-117.
[12] TEUFEL S,SIDDHARTHAN A,BATCHELOR C.Towards discipline-independent argumentative zoning:evidence from chemistry and computational linguistics[C].Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing:Volume 3-Volume 3.Association for Computational Linguistics,2009:1493-1502.
[13] MIZUTA Y,COLLIER N.An Annotation Scheme for a Rhetorical Analysis of Biology Articles[C].LREC,2004:1737-1740.
[14] MIZUTA Y,COLLIER N.Zone identification in biology articles as a basis for information extraction[C].Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications.Association for Computational Linguistics,2004:29-35.
[15] MIZUTA Y,KORHONEN A,MULLEN T,et al.Zone analysis in biology articles as a basis for information extraction[J].International journal of medical informatics,2006,75(6):468-487.
[16] SOLDATOVA L,LIAKATA M.An ontology methodology and cisp-the proposed core information about scientific papers [J].JISC Project Report,2007.
[17] LIAKATA M,TEUFEL S,SIDDHARTHAN A,et al.Corpora for the Conceptualisation and Zoning of Scientific Papers[C].LREC,2010.
[18] GROZA T,HANDSCHUH S,M?LLER K,et al.SALT-Semantically Annotated LATEX\LaTeX for Scientific Publications [J].The Semantic Web:Research and Applications,2007:518-532.
[19] ORB[EB/OL].[2018-11-25].https://www.w3.org/TR/hcls-orb/.
[20] HIROHATA K,OKAZAKI N,ANANIADOU S,et al.Identifying sections in scientific abstracts using conditional random fields[C].Proceedings of the Third International Joint Conference on Natural Language Processing:Volume-I,2008.
[21] DASIGI P,BURNS G A P C,HOVY E,et al.Experiment segmentation in scientific discourse as clause-level structured prediction using recurrent neural networks[J].arXiv preprint arXiv,2017:1702.05398.
[22] MULLEN T,MIZUTA Y,COLLIER N.A baseline feature set for learning rhetorical zones using full articles in the biomedical domain[J].ACM SIGKDD Explorations Newsletter,2005,7(1):52-58.
[23] 劉霞.英语学术论文摘要语步结构自动识别模型的构建[D].北京:北京外国语大学,2016.
[24] DE WAARD A,MAAT H P.Verb form indicates discourse segment type in biological research papers:Experimental evidence[J].Journal of English for academic purposes,2012,11(4):357-366.
[25] COX J,HARPER C A,DE WAARD A.Optimized Machine Learning Methods Predict Discourse Segment Type in Biological Research Articles[M].Semantics,Analytics,Visualization.Springer,Cham,2017:95-109.
[26] TEUFEL S,MOENS M.Summarizing Scientific Articles:Experiments with Relevance and Rhetorical Status[J].Computational Linguistics,2002,28(4):409-445.
[27] GUO Y,KORHONEN A,LIAKATA M,et al.A comparison and user-based evaluation of models of textual information structure in the context of cancer risk assessment[J].BMC bioinformatics,2011,12(1):69.
[28] KIELA D,GUO Y,STENIUS U,et al.Unsupervised discovery of information structure in biomedical documents[J].Bioinformatics,2014,31(7):1084-1092.
[29] VARGA A,PREOTIUC-PIETRO D,CIRAVEGNA F.Unsupervised document zone identification using probabilistic graphical models[C].LREC,2012:1610-1617.
[30] GUO Y,KORHONEN A,POIBEAU T.A weakly-supervised approach to argumentative zoning of scientific documents[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:273-283.
[31] LIN J,KARAKOS D,DEMNER-FUSHMAN D,et al.Generative content models for structural analysis of medical abstracts[C].Proceedings of the hlt-naacl bionlp workshop on linking natural language and biology.Association for Computational Linguistics,2006:65-72.
[32] 王東波,高瑞卿,叶文豪,等.不同特征下的学术文本结构功能自动识别研究[J].情报学报,2018,37(10):31-42.
[33] DING Y,LIU X,GUO C,et al.The distribution of references across texts:Some implications for citation analysis[J].Journal of Informetrics,2013,7(3):583-592.
[34] ZHU X,TURNEY P,LEMIRE D,et al.Measuring academic influence:Not all citations are equal[J].Journal of the Association for Information Science and Technology,2015,66(2):408-427.