陈宝发, 任 妮
(1.江苏大学科技信息研究所,江苏镇江 212013; 2.江苏省农业科学院信息中心,江苏南京 210014)
农业作为国家的第一产业,是国民经济中一个重要的产业部门,支撑着国民经济的建设和发展,农业学者则是一个国家农业发展水平的重要推动力,在农业科技的生产创造、传播和应用等方面发挥着不可替代的作用。然而农业学者的专业领域与科研成果却散落在互联网的各个角落,并没有完善的一体化组织系统,不利于农业科研和生产活动的知识回顾与创新。随着学术信息化建设的不断进步,互联网上公开的学者信息也在不断完善,人们不仅对搜索不同类型的学术信息感兴趣,如论文、期刊、作者等信息,对基于语义的信息搜索需求也日益增长,如结构化的学者简介、学术成果的主题分类等。现有的学术信息检索工具,如中国知网、百度学术和科研之友等平台大多只是对学术成果的简单罗列,而缺少基于文献细粒度的语义信息;对学者信息的展示往往缺少简介信息,或是未能将简介信息结构化、立体化地组织起来,最终导致不能建立起统一的学术网络。本体(ontology)这一概念源自哲学领域,是对客观世界本质及其规律的抽象表示,20世纪90年代以来,其概念逐渐被引入人工智能、知识工程、图书情报等领域。Perez等认为,本体可以用于在计算机领域表示知识,包含类、关系、公理、函数和实例5种要素[1],能够规范特定范围的基本概念、属性、概念间的关系以及属性和关系的约束规则[2]。在学术检索系统中运用本体来表示知识,可以统一学者信息的组织形式,且在学者和学者之间、学者和研究成果之间建立起语义关联,为基于语义的检索需求提供支撑。近年来,国内外学者在生物医学[3]、人文历史[4]、商业智能[5]、农业[6]等领域开展了大量本体构建研究。在学术领域,Tang等扩展FOAF本体,针对机器学习领域提出基于条件随机场算法的科研人员档案抽取方法[7]。马翠嫦等提出一种网络学术文档细粒度聚合本体构建的方法,可以为网络文献聚合单元的细粒度组织提供参考[8]。郑杨等研究现有的学者检索工具,并对学者智能目录体系的构建提出建议[9]。然而当前的研究大多仅针对特定的学科领域建立本体模型,鲜有对农业领域学者和科研成果进行本体化组织,且未能将学者信息和学术成果信息在语义关联的基础上进行有机结合。因此,本研究对长三角地区农业学者的简介信息进行分析与处理,从文本数据中抽象出概念体系,提出农业学者的本体设计模式,并与学术文献的组织体系相结合,通过实证研究完成面向农业学者及文献细粒度的本体构建,形成可以复用至其他学科领域的学术本体模型,进而为领域学者知识图谱的构建提供模式层框架。
学者本体构建是以相关学者的工作实践经历为基础,结合学者现有的学术成果,形成客观明确的知识表示规范体系,并以结构化的形式,通过本体描述语言和可视化工具最终实现学者本体的建模工作。
在本体构建方面,目前较经典的方法有骨架法、METHONTOLOGY法[10]、七步法[11]等,这些方法通常来源于具体的本体开发项目。但这些方法尚不符合软件工程的生命周期演进思想,也缺乏本体的质量评估过程[12],导致不能满足知识图谱不断更新的需求。因此,本研究根据农业学者信息的属性特征,以网站数据库Wikidata和Schema等关于研究人员的本体定义为参考,并加入实例填充、验证评估与优化迭代环节,进而确定农业学者本体的构建流程(图1)。
(1)确定本体的领域和范围。构建本体的第一步首先是确定本体的应用领域和覆盖范围。本研究构建的学者本体是面向长三角地区的农业学者简介信息,并结合这些学者所发表的文献信息,以实现学者信息的结构化和语义化组织,进而为后续构建知识图谱定义知识体系。
(2)构建本体框架。该阶段的主要目标是对已获取的领域内信息进行分析总结,抽象出领域内的核心概念,定义类和类的结构,并确定类的对象属性和数据属性,从而形成一个完整的本体结构模型。本研究参考Wikidata等的本体类[13-14],结合长三角地区农业学者的信息和文献信息,定义相关的核心类以及属性,最终完成农业学者信息的本体框架。
(3)本体形式化和可视化。本体框架构建完成后,为了使计算机可以理解和存储本体,应该使用形式化的语言实现该本体,如RDF、OWL等本体描述语言,以增强本体的语义表达能力,此外还可以使用Protégé等工具实现本体的可视化呈现。
(4)创建实例。实例是领域本体中最小的概念,也是体现领域知识的重要组成部分。为了实现领域本体的知识服务功能,本研究基于设计完成的农业学者领域本体,采用深度学习的方法对获取到的长三角地区农业学者主页信息进行实体抽取,包括学者数据获取、实体标注、模型训练、实体抽取等步骤,并通过Neo4j图数据库存储学者实体数据。
(5)本体验证与评估。当本体初步构建完成后,须要对本体进行评估,以保证其能够对农业学者的信息结构体系进行充分有效的描述,并能够识别出本体中存在的冗余部分,从而进一步完善本体的概念和属性。
(6)本体优化迭代更新。随着时间的推移,领域内的知识结构可能会出现新的变化。所以,本体构建也是动态变化的过程,在出现新的领域知识类别时,应该重新对领域本体的结构框架进行分析与调整,从而实现本体的更新迭代,以满足其在新环境中的适用性。
本研究所构建农业学者本体的目标是根据农业学者的学术生涯,抽象出能够完整描述学者信息的核心概念,再结合学者的学术成果信息建立可以复用的领域学者本体模型。本研究根据上述提出的构建流程,首先确定农业学者本体的领域和范围,再定义本体的类和属性,建立本体框架,并使用OWL语言和Protégé工具实现本体的保存与管理,最后对本体质量进行评估。
本研究构建的本体为后期建立农业学者知识图谱提供模式层架构,并以此建立面向长三角地区农业从业人员的知识服务平台。因此,该领域本体的覆盖范围为长三角地区的农业学者信息和文献信息。为了该目标,需要从学者主页、百科网页等渠道获取长三角地区农业学者的简介信息,并从简介信息中抽象出可以描述学者的核心类和属性信息,如学者类、机构类、职位类等,属性信息有毕业院校、工作单位、研究方向等。此外,还需要将篇名、关键词、研究方法等文献属性嵌入学者本体。最终实现由学者相关概念和文献描述信息构成的农业学者领域本体。
2.2.1 定义类和类的结构 目前有3种常用类的定义方法,分别是自顶向下、自底向上和二者结合定义[13]。其中,使用最多的方法是自顶向下构建,该方法首先从顶层的抽象概念入手,再逐渐细化;自底向上的方法则是从具体类别着手,同时对概念逐渐归类抽象,以形成完整的结构;二者结合定义可以先找到明确的具体概念,同时再对其进行泛华和细化。本研究的学者本体采用自顶向下的构建方法,遵循从抽象到一般,再到具体概念的3层结构。根据对获取的长三角农业学者文本信息进行分析,可以将该本体的最顶层抽象类定义为参与者类、对象类和事件类,将这些抽象概念进一步具体化,可以定义为5个一级子类(核心类)和8个二级子类(图2)。
本研究构建的本体中最顶层的抽象概念是参与者类、对象类和事件类,具备一定的通用性。而根据农业学者本体的个性化需求,可以将上述3种抽象概念细化为学者类、机构类、职称类、研究方向类、文献类5种核心类。本研究针对农业学者的本体构建,所以将学者定义为核心类,其实体可以具体为长三角地区的农业学者。
在该本体中,对象类分为机构类、职称类、研究方向类3个核心类。其中,机构类主要描述学者的毕业院校和所在单位,所以可以分为学校、科研院所、企业3个子类;职称是区别科学技术人员的等级称号,在农业学者本体中创建职称核心类可以丰富学者的描述信息,包含高级、中级、初级职称3个子类;研究方向是学者的重要标签,能够体现该学者当前或历史时期的主要成果所在领域,所以将研究方向类确定为该本体的核心类。
事件类是由参与者类的实体执行的主动行为,在该本体中可以总结为农业学者在特定时间、单位和期刊发表论文的行为,所以将文献类定义为本体的核心类,即事件类的一级子类。文献类通过外部特征和内部特征描述文献的关键信息,并基于文本细粒度分析得出文献的主题分类,能够更加细致地刻画学者的研究领域。此外,根据文献发表的渠道不同,文献类包含会议论文和期刊论文2个子类。
2.2.2 定义类的属性 在本体框架中定义类和类的结构后,应该定义组成类的不同属性以及类与类之间的关系,以完善类的内部数据结构,从而保证类的独特性。本体中类的属性包括对象属性和数据属性。其中对象属性表示类与类之间的关系,其属性值必须为另一个类;数据属性则表示类的实例对象所具备的特征,属性值为数据类型且只存在于类本身。通过参考Wikidata中researcher类的属性定义以及数据源中学者简介信息的共性描述,最终确定5个对象属性和7个数据属性(表1)。
表1 农业学者本体属性
在该本体中,以学者类为中心建立类的对象属性和数据属性,对象属性表示学者类与其他类之间的关系,包括毕业院校、工作单位、职称、研究方向和发表文献,其定义域为学者类,值域分别为机构类、职称类、研究方向类和文献类。数据属性包括学者姓名、编号、学历、职务、邮箱、标签以及个人简介,其中学者标签描述是对学者文献进行文本细粒度分析得出的兴趣领域,能够总结学者科研成果的方向,有利于建立基于标签的学者推荐系统。
此外,本研究还对文献类的数据属性进行定义。通过复用都柏林核心元素集(dublin core element set,DC)关于信息资源的元数据构成,并从农业学者本体构建的实际需求出发,最终定义文献类的16个数据属性(表2)。包括文献编号(PaperID)、题名(PaperTitle)、作者编号(AuthorID)、作者(Author)、所属单位(Organ)、文献来源(Source)、关键词(Keywords)、摘要(Abstract)、发表时间(Pubtime)、发表年份(Year)、卷(Volume)、期(Issue)、开始页码(Page_start)、结束页码(Page_end)、DOI码(DOI)、研究主题(ResearchTopic)。其中,文献编号是用于描述文献的唯一标志,是文献数据库的主键;作者编号是与学者数据进行关联的标志符,因为文献存在多个作者,所以数据类型为列表;研究主题是基于文献内容的特征词提取得出的文献主题分布。
表2 文献类数据属性
最后,综合农业学者的对象属性和数据属性,并通过“发表文献”属性将学者类与文献类进行关联,进而形成完整的农业学者本体框架(图3)。
在明确定义农业学者本体类和属性的基础上,为实现本体在计算机中的存储、更新与复用,应该使用统一的本体描述语言对本体进行形式化描述。OWL是W3C Web本体工作组设计的一种知识表示语言,与其他描述语言相比(如XML、RDF),其优势是表示知识便于被计算机所理解和应用,且拥有更丰富的推理方法和词汇表。所以,本研究采用OWL语言对农业学者本体进行形式化表示,并使用Protégé工具实现本体的可视化。
首先对农业学者本体中的类使用OWL语言进行描述,代码示例见图4。在OWL中使用Class来表示类,如创建学者类,将其英文标签设置为“Scholar”,中文标签设置为“学者”,并继承FOAF词表[15]中的人物类(foaf:Person),以实现语义层次的知识共享。
对象属性在OWL中以ObjectProperty表示,用于创建类与类之间的关系。 如使用OWL语言创建对象属性“发表文献(hasPublished)”,设置其定义域(domain)为学者类,值域(range)为文献类,并与文献类的作者属性(hasAuthor)形成相对关系(inverseOf),代码见图5。
数据属性在OWL中以DataProperty表示,用于展示类的实例属性值,如创建文献类的“摘要(Abstract)”属性,其定义域(domain)设置为文献类,并以range标签设置数据类型为字符串(string),代码见图6。
将使用OWL语言编辑完成的农业学者本体文件导入Protégé软件,利用OntoGraph功能进行本体的可视化展示。由图7可知,实线部分为类的层级结构关系,其中学者、文献、职称、机构和研究方向均为超类“Thing”的子类;虚线为属性关系,展示学者与其他类的对象属性,其中文献和学者定义了相对关系。
本研究通过scrapy爬虫框架,从农业科学院官网、农科机构知识库联盟等渠道获取长三角地区江苏省、浙江省、安徽省、上海市农业科学院的专家学者信息为数据源,剔除部分缺失无效信息,共得到学者信息1 022条。此外,以作者和机构为检索词,对知网上的相关学者论文进行检索,共下载学者文献数据52 000条。
由于数据源的学者信息来源多样,多数为非结构化文本数据,且篇幅差异较大,所以本研究对学者的简介信息进行相应的删减,使篇幅保持在300字以内,以便于后续实体抽取任务的开展。下载的文献数据为CSV格式,通过python脚本将其转化为json格式,并去除存在的换行符、空格等特殊符号。
根据定义的学者本体,本研究通过阿里云NLP自学习平台对学者文本信息进行标注,标注的实体主要包括单位、二级单位、研究领域、教育、姓名、职称、时间、职务、邮箱共9类实体。为了将数据输入训练模型,需要对学者的文本数据进行标签化处理,本研究采用BMEO标注法对上述已标注实体进行标签转换(表3)。
表3 学者文本标注示例
将标注完成的数据按照8 ∶ 2的比例构建训练集和测试集,并输入模型进行训练。
本研究采用BiLSTM-CRF模型进行命名实体识别研究,模型结构见图8。该模型主要包括Embedding层、BiLSTM双向循环神经网络、CRF层3个部分。
Embedding层主要将学者的文本信息进行字符级别的编码,通过Word2Vec的连续词袋(CBOW)模型可以预测每个字符的出现概率,使句子表示为字符级特征向量,再将字符向量输入到BiLSTM模型中。
长短期记忆网络(long-short term memory,LSTM)是基于RNN模型(循环神经网络)进行的变体,相较于传统的RNN模型,引入记忆单元(memory cell)和门的控制结构[15]。LSTM通过遗忘门决定上一时刻的记忆单元有多少保留到当前时刻,通过输入门决定当前时刻网络的输入有多少保存到单元状态,通过输出门控制单元状态有多少输出到LSTM的当前输出值,可以解决原始RNN模型无法处理长距离依赖关系的问题。而BiLSTM通过双向循环结构可以解决LSTM模型只能从前往后传递信息的问题,从而可以使模型结合正反2个方向的信息,最终输出数据标签的分布概率。
条件随机场(conditional random field,CRF)是一种条件概率分布模型,可以考虑上下文标签的依赖关系,对BiLSTM输出的标签概率进行一定的约束,以保证最终的预测结果是有效的。其原理是设x=(x1,x2,…,xn),y=(y1,y2,…,yn)均为线性链表示的随机变量序列,在给定随机变量序列x的条件下,随机变量y的条件概率分布P(y|x)构成条件随机场。当随机变量取值为x的条件下,随机变量为y的条件概率有如下公式。
(1)
(2)
式中:tk、sl表示特征函数,一般情况下,tk、sl的取值为1或0,即满足特征条件时为1,不满足则为0;λk、μl分别表示tk、sl所对应的权值;Z(x)表示规范化因子,来保证P(y|x)的概率分布。
在训练时通过最大拟然估计求得最大概率,预测时利用维特比(Viterbi)算法进行解码,预测出最大概率的标签序列。
本研究采用准确率(P)、召回率(R)、F1值3个指标作为模型的评价标准。其计算公式分别为
(3)
(4)
(5)
式中:准确率(P)表示模型识别到的正确实体占识别总实体的比例;召回率(R)表示识别正确实体占原数据总实体的比例;F1值表示调和平均数,综合正确率和召回率,用于综合反映模型整体的效果。
由表4可知,此模型在训练集上的命名实体识别准确率、召回率、F1值较高,分别达到87.03%、83.99%、85.49%,而在测试集上的效果有一定的折损。比较表4和表5可知,单一的LSTM模型实体抽取效果较差,准确率、召回率和F1值均有所下降,召回率下降较多,说明在整个数据集中识别到的正确实体数较少。而BiLSTM-CRF模型的F1值比LSTM模型高4.19百分点。可见,加入前后文信息并使用CRF层对BiLSTM输出序列进行约束后,模型的命名实体识别效果有明显提升。
表4 BiLSTM-CRF模型训练结果
表5 BiLSTM-CRF和LSTM模型对比试验
本研究使用Neo4j图数据库对学者实体和文献数据进行存储和关系构建以及可视化展示。Neo4j可以通过Cypher语言进行数据库的操作,也可以通过交互式界面访问图谱数据,可以轻易地表示出半结构化的数据和数据间的关系。在获取抽取的实体后,导出为json格式文件,使用脚本语言自动写入Neo4j图数据库进行可视化存储,并与文献数据进行关联(图9)。最终构建10多万实体和40多万组关系。
本体的评价指标主要包括完整性、清晰性、一致性、可扩展性和兼容性[16]。本研究以长三角地区农业专家学者信息为数据源,基于上述所构建的学者本体,通过BiLSTM-CRF模型对农业学者信息进行实体抽取和填充,并基于农业学者实例结合上述指标对该本体模型进行评估,以确保其能够满足知识服务平台的建设需求。
由图10可知,以“王才林”为学者实例,根据学者主页的简介信息进行实体抽取,对本体属性进行填充,并通过“发表文献”这一属性关联相关文献,添加所属单位、关键词、摘要、文献来源、文献编号等属性信息,最终实现以“王才林”为核心的农业学者语义网络。
从农业学者本体的实例示意来看,在完整性方面,该本体参考Wikidata的researcher类对研究人员的描述以及都柏林核心集对信息资源的元数据定义,覆盖面较完善,但是考虑到数据源存在缺失的可能性,所以在学者类中缺少对科研项目的定义,在后续增加可靠的数据源后,应对本体进行更新补充。在清晰性方面,农业学者本体拥有3类抽象概念、5个一级核心类以及8个二级子类,其概念和属性关系定义明确。从本体实例来看,学者信息能够准确地填充进本体类和属性中,避免了歧义,进而确保农业学者本体的清晰性。在一致性方面,该本体从3类抽象概念出发,自顶向下逐渐细化,形成逻辑一致的层次结构。在可扩展性方面,本研究构建的农业学者本体以OWL语言进行本体描述,其语法灵活,能够对新出现的概念方便地进行描述,扩展性更好,还可以关联丰富的词汇表资源。在兼容性方面,农业学者本体内部可以实现学者与文献资源的映射,并在构建过程中声明与FOAF本体Person类的继承关系,从而保证该本体与其他信息组织资源的兼容与互操作。
本研究以长三角地区农业学者为对象,优化传统的本体构建方法,提出农业学者本体构建方法和流程。在厘清学者相关概念体系以及学术文献关键属性的基础上,完成本体框架模型的设计。运用Protégé工具完成类和属性的定义,建立农业学者领域本体,并实现本体的形式化与可视化表示,最后以长三角地区农业学者为例,采用深度学习算法对学者简介信息进行实体抽取,完成本体实例的填充,大大减少了本体建模的人工依赖性,并利用Neo4j图数据库进行实体和关系的存储以及可视化展示,还利用农业学者实例开展本体的验证与评估。但由于学者信息数据源的复杂多样且没有统一的内容形式,以及随着时代的进步发展,农业学者信息的核心属性存在变化的可能,所以在后续的研究与应用中,该本体的内容覆盖上还存在优化的空间。
在后续的研究中,将进一步完善农业学者本体的概念体系和属性结构,在应用层面,该学者本体将作为知识图谱的模式层,进一步结合深度学习算法实现专家兴趣预测、农业学者画像等应用,进而建立基于知识图谱的面向农业从业人员的知识服务平台。