任志远
摘要:针对版权知识的结构并考虑到版权本体需要不断迭代更新,在充分分析版权知识结构的基础上融合现有本体构建技术,通过提取中华人民共和国国家版权局和中国裁判文书网数据,提出适合版权知识本体的自动构建方法。
关键词:本体;版权;知识库
DOIDOI:10.11907/rjdk.162585
中图分类号:TP319
文献标识码:A 文章编号:1672-7800(2017)006-0142-03
0 引言
随着社会发展,版权知识变得越来越重要。但是版权知识比较复杂琐碎,人们查找学习版权知识时比较困难。目前,大部分知识库都只是基于字符串检索,检索结果准确性差,知识获取效率低。本体作为语义网的重要组成部分,可以极大提高检索效率。本文旨在探讨版权知识本体的构建方法,最大程度减少构建版权知识本体的难度。
1 本体构建方法简述
由于领域知识在构建本体时有特定需求,比较成熟的方法有七步法、METHONTOLOGY法,另外还有骨架法、五步获取法、循环获取法。各方法的优缺点及用途比较如表1所示。
1.1 METHONTOLOGY法
METHONTOLOGY法是专门用于构建化学本体的方法,该方法支持本体层次构建,但是该方法无法进行更新迭代。该方法主要应用于化学领域,流程如图1所示。
1.2 七步法
七步法是由斯坦福大学提出的一种实用的本体开发方式,但是该方法没法评价过程,无法迭代更新,该方法适用于医学本体构建,开发流程如图2所示。
1.3 五步循环法
五步循环法主要用于语义网本体构建,该方法有评价环节,构建的本体可以迭代更新,但是该方法操作性差,难度大,因此适用范围不广。
2 版权知识本体构建
本文融合以上方法的优点提出新的适合版权知识本体构建方法,将版权本体的构建分成两方面,其中法律采用手动构建本体,而案例等采用自动构建。最后添加评价步骤,使得整个流程不断地迭代更新。在本体构建过程中,数据来源于中华人民共和国版权局和中国裁判文书网。
2.1 改进的本体构建方法
对于法律案例来说,一般裁判文书结构明确,适合自动构建。从样例中可以看出案例文书的结构非常直接,案例涉及的人物等信息很容易被准确提取出来。首先,本体构建分成两个主要方面,一方面是法律,因为法律的严谨性以及版权法字数较少,可以人工构建,中国裁判文书网涉及版权相关的数据条件大约有3万个。在已提出方法的基础上改进流程,使得符合版权知识的结构特点。流程为:①整理版权概念详细术语;②根据知识内容主要分为两个具有代表性的类型,法律和案例;③对于法律来说首先将概念之间的关系整理出来,构建概念模型;④使用OWL本体描述语言将第三步生成的结构化文档形式化表达;⑤评价法律本体;⑥对于案例,在本体模板的基础上,自动提取案例的概念以及属性;⑦检查案例本体是否具有逻辑错误。图3为版权本体的构建流程。
2.2 版权法律本体构建
法律本体是版权知识本体的重要组成部分。法律本体构建依据《中华人民共和国著作权法》、《计算机软件保护条例》等相关法律。法律本体包括著作权相关概念、权利、处罚等内容。
2.2.1 复用本体
目前已经有LKIF、FOLaw两个比较优秀的法律本体模型。LKIF 基于LRI-Core但是减少了对子类的约束。LKIF包含200多个概念,但是LKIF提出的概念太抽象。而FOLaw更像是一个认知框架,两者对于著作权相关法律本体的构建更多的是借鉴意义,复用意义不大。
2.2.2 版權知识概念关系抽取
根据领域知识界定,版权知识本体主要有9个类、55个子类、466个概念。这几个类通过概念关系互相构成一个网状的概念图,如作品、人物、权利等,如图4所示。根据概念关系图分类手动提取法律法规文本中的概念。
2.2.3 创建实例
构建本体框架以及提取概念及关系后,实例化本体的方法分为手动构建和自动构建。具体如下:①手动导入,可以通过本体构建工具Protégé手动构建本体。在Protégé的Individual by class选项卡中手动输入概念以及关系;②自动导入,通过提取概念关系后,版权法律法规中的概念以及概念之间的关系已经成为结构化数据。然后通过Jena语义网工具读取本体概念,添加本体的实例及属性的方式将概念或属性添加到本体文件中,实现本体自动扩充。
2.3 案例知识本体构建
案例裁定书一般由五部分组成:首部、事实、理由、判决结果、尾部。首部主要说明相关涉案人,事实包括公司再审审称和法院再审复查查明等,理由是判决依据,尾部是判决结果。
2.3.1 案例知识结构
根据需求,首先构建案例的概念之间关系以及概念跟属性之间的关系。图5为案例中的概念层次。
2.3.2 概念提取
(1) 结构化数据提取。建立概念之间的关系以及属性之间的关系,需要提取概念来实例化本体,而且文书格式比较严格,所以根据正则匹配就可以提取出大部分概念。首先将文书按照格式规范分成5部分,根据开头词语确定该段落归属于哪一类。根据规范提取部分相关词如表2所示。
(2)非结构化数据提取。提取非结构化数据首先需要对文本进行分词,这一步使用开源框架IKAnalyzer分词工具进行分词、标注。在分词过程中使用版权术语表制作字典提高分词准确率,通过分词标注后,通过n-gram算法提取出其中的概念,将概念通过Jena语义网工具添加到本体中。
3 结语
由于本体在知识工程以及人工智能知识表示方面的优势,使得本体一直是语义网的重点研究方向。然而,本体的构建尚没有成熟的标准体系。由于国内也尚无标准评价体系和工具,本文没有讨论本体的评价问题。目前本体质量只能通过领域专家进行人工评定。本文主要讨论了版权知识的基本结构,分析构建本体的基本过程,为本体自动构建作准备。下一步主要研究将机器学习整合到本体构建的过程中,通过监督学习使得本体构建自动化。
参考文献:
[1]贾焰,王永恒,杨树强.基于本体论的文本挖掘技术综述[J].计算机应用,2006,26(9):2013-2015.
[2]曹灿.基于本体的软件工程课程知识库研究和应用[D].北京:北京林业大学,2010.
[3]有关著作权(copyright)的一些词汇(中英文对照)[EB/OL].http://blog.sina.com.cn/s/blog_4d53c365010188w7.html.
[5]郭冲,王振宇.面向细粒度意见挖掘的情感本体树及自动构建[J].中文信息学报,2013,27(5):75-92.
[6]巫建伟,陈崇成,叶晓燕,等.基于Jena的土地适宜性评价本体知识库构建研究[J].计算机工程与设计,2014,35(1):287-292.
[7]李景.主要本体构建工具比较研究[J].情报理论与实践,2014,29(2):109-111.
[8]田宏,马朋云.基于Jena的城市交通领域本体推理和查询方法[J].计算机应用与软件,2011,28(8):56-63.
[9]李景.本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D].北京:中国科学院研究生院,2004.
[9]尚新丽.国外本体构建方法比较分析[J].图书情报工作,2012,56(4):116-119.
(责任编辑:陈福时)