●肖冬梅 王良晨
湘潭大学知识产权学院,湘潭,411105
新文科背景下复合应用型知识产权人才的培养过程,就是一个多学科知识交叉融合的过程。 立体化知识产权教学资源是复合应用型知识产权人才培养的重要支撑,也是解决我国知识产权人才培养过程中面临的知识结构单一、职业能力单一两大瓶颈问题的关键。
新文科背景下的知识产权人才知识结构亟待优化。 虽然在教育部的专业分类目录中,知识产权被归为法学类专业,但对于知识产权的学科定位,迄今为止尚有颇多争议。 当前,知识产权教育较为注重对学生知识产权法学知识和能力的培养,忽略其与理工类学科及其他人文社会学科的交叉融合,存在知识结构单一的问题,难以适应新文科建设及重大复杂的知识产权事务对人才培养的复合性要求[1]。事实上,诸多知识产权问题的解决,仅凭借知识产权法学知识,往往很难得到妥善解决,必须与管理学、经济学甚至理工科等学科知识结合才能寻得理想方案,故有着跨学科学习背景和多学科融合的复合型知识产权人才,广受市场欢迎。 “复合型知识产权人才需要具备多学科的知识背景”在业界和学界似乎已经达成共识。
复合型知识产权人才需要立体化教学资源的滋养。 知识产权学科是新文科的有机组成部分,也是最需要进行学科交叉融合的一个学科。 立体化教学资源是指以培养复合型人才为目标,突破学科领域界限、资源类型限制的教学要素集合。 以立体化知识产权教学资源为例,知识产权学科领域涉及法学基础课程、知识产权专业课程和管理学理论课程等,资源类型涉及教材、课件、视频课程、测试题库等,立体化教学资源是知识产权学科与其他学科交叉融合的载体。 新文科背景下,构建对应多学科、多模块化的课程体系,培养复合型知识产权人才,是解决知识产权人才知识结构单一的有效方法。
新技术环境下的知识产权人才实践能力亟待提升。 目前,知识产权人才能力培养面临四大问题:一是教学基础设施薄弱。 知识产权具有技术性、实践性、应用性的特点,这些特点要求知识产权人才应既精通法律规则,又掌握学科相关的工具和方法。 因此,知识产权实验室、专利数据库和专利分析软件等是知识产权人才培养的基础。 但目前多数人才培养单位对基础设施建设尤其是软件应用重视不够,基础设施薄弱直接影响人才实务能力的培养。 二是实务课程单一。 知识产权的综合性决定了知识产权人才应是理论与实践兼修的人才。 而国内大多知识产权学院按传统法学专业教学模式培养知识产权人才,存在重理论轻实践、实务课程单一、教学内容单一和实践内容未贯穿人才培养全过程的问题。 同时,传统法学专业教学模式实践教学过程单一,仅通过有限的“实习”完成实践教学。 三是模拟实训不足。 模拟实训是知识产权实践教学的重要形式,当前知识产权学科的模拟实训过程单一,仅通过“模拟法庭实习”的教学形式完成模拟实训,缺乏成建制的实训指导和专门的师资。 四是缺乏实战操演。传统知识产权人才培养模式下,存在理论与实践脱节、缺乏实战操练的问题,“知识产权专业硕士”培养成了“知识产权法学硕士”,培养出的学生无法满足社会需求。 其根源在于高校与实务部门隔离,导致学生的学习脱离实践,毕业后很难通过所学知识解决实际问题。
立体化教学资源突破了传统教材、教辅资料等教学资源的局限,在新技术环境下,可以整合利用越来越多的教学资源,如视频、课件、教材,以及实际案例、打分和模拟操作等(见图1)。 立体化教学资源能有效破解以上4 大问题,打造实训实战生态,推动高校与知识产权实务部门、法院、高新园区等协同培养知识产权人才,从而提升知识产权人才的实践能力。
图1 立体化知识产权教学资源
Pan J Z 等[2]认为知识图谱是由一组相互连接的类型化实体及其属性组成。 引入知识图谱是实现立体化教学资源有序化的有效手段,也是构建能反映专业课程各个知识点内在关联的知识网络的重要路径,构建基于知识图谱的立体化教学资源更是知识产权人才培养的新利器。
立体化知识产权教学资源具有离散性、交叉性的特点,其离散性是因为立体化的教学资源类型多样,且涉及教与学全生命周期的各个环节;其交叉性是因为知识产权本身涉及多门学科的知识,需要实现不同学科之间的知识融合,还要将理论与实践相融合。 近年来,知识图谱技术的快速发展,为立体化知识产权教学资源建设提供了重要的技术支撑。 将知识图谱用于立体化知识产权教学资源建设,能够通过结点记录不同类型的实践知识点和知识点相关的教学资源,又能通过结点关联关系表达知识点之间以及教学资源之间的相关性[3]。 知识图谱可以将文本、图片、视频、课件等不同的非结构化数据合并,实现知识与资源的高效集成,方便资源建设、优化与推荐。
知识图谱是领域知识及知识间关系所联结而成的知识体系,该知识体系是领域中繁杂知识层次化、结构化整合后形成的语义图[4]。 利用知识图谱,可以统一相同概念在不同课程或不同章节中的表述,也可以关联多门课程中存在的含义相似或相同的知识点。 构建知识图谱的过程,事实上就是把所有不同种类的信息连接在一起而得到的一个关系网络的过程,即通过数据挖掘、信息处理、知识计量和图形绘制等一系列方式对复杂的知识进行直观生动的表达。
用知识图谱来表达知识体系,能很好地体现知识定义、结构和层级之间的多维关系,并实现对知识体系的直观生动的可视化呈现。 复合交叉型人才的培养涉及两个及两个以上的专业,如果仅简单拼接所涉及的专业课程,难以做到深度交叉融合,因此我们需要从跨学科的各门课程的知识图谱出发,找到知识产权和其他学科间的共同点,将知识点接近的部分进行融合,设计新的融合课程。 具体而言,基于知识图谱进行立体化知识产权教学资源库建设,能使立体化知识产权教学资源的颗粒度与知识点相关联。 同时依托知识图谱还可规范立体化知识产权教学资源的颗粒度,实现对立体化知识产权教学资源的智能切分,有效避免因不同教师所导致的立体化知识产权教学资源的差异性。 通过知识图谱的构建,建立起立体化知识产权教学资源各个知识点之间的紧密关联,使所有立体化知识产权教学资源具备了智能推演的基础,基于知识图谱的立体化知识产权教学资源库将成为高校数字化教学新生态的基础建设[5]。
我国当下迫切需要培养跨领域的复合型人才,而复合型知识产权人才培养方案的核心是模块化课程体系的科学设置。 调研表明,理想的知识产权人才,需要掌握“法学+知识产权+理工”3 大课程模块。 其中,法学专业大约有16 门核心课程,知识产权专业有10 余门核心课程,所选的某个理工科专业则有10 余门核心课程。 在实践中,想要掌握这些课程是难以落地的。 学分限制导致这种由3 个模块简单叠加的培养方案无法通过审核,同时简单叠加的课程模块也会导致课程之间存在某种程度的重复。如何避免两个或两个以上专业培养方案直接累加所带来的不可承受的培养重负,就需要我们找到不同课程模块之间的内在逻辑,在课程层面实现各学科间的交叉融通。 在有限的学分限制下,改造培养方案、重构课程模块、实现流程再造成为必须解决的问题[5]。
随着知识产权专业核心课程、法学基础课程和公共基础课程的知识图谱的构建,一个能生动呈现课程各知识点之间内在联系的知识网络已形成。 在融合多门相关课程知识图谱的基础上,可以根据不同层次的学生和不同知识领域,有针对性地设计不同难度和专业度的课程模块,指引人才培养方案的优化,为课程模块再造提供重要依据;还可以根据学生的兴趣和学术水平,推荐相关课程模块和学习资源,实现个性化学习路径。 从底层的知识图谱构建做起,依靠专家研讨和文本挖掘算法,将学科知识体系重新梳理,结合最新的学术前沿,进行可扩展式的建构。 将所有的知识点变成一张地图,不同课程之间形成可以有交叉的聚类,课程之间的起承转合关系在知识图谱下一目了然。 另外,知识图谱有助于学生总结梳理知识脉络,可以为学生自主学习和自由探索提供路线图,有助于培育学生的自学能力、逻辑思维能力和独立探索能力。
此外,将基于知识图谱的立体化知识产权教学资源用于教学,使流程再造和教学过程管理智能化成为可能。 因为一旦将基于知识图谱构建的立体化教学资源用于课程教学,课程则具备了自身的图谱形象,由于教学资源与知识图谱关联,所有“教”和“学”的行为及其结果将与知识点关联,学习路径直观可见,师生画像简单易行。 如绘制每个学生的学习路径,识别他们的知识缺陷,进行个性化分析和指导,或帮助学生了解各个知识点在整个学科知识体系中的位置和价值,使其对知识体系的层次结构了然于心。
作为立体化知识产权教学资源建设的基础工作,构建知识产权课程知识图谱首先需要明确建设目标,其次是要选择立体化知识产权教学资源的获取范围与处理方式,最后是规范知识图谱构建的基本流程和主要步骤。
建设目标直接决定后续的建设方案和路径选择。 基于知识图谱的立体化知识产权教学资源的建设目标,应当响应国家和社会需求,在当下建设知识产权教学资源的背景下,建设目标尤其要契合新文科发展需求。 应对大数据时代挑战,满足复合应用型知识产权专业人才的学习需求,构建能表达知识产权法律法规、司法判例、图书、论文等多类教学资源的知识单元内在联系的知识网络;结合生生互动与师生互动产生的衍生数据资源形成知识产权知识问答库,构建便于学生进行知识获取、运用和创作的立体化知识产权教学资源生态。
获取立体化知识产权教学资源的方式多样,从载体来看,包括教材、教辅资料、课件、视频课程、测试题库等;从领域来看,既包括来自实践领域的立法成果——知识产权法律规则,司法适用的成果——司法裁判文书等,也有来自理论领域的知识产权制度和司法案例的研究成果;从整个教学全生命周期来看,立体化知识产权教学资源是一个动态生长的有机体,包括课前、课中、课后等不同时间节点上事先准备的或在教与学过程中产生的数据资源。
知识图谱构建方法不外乎由上往下、由下往上和混合式3 种[6]。 由上往下的方式是指在构建之初借助已有的结构化数据源,从优质数据中提取本体和模式信息,加入知识库;由下往上的方式则没有已定义的组织结构,而是应用知识抽取技术,从数据源中不断抽取更新概念和概念间的组织结构;混合式则是结合了前两种构建方法,一是在构建之初已有预定义的本体或模式层,二是随着数据源的补充,数据源的组织结构可以对知识图谱模式层进行更新改进,以提升知识图谱的完整性和可靠性[7]。 知识产权课程知识图谱的构建采用混合式,即综合采用了由上往下和由下往上2 种构建方式。 结构化数据采取由上往下的方式,直接将结构化数据库里面的数据进行转化,并将其加入知识库;非结构化数据则采用由下往上的构建方式,即利用自然语言识别技术(Natural Language Processing,NLP)来识别实体以及实体间关系。 以非结构化的《中华人民共和国专利法》文本为例,要构建该法中各主体、客体、行为等各要素之间的关系,就需要涉及实体识别,其重要实体如专利主体,包括专利申请人、专利权人、专利权受让人,以及权利主体、义务主体等,需要根据法律的相关规定来构建这些主体之间的关系。 如根据《中华人民共和国专利法》的规定,专利权流转时既有权利主体也有义务主体,因此实体识别就需基于NLP 去抽取权利主体、义务主体[8]。 可见,知识产权课程知识图谱构建是个半自动化的过程,即利用NLP 自动识别的同时还需要人工介入,相关工作包括Schema 定义、部分结构化知识准备、自动识别结果校验,以及依据后续反馈进行数据源的增加与更新等。
目前构建知识产权课程知识图谱,有不少可选的工具。 比起传统的关系型数据库,图形数据库Neo4j 是个更好的选择。 立体化知识产权教学资源类型多样,属多源异构型资源,传统关系型数据库很难处理好。 而Neo4j 是一个高性能的NoSQL 图形数据库,也可以被看作是一个高性能的图引擎,其使用图结构存储数据,能高效处理实体和实体间的关系,存储和查询能力强;同时Neo4j 的数据模型灵活,扩展和修改图谱结构的操作简单易行,适应性强,支持CSV、JSON 等多种数据格式导入和导出;Neo4j 还具有APOC 等开源工具和框架,开发和管理效率高,生态系统丰富。 基于Neo4j 构建立体化知识产权教学资源,以图的形式来存储数据,能够直接表达数据的关联特性,具有良好的扩展性,同时可以任意修改数据,有利于后期维护。
基于Neo4j 的知识产权课程知识图谱的构建过程可以概括为以下3 个步骤:数据收集和预处理、本体构建与知识抽取、数据建模与知识存储。 本文先通过多种数据源构建知识产权课程模型框架,在进行数据清洗和预处理后,结合自身特点和定义提取知识图谱中的实体、关系及属性,形成层次分明的本体概念框架(见图2)。 同时,由于Neo4j 数据库与知识本体的数据结构存在差异,为了在图数据库中有效存储本体数据,必须制定规范的映射规则,以规范数据存储流程,更好地进行知识融合,生成知识图谱。 借助于知识图谱,可让立体化知识产权教学资源更具深度和个性化,有助于提高学生对知识产权领域的理解和应用能力。
图2 知识产权课程知识图谱的构建过程
3.4.1 数据收集和预处理
数据质量是构建知识图谱的关键。 保证数据的准确性和一致性将有助于我们获得优质的知识图谱和有效的分析结果。 构建知识产权课程的知识图谱,收集的数据包括但不限于法律法规、政策文件、学术论文、著作、司法案例、试题等。 此外,我们获取的数据通常是半结构化或非结构化数据,会存在不一致性、错误和缺失信息的问题。 因此在将数据导入Neo4j 之前,必须对数据进行清洗和预处理,包括去重、数据格式标准化、日期格式转换、缺失值处理、文本内容结构化处理等步骤(见图3),以确保数据的质量和一致性。
图3 数据收集和预处理流程
3.4.2 本体构建与知识抽取
基于Neo4j 的知识图谱的构建依赖本体构建和知识抽取。 本体构建定义了知识领域的术语和概念,提供了知识图谱的结构和语义基础。 在知识产权领域,本体可能包括知识产权类型(专利、商标、著作权等)、法律法规、司法案例、学术文献、教材等。 这些概念需要在本体中得到明确定义,并确定本体之间的层次结构和关联。 在本体构建中,类别层次定义了不同概念和实体类型之间的层次结构,属性的定义有助于详细描述实体和关系,关系定义则确定了不同实体类型之间的连接和关联。 知识抽取则是通过自然语言处理技术、文本挖掘方法等方法,从文本数据中抽取出与本体定义相符的实体、关系和属性,从而提供知识图谱的基础数据,如图4所示。
图4 本体构建与知识抽取流程
3.4.3 数据建模与知识存储
在Neo4j 中,数据建模是知识图谱构建的关键步骤[9]。 数据建模涉及定义实体(节点)、关系(边)、属性以及它们之间的结构,通过数据建模,我们可以在图数据库中来表示知识产权的课程内容。数据建模包括3 个方面(见图5):一是节点映射及创建。 每个数据实体都对应图数据库中的一个节点,实体代表该数据集合中的抽象概念或具体实例对象,其属性信息与数据字段相对应。 每个实体类型都需要被明确定义,并映射为相应节点,其还可以被赋予一个或多个标签,以便进行分类和检索。 节点的创建需要严格遵循图谱设计中定义的实体类型和属性,以确保数据一致性。 二是关系映射及建立。将数据中的关系信息映射到图数据库中,并建立图谱中的边,方可将每个独立的节点联结,形成知识网络。 值得注意的是,在映射时需要明确定义边的方向,以确保查询和分析的准确性。 关系的建立需要遵循图谱设计中定义的关系类型,确保关系的语义明确且符合知识领域的逻辑。 三是属性映射及建立。 属性通常是关于实体或关系的特征、描述及相关信息,例如一篇学术文献的属性通常包括标题、摘要、关键词等。 在属性映射过程中,每个属性都需要明确定义,指定其数据类型,并映射到相应的图谱节点和关系上。 属性的精确定义和数据类型选择对于知识图谱的查询与分析至关重要。 在数据建模完成后,可以使用Neo4j 的导入工具或ETL 工具等将数据存储到图数据库中,并使用Cypher 查询语言执行各种查询和分析命令以检索相关数据信息。
图5 基于Neo4j 的数据建模及存储
经过数据收集与预处理、本体构建与知识抽取、数据建模与知识存储3 个环节,知识产权课程知识图谱的构建已基本完成,其能够展现节点关系,将复杂的数据可视化。 在立体化知识产权教学资源建设中,我们可以根据需要构建不同类型的知识图谱,重点需要构建分问题的知识产权法律知识图谱,以及分案由的知识产权个案知识图谱。
基于知识图谱的立体化知识产权教学资源,不仅可以构建强大的数据模型,还可以将其应用于人才培养方案的优化、教育资源生态创新、个性化教学和智能问答中,为师生互动、生生互动提供平台和场景,为学生提供更丰富和更深入的学习体验。
借助知识产权课程知识图谱,我们可以定期更新和优化知识产权人才培养方案,突出知识产权基础核心内容,加强对学生知识产权基础理论和实战方法的训练,强化学生的动手能力,提升学生利用知识产权法律规则解决知识产权现实问题的能力。 与法学专业相比,知识产权专业课程内容的更新更加频密,因为知识产权密集出现在新领域、新业态中,新的知识产权法律规则持续出现,现行制度不断修订,如1984 年出台的《中华人民共和国专利法》,分别于1992 年、2000 年、2008 年、2020 年进行过4 次修订,《中华人民共和国专利法实施细则》《专利审查指南》也必须随着《中华人民共和国专利法》的修改进行更新。 由于知识产权制度的频繁修订,知识产权课程内容也必须同步更新,原有课程体系的知识点需要根据制度变迁不断进行更新和扩展。 此外,新技术的迅猛发展,深刻地影响着知识产权领域的实训实战工具,更多的知识产权实务课程逐步补充到培养方案,新的课程内容不断叠加与扩展。
课程设置是人才培养方案的核心,知识产权人才培养方案需要与时俱进,也需要根据知识产权法律法规的修订、知识产权实战工具的升级进行同步更新和优化,而知识图谱为知识产权课程重构和流程再造提供了便利。 在知识产权课程知识图谱的基础上,我们可以通过课程团队教学研讨会和相关专家意见征集,充分考虑多方需求,确定专业课程的核心知识点、每门课程知识点的聚类和归属,做好知识图谱在每门课程中的重点布局。 在确定课程核心内容的同时,划定课程学习的拓展范围。 此外,我们也要建立不同课程之间相关知识点间的联系,根据不同课程的逻辑关联,进行科学合理的教学计划和安排。 如专利法、专利信息检索与利用这2 门课程的知识点有密切关联,前一门课程是后一门课程的学习基础,基于知识图谱,能更好地表达这2 门课程之间知识点的逻辑关联,实现不同课程教学内容的有序衔接,去除相同或类似教学内容在不同课程中的重复和冗余。
立体化知识产权教学资源丰富,类型多样。 这无疑给了学生更多选择,但与此同时,学生在海量的信息资源中迅速识别所需知识的难度也必然变大。若使用知识图谱的标签和分类,则能帮助学生更容易找到所需课程的知识单元及其他相关知识单元,所以,基于知识图谱构建的立体化知识产权教学资源能给学生提供更有针对性的指引。
基于知识图谱构建的知识产权专业领域的知识地图能很好地指引学生,实现个性化教学设计。 同时,利用知识图谱的数据构建知识地图,可以帮助学生更加直观地理解知识产权领域的关键概念和关系。 具体而言,我们通过在知识产权系列教材及相关前沿文献中收集知识点,对这些知识点进行文本数据挖掘,并寻找不同知识点之间的相依结构,最终形成知识地图。 知识产权专业核心课程涉及专利法、商标法、著作权法、反不正当竞争法、知识产权国际保护等法学类课程和知识产权管理、知识产权信息检索与利用、专利代理实务等管理类课程,将这些课程的教科书的文本作为数据集,采用专业教材给出的名词索引目录和论文的关键词搜索核心知识点,经过知识抽取形成知识地图。 通过以图导学、以图促教,引导学生重点关注没有掌握的知识点,哪里不会学哪里,还可以通过将与学生学习密切相关的课内外作业、考试与课程知识图谱构建关联,进而建立知识点和学生之间的关联,实现个性化教学。
近年来,基于知识图谱的智能问答已成为诸多应用场景的重要组成部分,尤其是基于深度学习和神经网络的自然语言处理模型ChatGPT 的出现,进一步提高了基于知识图谱的智能问答的准确率和效率。 ChatGPT 出现之后,虽然有人质疑基于知识图谱的智能问答存在的意义,但事实上,基于知识图谱的智能问答,比ChatGPT、文心一言等人工智能更适合专业门槛高的应用场景。 立体化知识产权教学资源建设就属于这样一类应用场景,其专业化程度高,需要很高的准确率。 在立体化知识产权教学资源中,不仅包括教学活动开始之前的静态初始资源,还包括课程教学过程中乃至课后产生的衍生信息,如线上永不下课的课程平台,记录了生生互动、师生互动留下的问答信息,日积月累形成问答库。 若利用分问题的知识产权法律知识图谱和分案由的知识产权个案知识图谱,则能更好地为学生娴熟掌握知识产权法律规则及其适用范畴提供智能化的指导,既解决了在生生互动中准确率难以保证的问题,也解决了实践中因生多师少而回答不及时的问题。