知识产权公共服务数据语义组织模式研究

2023-02-21 13:07
现代情报 2023年2期
关键词:公共服务语义知识产权

李 楠 张 慧 赵 阳 汪 波

(华东理工大学科技信息研究所,上海 200237)

知识产权公共服务是围绕知识产权的创造、运用、保护和管理为社会公众和创新主体提供信息共享、数据开放、政务服务、分析咨询等基础性服务[1],目前以专利、商标、地理标志、集成电路布图设计等为核心的知识产权基础数据以及相关的政策文件、法律法规、技术文献等数据源,共同构成了开展服务的保障性数据资源,成为公共服务体系的数据基础和服务支撑。近年来,积极推进的信息服务平台建设汇集了越来越多的优质数据资源[2],极大地提升了公共服务的供给能力。然而,数据资源的丰富并不意味着信息获取的可保障性和知识服务的有效性,公共服务过程中暴露出的数据可用性不强、内容揭示不充分、服务支撑能力不足等问题成为导致数据建设和服务功能开发面临挑战的重要因素。

归根结底,实现数据资源的有序组织、深度开发,才能在数据有效管理和合理增值的基础上保障公共服务的有效性和服务水平的提升。当前科技文献资源的深度开发与利用已有许多有益的实践与探索,诸如通过引入语义计算、人工智能等新技术手段,实现文献资源的元数据抽取、内容识别与结构化、语义关联构建等,提供了可参考的实现方法与技术路径。本文从当前知识产权公共服务平台建设现状调研入手,梳理归纳公共服务数据的特点以及现有组织管理模式的局限,在此基础上进一步明确公共服务数据的语义范畴及其在服务场景下的具体内涵,建立公共服务数据的语义组织实践路径,以期为优化公共服务数据资源的组织呈现模式、提升数据驱动的公共服务效能提供可行的解决方案。

1 知识产权公共服务数据资源现状分析

1.1 知识产权公共服务平台建设情况调研

服务平台是开展知识产权公共服务的重要载体,直接反映公共服务发展现状,因此国内学者对相关平台建设现状和服务水平一直较为关注。刘进军等[3]主要以高校国家知识产权中心为对象,调研其服务平台建设情况,并针对高校服务特点提出策略建议;张发亮等[4]分析了我国区域知识产权信息服务平台建设和服务存在的问题,重点关注了用户的主要信息需求,并提出了适应需求的平台框架及三级四维运行机制;林建[5]、韦景竹等[6]均关注粤港澳大湾区的公共信息服务平台建设;冉从敬等[7]则是从知识产权生态链视角分析并提出建立覆盖全流程服务的平台模型。然而已有成果大多围绕平台框架、功能设计或服务模式开展研究,较少关注相关服务的数据赋能因素,对于平台数据资源开发与利用的现状也缺乏专门全面的分析。因此,本文聚焦数据资源的组织、开发与利用,以平台数据资源为切入点开展调研,为后续研究提供参考依据。

考虑到以单一类型的服务平台为调研对象无法全面反映数据资源建设现状,笔者选择截至目前由国家知识产权公共服务网所公开的158个省级公共服务平台资源为调研对象(参照省市知识产权公共服务平台及主要知识产权公共服务资源目录)[8],旨在覆盖更加多元化的平台类型,以便得出更加全面的调研结论。调研对象主要包括如下4种平台类型:已完成地方站点部署的新一代地方专利检索及分析系统平台29个,主要面向社会用户开放提供专利数据的检索、浏览、分析及全文单篇下载、著录项目信息批量下载等功能;省市级综合性知识产权信息服务平台34个,汇聚各类知识产权基础数据及线上业务提供综合信息服务,包括但不限于线上事务办理、检索分析服务、提供相关工具、特色数据库资源等;国家认定的高校知识产权信息服务中心或技术与创新支持(TISC)中心等专业服务机构平台45个,依托科技查新、教育培训等开展专业信息服务;另外还有50个由其他知识产权企业或机构提供的服务平台或信息服务发布主页。

1.2 知识产权公共服务数据组织与利用现状

根据功能定位差异,各平台所收录的数据资源类型、加工状况以及提供服务的形式也呈现出不同的特点,将支撑知识产权公共服务的常见数据资源根据内容划分为以下类型:基础数据、文件资料数据、科技文献数据以及经济数据。

1)基础数据:知识产权公共服务围绕知识产权创造、保护和运用的全流程开展。因此,以专利、商标、地理标志、集成电路布图设计等为代表的知识产权基础数据是公共服务的核心数据资源。现有平台对基础数据的覆盖度很高,但目前以原生数据形态提供检索查询、数据下载等服务的平台仍然占据大多数。另外,对基础数据的统计分析成为衍生数据服务的主要形式,例如省市级知识产权信息服务平台(典型实例如图1所示)大多提供基础数据的访问获取服务,实现相关数据的汇总统计形成增值的衍生数据,并通过多种可视化手段展示区域知识产权发展现状。对基础数据的加工主要是对著录信息和主题分类的标引,为数据访问获取提供检索和浏览入口。也有部分平台开始探索对基础数据的深度加工,比如新一代地方专利检索及分析系统,不仅提供了专利数据丰富的传统检索入口,还结合化学知识提供结构式检索进一步丰富检索途径,建立了专利数据与IPC、CPC分类以及国民经济分类的映射关系,同时在语义标引的基础上提供了常用药材等领域词表,支持药物检索等增值功能,实现对新治疗用途、治疗作用、分析方法、方剂组成等知识单元的检索。部分平台基于对基础数据的深度标引和开发建设,形成了特色专题数据库、信息研报等知识服务产品,如国家知识产权局推出的新冠肺炎专利情报专题库、中药专利情报等。

(左:长三角知识产权信息公共服务平台https://csjipfw.com; 中:上海市知识产权信息服务平台https://www.shanghaiip.cn;右:新冠疫情防控情报专题及信息共享平台http://ggfw.cnipa.gov.cn/)图1 基础数据组织与呈现——以省市级综合知识产权信息公共服务平台及专题库建设为例

2)文件资料数据:政策公文、战略规划、法律法规等指导性或规范性文件资料也是知识产权公共服务不可或缺的信息内容,提供相关数据的查询服务,是用户了解国家战略方针、发展方向以及相关权威资讯的重要渠道。目前,大多数平台对于此类数据服务以原始文件清单展示及关键词检索为基本服务形式,少量平台对文件进行了分类标引,例如国家知识产权局对政策进行了公告、通知、白皮书等子类细分,对法律法规则是按照知识产权类型进行专利法律、专利行政法规、专利部门规章、商标法律、商标行政法规等子类细分;中国科技情报网则是提供了创新政策等数据资源的关键词、摘要、产出机构等字段检索,同时针对创新政策建立更为细致的两级主题类目,包含科技战略与规划、科技政策、国民经济与社会发展规划,以及单独设置的新能源、科技人才、战略性新兴产业等热点专题分类。

(左:中国科技情报网https://www.chinainfo.org.cn/; 右:国家知识产权局官方主页https://www.cnipa.gov.cn/)图2 文件资料类数据的组织与呈现——以政府部门官网及情报服务平台为例

3)科技文献数据:科技文献以记录科学技术知识为主要功能,除了已列入知识产权基础数据的专利文献以外,科技论文、学术专著、技术标准等各种形式的文献都成为体现科技创新进展、指导研发方向、规范科研路径的重要载体。以科技创新服务为功能定位公共服务平台大多将科技文献数据纳入基础服务资源建设范围,但目前主要的服务形式以提供数据查询接口为主,大多链接到独立的外部文献数据库,如万方数据资源、中国知网CNKI等,并未将相关资源纳入平台管理范围,仅有少数综合性信息服务平台提供专利相关的科技文献检索和咨询服务。另外,公共服务过程中技术标准服务普遍性远高于其他类型的科技文献。

4)经济数据:知识产权数据本身具有技术、法律和经济多重属性,而在公共服务中产业或行业宏观数据、以企业为主体的市场数据和商业信息等一手资料对于知识产权分析评议等深层服务具有重要的支撑作用,因此也有平台关注相关数据的收集组织和利用,比如安徽省知识产权数据管理系统将企业信息与其他知识产权基础数据进行关联呈现,有助于通过创新主体分布情况等把握区域知识产权发展的整体态势。但由于相关数据服务的受众较少且仅适用于特定目标的深层次服务,目前少有平台将此类经济市场数据纳入管理范围,平台覆盖度较低。

表1 知识产权公共服务数据组织与利用现状

综上所述,服务平台对各种数据资源的覆盖度各有侧重,具体分析不同类型平台的实际情况可以发现受其服务定位的影响差异化明显。总体而言,大多数平台仍以基础数据服务为重心,兼顾政策文件、法律法规、战略规划等文件资料的参考咨询服务,综合科技文献、经济数据等多元化信息的深度分析服务仍局限于少数服务主体,线上平台显示度较低。

从知识产权公共服务平台的数据组织与管理状况来看,在公认的数据组织规范和标准体系框架尚未形成之前,公共服务数据资源建设除了将服务所需的多源数据纳入治理范围以外,亟待解决的仍然是如何推动数据深加工、提升数据集成效能。归根结底,公共服务数据的有效组织和呈现是有效支撑公共服务开展的关键核心。本研究以当前开展的典型服务为切入点梳理公共服务数据的基本构成,并从中挖掘服务应用场景下的核心数据元素、组织维度及其关联路径,希望通过公共服务数据的语义组织模型构建为数据资源建设提供可行的解决方案。

2 知识产权公共服务数据的语义组织内涵

2.1 基本构成与服务场景支撑

结合当前公共服务数据资源的建设实际,知识产权公共服务数据的基本构成根据其来源和功能可进一步划分为原生数据和增值数据两类,如表2所示。原生数据是目前数据赋能服务的原始数据形态,以知识产权基础数据为主,一方面,原生数据作为开放共享的原始数据源直接成为公共服务数据,用户可通过检索查询直接获得所需数据集,了解相关信息;另一方面,则可以经过适当的加工处理形成增值数据,成为公共服务数据的间接来源。数据增值一般有两种途径,一是建立与相关数据的语义连接,形成信息量更为丰富的关联数据,例如:专利数据与科技论文、学术专著等科技文献关联提供技术创新所需背景信息,与企业、产品等行业信息关联提供市场布局所需环境信息;二是经过统计分析、本体建模与实例化等深度加工挖掘,以统计数据集、知识图谱等适当形式呈现的衍生数据,实现专家人才、技术成果、企业、产品等关键实体要素的提取、关联和有效呈现。

表2 知识产权公共服务数据的基本构成

在当前的知识产权公共服务架构下,按照服务的内容性质可划分为基础性公共服务、行政性公共服务、专业性公共服务及深层次应用服务4种场景。其中,基础性公共服务面向社会公众及一般性用户提供无差别的内容服务、检索服务及基础咨询服务,包括知识产权基础数据查询下载、国家/区域相关政策法规等文件资料检索浏览、基础业务知识咨询等,优先保证数据的可获得性、全面性、准确性和时效性,力求平台数据入口简洁、无访问障碍;行政性公共服务主要面向企业、知识产权从业人员等具有在线办理知识产权申请、交易、保护等相关行政管理业务需求的用户,优先保证平台功能对在线业务处理流程的支持以及操作规范化、便捷性;专业性公共服务则是面向知识产权研发、创造、保护与利用过程中的专业分析服务,包括:研发创新过程中开展的技术与产品分析服务,专利预警、专利导航、知识产权布局等特定场景的情报分析服务,重点关注对基础数据及技术性较强科技文献数据等的深度挖掘与分析利用;深层次应用服务则是在专业服务基础上面向知识产权孵化、交易转让、策略制定、合作研发、成果转化等的深度分析评议服务,依赖于对基础数据及相关数据等更广泛数据范围的综合研判。如图3所示,原生数据和增值数据共同支撑不同场景的服务。

图3 知识产权公共服务数据的场景支撑

2.2 语义组织内涵及实现路径

高质量的数据赋能服务并不止于简单的数据原始形态呈现,而是需要经过加工处理和有序组织才能实现应用增值,参考科学文献与档案数据化过程中的语义组织内涵[9-10],本文将公共服务数据的语义组织定义为将相关数据的内容结构化、编码形式化、关联显性化的过程,包括识别、理解、分析和充分表达公共服务场景下的数据语义及其关联。根据公共服务的数据需求,可以将语义组织分为核心语义组织和拓展语义组织两种。核心语义组织主要是指实现基础数据所包含语义实体的多维度集成,关键的语义实体包含技术、人物、机构、企业、成果等,涉及时间、主题、地域、行业、产业、领域等语义维度,主要为基础性公共服务提供细粒度的语义组织网络,优化检索访问途径,提升数据获取效率,同时为专业性公共服务和深层应用服务提供语义增强的数据基础。拓展语义组织是指基础数据与其他外部数据源之间关联语义的构建,强调关联数据与基础数据的语义集成与互补,通过与科技文献、政策文件、经济数据等包含的语义实体建立关联映射,满足为知识产权创造、保护和运用过程提供深度服务的数据需求,是专业性公共服务和深层应用服务的关键数据支撑。

基于公共服务数据的基本构成以及语义组织内涵分析,可以建立如图4所示的语义组织实现路径,自左向右的数据组织呈现过程反映了数据从原始形态到可利用形态的转化过程,从原生数据到最终服务数据的加工过程包括元数据标引、主题抽取、语义实体及关系识别、可视化等不同层次和粒度的实体要素挖掘和组织,而这一过程往往需要对接检索查询、创新分析、竞争调查、人才评价、布局分析、环境监测等不同的具体服务需求。

图4 知识产权公共服务数据的组织呈现过程

基础数据及关联数据的元数据用于描述应用于公共服务的各种多源异构数据的属性信息,主要涉及:知识产权基础数据(如专利、商标、地理标志以及集成电路布图设计)的题录及全文信息;知识产权相关文件资料数据的题录及全文信息,如指导知识产权工作的政策、法律法规等文件,相关技术领域的论文、标准、专著等科技文献等;反映产业、行业经济活动及发展状况的市场数据,如企业信息、产品信息、经营数据、渠道策略等。上述信息的识别与抽取过程即为公共服务数据的元数据标引过程,这一过程为公共服务数据的分面检索提供了主要的查询字段和检索入口,成为进行计量分析的主要数据来源,同时也为数据的语义增值奠定了基础。

公共服务数据源具有丰富的技术、法律和经济属性,其中,技术主题大多以专有名词、领域术语等形式反映研发过程所涉及的技术、方法、理论等,其他内容主题则以关键词、数值型数据等形式反映政策导向、规范依据、市场现状等。主题抽取的关键在于识别并抽取相关数据中的核心概念,常借助自然语言处理、深度学习等机器学习技术辅助人工开展主题标引,标引的结果可作为主题词表的重要来源和技术、政策、市场演变的分析对象,同时也可以提升知识产权信息检索与数据管理的效率,能够有效地支撑分面检索、趋势分析以及专题知识库建设等应用场景。

在知识产权公共服务情境下,除了词汇表征的技术或其他内容主题外,还涉及多种不同类型的语义实体,如:产品、技术成果等业务对象,专家人才或企业、研发机构等创新主体,代理相关业务或提供法律、信息咨询的服务机构等服务主体,这些实体具有鲜明的属性特征,在公共服务中作为相对独立的对象存在,同时又通过相互的作用和关系具有更为广泛的用途和价值。例如:在知识产权成果转化过程中涉及技术成果在研发机构和企业之间的转移,同时可能涉及在服务过程中技术合作对象、代理机构、服务机构等多种角色的实体信息关联推介,因此,语义标引过程还涉及对这些实体、属性及其潜在关系的识别和挖掘。

3 知识产权公共服务数据的语义组织技术框架与实践原则

3.1 技术框架

数据的语义组织是语义技术与数据管理的结合,在不同的数据应用场景下从数据中抽取具有不同含义的数据要素,经过关联组织后形成高质量的数据网络支撑多元化的服务需求。因此,知识产权公共服务数据的语义组织过程包括从数据的题录或全文中明确其元数据描述,识别专业词汇、格式元素以及命名实体等代表核心知识或主题内容的细粒度数据元素,并通过信息抽取、知识组织、分析推理、可视化技术等实现原始数据的语义增值,最终实现包括各类实体、属性维度及其关联等在内的数据语义标注、组织和形式化。本文依据现有针对科技文献资源语义组织实践经验,设计知识产权公共服务数据从原始数据集到语义增强数据集的语义组织过程整体框架,如图5所示。

图5 公共服务数据的语义组织框架

1)信息抽取技术。从不同类型公共服务数据中识别抽取不同粒度的数据元素,如元数据[11]、专业词汇、格式元素、实体名称等具有独立语义的基本信息单元及其组合,可以借助数据挖掘、机器学习、自然语言处理等技术手段实现数据的语义增强[12]。

其中,元数据抽取以建立公共服务数据的基础元数据集为目标,实现题录信息的统一组织与互操作,实现过程要遵循多源异构数据的不同元数据标准制定相应的抽取规则,对于在不同类型数据中命名的多义性和不一致性需要进行必要的语义消歧和关联映射,以实现不同数据之间的语义连通;专业词汇是反映知识产权所涉及技术主题或相关信息的细粒度知识单元,可以借助分词、词性标注等语法分析结合上下文特征识别并筛选所需的技术关键词、科学术语、主题词等。近年来已有较为成熟的机器学习算法,如CNN、RNN或Transformer等深度学习模型在文本处理中取得理想实验效果[13-14],均可应用于全文文本的专业词汇抽取,进而服务于技术主题发现与专业分析等服务场景;实体及其关系抽取是实现数据语义增强的重要环节,传统的命名实体识别是基于自然语言处理等技术进行文本处理的基础上,对识别实体进行分类和关系构建的过程,因而实体与关系抽取往往与特定的语境相关,在特定服务场景下需要明确知识产权公共服务实体类别及其属性,明确服务过程中数据组织维度,梳理实体间的关联类型,本文初步梳理了公共服务数据的5大类实体(成果、技术、人物、机构、企业)以及4种常见组织维度(时间、地域、行业/产业、领域),在实际服务中可以发展出实体之间、不同维度的多种关联关系;其他格式要素的抽取实际是其他数据语义的拓展[15],例如文内图片表格信息的抽取,反映经济数据等的数值性信息的抽取,反映技术模型的公式类信息的抽取等,同样需要基于规则判定、序列标注以及深度学习等技术,针对文内相应内容结构设计并实现有效的分析处理算法。

2)知识组织技术。在科技文献资源组织领域,包括元数据、本体、知识图谱等在内的知识表征和语义组织技术[16]主要用于设计面向科学知识的数据模型,将其扩展至公共服务领域,则可应用于满足多源异构、多粒度的服务数据的组织与融合。例如,知识产权公共服务的全景图谱,通过公共服务本体的构建,真正提升公共服务数据的有效组织和关联应用,实现更多数据集的可发现、可关联、可利用。

3)分析推理技术。公共服务数据组织与呈现最终是为了实现有效利用,其中以参考咨询支持为主要形式的知识服务需要通过对数据进行分析整理并结合知识背景和服务需求进行推演,才能得出有价值的决策咨询支持或分析研判结论。数据语义组织基础上的分析推理[17-18]可以是常规的多层次多维度的数据统计、文献计量、文本挖掘和网络分析,用于技术趋势预测、行业发展布局等宏观层次的专业服务支撑;也可以利用本体推理、语义查询等技术,实现精准高效的语义检索和服务资源推荐,优化传统服务效能。此外,还可以搭建自动监测分析环境实现对区域范围的可持续服务支持。

4)可视化技术。借助图形学和图像处理技术为数据表示、数据处理、决策分析等提供功能辅助的重要技术手段,应用于开放检索、资源推荐、服务产品展示等公共服务场景能够为用户提供更加直观的数字信息呈现,有利于科学全面地展示既有数据的语义组织网络,增强对数据要素的深刻理解,实现服务效用最大化。主要应用包括:信息图等形式的数据可视化[19],实现统计分析的直观展示;知识图谱形式的科学可视化[20],面向技术领域和科研活动的数据建模展示创新模式与特点规律;综合图形学、数据挖掘和人机交互的可视化分析[21],以可视交互界面为通道,将可视化融入数据处理过程,实现更有效的分析推理和决策。

3.2 实践原则

面向不同的应用场景数据的语义组织可能会有不同的实践路径,但都应当遵循数据语义组织的基本原则,这些原则既在方法上继承其他信息资源语义组织的共性方法,但同时也要融入知识产权公共服务的独特属性。

1)多源融合的语义完整原则。公共服务数据的语义增值过程是获取数据语义及其关联关系的过程,在此过程中应首先遵循语义完整原则,包括:完整著录所有公共服务数据的元数据;充分挖掘数据内容,实现重要数据元素的结构化提取;充分结合服务场景特征和需求特点考虑相关实体及其关联关系。

2)需求牵引的链式关联原则。不同于传统科技文献资源以学科知识体系为主要依据进行语义组织,公共服务数据的组织与管理必定与服务密切相关,因此必须在需求牵引下搭建支撑服务的数据语义组织框架,尊重且遵循服务需求建立其各实体间语义关联的链条。这一原则中的“链”,不仅包含依据技术领域及创新体系形成的内容语义链,如技术演进分析需要建立时间维度的技术主题关联,行业布局分析需要建立地域、行业维度的技术、产品、企业等的实体共现关联;也包含服务及创新主体角色形成的机构职能链,在公共服务体系中,服务机构、企业、科研机构、代理机构等主体存在由职能决定的依存关系,如代理机构协助企业等创新主体实现业务申办,科研机构向企业输出技术转移成果,服务机构为企业提供决策支撑信息等;还包含业务流程中所涉及数据之间的语义关联,如研发技术从创造到保护再到运用过程可能涉及专利申请、专利许可或转让等不同业务,关联了专利基础数据、法律状态数据等形成业务流程链。公共服务数据的语义组织需要确保各链条的有效连通。

4 知识产权公共服务数据的语义组织应用实例

本章节通过具体案例展示公共服务数据语义组织在咨询服务中所发挥的价值和作用。如图6所示,以氢能产业导航为例,服务内容主要包括产业发展概况及专利技术分析两大部分,分别从宏观层面总体概括氢能产业链构成、全球典型的发展模式以及国内重点对标省市的发展政策及规划,从技术层面微观视角分析氢能上、中、下游所涉及主要技术领域发展现状。表3显示了不同内容的数据需求,包括其主要数据来源、数据分析所涉及关键要素等,其中,前文所述语义增值过程获得的专业词汇(如关键技术、材料、工艺方法等)、格式元素(如技术路线图、技术性能、经济指标、产能数据等)、实体名称(如企业、研发机构等创新主体,或规划项目、产品等科技成果)都成为支撑服务的基本数据内容。

表3 氢能产业导航服务数据需求

基于语义增值的相关数据,可以直观地绘制氢能产业技术图谱并极大地优化分析结果的呈现效果,本文仅以技术、机构、人物、企业、地域等实体为例,根据导航分析对产业链上游的制氢技术领域发展现状进行简单的梳理归纳。

5 总 结

知识产权领域是多元化数据开放汇聚的典型应用场景,快速发展的数据化进程给知识产权领域的治理结构和治理模式都带来了巨大的变化和挑战。本文关注知识产权公共服务领域,梳理相关数据资源建设管理现状,明确了公共服务数据的基本构成及语义组织内涵,并从中提炼加强知识产权数据治理的关键数据元素,构建有效支撑服务的数据语义组织框架,希望能为数据治理实践提供方法参考。后续研究将着力在语义框架指导下,结合自身业务实践,完成以高校知识资源为基础的区域知识产权公共服务数据平台建设,在实践中进一步细化数据治理实施方案,以期发挥更大的应用价值。

猜你喜欢
公共服务语义知识产权
公共服务
公共服务
公共服务
公共服务
语言与语义
重庆五大举措打造知识产权强市
关于知识产权损害赔偿的几点思考
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
知识产权