全球农业生物技术专利检索策略研究

2018-12-25 11:12徐倩李晓曼郝心宁孙巍
生物技术通报 2018年12期
关键词:学科分类分类号检索

徐倩 李晓曼,2 郝心宁 孙巍

(1. 中国农业科学院农业信息研究所,北京 100081;2. 中国农业科学院研究生院,北京 100081)

农业生物技术是指运用基因工程、细胞工程、发酵工程、酶工程及分子育种等生物技术,改善动植物及微生物品种生产性状、培育动植物及微生物新品种,以及生产生物农药、兽药与疫苗的新技术[1]。农业生物技术的开发应用已经成为现代农业的特征之一。

专利文献是技术创新和法律制度相结合的产物,以高度信息化和国际化的特点,快速反映着当今世界技术发展的最新前沿水平,是指导技术创新的重要信息来源之一。对农业生物技术领域专利文献进行系统分析,宏观层面,其研究结论对于政府规划、决策,对于优化农业产业布局、调整产业结构、引导产业创新有决策支持作用;微观层面,其分析结果对于挖掘技术空白点、跟踪竞争对手、预测技术发展趋势,进而确定技术发展方向、掌握具有自主知识产权的核心技术具有重要的参考价值。数据质量直接影响到分析结果的准确性。如何通过检索策略优化获得一个相对准确而全面的数据集,是本文要探讨的问题。

1 农业生物技术专利检索实践及存在的问题

1.1 专利分类号检索存在的问题

目前,世界范围内所采用的专利分类体系主要包括世界知识产权组织(WIPO)所编制国际专利分类体系(IPC)、美国专利商标局(USPTO)编制的美国专利分类体系(USPC)、欧洲专利局(EPO)编制的基于IPC细分的欧洲专利分类体系(ECLA),以及日本专利局(JPO)基于IPC的编制的日本专利分类体系(FI/F-Term)。韩国知识产权局(KIPO)和中国国家知识产权局(SIPO)均使用IPC。2013年,EPO和USPTO共同启用联合专利分类系统(CPC),这也是一种专利文献的细分类体系[2]。截至2016年7月,世界上已有45个专利局开始使用该分类体系[3],CPC目前仍在不断完善和修订之中。

USPC虽然类目详细,但却十分复杂,掌握和使用上都具有难度。ECLA和FI/F-Term是基于IPC的扩展和细分。ECLA虽然具有分类准确、更新快的优点,但是全球专利数据中仅有部分专利申请具有ECLA分类号。FI/F-Term采用日文,对于全球专利检索应用具有局限性。

IPC作为一种语言独立的专利文献检索、管理工具,对全球专利文献进行了统一分类,是目前世界范围内应用最广泛的专利分类体系。所实行的主要分类标准是采用功能(发明的内在特征与性质)和应用(发明的用途)相结合,且以功能为主的分类原则。IPC的内容设置包括了与发明创造有关的全部技术领域。但IPC版本更新速度慢于热门技术的发展速度,缺少新兴领域技术分类。同时IPC分类体系中存在一个技术主题可能存在多重分类位置的情况,例如“植物生长调节剂”这一技术主题,该主题下,化合物本身入C01、C07、C08大类;作为肥料入C05大类;土壤改良剂或稳定剂入C09K17/00大组。因此,基于IPC分类号进行技术主题检索,就必须对IPC分类位置之间的内在横向联系进行全面检索。如果仅对某一具体技术点,查找其全部横向关联IPC号尚且可行,但是对于农业生物技术这一宏观技术领域,将是一个巨大的工程。

农业生物技术属于跨学科、跨领域的技术,目前在各个专利分类系统中都尚无该技术的专门分类体系。准确识别农业生物技术在IPC分类中的位置,是提高查全率和查准率的一项关键工作。

1.2 关键词检索存在的问题

首先,自然语言常常有一词多义的现象,可能造成输入一个关键词,会查到众多的专利记录,而其中混杂了大量不相关条目。如“PCR”这一缩写,既可以表示“Polymerase Chain Reaction”(聚合酶链式反应),也可以用来表示“Photo-conductive Relay”(光电导继电器)。如何实现关键词的“忠实表达”是检索过程中的一大难题。

同时,农业生物技术领域专利会涉及相当一部分通过化学结构或生物序列等方式描述的化合物,不能通过常规关键词进行有效检索,而这部分专利往往涉及技术含量很高的原始创新化合物,在检索时必须借助化学结构、基因序列等专业化检索手段。这项工作对于情报分析人员是存在一定难度的。

第三,同一个关键词,在形式和意义上都很难做到表达完整和准确。形式上的准确和完整,包括英文检索名词的单复数形式、不同词性、英美不同拼写形式,以及生物的拉丁文名称;意义上的完整和准确,要考虑关键词的各种同义词、上位概念、下位概念、等同特征等。例如,表1中所列出的“基因型”这一关键词,其同义词、上下位概念和相关词就多达十几种;用截词符“*”进行检索词的单复数形式和不同词性的扩展,则将产生更多的检索词。一味追求高查全率会导致检索结果数量过于庞大,里面过多低相关性信息的存在对数据清理和数据分析都会造成很大困难。

可见,利用常规关键词检索方法实现农业生物技术领域专利准确而全面的检索,面临诸多难题。

2 检索策略构建

针对传统的专利分类号检索和关键词检索在农业生物技术专利检索应用中存在的问题,本研究根据国际专利分类标准的特点,在IPC位置识别方法和检索式规则设计两方面进行研究,构建了农业生物技术专利检索策略。

表1 “基因型”关键词表达

2.1 数据来源选择

专利分析在对数据库进行选择时,应考虑到以下几个方面:首先是数据的全面性和权威性;其次是数据项描述的完整、全面和准确性,以便进行多角度、多层次的深入分析和评估。

本研究中我们选用智慧芽专利检索与分析系统(Patsnap)[4]。Patsnap涵盖欧专局、世界知识产权组织、美国、中国、德国、日本、中国台湾等7个地区或组织的专利全文以及100多个国家地区的摘要数据,总数超过1亿余条;支持中、英、日、法、德等多语言全文搜索。对专利的法律状态、同族信息进行了深度加工,丰富了字段信息,更加便于查全和检准。

2.2 农业技术领域界定

Web of Science(WOS)学科分类是目前最为细分的学科分类体系,由来自自然科学、社会科学和艺术人文领域的252个学科构成。该分类模式通过将每一本期刊划分至一个或多个学科而构建。它将一个大学科,例如农业,细分为“园艺”、“农业经济政策”、“农业工程”等若干分支学科[5]。细化的学科定义成为WOS学科分类模式的最重要特征之一。但由于农业与其他学科领域的交叉融合,完全依靠人工对其中的农业领域学科分支进行判读缺乏客观性。

基本科学指标数据库(Essential Science Indicators,ESI)是基于WOS所收录的全球12 000多种学术期刊的1 000多万条文献记录而建立,设置了包括农业科学(Agriculture)、植物与动物科学(Plant & Animal)在内的22个学科分类,每一条文献记录都被唯一划分到22个ESI 分类中的一个[6]。也就是说,被划分到ESI Agriculture学科下的文章与农业科学技术领域相关度最高,没有重叠的学科设置能够使学科和技术界定和细分达到较理想的效果。同时Plant & Animal 与农业领域也有较强的关联性,因此,也将Plant & Animal分类下的文献作为领域细分的基础数据,但需要在后期进行人工阅读和去噪。

但ESI没有对这22个学科分类进行进一步细化,Agriculture 学科分类只能对应到国际专利分类中A01大类中(农业;林业;畜牧业;狩猎;诱捕;捕鱼),颗粒度过大带来极多的噪声,不利于农业生物技术IPC位置的准确识别。因此,我们采集ESI学科体系中Agriculture和Plant & Animal分类下的全部论文,形成农业领域科技文献数据集,进一步生成这些论文归属期刊数据集,通过识别每本期刊所在的WOS学科分类中的位置,完成了ESI Agriculture和Plant& Animal两个领域的宽泛学科分类向WOS细化学科分类的转换,专家判读后,最终得到WOS分类下的15个农业细分技术领域(表2),完成了农业生物技术领域的界定,及生物技术在农业领域中可能的应用方向。

以此为依据,经过文献调研和多方专家论证,从IPC中筛选出与之对应的不同层级的专利分类号,构建了农业领域WOS-IPC映射关系初稿。通过分类号辅助检索验证、并进行检索结果的数据抽样核查,不断对WOS学科分类和IPC的对应关系表进行调整,最终得到较为优化的农业领域WOS-IPC映射关系表,作为今后农业领域专利检索的参考依据,具有参考价值和意义。

表2 基于WOS学科分类的农业领域细分

2.3 农业生物技术IPC位置识别

经济合作与发展组织(OECD)基于第八版IPC对生物技术领域IPC分类号进行了识别,选择的IPC类别包括转基因动物动物和植物;生物技术方法、过程和测试;生物信息学和生物材料等。具体包括 A01H1/00、A01H4/00、A61K38/00、A61K39/00、A61K48/00、C02F3/34、C07G(11/00、13/00、15/00)、C07K(4/00、14/00、16/00、17/00、19/00)、C12M、C12N、C12P、C12Q、C12S、G01N27/327、G01N33/(53*、54*、55*、57*、68、74、76、78、88、92)[7]。中国国家知识产权局结合专利审查工作需要,也对生物技术领域在IPC中主要分类位置进行了梳理,相比较OECD版本,国家知识产权局在C12M、C12P和C12S几个小类中提取了相关性更高的大组分类号[8]。

生物技术在农业领域的应用方向尤为广泛。根据2009年版OECD、2012年版国家知识产权局对生物技术的定义和提取的IPC号,结合农业领域WOSIPC映射表进行具体应用方向限定,最终确定了以下与农业生物技术领域密切相关的IPC分类(表3)。

2.4 检索式构建

一件专利通常被赋予一个主IPC号和若干副IPC号,每个IPC 号对应一个特定的技术领域。尽管专利的各IPC号通常被等同对待,但主IPC号与专利技术创新的相关性最高[9],通常用来代表该发明的专有知识领域或技术主题,即发明的内在特征与性质;而该发明涉及的其他相关知识或技术主题则被分配给多个副IPC号[10],可以视为主IPC号所代表知识或技术的具体应用方向。例如,A01H4/00出现在某件专利的主IPC号位置,则代表该专利的核心技术主题是植物的组织培养技术;如果它出现在副IPC号位置,则代表这些专利涉及运输、化工、冶金、机械、物理、电力相关方法和理论在植物组织培养技术中的具体运用。因此,用主IPC号进行某技术主题检索噪声率相对要低,副IPC号的噪声率偏高。但为了避免遗漏,对副IPC号可以其进行必要的上位组扩展,虽然会带来大量噪声,但其必然符合查全的需要。

本研究根据各IPC号与农业生物技术的相关程度,并结合专家论证,通过主、副IPC号进行限制,基于智慧芽数据库构建检索策略如下:

(1) 主 副 分 类 包 含 A01H1/00、A01H4/00、C05F11/08、C05F15/00、C07K14/415的专利;

(2)主分类为C12N、C07K14/195、C07K14/37并同时包含A01H、A23K和A01N分类的专利;

(3) 主 分 类 为 A61K38/00、A61K39/00、A61K48/00的专利,最终检索式确定为:

MIPC :(C12N OR C07K14/195 OR C07K14/37)AND IPC :(A01H OR A01N OR A23K))or MIPC :(A61K38/00 OR A61K39/00 OR A61K48/00)or IPC:(C05F11/08 OR C05F15/00 OR C07K14/415 OR A01H1/00 OR A01H4/00。

在结果中选定发明专利,总计得到249 832件发明专利(检索时间2017年12月14日)。

表3 农业生物技术领域在IPC中涉及的主要分类位置

3 检索策略评价

检索策略效果一般通过查全率和查准率两个指标进行评价。如图1所示原理,查全率和查准率的计算公式如下:

生物技术在农业领域的应用方向尤为广泛,检索结果数量庞大。本研究通过专利权人抽样,选取孟山都公司(MONSANTO TECHNOLOGY LLC)2010年申请专利和史坦恩种子公司(STINE SEED FARM INC)2011年申请专利进行查全率和查准率计算。具体过程如下:

(1)本研究构建检索策略检索得到249 832件发明专利,对专利权人和申请年字段进行过滤,得到孟山都公司2010年发明专利申请量507件、史坦恩种子公司2011年发明专利申请量30件。

(2)对上步筛选出的专利进行人工阅读、去噪,最终得到检索到的符合要求的文献分别473件和29件。

图1 查全率与查准率

(3)在智慧芽数据库中分别检索专利权人为孟山都和史坦恩种子公司的专利,即检索式分别为为 AN_FACET_CN:”MONSANTO TECHNOLOGY LLC” 和 AN_FACET_CN:” STINE SEED FARM INC”,对结果进行IPC筛选和人工阅读、去噪,最终得到农业生物技术领域孟山都公司2010年发明申请590件、史坦恩种子公司2011年发明申请35件。检索结果验证情况如表4所示。

结果表明,本研究所构建的全球农业生物技术专利检索策略覆盖面是比较全面的,检索结果的可靠性较高。

表4 查全率和查准率抽样验证结果

4 结论

本论文构建了全球农业生物技术专利检索策略,并利用此检索策略完成了全球农业生物技术专利文献的初步采集工作,经验证该数据集较为理想,可以作为全球农业生物技术态势分析的数据基础。

但本项研究也存在一定局限性:IPC分类最初是为满足专利分类和检索需求而编制,可以从一定程度上反映农业生物技术领域的技术主题分布,但难以准确揭示学科交叉性和主题创新性的专利内容,例如,现阶段研究较热的农业合成生物技术、基因编辑技术、纤维素生物裂解等生物技术等,并未有与之对应的准确的类目,在进一步的研究中应尽量弥补这个缺陷。ivepatentclassification. org//index. html, 2017-12-10.

猜你喜欢
学科分类分类号检索
高校二级学院科研管理模式研究
审计学成为一级学科可行性研究
A Study of Chinese College Athletes’ English Learning
中医药信息学教育发展历程回顾与学科发展现状分析
专利检索中“语义”的表现
基于学科分类下的交互式电子白板设备应用绩效评价
国际标准检索
国际标准检索