中国科学技术信息研究所在“发明人名称消歧竞赛”中取得优异成绩
【本刊讯】 2015年9月24日,美国专利与商标局(USPTO)首席经济学家办公室在美国弗吉利亚州USPTO总部举办了旨在提高现有专利发明人名称数据精度的“PatentsView专利发明人名称消歧技术研讨会”。会议期间,举行了“专利发明人名称消歧竞赛”。此次竞赛的目的是通过设计专利发明人名称消歧算法,对USPTO收录的近40年(1976—2014年)的美国专利发明人数据(约1239万条记录)进行唯一标识,以改进现有的专利发明人标识算法。中国科学技术信息研究所派出代表队参加了这次竞赛,并凭着在预赛和复赛阶段的突出表现,取得了第二名的优异成绩。
参加本次“专利发明人名称消歧竞赛”的代表队分别来自美国、比利时、澳大利亚、德国、中国等国家的高等学校和科研机构。他们是宾夕法尼亚州立大学(美国)、马萨诸塞大学(美国)、加州大学圣巴巴拉分校(美国)、鲁汶大学(比利时)、斯文本科技大学(澳大利亚)、欧洲经济研究中心(德国)、中国科学技术信息研究所(中国)等。在竞赛中,中国科学技术信息研究所代表队提出了一套全新的发明人消歧混合算法(Mixed Method)。该算法融合了机器学习方法、概率记录链接方法、规则分类方法以及图聚类方法。其核心思想是:通过机器学习以及概率链接方法首先划定整个发明人名称匹配对的核心区域,然而通过加入分类规则逐步扩张发明人名称匹配对的外部边界,从而在保证计算结果的高准确性同时,兼顾了整体算法的稳健性。该算法在AWS平台C3.8xlarge实例上的运行时间为7小时。经过3轮共计20万数据集的测试,该算法的平均精准率(Precision)达到99.52%,平均召回率(Recall)为88.96%左右,平均F1值为93.94%。中国科学技术信息研究所代表队算法的最终测评结果也优于PatentsView平台目前正在运行的算法。
PatentsView(http://www.patentsview.org/web/)是由USPTO首席经济学家办公室主持开发的一个面向未来的专利检索与分析平台。该平台是以提高美国专利数据价值功能及实用功能为目的的可视化分析平台,是USPTO为实现其数据透明化,便利创新者、知识产权从业者、企业及个人利用专利数据而开发的搜索工具。专利发明人消歧问题是目前学术界关注的热点问题,通过对发明人名称进行消岐能够提升现有科研绩效评价、社会网络分析的准确度,也可以为国际人才流动、知识溢出等问题提供更为准确的数据支持。中国科学技术信息研究所代表团队取得的研究成果将为相关方面的研究工作提供更为精确的数据支持。
USPTO全程直播“PatentsView发明人名称消歧技术研讨会”。研讨会的视频已上传网站,敬请收看。视频地址为:http://www.uspto.gov/about-us/organizationaloffices/office-policy-and-international-affairs/patentsview-inventor。(杨冠灿)