〔摘要〕专利分析报告是针对世界上最大的技术信息源专利而进行的情报分析产品,能为决策者提供较为全面的技术信息。而专利分析报告内容要素全面准确的揭示则是其价值最大化发挥的重要基础。本文总结了中文专利分析报告需标引的内容要素及其特点,根据其内容要素文本特征来选取相应的标引方式,并分析了中文专利分析报告标引质量的影响因素,从而构建科学合理的标引质量控制机制。
〔关键词〕专利分析报告;内容要素;标引;质量控制;机制
DOI:10.3969/j.issn.1008-0821.2017.05.006
〔中图分类号〕G25553〔文献标识码〕A〔文章编号〕1008-0821(2017)05-0033-04
A Study of Indexing Control Mechanism for the
Content Elements of the Patent Analysis ReportsZhang Jing1,2,3
(1.Library of Chinese Academy of Sciences,Beijing 100190,China;
2.University of Chinese Academy of Sciences,Beijing 100049,China;
3.Archives of Chinese Academy of Sciences,Beijing 100190,China)
〔Abstract〕Patent analysis reports are carried out to provide more comprehensive technical information for policy-makers according to patent,the worlds largest technology information source.The fully and accurately indexing for content elements of the patent analysis reports is an important foundation to maximize its value.The content elements required indexing and its characteristics of Chinese patent analysis were summarized to select the appropriate indexing method.Then the factors affecting the indexing quality were found to build a scientific and rational indexing control mechanism.
〔Key words〕patent analysis report;content elements;indexing;quality control;mechanism
戰略决策的制定必须依据一定数量的可靠信息[1]。而专利是技术创新和科学技术发明的产物,是世界上最大的技术信息源,全世界技术成果的80%都能在专利文献中找到[2]。相比其他信息资源,专利文献具有内容新颖、系统详尽、格式规范、分类科学等特点[3],是重要的战略情报分析数据来源。通过专利分析能够为决策者提供较为全面的技术信息:产业发展现状、技术背景信息、关键发明技术路线、核心研究团队、主要竞争者及其技术布局等内容,能有效地支撑决策者评估技术前景、发现新的人/物等技术资源、认知自己现有技术的改进点、发现解决特殊技术问题的方法或途径、预见未来技术布局重点等。
作为专利情报分析的主要产品,针对专利分析报告进行长期保存,有利于维护已有研究成果,便于研究方法与成果的交互与共享,为后续相关研究及决策提供借鉴与数据支持,减少科研资源的重复配置,更充分地发挥已有成果的价值。而种种目的能够达成的基础在于,能够针对情报研究人员及决策者的使用目的,持续、有效地对专利分析报告进行标引。而针对专利分析报告的利用更多的是基于内容要素的,因此需要对专利分析报告内容要素的标引管理机制进行科学合理的设计与规划。
1专利分析报告内容要素及其特点
专利分析报告是对专利说明书与专利公报中大量的专利信息进行分析、加工、组合,并利用统计学方法和各种信息处理技术将之转化为具有总揽全局及预测功能的情报[4]产出,是专利情报分析人员与技术专家合作分析产出的智力成果,具有主题集中、分析数据来源多样、报告格式较为规范、分析层次多、技术分析内容丰富、分析结论较为正式等特点。
整体来说,专利分析报告内容的特点为:①基于不同的分析目的,分析框架会有所不同;②通常一份报告会涵盖多数据库、多检索策略;③包含针对技术的细分框架;④可视化形式多样;⑤技术专家的参与对分析方向有重要作用;⑥包含核心/重点专利著录与内容信息;⑦缩写及技术领域等编号内容较多。通过总结,可以发现中文专利分析报告需要标引的内容要素及其子要素,见表1。表1专利分析报告需标引的内容要素及其子要素
内容要素子要素时间数据采集时间、分析完成时间人员分析人员、技术专家分析领域上位领域、子领域、技术框架分析框架——检索策略数据源、检索式分析指标统计性、描述性、趋势性、组合指标图柱/条等统计图、地形图、气泡图、引证图等表二维表、三维表……文字技术背景、图表解释、结论核心专利信息专利号、题名、申请时间、授权时间、法律状态、同族信息、专利权人等技术领域IPC、MC、EC、UPC等缩写国家代码、文献类型代码、机构名称缩写、专有名词缩写等
21标引方式选取原则
人工标引与自动标引两种主要方式中,人工标引能有效利用人的智能,识别程度较高,但Cleverton[5]指出,人工标引存在较高的标引一致性的问题,并且完全人工标引已经无法适应信息时代的信息增速;而自动标引在规则内可以有效解决一致性与工作量的问题,但却存在准确率与召回率不高的问题。黄绍杉等采用条件随机场方法对英文专利摘要信息进行自动抽取,提交第八届日本国立信息学研究所信息检索和获取系统测试集(NTCIR-8)评测会议的参赛结果为准确率接近04,召回率尚不到016[6]。考虑到专利分析报告涵盖的内容远多于专利摘要的信息,且中文资料尚有分词等獨特问题的存在,针对专利分析报告的完全自动标引质量尚有待商榷。
正如Lancaster和Warner所说,自动标引技术距离完全实际应用仍有很长的距离,只有机器具有足够智能,才能完全替代人类完成这项重要工作[7]。因此在目前的技术条件下,专利分析报告的标引不能完全直接依赖自动标引技术,应通过人的监管,保证标引结果一致性与完备性的同时,通过机器学习等手段,在标引工作中不断丰富完善基础知识库,以实现自动标引系统的长期完善。只有人工和自动标引相结合,才能提高标引效果与标引效率,才有利于标引工作的持续发展。
总的来说,专利分析报告标引方式的选取需要遵守以下几个原则:①不盲目追求“全自动”,要以提高标引质量,便于长期保存和用户再利用为首要目标;②在标引人员监控下,由计算机完成的工作是较为可靠的;③计算机做不好的,要由标引人员来做,如对战略情报研究成果的主题词标引;④计算机做得不好的,标引人员要给予辅助;⑤采取各种手段,如机器学习等,让计算机做更多的工作,逐步提高自动化水平。
22专利分析报告内容要素文本特征及标引方式
专利分析报告的内容要素具有如下文本特征:①技术领域通常有一个不断细化的过程,具有相应的上下位关系;②技术领域作为分析的重点,是专利分析报告的核心信息,会在报告中反复出现;③时间、人员、检索策略等内容要素具备明确的指示文本标志,通常也都在特定位置出现;④分析指标多样、表述方式多样、展示形式多样、涉及计算方法、含义、解释等多方面的信息内容。
总体来说,中文专利分析报告格式较为规范,除文字描述关键信息及分析指标外,其他内容要素多有相对稳定的文本特征,见表2。
表2中文专利分析报告内容要素文本特征及标引方式
内容要素文本标志位置适合的标引方式时间数据采集时间截止到、检索时间、检索日期摘要/检索策略附近自动分析完成时间——报告封面下方自动人员分析人员负责人、完成人、分析人员……报告封面自动技术专家院士、教授、博士……致谢、完成人员中自动分析领域上位领域领域报告标题、分析内容反复出现自动+人工子?领?域领域、技术方向一级标题、相应部分反复出现自动+人工技术框架——内容分析表格、标题层次自动+人工分析框架——目录、摘要、报告起始部分自动+人工表2(续)
内容要素文本标志位置适合的标引方式检索策略检索策略、检索式、数据来源脚注、附录自动分析指标——图/表标题、相应部分多次出现自动+人工图、表图、表正文中的图表标题自动文字技术背景——报告开始部分的定性描述自动+人工图表解释见图、见表……正文图表标题上下自动+人工结论结论、建议、启示摘要、小结自动+人工专利专?利?号专利、国家代码缩写+数字自动其他著录信息——专利信息一览表格、正文专利号
后的描述文字自动+人工技术内容采用……解决……、主要……专利号后的文字描述、列表自动+人工技术领域IPC、MC、EC、UPC……表头、表名注释、正文自动缩写——列表解释自动
结合前述标引方式的选取来看,时间、人员等有相对固定位置及文本标志的内容要素适合采用自动标引的方式进行抽取,人工适当检验即可,可以减少人员工作量;技术领域、框架及解释性文字关键信息的抽取就必须加入人工干预,以在保持标引结果一致性的基础上,提高对关键技术信息揭示的准确与完备程度。值得注意的是,专利分析指标的分析内容与层级是专利分析报告定量分析的核心,虽然分析指标的种类与数量在一定时间内具有穷举性,但其表述及展示方式的多样性决定了它必须增加人工干预进行指标表述方式的归一化处理,同时不断完善分析指标表述及展示库,以提升自动标引系统的能力。
3专利分析报告标引流程及质量影响因素
专利分析报告的标引工作遵循文献标引工作的一般流程,包括5个基本步骤:查找并利用已有标引成果、主题分析、转换标识、标引记录和标引成果著录、审核[8]。这是一项复杂的技术性工作,标引质量受各个工作环节的制约。
使用5M因素分析法,经过头脑风暴,并与专家讨论后,得出图1所示的影响专利分析报告标引质量的相关因素:标引人员、专利分析报告、进行标引工作的技术平台,以及制度环境。图1专利分析报告标引质量影响因子
1)标引人员是与标引质量直接相关的重要人物因素。标引工作是一项需要耐心与细致的工作,标引人员的工作态度好,用于标引工作的时间足够,则工作会比较细致,标引质量会较高。标引人员关键信息识别能力越高,则能更准确地把握专利分析报告内容的核心,对其内容要素的描述也就更到位。
2)专利分析报告是标引的“原料”。其标引的格式规范程度越高、信息点越完备,专利情报研究及决策者所需信息揭示得越充分,其日后的利用价值也越高。
3)标引工作进行的技术平台是标引工作的硬件条件,系统设计的越细致、越规范、越易用,则越有利于标引工作的规范性开展,有利于提高标引质量;系统的可扩展性越强,越有利于针对新出现的问题随时修改,有利于标引流程与规范的完善;更为重要的,自动标引系统中针对专利分析报告关键信息的文本特征库越完备,越有利于提高系统自动标引的准确性。
4)环境因素主要包括与标引工作相关的管理规范与要求。管理层越重视标引工作、对标引工作的工作量与绩效设置越合理,就越能激发标引人员的工作积极性;标引规则越完善、质量控制流程越合理,越有利于规范标引人员的工作,能够提高标引质量。
4专利分析报告标引质量控制机制
有效提升专利分析报告标引质量的关键在于针对影响标引质量的因素构建相应的关键环节质量控制机制,见图2。
图2专利分析报告标引质量控制机制
1)标引方式的选取是有效进行标引质量控制的核心。针对不同内容要素及其文本特征,选取恰当的标引方式。能够在减少人工工作量,提高标引效率与标引结果一致性的同时,提高关键信息的标引結果准确性与完备程度。
2)构建严格合理的标引工作流程,设置相应岗位,是减少系统误差的重点。①针对不同环节设定专职或兼职岗位,明确各个岗位的职责及细致的操作规范,责任到人;②在各环节的岗位职责上,下一环节有责任检查上一环节工作;③计算机与人工检查相配合进行质量控制;④美国国会图书馆提出了书目社会化的构想,在Web20时代,专利分析报告的标引工作也可以逐步吸引用户参与,以便更贴近用户需求。
3)制定严格的标引规则,是提升人工标引一致性和自动标引内容完备性的重要手段。针对专利分析报告,必须标引哪些内容要素,不同内容要素的标引规范及加工标准都需有细致考虑,并在实际工作中不断完善。
4)内容要素文本特征库的构建与完善机制是不断提升人工标引与自动标引质量的重要前提。内容要素文本特征是人工标引与自动标引过程中的重要参照标准,在很大程度上会对标引结果的一致性及完备性产生重要影响,因此在人工干预过程中,需要对计算机识别有问题的文本特征进行纠正,并补充进入新的文本特征供机器学习及其他人员共享。
5)制定科学合理的管理规范,创造良性标引工作环境,是专利分析报告标引工持续发展的重要保障。管理规范涉及多方面内容:人员绩效考评机制、人员培训提升机制、对技术平台维护和升级的相应规定、各规定的完善机制等。
5小结
针对世界上最大的技术信息源专利而进行的情报分析产品,即专利分析报告,能为决策者提供较为全面的技术信息。而专利分析报告内容要素全面准确的揭示则是其价值最大化发挥的重要基础。
自动标引是信息时代标引工作的发展方向,但现阶段的技术水平决定了目前专利分析报告的标引工作需要根据需标引的内容要素特点及其文本特征选取标引方式,即某些关键信息的标引必须加入人工干预。
因此,为了实现标引结果一致性与完备性的最优,专利分析报告标引需要针对各环节的质量影响因素构建合理的标引流程,设置相应岗位,制定细致明确的岗位规范与标引规则,构建相应的内容要素文本特征库并不断完善,按照科学合理的管理规范来实现专利分析报告标引工作的持续发展。
参考文献
[1]唐炜.面向战略决策服务的专利分析指标研究[D].北京:中国科学院文献情报中心,2006.
[2]MBlackman.Provision of patent information:a national patent office perspective[J].World Patent Information,1995,17(2):115-123.
[3]胡阿沛,张静,张晓宇.基于专利文献的技术演化分析方法评述[J].现代情报,2013,33(10):172-176.
[4]赖院根,朱东华,胡望斌.基于专利情报分析的高技术企业专利战略构建[J].科研管理,2007,(9):156-162.
[5]Cleverton,CW..Optimizing Convenient Online Access to Bibliographic Database[J].Information Services and Use,1984,(4):37-47.
[6]黄绍杉,乔晓东,桂婕,等.基于条件随机场的专利摘要信息抽取研究[J].数字图书馆论坛,2010,(9):7-12.
[7]Lancaster,FW.and Warner A.Intelligent Technologies in Library and Information Ser-vice Applications.Medford,NJ,Information Today,2001.
[8]刘湘生,汪东波.文献标引工作[M].北京:北京图书馆出版社,2001:46-60.