基于频率算符的专利智能化检索策略及其在农药等化学领域中的高效运用

2023-07-05 06:22严华
世界农药 2023年6期
关键词:合金

严华

(国家知识产权局专利局专利审查协作北京中心,北京 100160)

国家知识产权局检索系统的全面升级中上线了智能检索系统。借助智能化技术,智能检索系统引入语义检索引擎,对数据进行了多维度整合,实现了外文文献中文检索。但实践中语义检索和语义分词调整等检索方式仍然存在局限性[1],其根本原因在于“语义智能”不能代替“人”准确地提炼出检索对象的核心检索要素,导致推荐文献准确度不高、噪音大等缺陷。另外,智能检索系统中的多种检索方式(如语义检索、布尔检索等)及其优缺点,也在一定程度上让检索人员存在不知首选何种检索方式、何时停止检索等困惑。

专利检索不仅要求全面、准确,而且还需要检索人员检索快、效能高。然而,智能检索系统关键不仅在于立足其自身语义的优势基础,还需借助“人”这一角色对检索对象的准确把握,并快速提取出所需核心检索要素,构建高效检索表达式,从而避免“语义智能”自身不足,这种检索方式被称为布尔检索+语义排序,即“人工智慧+机器智能”检索。“布尔检索+语义排序”检索方式的重点在于提取、表达布尔检索中的检索要素,以及构建检索式。其中,既要体现检索对象的结果,又要契合被检索对象的目的,使得检索工作回归到检索对象和被检索对象(文献)本质的理解。

笔者认为,文献的本质是作者运用某种技术手段去解决某种技术问题,最终达到某种效果意思的表达。因此,文献实质上是一群涉及技术手段、技术问题、技术效果等词语集合且之间又紧密联系的特征组合。这个“特征组合”就是基本检索要素池,而这基本检索要素池中必然存在些文献着重围绕其展开的词语,即“核心检索要素”,并通常具有如下特点:文献中出现的次数多且之间的距离近,常常在同句/同段中出现。构建一种能够准确体现文献本意的检索式,无疑是要体现出核心检索要素在文献中展现的特点及其之间的紧密关系。

笔者前期研究中发现[2],S 系统中检索表达式(K1/frec>n1)nd(K2/frec>n2)可有效紧密结合邻近运算符nd 和frec 的优点,不仅表达了检索要素出现的频率,还展示了检索要素之间紧密联系,能够较好地体现发明构思在文献中展现的特征。同时,词频(frec)和词距(nd)逐渐被得到运用[1]。

基于前期基础,本文进一步探索检索表达式(K1/frec>n1) “邻近/同在算符”(K2/frec>n2)在智能化检索系统中结合语义排序是否能有助于在农药等化学领域高效应用,其中邻近/同在算符选自P、S、nD;为了确定检索式能否广泛适用于化学领域专利申请,本文选出农药及合金领域典型案例,基于语义检索、语义分词调整等方式,从多方位、多角度对比分析以明确其普适性。

1 化学领域的应用

化学领域涵盖了有机、农药、冶金、高分子等多个技术领域,且申请涉及的技术主题也较为广泛,包括产品(化合物、药物组合物等)、方法(如制备方法、分离方法、用途等)。由于各个技术领域和技术主题的申请存在自身的特点,检索要素的独立性不同,通常这些申请在构建检索表达式以及检索难度也存在较大的差异。下面分别从化合物、制备方法以及组合物方面考察检索表达式(K1/frec>n1)“邻近/同在算符”(K2/frec>n2)的适用性。

1.1 化合物

基于撰写方式,化合物申请可分为马库什化合物申请和具体化合物申请,其检索最大特点:单个核心关键词难以有效、准确地表达出化合物结构,即检索要素与检索单元之间依赖性太强,故常借助STN 等平台进行结构等检索,在传统内网检索平台上难以构建出有效检索式。

前期研究[3]中发现,S 系统中运算符nd 和frec能够有效地将核心关键词紧密结合在一起,准确地表达出化合物共有结构的构成要素,而且形成的检索式“(K1/frec>n1) 10d(K2/frec>n2)”能够有效地运用于化合物申请。在此基础上,本文考察该检索方式结合智能检索系统的语义排序,评估化合物申请的检索效果。

1.1.1 案例1:CN2006101294671

一种具有除草活性的三氟甲基苯基哒嗪类衍生物[3],其特征在于该类衍生物可用通式(I)或(II)表示:

检索对象解析:涉及一类含有由三氟甲基苯与哒嗪相连接构成母核的化合物,且能用于除草。那么,期望获得能报道包含三氟甲基苯与哒嗪构成母核化合物的文献,且最好还能用于除草。

基本检索要素:三氟甲基苯;哒嗪;除草。

核心关键词:三氟甲基苯;哒嗪。

检索式:PD<20161121 and(三氟甲基苯/frec>1 A 哒嗪/frec>1)。

检索结果见表1。

表1 案例1 检索结果

对于农药领域化合物申请而言,直接语义检索以及语义分词调整检索均存在漏检风险,而依据检索对象的解析以及基本检索要素池的共性,准确地建立核心检索要素池并运用邻近/同在运算符和frec 能够构建出体现母体结构(即共有特征)的检索式,即“(三氟甲基苯/frec>1 A 哒嗪/frec>1)”,并利用语义排序(申请号等)能高效、快速获取对比文件。

1.2 组合物

组合物申请包括2 个以上组分及其相应含量,相应的检索要素存在2 个以上(依据描述同样分为核心要素和非核心要素),且每个检索要素又存在多种不同的表达方式,如Zn,俗称锌等,这方面申请尤以合金领域典型。下面结合合金领域的具体案例来探索本文检索式在智能检索系统中的应用。

1.2.1 案例2:CN201911406874

权利要求1[1]:Al-Zn-Mg-Cu 合金,其特征包括以下质量百分比计的制备原料:Zn:6.7%~7.2%,Mg:1.7%~2.2%,Cu:0.20%~0.45%,Mn:0.15%~0.30%,Zr:0.05%~0.20%,余量为Al;所述Al-Zn-Mg-Cu合金中,Zn 和Mg 的质量比Zn/Mg 为3.0~4.0,Zn和Mg 的元素总量≤9.2%。

检索对象解析:涉及一种包含Al、Zn、Mg、Cu 以及Zr 并以特定含量存在的合金。由此,审查员无疑期望获得能报道一种包含Al、 Zn、Mg、Cu以及Zr 合金的文献。

基本检索要素:合金;Al;Zn;M;Cu;Zr;各成分的含量。

核心关键词:Al;Zn;Mg;Cu;Zr;合金。

检索式:pd<20191231 and((Zn or 锌)/frec>1 A(镁or mg)/frec>1A(铜or Cu)/frec>1A(Mn or 锰)/frec>1 A (Zr or 锆)/frec>1 A (Al or 铝)/frec>1 A 合金/frec>8)。

检索结果见表2。

表2 案例2 检索结果

在组合物申请方面,尤其对于多组分的申请,直接进行语义检索或全要素检索检索,噪声特别大,难以筛选出对比文件,且也存在漏检的可能。而基于基本检索要素的核心关键词,协同使用邻近/同在算符和词频算符(frec)构建的检索式(即本文检索式)能够提高检索效率。

1.3 制备方法

制备方法方面的申请涵盖的要素特别多,包括原料、产物、具体步骤、工艺条件等,且发明点涉及的基本检索要素非常多,直接造成检索表达方式也是多种多样,且采用常规的语义检索和布尔检索难以获取到有效对比文件,其根本原因在于检索式无法体现出核心检索要素在文献的特点。下面结合制备方法领域的具体案例来探索本文检索式的高效应用。

1.3.1 案例3:CN2016108852333

权利要求1:一种酸酐与碳酸二甲酯反应合成羧酸甲酯的方法,其特征是步骤:⑴配料:取原料酸酐、碳酸二甲酯和催化剂,酸酐与碳酸二甲酯的摩尔比为1∶1~1∶100,催化剂用量为酸酐质量分数1%~20%;所述酸酐是脂肪族酸酐或芳香族酸酐;所述催化剂是Lewis 酸或质子酸;⑵反应:在高压反应容器中,依次加入酸酐、碳酸二甲酯和催化剂,升温至80~350 ℃,在压力0.1~10.0 MPa、温度80~350 ℃下反应1~8 h,停止加热,降温至室温,放去气体,取出反应后物料;⑶后处理:将反应后物料倒入1~5 倍体积量的饱和碳酸氢钠水溶液中,用乙酸乙酯或二氯甲烷萃取3 次,合并萃取液、并用无水硫酸镁或无水硫酸钠干燥2~3 h 后,过滤,滤液经蒸馏或减压蒸馏除去溶剂,余下物即为制得的羧酸甲酯。

检索对象解析:涉及一种碳酸二甲酯对脂肪族酸酐或芳香族酸酐在Lewis 酸或质子酸进行甲基化制备羧酸甲酯的方法,并限定了相应工艺步骤。由此,审查员无疑期望获得能报道脂肪族酸酐或芳香族酸酐中的任意酸酐与碳酸二甲酯反应制备羧酸甲酯的文献。

基本检索要素:脂肪族酸酐;芳香族酸酐;碳酸二甲酯;Lewis 酸;质子酸。

核心关键词:酸酐;碳酸二甲酯。

检索式:pd<20161011 and(酸酐/frec>1 A 碳酸二甲酯/frec>1)。

检索结果见表3。

表3 案例3 检索结果

对于该申请,通常审查员会结合说明书中具体实施例以及从属权利要求的附加技术特征对基本检索要素“脂肪族酸酐或芳香族酸酐”进一步扩展为“乙酸酐、丁酸酐、苯甲酸酐”等,采用常规的语义检索或布尔算符“and”进行检索,这往往会因扩展不全面而导致漏检或者噪声过大等现象。但是,如果审查员能够依据权利要求的解析、期望文献以及基本检索要素之间共有特征“酸酐”和“碳酸二甲酯”,并巧妙利用频率算符frec 和邻近/同在运算符构建出体现“酸酐”和“碳酸二甲酯”重要性的检索表达式,能够快速获取到相关文献。

2 小结

本文以频率算符为基础,联合其他布尔运算符能够快速降噪,在智能语义排序的加持作用下,实现了“人工智慧+机器智能”协同作用。在检索实践中,检索人员基于检索对象的解析,确定期望获取的文献,明确检索对象-期望文献-基本检索要素之间的共有特征,表达为核心关键词的组合,进而使用词频和词距运算符来协同构建能够体现这些要素关系的检索表达式。笔者通过多个案例证实,该方法聚焦检索对象-期望文献-基本检索要素之间的共性,具有农药等化学领域普适性、检索要素及关键词使用少、文献浏览量少等优点,有助于在农药等化学领域中提高检索效能。

猜你喜欢
合金
奥科宁克与NASA联合研发3D打印用Al-Cu-Zn-Mg合金
反挤压Zn-Mn二元合金的微观组织与力学性能
钼钨合金烧结致密化行为
铁基非晶合金研究进展
Cu1.2Cr0.6Zr合金棒热轧变形及其微观组织演变
Zr-Nb-Fe合金在LiOH溶液中的腐蚀行为
复合添加Zr,Ti和Cr对Al-Zn-Mg-Cu超强合金组织与性能的影响
Hastelloy C-2000合金的焊接工艺
FCC Ni-Cu 及Ni-Mn 合金互扩散系数测定
稀土元素Y和Nd对ZK60合金组织与性能的影响