甘露
随着科技论文数的不断增长,科技论文中的数理公式也大量增加,对数理公式的识别与检索变得尤为重要。目前,许多国内外学者已经对该问题进行了研究。但由于数理公式本身表达方式多样,格式多且复杂,使得数理公式的识别与检索具有一定的难度。在大多数科技文献中,数理公式都是不可或缺的一部分,对数理公式进行识别与检索,构建一个通用的识别检索系统,对于文献的交流共享以及防止文献抄袭作假等有着重要的作用。
1数理公式识别
1.1基于神经网络的印刷体数理公式识别方法
针对印刷体数学公式符号识别进行研究。运用神经网络对印刷体的数学公式符号进行识别首先需要对公式图片进行图像预处理。预处理包括:1)图像二值化,2)细化处理。在預处理的基础上,采用组合不变矩进行数学公式符号特征的提取。具体提取方法为主成分分析和奇异值分解。提取到的特征值将作为后续神经网络的输入。其次针对数学符号进行处理,预处理阶段重点为符号的分割,仍然采用矩方法进行特征提取,运用多级神经网络进行数学符号识别。在特征提取阶段采用了决策树方法对孤立的公式进行抽取,应用神经网络对内嵌公式进行抽取。后又采用了改进的神经网络模型——卷积神经网络。识别公式特征时具有稳定性高的特点,但较为费时。在应用神经网络对印刷体数学公式识别的研究中,已经取得了一定的研究成果。神经网络在模式识别问题中也得到了广泛应用,且识别效果较好。
1.2基于基线结构的印刷体数理公式识别方法
基于基线结构的数理公式识别方法,该方法将识别过程分为六个步骤,即字符预处理、字符分割、字符识别、字符空间关系确定、逻辑关系确定和语义搭建。由于脱机公式的结构固定,无法像联机公式那样可以改变,使分析容易进行,为此,对该算法进行改进. 但该方法只适用于一般的印刷体公式识别,对于结构不明确的公式的识别效果并不理想。
1.3基于多候选的数理公式识别方法
基于多候选的数学公式识别系统,该系统主要包括三部分:公式图像预处理、多候选公式符号分割和多候选结构分析。预处理步骤与其他方法相同。在多候选符号分割阶段,从数学公式图像中分割出带有属性的公式符号串,应用动态规划方法分割公式字符,字符分割完成后,采用基于层次结构的公式结构分析方法对公式进行分析,这里分为三个阶段:多候选矩阵分析阶段、多候选子表达式分析阶段和多候选角标分析阶段。在获得数学公式结构分析结果后,用LaTex 格式和 MathType 格式分别表示这些结构关系树。虽然该识别系统取得了较好的公式识别效果,由于符号的粘连、断裂、多重角标的原因引起的分析错误仍使识别有一定的错误,还需进一步改进.
2数理公式检索
2.1分层次索引法
基于分层次倒排索引的公式检索方法。其公式检索主要包括4个功能:Web页面的下载、公式的提取、公式索引和查询服务。公式提取时会将在Web页面中提取到的LaTex格式和MathML格式的公式存入数据库,并使用倒排表对数据库进行索引,随着索引层数的逐渐增多,索引也就越精确,从而达到了索引的目的。然而在数据量很大的情况下进行倒排索引,索引量会非常大,所占的存储空间也非常大,存储和检索效率都比较低。
2.2基于文本的数学符号索引方法
当数学公式以文本字符串格式存储表示时,数学公式可以看作是由各种数学符号如字母、数字、运算符、函数名等构成的句子。其中的数学符号相当于构成语句的单词。对这些数学符号建立索引,并通过组合查询可以实现数学公式的查询。其中,分词处理方法与普通文本分词方法不同,在处理数学公式符号组成的符号文本时,需要开发新的数学公式分词器。分词结果的好坏对检索结果具有重要的影响,是此方法需要克服的难点所在。且同一公式的表达方式中符号排列不同,无法进行准确的检索。
2.3基于XML的关系型数据库索引方法
由于倒排索引表无法保存公式间的运算关系,首先需要把 XML 文档转换成关系数据库。在数据库中,倒排表存储数学公式索引的文档列表信息,数学公式运算表存储公式间的运算关系,通过表查询实现数学公式索引查询。基于数据库的索引方法的主要问题包括数据库设计、数学公式解析、数学查询到数据库查询的转换。
2.4 Math Search搜索引擎方法
Math Search是一个可进行数学内容检索的搜索引擎,采用了基于全文的搜索引擎 Lucene。Math Search首先利用一系列爬虫进程从网络上收集信息,并判断其是否有数学相关的内容,并从网页中提取所需数学公式、数学符号等。为了实现细粒度的数学公式查询,将搜集到的公式分为若干 N-grams 的子公式,并对每一子公式按照权重计算方法赋予一定权重并建立索引。但 Math Search 系统具有一定的局限性,即无法实现与格式无关的数学公式搜索。因为数学公式有多种描述形式,如果对每种描述形式都能进行索引,就需要开发多种索引方法。Math Search虽然已将几种不同格式的数学公式转换成一种格式,但是目前的转换工作还不够完善,还需要改进。
3总结
数理公式的识别与检索是具有挑战性且有重大现实意义的研究领域。公式检索的关键问题是定义查询语言,规范查询和搜索的文档,定义索引和匹配的方法,并提供相关反馈。公式识别的关键问题是检测和分类数学符号、分析符号布局,并构建意义表示。公式识别与抽取未来的研究方向包括内嵌表达式的检测、矢量图形文档中数学表达式的自动检测、以及PDF文献中公式的抽取等。公式检索未来的研究方向是改进查询和文档表示归一化的方法。包括数学公式的输入、定位、识别和转换等。
(作者单位:中国科学技术信息研究所)