赵 蕾,翁 巍,庞 泰,孟 灿,高炎哲
(青海省公共信用信息中心 青海 西宁 810001)
小微企业在我国数量庞大,产生的融资数据每日呈指数级增长,导致融资服务中心平台上存储数据规模越来越大,对小微企业融资数据检索存在一定难度。 在信息技术飞速发展的今天,数据智能检索逐渐成为研究者们关注的热点问题之一,罗鹏程等[1]将BM25 模型和基于SimCSE的稠密检索模型结合在一起,实现了科学数据集的高效检索;高萍[2]利用随机游走模型进行高校图书馆文献检索,解决了传统检索方法效率低、精度差等问题;代佳洋和周栋[3]以多任务学习的特征模式进行跨语言信息检索,可以有效改善文本特征提取效果。 尽管我国学者针对数据检索的研究已经取得一定进展,但传统依靠检索方法在处理小微企业融资数据时显得有点力不从心,因此,本文研究一种基于改进哈希学习算法的小微企业融资数据智能检索方法,助力于缓解小微企业融资难、融资贵等问题。
在进行小微企业融资数据智能检索时,需要先获取各类融资数据,作为基础数据[4]。 本文数据主要来源于青海省小微企业信用融资服务中心平台的融资信息库,综合我国企业融资领域的最新研究成果,分别选取了股权融资、债权融资、融资余额、融资利率、行业融资、宏观经济等六大类融资数据,构建初始小微企业融资数据集。 本文在检索之前需要对数据做一系列预处理。 首先,针对原始小微企业融资数据的缺失值,本文主要采用平均数的方法进行填补,由于小微企业融资数据具有时序性等特征,对数据缺失位置前后两个邻近数据进行平均数计算后,将求取的平均数填补在缺失位置即可。 其次,针对原始小微企业融资数据的异常值,本文采用四分位法进行处理[5],异常值简单来说就是数据和其余观测值之间存在较大的偏差,可能因上传失误等原因造成,如果将异常值代入数据检索中可能会产生较大的检索误差。 最后,本文针对原始小微企业融资数据的统计特性,通过四分位法进行异常值检测与剔除。 四分位法就是先将原始小微企业融资数据划分为四等分,并计算出25%位置处的下分位数F1与75%位置处的上分位数F2,表达式如式(1)、式(2)所示:
式(1)、式(2)中,s为升序数组;i为小微企业融资数据集中点的个数。 在下分位数F1与上分位数F2的基础上,即可求出四分位距,如式(3)所示:
式(3)中,F为小微企业融资数据的四分位距。 根据式(3)所求四分位距,即可确定正常数据点的取值范围为[F1-1.5F,F2+1.5F],如果原始小微企业融资数据中有数据点超过该范围,那么该数据点即为异常值,直接剔除即可[6]。
核主成分分析(kernel principal component analysis,KPCA)法具有较强的特征提取能力,被广泛应用于各个领域中,本文也将采用KPCA 作为小微企业融资数据特征提取的工具。 在完成小微企业融资数据的获取和预处理之后,采用decomposition 函数作为特征提取工具,进行KPCA 特征提取。 提取小微企业融资数据的KPCA 特征时,设定关键参数,其结果将直接影响特征提取效果,一是提取主成分的个数,一般KPCA 算法会按照特征值顺序计算特征向量,并返回固定的主成分,固定提取主成分的个数至关重要,综合考虑小微企业融资数据的特点,本文将直接提取出来的主成分的个数设置为2。 二是核函数,由于径向基函数(radical basis function,RBF)具有较高的泛化能力,本文选择RFB 高斯函数作为主成分的内核,其表达式如式(4)所示:
式(4)中,f为RFB 高斯核函数;x为变量;x0为RFB 高斯核函数的中心;σ为RFB 高斯核函数的宽度参数。 如式(4)所示,RFB 高斯函数可以实现非线性映射,本文选择该函数作为KPCA 的核函数。 三是浮点数,主要用于控制RFB 高斯核函数中的特定参数,其表达式如式(5)所示:
式(5)中,δ为RFB 高斯核函数中的浮点数。 在采用RFB高斯函数作为KPCA 核函数提取小微企业融资数据特征时,为避免发生数据过拟合现象,本文根据式(5)来设置浮点数,根据上述内容确定了KPCA 的关键参数后,即可将其搭载于Python 软件中进行数据特征的提取。
哈希算法的基本原理就是通过哈希函数将提取的小微企业融资数据特征映射为哈希码,再计算哈希码的海明距离,即可度量不同融资数据之间的相似性,从而完成检索,虽然常规哈希算法可以实现数据检索,但该算法对离散值无法准确识别,本文引入了深度学习,改进常规哈希算法,形成一种深度哈希学习算法,来进行小微企业融资数据的智能检索。 深度学习是一个具有较多网络参数且网络层次较深的多层网络结构,被广泛应用于图像、语音等数据分类识别的领域。 本文将深度学习网络结构和哈希学习算法结合在一起后,构建一个基于深度哈希学习的数据检索模型,在该模型中主要分为两个模块:一个模块用于学习近似哈希码;另一个模块用于近似哈希码的分类识别,找出最相似的哈希码。 那么本文在构建深度哈希学习模型时,关键在于损失函数的确定,损失函数作为模型学习目标,对建模至关重要,首先是样本对距离的损失函数,由于本文设计的小微企业融资数据智能检索方法的主要目标就是计算样本哈希码之间的相似性,根据样本对距离损失函数来描述样本相似性,其表达式如式(6)所示:
式(6)中,g为深度哈希学习模型中测量样本对距离的损失函数;b为样本标签,当b =0 时为样本标签相同;D(x1,x2) 为给定小微企业融资数据样本对(x1,x2) 二进制哈希码之间的海明距离。 然后是语义保留性的损失函数,在进行小微企业融资数据智能检索时,除了考虑学习样本之间的相似性,还需要考虑单个样本的标签分类精度,语义保留性的损失函数非常关键,在单样本标签信息学习生成哈希码后,需要在保留个体语义特征的基础上进行分类,本文在深度哈希模型中设置了式(7)所示的损失函数:
式(7)中,Loss为softmax 分类损失函数;Y′ij为深度哈希模型中第i个小微企业融资数据的第j个输出单元的期望输出值;Yij为深度哈希模型中第i个小微企业融资数据的第j个输出单元的实际输出值;I为小微企业融资数据样本的总数量;J为小微企业融资数据集的总类别数。 根据上述内容构建了深度哈希学习模型后,输入小微企业融资数据特征进行模型训练,并根据训练结果优化模型参数,然后再向优化后的深度哈希学习模型中输入小微企业融资数据特征,即可通过端对端的方式将数据特征以二进制哈希码的形式进行检测,检测完成后返回最相似的数据,将其作为小微企业融资数据智能检索结果进行输出。
本文以青海省小微企业信用融资服务中心平台上存储的融资数据为例,展开仿真对比实验。 该平台将覆盖省市县三级,面向全省各级银行、保险机构、担保机构等提供入驻、产品展示服务,面向全省所有中小微企业、个体工商户等市场主体提供融资增信、融资对接、政策支持服务,面向政府部门、监管机构提供政策发布、决策支持服务。 由于青海省小微企业信用融资服务中心平台存储数据极多,本章将随机选择297 000 个数据作为实验数据,并根据融资数据类型进行数据集的划分。 实验数据的具体分布情况如表1 所示。
表1 实验数据的基本统计信息
基于上述实验数据,依次执行基于改进哈希学习算法的小微企业融资数据智能检索方法、基于哈希学习算法的小微企业融资数据智能检索方法、基于深度学习的小微企业融资数据智能检索方法进行实验数据的检索,并根据实验结果来检测本文设计方法的检索性能。
在本次仿真实验中,将本文设计方法与两种传统方法做了对比,为验证设计方法的优越性,本文采用MAP 值作为检索结果的评价指标,其计算公式如式(8)所示:
式(8)中,κMAP为小微企业融资数据检索结果的MAP 值,该值越大表明检索结果越精确;γn为第n个小微企业融资数据的检索精度;N为小微企业融资数据的数量。 在上述实验条件下,分别统计与计算各检索方法的检索结果,具体结果如图1 所示。
图1 小微企业融资数据检索结果对比
如图1 所示,本文分别在6 种不同类型与不同规模的小微企业融资数据集上执行了不同方法的检索对比实验,本文方法在各数据类型下均达到了最好的检索效果。 具体来说,随着待检索的小微企业融资数据规模的不断增大,常规哈希学习方法与深度学习方法所得检索结果的MAP 值逐渐降低,表明这两种方法的检索精度越来越差,而本文设计方法所得检索结果的MAP 值不会随小微企业融资数据类型与规模的变化而变化,表明设计方法的检索性能较为稳定,同时计算出设计方法下小微企业融资数据检索结果的MAP 均值为0.974,较对照组方法分别提升了0.233、0.317。 由此可以说明,使用本文设计的基于改进哈希学习算法的小微企业融资数据智能检索方法,进行小微企业融资数据的检索是可行且可靠的,所得检索结果的准确度较高,符合本次研究目的。
综上所述,本文提出了一种基于改进哈希学习算法的小微企业融资数据智能检索方法,该方法通过深度学习改进常规哈希算法,形成一种深度哈希学习算法,将该算法应用于小微企业融资数据检索中,在提高融资数据的检索精度方面具有显著优势。 目前,文中主要采用了无监督的深度学习进行哈希算法的改进,未来,本文将综合考虑有监督学习任务的特殊性,进一步优化算法性能,使检索方法推广应用到更多领域,为小微企业的融资提供更加智能化的支持。