高泽,张品一,葛新权
(北京信息科技大学 经济管理学院,北京 100192)
近年来,数字金融经历了从诞生到飞速发展的阶段。数字金融一般是指利用数字技术来实现融资、支付、投资和其他金融业务的模式。我国政府和学者高度重视数字金融的发展,“十四五”规划中提到,我国在十四五阶段应“稳妥发展金融科技,加快金融机构数字化转型”。[1]因此,如何通过合适的方法测度数字金融发展水平以揭示我国数字金融的发展状况,成为了迫切需要解决的问题。
现有的数字金融指标体系多与普惠金融相结合进行指数合成测度,其中国际上以G20普惠金融指标体系为代表,国内则以北京大学发布的数字普惠金融指数为代表。因针对的领域有所差别,上述指标体系不可避免地存在诸如数据来源单一、对普惠功能方面侧重过多等问题。由此本文旨在借助算法技术构建一种客观的数字金融指标体系,在准确地揭示我国数字金融的发展现状的同时,尽可能对未来在数字金融发展水平测度方面的研究提供便利。
目前国内外学者在数字金融方面已有很多研究,其中对数字金融测度的研究方法基本分为如下几类。
第一类是直接运用北京大学数字金融研究中心发布的“北京大学数字普惠金融指数”作为衡量数字金融发展的指标。郭峰等[2]编制的这套数字金融指数在我国较早地提出了完整的数字金融测度体系。张勋等[3]、万佳彧等[4]直接使用该指数测度数字金融发展水平,结合各研究领域具体数据,发现数字金融水平的提升有助于促进低资本家庭的创业行为,从而促进中国的包容性增长。Yu等[5]则利用该指数,测度并研究了数字金融对农村居民消费结构的影响,发现数字金融水平的发展在多方面提高了农村居民的消费水平。直接使用这一指标的方法,可能存在因该指数过于侧重数字金融的普惠性,而忽略了其科技属性的问题。
第二类是通过第三方支付的规模作为衡量数字金融发展的指标。Gu[6]基于金融机构的第三方支付数据,对目前的数字金融作出了总体风险预测,并提出了一套金融风险的预测方法,为防范数字金融风险提出了新的解决方案。这种方法具有一定实际意义,但也有学者如封思贤等[7]认为其仅仅采用单个第三方支付的数据来对数字金融进行衡量,难免失之片面,存在一定的局限性。
第三类是通过互联网文本挖掘技术,依据全网文本构建数字金融指数。沈悦等[8]采用文本挖掘方法建立了互联网金融指数,较早实现了以文本挖掘为方法测度金融行业发展水平。李琴等[9]通过网络爬虫技术对银行系金融科技发展指数进行了测量,进一步实证了文本挖掘技术在金融业中应用的可行性。姚加权[10]等总结了使用上市公司披露文本、社交网络文本、网络搜索指数等数据在文本挖掘领域的被使用情况,并对文本挖掘技术在金融领域的应用进行研究,提出了针对金融领域的文本挖掘中数据选择问题的解决思路。通过文本挖掘,所得数据更具时效性,能够反映数字金融发展水平的变化。
现有研究中不管通过何种方法建立数字金融指标体系,其区别多在指标权重的计算环节,而指标体系内容的确定则多为直接搬用官方文件或主观添加个别指标[11],准确性、有效性存在不足。因此,本文在上述研究方法的基础上扩展,结合文本挖掘与词向量构建数字金融的指标体系。首先,利用网络爬虫技术汇总获得新浪网近年来有关于数字金融的新闻数据;其次,整理清洗初始文本数据后,利用基于Python语言的词向量法程序将词语转换为词向量,基于词向量相似度等确定数字金融指标体系的内容与权重;最后通过总体指标和分级指标体系对我国2016-2022年数字金融发展水平进行分析研究并提出建议。本文的主要创新在于研究方法的使用上选择了词向量法,基于新闻文本构建数字金融指标体系内容并计算权重,揭示了我国数字金融的发展水平以及不同指标间的发展水平差异和发展速度差异。
本文运用文本挖掘法和词向量构建数字金融指标体系。流程如下:①准备语料库,利用Python技术在门户网站进行文本挖掘,并使用jieba库进行数据预处理,具体包括中文分词、去除停用词以及自定义词典;②处理词向量,同样借助Python处理生成词向量,计算关键对象余弦值相似度,完善指标体系;③实证分析,使用具体数据进行测度分析,给出结论及建议。如图1所示。
图1 研究流程
词向量即Word2Vec,是一种基于自然语言处理的词语处理技术,由Mikolov T.等[12]研究和开发,其本质是利用浅层神经网络自主学习语句或词语在语料库中出现的频率和位置,并将其嵌入维度适中的空间之中,达到向量化的目的。Word2Vec能够在一定的语料基础上,利用最优的训练模式,将词语迅速、高效地表示成矢量,从而为自然语言处理领域提供了新的研究手段。王靖一等[13]运用主题模型、词向量模型等方法,建立了金融科技情绪指数。
词向量包括连续词袋模型(continuous bag- of-word model,CBOW)和跳字模型(skip-gram)两种训练模式,简单来说,CBOW通过语境来预测目前的单词,而skip-gram则通过当前单词对上下文各j个词语进行预测。两种训练模式皆为包含输入层、隐含层和输出层的浅层神经网络,详细原理可参考Mikolov T.等[12]的研究。
在skip-gram模型中,输入层与隐含层之间的权值表示为一个V×N的矩阵W,其中,V代表文本挖掘构成的数字金融词典中特征词的数量,N代表隐含层神经元个数。W中的每一行是一个N维的向量,它与输入层中相应的特征词相联系,第i个特征词wi在W中相应的行向量表示为vwi。假设输入层有一个特征词wi的独热编码向量x∈RV,其中仅xi=1,其余为0,则x对应的隐含层向量h可以表示为
h=xT·W=vwi
(1)
隐含层到输出层的权值用N×C维的矩阵W′表示,其中C为特征词wi窗口上下文向量的个数。
设第j个上下文词语在W′中对应的向量为uj,则特征词wi与第j个上下文词语相关度为
ui,j=vwi·uj
(2)
通过训练模型,调整权值矩阵W和W′,使得特征词生成上下文词语的概率最大化,求出所有词的词向量。
词向量间余弦相似度公式如下:
(3)
式中,v1和v2代表需要计算余弦相似度的两个词向量。
由此得到各对应词向量之间的余弦相似度,作为后续确定指标内容和计算权重的重要客观依据。
本文选取新浪新闻网新闻文本为研究对象,利用关键词“数字金融”进行检索,确保获得的是具有一定时效性、且与本研究最直接相关的新闻文本信息。
通过网络爬虫技术,在新浪新闻网站内爬取2021年6月至12月标题或主题内容中含有“数字金融”的新闻中的所有文本,获取了约70万字节的初始新闻文本数据。对数据实施去除停用词、文本分词、设置自定义词典等数据清洗的流程。在完成数据清洗过程后,获得约65万字的与主题词“数字金融”尤为相关的庞大词库。与此同时,再次通过网络爬虫技术整理获得整个新闻文本库中出现次数即词频最高的一批词语,对其进行词云分析,如图2所示。上述操作可通过运用基于Python的PyCharm软件中的jieba库和wordcloud库,并结合对应编程技术来实现。这为下文构建数字金融指标体系的一级指标提供了研究思路与技术支持。
图2 词云
参考现有数字金融代表性文献如郭峰等[2]、黄益平等的研究成果[14],同时通过对文本数据库高词频词语进行如表1所示的归纳总结,本文将数字金融指标体系的主要内容界定为3个方面,即:网络通信基础设施建设方面、数字金融为个体用户的服务内容方面、金融行业对数字化创新投入力度方面。由此确定指标体系的3个一级指标,即基础设施、服务内容、创新实践,并以这3个词作为一级指标关键词,为后续确立二级指标及计算具体权重奠定基础。
表1 文本库高词频词语
当两个向量间角度假定都在0~90°时,其余弦值可以表示角度数值的大小。由于本文中的向量皆为文本词语通过词向量法生成,故其角度范围一般都限制在0~90°之间,其夹角余弦的取值范围即为[1,0]。当两个向量的方向重合时,夹角余弦取最大值1,当两个向量的方向呈90°垂直时,夹角余弦取最小值0。夹角余弦值越大,表示两个向量越紧邻,词语之间的相关性也就越强;夹角余弦值越小,表示两个向量越远离,两词语之间的相关性也就越弱。因此在词向量法的运用中,通过余弦值的大小就可表示两角度的大小,同时也就可以获得两个语言向量在语料库中的相似度或语义相关度的大小。
本文使用此前通过文本挖掘获得的数字金融语料库,利用词向量扩充二级指标。首先,与此前数据清洗过程中的自定义词典同理,在词库合并得到“基础设施”“服务内容”“创新实践”等自定义词语,程序生成语料库中所有词语的向量;然后更换检索词,使程序输出语料库中与“基础设施”“服务内容”“创新实践”3个词语的余弦相似度最高的20个词;最后,优先使用余弦值相似度较高的词语,借鉴参考本研究领域权威文献,同时结合数据合理性与数据可得性,确定具体二级指标。
由此,本文基于数字金融概念的界定,聚焦代表性行业领域,同时考虑到数据的可得性和可比性,构建含有3个一级指标、15个二级指标的数字金融指标体系,体系中指标均为正向效益型指标,具体如表2所示。
表2 数字金融指标体系
数字金融指标体系的权重计算方法是词向量相似度计算法,其分配原则为自上而下的权重分配,公式为:
(9)
首先计算一级指标关键词与主题关键词的词向量余弦相似度,根据其余弦值相似度数值之间的比例分配总计为1的指标体系权重,自此获得一级指标的权重。具体权重分配为:“创新实践”部分所占比例最多,达到了48.42%;另外两部分则相差不大,“基础设施”权重为23.43%,“服务内容”权重为28.15%。这些数据体现了十四五规划中多次提到的创新改革对金融产业数字化转型的重要性;与此同时,基础设施的建设和高质量服务内容的落实到位也不可或缺。
在对一级指标完成权重分配后,同理,对后续具体指标进行余弦值相似度计算,分配其指标权重。当计算二级指标余弦相似度时,其计算对象应更换为对应的一级指标,具体数值如表3~5所示。
表3 “基础设施”中二级指标权重
表4 “服务内容”中二级指标权重
表5 “创新实践”中二级指标权重
数字金融的发展具有动态性特征和异质性特征,所以在数字金融发展水平的测度方面,本文作出了两方面的测度:按年份时间的总体态势变化测度和按各级指标分类的分类态势变化测度。
2016-2020年数字金融指数如图3所示。由图可见,全国数字金融综合指数在2016-2020年间呈现出上升趋势,以2016年为基期,定义其数字金融指数为100,则2017-2020年数字经济指数分别为108.69、117.64、131.15、143.16。在增长速度的测度方面,2017年至2018年数字金融指数增长相对较慢,其对应数字金融指数涨幅分别为8.69%、8.23%;2019年至2020年数字金融指数增长相对较快,对应涨幅则为11.48%、9.16%。测度得到的数字金融指数最大值为2020年的143.16。这说明近年来我国数字金融发展水平越来越高,同时数字金融发展速度也越来越快,但增长速度在2020年略有下降。
图3 2016-2020年数字金融综合指数
在本文指标体系中,3个一级指标对整体数字金融指数的影响存在差异,且每年的数值大小与变化趋势都略有不同,故分别测度其对整体指数的不同影响,如图4所示。
图4 2016-2020年数字金融指数组成结构
由图4可以看出,数字金融指数的结构形式随着时间变化而变化,其中“创新实践”部分从2016年占比48.42%下降到2020年占比46.66%;而“基础设施”部分则从2016年占比23.43%上涨到2020年的24.58%,与此同时“服务内容”部分的占比基本保持不变。
各二级指标在指数构成中的变化如表6所示。在2016-2020年间,15个二级指标中有4个指标的对应指数变化幅度超过25%,分别为1.2网站数、2.5移动支付占总支付数量比重和1.6金融信息技术服务收入、2.1数字平台上基金数量;其中前者为负向增长,后者为正向增长。说明在2016-2020年间,网站数量和移动支付占比对数字金融发展指数的影响逐渐减小;与此同时,金融信息技术服务收入和数字平台基金数量对数字金融发展指数的影响逐渐增加。
表6 2016-2020年二级指标变化率
郭峰等[2]基于层次分析法和变异系数法相结合所构建的指标体系及其做出的测度给出了2011年至2018年我国的数字金融指数,但其使用的层次分析法因其具有主观因素的局限性,多用于定性研究,因此该体系的指标权重确定等与本文存在一定差别,例如,其测度数据中2016年至2018年数字金融平均增长率为15%,高于本文中的8%,原因可能包括主观因素造成的影响。本文基于计算机算法和文本数据的指标体系构建一定程度上避免了主观判断可能带来的问题,所得数据结论也更具独立性。
本文利用文本挖掘技术获得新闻文本数据,同时借助词向量法,构建了含有3个一级指标、15个二级指标的数字金融指标体系。然后进行实证测度,对数字金融总体层面和分类细项层面进行了分析,主要结论和建议如下。
第一,从总体来看,全国数字金融指数在2016至2020年间呈现出上升趋势,指数值由100上升至143.16。这说明我国近年来越来越重视数字金融对经济高质量发展的作用,数字金融发展态势良好。但指数增速在近年有所回落,为继续大力发展数字金融,应对导致增速下降的原因开展研究。
第二,从数字金融的3个一级指标来看,“基础设施”部分在过去5年中对数字金融的影响力逐步上升,说明稳固可靠的基础设施建设将是支持数字金融发展的基石,应保证基础设施的稳定性,加强对基础设施的维护与修缮。
与此同时,“创新实践”部分对数字金融指数始终具有重要影响,但对其增长推动力近年有所下滑,反映出只局限于对金融传统方式进行数字化手段改革和利用机构数字化来对金融机构重新赋能已无法有力地引领数字金融的创新发展,需持续加大在创新方面的投入,包括但不限于数字技术创新、服务形式创新、科研人员投入等。
“服务内容”部分在数字金融指数中的构成占比基本保持不变,说明无论何时数字金融中的服务内容都是不可忽视的。需努力保证数字金融服务有条不紊持续进行,提高服务内容质量,增加可选服务数量。
第三,数字金融指数的内部构成发生变化。金融信息技术服务收入对数字金融指数的影响上升超过40%,说明金融服务的数字化转型以及在收入方面获得正向回报,且对数字金融发展水平的影响也逐步加深,实现了对数字金融的反哺;而网站数对数字金融指数的影响下降超过30%,这与用户逐渐减少在网页端的数字金融活动,转而更加青睐于移动端数字金融的趋势一致。