异构知识图谱中的金融风险演化分析

2022-11-29 02:46陈日成
今日财富 2022年31期
关键词:时间段图谱关联

陈日成

在大数据时代,知识图谱将互联网上碎片化的知识通过网络化的形式整合,为我们提供了一种新型的数据获取方式,便于人们进行数据的检索与分析,从中获取更有价值的信息。在知识图谱技术发展的同时,信息抽取技术也在逐渐发展,人们不再局限于在结构化的数据中抽取数据,对于半结构及非结构化的数据,人们也开始在其中挖掘知识。事件数据则属于半结构化及非结构化数据中的一种,事件数据中包含着多方主体,蕴含着众多信息。同时,事件也不只是作为个体而单独存在的,事件与事件之间还存在着众多的联系,如因果、顺承、递进等,这些关系都展示了事件数据的“动态性”。本文以金融领域的事件作为研究点,从开放的半结构化及非结构化数据中抽取知识,构建知识图谱,并进行其在语义及结构上的演化分析。

一、金融风险相关内容

近些年金融风险事件频发,由单一个体发现风险而引发的群体风险事件众多,学术界也越来越关注金融风险预警这一热点,根据不同的研究视角,金融风险预警研究可以分为系统总体风险预警和系统内部风险预警,而对于检测金融风险水平通常用的是经验指标分析法及综合指数法。对金融体系内部分金融机构的风险监测常用的方法是基于市场数据的模型法,如条件风险价值法(Co-VaR)、Hapley值、Srisk、Copula函数方法等。上述方法可以实时跟踪和监控金融机构的系统性风险,具有良好的时效性。缺陷在于往往以单一市场的金融机构为研究对象,当涉及多个金融机构相互影响和联系的情况时,这些方法则失去了优势。

二、知识图谱基础

按照维基百科的定义,知识图谱的最早应用是作为提高搜索引擎效率的知识库,表达实体之间的语义信息网络关系是它的本质,采用的是三元组的形式来揭示实体自身以及实体之间的关系。

三元组信息是知识图谱的基础,众多三元组构成了一张知识大网,三元组包含实体、关系、属性、属性值等信息。在金融知识图谱中,例如企业实体,则会有,法人、代码、董事等属性,通过其属性又关联到另一个企业实体,以此构建成知识图谱大网,同时为了避免信息冗余,每一个实体在知识库中都有一个唯一的标识ID,如“8a0f3fa0-019c-4c91-86dd-3c20c946d09d”是一个法人的唯一标识ID。金融知识图谱属于领域知识图。

三、金融事件的演化分析

(一)金融风险事件数据收集概况

经过爬虫和数据清理,目前共获得包含担保交易、股权冻结、股权质押、关联交易、立案调查、诉讼仲裁、违规事件约105600条事件数据,包含公司、股东、法定代表人、金融机构约152000个实体,包含企业名称、ID、股票代码、交易类型、时间信息、金额、股份等约263000条属性。

(二)数据处理

对于上述爬取的数据,利用python正则表达式工具,将实验所需要的实体、时间、关系等数据提取出来。并于MySQL关系型数据库接口进行对接,将数据存入数据库。为了便于词表的构建,利用python工具统计实体、时间的词频,金融事件网络形成的基础是一个事件涉及多个实体,实体与其他实体又存在关系,那么,各实体之间就形成了关联关系。本文的金融关联指的是:担保交易、股权冻结、股权质押、关联交易、立案调查、诉讼仲裁、违规事件。为了得出他们之间的具体关系,将2008年-2019年的事件数据划分为2008年-2011年、2012年-2015年和2016年-2019年份三个时间段,对各个时间段的共现词频进行统计,为了避免数据量过于庞大,影响实验的速度,仅仅选取各个时间段内事件数量大于等于10的实体进行可视化展示,从而降低个别不典型数据对实验结果的影响。根据具体的实验结果分析,事件数量小于10的实体不具有代表性,并且数量众多,对实验结果的影响并不显著。对于上述三个时间段分别设定三个CSV文件,文件第一行为表头列名(source、target、weight),其中,前两列为关联节点名称,最后一列为权重(即双方关联频次)。不同时间段实体与实体共现统计结果详见表4.9(数据只部分展示)。

(三)时间序列金融事件网络特征分析

将三个时间段2008年-2011年、2012年-2015年和2016年-2019年的数据用Gephi工具进行社会网络分析,得到如下表所示的分析数据,具体情况详见后续的网络密度、点度中心度、中心中间性、网络具体分析。

1.网络密度

通过上述金融事件网络特征分析结果可知,金融事件网络密度从第一阶段2008.01-2011.12的0.017变为第二阶段2012.01-2015.12的0.018,最终变化为到第三阶段2016.01-2019.12的0.015,无论是从单个阶段看还是从整体来看,整个金融事件网络密度远远小于1,这一数据表明实体与实体之间的事件关联不是很密切,事件之间的关联性不是非常明显。下面对其原因进行具体分析:首先,在金融事件網络中各实体处于不同的行业、地区,如果要进行关联,则需要跨行业、跨区域,如此进行事件关联会消耗巨大的时间成本和经济成本;其次,金融领域具有封闭性特征,各实体更愿意与同行业、地区的实体进行关联,其目的也是为了避免潜在的风险。

最终,通过对比上述金融事件网络特征不同时间段的网络密度可以发现,网络密度的波动仅有0.001至0.002,总体的趋势呈现平稳的态势,表明在互联网时代的浪潮下,倒逼各实体进行金融交流,各个金融实体也难以避免与其他实体发生关联关系。

2.点度中心度

通过上述金融事件网络特征分析结果可知,万科企业股份有限公司、湖北宜化化工股份有限公司、飞亚达(集团)股份有限公司、中国大唐集团公司、武汉东湖高新集团股份有限公司等实体名列点度中心度的前列,深圳长城开发科技股份有限公司、苏州长城开发科技有限公司、金融街控股股份有限公司等实体处于点度中心度排名的末端,由此可见整个金融事件网络中,点度中心度的差异较大。下面对其原因进行具体分析:首先,实验结果表明上述实体在金融事件中所处的地位不同,具体表现为在点度中心度前列的实体处于金融事件的核心并且知名度较大,资源优势强,从而与其他实体发生较多的关联关系,产生较大的凝聚效应;其次,对于处于点度中心度末端的实体,在网络中所处地位也较低,他们一方面自身体量相对较小、所掌控的资源不够充足,或者是缺乏一定的核心竞争力,因此较难与其他实体形成关联关系。

最终,通过上述金融事件网络特征分析对比三个时间段的点度中心度可以发现,整个网络的点度中心度呈上升趋势,从0.215、0.264上升至0.282,同时各实体之间的点度中心度的数值差异在逐渐缩小,这一现象反映了在金融事件关联的过程中,实体在不断地与其他实体建立更密集、更广泛的关联,使得实体自己在金融事件网络中的地位进一步加强。

3.中心中间性

通过上述金融事件网络特征分析结果可知,中海集装箱运输股份有限公司、中國大唐集团公司、武汉东湖高新集团股份有限公司等实体处于中心中间性的前列,深圳能源集团股份有限公司、中兴通讯股份有限公司、深圳市民德电子科技股份有限公司等实体处于中心中间性的末端,并且中心中间性的值差异较大,其最大差值超过0.1。由此可见,在整个金融事件网络中,处于核心地位的实体与处于“偏僻”地位的实体差异较大,作为核心地位的实体位于多个实体连接路径的中间节点上。下面对其原因进行具体分析:首先,是因为这些实体的所在行业大多为服务型,与其他实体的关联关系更为紧密。另一方面,这些实体在行业内市场份额较大,掌握着该行业的优势资源,具有核心竞争力,从而能够在金融合作过程更便于与其他实体形成关联关系。

最终,通过金融事件网络特征分析结果对比不同时间段的中心中间性数据可以发现,整个网络的中心中间性在逐渐增加,从最开始的0.312到0.424最后到0.527,最大跨度接近0.2,这一现象反映了各实体在金融关联的过程中,在不断寻求与其他实体进行关联从而扩大自身的“结点”作用,与其他实体关联数量多,也属于实体自身的一种资源,从而便于建立更多、更广泛的关联,使实体自身在金融合作中“桥梁”的作用进一步加强,从而使得自己在金融事件网络中的地位进一步提高。

4.网络距离

从上述金融事件网络特征分析结果可知,三个不同时间段2008年-2011年、2012年-2015年和2016年-2019年的金融合作网络的平均距离分别是3.172、4.021和5.252,由此可以得知,在整个金融事件网络中,任意一个实体平均需要通过3个或者4个实体才能与另一个实体取得关联。下面对其原因进行具体分析:我国地域辽阔,省份众多,各实体在我国分布范围较广,所以,虽然平均网络距离较大,但是结合实际情况而言,这一平均距离的结果是可以为大多数实体所接受的。

最终,在三个时间段所得出的网络距离值的基础上,得到响应时间段的凝聚力指数分别为0.0643、0.0532和0.0589,从该数据可以发现,我国金融事件网络实体之间总体联系并不紧密,有着各自为政的趋势,因此建议,我国各金融实体紧密程度有待提升,凝聚力需要加强,从三个阶段的凝聚力指数总体态势分析,在第一阶段2008年-2011年,自经济危机爆发以来,各实体开始注意到金融事件对其自身风险的影响,导致凝聚力较强;随着时间的推移2012年-2015年,各实体在逐渐增加,数量上提升迅速,量变导致质变,从而导致凝聚力开始下降;近些年来2016年-2019年,随着金融行业的稳定与成熟,国家政策的逐渐完善,各实体也逐步意识到金融合作的重要性,开始大规模寻求金融合作,从而促使凝聚力又稳步回升。

结 语

我国对于知识图谱的研究最开始是通过人工构建的方式进行的,因此存在许多的弊端,如规模小、覆盖少、应用狭窄等,这种人工规则构建的知识图谱难以扩展为大规模的知识图谱,例如中科院计算所设计的知网(HowNet)就属于这种范畴。国内工业界和学术界也对知识图谱展开了一系列的研究。在我国工业界,众多互联网公司也加入到知识图谱的研究中来,例如百度知识图谱、阿里巴巴电商知识图谱,美团大脑、搜狗知立方等。在金融领域,同样有海智大数据、天眼查等比较成熟的金融知识图谱。目前,无论是国内还是国外,对行业和领域知识图谱(也称作垂直领域的知识图谱)的研究还较少,投入到实际应用中的也还待开发。领域知识图谱在许多行业都有应用价值,例如行业智能知识服务、问答系统、行业语义搜索、大数据关联分析等方面都有广泛的研究与应用价值。

(作者单位:湖北商贸学院)

猜你喜欢
时间段图谱关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
绘一张成长图谱
夏天晒太阳防病要注意时间段
“一带一路”递进,关联民生更紧
奇趣搭配
补肾强身片UPLC指纹图谱
发朋友圈没人看是一种怎样的体验
智趣
主动对接你思维的知识图谱
不同时间段颅骨修补对脑血流动力学变化的影响