金融股权知识大图的知识关联发现与风险分析①

2022-08-04 04:15:42欧阳晓凤
管理科学学报 2022年4期
关键词:大图结点股权

洪 亮, 欧阳晓凤

(1. 武汉大学信息资源研究中心, 武汉 430072; 2. 武汉大学信息管理学院, 武汉 430072;3. 武汉大学大数据研究院, 武汉 430072)

0 引 言

大数据技术的广泛应用极大地促进了金融领域的发展,改变了金融业态.然而,金融大数据多源异构、关联缺失等问题严重阻碍了其价值的分析与发现.金融大数据的核心价值在于其蕴含广泛存在的知识关联.其中,金融股权数据的知识关联主要体现为金融机构通过股权网络建立的联系.金融机构的股东来源众多且层层嵌套,形成了结构复杂的金融股权网络,使得实践中暴露出越来越多的股权治理问题.金融股权网络已经成为系统性金融风险重要的微观成因[1, 2]和传导渠道[3].现有的研究认识到了金融机构的股权结构对系统性金融风险的重要影响.Alexander[2]和Huang[1]研究了金融机构风险承担行为对系统性金融风险的影响.如何穿透层层嵌套的股权网络,识别实际控股股东为理解金融机构的风险承担行为提供重要的信息.Iyer[3]等验证了银行间的联系会导致金融风险传染,其中股权路径是一种重要的系统性风险传导渠道.近期的研究表明系统性金融风险也可以通过非金融机构进行传导和扩散[4].因此,本文聚焦于从包含海量金融机构和全量工商注册企业的大规模金融股权网络中发现和分析关键股权风险结构,支撑系统性金融风险的穿透式监管.

2018年2月,鉴于安邦保险集团存在隐瞒股权实控关系,循环注资等严重违规违法行为,保监会决定对其实施接管以进行风险处置.如图1所示,中国民生银行股份有限公司(民生银行)的直接股东中包含了安邦保险集团股份有限公司(安邦保险),持股比例为4.49%,为非控股股东.然而,穿透式多层股权网络可以发现民生银行的实际控股股东为安邦保险,因为多个股权路径的叠加而得到的总持股比例为29.88%.一旦安邦保险发生风险,极有可能危及民生银行的经营秩序.进一步分析可得,安邦保险→安邦财险→安邦人寿→民生银行是持股比例最大的股权控制链路[5],表明安邦保险通过多层股权形成的资金杠杆控制民生银行,该链路极易形成资本强化路径,是风险传导的重要路径.

图1 民生银行案例分析

上述的案例表明,实际控股股东和重要的股权控制链路是影响金融机构风险承担行为的关键风险特征.因此,本文发现并分析的关键股权风险结构包括穿透式多层股权网络和关键股权路径.其中,穿透式多层股权网络有利于实现穿透式监管,识别隐藏的实际控股股东.关键股权路径有利于识别股权控制链路,分析系统性风险传导路径.

大规模金融股权网络包含了众多的金融机构和非金融机构,总数可达数千万家,不仅具有复杂的股权关联,而且蕴含了丰富的语义信息.例如,一些金融机构的多层股权网络可达30层,结点数可达10万.已有的系统性金融风险研究[1-3]难以对大规模的金融股权网络进行穿透,并且缺乏从知识关联角度对金融风险结构进行发现和分析.目前的股权网络分析算法大部分基于复杂网络理论[1, 6],忽略了丰富的语义信息,难以直接应用于金融股权知识大图的查询与分析.如何利用金融知识大图中发现的多种知识关联,准确高效地发现并分析影响系统性金融风险的关键股权风险结构,支持系统性金融风险的“穿透式”监管,是本文亟需克服的重要挑战.

针对上述挑战,1)将银行、保险、期货、证券、资管、信托、公募基金共7类金融机构和全量的工商注册企业的股权数据进行融合,并基于知识关联将金融机构、非金融机构及其之间的股权关系统一组织和表示为一个金融股权知识大图;2)将金融股权网络中关键风险特征结构发现的问题转化为金融股权知识大图中的知识关联发现问题;不同于现有的股权查询平台,提出了多层股权穿透算法,从复杂股权知识关联中发现穿透式多层股权网络,可以识别出隐藏在层层股权网络之后的实际控股股东;关键股权路径发现算法考虑持股和控股的不同优先级,从金融股权知识大图中高效地发现金融机构之间的关键持股路径;3)针对以上股权风险结构进行了特征分析和案例研究,发现了穿透式多层股权网络和关键股权路径的结构、语义和时序特征,及其在支撑系统性金融风险的穿透式监管中的基础性作用,为揭示股权结构与系统性金融风险之间的复杂关联提供新的视角与经验证据;4)基于亿级三元组的金融股权知识大图进行实验,结果证明了所提出的算法相比于现有同类算法的有效性和高效性,从知识关联视角为系统性金融风险识别和预警提供解决方案.

1 文献综述

1.1 股权结构与金融风险研究

股权结构作为股权治理的基础要素,近年来学术界对其进行了大量实证研究.股东结构决定了公司的治理机制与组织架构,从而影响到其战略、风险管理和资产负债行为.Barro等[7]实证了公司治理机制与股权结构的相关性与有效性.Alexander和Dhumale[2]研究内容聚焦于公司治理与风险的关系,提出制定基本的国际标准,以提高公司的稳健性.Wright等[8]从企业内部持股人与大股东、机构投资者的视角研究了股权结构对企业风险承担行为的影响.Barry等[9]利用欧洲商业银行的股权数据,分析了私有企业和上市银行的所有权结构和风险之间的关系,发现所有权结构在解释风险差异方面具有重要意义.Rotundo等[10]则研究了意大利股票市场股东关系的网络,并对股权网络相关特征进行分析.

为把握股权结构的重要特征,需要针对股权的集中程度进行细粒度的研究与分析.赵晶等[5]发现大股东表面上拥有着上市公司的控股权,但其只是实际控股股东控制链路中的一环,受实际控股股东的影响.贾明等[11]则研究了在公司内部治理中,控制性股东侵占投资者利益的同时使得公司持续经营所面临的风险放大, 并且这种风险还会通过市场机制传导到其他市场主体上,从而放大金融系统风险.Hooy 等[12]通过研究马来西亚公司所有权对公司绩效的影响,发现实际控股股东使用多个控制链会对公司绩效产生负面影响,并发现外来投资者最终持股比例与公司绩效呈非线性关系,这为解释最终持股股东特征与金融风险之间存在关联提供了证据.

目前已有相关文献对系统性金融风险进行了理论和实证分析.Iyer等[3]利用印度大型银行倒闭造成的冲击以及银行间风险敞口的详细数据,检验了银行间联系导致的金融传导,并表明银行间关联是一种重要的系统性风险传导渠道.网络分析技术的兴起使得基于金融网络进行系统性风险的研究成为可能.Haldane等[13]从金融网络的角度探索了系统性金融风险的动态过程,从风险的形成,传导与扩散到提出政策性建议.Billio等[14]提出了基于主成分分析和格兰杰因果网络的关联计量方法,并将其应用于美国对冲基金、银行、经济/交易商和保险的月度收益数据,研究发现银行在传递冲击方面发挥更大的作用.Elliott等[15]利用欧洲债务交叉数据研究相互依存的金融机构网络的一系列风险级联,发现金融风险传导的可能性主要取决于整合和多元化.Elsinger[16]和Gouriéroux等[17]在债务网络模型的基础上进行扩展,融入了股权数据.Huang[1]利用中国股市数据,研究了金融机构在金融网络中的局部拓扑结构对其系统性风险贡献的影响,裴茜等[18]则从基于金融资产价格变动的金融传染出发,研究我国股票市场的金融传导与渠道,并从银行和金融类的渠道发现近年来我国金融业的发展增大了我国股市的金融传染.

上述研究分析了股权结构与股权治理、股权的集中程度,以及金融风险之间的内在联系,并从金融机构复杂的网络结构出发,探讨网络结构对系统性风险的影响.然而,目前的研究工作多以债权网络模型为基本网络,较少从股权网络视角研究系统性风险;其次,目前研究工作未将金融机构的股权网络置于完整金融体系的股权网络中进行分析,忽略了金融机构和非金融机构的股权关联;最后,股权知识大图组织和表示了股权网络中蕴含的丰富语义信息与知识关联,可以支持金融风险结构精准发现与分析.

1.2 知识关联研究

知识关联是指构成知识的结点与结点之间存在的各种联系,知识本身和知识载体之间存在着各种关联,揭示和利用知识关联是知识组织、管理、发现和创造的起点[19].

在金融领域,张俊[20]在证券信息服务分析与研究中就引入了知识关联的概念与思想,投资者通过判断证券承载的各种信息来判断其价值.张瑞等[21]结合知识关联技术,探讨并实现金融数据可视化技术,为金融领域的关联数据分析助力.李旭晖等[22]对金融等典型领域进行调研分析,发现大数据的价值主要源于其中蕴含的事物之间广泛存在的各种关联,对知识关联进行刻画、揭示和利用是大数据价值分析、发现和创造的核心问题.唐旭丽等[23]分析了金融大数据领域的四种典型关联—分类、时空、统计、事件关联,为金融风险发现提供基础.其中,分类关联用于描述金融概念间的层级结构,层次化、网络状的信息关联为金融大数据提供多维度的视角;统计关联是指使用统计方法分析金融风险事件主体之间在关联强度、关联结构和关联变化等方面的特征.Liang等[24]则基于图网络模型将财务报告中的多领域知识进行整合,并通过知识关联推理以进一步挖掘企业关联的隐式知识,支持多视角和跨领域决策信息的智能融合.

O’Riain 等[25]利用关联数据技术与XBRL(可扩展商业报告语言)结合起来,促进了XBRL与财务外部数据的关联.Li等[26]基于关联数据建立了中国上市公司的投资开放数据,促进企业数据的商业使用.DeStefano等[27]则使用基于资源描述框架(resource description framework, RDF)[28]和本体的关联数据提高管理企业数据资产的能力.知识关联反映了知识从隐性关联到显性的过程,侧重于大数据价值分析、发现与创造;而关联数据则为海量异构数据中的知识关联提供了知识表示和共享的规范.

综上可知,如何基于知识关联进行金融风险发现与分析仍有待深入研究.本文从知识关联的视角构建金融股权知识大图,对股权知识关联进行多类型、多层次的表示,在此基础上对金融风险结构进行了准确的发现与深入的分析.

1.3 图路径算法研究

金融股权知识大图本质上为图结构,针对金融股权知识大图的价值分析与挖掘可以转为图路径算法研究.已有相关研究工作可以解决k简单最短路径,即无环的路径.Yen[29]提出Yen’s算法,求解从起点到终点的限定无环的k最短路径算法,是使用偏离路径方法解决k最短路径的最早算法.Martins 等[30]对Yen’s 算法进行改进,提出了MPS算法;该算法引入边的缩小长度简化偏离路径长度的计算.Hershberger等[31]提出了一个偏离路径算法,将候选路径划分为多个等类价,使用替换路径算法求得每个类中的最短路径放入堆中,将堆顶最小的路径作为下一个最短路径.

k一般最短路径,即存在环路的路径.Hart 等[32]提出了一种启发式搜索的算法A*算法,为启发式搜索奠定了基础.Eppstein[33]提出EA算法,构建了一个路径图P(G)存放图中的所有非树边,并基于该路径图提出了时间和空间均较为高效的k最短路径算法,缺点在于构造图P(G)的时间成本较高.Jimenez等[34]针对EA算法的缺点,提出了lazy版的EA算法,简称为LVEA算法,在实际应用其运算速度要快于EA算法.Aljazzar等[35]受EA的启发提出了K*算法,在图G上运用A*算法进行向前搜索,比EA算法性能更好.

上述图路径算法[29-35]没有考虑金融股权知识大图的语义与结构特征,因此不能直接应用于解决本文的问题.

2 研究思路

本文围绕金融股权知识大图风险结构发现和特征分析的问题,从知识关联的角度,提出层次化研究框架.如图2所示,基于海量多源异构的股权数据,通过融合和转换,构建金融股权知识大图;然后提出了多层股权穿透算法和关键股权路径发现算法,分别发现金融股权知识大图中的穿透式多层股权网络和关键股权路径;最后针对两类知识关联进行风险特征分析,结合风险案例支持系统性金融风险的识别和监管.首先对金融股权知识大图进行了定义:

图2 研究框架

定义1(金融股权知识大图)金融股权知识大图是一个加权有向图G(V,E),其中V为结点集合,E为边集合.∀vi∈V,vi为一个实体,表示金融机构、企业或者自然人,vi具有一个属性集合{a1,a2,…,an},表示实体的不同属性,如企业名称、企业类型等;∀eij∈E,eij为实体vi对于vj的持股关系,eij具有属性{wij,cij},包括持股比例wij和持股类型cij.

在知识大图构建层,原始的多源异构数据包括全国金融机构股权数据、工商注册企业股权数据和互联网数据.在工商注册企业股权数据中,金融机构股权数据是缺失与不准确的;互联网数据可以提供更多的金融语义信息.因此本文将基于共同的金融机构融合以上三类数据,建立金融机构之间的股权网络.然后,基于知识关联,通过语义转换将股权网络转换成语义丰富的金融股权知识大图.

在知识关联发现层,多层股权穿透算法穿透金融机构的层层股东,识别出该金融机构的实际控股股东,并根据股权控制关系确定股东的层级,最终获取金融机构的穿透式多层股权网络.其中穿透式多层股权网络由中心金融机构及其多层级股东形成,隶属于不同类别(层级)的知识(股东信息)相互关联,属于知识关联中的分类关联;层次化、网络状的知识关联结构能够支持对于金融机构的穿透式监管.关键股权路径发现算法从金融股权知识大图中发现Top-k股权路径.关键股权路径使用统计的方法获得了关联强度、类型等方面的特征,因此属于统计知识关联.关键股权路径揭示了系统性金融风险产生和传导的结构和语义特征.

在风险分析识别层,将对以上两种风险结构特征,进行深入的量化分析.例如针对金融机构进行穿透式多层股权网络的最终股东结构类型统计分析.在复杂股权网络结构下,各类型股东穿透后的最终持股占比与直接股东的持股占比有很大的出入;特别是国有股权对金融机构的最终所有权占比,是国家金融安全、政治安全的基础判断依据.最后通过对典型金融事件的案例分析,验证算法和风险特征分析的有效性,支持系统性金融风险的有效识别.

3 金融股权知识大图构建

3.1 多源异构股权数据融合

本节将多源异构股权数据进行融合,构建大规模金融股权网络.其中,全量的工商注册企业数据库是结构化数据,时间跨度为2016年~2018年,包含了全国4 200万家以上的工商注册企业的基本面信息和股东信息,其中包括了中国3 867家上市公司的十大股东信息和十大流通股东数据,采用时间戳在知识大图上标注时变的股权关系,时间戳的单位为年.数据的基本情况如表1所示,结点和边的总数达到了亿级.

表1 工商注册企业股权网络结构信息

图3是工商注册企业股权网络的度分布,结点的平均度为3.300,度的分布并不均匀.采用Clauset等提出的power-law拟合重尾分布,减少误差.可以看到图中出度和入度的拟合分布,其中出度的度概率分布具有较强的幂律特性,出度密度函数拟合方程为p(x)=1.52x-2.520,拟合效果R2=0.967,入度密度函数拟合方程为:p(x)=1.785x-2.785,R2=0.873,服从幂律分布;对比图3(a)出度与图3(b)图入度概率密度的幂律拟合分布图,可以看到拟合的误差较小.该网络符合无标度网络的特征[36],主要是由于大型金融机构有大量的金融网络连接,而小型金融机构只有较少的连接,也表明针对金融网络中度较大的结点冲击时的脆弱性.因此着重针对有代表性的金融机构进行了股权网络特征分析. Kogut等[37]发现德国公司的所有权结构形成了一个“小世界”, Bertoni等[38]则分析了1999年~2004年的意大利所有上市公司之间所有权与董事相互联系的复杂网络,结果显示该网络具有小世界的特征;Conyon等[39]从图论的角度研究英国公司的所有权与控制权,发现企业所有权网络具有小世界的属性,且他们发现金融机构在企业所有权网络中起着潜在风险传导渠道的作用.上述研究证明金融股权网络具有显著的小世界特征,说明小金融机构总是能通过有限的大金融机构形成连接,即金融风险发生时可以通过很短的路径传导到其他的结点.因此,改变网络中有限的结点和边可以有效地防范和降低系统性风险.

(a)

金融股权网络的核心是金融机构的股权关联,而金融机构股权关联的核心是银行类金融机构的股权关联.由于工商注册企业的股权数据中大量银行的股权信息缺失,同时已经有银行股权信息也不够准确.因此,将采用互联网数据以及中国银行业数据库中的准确和最新的结构化股权数据,有效地补充缺失的银行股权数据,支持准确的实证分析.中国银行业数据库中包括359家银行前十大股东,样本银行总资产占中资商业银行总资产的98.3%.其中银行均为总行.工商注册企业数据库中也包含了总行的分支机构,由于分支机构是总行的组成成分,所以不存在独立的股权结构.为了保持工商注册信息的完备性,金融股权网络中将同时保留总行及其分支机构的结点.

银行股权数据和工商注册企业股权网络的融合方法是:判断银行B的股东A′和股权网络中的企业A是否为同一家金融实体;如果是,则将A′和A融合为一个股权网络结点A,则银行B和企业A建立起股权关联.融合的关键问题是企业或者银行名称的共指消解,即将股权网络中同一实体的不同描述合并的过程.比如,“中国工商银行股份有限公司”和“工行”描述的是同一家银行.具体的技术方案是首先构建命名实体与实体指称的一对多映射关系,建立实体指称映射词典;其次对于中国银行数据库中的每个股东实体,查询实体指称映射词典,得到与该实体可能存在共指的企业实体,生成候选共指实体对;最后采用改进的SimRank算法[40]来计算候选共指实体对的相似度.SimRank同时考虑图结构中实体的属性相似度和该实体邻居结点的属性相似度,当相似度大于阈值时,对于中国银行数据库中的某个股东实体,选择工商注册企业股权网络中与之相似度最高的实体进行链接,从而实现股权网络的融合.当候选共指实体对的属性值或者邻居实体较为稀疏时,利用互联网上的企业基本面信息,百科数据等对相关实体的属性和关联实体进行补全,通过多源异构数据的交叉验证,提高共指消解准确率.针对股东重名的实体,仍采用SimRank计算重名实体之间的相似度,当相似度小于阈值时,则两个实体虽然同名但是并非同一个实体;反之,两个实体为同一个实体.

3.2 金融股权网络的转换

金融股权网络仅表示了股权结构信息,忽略了金融股权数据中蕴含的丰富的语义信息.这些语义信息包含了金融机构的类别、属性,以及金融股权多维度、多层次的知识关联,是实现金融大数据价值分析与发现的基础.例如,系统性金融风险识别需要考虑金融机构和企业的类型,以及金融机构间的控股或持股关系.因此,将金融股权网络转换为金融股权知识大图.表2是金融相关的概念与知识大图概念的对照表.

表2 金融概念与知识图谱概念对照表

如图4(a)(b)所示,语义转换将股权网路用RDF进行规范化的表示:金融机构或者企业的名称被转换为实体的属性;股权关系被转换为知识大图的边,并添加了语义标签,包括了边的类别(名字或股东等)和属性(持股比例,控股或持股关系等).其中控股和持股关系需要通过持股比例,结合股权网络的结构进行计算得到[41].

图4 金融股权知识大图转换示例

在金融意义上,控股关系的控股权要强于持股关系,不论其实际的持股比例是多少.因此,在转换时要区分这两个关系的优先级;引入cmn表示股权关联边emn类型,当emn为控股边时,表示vm对vn的直接控股权为100%,cmn=1,否则cmn=0.

金融知识大图用RDF三元组的形式存储到图数据库管理系统gStore[43]中,以便对数据进行高效管理.

4 知识关联发现算法

4.1 多层股权穿透算法

4.1.1 问题定义和总体思路

在金融股权知识大图中,某个金融机构或企业的直接股东为第一层股东,而每一个第一层股东又有第二层股东,以此类推,直到最终股东(定义5).以上所有的股东及其之间的股权关联组成了多层股权网络.多层股权网络在穿透式监管中具有重要意义,有助于揭示层层股东对某个金融机构或企业的控股权,并找到最终持股比例和实际控股股东.

定义3 (最终持股比例)最终持股比例δi为vi对vc直接持股比例和间接持股比例的加权总和,即δi=∑pic∈Picδ(pic),等于vi到vc所有路径(简单路径或非简单路径)的持股比例之和.

定义4 (穿透式多层股权网络)给定金融股权知识大图G(V,E),以及中心结点vc,穿透式多层股权网络S(vc,Vs,Es)是G的导出子图(Induced Graph).∀vi∈Vs,vi具有层数l(vi)、控股权ui和最终持股比例δi属性.在vi到vc控股权uic最大的路径中,如果路径pic持股比例δ(pic)最大,则vi相对于vc的层数l(vi)=l(pic),其中l(pic)为路径pic的跳数.S中包含内部结点、最终股东(定义5)和一个实际控股股东vcontrol(定义6).

定义5(最终股东)在穿透式多层股权网络S(vc,Vs,Es)中,∀vi∈Vs,vi≠vc,存在vi到中心结点vc的路径pic,如果不存在路径pjc,使得pic是pjc的真子路径,则vi是S的最终股东,否则vi是S的内部结点.最终股东类型包括“国有”、“私有”、“外资”、“广泛持股”,因为这些类型的股东没有股东.

国有股东指的代表国家持有国有股权的政府机构或法人;私有是指单一自然人所持有的股权;外资是指港澳台及外国实质性法人、自然人实体所持有股权,不包括内资法人在境外设立并控制的法人实体所持股权.广泛持股是指中小投资者的持股.

定义6 (实际控股股东)在穿透式多层股权网络S中,对于所有其他最终股东vj,如果最终股东vi对中心结点vc的控股权uic≥ujc,且最终持股比例δi≥δj,则vi为实际控股股东vcontrol.

提出多层股权穿透(MEP)算法,给定中心结点vc,找出穿透式多层股权网络.MEP算法需要解决的主要问题是确定穿透式多层股权网络中每个结点的层数,并计算其对中心结点的最终控股权和最终持股比例,确定实际控股股东.

4.1.2 基于BFS的多层股权穿透

根据定义4可知,需要以vc为中心结点,基于广度优先遍历(breath-first search, BFS)往外扩展访问图中的邻居结点,然后找到每一层的股东vi到vc的控股权和持股比例最大的路径,从而确定股东结点的层数l(vi).两点之间的持股比例最大的路径实际上是第1条关键股权路径,是Top-k关键股权路径的特例.因此,调用关键股权路径发现算法(CEP算法,详见4.2节)找到持股比例最大的路径.以上过程以逐层迭代的方式进行,直至所有的邻居结点均为最终股东.然后计算每个股东对于中心结点最终持股比例,在穿透式多层股权网络中,控股权最大条件下找到最终持股比例最大的结点,该结点为vc的实际控股结点vcontrol.注意到,CEP算法仅需1次遍历,可以确定层级并计算最终持股比例.

Brioschi[44]提出的Integrated Ownership Share(IOS)模型,通过稀疏矩阵运算,将持股比例向内反推,确定任意一个股东对一个金融机构或企业的最终持股比例.IOS模型可以在存在环路的情况下计算各股东结点对金融机构持股的最终比例;该算法需要对于股权网络中所有结点的两两关系进行全局的运算.多层股权穿透仅找到与中心结点存在直接或间接股权关联的结点,这些结点数量远少于金融知识大图的全量亿级结点.因此,只将穿透式多层网络的导出子图作为IOS模型的输入,并且在矩阵运算中,仅计算网络中其他结点到中心结点的最终持股比例.这样可以较大地提高多层股权穿透的效率.

Vs中的任意两点的股权关联表示为直接持股比例矩阵A,其中vi对vj的直接持股比例表示为wij,为A中第i行j列元素,∀vi∈Vs,wii=0,即公司对自身的直接持股比例为0.给定输入矩阵A,IOS模型通过直接持股比例的层层递推找到全部间接持股比例,即最终持股比例矩阵U=A×(I-A)-1,其中I为|Vs|×|Vs|的单位矩阵.仅需要计算到Vs中所有结点到vc的最终持股比例,可得

(1)

其中U*,c表示U的第c列向量.

MEP算法具体步骤如下:从查询中心点vc开始,访问vc在金融股权知识大图中的邻居结点,不断迭代,直到所有邻居结点均为最终股东,则迭代结束.在BFS过程中,每次访问一个新的结点vi,调用CEP算法计算vi到中心vc的第1条关键股权路径,并确定vi的层数.BFS结束后,使用公式(1)计算穿透式多层股权网络中所有结点到中心结点最终持股比例,根据定义6确定实际控股股东vcontrol.

算法1 多层股权穿透算法(MEP)输入:金融股权知识大图G(V,E),中心结点vc输出:穿透式多层股权网络 S(vc,Vs,Es),vcontrolqueueQ; //结点队列Vs←{vc}Es← Ø visited(vc)←1 //标识为已访问Q.enqueue (vc) //中心结点入队列While ! Q.empty( ) do vi←Q.dequeue () CEP(vc,vi,1) //找出Top-1关键股权路径 l(vi)=l(pic) //确定层级 Foreachvj in G.adjV (vi) , eij in G.adjE (vi) do If ! visited (vj) //结点未被访问 visited(vj)←1 Vs←Vs∪{vj} Es←Es∪{eij} Q.enqueue (vj)IOS (S(vc,Vs,Es)) //计算到vc的最终持股比例Ifuic is maximal of all nodes and i=argmax (δi) //控股权和最终持股比例最大 vcontrol=vi;ReturnS(vc,Vs,Es),vcontrol;

如图4(c)所示,v0为中心结点,通过BFS,层层向外遍历,得到v1、v2、v3、v4、v5组成了v0的穿透式多层股权网络.注意到,v1到v0有4条路径,其中v1→v0的持股比例为4.49%,控股权为0;v1→v2→v0的持股比例为4.56%×90%=4.1%,控股权为0,v1→v3→v0的持股比例为20.2%×20.83%=4.2%,控股权为1,v1→v2→v3→v0的持股比例为20.83%×78%×90%=14.62%,控股权为1.因此,控股权最大的路径为v1→v2→v3→v0,v1为v0的第3层股东,即层数为3.将上述4条路径的持股比例相加,可得v1对v0的最终持股比例为27.42%,为v0的穿透式多层股权网络中所有结点最大的,因此实际控股股东vcontrol为v1.

4.2 关键股权路径发现算法

4.2.1 问题定义和总体思路

关键股权路径主要是指知识大图结点之间的持股链路.用户进行多层股权网络穿透后,可以更进一步查询两个结点之间的持股路径,确定两个企业之间的持股关系的强弱,甚至进一步判断控股和关联程度,计算路径的持股比例和控股权,发现关键股权路径.

定义7(关键股权路径)给定金融股权知识大图G(V,E)、路径起点vs(金融机构、企业或者自然人)和终点ve(金融机构或者企业)、以及k,k≥1且为整数,vs到ve的关键股权路径为两点之间Top-k条持股比例最大的路径,即按照持股比例递减排列的前k条路径.

在金融股权知识大图中发现关键股权路径并不是一个容易解决的问题.首先,由于知识大图规模巨大,穷举两点之间的所有路径的代价较大.其次,金融股权知识大图中路径权重具有以下特殊性:

股权路径pij的持股比例δ(pij),即vi通过路径pij对vj的持股比例,等于pij上每条边的持股比例的乘积

(2)

其中emn为股权路径pij的边集E(pij)中的边,wmn为emn的权重,即持股比例.

如图4 (b)所示,路径(v2,v3,v0)的持股比例p20为有向边(v2,v3)和(v3,v0)的持股比例w23和w30相乘,即p20=w23×w30=78%×20.83%=16.25%.

现有的路径发现算法[30,31,35]是基于权重相加的网络设计的,无法直接应用于发现金融股权知识大图中的关键股权路径.

最后,从关键股权路径的金融意义来看,根据定义2,如果路径上所有的边均为控股关系,则该条路径为控股路径;反之,如果路径上至少有一条边为持股关系,则该条路径为持股关系.对于同样的起点终点,控股路径的控股权要高于持股路径.因此,关键股权路径首先需要根据边的语义标签找到控股路径,在路径均为控股或者持股时再比较路径的持股比例,对股权路径按持股比例从大到小排序.

4.2.2 基于股权优先级的Top-k最短路径发现

首先对知识大图的边权重进行转换.考虑到0≤pij≤1,进行如式(3)的对数转换,就将式(2)中的权重乘积δ(pij)转换为式(4)中的权重之和δ′(pij).

(3)

=-ln(δ(pij))

(4)

通过以上边权重的转换,关键股权路径发现问题转化为从带权有向图中查询两点之间的Top-k最短路径.同时,还要考虑股权路径的控股权优先级.两点间的最短路径问题等价于两点之间的TSP(traveling salesman problem)问题,因此关键股权路径发现问题是一个NP难问题[45].

提出一个基于优先级的启发式关键股权路径发现(CEP)算法.CEP算法区分控股和持股关系的不同优先级,表达控股和持股的语义差异.现有的路径发现算法,如A*算法等,在解决关键股权路径发现问题时,由于没有考虑股权关系的优先级,也忽略了金融股权知识大图中路径权重为各边权重乘积的特点,将无法输出准确的Top-k关键股权路径.CEP算法维护了一个开始于起点的路径树,不断扩展树中的路径,一直到达终点ve.在每一次的迭代中,CEP需要决定从哪条路径进行扩展.CEP首先检查当前路径是否为控股路径,优先选择控股路径进行扩展.如果控股路径数量小于k,则选择持股路径.在路径的控股权相同的情况下,CEP算法基于当前路径的权重以及当前结点扩展到终点的估计权重进行路径选择.

具体地,CEP算法中使用启发式评估函数h(vj)表示当前访问结点vj到终点ve的路径权重估计值,g(vj)表示从起点vs到路径中当前访问结点vj的实际路径权重.因此从起点到终点经过结点vj的路径长度f(vj)可以表示为

f(vj)=g(vj)+h(vj)

(5)

CEP算法在优先级相同的情况下,逐个选择能够最小化公式(5)的路径.

CEP算法的具体步骤如下:首先调用Dijkstra算法计算每个结点vj到终点ve的路径权重估计值h(vj),具体方法为把ve作为Dijkstra算法的起点,反向地计算路径的权重.CEP算法设置两个队列openp、closedp;其中openp为一个优先级队列,保存待确定的结点.openp=(vj,g(vj),f(vj),cij),其中cij为前一个访问结点vi到结点vj的持股类型.路径拓展过程中,在当前路径为控股路径时,需要优先考虑cij,在cij相同时再考虑f(vj),最后在f(vj)相同时才考虑g(vj),即优先级cij>f(vj)>g(vj).closedp为一个普通队列,存储已确定的结点.CEP算法从起点往终点逐步扩展,每次添加一个邻居结点vj,更新g(vj)和f(vj),以及cij.注意到,如果当前路径为持股路径时,则所有的后续结点cij均赋值0,因为此时考虑新加入结点的优先级并无意义,整条路径仍然为持股路径.当前确定的结点为终点时,则找到一条路径,从closedp队列输出,如果输出的队列数量达到k条,则算法执行完毕.

算法2 关键股权路径发现算法(CEP)输入:金融股权知识大图G(V,E),vs、ve,k输出:Top-k关键股权路径p1se,p2se,…pksecount←0Dijkstra (G(V,E), ve,vs) //终点ve为Dijkstra算法的起点openp←(vs,0,f(vs),1) //待确定的结点优先级队列,初始持股类型c=1;g(vs) = 0While!openp.empty()do (vi,g,f,c)←openp.dequeue () //按优先级顺序出队列 closedp←vi //已确定的结点队列 Ifvi = = ve count++ While!closedp.empty()do pcountse←closedp.dequeue () Returnpcountse If count = = kbreakContinue //开始新一轮循环找下一条路径 Foreachvj in G.adjV (vi) and ! visited (vj)dog(vj)=g(vi)+w'ijf(vj)=g(vj)+h(vj) If (usi=1 and cij=1)//如果前面不为1则优先级都为0 openp←(vj,g(vj),f(vj),1) Elseopenp←(vj,g(vj),f(vj),0)

如图4(d)图,其中v1为起点,v0为终点,首先进行权重转换,例如有向边(v2,v3)持股比例w23为(78%,控股)经过权重转换为(0.226, 1).然后,求解启发式函数中的结点到终点的代价函数h(v).例如v3到终点v0的估计长度为1.568,则h(v3)=1.568.如图5所示与起点v1直接相连通的点有v2,v3,v0,放入openp队列中,优先级按照cij>f(vj)>g(vj),则位于队列顶部,出openp队列,v2进closedp队列;将与v2直接相连通的点及其g、f、c放入openp队列,可以看到有相同的结点v3,但是这两个结点经过的父结点不一样,因此g、f、c也不一样.弹出,v3加入closedp队列;以上出入队列的过程进行迭代,直到弹出的点为v0,则得到第1条路径为v1→v2→v3→v0,路径最短为1.899,股权比例最大,为控股路径.接下来求第2条路径,目前的openp序列里弹出,与直接相连的v0加入openp队列,根据优先级弹出,得到第2条路径为v1→v3→v0,路径权重之和为3.167,也是控股路径.依照上述的方法求的第3条路径为v1→v0,路径长度为3.101,尽管比第2条更短,但是为持股路径,而v1→v3→v0为完全控股路径,因此第3条路径优先级低于第2条路径.如果不考虑持股控股优先级的话,仅考虑f(vj)>g(vj),计算的第2条路径会是v1→v0,而不是CEP方法得到的v1→v3→v0,因为v1→v0的路径上的持股比例要大于v1→v3→v0,出现结果偏差情况.综上,得到从起点v1到终点v0的Top-3路径.

图5 Top-3关键股权路径发现过程示例

5 实证分析

5.1 风险特征分析

基于2018年的金融股权知识大图,对以下风险特征进行分析:1)关键股权特征的统计分布与概率近似;2)基于股权结构特征的风险特征识别.

5.1.1 穿透式多层股权网络

第一,借助MEP算法从金融股权知识大图中抽取金融机构的穿透式多层股权网络图.选取了金融机构中最具有代表性的7种类型:银行、保险、期货、证券、资管、信托、公募基金,其中资管研究对象仅为国有资产管理公司,由于其资产规模和利润总额占据绝对优势,且拥有主流金融牌照,具有较强的代表性.私募基金存在信息透明度低,信息披露有限等问题,将进一步收集和更新私募基金的准确股权数据.表3表示的是整体金融机构样本中各类型的股权结构的统计,可以看到银行的平均层数为13层,平均股东达4 134家,平均最终股东占比66.20%,而证券等金融机构的股东数与层数要高于其他几类金融机构,原因在于大型证券公司股权结构较为复杂.

表3 金融机构股权结构特征分析

表4表示的是银行类金融机构的股权结构统计,可以看到国有银行与股份制银行平均总层数分别为30、28层,股东总数超过1万,大型国有商业银行总资产占银行业金融机构比例高达35.4%;股份制银行相对于国有银行股权较为分散,股东数量较多,其规模和资产占银行业总资产和负债的层数的特征相符合.

表4 银行类金融机构股权结构特征分析

进一步分析银行类金融机构平均总层数与股东总数、最终股东占比的关系,如图6(a)所示,总层数与股东总数具有明显的分层结构,且中间出现层数间隙,在0层~20层内,股东总数在0~4 000内浮动,而在30层~40层,股东总数则跃升到了15 000左右.结合表4可以分析的得出,城商行、农商行、外资银行、民营银行的股东层数在0层~20层之间,而国有银行和股份制银行股东层数较多,股权结构更为复杂.图6(b)展示了最终股东占比的分布规律,同样在0层~20层时,最终股东占比均高于20%,大部分集中于40%~85%区间,而到了30层~40层之后最终股东占比稳定于66%上下,可见银行的股东总数与最终股东占比与总层数有一定的相关性,同样结合表4可知国有银行和股份制银行的最终股东占比很稳定,与这两类银行的总资产占比比例紧密相关.

(a)

第二,在系统性金融风险的识别分析中,另一个重要的分析指标是分类型的最终持股比例.分析银行的最终股东,包括国有、私有、外资、广泛持股4个类型.使用MEP算法找到6大类型银行的穿透式多层股权网络,并统计银行最终股东的类型和占比.如表5所示,银行的国有最终持股资产加权比例高达53.29%,私有为5.29%,外资为5.76%,广泛持股为36.66%.李涛等[46]发现目前中国企业的制度环境中,国有比例越高,就越能发挥其监督作用,防止内部人控制,因此对业绩也有正向的促进作用.徐二明等[47]发现在企业中,国权股权占比越大,国有股在企业战略创新中的作用就越大,因此,过程创新和绩效创新获得绩效就好.且国有股权比例越高,企业能享受政府提供的关键资源的优惠待遇,对企业和金融机构都有正向的促进作用.上述理论与实证研究证实:国有股占比的提高会提升企业和金融机构的风险承担水平;从公司内部内控水平来看,银行国有最终持股占比越大,其风险承担水平越高.基于以上理论,可以计算每一类型银行的国有最终持股比例的平均值,判断某银行国有最终持股比例是否低于其所属类型的平均值,给系统性金融风险监管提供参考.

表5 银行类金融机构的最终持股结构

5.1.2 关键股权路径

使用CEP算法查询银行类金融机构之间的关键股权路径,并进行相关的特征分析.路径的起点和终点分别枚举所有银行类机构,共有359×359=128 881种组合方式,其中仅有581种起点和终点的组合之间存在连通路径.连通路径的数目远小于可能存在连通路径的数量,原因在于股权关系较为稀疏,使得两个银行之间存在连通路径的概率较小.对于任意一个存在连通的起点和终点组合,即路径长度大于0,依次设定k=1,2,3,…,进行Top-k查询.注意到第k条路径的持股比例随着k增加不断较少,对于持股比例接近于0的路径,在金融上缺少实际意义.因此,仅保留持股比例的小数点后4位.

第一,对起点和终点的银行类金融机构所属的不同类型进行统计分析.如表6所示, Top-4关键股权路径中的第4条路径的持股比例大部分为0.因此,仅列出Top-4路径.1)从纵向来看,起点银行与终点银行类型组合一共有19种,其中国有银行与城商行,国有银行与农商行之间的路径数量最多,说明它们之间的股权关系较为稠密.同时,发现银行起点和终点类型为国有银行和股份制银行的股权路径数量比例最大,与穿透式多层股权网络的分析一致.国有银行和股份制银行规模和资产占比占据银行业的53%,拥有数量庞大的股东,在银行与银行的股权关联网络中,起着重要的连接作用.其中,起点为国有银行,终点为城商行和农商行的路径数量最大.城商行与农商行统称为区域性商业银行.关键股权路径数量说明区域性银行受到国有银行与股份制银行等大型银行的股权控制,我国银行业龙头集中度进一步提升.在第1条路径中,城商行-城商行的平均路径权重达到8.523 8%,平均长度为3,相比其他类型的第1条路径持股比例较高,路径长度更短.这些关键股权路径包含大量的资产规模千亿级以上的大型城商行,如北京银行、南京银行、上海银行等.这与城商行依赖高杠杆盈利的结论[48]一致.关键股权路径持股比例的计算实质是终点对起点的最终收益权份额,随着路径长度的累加,杠杆也会逐级累加.起点银行(股东)如果资金实力不够、大幅依赖杠杆融资,则最终收益权越大,对终点银行的稳健经营与资金充足率的冲击也就越大.因此,关键股权路径也反映了系统性金融风险的微观成因.

表6 银行类金融机构Top-k关键股权路径统计表

2)从横向来看,总体上从第1条到第4条的平均长度是递增的趋势(6.76-9.65),因为长度增加使得路径的持股比例不断衰减,从而在Top-k路径中的持股比例排名下降.一个例外是城商-农商股权路径,第1条的平均长度为5,而第2条路径的平均长度为4,原因在于在发现关键股权路径时,不仅考虑了路径的持股比例,也考虑了路径的控股或持股的优先级.一般而言,长度较长的股权路径的持股比例较低,如果出现反常现象需引起监管部门的注意,警惕路径起点的金融机构运用杠杆.如果是为躲避监管而设计较长的股权路径,其背后动机非常复杂,可能目的之一是从金融机构套取资源.注意到起点为外资银行,终点为国有、股份制或民营银行的股权路径仅存在Top-1的路径;而起点为外资银行,终点为农商行或外资银行的路径则存在Top-4的路径;这与银行的性质有很大的关系,因为国有、股份制等类型的银行对外资持股占比进行了严格把控,而农商行正处于发展时期,亟需积极引进战略股东,所以外资银行股东占股较多.

第二,发现关键股权路径是识别不正当的关联交易的基础.股东对银行资源的侵蚀,本身就是系统性金融风险的重要来源.这种风险一旦爆发会沿着股权路径进行传导和扩散.例如,由上述分析可知,城商行与城商行之间的股权路径一般较短,最终收益权也高于其他类型的银行,且城商行的高杠杆会随着路径累加,造成被控制银行的经营风险,需要监管部门的重点关注.由此可见,发现关键股权路径并考虑银行的类别可以进一步帮助监管部门细化风险防控措施和体系.

5.2 风险案例分析

安邦保险集团利用多层级复杂股权网络隐藏实际控股股东,并通过多层级股东循环持股、虚假注资形成600多亿的资本金.安邦保险集团最终被中国保监会托管,以防止安邦事件可能带来的风险传导效应,实质上防范了系统性金融风险.围绕“安邦事件”分析单个金融机构的穿透式多层股权结构的特征.通过调用MEP算法,在真实的金融股权知识大图中进行查询,穿透安邦系被接管之前的多层股权网络,评估其风险.图7展示了以“民生银行”为中心的穿透式多层股权网络(仅展示部分4层股东结构),并以时间轴的形式说明关键股权结构随时间的变化:从2013年到2018年,安邦从增持代替新希望成为民生银行的控股股东,到被接管之后相继退出民生银行的大股东之列.关键时间点包括了安邦财产保险股份有限公司从2013年的2.98%增持到2014年的4.88%,再到2016年的4.56%,最后2018年的0%,表明股权的结构变化与金融风险的关联.如果通过MEP和CEP算法能够预先发现重要股权结构的时序变化,如股权增持引发的实际控股股东改变,则可以帮助监管部门预警可能的金融风险.

图7 民生银行穿透式多层股权网络

所有最终股东的持股比例可以通过公式(1)计算.如表7所示,按照最终持股比例排序得到的前10大股东中,安邦保险集团有限公司(简称安邦保险)为排名第一的最终股东,最终持股比例高达27.42%,可以认定为民生银行的实际控股股东.香港中央结算(代理人)有限公司是直接持股比例最高的股东,其持股比例为股东账户的股份总和,而非实质持股;这些股份的权益通过多层股权网络归属最终股东,实际控股股东被隐藏在层层股东之外.这样的高杠杆股权结构本身具有很大的风险.当实际控股股东出现风险时,风险有较大概率传导给被控股公司.事实也证明,当安邦保险发生风险事件时,民生银行受到了风险冲击,股价大跌.

表7 民生银行最终股东持股比例

在得到民生银行的穿透式多层股权网络之后,进一步分析网络中两个公司之间的持股链路,找出关键的股权关联路径,帮助监管部门确定重要的股权关系,及时阻断风险.调用CEP算法,查询起点安邦保险与查询终点民生银行之间的Top-3关键股权路径.

查询结果如表8所示,第1条、第2条关键股权路径的控股权为1,是完全控股路径;这两条路径具有较高的杠杆率,极易发生风险,从侧面印证了穿透式多层股权网络中的风险识别结果.纵观Top-3的股权路径,第3条路径的路径权重比例大于第2条路径,这是因为杠杆的运用使得较少的持股比例实现了控股权.这也印证了CEP算法需要区分持股、控股优先级的原因.关键股权路径说明了安邦保险注资资金流很多是通过第1条股权路径流通的,需要监管部门重点关注,当发生金融风险时,应及时进行阻断,防止风险的传染和扩散.

表8 安邦保险到民生银行的关键股权路径

使用MEP和CEP算法对近年来典型金融风险事件进行了风险结构的发现和分析,如表9所示,此类事件共同点是股权结构成为引发风险的主要原因.金融复杂股权网络可以通过以下渠道对风险产生影响.其一是股东资本的真实性与合规性及多层股东带来的杠杆叠加机制,例如安邦事件和包商银行事件;其二是大股东关联交易带来的风险,及复杂股权网络下实际控股股东的高隐蔽性带来风险扩大,例如抚顺银行事件和中美天元事件.如表9所示,事前、事中、事后的实际控股股东发生了变化,安邦保险集团和辽宁永大集团通过前期股本大幅增持取代之前的实际控股股东的位置,再利用实际控股股东的权利操纵银行.包商银行事件和抚顺银行事件在风险发生之后,股权进行重组,共同点是重组之后的实控权由的民营企业转移至地方政府,最大限度的弥补损失,避免更多的风险.结合从实际控股股东到金融机构的关键股权路径的变化分析,可以看到具有较高风险隐患的实际控股股东的持股链路较为复杂,实际控股股东隐藏在层层股东之后,具有较高的隐蔽性.交叉持股即存在两家公司直接或间接地互为股东的情况.发现民生和包商银行的股权网络中存在交叉持股情况,在复杂的股权网络的情况下,容易造成虚假出资的潜在风险.

表9 典型金融风险事件的股权结构分析

从以上案例分析中可以看出算法的重要性:在层层嵌套的金融机构股权网络之下,部分股东特别是实际控股股东可能不当干预金融机构的经营管理,将金融机构作为“取款机”,使得金融风险增加.而且实际控股股东到金融机构的关键股权路径也是风险传导扩散的重要路径.因此通过算法分析穿透式多层股权网络和关键股权路径为理解金融机构的风险承担行为提供重要性的参考信息.其中,MEP算法可以洞察隐藏在多层股权网络中的实际控股股东,实现穿透式监管,为系统性金融风险提供决策支持.关键股权路径的发现可以揭示金融机构之间的控股权和杠杆,当出现持股比例与路径长度正相关的异常情况时,则应警惕高杠杆的应用.与此同时,监管部门在分析和阻断风险传染的路径时,应是重点考虑关键股权路径,因此CEP算法可为系统性风险的监管提供决策支撑.

基于以上结论,提出了4点政策建议:1)对金融机构进行穿透式股权监管,基于时序股权数据持续监控和识别实际控股股东,与公开披露的控股股东进行比对验证,如不同应确认该金融机构的实际控股股东,避免实际控股股东处于监管盲区.2)计算重点金融机构的最终股东的国有股权占比,如果占比低于该机构所属类别的国有股权占比平均水平,则需要监管部门进行关注.3)建议对实际控股股东与金融机构的关键股权路径进行发现和核查,基于股权高杠杆、交叉持股等风险特征的计算和分析对可能的风险进行预警.4)应将关键股权路径上的金融和非金融机构纳入监管范围,当风险发生时,对以上机构进行重点关注并拟定针对性的监管措施,防范风险沿路径传导.

5.3 算法性能分析

实验使用python开发环境实现算法.机器的配置是CentOS 7.4,8核CPU,32GB内存.随机进行1 000次查询,分别比较MEP、CEP算法与对比算法的查询性能.查询性能的度量基准为查询的响应时间.

MEP算法的对比算法包括:(a)BFS算法,即广度优先遍历算法,首先通过遍历确定整个多层股权结构图,再由外往内分层确定层级,需要对多层股权网络进行多次遍历.(b)BaseLine1(BL1)算法,运用SPARQL查询语言查询图数据库以确定股权的层级.BL1算法调用Dijkstra算法重新计算带权最短路径.实验分别评测平均查询响应时间(简称查询时间)对于层级以及图结点数量的变化.

如图8(a)所示,查询时间与层级数量成正比,当平均层级较低时三种算法的查询时间相差不大,然而随着层级的增加,MEP算法的查询时间相对于BFS算法和BL1算法来说,涨幅最小,其中BFS算法的查询响应时间增加最快.这是因为BFS算法需要多次遍历,而MEP算法仅需一次遍历.当查询穿透式多层股权层级不变时,如果8(b)所示,各算法的查询时间随着图结点数量增加而随之增加,可以看到BL1算法增长速度明显高于其他两种算法.因此,MEP算法的查询性能要优于BFS算法和BL1算法.

(a)

CEP算法的对比算法包括:(a)对于求解有向图中包含环路的KSP问题而言,K*是目前最好的KSP算法[35],因此选择经典算法K*进行对比.K*算法首先用A*算法对图进行搜索直到目标结点被找到,并根据搜索部分构造p(G),再调用Dijkstra算法计算最短路径,如果找到Top-k路径则停止,否则继续启用A*算法搜索重复以上过程,直到找到所有路径.由于K*算法并未考虑边的优先级,因此所找的Top-k路径并不一定是正确结果,如4.2.2节偏差情况中v1→v3→v0路径虽然持股比例小于v1→v0,但是v1→v3→v0是控股路径,v1→v0是持股路径.因此,v1→v3→v0的优先级更高.为了能够和CEP算法进行公平的比较,将K*算法修改为K*-m算法,使得K*-m算法能解决多优先级的KSP问题.K*-m算法步骤如下:首先运行K*算法找到Top-k′路径 (k=k′),然后将结果与CEP查询所得的Top-k路径进行比较,如果相同,则输出结果;否则k′=k′+n,其中n为金融股权知识大图中结点的平均度,根据表1,本实验n=3;以上过程不断迭代,直到K*算法找到的Top-k′中包括CEP查询所得的Top-k路径,则算法结束,输出结果,注意此时k′>k. (b)BaseLine2(BL2)算法,运用SPARQL查询语言查询图数据库中两个结点之间的股权路径,只能输出确定跳数内的股权路径,且需要计算出所有路径的权重,以输出Top-k关键股权路径.实验分别评测查询时间与平均长度、k值、图结点数的变化关系.

如图9(a)所示.当图结点数、k值固定时,CEP算法查询性能随着路径平均长度的增加优于K*-m算法和BL2算法,主要原因是K*-m算法需要进行多次迭代,而且由于设定的k值较小,K*-m算法首先需要建立一个复杂的路径图,使得效率降低.如图9(b)所示,各个算法的查询时间与k值成正比,其中CEP算法的增长速度最慢,具有较好的可扩展性.BL2算法随着k的增幅最大,值得注意的是在k=2之前出现了一个交叉点,主要是因为所以在k较小时,K*-m的整体代价高于BL2.如图9(c)所示,CEP算法的查询时间最短,当到达104结点数量之后,BL2算法呈指数增加,而CEP算法与K*-m算法的增长较为平缓.但是在此之后K*-m算法响应时间高于CEP算法,主要是因为K*-m需要迭代多次得到结果.相比于对比算法,CEP算法查询效率较高,且在大规模的数据集上具有良好的可扩展性.因为CEP算法可以根据优先级和路径的权重(即持股比例)过滤不在Top-k中的路径,不需要遍历起点和终点之间所有的边,可以节约更多的时间,适用于大数据环境下金融股权知识大图的查询和分析.

(a)

MEP算法的时间复杂度为O(|V|+|E|),其中|V|为大图中结点的数量,|E|是边的数量,因为最坏情况下图中的每个点和边都会被访问到;空间复杂度为O|V|,最坏情况需要存储图中所有结点.当图的规模过大而无法存储时,则可以根据MEP算法穿透的最大层数l(详见定义4)来描述复杂度,此时MEP算法的时间复杂度和空间复杂度均可表示为O(bl+ 1),其中b为知识大图结点的平均出度.同理,CEP算法的时间复杂度为O(bl),其中l是关键股权路径的最大长度(注意到MEP在确定结点层级时调用了CEP),CEP算法的空间复杂度为O(bl),因为CEP在内存中存储了算法过程中所有产生的结点.

BFS算法的时间复杂度为O(|V|+|E|),空间复杂度为O|V|;BL1和BL2由于在调用SPARQL语句过程中均涉及遍历图中的邻接结点和边,因此在最坏情况下需要访问图中所有的点和边,BL1和BL2的时间和空间复杂度均为O(|V|+|E|);K*-m算法的时间和空间复杂度为O(|E| +|V| ln |V|+k)[35].

由以上分析可知,MEP算法的时间复杂度等于BFS和BL1,空间复杂度等于BFS,小于BL1,但是由于MEP算法采用了优化技术仅需一次遍历,因此查询时间仍然优于BFS和BL1.因为bl≤|V|,所以CEP算法的时间和空间复杂度均优于K*-m和BL2.

6 结束语

基于知识关联理论,构建了亿级结点的金融股权知识大图,将金融股权网络中的风险结构发现与分析问题转化为金融股权知识大图中的知识关联发现与风险分析.提出了多层股权穿透(MEP)算法和关键股权路径发现(CEP)算法,能够从金融股权知识大图中准确高效地发现穿透式多层股权网络和关键股权路径.同时,对发现的两个知识关联结构进行了深度分析,并通过对案例的分析进一步验证了股权知识关联与系统性金融风险的关系.

研究取得了诸多具有理论意义与实践指导意义的结论,其中包括:1)多层股权网络穿透算法可以发现隐藏在层层股东之中的实际控股股东,支持穿透式监管.2)关键股权路径发现算法可以识别股权控制链路,从而为系统性金融风险传导路径提供参考信息,特别是从金融机构向非金融机构风险传导的路径.3)金融机构的最终股东的国有股权最终持股占比,是国家金融安全、政治安全的基础判断依据.本文的研究结论表明,股权网络风险特征分析有助于识别和分析系统性风险,为穿透式监管提供必要的决策支持.

未来的工作包括:首先,进一步优化所提出的算法,提高算法的有效性和性能.其次,是在股权知识大图上实现对我国金融机构的整体股权结构的穿透式解析与关键特征分析,并建立系统性金融风险的度量标准.最后,将基于金融股权知识大图总结出系统性风险的形成机理,结合提出的知识关联发现算法,构建系统性风险的识别与传导模型,实现时序动态分析,为进一步防范系统性金融风险提供辅助决策.

猜你喜欢
大图结点股权
大图
环球慈善(2019年6期)2019-09-25 09:06:24
拼图
新形势下私募股权投资发展趋势及未来展望
动脑筋,仔细看
小小艺术家(2018年8期)2018-10-11 06:17:14
找拼图
Ladyzhenskaya流体力学方程组的确定模与确定结点个数估计
什么是股权转让,股权转让有哪些注意事项
甘肃农业(2017年3期)2017-04-22 08:24:18
定增相当于股权众筹
创业家(2015年7期)2015-02-27 07:54:18
七七八八系列之二 小步快跑搞定股权激励
创业家(2015年6期)2015-02-27 07:54:00
基于Raspberry PI为结点的天气云测量网络实现