陈彦陶 仲天荐 王煜
摘 要:企业管理、运行风险对事故的发生具有显著的影响,但道路交通运输企业风险具有较强隐蔽性,对于道路交通运输企业的监管难以实现早发现、早预防。随着大数据的发展,通过企业经营特征数据形成企业画像,进一步进行安全生产的风险研判成为可行之路。文章基于企业经营特征数据,首先利用因子分析法进行特征提取;然后对提取的经营因子进行聚类分析,构造了企业画像标签模型,划分了不同企业的风险类别,形成了一套交通运输企业的风险评价算法;最后利用实例数据证实了算法的有效性,该算法能较为直观地反映企业的安全生产风险情况,为实现企业精准监管提供有效的依据和手段。
关键词:因子分析;聚类分析;企业画像;风险研判
中图分类号:F259.22;U492.8文献标志码:ADOI:10.13714/j.cnki.1002-3100.2023.10.025
Abstract: Enterprise management and operational risks have a significant impact on the occurrence of accidents, but road transportation enterprise risks are highly hidden, making it difficult to achieve "early detection, early prevention". With the development of big data, it is feasible to form a corporate image through business characteristic data and further conduct risk research and judgment on safety production. Based on the business characteristics data of enterprises, this paper first uses factor analysis to extract features. Then, cluster analysis is performed on the extracted business factors to construct a corporate portrait label model, which divides different enterprise risk categories, and forms a set of transportation enterprise risk evaluation algorithms. Finally, the effectiveness of the algorithm is confirmed by using example data. The algorithm can reflect the enterprise's safety production risk situation more intuitively, and provide an effective basis and means to realize the precise supervision of enterprises.
Key words: factor analysis; cluster analysis; corporate portrait; risk assessment
0 引 言
隨着我国经济的持续发展,道路交通运输企业规模不断扩大,危险品运输量和客运量持续增加,各类安全生产问题更加突显。道路交通运输企业的安全生产问题会严重威胁人民的财产和生命安全,因此要不断提高道路交通运输企业的安全防范要求[1]。
在研究中发现,当前发生过严重生产安全事故的企业往往存在一些共性问题[2],如企业的法定代表人不明确,生产项目存在违法发包、转包等问题;受到各类行政处罚的交通运输企业往往存在安全隐患[3-4]。为加强安全风险防范,应对安全生产高风险企业进行重点的安全监管和风险防控。但目前对道路交通运输企业的监管具有的一定滞后性,通常在事故发生后才采取相应的处理措施,而此时已经造成了人员伤亡和经济损失。随着大数据的发展,通过企业经营特征数据形成企业画像,进一步进行安全生产的风险研判,以实现对风险的早发现、早预防。然而大数据具有体量大、数据密度低的特点,即交通运输企业安全生产问题的影响因素众多,随着企业数量、企业经营数据的指数级增长,如何科学高效地划分出安全生产高风险企业成了风险防范的关键问题。
企业画像[5-6]是指将企业信息标签化,在真实数据集基础上构建的标签模型体系,通过对企业的经营特征数据进行挖掘,分析企业的安全生产风险[7-8]。企业画像技术为企业升级、政府监管等提供了有效分析,学界目前已有许多学者对企业画像进行了研究。王雪(2017)构建了一个基于企业画像的公示数据查询系统,有效满足了用户对多维度企业公示数据的查询需求[9]。田娟等(2018)对大数据平台的企业画像研究文献进行了综述,提出企业画像构建的难点在于海量数据的获取和处理[10]。吴行惠等(2018)提出了基于质监标准的企业画像,为企业产业升级提供了依据[11]。黄晓斌等(2020)提出了融合多源数据的方法来构造企业画像,用于描述企业的竞争对手[12]。黄家娥等(2022)提出了引入用户画像对企业进行建模,从需求分析角度刻画企业画像[13]。企业信息数据上越来越透明化,如基础工商信息、经营风险信息、法院失信记录等,这确保了经营特征数据的可行性和科学性。因此,在分析企业的安全生产风险时,基于大数据的企业画像技术能够为安全生产风险研判提供分析工具。
本文采用的企业经营特征数据包括结构化指标数据和非结构化指标数据。经营特征数据涉及的指标可以分为四个一级指标:行政处罚信息、违法转包信息、企业规模信息、企业负责人信息。本文利用典型事故企业的经营特征数据来分析安全生产风险企业的共性问题,先利用因子分析法对企业经营指标数据进行特征提取,后利用聚类分析法设定画像标签,刻画安全生产高风险企业的画像,直观反映企业的安全生产风险情况,为实现对企业精准监管提供有效的依据和手段。
1 基于企业外部数据的风险研判算法
1.1 经营因子选择
纵观国内外研究现状,企业生产安全事故的影响因素众多,为更加科学地分析各种因素,本文对企业行政处罚信息、企业违法转包信息、企业规模信息、企业负责人信息这四个一级指标进行分析归纳,研究刻画企业安全生产风险的具体经营因子。
本文在选取经营因子时,通过对应急管理部发布的安全事故调查报告进行分析,采用事故树分析方法进行多种致因分析,从调查报告中分析筛选安全生产风险的经营因子。对于第一方面——企业规模信息,本文选取企业参保人数、注册资本、实缴资本、注册资本到位率(实缴资本与注册资本的比值)、成立年限、所属省份这6个经营因子进行进一步描述。对于第二方面——企业负责人信息,本文选取实际负责人和名义负责人不一致数、法院失信记录数、企业法定代表人被限制消费的次数、法定代表人频繁变更数这4个经营因子进行进一步描述。对于第三方面——企业行政处罚信息,本文选取行政处罚数、行政处罚总金额、破产清算数、注册资本异常这4个经营因子进行进一步描述。对于第四方面——企业违法转包信息,本文选取挂靠纠纷数、融资租赁合同纠纷数和承包经营合同纠纷数进行进一步描述,这3个经营因子常用于描述企业违法转包、层层转包的生产问题。
1.2 企业经营特征提取及风险研判方法
选取大量因子后,有些因子具有信息重复性,会引起某一个指标权重过大,从而引起不合理的判断和不合理的预警。本文采用因子分析法对企业经营数据进行特征提取。采用因子分析法的主要目的是将原始指标综合成较少的指标,以这些指标反映原始指标的绝大部分信息。因子分析算法步骤如下。
步骤1:用定性分析和定量分析的方法选择变量,因子分析法的前提条件是观测变量之间有较强的相关性。步骤2:计算原始变量的相关系数矩阵。步骤3:提取公共因子,按照因子的累计方差贡献率确定公共因子。步骤4:进行因子旋转,通过坐标变换使每一个原始变量在尽可能少的因子之间有密切关联。步骤5:计算因子的得分,求出各样本的因子得分,最后将因子的得分作为下一步聚类分析的变量。
在风险研判中,可以将相似的风险因素归为一类,进而评估每一类风险的可能性和严重程度。同时,在风险研判中,很多时候并没有足够的先验知识或已知标签,无监督方法可以适用于这种情况。在无监督方法中,聚类分析由于速度快、可解释性好成为主流方法。本文采用系统聚类分析,假设数据集中有n个样本,将所有单个样本看作是多维样本空间中向量的一个端点,用相似度或距离度计算各点之间的距离,组成类间距离矩阵,并将距离最近的两类合并为一个新类,然后计算新类与当前类之间的距离,将距离相近的类进一步合并,依次进行,直到数据完全合并为一个类别,并得到聚类图。具体步骤如下。
步骤1:首先对样本进行标准变换,再计算样本之间的距离,由样本之间的距离构成距离矩阵。步骤2:按样本间距离矩阵的最小距离进行聚类,将距离最近的样本归为一个新的类别。步骤3:利用离差平方和法定义类与类之间的距离。步骤4:计算新类与其他类之间的距离,再根据距离最近的规则进行类与类的合并,直到所有样本归为一类。
1.3 企业风险研判方法的具体流程
结合上述过程,本文构建企业风险研判方法。
数据采集和处理;从政府公开信息平台、征信网站和企查查等平台搜集数据,采用爬虫技术采集数据,并进行数据清洗和预处理;设定一级指标,设定四个一级指标企业规模、企业负责人信息、企业行政处罚信息、企业违法转包信息;设定画像因子,利用关联分析、因子分析对数据进行处理,进而确定企业画像的关键因子;计算无监督学习下的画像,利用聚类分析不同企业所属的画像类型,进一步分析聚类中心,从而构建预警体系。
2 风险研判应用
2.1 数据集
本文以企业风险研判方法中的多类型为基础,从公开信息中全面梳理69家发生过事故的企业的经营特征数据作为实验数据。其中事故企业的经营范围包括客运、危险品运输等。文中所涉及的69家企业事故信息以应急管理部公开发布的事故为数据核心,企业经营特征数据源于政府网站,企查查、天眼查等数据平台,以及征信网站。
根据前文介绍的方法,本文以69家企业自2015年来的各项企业经营指标数据为源数据,将69家企业表示为Xi,i=1,2,...,69,每家企业收集15个指标数据(V1:实际负责人和名义负责人不一致数;V2:法院失信记录数;V3:限制消费令次数;V4:挂靠纠纷次数;V5:行政处罚金额;V6:资金到位率;V7:注册资本;V8:实缴资本;V9:注册资本异常;V10:法定代表人变更数;V11:行政处罚数;V12:破产清算次数;V13:参保人数;V14:成立年限;V15:所屬省份)。
2.2 风险研判分析
2.2.1 因子分析
本文利用主成分分析法求解因子载荷矩阵,从原始变量中构造出少数几个具有代表性的因子变量,并求解变量相关系数。由原始变量的相关系数矩阵计算得出法院失信数和挂靠纠纷次数、行政处罚金额的相关系数较高,相关系数分别为0.6和0.675;限制消费令次数和破产清算次数的相关系数比较高,相关系数为0.856;行政处罚金额和挂靠纠纷次数的相关系数比较高,相关系数为0.963。各变量之间存在较强的相关性,可以从中构造出具有代表意义的因子变量。
此外,本文对数据进行了KMO(Kaiser-Meyer-Olkin)和巴特利特检验以验证因子分析的有效性,计算得到KMO的值为0.673,说明该数据适合进行因子分析。巴特利特检验的显著性小于0.05,因此拒绝原假设,说明所分析的变量之间具有相关性,适合进行因子分析。
下一步提取公共因子,通过计算特征贡献度如表1所示,分析得到前6个因子的累计方差贡献率分别为27.791%、46.243%、59.192%、68.356%、76.259%、83.743%。前6个因子序号的特征根比较大,作用比较明显,对解释原始变量的贡献比较大,第7个以后的因子特征根值比较小,对解释原始变量的作用比较小,因此提取6个因子比较理想。
接下来计算因子得分,通过计算成分得分系数矩阵,第1因子主要解释了法院失信记录数、行政处罚数、注册资本、实缴资本这四个指标,四个指标的成分得分分别为0.2、0.183、0.192、0.193。第2因子主要解释了限制消费令数、注册资本异常和破产清算这三个指标,三个指标的成分得分分别为0.353、0.314、0.365。第3因子主要解释了挂靠纠纷数、行政处罚金额这两个指标,两个指标的成分得分分别为0.356、0.349。第4因子主要解释了资金到位率、法定代表人变更数这两个指标,两个指标的成分得分分别为0.516、0.335。第5因子主要解释了实际负责人和名义负责人不一致数这个指标,指标的成分得分分别为0.563。第6因子主要解释了行政处罚数和法定代表人变更数这两个指标,两个指标的成分得分分别为0.439、0.435。
2.2.2 聚类分析
本文采用系统聚类的方法,类间距离采用离差平方和,开始时把每个样本各看为一类,然后把最靠近的样品聚为小类,再将已聚合的小类按其类间距离合并,不断继续下去。计算谱系图,可以将69家企业大致分为4类:企业X54、X40、X28、X12、X48、X37可以聚为一类;企业X65、X25、X23、X61、X26、X38、X5、X4、X53、X6、X46、X15、X68、X3可以聚为一类;企业X20、X29、X22、X10、X39、X34、X7、X56、X2、X14、X67、X63、X41、X50、X69、X57、X58、X55、X33可以聚为一类,剩余的企业聚为一类。
接下来对聚类结果进行分析,利用聚类算法将企业分为四大类。第一类企业的显著特点是行政处罚次数频繁。这类企业屡次违法违规,行政处罚次数多。典型案例为:28号企业的行政处罚数高达918次,处罚总金额为10 059万元,多次交通等方面的行政处罚并未引起该企业的重视,在2019年已发生5次不同程度的事故,死亡1人。第二类企业的显著特点是企业负责人存在问题。这类企业负责人存在多次法院失信记录或实际负责人和名义负责人不一致的情况。典型案例为:第5号企业的法院失信记录数高达89次,且存在实际负责人和名义负责人不一致的情况,该企业被某市交通运输局通报为风险隐患较高的企业。第三类企业的显著特点是存在违法转包、挂靠问题。这类企业存在违法发包、转包的问题。典型案例为:第63号企业因多次挂靠经营合同纠纷被起诉,且实缴资本为注册资本的20%。该企业2020年发生一起交通事故,造成2人死亡,1人受伤。第四类企业的显著特点是是规模较小且成立年限较短。这类企业是新成立或新建成的,生产经营等方面需要进行磨合,一旦疏于管理就容易发生事故。典型案例为:第27号企业成立的年限为6年,且企业规模比较小,注册资本仅为10万元。该企业在2019年出现过一次交通事故,造成3人死亡。
3 结 语
企业安全生产风险研判分析可以通过企业经营特征数据进行描述。随着大数据技术的发展,企业的各项特征指标数据能得以记录,各项外部数据能够更好地刻画企业的画像,且能够作为企业风险研判分析的切入点。企业画像技术能够将企业行为、属性等数据抽象出标签化的企业质量信息,以画像的方式全方位展现企业的风险程度。本文通过企业经营特征数据来分析交通运输企业安全生产高风险企业的共性问题,先通过特征提取外部指标数据,后进行聚类分析的方法设定画像标签,刻画出高风险项目企业的画像,为监管部门实现精准风险防控提供有效支撑。
参考文献:
[1] 张道斌.化工园区企业安全风险分级和预警方法[J].现代化工,2022,42(S2):12-15.
[2] 应急管理部启动硝化企业专项整治问题落实情况“回头看”工作[J].中国安全生产科学技术,2022,18(2):197.
[3] 杨天姿,王铁骊,彭恒明,等.小微企业生产安全事故应急脆弱性评价[J].中国安全科学学报,2021,31(12):176-183.
[4] 应急管理部部署加强年底安全风险防范 通报四类生产安全高风险项目企业[J].安全与健康,2020(11):50.
[5] 李鑫.化工企业生产安全风险画像技术应用与研究[D].青岛:青岛科技大学,2020.
[6] 艾留阳,张亚强,李颜.化工企业生产安全风险画像技术研究[J].化工安全与环境,2022,35(30):11-14.
[7] 丁行硕,李翔,谢乾.基于标签分层延深建模的企业画像构建方法[J].计算机应用,2022,42(4):1170-1177.
[8] 关冬院.基于网络公开数据的企业画像方法初探[D].昆明:云南大学,2019.
[9] 王雪.基于企业画像的公示数据查询系统设计与实现[D].大连:大连海事大学,2017.
[10] 田娟,朱定局,楊文翰.基于大数据平台的企业画像研究综述[J].计算机科学,2018,45(S2):58-62.
[11] 吴行惠,梁娜,王光昕,等.大数据在企业标准画像中的应用与研究[J].标准科学,2018(7):96-101.
[12] 黄晓斌,张明鑫.融合多源数据的企业竞争对手画像构建[J].现代情报,2020,40(11):13-21,33.
[13] 黄家娥,李静,胡潜.基于企业画像的行业信息精准服务研究[J].情报科学,2022,40(2):99-104,112.