文本中隐含的跨境资金流动信息
——基于文本大数据分析构建跨境资金流出压力指数

2022-06-24 03:01:20孙希昀侯骏王淼杨磊
中国外汇 2022年3期
关键词:分类器负面跨境

文/孙希昀 侯骏 王淼 杨磊

一、引言

测度跨境资金流动压力的传统方法主要依赖于经济增长率等宏观经济指标以及购售汇数据等微观主体行为指标,此类数据在更新频率、获得时效等方面存在一定局限。近年来,随着微博、微信等新媒体的兴起,信息传播的速度越来越快,各类专家、学者通过自媒体平台发表其对经济形势、金融市场、国际关系的观点,其中隐含的情绪往往对市场主体的跨境资金摆布行为产生潜在影响。在此背景下,借助机器学习对自媒体上的大数据文本进行分析,为衡量跨境资金流出压力打开了一扇新窗口。通过对网络上海量非结构化文本数据进行文本分析,构建高频跨境资金流出压力指数,有助于刻画市场主体摆布跨境资金的特征,在一定程度上反映市场预期、情绪变化对跨境资金流动的影响,与传统的跨境资金流出压力测度方法形成相互补充。

二、分析经济金融领域中非结构化文本数据的情感倾向

文本分析技术多应用于市场情绪度量、市场情绪指数的构建。例如,通过对博客、股吧、贴吧的留言进行语义分析,探究文本中所表达的投资者情绪、观点和看法等。近年来,部分研究开始将文本大数据分析引入宏观经济领域,使用机器自动统计各类媒体新闻中同时包含经济(economic/economics)、不确定(uncertain/uncertainty)和政策(policy)三类词语的月度文章数量,构建衡量经济政策不确定性的指数。本文尝试将这一方法引入跨境资金流动分析,通过将词法分析和机器学习相结合,对微信上的非结构化文本进行语义分析,并对文本所隐含的正负情感倾向进行快速标注。

第一步,清洗数据并建立经济金融中文语料库。选取微信公众号上经济金融领域相关研究机构和专家学者所发表的观点明确的文章,通过收集、整理、去重,得到4万余个文本数据,以此形成经济金融中文语料库。每条文本数据包含发布时间、阅读量等结构化数据,也包含标题、正文等非结构化数据,时间跨度从2014年10月到2021年9月。

第二步,对文本主题进行聚类。首先,对所有文本进行分词,并标注词性,提取文本统计特征TF-IDF值(词频-逆向文件频率),将文本转化为聚类模型可以处理的特征向量,为了尽量减小特征矩阵的维度,只使用文本中的名词类词汇(包括名词、名动词、名形词)参与聚类,根据每类文本中统计特征最明显的五个关键名词类词汇(见表1)来确定此类文本的主题。然后,使用K-means无监督算法对文本进行聚类,并使用截断奇异值分解(Truncated SVD)降维方法,将每篇文章的特征向量映射到二维和三维空间中,每个点代表一篇文本,以直观展现文本聚类的效果。如图1所示,本文所选取的文本数据在每一类别上的边界较为清晰,说明聚类是有效的。

图1 文本聚类分析的可视化

表1 文本聚类的结果

第三步,建立经济金融领域情感词表。常用的情感和语义词典包括知网情感词典(HOWNET)、台湾大学简体中文情感词典(NTUSD),但这类情感词汇多应用于生活中,难以适用于经济金融领域。鉴于经济金融领域的负面情感是出于对不确定性和风险的厌恶,本文先通过人工方法从程度、词性、态度三个维度列出反映经济金融领域情感特征的核心关键词(见表2),然后借助词向量工具word2vec,利用上述经济金融语料库训练一个词向量模型,以此找出与核心关键词相似度较高的词汇,得到一个包含114个正面词汇以及164个负面词汇的经济金融领域情感词表。

表2 经济金融领域情感词表构建

第四步,使用词频统计方法对文章情感倾向进行打分。对文本内容中正面词汇和负面词汇出现次数进行统计,出现正面词汇加一分,出现负面词汇减一分,选取特征明显(打分大于等于10分以及小于等于-13分)的文本,分别标注正面情感和负面情感。

第五步,使用特征明显的文本训练分类器模型。使用词向量工具doc2vec将已标记情感的文本转化为特征向量,并以70%和30%的比例将文本分为训练集和测试集,使用训练集训练一个随机梯度下降分类器(SGD分类器),其可以用于预测二分类问题,对剩余特征不明显的文本正负情感进行预测。分别选取交叉熵损失函数(Cross Entropy Loss)和调整后的Huber损失函数(Modified Huber Loss)作为分类器的损失函数,用测试集来测试不同损失函数的分类器性能,若分类器的AUC值越大,表明分类效果越好。如表3所示,两种损失函数的分类器AUC值分别为0.96、0.92,说明使用交叉熵损失函数的分类器效果更好。

表3 各种分类方法性能指标评估

第六步,使用分类器对剩余文本情感进行预测。将剩余文本(得分在-13分和10分之间)转化为特征向量,并使用训练得到的SGD分类器模型完成对所有文本正负情感倾向的标注。

三、使用负面情感文本构建跨境资金流动压力指数

鉴于跨境资金的流出压力与负面情感具有更多的联系,因此本文选取五类表达负面情感的文本来构建跨境资金流出压力指数(见表4)。同时,由于文本需要被阅读后才能向阅读者传递情感,因此本文使用文本对应的阅读量来刻画各类文本信息对市场情绪的潜在影响程度大小,以此作为影响跨境资金流动的权重。

表4 表达负面情感的五类文本

具体而言,将五类文本主题中同一天内所有表达负面倾向的文章的阅读量直接加总(数据时间为2015年5月至2021年9月),得到每日负面情感文本阅读量数据,在此基础上,将该日度阅读量数据变频为月和周,rmt表示所有负面倾向文本在第t月的阅读量数据,rwt表示所有负面倾向文本在第t周的阅读量数据。接着,对阅读量的时间趋势作标准化处理,采用移动平均的方法(月度数据采用6期的移动平均,周数据采用24期的移动平均)分离出阅读量的增长趋势rm0t和rw0t。rmt/rm0t即为剔除时间趋势后的月度跨境资金流出压力指数(见图2)。可以看出,该跨境资金流出压力指数较好地体现了2015年“8·11”汇改、2018年中美经贸摩擦以及2020年新冠肺炎疫情下市场负面情绪上升对跨境资金流出压力的影响。为进一步提高数据频度,使用同样的方法分离出周阅读量增长趋势,rwt/rw0t即为频率为周的跨境资金流出压力指数(见图3)。

图2 跨境资金流出压力指数(月)与阅读量增长趋势的时间序列

图3 跨境资金流出压力指数(周)与阅读量增长趋势的时间序列

四、运用压力指数对跨境资金流动情况进行实证分析

第一步,测算潜在的跨境资金流动规模。假设外汇存款净增量(金融机构新增外汇存款与金融机构新增外汇贷款之差)保持平稳,使用涉外外汇顺差(涉外外币收付款差额)和结售汇顺差(银行代客结售汇差额)之差作为跨境资金流出规模的测度,其在一定程度上可作为“净误差与遗漏”项的高频替代指标。如图4所示,以该指标测算的跨境资金流出规模与“净误差与遗漏”项的差额走势较一致,因而可以作为后者的高频替代。

图4 跨境资金流出测算规模与“净误差与遗漏”项的比较(单位:亿美元)

第二步,使用月度跨境资金流出压力指数解释跨境资金流出规模。选取2015年5月至2021年9月的跨境资金流出压力指数和测算的跨境资金流出规模月度数据,共76个样本点,建立多项式分布滞后(PDL)模型,研究两者关系。定义Yt为测算的跨境资金流出规模,定义Xwt为月度的跨境资金流出压力指数。根据施瓦兹(Schwarz)准则,确定最优滞后期数为12期,得到拟合优度为28%,参数估计结果如表5所示。可以发现,从滞后第4期开始,跨境资金流出压力指数对未来潜在跨境资金流动规模具有较显著的负面影响,即跨境资金流出压力指数上升,未来潜在跨境资金流出规模增大。其原因可能是,文本中的负面情绪在一定程度上推升了市场主体向境外摆布资金的意愿,但由于市场主体在信息接收上存在时滞,且金融市场存在摩擦,可能需要4个月以上的时间才能将跨境资金摆布意愿付诸实际。

表5 PDL模型参数估计结果

第三步,使用高频跨境资金流出压力指数解释跨境资金流出规模。相较月度数据,高频数据包含了更多可用信息,建立被解释变量为Yt,解释变量为滞后的高频跨境资金流出压力指数Xwt-i的混频数据回归(MIDAS)模型,共有333个样本点,权重方法选择阿尔蒙多项式函数。根据施瓦兹(Schwarz)准则,确定最优滞后阶数为76,回归得到的拟合优度为30%,解释能力相较月度数据有所增强。

五、主要结论及启示

本文研究表明,通过文本分析构建的跨境资金流出压力指数能够在一定程度上捕捉到市场负面情绪的变化,前瞻性预测未来跨境资金流出规模的变化趋势,成为衡量跨境资金流出压力的先行指标,这对跨境资金流动风险监测管理具有一定的启发意义。

一是顺应科技发展趋势,不断丰富跨境资金流动监测工具箱。在互联网技术和计算机技术高速发展的今天,信息传播方式发生了深刻变化,信息量和信息传播速度均呈现几何级数增长,自媒体对市场预期的引导作用越来越显著,这些都改变着社会公众预期形成和行为决策的方式。鉴于此,政策制定者应在传统经济和金融分析框架的基础上,针对信息传播方式的改变,引入新的分析方法和视角。

二是加大对文本分析方法的探索和运用。近年来,随着机器学习技术、自然语言处理技术的不断进步,部分国家的央行和研究机构开始探索通过数据挖掘、情感分析等技术手段建立文本隐含信息和实体经济的联系。对应到外汇管理领域,影响跨境资金流动的因素纷繁复杂、瞬息万变,通过使用非结构化文本数据分析,能够在一定程度上突破现有统计数据在发布频率上的约束,克服传统计量模型假设过多、过度拟合等不足,及时捕捉到市场情绪的变化,预测市场主体向境外摆布资金的意愿以及相应的跨境资金流出压力,从而有的放矢对市场负面情绪上升较快的领域开展宏观审慎调控和预期引导。

猜你喜欢
分类器负面跨境
跨境支付两大主流渠道对比谈
中国外汇(2019年20期)2019-11-25 09:54:56
在跨境支付中打造银企直联
中国外汇(2019年14期)2019-10-14 00:58:28
关于促进跨境投融资便利化的几点思考
中国外汇(2019年21期)2019-05-21 03:04:14
负面清单之后的电改
能源(2018年8期)2018-09-21 07:57:22
远离负面情绪
BP-GA光照分类器在车道线识别中的应用
电子测试(2018年1期)2018-04-18 11:52:35
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
跨境直投再“松绑”
中国外汇(2015年11期)2015-02-02 01:29:27
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别