胡忠海 杨楠
(1.天津市西青区中等专业学校 天津市 300387 2.天津师范大学计算机与信息工程学院 天津市 300382)
随着计算机技术的不断进步,全球的企业都在加速进行数字化转型,不仅仅是为了更加高效运营,更主要是为了应对市场需求,快速调整战略部署,做出抉择。特别是在针对网络风险治理与防控中,人工智能、数据挖掘等技术将作为最锋利的武器来面对挑战。
在这个互联网自媒体的时代,存在形形色色的信息和价值观念,互联网一方面赋予了公众参与社会管理、发挥舆论监督的权利,另一方面也存在一些虚假的、有害的信息和错误的观点也混淆其中,扰乱了网络舆论的正常秩序,尤其对金融行业而言,有害的信息将会影响声誉,加大金融风险。所以,必须加强对互联网信息的有效管控,保证网络环境的健康和谐。在国务院新闻办公室5 月8 日举行的新闻发布会指出,国家网信办部署开展2021 年“清朗”系列专项行动,出“重拳”治理网络乱象滋生蔓延,包括整治网上历史虚无主义,治理算法滥用行为,打击网络水军、流量造假、黑公关,整治未成年人网络环境,整治PUSH 弹窗新闻信息突出问题,规范网站账号运营,整治网上文娱及热点排行乱象等[1]。
目前,大多数的风险防控平台都是针对特定的业务需求进行逻辑处理的,没有建立实时的、动态的、可更新的、可扩展的智能化风险防控体系。本文主要是通过渤海证券在网络平台上对相关新闻进行分析,利用知识图谱、复杂网络、情感计算等技术处理,并就如何做好风险防控展开研究。
知识图谱官方词条是指:Google 用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
知识图谱普遍存在于各种行业,包括医疗保健、金融和电子商务。在各自的领域中,它们被用于建模不同的生态系统,例如患者及其医疗状况、帐户之间的金融交易以及客户购买或返回的产品。它们表示微妙关系的能力提供了一个丰富的结构来推理传统使用的表或关系数据库之外的数据。作为一种数据结构,知识图谱可以很好地管理数据湖、数据仓库和知识库。一个著名的例子是WikiData,它作为维基百科的底层数据结构。
知识图谱经常用于自然语言处理(NLP)应用程序,目前,已经有很多项目引入了知识图谱的技术,在搜索引擎方面,以谷歌的Google Search、微软的Bing Search最为典型;在问答系统方面,国内百度公司研发的小度机器人,天津聚问网络技术服务中心开发的大型在线问答系统OASK 都采用了较多知识图谱方面的知识,其旨在使用历史数据,为用户提供良好的交互式体验。社交平台facebook 也通过知识图谱将人、地点、事情等联系在一起,并以直观的方式支持精确的自然语言查询,知识图谱会帮助用户在庞大的社交网络中,找到与自己最具相关性的人、照片、地点和兴趣等。
由于知识图谱的固有图结构,即节点和链接,我们可以应用常见的图分析算法,例如节点/边缘中心性,来学习和预测数据。因此,知识图可以用于节点和边缘分类或回归。例如,使用KG 新闻文章来帮助建模和预测股票价格的变化。目前也在进行知识图谱上训练gnn的工作,例如知识图谱补全和链路预测。
在知识图谱的构建中MediaWiki 是基于PHP+MySQL 环境的开源Wiki 系统,作用于对知识的归档,构建企业/个人知识库。Semantic MediaWiki (SMW) 是一个免费开源的 MediaWiki 扩展,可以存储和查询 Wiki页面的数据,同时SMW 也是一个完全成熟的框架,结合了很多其他扩展可以让 Wiki 变成一个强大而且灵活的协作数据库,所有在 SMW 中创建的数据可轻松通过语义网络发布,允许其他系统无缝的访问这些数据。
在风险治理的研究中,采用海量的历史数据,根据不同用户的使用习惯,自动进行知识学习,提升风险感知能力和预警能力,也可以使用不同的社交平台数据,针对用户构建画像,分析行为习惯,实现对网络谣言的实时监控。行业知识图谱如图1 所示。
图1: 行业知识图谱
复杂网络的经典定义, 是将具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。科学的发展与互联网技术的发展,让人类生活的世界中存在的各种系统网络和信息网络蕴含的信息越来越多越来越复杂,如包括资金流动、价值信息的金融网络,包含着道路信息、交通设施的交通网络等等。那么了解复杂网络,合理的运用复杂网络,对获取其中的有效信息以及其背后隐藏的更多的未知信息有着重大的意义。
复杂网络是一种新型的用来研究大型复杂系统的理论工具,在自然界中存在的大量复杂系统都可以通过形形色色的网络加以描述。一个典型的网络是由许多节点与节点之间的边组成,其中节点用来表示真实系统中不同的个体,而边则用来表示个体间的关系,通常是两个节点之间具有某种特定的关系则连一条边,反之则不连边,有边相连的两个节点在网络中被看作是相邻的[3]。例如,神经系统可以看作大量神经细胞通过神经纤维相互连接形成的网络;计算机网络可以看作是自主工作的计算机通过通信介质如光缆、双绞线、同轴电缆等相互连接形成的网络。类似的还有电力网络、社会关系网络、交通网络、调度网络等等。
许多系统可以是抽象的,并由复杂网络表示,包括自然系统(如蛋白质分子网络)和人工系统(如互联网、引文网络等)。在对复杂网络建模时,通常使用图论知识来描述网络,由一组边和一组节点组成的网络(或图),在计算机中我们可以使用邻接矩阵、三元组、邻接表来进行存储。现实中的真实网络大多都是结点数巨大但边数较小的稀疏图,对无权图使用邻接表进行存储,对有权图使用三元组进行存储,可以有效节约存储空间。
从大规模的网络到万维网,生态系统和动物种群之间的社会关系,人类社会和自然中有许多复杂的系统可以用各种复杂网络来描述。我们可以通过研究复杂网络,分析动态时间中节点和当事人之间发生的变化,然后分析我们发现的隐藏内部信息来探索节点和社区之间的关系。
在图结构数据之上,可以运用图神经算法如VGAE(变分图自编码器)算法进行信息预测工作。VGAE 一种无监督学习框架,其运用变分自编码器在图上,利用神经网络研究验证后分布来实现编码过程,优化具有重构误差和KL 散度的参数,获得隐藏的节点变量作为节点积分。两个编码器用于计算平均值和方差,然后解码器用于重构真实样品,主要运用VGAE 算法解决边预测问题[4]。
在针对风险治理的研究中,我们可以通过复杂网络中社区的变化发现网络结构发生变化的时刻,准确找到关键节点或者关键时刻,及时找到应对的方法,做出反应。
情感计算最早起源于美国MIT 实验室,指出“情感计算就是针对人类的外在表现,能够进行测量和分析并能对情感施加影响的计算”,开辟了计算机科学的新领域,其思想是创建一种能感知、识别和理解人的情感,并能针对人的情感做出智能、灵敏、友好反应的计算系统,即赋予计算机像人一样的观察、理解和生成各种情感特征的能力,从而使人机交互更自然[5]。
社交媒体为人们提供了一个有效的情感观察窗,我们每天都会通过社交媒体进行各种各样的活动,从购物到聊天,从社区到信息,从信息到生活,这一切无不透露着人类某些层面上的情感资源。个人用户常常在社交媒体中发布含有喜怒哀乐情绪的信息,点评类软件中国对商品、服务进行评估,其中蕴藏着丰富而富有感情的文本资源。社交媒体文本情感计算是与社会媒体除文本相结合,也有关于用户与群体的资料,接着分析文本情感、加工与归纳使情感分析更有针对性与精准性。
情感计算研究将会不断深化人们对情感状态及情感机制的认识,并且改善了人和计算机之间的和谐,也就是增强计算机对情境的感知能力,领悟人类情感意图,作出适当回应。
基于深度学习的情感分析方法是使用神经网络来进行的,从输入层获现数据特征,然后经过层层的神经网络隐藏层的加权计算,最终得到输出层结果。BERT(Bidirectional Encoder Representation from Transformers)是Transformer block 的双向连接。该模型的目的是大量使用无标记库来生成和获取包含丰富语义信息的文本表示,即文本的语义表示,然后在特定的NLP 任务中改进文本的语义表达,最后将其应用于NLP 任务[6]。其中BERT_Base 预训练模型由12 层Transformer 构成,完成中文文本情感分析,在文本多分类的任务中,能在极小的数据下带来显著的分类准确率提升。
对于情感的分类,通常有一个近似的情感分类,主要用于确定文本的整体情感倾向,并表示对特定主题或对象的总体评估。选择更适合大数据风险治理的偏好类别,即正面、负面和中性。我们通过对用户行为的情感分析,找到正面、负面、中性的消息,在负面信息出现的时候,通过源头进行风险治理,避免产生导致社会或企业发生负面影响的出现。
我们处在一个数据爆炸的时代,海量的信息会导致风险发生的概率倍增,特别是对金融行业而言。随着我国金融业的创新和发展,国内新业务、新产品不断涌现,对我国金融监管带来了实质性的挑战。预计在未来的若干年间,我国的金融开放程度会进一步提高,金融开放与创新伴随的金融风险积累会加剧。首都经济贸易大学党委书记冯培教授表示,金融风险管理是金融机构所从事的业务活动中最核心的内容。
其中,金融行业内的声誉风险尤为重要,银保监会近日印发了《银行保险机构声誉风险管理办法(试行)》[7],维护银行保险等金融机构的经营声誉,及时澄清谣言,向公众公开相关信息,是金融业防风险的重要方面,也事关千家万户利益。当然,声誉风险管理不仅是负面舆情应对,更需要建立“全流程”“常态化”机制。
现如今,金融行业内关于声誉平台的建设还特别弱,大多数还仅仅停留在原始的舆情监控,风险感知能力差,安全管理成本也比较高,智能化程度不足,无法实现预测预警,应对风险的能力严重不足。所以建设一个更加智能的风险防控系统非常有必要。
我们可以在平台上设立重点人员检测预警,通过知识图谱、复杂网络的技术找到重点人群,或者自动识别危险言论,将有倾向、经常参与话题的用户重点检测,并及时对重点人员进行管理,实时监控用户对象,实时进行预测预警。
针对不同行业内置不同的声誉防控风险体系,实现分级预警,通过总体态势和不同事态的可视化分析,实现图像、图表、语音等多种形式的动态分析。通过情感分析找到负面消息,进行风险判断,通过绘制词云图,找到热点内容。金云声誉如图2 所示。
图2: 金云声誉
数据源采用各个平台的网络数据进行收集,利用大数据分析技术,进行预测分析,通过各个平台的信息汇总,将负面舆情进行处理,保证企业声誉,提高企业价值。
要根据企业性质,设置个性化防控体系,负面舆情自动判断,及时上报,多途径传递信息,确保金融声誉不受网络信息影响,保证风险防控安全高效。
风险防控是一项任重而道远的任务,最终目标要达到以最小的风险管理成本获得最大的安全保障,要求在任何时刻都要在保证安全管理的前提下达到经济效益最大化。我们要利用科技,有效改善风险管理,建立更加科学合理的风险管理模式。
在刚刚结束的上交会上,再一次指出,要实现现代化企业管理,必须实现数字化驱动发展,建设科技监管一体化平台,构建一站式办理服务模式,做好风险防控工作,确保企业安全发展。