吴永飞,王彦博,周代数,靳志伟,陈 生,孙 喆,俞 淼,杨 璇
(1.华夏银行股份有限公司,北京 100020;2.龙盈智达(北京)科技有限公司,北京 100020;3.科学技术部中国科学技术发展战略研究院,北京 100038;4.财政部中国财政科学研究院,北京 100036;5.东软集团(北京)有限公司,北京 100094)
1981年,理查德·费曼(Richard Feynman)在麻省理工学院举办的第一届计算物理会议上首次提出了量子计算机的概念。1994年,麻省理工学院的彼得·舒尔(Peter Shor)[1]提出了大整数质因子分解的Shor算法——能够在多项式时间复杂度求解RSA密码体系中核心的大数质因子分解问题。舒尔的开创性工作有力地促进了量子计算机和量子密码技术的发展,成为量子信息科学发展的重要里程碑之一,掀起了国际上研究量子计算的第一轮热潮。当前,量子计算蓬勃发展,各类量子算法应运而生,量子自然语言处理(Quantum Nature Language Process,QNLP)[2]作为其中一个新兴的研究领域,已开始显现出广阔的发展前景。量子自然语言处理旨在通过利用某些量子现象,如叠加、纠缠、干涉等,设计和实施自然语言处理(Nature Language Process,NLP)模型,并在量子硬件上执行与语言相关的任务。本文针对商业银行的业务实践,创新地对量子自然语言处理算法进行适应性改进,并将其应用于商业银行外部的金融新闻情绪识别和内部客户服务评价等具体场景,为量子自然语言处理算法在金融行业的落地应用提供新思路。
2021年,剑桥量子发布了QNLP工具包和库,称为“lambeq”[3]。通过该方法可将句子转化为量子线路,进而实现量子计算。量子自然语言处理算法原理具体如下:
首先,根据选择的成分模型(Compositional Model,CM),通过组合范畴语法(Combinatory Categorial Grammar,CCG)可以获得句子的句法树(Parse Tree,PT)。而后,句法树被转换成线图(String Diagram,SD)形式。线图可以被看作是句子的抽象表示,反映了选择的成分模型所定义的单词之间的关系。线图可以通过使用重写规则进行简化或以其他方式进一步转换:例如,有的规则可用于删除单词之间多余的联系,有的规则可以使线图更适合量子处理单元的计算。随后,根据特定的参数化方案和拟设的具体选择,生成的线图可以转换为张量网络(Tensor Network,TN)或量子线路(Quantum Circuit,QC)。最后,张量网络可以在传统计算机上进行量子模拟来得到最优化参数;而量子线路则会被量子编译器处理,并上传给量子计算机进行参数学习与优化。基本处理流程原理图如图1所示。
图1 基本处理流程原理图
比如,语句:′We are explaining how lambeq works′,通过预先训练好的CCG模型可以获得其句法树表示,如图2所示。通过编码可以将句法树转化为线图形式。
图2 句法树示意图
通过语句的图形化表示可以展示其中单词的含义是如何组合起来构建整个句子的含义。每一个盒子代表了一个单词的含义,而这些含义通过线形成的渠道来传达。其中每个词的标记,则是pre-group语法的形式。
在如上示例中,主语“We”与宾语从句“how lambeq works”都被发送给了由助动词“are”和谓语“explaining”组成的谓语,然后它们一起构成了句子的含义。实际上,这种表达形式可以追溯到1950年代最初由Chomsky和Lambek等人开始的工作,这些工作根据复合数学模型构建语法结构与语义。线图示意图如图3所示。
图3 线图示意图
在得到线图形式之后,有两种选择将其参数化。一是量子线路,将线图转成量子线路的形式,通过同步扰动随机逼近算法(Simultaneous Perturbation Stochastic Approximation,SPSA)[4]来训练;二是张量网络,将线图转成张量网络的形式,在参数化时需要给每个原子类型设定维度,在这种形式下可以通过传统计算机来训练。
在NLP领域,情感分析是非常流行的一种分析技术[5],在越来越多的领域发挥着重要的作用,如:口碑分析、市场情绪分析、舆情监控等。其中情绪分类的对象是一段语料中所蕴含的主体情绪,是对蕴含主观情感色彩的文本进行分析、处理、归纳以及推理的过程。
商业银行的日常经营中存在大量情感分析场景。从银行外部视角来看,金融市场上时时刻刻都有大量的新闻产生,特别是各大财经网站、股票论坛中的消息所蕴含的观点及情绪,不仅代表着投资者的偏好和情绪的变化,更对商业银行金融市场业务的决策和交易产生重大影响,运用情感分析对其中蕴含的观点和情绪进行识别,具有重要前瞻性指导意义。从银行内部视角来看,随着互联网的飞速发展,聚集了大量用户的网络社群媒体不再仅是单纯的新闻发布平台,而是已经发展成为允许用户创建、发表、交流内容的平台,其中也伴随着大量的对于银行服务和产品有价值的评论信息;此外,银行工单数据也是价值较高的文本数据信息,其中不仅包括具体的问题描述,还包括处理方法、过程、结果以及客户反馈等信息,该类评论信息中往往可以体现出客户的批评、赞扬等多种主观情感表现。这些主观性的文本每天以指数级的速度增长,仅靠人工进行分析需要消耗大量的人力和时间。采用NLP技术将客户评论中包含的情感进行量化分析,有利于银行客观评价服务质量并进行后续的改进和提升,对商业银行的经营管理具有重要意义。
本文针对商业银行外部的金融新闻情绪识别和内部客户服务评价具体场景,将QNLP算法引入商业银行应用实践,具体实证研究如下。
本文尝试在金融新闻标题上使用QNLP进行情感分类。使用Financial PhraseBank数据集,它是一个英文数据集,包含金融新闻头条以及从投资者的视角来看的情绪。实证分析从Financial PhraseBank数据集中随机抽取情感标签为正面的数据样本158个以及情感标签为负面的数据样本75个,进行QNLP创新技术应用,部分数据示例如表1所示。
表1 金融新闻情绪识别数据示例
首先需要进行数据清洗,对文本去除标点符号、去除停用词。之后,借助自然语言处理工具包(Natural Language Toolkit,NLTK)进行词干提取,把基于单词的变种转换为统一形式。此外,由于当前量子计算机运算能力的限制,实证分析筛选了一些长度较短的句子以及对一些长句做了截断处理。通过数据清洗,得到了相对“干净”的文本数据。
清洗后的文本数据使用预先训练好的语法模型[6]对句子进行了语法和句法解析,并转化为线图形式以适配后续计算。每一个句子对应一个线图,通过转化线图完成对句子中的词义与语法信息流的编码。
对于获得的线图,需要对其进行参数化处理。有两种方法:张量网络与量子线路。
经典方法通过将线图实例化为张量网络的方法,将其参数化并进行计算。句子中的每一条线路都被标记为原子类型或原子类型组合。通过给原子类型分配维度,每一个词都可以看作为在其语法类型所定义的空间中的某个状态。之后使用交叉熵作为损失函数,并使用JAX作为后端来实现传统计算机上的有监督机器学习训练模型,从而计算损失与梯度,更新参数。
量子模拟方法将线图实例化为量子线路。通过这种方法实现单词含义的量子态编码。量子线路的参数化创建了语义空间,从而实现对单词含义及句子含义的编码。这时,有了量子态编码后的句子和标签便可以开展有监督量子机器学习了,从而学习参数,这些参数导致了正确测量真标签。本文基于IBM Quantum Experience量子计算实验环境,通过SPSA优化算法学习更新参数。
实证分析使用了233条数据样本作为训练集来训练模型,测试集由50条数据样本构成。同时,作为对比,使用TF-IDF作为特征提取器,之后使用Adaboost、Naïve Bayes、Neural Network作 为 分 类 器 来 进行情感分类,并将四种方法进行了对比。从指标来看,四种方法在相同的数据条件下进行对比,QNLP的结果展现出训练集样本量从233下降至20,其模型效果的稳定性最佳。实证分析结果对比如图4所示。
图4 实证分析结果对比
通过逐步减少训练集的样本数量,Adaboost、Naïve Bayes和Neural Network三 类 模 型 在 测 试 集 上的F1 Score呈现下降趋势。然而,QNLP随着训练集样本量的下降,测试集结果表现稳定,这展现出量子机器学习方法在小样本学习问题上,表现优于传统机器学习方法。
本文针对国内商业银行客户服务评价文本数据,使用QNLP技术进行情感分类。数据包含用户对银行提供服务的评价和情感正、负面标签。在实证分析中,未训练中文的CCG模型,而是通过调用翻译API获取对应的英文翻译数据,随后的研究方法论和实验过程与前述金融新闻情绪识别场景一致。在该场景下,脱敏处理后的部分数据示例如表2所示。
表2 银行客户服务评价数据示例
通过训练,QNLP在银行服务评价情感分类数据集上,当训练数据样本量为40时,测试集评价指标如表3所示。
表3 评价指标
随着训练集样本量从70下降至20,QNLP在银行服务评价分析情感分类数据集上的测试结果表现稳定,如图5所示,QNLP在解决小样本学习问题方面已初步展现出良好的应用潜力。
图5 QNLP小样本学习模型评价指标
综上,通过调用翻译API获取对应的英文翻译数据的方案,使得现有QNLP技术能够对中文文本数据进行处理,可满足商业银行业务需求。
当前,QNLP算法的快速发展,已使得其在商业银行的多个业务场景中展现出了巨大应用潜力。虽然受限于当前量子计算机比特数目,QNLP算法暂时难以处理海量的文本数据,但已展现出在小样本学习方面的优势潜力。未来,随着量子计算机的进一步发展以及量子比特数目的不断增加,量子算法有望进一步与自然语言处理任务深入结合,在金融行业的非结构化处理任务中进一步深化应用,为量子金融科技的快速发展提出新方向。