刘慧芬 陈贤湘 林子琛 董 慧
(广东外语外贸大学,广东 广州 510006)
在“深化监管体制改革”发展战略指引下,沪深两市分别于2013年和2014年开通信息披露直通车业务,进一步强化了证券交易所的一线监管。我国问询监管制度源于1998年的《深圳证券交易所股票上市规定》和《上海证券交易所股票上市规则》,即证券交易所有权要求对于定期报告或临时报告存在错误遗漏以及误导性陈述的上市公司在财务状况、并购重组、关联交易以及治理结构方面进行问询,即针对公司特定事项或者年报信息披露不充分、内容不准确以及存在疑点的事项向上市公司发函,并限期回复,属于典型的“非处罚性行政监管”。据WIND数据统计,沪深两大交易所对2014-2019年间发出问询的公司占比高达36.66%,其中,年报问询函在所有问询函类型中数量居多。
国内外关于问询函监管效力的研究均显示出问询监管对资本市场信息质量具有显著的提升价值。一方面能够抑制管理层信息操纵行为(Cunningham等,2018)[1],另一方面进一步提升了信息中介的执业质量(陈运森等,2018)[2],总体上优化了会计信息环境(Johnston等,2017)[3]。我国年报问询机制主要针对信息披露缺陷,旨在通过多轮问询与回复达到“缺陷”信息的公开化,现有文献实质上是从一线监管的权威性(包括问询频次、重大缺陷内容等)作为研究出发点,未探讨问询函语调传递的监管态度,是否影响问询公司随后的年报披露语气,究其原因,主要障碍是缺乏适用于问询监管的情感词典与语调提取技术,本文试图就此探索,为深度解读问询信息提供实践性证据。
全文提出使用Word2vec模型和调整后的SO-WV算法,以中国研究数据服务平台中2014年12月4日至2020年3月9日的上市公司问询函作为语料库,利用python工具包构建问询领域情感词典。按年度按公司提取情感倾向词,分别得到问询与回函语调值,并针对问询函文本进行语调分析、发展趋势分析和主题交叉分析。
本文可能的贡献有两点:第一,拓展情感词典,构建了问询函领域情感词典,丰富了在情感词典领域的研究,为问询函的情感分析和解读提供帮助;第二,从语调视角拓展了我国问询研究领域,验证了问询函语调对上市公司信息披露行为的影响,为监管视角的语调应用提供了经验性证据。
2013年深交所通过“上市公司信息披露直通车”将上市公司财务报告发布由“先审后发”改为“先发后查”模式。从 2014 年开始,深交所率先在其“监管信息公开”专栏发布年报问询函与复函信息。根据证监会要求,交易所根据上市公司具体情况实施年报审核,3年内每家公司至少应审核一次。
问询函作为证监会、各级证监局就上市公司财务报告、重大交易、公司治理等异动信息直接发函核实,并限时回函的事后监管模式,近年来快速增长。已有研究认为,财务会计信息通过定价和治理功能实现投资者保护(陈胜蓝和魏明海,2007)[4]。其中治理功能通过两大渠道:基于市场监督的声誉机制与基于公共监督的制度干预(李培功和沈艺峰,2010)[5]。公共监督的强制干预主要有行政处罚和非处罚性监管两种方式。长期以来,我国资本市场违规行为以事后处罚性监管为主,对信息披露违规行为的行政处罚主要集中在违规后的2 至7年内,在违规后 7 年以上才进行处罚也达到了11.94%(黄政和吴国萍,2013)[6],滞后性处罚致使投资者不能及时发现问题并采取有效措施避免损失,即使公布行政处罚也会引起当期股价跌落,使得投资者在处罚公告日前后遭受损失,其利益并没有得到更好的保护(吴溪等,2014)[7]。因此,我国资本市场寄厚望于问询函制度。
针对问询函监管的经济后果研究主要集中于三部分:第一,问询监管对上市公司行为的约束。研究结论支持问询监管有助于市场甄别公司治理的优劣(Cassell等,2013)[8],识别公司盈余管理行为(刘柏和卢家锐,2019)[9]、避税行为(Kubick等,2016)[10],发现上市公司违规行为,抑制大股东的掏空行为(聂萍和潘再珍,2019)[11],缩小并购重组的买卖价差(李晓溪等,2019)[12]。第二,问询监管对信息环境的改善。研究结论支持收到问询函后的年份被出具非标意见的概率提高,当问询函要求会计师事务所等中介机构发表核查意见时,审计质量显著提高(陈运森等,2018)[13],被问询审计师的执业质量明显提高(王艳艳等,2019)[14]。导致当同行业公司收到有关风险信息披露的年报问询函时,同行业其他公司会在下一会计年度改善年报中风险信息披露水平(Brown等,2018)[15]。第三,问询监管函的信息含量。美国资本市场对SEC评论函件有负向市场反应(Duro等,2019)[16]。而源自我国资本市场的研究结论并不一致。李琳等(2017)[17]的研究发现年报问询函发布与回函期间,市场呈负面股价反应。陈运森等(2018)[18]分别以收函日与回函日作为事件窗口日,以前后三日作为窗口期,验证了收函时市场反应为负,而复函时市场反应为正。杨海波和李建勇(2018)[19]则以收函公告日为事件日,以(0,15)为窗口期,发现窗口期累计超额收益率均持续为正并且显著。陶雄华和曹松威(2018)[20]研究认为,问询函整体的市场反应为正,是因为“资产重组类”问询函的正向效应过大造成的。
以上研究中就问询函度量指标来看,以我国资本市场为背景的研究,主要有三类:第一,问询函发函频次:是否收到年报问询函以及当期问询函次数(陈运森等,2018)[18],当年收到的第一封年报问询函字数、问题数(余明桂和卞诗卉,2020)[21]。第二,问询函内容分析:年报问询函是否涉及财务信息、当年年报公示后至少收到一次与“业绩真实性、会计处理合规性”相关的年报问询函,以及统计每份年报问询函中会计相关词语的出现次数占总字符的比例(刘柏和卢家锐,2019)[9]。第三,年报问询函负面语气虚拟变量(李晓溪等,2019)[12]。
目前以我国A股资本市场问询函市场反应研究结论不一,究其原因,现有问询函市场反应研究,实质上是检验问询机制的权威性(问询频次以及特定内容问询等)对投资者的影响力,由于投资者的专业解读存在一定的局限,而问询函语调解读,更易于为投资者所捕捉。问询语调研究不仅能够从问询函的另一视角检验一线监管的经济后果,还可以为我国监管机制的深层优化提供经验性证据。正是基于这一思考,我们构建问询函语调变量,并检验其对上市公司年报披露的影响。
文本情感分析,又称倾向性分析,是指对可能带有主观感情色彩的文本进行处理、分析、归纳总结,以得到其中可能蕴含的情感信息。在一般情况下,文本情感主要是通过情感词来体现,因此在文本情感分析中使用情感词典进行分析是一个常用且高效的分析方式。而情感词典的构建主要有两种方式,分别为有监督式的学习方法和无监督或半监督式的学习方法。有监督式的学习方法需要大量的人力标注语料,可拓展性较差;无监督或半监督式的学习方法中的其中一种方法是通过人工标注的词典,利用一定的度量方式对词汇和种子词典之间的关联性进行度量并分类,从而扩充词典以形成专门的领域词典(冯超等,2017)[22]。
由于问询函及其回函本身具有很强的特殊性,其词汇主要为经济领域词汇,与其他领域的词汇有较大差异,通过现有的情感词典进行情感分析,与问询函文本相关性不高,缺乏行业特异性(宋云生,2017)[23]。基于此,为了能够透过问询函及其回函探索更多有价值的信息,本文利用深度学习中Word2Vec模型基于问询函语料构建词向量模型,采用一种基于词向量的情感极性算法SO-WV(Semantic orientation from word vector)计算词语的情感极性,最终构建出问询函领域的情感词典,再通过对问询函文本进行词频统计,基于情感词典计算上市公司问询函件中可能蕴含的情感语调TONE。
1.样本选择与数据来源
本文所使用的原始语料数据来自中国研究数据服务平台(Chinese Research Data Services,简称CNRDS),选取2014年12月4日至2020年3月9日这一时间段的上市公司问询函件为样本,原始数据共7661条,数据字段包括股票代码、公司简称、函件类别、问询函标题、问询函内容、公司回函内容、发函日期、限期回复日期、公司回复时间。
2.领域情感词典构建思路概述
本文提出的问询函领域情感词典的构建方法的基本框架如图1所示,主要流程分为三个步骤:
图1 情感词典构建方法基本框架
(1)数据预处理
主要包括问询函语料库的处理以及对现有4个流行情感词典的整合。
(2)词向量模型的构建
采用深度学习中Word2Vec模型将词语转换成词向量表示,构建词向量模型,为后续计算文本情感倾向奠定基础。
(3)领域情感词典的构建
情感词典由两部分构成:问询函领域的通用情感词典和问询函领域的候选情感词。利用调整后的SO-WV算法获取候选情感词的情感倾向,经过筛选后并入问询函领域的通用情感词典,最终获得情感词典。
3.文本分析与问询函语调的计算
对问询函文本的语调计算,本文采用谢德仁和林乐(2015)[23]的方法,基于所构建的情感词典对经过数据预处理之后的问询函文本进行情感词汇词频统计,分别计算问函与回函文本的语调TONE。
1.领域情感词典构建步骤
(1)数据预处理
数据预处理阶段包括问询函语料库的处理和流行情感词典的处理。问询函语料库的处理主要是对问询函语料库进行分词、去除停用词、去除部分问询函标准内容以及去除人名和数字的处理,为后续实验奠定样本基础。至于流行情感词典,本文收集了目前流行的四大主流情感词典:清华大学李军情感词典、知网情感词典(HowNet)、大连理工大学情感词汇本体(DUTIR)、中国台湾大学情感词典(NTUSD)。分别选取上述词典的积极词集合与消极词集合,去除重复出现的词语后进行融合[8],融合的情况如表1所示。而后对经处理后的语料库的所有词汇与融合后的情感词典进行取交集操作,生成问询函领域的通用情感词典。
表1 通用情感词典结构
(2)词向量模型的构建
在自然语言处理中,要将自然语言转化机器学习就需要将自然语言符号数字化。最常见的表示法,如One-Hot representation,是将出现在文本中的词语设置成虚拟变量,通过多维向量表达当前的词。但在词汇量较大时,向量的维度会相当高,进而损失词汇之间的语义信息。与One-hot Representation方法不同,分布式词向量表示法利用一个较低维度的词向量表示词汇,同时利用概率函数得到词汇与词汇间的语义联系[7]。本文所采用的词向量是借助Python及其开源工具包gensim所构建的,采用了深度递归神经网络中CBOW模型训练①。CBOW的神经网络模型图如图2所示,这里输入层是由one-hot编码的输入上下文{x1,…,xC}组成,其中窗口大小为C,词汇表大小为V。隐藏层是N维的向量,最后输出层是也被one-hot编码的输出单词y,被one-hot编码的输入向量通过一个V×N维的权重矩阵W连接到隐藏层;隐藏层通过一个N×V的权重矩阵W′连接到输出层。
图2 CBOW神经网络模型
2.领域情感词典的构建
(1)词向量相似度的计算
第一,采用余弦相似度来度量词向量相似度,公式如下:
其中,v1*v2为v1和v2的内积,‖v‖为词向量v的模。
第二,标准化。将相似度标准化到[0,1],便于后续计算,标准化公式如下:
(2)调整后的基于词向量的SO-WV算法
第一,关于候选词情感倾向的计算。本文采用了冯超等(2017)[21]提出的基于词向量的SO-WV算法并加以调整,以此来判断问询函领域的词汇情感倾向。首先获取尚未进行情感倾向判断的候选词汇集合,对于每个词汇word,获取与其相似度高于阈值1的已在问询函领域的通用情感词典中的n个正向情感词,记为集合POS,n个负向情感词,记为集合NEG,对于词汇word,其与正负向情感词集相似度计算分别如下:
NS(word,POS)=
NS(word,NEG)=
第二,情感倾向SO的计算。依据冯超等(2017)[21]的研究,基于word的正负情感词集相似度之差来计算它的情感倾向SO,公式如下:
SO(word)=NS(word,POS)-NS(word,NEG)
当满足SO(word)>0表示word的情感倾向为正向;若SO(word)<0则表示word的情感倾向为负向;得到候选词情感词性表。
第三,筛选候选情感词。对于得到的候选词词性表,由于表中包含着所有的未进入问询函领域的通用情感词典的词汇,且部分词汇情感倾向并不强,因此设定阈值2筛选候选词。分别取正向负向候选词性表的情感倾向前20%的词汇,加入问询函领域的通用情感词典,最终形成情感词典。
3.问询函情感标注
根据谢德仁和林乐(2015)[24]研究,采用比例权重加总的方法,基于情感词典计算问询函文本的语调TONE:
综上本文基于情感词典建立了两个问询函语调的衡量指标:ATONE、RTONE,前者为问函的净积极语调,后者为回函的净积极语调。
4.情感极性分类实验
为验证情感词典的有效性,以及为后续情感标注实验所得到的情感强度所体现情感极性的正确性,本文设计并实现了情感极性分类实验。
经过前面的数据预处理后,有效的问函数据有7309条,而有效的回函有6721条数据。首先,对问函及回函的有效样本进行人工筛选,各取数据集10%的数据进行情感极性分类,分别作为问函文本与回函文本的“种子数据集”。
SVM是目前最常用、效果最好的分类器之一,以其作为对比,将有助于我们判断基于情感词典正确划分情感极性的比例。本文采用SVM模型②,基于问函文本的“种子数据”进行训练,得到SVM分类器,再将未分类的问函数据作为SVM分类器的输入,进行二分类,回函文本的操作与问函一致,最终得到情感极性的分类结果。
我们选取相似度(Similarity)作为评估度量指标:
1.领域情感词典构建情况
(1)词典结构
词典分为积极情感词汇与消极情感词汇两部分,积极词汇共4987个,消极词汇共3508个,表2列举了部分情感词汇。
表2 部分情感词
(2)问询函领域情感词典可视化呈现
本文利用python的第三方模块Sklearn (全称 Scikit-Learn)中的数据可视化工具t-sen将情感词典中的每个情感词从400维降维到80维并进行可视化,如下图所示,距离越近表示词汇的语义和情感越相似。
图3 积极情感词可视化结果
如图所示,语义和情感上都具有一定的相似性的情感词汇,在向量空间呈现聚合趋势,例如图3中聚合附近有“透明”“公平”“坚持”“强”“优良”“独一无二”等具有积极情感的词汇;图4中“侵占”“批评”“错漏”“下跌”“低迷”“经验不足”等消极情感的词汇聚合在一起,这都说明所构建的情感词典的语义和情感聚合效果好,达到预期,满足情感词典要求。
图4 消极情感词可视化结果
2.情感极性分类实验结果
根据得到的分类结果,对比基于情感词典计算的函件情感值TONE,得到如表3所示的相似度。
表3 相似度结果
表3显示,问函与回函的最后的相似度都高于80%,其中问函更是达到了86.2%,其高于回函的原因可能是两大交易所的发函,相比于上市公司的差异化回函,文本特征的相似性更高。实验结果也表明所构建的情感词典较高的有效性,以及基于所构建的情感词典进行情感标注得到的情感强度所体现的情感极性具有较高的正确性。
1.问询函数量描述性统计
(1)总体描述分析
问询函数量变化过程反映了公开问询监管模式下交易所对上市公司规范运作的关注程度,收函公司数量及收函公司平均问询次数变化过程反映了一线监管的密度。图5显示,函件数量逐年递增,假设一年为1周期,则除2015年外,其他年份函件数量变动基本类同,且每年第二季度都是该年函件数量顶峰,这与上市公司年报发布时间有关。
由表4、图5可见,收函公司与上市公司两者数量变化基本同势,而收函公司平均问询次数总体上也呈增长趋势,较上市公司数量变化而言,收函公司平均问询次数增长幅度总体大于上市公司数量增长幅度,这体现了一线监管密度在逐渐加大。结合问询函数量、收函公司数量、收函公司平均问询次数变化可知,自2014年年底至2019年年底,公开问询监管逐渐得到交易所重视,监管制度也在逐渐完善,公开问询监管正在成为常规性市场监管方式。
表4 收函公司数量及上市公司数量变化
图5 季度问询函数量变化
图6 年度收函公司平均被问询次数
(2)分项描述分析
本文通过人工收集与分析,根据陶雄华和曹松威(2018)[20]的研究,按问询内容将问询函划分为中介机构核查意见相关、收入确认相关、关联交易相关和并购重组相关四类,图7展示了分类问询函数量统计及变化趋势。收入确认相关的问询主要是涉及收入时点、金额、会计处理等问题的问询;关联交易相关的问询则是涉及关联方资金拆借(资金占用)、商品交易或劳务、担保等问题的问询;中介机构核查意见相关的问询是需要独立财务顾问、律师、会计师等中介机构核查并发表意见的一类问询;并购重组相关的问询是对上市公司具体并购重组的重大事项及细节进行询问。
图7 季度分类问询函数量表现
实验有效样本中,涉及收入确认问题的问询函样本占比21.93%,涉及关联交易问题的占比48.71%,要求中介机构出具核查意见的问询函占62.17%,以上在一定程度上说明我国上市公司涉及收益质量的信息披露存在较大的缺陷,这也是问询监管中关注度较高的领域,这与我国证监会行政处罚中体现的主要问题是一致的。此外,涉及中介机构核查意见的问询函占比最高,增速最快,2019年增加至1303份,年均增速44.5%,这表明公开问询为了保证回函质量越来越多地增加了中介机构核查,而四类函件中,仅有并购重组函件“离群”,波动性最低,变动幅度并不大,这与并购重组信息披露没有显著季节性有关。
2.问询函语调分析
(1)问询函的“坏消息”性质
如图8所示,问询函文本净语调值全部为负,说明问询函主要是以负面倾向为主的发函语气,一定程度上验证了问询函向外部市场传递了“坏消息”,因此,相应的市场反应为负,与陈运森等(2018)[18]的研究结论一致。
(2)回函语调管理总体性分析
图8所示,收函与回函语调值呈现出两类趋势:第一,净语调值的负面倾向在下降。总体上,问询与回函净语调值均为负,在2014-2019年间,问函与回函净语调值皆呈上升的趋势,净语调年均上升约1.33%,即净语调的负面倾向在降低,说明问询与回函中的文本的负面语调在下降。第二,回函语调值均高于问函,两者的净语调差能够体现出管理层语调管理程度。问函的净语调普遍比回函净语调低,问函均净语前期基本调维持在-0.3左右,随着时间推移,问函与回函净语调差异不断缩小,最终于2019年初净语调趋势接近。这说明随着问询函负面语调的下降,上市公司的语调管理空间在缩小,即管理难以通过降低负面语气的回函,抵消问询本身的“坏消息”,影响市场投资者情绪。
图8 季度问、回函文本净语调表现
(3)回函语调管理分项总括
如图9所示,对有效样本进行分项描述,在四类问询函中,问函与回函净语调值差额最大的排序,依次为并购重组、关联方交易、中介机构审核意见以及涉及收入信息披露的问询,说明上市公司针对问询函的语调管理突出显示在并购重组的样本,有理由相信并购重组的“利好”下,管理层更有动机和信心通过语调管理来缓解市场“焦虑”,因此,管理层的语调管理可以一定程度上解释陶雄华和曹松威(2018)的研究结果,即资产重组类的问询的市场反应为正[20]。而对于涉及收入问题的问询函件,上市公司回函与问函的净语调逐渐趋于一致,本身收入确认类函件受到一线监管的高度重视,容忍度更低,降低了回函语调管理的作用。
图9 不同类别问、回函文本净语调
通过对问询函件的语调提取及分析,我们发现,问询语调倾向一定程度上可以解释目前市场反应研究结论存在的差异,即问询函的市场反应为负,一定程度上源自问询函的负面语调所传递出来的“坏消息”;另一方面,随着我国资本市场一线监管制度的完善,问询负面语调程度在降低,趋于中性,管理层语调管理空间大大下降。
为检验问询语调数据提取的有效性,本文借鉴Bozanic等(2017)[25]的模型,进一步验证问询语调对收函公司年报信息披露语气的影响。
1.数据来源
选取2014-2019年A股上市公司,通过以下筛选得到研究样本:剔除金融业上市公司;剔除数据缺失的样本;剔除资产负债率高于1的样本。为了消除异常值对回归结果造成的潜在影响,对公司层面的连续变量在1%以及99%的 winsorize缩尾处理。问询函数据来自CNRDS数据库,其他财务数据均来自CSMAR、WIND数据库。
2.回归模型
FSdisclosurei,t=ai,t+β1ComTonei,t-1+β2ControlVariables+Yearfixedeffect+Industryfixedeffect+ε
(1)
其中下标i和t分别代表企业和时期;FSdisclosure代表上市公司年报积极语气,ComTone表示滞后一期问询函语调,主要观测问询函语调对上市公司随后年份披露语气的影响。控制变量分别从行业层面、公司特征以及公司治理层面,具体变量构建说明见表5所示。
表5 变量定义
3. 回归结果分析
表6汇报了问询语调与上市公司年报语气的回归结果。列(1)(2)全样本估计结果显示,问询语调ComTone的回归系数在5%的水平显著为负,这说明问询语调负面倾向越重,上市公司下一年年报的积极语调越低,即问询函语调显著抑制了上市公司乐观语气,与Bozanic等(2017)[24]的研究结论一致。
表6 问询函语调与年报乐观语气回归结果
进一步对全样本按照内部控制指数进行分组,高于行业中位数的表示内控指数高,代表内部控制相对健全,反之表示内控质量不高。Wald统计量的检验结果表明,问询监管对上市公司年报语气的负回归系数在不同内部控制质量的公司存在显著差异。具体而言,内部控制质量越高的公司,如列(3),问询函语调对公司年报语气没有显著影响,而内部控制质量低的企业;如列(4),问询函负面语调程度大大抑制了其乐观语气。相对于内部控制指数高的企业,内部控制指数低意味着企业内部控制环境不佳,信息操纵的可能性更高,而问询机制显著抑制了管理层语调管理,降低了年报语气误导外部投资者的可能。
4. 分组回归结果
表7汇报了选题的分组回归,结果显示,问询语调对上市公司随后年报的乐观语气的抑制效应,体现在涉及列(1)涉及收入确认、列(4)不涉及中介机构核查意见、列(5)关联方交易以及列(8)未涉及并购重组的样本,问询语调ComTone的回归系数均在5%水平上显著为负。可能的解释是,收入确认与关联交易直接影响上市公司业绩,也是投资者关注度最高的项目,这些内容的问询更可能引起外部投资者对管理层乐观预期的质疑,因此降低了上市公司采用“乐观性”披露策略。另一方面,由于中介机构审核意见以及并购重组的样本,都要求进一步的信息核验,中介机构在其中发挥了重要的“信息认证”作用,一定程度上抑制管理层乐观性解释的动机,因此,问询语调对上市公司语调管理的影响,在不涉及中介机构审核意见以及非重组并购的公司更为显著。
表7 问询函语调与年报乐观语气的分组检验
5. 稳健性检验
为了验证研究结论的稳定性,将被解释变量年报乐观语调的计算,即(积极词汇数-消极词汇数)/(积极词汇数+消极词汇数),替换为(积极词汇数-消极词汇数)/年报词汇数,回归结果显示因变量回归系数显著性并未发生变化,说明研究结果稳健一致。
本文以2014-2019年A股上市公司为样本,利用中国研究CNRDS数据库中的问询函数据,借助Word2vec模型的语义优势,将词汇映射到较高维度向量空间,再借助情感种子词情感表达优势以及SO-WV算法情感倾向计算方法,实现了所构建词典的在情感词汇在向量空间上较为有效的语义和情感表示。基于此的研究结论主要有三点:一是从语调视角检验了问询函更多地释放了“坏消息”;二是随着我国一线监管制度的完善,呈缩小态势,这说明管理层通过语调管理操纵市场情绪越来越难,也从另一个侧面说明问询制度在信息披露监管是有效的;三是问询函语调能够降低问询公司发布乐观性年报的可能,说明问询公司在一线监管下采取了更为谨慎的信息披露策略,从而保护了外部投资者利益。
本文研究的重要启示在于:第一,有必要建立我国资本市场监管信息语料库,为相关词典建设提供研究基础,同时,这些研究成果有助于优化监管效率;第二,问询函的负面语调所传递出来的“坏消息”,能够显著左右管理层回函的应对策略,尤其是涉及收入确认、关联方交易的问询,因此,监管层应针对性地对监管重点进行差异化语调行文,以防范上市公司回函过度“辩白”影响投资者情绪。
本文仍存在一些不足之处,问询函制度在国内处于发展阶段,语料的数量还不够庞大,在后续的进一步研究中还需要语料库进行扩充,完善词典构建算法,语调计算精度仍有较大的提升空间,数据结果可能存在更深层次的规律尚未发掘。随着问询函制度的发展与完善,将会有更多有价值的问题等待我们继续探索和研究。
【注 释】
① CBOW模型简单理解就是上下文决定当前词出现的概率。在CBOW模型中,上下文所有的词对当前词出现概率的影响的权重是一样的,因此叫作CBOW( continuous bag-of words model) 模型,正如在袋子中取词,取出数量足够的词就可以了,至于取出的先后顺序是无关紧要的。
② 支持向量机(support vector machine,SVM),通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。