黄文彬,白浩东
(北京大学信息管理系,北京 100871)
全国中小公司股份转让系统(简称“新三板”)主要提供中小微型公司安全合法的融资渠道,以更高的价格进行股权流通,实现资产增值,并且吸引优质的投资人选择具有发展良好前景的公司投资标的,以提高个人获利。在股权交易市场中,投资人经常利用主营业务或商品划分出相关或相近的、具有类似市场表现的公司集合,并从中筛选业绩表现较好的公司做投资分析,如盈余预测、对比估值等。划分公司集合的方法通常参考行业分类体系、概念板块、使用市场倍数指标三种方法,其中,参考行业分类体系划分可比公司获得了广泛的研究和讨论[1]。为了区分公司产品达到统计的目的或者为了区分公司所对应市场的特点,国家相关管理单位或金融机构依据业务需求制定了行业分类体系,该体系需要满足国家经济要求与商业标准,形成适用范围大、修改周期长、影响层面广以及划分粒度较宏观等特点。由于新三板挂牌公司多属于成长型中小公司,具有产品或业务所属的范畴粒度小和业务变动速度快的特性,这就造成行业分类体系无法匹配最新的行业动态和公司实际最新业务特点,并不能满足投资人寻找投资标的公司集合的需求。参考概念板块划分筛选源于人民币普通股票市场(简称“A股市场”)投资人的选股方法,主要由市场研究团队或媒体自发性依据某种概念或话题,构建非层级结构式标签划分的公司集合,如同花顺概念板块行情中心(http://q.10jqka.com.cn/gn/)。话题或概念具有丰富的意义,包括业务、商业模式、地域和事件等。从A股市场的划分方式直接套用到新三板市场,造成挂牌公司业务的实际粒度未达到与概念匹配的适用性问题。采用市场倍数能够更好地服务于后续预测估值工作[2],研究人员依靠市场指标市净率、市倍率等对某特定行业下的公司进行筛选对比。然而,这些指标只适用于一级市场中业务成熟的公司,新三板中大量中小公司并没有市场接受的市值,更不必说市场倍数。
综上所述,为了提供协助新三板市场投资人在短时间内利用业务关联,从上万家挂牌公司中,筛选划分公司类别形成投资标的,本文提出基于自动构建术语分类体系的方法,利用新三板挂牌公司年度报告的商业模式文本数据,得到具有层次结构的公司划分结果,以此作为投资人的选股依据和理解投资标的与其他公司的关联关系的基础。首先研究者从年度报告文本中抽取出公司主营业务范围相关的术语和术语相似性,根据术语相似关系进行聚类计算,并构建出术语网络,利用术语网络和公司业务所含术语集判定该公司所属的类别标签,其结果可反映出新三板市场划分公司的特殊性,为投资人发现特定概念公司、理解概念与业务的映射关联。
行业分类体系,是指在市场中根据相似的工业流程、相似的产品以及相似的市场组织分类公司的工具和方法[3]。投资人经常利用该体系开展找寻标杆公司来确定市场份额、挖掘潜在竞争对手、衡量公司绩效和行业指数等作为商业研究和投资分析。根据不同的目的将分类标准分为两种类型:管理型和投资型,两者分别用于政府宏观经济普查统计和证券投资活动[3]。1999年8月,全球行业分类系统(Global Industry Classification Standard,GICS[4])由标准普尔(Standard&Poor's,S&P)与摩根士丹利公 司(Morgan Stanley Capital International,MSCI)联手推出适用于投资型的行业分类标准,也是如今全球金融业内较全面和统一的行业定义,是投资型行业分类体系的典型代表。该系统采用业务划分方法提供投资人员更好的参考标准,明确区分不同行业具有的投资价值,反映股票市场当前的投资理念,GICS在多种行业分类标准中具有更好的划分公司能力[5]。有些国内金融机构也根据GICS制定适用于我国市场环境的行业分类体系,如申万行业体系[6]以及新三板投资型行业分类体系[7]。然而,行业分类体系并不能很好地解决新三板市场投资人筛选划分公司问题,例如,①末级行业分类的公司可能缺少可比性,自顶向下的行业分类导致不同子行业内公司数量和业务内容偏差较大,不利于投资人进一步筛选公司;②公司业务可能存在多种交叉,固定的等级列举式分类体系无法揭示某个业务对应多行业的所属关系,使得划分的公司集合存在遗漏或缺失的可能性;③行业分类体系构建成本高,经常性的修正会影响投资效率。
为了弥补行业分类体系的不足,投资研究人员利用投资人可能会重点关注的话题或概念(包括业务、商业模式、地域、事件等)给予公司标签,并聚集相同或相关标签的公司形成重点关注的选股标的,称为“概念板块”,如“苹果”概念板块、“雄安新区”概念板块等。概念板块的灵活性能够弥补行业分类体系无法纳入新兴投资热点的不足,提供投资人直观的业务理解。由于概念板块是经由研究人员或媒体自发性所建构的,目前仅限于A股市场,在新三板市场并不存在大众认可的概念板块划分。
另外,许多研究人员也会通过组合市场倍数来筛选可比公司集合。市场倍数的功能可显示出在预测公司未来收入和股价变动时具有强相关性[2,8]。然而,市场倍数仅适用于A股市场或公司运营状况稳定、市场倍数可靠的情况。在新三板市场中流动性不强,股价以及市场倍数无法用于预测公司未来收益状况。
近年来,国外基于文本数据进行行业分析的研究逐渐增多[1,9-12]。例如,Hoberg等[10-11]依据10-K数据库构建了两种领域体系:为利用公司产品描述文档文本聚类,对形成的类别进行描述形成领域划分,属于较传统的固定结构[10];根据公司产品描述构建关系网络,利用公司相似性确定竞争关系所形成的网络结构[11]。由于其研究目标主要是改进行业分类体系,并没有深入公司业务细节,分类结果属于粒度较粗的行业划分,投资人的应用价值较低。Tetlock等[12]同样利用文本信息进行行业分析,但只使用了词汇的情感色彩而非词汇的语义关联。国内的研究者曹四华[13]使用LDA(latent Dirichlet alloca‐tion)主题模型对上市公司的年度报告文本进行分析,但LDA方法并不能给出可解释性强的、层次化的行业划分。本文的贡献在于利用文本数据克服行业分类体系固化的问题,提供一套依据较细粒度的业务概念与关联自动划分出公司集合的方法。
术语分类体系(taxonomy)是一个将概念术语按照上下位关系组织起来的语义层次结构[14]。术语分类体系自动构建(automatic taxonomy construc‐tion,ATC)是基于文本发现领域术语以及术语之间关联,构建具有上下位关系的树状结构体系。自动构建术语分类体系包括两个步骤:上下位关系抽取和术语分类体系推导[14]。
上下位关系抽取是指从语料中获得术语概念以及这些概念之间的上下位关系,主要分为基于模式的方法和基于分布的方法。如果x和y出现在同一个句子中,并满足特定模式,那么基于模式的方法预测术语对(x,y)之间存在上下位关系。最早的且最具有影响力的工作是Hearst[15]提出的人工定义的上下位模式。后续工作采用boosting策略[16]自动优化改进模式,基于模式的方法得到高准确率和低召回率的结果。基于分布的方法是采用非监督度量或者监督模型预测术语之间的上下位关系。该方法包含术语抽取和关系预测两个子步骤。术语抽取是从语料中抽取出所有可能的术语词,这些术语词之间可能存在上下位关系。术语抽取通常采用统计指标或机器学习等方法完成。例如,利用TF-IDF(term frequency-inverse document frequency)方法、LDA模型、TextRank模型等无监督的方法。在有监督即存在部分关系标注数据的情况下,关系抽取任务则可以看作两词之间是否存在上下位关系的分类问题。关系预测步骤则是采用非监督度量或者监督模型预测给定任意两个已抽取术语的上下位关系。典型非监督度量的方法包含利用共现频次、词袋模型余弦相似度和词嵌入模型结果计算术语间关系度量[14]。监督模型预测关系则是依赖已有术语关系的词典,通过合理外推可以预测整个术语集上的关联关系。基于模式的方法更加精确,但非常依赖语料和人工模式制定,如果语料不具备揭示术语关系,那么基于模式方法将会导致极低召回率[17]。相反地,基于分布方法可以在非严格的语料上获得较好的召回率,却无法检测严格上下位关系使得准确率较低。
术语分类体系推导是指在大量上下位关系集合的基础上,整理合并形成层次结构的过程。体系推导主要有聚类和图结构推导两种方法。聚类方法是指假设具有同一上位词的下位词聚为一类,上位词代表类簇。因为术语分类体系是层次结构的,所以往往采用具有层次性结果的聚类方法(如层次聚类[18-19])、共现关系导出的包含方法(subsumption method)[20]。图结构推导是指将术语分类体系当做有向图结构,将术语和关系组织成为图结构,并挖掘形成树状结构成为术语分类体系[21]。自动构建术语分类体系是一个极为广泛的研究领域,融合了多种自然语言处理方法,同时,也极大地影响其他自然语言处理相关的应用。本文采用基于分布的关系抽取方法和聚类推导体系的方法,实现根据公司业务划分公司,以获得投资标的或对比公司。
本文的核心任务是利用术语分类体系构建方法依据公司业务内容划分公司集合,具体的方法流程如图1所示,主要分为三个阶段:数据预处理、术语分类体系构建和划分公司集合。数据预处理阶段主要是利用哈尔滨工业大学自然语言处理工具包(http://www.ltp-cloud.com/intro)对商业模式文本进行切词词性标注等。术语分类体系构建阶段又包括关系抽取和体系推导的两子阶段。关系抽取阶段中,因为选取投资标的的变动性高,需要尽量减少人工的参与,所以本文采用基于分布的方法,该抽取方法又可分成“术语抽取”和“关系构建”两个步骤。首先,本阶段从预处理切词标注后的公司商业模式文本中,抽取短语单词特征并利用半监督分类模型判断术语,完成术语抽取的目的;其次,在关系构建步骤中采用计算术语相似度的方法,在体系推导子阶段中通过建立在术语相似度矩阵上聚类形成术语分类体系;最后,在划分公司集合阶段中是基于所构建的体系基础上,将出现相同末级术语的公司汇总为公司集合。
图1 基于术语分类体系自动划分公司集合方法的流程图
3.1.1 术语抽取
本文以新三板公司商业模式文本集作为本文的语料库,为了能够完整表述公司业务,本文采用了更具有表达能力的短语作为术语,该方法分为两个阶段:抽取短语及单词特征、半监督术语分类模型。
表1 短语特征表
抽取短语及单词特征阶段需要同时抽取短语及其特征。由于商业模式文本中绝大部分业务术语都属于名词性短语,基于该特性的模式匹配方法获得的短语能够包含绝大部分的业务概念术语。本文利用人工依据经验事先确定词性语法模式从词性标注和依存句法分析树标注后的文本材料中抽取短语。同时,抽取的短语特征有短语自身的特征以及术语所属单词的特征(如表1所示),主要包含行业信息和频率统计量两类特征。由于行业信息对于词具有重要作用,利用给定词在不同行业所属公司的年度报告中的词频所计算的行业信息熵,判断这个词是否具有领域划分的作用。本阶段获得短语集及其特征,作为下一阶段半监督分类判断术语的输入。
半监督术语分类模型构建使用正样本无标记样本学习方法(positive and unlabeled learning,PULearn‐ing)[22]来构建概率化支持向量机(probablilistic sup‐port vector machine,PSVM)分类器。现实学习任务情况中,往往负样本P获取不易,正样本P规模小且难以扩大,未标记U的规模大。PULeanring则是用于解决这样的情况的半监督分类方法。有研究[23]指出,PULearning可以利用重写经验风险的方法转化为损失敏感的有监督分类问题,分类无标记样本和少量正样本。本文利用这一结论使用传统分类模型进行术语判断,在实验研究中采用PULearn‐ing方法的对称问题(即负样本无标记样本学习NULeanring),来降低人工分类的预备工作量和提高分类精度,以达到自动分类的效果。标记负样本的过程中,候选术语短语中如果出现了领域停用词表中的词汇,将该短语标记为负样本,否则为无标记样本。而标记过程需要领域停用词表,使得负样本尽可能覆盖非术语部分短语的各种类型。领域停用词表中包括通用停用词表和描述公司的常见词,如“集团”“公司”等;描述商业模式常见词汇,如“销售”“盈利”等;描述公司市场地位词汇,如“领先”“趋势”等。领域停用词表的构建仅需要少量人工操作,实验中仅在通用停用词表外增加了106个领域停用词。最后,根据研究[23]结论,利用PSVM对负样本和无标记样本进行分类,获得正样本标记即术语集合。
3.1.2 关系构建
本文主要对称相似性度量的方法进行关系构建,该方法中的相似性度量研究基于术语为单词的情况,而不适用于本文的术语为短语的情况,因此,本文使用单词相似度度量构建术语短语相似度度量,通过整合单词相似度获得术语相似度。
首先,借鉴共词分析的思想,定义两个单词的相似度为共同出现文档的数量除以两者各自出现文档次数的平均数,计算单词间的相似度采用共现频次并进行归一化,计算方式为
其中,docsi表示单词i出现的文档集合;|docsi|表示文档docsi的单词个数;mean(|docsi|,|docsj|)表示文档docsi和docsj的单词数的调和平均数。
其次,采用词对齐(word alignment)思想汇总单词相似度并计算短语相似度。定义短语间的相似度为短语中相对应单词之间的相似度的平均值,而词对齐方法可以避免考虑短语中无关单词间相似度被纳入考量。例如,“医疗健康服务”和“医疗器械”均有单词“医疗”,短语相似度首先找到最匹配的单词对,再合并计算多个单词对之间的相似度。在术语t中找到术语s的词对齐结果定义为termalignst。术语相似度termsimst计算公式为
termsimst=(termalignst+termalignts)/2 (3)
最后,考虑单词本身的差异,直接采用相同的权重求均值会使术语表达能力不足,因此,本文汇总单词相似度时引入词权重,表示为
其中,N表示文档数量;docsi表示单词i出现的文档集合。将单词权重设计为WF-IDF,WF定义为对词条出现的频率TF进行亚线性变换后的结果,使权重归一化时更加平滑,IDF是指逆向文件频率。
经过关系抽取之后的术语集内部具有伪上下位关系,因为相似性度量矩阵可以认为是所有术语之间都可能有上下位关系,而聚类则是将相似性矩阵转变为所属关系矩阵,实际中即抹去相似性较低的术语对关系、建立相似性较高的术语对之间的关系。在体系推导阶段,首先,本文利用近邻传播(affinity propagation,AP)聚类算法[24]方法聚类得出层次化术语体系的末层结构;其次,再对该聚类中心进行聚类获得第二层结构,以此类推;最后,形成多层次化的树状结构,即术语分类体系。然而,在实际投资应用中,固定层级的扁平树状结构较为依靠投资研究人员理解,本文以三层结构的术语分类体系为主,如图2所示。
基于构建好的术语分类体系,公司的主营业务所包含的术语对应在末级术语上,形成最终的公司划分映射表。公司划分映射表中,每个末级术语对应一个公司集合,该集合中所有公司从事的均与术语描述的业务内容相同或相似,则该集合内的公司即可被投资人与分析师作为对比分析的选股标的。该公司划分映射表存在两个现象:①某公司包含数个术语,形成该公司可能会属于不同类的公司集合,但这现象更符合现实情况,因为公司经常从事多种业务或者业务具有交叉性;②由于本文采用商业模式的文本,公司可能主营上下游产业链业务,造成同一划分集合公司间仍有不同的属性关系并未显现出来,未来可以针对这一点进行升级改进。
图2 基于聚类的术语分类体系结构
表2 顶层术语统计表
实验首先自全国中小公司股份转让系统(www.neeq.com.cn)中选取从2014—2017年年底10375家挂牌公司年度报告共21739份,由于原始年度报告格式为PDF文件,使用Tabula工具自动解析文件后提取出商业模式文本数据,因部分年度报告数据的内容缺失和损毁,经人工校正并清理,最后,获取20040份商业模式文本作为本文的研究实验数据。依主管机关规定,商业模式披露内容包括公司目前所处行业、主营业务、产品或服务、客户类型、关键资源、销售渠道、收入来源等情况,文本长度一般不少于100字且不多于1000字。利用模板判断短语后获得64460个短语候选集,本文利用领域停用词表标记其中7078条为负样本,其余为无标记样本,经PSVM分类器计算获得2744个正样例术语。体系推导后获得33个大类(如表2所示),其中第1列为所有大类对应的顶层术语。每个顶层术语的二级术语数量不超过20个,三级术语不超过230个,对应的公司从数百到一千不等,由于公司可以包含多种类型业务,最终平均一条业务术语最多包含20家公司。所有术语的平均相似度经计算为0.15,而每个类的平均类内相似度皆高于0.15,说明大部分划分结果具有内聚性。除“手机周边产品”“天然植物提取物”等混杂的超大类以外,大部分聚类划分相对均衡。本实验基于文本字符,故存在同义词与近义词的关系使得顶层划分不够完善。例如,“医疗诊断服务”和“医疗器材制造服务”两个相关业务被割裂,未来仍具有改进空间。
由于划分结果庞大,本文仅以教育类实验结果展示层次结构和公司划分情况。如表3所示,第1~3列分别表示宏观大类划分、相对宏观的二级划分和微观的三级划分,说明本文的研究方法依据主营业务概念自动划分的33类中有一类宏观体系为教育类,而教育类又可细分成“在线教育培训行业”“职业教育培训服务”“教育信息化”和“智慧教育行业”4个子类,并且“在线教育培训行业”类别中包含“在线教育服务”“在线教育培训”和“在线教育平台”3个微观业务类别。表4展示了教育概念下部分公司的行业划分、本文方法末级术语标签和商业模式文本节选,其中行业划分采用新三板官方投资型行业分类用作参照,显示本文方法的划分结果,具体展现出新三板教育类公司的业务特征。
表3 教育概念结构表
新三板挂牌公司多数属于中小型规模、从事较小业务内容或产品的公司。传统公司划分参考的行业粒度宏观,依据公司业务内容映射到行业划分时,造成同行业内公司间的实际业务差距较大,体现不出公司的特殊性。对于投资人来说,经由本文依据粒度较细的业务概念自动划分公司方法得到的公司集合相似度更高,这些细分领域的发现更能贴近市场,便于深入理解行业。
投资人利用公司的业务、商品或相关属性划分公司集合,从中筛选出股价表现较合理的公司作为该集合的标杆,该标杆公司与投资标的进行估值对比分析。不适当的公司集合划分将会造成标杆公司选取的失误,并导致投资标的估值错误,因此,利用细粒度的业务内容划分出的公司集合更能找出可比性的公司。公司间的可比性通常考量对比公司的业务相似度和体量,而实际业务中分析人员需要对两指标划分的结果进一步人工筛选删除[2],因此,在考察划分公司方法时,还需要考虑对比公司集合的大小。业务相似度与对比公司集合大小均与划分结构中末级节点细化程度有关。如果粒度过粗使得同集合内公司的数量过多,并且公司间的业务关联小,则将造成可比性较差。例如,多数“在线教育领域”的公司被划分到投资型行业分类体系的“互联网软件与服务”,且“职业培训”被划分到“综合消费者服务”,而“教育”仅为体系的末级行业。在线教育公司因改变其业务手段就被划分到“互联网软件与服务”,但由于其业务的消费者、竞争者以及市场范围并没有太大的变化,从投资角度而言,该类公司仍必须以教育类型评价基准进行分析与估值。而本文提出的方法划分的公司集合相对均匀,且该方法依据文本数据内容自动调整领域规模,避免了自顶向下设计行业分类所导致公司分布不均的问题。
发现新兴业务概念是市场研究人员进行投资分析重要的工作之一,尽早挖掘出新兴概念将标示着行业未来的发展方向以及公司的前景。传统行业分类体系因更新周期长而忽略新兴业务,而只有当新兴业务受到关注的时候才会被纳入概念板块的构建。本文提出的方法从年度报告自动获取划分的结构,因此,容易捕获到当前市场的新概念。例如,表3的教育类二级划分类别中,这些概念是当下教育领域的重要细分业务,也是投资人无法参考其他工具获得的。
表4 教育概念下部分公司对应表
另外,在本文的实验中存在术语意义不够明确的问题。在术语抽取的工程中,术语的微妙差别与简单词汇控制判断同义词或近义词不同,尤其本文的对象更涉及实际生活中的业务逻辑,判断方式相对复杂导致难以达到无监督词汇控制。例如,“智慧教育”与“在线教育”之间的关联并非仅有同义或近义的关系。“智慧教育”采用智能技术注重教育质量和效果,而“在线教育”偏重以在线方式打破地理限制的学习体验,虽然两者概念相似与高度相关,但无法简单合并。另外,“智慧家庭”本不应当属于教育行业,但由于计算“家庭”与“教育”术语相似度相对接近,而被划分为该宏观概念类内。
本文主要通过半监督术语抽取与术语关系聚类的方法,构建出具有层次结构的公司集合,提供新三板市场投资人自动化划分公司的方法,并协助理解公司间的业务关联。本文提出的方法主要贡献在于将术语分类体系构建方法引入投资概念体系建立任务,采用了短语而非单词作为术语相似度的计算,并且在该过程中极少量依赖人工参与,高效无监督方法满足需求的时效性。实验数据来自新三板公司年度报告的商业模式文本数据,并使用本文提出的方法划分的公司集合解决实际问题:①发现细分领域和特殊业务,使投资人更深入了解公司业务范围;②自动化及时发现当前新兴投资概念,帮助投资人捕获市场动态;③对比传统公司筛选工具,本文方法划分公司更具有可比性。本文尝试使用无监督方法抽取术语的方法仍有优化空间,未来将可引入词汇控制来避免术语意义不明的情况,并在关系构建过程融合其他行业描述的外部资源,改善语料稀疏的缺点。