证券市场股东画像的构建

2019-04-02 02:55于花蕾汤才芳任浩然
中文信息学报 2019年2期
关键词:画像股东特征

于花蕾,饶 元,汤才芳,任浩然

(西安交通大学 软件学院 社会智能与复杂数据处理实验室,陕西 西安 710049)

0 引言

随着大数据时代的来临,股票市场已经产生了大量关于股东投资行为的数据信息,并且这些信息公布在上市公司的年报、季报当中,不涉及隐私安全等问题。如何充分利用这些投资行为信息来进行分析,最终指导外围投资者投资决策成为了一个亟待解决的问题。重要股东的市场行为常是各界的重点关注对象,这是因为外围投资者常会跟随重要股东的市场行为做出投资决策。重要股东的市场行为不仅会对股票价格造成直接影响,还与公司的成长性相关联,故其重要性不言而喻。然而,当前针对重要股东的市场行为研究普遍存在以下几点问题:(1)针对性单一,缺乏全局。通常关于股东的市场行为研究都是针对具有某一类市场行为的全体股东展开的,而不是针对市场上全体股东的所有市场行为进行研究。(2)不够精准。当下的粗放式的重要股东持股研究不能为外部投资者、散户等提供更为精准明确的信息,外部投资者不能了解到上市公司大股东的性质(基金、QFII、公司机构、个人股东等)及重要股东会选择在哪个确切的时刻对哪些股票进行投资。(3)不能对外部投资者提供指导。由于无法详细地了解到感兴趣的重要股东会对哪类股票更具偏好,这些偏好的股票存在哪些共性,应该在何时跟随他们投资等重要信息,最终导致无法对外部投资者提供指导。

针对现有研究存在的以上3点不足,本文从一个全新的角度出发,提出一个新的概念——“股东画像”。股东画像的概念可类比于用户画像。相比于用户画像,股东画像的研究对象有所不同,从普通的产品用户变为股东,通过对股东进行标签化,最终生成一个虚拟的可用于表示股东的标签体系。构建股东画像是一种富有成效的股东描述及建模方法。其过程是不具有针对性的,即对市场中的全体股东进行画像;且通过已有数据,可以精确地了解到股东的投资行为及各类信息,最终通过这些信息对外部投资者进行投资指导。

本文的贡献在于提出了一个全新的概念“股东画像”及标记股东特征的一些方法,并讨论了处理股东特征时可能遇到的问题及应对措施,提出了“股东画像”的建模模型。通过对现有数据信息进行各角度的特征构建,最终刻画出当前A股上市公司十大流通股东的画像,达到为股票市场中占绝大数量的散户的投资决策提供帮助的目的。

1 相关工作

用户画像(User Profile),即用户信息的标签化,是建立在一系列数据之上的目标用户模型[1]。意义在于帮助企业猜测用户的真实需求和潜在需求,精细化地定位人群特征等。目前用户画像被运用在许多领域[2],李恒超[3]等人基于用户的查询词历史记录,提出了一种用于构建用户画像的二级融合算法框架,用于对用户性别、用户年龄及教育程度进行预测。Mueller[4]等针对Twitter用户的用户名信息构建了多种词语结构特征,并通过识别用户性别构建了Twitter用户画像。黄文彬[5]等在分析移动用户的基站轨迹的基础上,采用频繁模式挖掘、构建概率矩阵等方法,构建了包含地理位置信息的用户画像模型。张慷[6]等通过提取用户的上网行为特征,同时结合相关数据进行数据融合及交叉分析,构建了通信用户的画像模型。费鹏[7]等人基于电网用户进行了分析研究,提出了一种用于构建用户画像的多视角融合框架,该框架能快速、准确地识别电费敏感客户。

重要股东指能对公司的经营运行产生重大影响的股东,他们的存在是公司得以正常经营和运行的关键。本文研究的是重要股东中一类关键群体,即上市公司的十大流通股东。通过了解该类群体的行为偏好、投资偏好,可以帮助外部投资者、散户在投资决策时起到参考作用。倪光耀[8]对于大股东增持的背后考量和公司在被增持后对公司的治理产生的影响进行了研究,表明股票增持对市场会产生两方面的影响,且为企业对外扩张提供资金的强有力保证,形成宝贵的无形资产。赵红岩[9]就大股东增减持行为对上市公司股票价格的影响机理进行了分析,并就有关各方如何应对给出相应建议。刘建忠[10]对重要股东持续减持下的公司绩效和成长性进行研究,结果表明重要股东的持续减持行为会对公司的绩效与成长性造成影响。

虽然用户画像和股东行为研究已经成为当前研究的热门话题,但是目前将两者结合考虑,针对股东进行画像的研究还很缺乏。本文的主要工作是从数据集中提取股东特征,并对股东画像进行建模研究。构建股东画像预计有以下用途:其一是了解各个股东基本信息及偏好信息;其二是对外部投资者给予一定程度的指导作用;其三是针对由股东、股票、上市公司生成的三模异构社会网络拓扑图进行链接预测、分类以及演变分析。

2 股东画像的构建步骤

根据网络爬虫爬取到的网易财经、同花顺及金融界等门户网站上股东、股票相关的数据类型及业务需求,可以将股东画像工作进行细化,如图1所示。

2.1 基本数据收集

本文数据来自于爬取的网易财经、金融界、同花顺等门户网站及国泰安(CSMAR)数据库,时间为2004年03月至2017年12月。本研究重点采用十大流通股东行为数据、上市公司基本数据和A股基本面变化3类数据。基金持股数据用于数据预处理阶段,主要是清洗数据,使股东行为表中的数据一致。本研究的数据预处理流程如图2所示。

图1 股东画像构建过程

2.2 数据整理归纳

收集到海量的十大流通股东及股票的基础数据后,需要对这些数据进行整理归纳,从中获取有用的信息。这一过程需要从真实需求出发,将基础数据划分为宏观统计习惯、宏观消费特征、股票属性、公司属性、公司相关新闻、微观消费投资特征等信息,这些信息结合相关场景将产生巨大的价值。

2.3 模型构建及标签

使用特征工程、机器学习等技术建立行为模型,对股东进行标签化。通过分析股东的宏观投资习惯、宏观消费特征、购买股票的相关属性、股票对应公司的相关属性、公司相关新闻及微观投资消费特征等信息,可以给股东赋予活跃度标签、行业偏好标签、地域偏好标签等。

2.4 股东画像

针对本文提出的“股东画像”,类比于用户画像,给出如下定义:股东画像是在股东基本信息未知的前提下,根据股东市场投资行为、股票基本面信息、所投资股票所属的上市公司基本信息等抽象出的一个标签化的股东模型。定义的元模型可以形式化表示为一个四元组,如式(1)所示。

(1)

其中,Oj表示标签化的股东模型;ACTj表示股东j的市场投资行为;FUNDj&k表示股东j所投资的股票ki的基本面信息集合;Companyk&i表示股票ki对应的上市公司i的基本信息集合。

本文提出的构建股东画像的核心工作是应用上述4类信息对股东的活跃度特征、行业偏好、地域偏好等进行标签和确认,从而生成股东画像。

3 证券市场股东画像的构建

3.1 股东活跃度

股东活跃度可以看作股东在股票市场的交易行为频繁程度及进入十大流通股东的评估。外部投资者迫切想要了解股东的该类信息,从而决定是否跟投。本文定义以下公式用于刻画股东活跃度,即为:

{股东活跃度}=(股东“年龄”,宏观投资行为)

(2)

1) 股东“年龄”。把股东“年龄”作为指标需要考虑:一是在数据集的时间间隔的不同时间段里,加入十大流通股东行列的股东构成是否存在明显区别。二是在数据集的时间间隔内,股东存活区间是否存在明显区别。如果上述假设为真,则有必要给不同时间入市的股东赋予不同的权重。图3(a)和图3(b)对假设一做出说明,除数据集本身原因造成2004年进入市场的股东数显示较多,2017年为最后投资年份的股东数显示较多外,(a)图说明在数据集时间间期内不断有股东退出和进入十大股东行列中,2006、2007年股东进入十大股东排行的数量多。(b)图显示2006、2014、2015年进行最后一次投资的股东人数也偏多。故不同时间间隔内,加入或退出的股东存在明显区别。

图4对假设二做出说明,在数据集的时间间隔内,股东活动区间存在明显区别。活跃区间在一年之内的十大流通股东数占绝大多数,在数据集的时间间隔内,共65332名股东,这也说明十大流通股东行列的流通性强。故可以对股东“年龄”赋予适当的权重。

(3)

(a)

(b)图3 股东数量变化与各因素之间关系注: (a) 表示股东进入市场时间与股东数之间的关系; (b) 表示股东最后一次投资的时间和股东数之间的关系。

图4 股东活跃区间长度与股东数量之间的关系

2) 宏观投资行为。此处主要考虑宏观上十大流通股东的投资行为,需要考虑:一是早期进入市场的股东其投资行为数是否较晚期进入市场的股东更多;二是活动区间长的股东其投资行为数是否较活动区间短的股东更多些。如果上述假设为真,则有必要给不同时间入市的股东赋予不同的权重。图5(a)和图5(b)对上述假设做出说明,早期进入市场的股东的投资行为均值较高,且股东的活动区间长度越长,对应的股东投资行为均值越高。故有必要对不同时间入市的股东赋予不同的权重。

(a)

(b)图5 股东的市场行为均值与各因素间的关系注: (a) 表示股东进入市场的时间与股东投资均值之间的关系; (b) 表示股东活动区间长度与投资均值之间的关系。

本文认为应该综合多种特征来刻画股东的投资行为,因此提取以下特征:宏观股东投资行为的总数、宏观股东投资股票的总数。对于上述股东特征引入sigmoid函数,设某特征为x(x可以为股东投资行为的总数、宏观股东投资股票的总数),则该特征的xindex为:

(4)

其中,a的取值极小,如0.001,是用于平衡可能存在投资行为或投资股票的总数为0的可能性。把上述特征值赋予权重wx并求和得:

xu=∑wx·xindex

(5)

综上所述,股东活跃度的指标qi为:

qi=wS·SyearOfHolder+xu

(6)

式中,SyearOfHolder表示式(1)得到的股东“年龄”指标;xu代表股东投资行为的总数、宏观股东投资股票的总数。但是在实际不同阶段,分析人员可根据实际需要调整权重以平衡股东“年龄”和宏观股东行为,从而得到合适的股东活跃度标签。这里取公式(6)中qi指标最高的20%为高活跃度股东(H),20%~50%为中活跃度股东(M),其他为低活跃度股东(L)。同时可以根据实际需求调整阈值,获得不同的活跃度群体。

3.2 股东偏好特征

3.2.1 股东行业偏好

股东行业偏好是股东偏好信息中最重要的信息。得知股东行业偏好信息可以帮助外部投资者对自己感兴趣的大股东加深了解。对于股东行业偏好的分析是从两个角度进行的,即行业门类和大类。根据2012年修订的《上市公司行业分类指引》,行业门类共19种取值,行业大类有90种取值。

本文采用五元特征组来形式化反映股东行业门类偏好,如式(7)所示。

(7)

其中,SUM∑beh、SUM∑Ct分别表示宏观投资行为总数及投资行业门类总数;Yn(Cti)、Yn(∑Ct)分别表示各年股东投资行业门类数量及分布;mCti表示行业门类的平均投资水平。对于上述特征均需要计算指标绝对值及其占比。也可根据实际情况赋予权重并制定阈值。

针对某股东投资的每一个行业门类ICti,其中Cti表示其中的一个行业门类,计算如式(8)所示。

(8)

mCti={0/1}

(9)

(10)

对于求出的ICti结果,可按照从高到低的方式进行排序,取前20%作为该股东行业门类偏好,同时可以根据实际需求调整阈值,获得不同的行业门类偏好组群。对于行业大类的分析,与行业门类思路相同,在此不做赘述。

3.2.2 股东地域偏好

在股票证券投资领域,地域因素、地域情结是否是投资者投资决策的重要影响因素,针对该问题,本文对股东的地域偏好进行研究分析。由于数据集自身的条件约束,本文对于股东地域偏好的研究主要考虑以下两方面:(1)对于本国国内地区的偏好;(2)对于沪深市场的偏好。而不针对国内外地域偏好进行分析,但从分析十大流通股东中QFII所占的比例可以看出投资者更倾向于投资本国内的证券市场。

股东对于国内各地区的投资偏好,本文采用四元特征组来形式化表示,如式(11)所示。

DAP=

(11)

其中,SUMari、SUM∑ar分别表示宏观投资地域数量及分布;Yn(ari)、Yn(∑ar}分别表示各年投资地域数量及分布。计算公式如式(12)所示。

(12)

其中,wmaci表示宏观投资地区的数量的权重;wmici表示各年投资地区的数量的权重。SUMari表示宏观投资地区airi的总次数,SUM∑ar表示宏观投资所有地区的总次数,μ表示距离数据集最后投资年份的跨度。对于股东投资的各个地区,均采用上述公式进行计算,结果中的前20%作为股东国内各地区偏好的组群。

股东对于沪深市场的偏好,本文采用各年投资沪市股票的总数量、各年投资深市股票的总数量作为特征,对于上述股东特征引入sign函数,计算方式如式(13)所示。

(13)

式中,Yn(SUMhu)、Yn(SUMshen)分别表示在第n年,股东对于沪市股票及深市股票的投资总数,μ表示距离数据集最后投资年份的跨度。当per>0时,即股东更倾向于投资沪市,反之,股东更倾向于投资深市。

通过从活跃度、偏好特征两方面构建股东画像,外部投资者可以了解到想要跟投的股东的市场行为频繁程度及各类偏好信息,从而加深了解,并从中选取真正符合自己投资意愿的股东进行跟投。最终实现指导外部投资者进行投资决策的目的。

4 证券市场股东画像构建实例

本文的数据集主要涉及到爬虫得到的财经门户网站上3 107只上市A股对应的十大流通股东行为数据、国泰安数据库中上市公司基本信息及基金持股数据。其中涉及到2004年至2017年期间共1 060 700条投资行为数据及128 045位股东数据。结合图2的算法预处理过程得到干净数据集后,首先在全集上考察股东群体的整体活跃度、偏好等趋势,其次将全集股东分为3类,分别从个人、基金、机构说明这3类性质的股东群体在股东活跃度、股东投资偏好方面存在的相似性与差异性。

图6展示的是数据集全时间段内各年份对应的3类不同性质的股东数量及变化情况。由图可知,三类股东中,个人股东占比始终最高,机构次之。从2007年开始,机构股东的数目基本保持稳定不变。且随着时间的变化,基金类型的股东数量不断增加,总体上看,全集股东人数呈日益扩张趋势。

图6 3类性质股东数量分布

通过在数据全集上考察上述定义的各特征变量是否影响股东活跃度,给出图7作为解释,图中显示了具有高活跃度的股东在各类特征上的表现。图7横轴表示活跃度的取值,纵轴分别表示最早最晚投资时间、活动区间、股东“年龄”、投资股票总数和行为总数。

图7 在全集上考察各特征与活跃度之间的相关性

图7可以看出具有高活跃度的股东应该具有的特点是,最早投资时间更偏向早期、最晚的投资时间接近于数据集的截止时间、股东的活动区间长度越长,该股东活跃度越高的可能性越大、股东“年龄”更多的处于1.1到1.4之间、投资股票总数及行为总数与活跃度存在指数关系。

图8 3类股东活跃度对比

利用本文式(2)定义的股东活跃度模型,分别对个人、机构、基金三类股东进行建模,得出如图8所示的结果。分析表明:(1)图中显示的大多数股东的活跃度偏低,且3类股东的活跃度较多的集中于1.5左右,是由于股东活动区间为1的全集股东占绝大多数所造成的。(2)3类不同性质股东的活跃度呈现出的分布变化趋势是大致相同的,这也从另一方面说明了,用于描述股东的“活跃度”是均衡的。

从3类不同性质的股东出发,在全集上考察股东的行业偏好。全集包括22 921条机构类型股东,个人股东93 170名,基金股东11 954名。具体的偏好是经过式(8)计算得到的。取前20%为各个股东的偏好行业,再汇总综合考虑3类不同的股东群体,从整体考察股东偏好。最终得出图9所示的股东群体偏好。

图9从内到外由个人股东、基金股东和机构股东3层组成,显示了15类排行靠前的股东喜好行业。圆圈的大小表示偏好值,某位置的圆圈越大意味着该类股东对于该行业的偏好强度越高。不难发现,3类股东的行业偏好相似度极高,基本完全一致。这也从侧面反应了股东群体所偏好的股票所属的行业均是发展前景较好、且被多数重要股东认可的,具有一定的参考价值。

图10展示了沪深市场的投资变化情况。我们可以看出深市的投资数量较沪市随时间呈激增变化趋势;3类股东中,机构股东对于沪深市场的投资数量基本持平;个人股东对于深市的投资整体呈上升趋势,而对于沪市的投资波动较大;基金股东在2015年之前对于沪深的投资数量呈上升趋势,之后存在明显的骤降现象。且经过式(13)计算可得出,个人股东per=-0.82,故更偏好于深市;基金股东per=-0.53,更偏好于深市;机构股东per=-0.05偏好于深市。三类股东中个人、基金股东的沪深偏好较为明显,而机构的沪深偏好差异不大。与图10所示的投资变化一致。

图9 3类股东群体偏好

图10 沪深市场投资数量变化

图(11)展示了3类股东投资国内各省份的占比情况。由图可知,(1)3类股东他们的投资倾向具有相似性,且相似性极好;(2)在这些区域中,股东投资比例超过6%的区域有,广东省、北京市、上海市、江苏省及浙江省,可以看出一线或经济高度发达区域的企业的收益可能会更好,原因在于这些区域经济可能发展得更活跃,机会可能会更多,所以相应的企业发展就会更好些。

图11 3类股东投资各个地区的占比

之后对投资占比超过6%的地区开展进一步研究,以便发现在这些区域中3类股东重点投资的行业都有哪些,存在什么样的差异性。首先假定投资超过6%的地区为较为发达的地区,结果表明在90个行业大类中,无论是个人、基金还是机构,他们最为重点投资的行业大类都是计算机通信和其他电子设备制造业。且3类股东投资的排名前10的行业大类差异不大,仅在排名先后顺序上略有不同。考虑到投资者投资时会选择发展潜力大的企业,由此我们也可以推断出在较为发达的地区,龙头企业所属的行业主要是计算机通信和其他电子设备制造业、房地产业、电气机械及器材制造业、化学原料及化学制品制造业、医药制造业等。

5 结论

本文将用户画像的概念迁移至证券市场,针对我国上市A股的十大流通股东提出“股东画像”的概念,以便于深刻了解股东偏好,力图从更详细、更多角度对外部投资者的投资提供指导作用,本研究可以作为分析具有相似投资行为的股东群体、股东风险偏好的基础。其次利用爬取和国泰安数据库(CSMAR)获取到的股东、股票相关数据从活跃度、偏好特征两个方面构建了证券市场股东画像,将股东按性质划分为个人、机构、基金,并分别对3类股东从全集角度构建画像。除此之外,本文还提出了一些处理股东特征的思路和方式,特别是针对如何刻画股东“年龄”特征及股东行业门类偏好。

由于数据集的限制,本文没有对国内外地域偏好进行针对性研究。对于股东的投资行为并没有细化为增持、减持、不变、新进4类,从更加细致的角度分析股东画像。未来,笔者会针对细化后的股东投资行为、相似投资行为的股东群体做出分析,得到更有意义的证券市场股东画像。并针对由股东、股票、上市公司生成的三模社会网络拓扑图进行链接预测、分类以及演变分析。

猜你喜欢
画像股东特征
根据方程特征选解法
威猛的画像
离散型随机变量的分布列与数字特征
“00后”画像
画像
不忠诚的四个特征
重要股东二级市场增、减持明细
一周重要股东二级市场增、减持明细
重要股东二级市场增、减持明细
一周重要股东二级市场增持明细