何岩新,倪丽萍,曹 琳,马驰宇
(1.合肥工业大学 管理学院,安徽 合肥 230009;2.过程优化与智能决策教育部重点实验室,安徽 合肥 230009)
基于本体的股票主题事件案例推理系统研究
何岩新1,2,倪丽萍1,2,曹 琳1,2,马驰宇1,2
(1.合肥工业大学 管理学院,安徽 合肥 230009;2.过程优化与智能决策教育部重点实验室,安徽 合肥 230009)
股票市场中一些事件容易影响股票的价格及收益。为辅助投资者积累经验性知识及快速做出决策,文中在收集主题事件的基本信息及市场波动数据的基础上,结合本体理论和案例推理方法,通过对事件案例的本体结构定义以及对金融事件类型本体的构建,开发了股票市场主题事件案例的推理系统原型。该系统用OWL-DL语言描述本体,采用Protégé4.2构建本体库;通过分析主题事件的特征属性,用相似性度量方法检索相似案例,进而对目标事件做出详细分析。通过特定事件对股票市场的走势分析,验证了用相似案例进行市场短期预测具有可行性,同时引入本体后在推理系统的查全率上有了明显的提高,从而说明该方法是合理的、有效的。
主题事件;本体;案例推理;案例库;股票市场
主题事件是指在股票市场中经常发生的可能影响市场波动的特定类别事件,如,银行调息、公司公布重大事件、举行世界性盛会等。在类似的市场环境下,发生类似的主题事件往往会对市场产生类似的效应。因此,对股票市场,构建主题事件案例库显得非常必要。通过记录已经发生的主题事件详细内容,包括事件的描述、事件前的市场情况及事件导致的股票市场波动情况,将有利于投资者积累经验,提高投资决策能力。
案例推理(Case-Based Reasoning,CBR)是将过去求解问题的经验定义为案例并使用案例来求解新的类似的问题[1],而对于事件案例推理系统来说,就是将事件表示成案例。通过对相似事件案例的检索,为新事件的发生结果提供辅助决策。然而,传统的CBR系统大多是用静态框架来描述案例,存在难以扩展、可重构和学习性差,且对理论知识和领域资源缺乏良好的支持,不能有效利用语义关系等缺点[2]。本体(ontology)明确了领域内共同认可的概念术语,利用领域知识的语义模型表达了概念含义,并在内部层次中规定了这些概念之间的关系。它描述了概念及概念之间关系的模型,具有较强的知识表达能力和支持较强的推理能力。把本体与CBR相结合,可以把案例所表达的知识与用本体表示的一般领域知识模型进行整合,这样基于本体的案例推理过程可以充分利用领域知识来获取更精确和全面的结果[3]。
在过去的研究中,有不少学者提出将本体和案例推理相结合以提高决策能力。文献[4]将本体与CBR相结合开发了电子政务项目审批决策支持系统,与传统基于关键字的项目案例检索相比,引入本体技术后,其案例检索的查准率和查全率明显提高。文献[5]针对CBR系统缺乏语义理解的问题,提出将本体与CBR相结合,通过在注塑模具设计案例系统中的应用,说明该方法优于现有的CBR系统。文献[6]针对传统CBR存在的案例库难以扩展、表述词表不统一等异构问题,将本体技术引入CBR,研究了基于本体CBR的旅游产品案例表示方法和案例检索策略。文献[7]构建基于本体的高速交通突发事件案例的本体模型,提供了对突发事件的发展过程与应急处置全过程知识的语义一致性描述,屏蔽了不同交通信息管理系统之间的异构性。文献[8]通过构建基于本体的应急响应决策支持系统,把本体与CBR相结合,应用到信息安全领域,从而共享成功的经验知识。文献[9]将基于本体的范例推理技术应用到常见问题回答服务领域,取得了不错的效果。文献[10]针对传统的基于句法的相似性度量方法存在匹配度不高的现象,提出采用本体理论和基于特征的相似性度量方法来确定两个问题的相似性,并用基于案例的推理实现产品信息的检索和再利用。
事件对股票市场的影响是毋庸置疑的,过去的研究主要通过事件研究法[11-13]实证分析某个事件的影响作用,缺乏系统性和全面性。因此文中将本体与CBR相结合,通过建立基于本体的股票市场主题事件案例模型及案例推理系统,利用本体和案例推理技术的优势对股票市场上发生的事件影响结果进行预测。相关实例说明该系统能够检索出相似的事件案例,对投资者规避风险具有一定的现实参考价值。
2.1 系统总体架构
基于本体的股票市场主题事件案例推理系统基于B/S架构,整个系统分为三层:应用层、业务逻辑层和数据存储层。其中应用层主要包括案例管理模块、案例学习模块、市场波动趋势预测模块和金融事件类型本体管理模块等。业务层用Protégé对本体进行定义,通过支持基于RDFS和OWL等语义推理的Jena2工具包来实现本体模型的解析和推理[4,6]。数据存储层以MySQL为主要的数据库管理系统,实现案例知识的存储。其体系架构图如图1所示。
图1 基于本体的案例推理系统体系结构图
2.2 系统主要功能模块介绍
(1)案例管理模块:该模块根据案例的表示结构,建立和维护事件案例,包括案例的添加、删除、修改等操作。
(2)市场波动趋势预测模块:该模块通过检索案例库,寻找与待查询事件相似的事件案例,根据检索得到的事件案例对市场短期波动趋势做出预测。
(3)案例学习模块:该模块通过对案例的学习和修正形成新的案例,丰富案例库。
(4)金融事件类型本体管理模块:该模块是高级用户操作的,即为领域知识维护模块。负责股票市场事件类型本体知识的管理。
(5)系统管理模块:该模块主要负责系统用户的管理以及系统设置。该系统根据权限,把用户划分为三类:普通用户可以进行市场波动趋势预测;高级用户是针对股票市场领域专家而设置的,其负责案例库的管理和维护以及金融事件类型本体管理;系统管理员负责管理用户的权限。
2.3 系统推理流程
股票市场主题事件案例推理系统的基本流程如下:
Step1:根据用户所提交的事件信息,包括事件时间、事件摘要、事件发生前市场波动情况、事件类型以及趋势等,在主题事件案例库中寻找相似案例;
Step2:若没有找到相似案例,则存入最新事件案例,更新案例库;如果存在相似案例,则根据事件的相似度的计算结果排序,按照案例的相似度大小排序展现给用户,并列出相似事件案例的详细信息;
Step3:用户通过分析案例信息,对市场做出预测反应。
3.1 基于本体的案例表示
(1)主题事件特征属性选择。
通过对股票市场主题事件的分析,发现主题事件的描述一般是基于文本的非结构化形式。因此需要收集这些事件知识,并抽取出事件属性来规范化事件案例,这样更有利于案例库的存储、维护以及推理功能的实现。
对于一个事件,一般应包含两类信息:事件的描述和事件的影响。此外不同的市场环境下事件的影响作用可能不同。因此,针对股票市场主题事件,文中将其抽象为一个三元组表,分别为事件描述、事件前市场描述和事件影响结果,即:Event_Case:{Event_Description,Market_Description,Event_Results}。
事件描述表示事件的基本信息,可以描述为Event_Description:{Event_ID,Event_Time,Event_Abstract,Event_Type,Event_Trend}。其中,Event_ID表示“事件编号”,Event_Time表示“事件发生时间”,Event_Abstract表示“事件摘要”,Event_Type表示“事件类型”,Event_Trend表示“趋势”。对于事件发生时间,文中将事件公布日当做事件发生时间。
事件前市场描述表示为Market_Description:{updown_five,updown_ten}。其中,updown_five表示“事件前五天平均涨跌”,updown_ten表示“事件前十天平均涨跌”。在股票市场中,股票涨跌反应了股价波动情况。通过计算事件发生前一段时间股票的涨跌值,能够了解当前市场的波动情况。
事件影响结果表示为Event_Results:{Ten_Day_Market}。其中,Ten_Day_Market表示“十天股指表现”。文中选取事件公布后十天股指表现作为事件对股市短期影响的描述。
(2)主题事件案例本体结构定义。
基于对主题事件属性选择后,通过分析发现,对于事件类型其涉及到的种类多,文中经过归纳整理将其分为货币政策事件、财政政策事件以及公共政策。在此基础上,构建了主题事件类型本体,通过该本体给出了影响市场主要事件类型的基本术语以及相互间的关系,其结构如图2所示。
图2 事件类型概念树
综上,在主题事件案例推理系统中,案例本体结构如图3所示。
该系统中所包含的两类本体—主题事件案例本体和主题事件类型本体,两者均属于轻量级的应用本体,结构较简单,易于表达和实现[4]。
3.2 基于本体的事件案例检索策略
对于基于本体的案例推理系统,其检索过程中相似度计算是很重要的环节,通过相似度的计算来衡量查询案例和检索到的案例之间的相似关系。
一般地,基于本体的案例推理系统,其案例间的相似度计算公式可以表示成公式(1)。
图3 案例本体结构
(1)
其中,Sim(C1,C2)表示两个案例的总体相似度;wi表示第i个属性的权重;Sim(Xi,Yi)表示第i个属性的相似度即案例局部相似度。
具体地,主题事件案例相似度计算可以分解为两个步骤:先计算案例间的局部相似度,再计算案例间的总体相似度。该系统中,对于属性分为四种类型:数值型、文本型、符号型和本体类中定义的本体类型属性。对于不同类型属性以下给出不同相似度计算公式。
3.2.1 数值型属性相似度计算
文中的属性“事件前五天平均涨跌”和“事件前十天平均涨跌”即为该类型。数值型属性的局部相似度可表示为公式(2)。
(2)
其中,xi和yi分别表示案例X和案例Y的第i个属性值,当|xi-yi|值越大时,其相似度值越小。
3.2.2 文本型属性相似度计算
文中的属性“事件摘要”即为文本型属性。首先对该文本属性值进行预处理,包括中文文本分词、去除停用词以及文本特征项选择。并通过构造文本的特征向量,用向量间的夹角余弦值来衡量文本相似度。
假设两个文本di和dj的特征向量分别为Vdi=(wi1,wi2,…,win)和Vdj=(wj1,wj2,…,wjn)。其相似度计算可表示为公式(3)。
(3)
其中,θ表示两特征向量在空间中的夹角;Sim(di,dj)表示di和dj的相似度,Sim(di,dj)越大表示两个文本之间的相似度越高。
3.2.3 符号型属性相似度计算
符号型属性值属于一种简单的枚举值,其值列举了该属性所有可能的取值。文中属性“趋势”即为该类型,其值包含三个值:上调、下调和无。其相似度计算表示为公式(4)。
(4)
3.2.4 本体类型属性相似度计算
对于本体类型属性的,其值是本体中的某个概念或者实例,文中属性“事件类型”即为该类型。可以利用概念(或实例)的相似度来衡量相应属性值的相似度,而概念(或实例)的相似度通过计算树状结构中的节点距离来计算。计算本体类型特征值的局部相似度,假设两个实例i1和i2,根据文献[14],计算相似度可表示为公式(5)。
Sim(i1,i2)=
(5)
其中,Msc(i1,i2)表示两个实例i1和i2的最近父节点;Depth(Msc(i1,i2))表示最近父节点在树状结构中的深度(父节点到根节点经过的节点数);Dis(i1,i2)表示两个实例的最短距离(实例i1和i2经过的最少节点数)。当Depth(Msc(i1,i2))或Dis(i1,i2)值越小时,两个实例间的相似度也就越大。
根据图2,利用公式(5)可以得到表1中一组实例间的相似度值。
表1 事件类型概念树中实例相似度计算结果
基于本体的股票市场主题事件案例推理系统采用的开发语言是Java。编程开发环境是MyEclipse,数据库采用的是MySQL,操作系统为Windows7。推理系统采用OWL-DL语言描述本体,采用Protégé4.2作为本体库构建工具。
文中系统主要考察事件对A股短期走势的影响,结合主题事件案例本体结构,构建了主题事件案例本体和相关实例。
图4是在Protégé4.2下创建的金融主题事件案例本体及实例。
图4 在Protégé4.2金融主题事件案例本体及实例
由于查询案例发生后市场短期内表现为下跌,因此由检索结果可知,相似度值高的案例走势与查询检索案例发生后市场短期走势具有一定的相似性,通过案例检索进行市场短期预测具备可行性。同时,引入本体后能够有效提高案例推理系统的查全率,能够检索出如“存贷款利率调整”等相关事件类型的案例,从而提供更全面的参考。表明该系统设计思想是合理的,实现方法是有效的。
基于本体的股票市场主题事件案例推理系统,充分利用本体的优势来提高事件案例检索的查全率和准确率。通过对事件案例的本体结构定义以及对金融事件类型本体的构建,开发了股票市场主题事件案例推理系统原型,通过具体事件案例进行了仿真测试,验证了该系统在案例推理中的合理性。
图5 案例检索结果界面截图
下一步的工作重点是对案例库的进一步完善以及对属性权重设置方法的研究。
[1]KolodnerJL.Anintroductiontocase-basedreasoning[J].ArtificialIntelligenceReview,1992,6(1):3-34.
[2] 高俊杰,邓贵仕.基于本体的范例推理系统研究综述[J].计算机应用研究,2009,26(2):406-410.
[3] 谢红薇,李建伟.基于本体的案例推理模型研究[J].计算机应用研究,2009,26(4):1422-1424.
[4] 刘晓文,胡克瑾.基于本体和CBR的电子政务项目审批决策支持系统[J].计算机应用,2009,29(3):896-899.
[5]GuoYuan,HuJie,PengYinghong.ACBRsystemforinjectionmoulddesignbasedonontology:acasestudy[J].ComputerAidedDesign,2012,44(6):496-508.
[6] 虞 娟.基于本体的CBR及其在旅游产品智能推荐系统的应用研究[J].哈尔滨师范大学自然科学学报,2013,29(6):67-70.
[7] 李文雄,闫茂德,王建伟.高速公路交通突发事件案例的本体模型及应用[J].微电子学与计算机,2013,30(3):55-58.
[8]LiuPing,YuHaifeng,MaGuoqing.AnincidentresponsedecisionsupportsystembasedonCBRandontology[C]//Procofinternationalconferenceoncomputerapplicationandsystemmodeling.[s.l.]:[s.n.],2010:337-340.
[9]YangShengyuan,LiaoPenchin.Anontology-supportedcase-basedreasoningtechniqueforFAQproxyservice[C]//Procofinternationalconferenceonsoftwareengineeringandknowledgeengineering.[s.l.]:[s.n.],2005:693-644.
[10]AkmalS,ShihLH,BatresR.Ontology-basedsimilarityforproductinformationretrieval[J].ComputersinIndustry,2014,65(1):91-107.
[11] 孙伶俐.股票市场上利率政策公告效应实证研究[J].中南财经政法大学学报,2008(6):65-70.
[12] 刘 洋.存款准备金率调整对我国证劵市场的影响[J].统计研究,2008,25(3):42-45.
[13] 谢 敏.谈印花税下调对沪市的影响[J].知识经济,2009(6):36-37.
[14]WuZ,PalmerM.Verbsemanticsandlexicalselection[C]//Proceedingsofthe32ndannualmeetingoftheassociationsforcomputationallinguistics.LasCruees,NewMexico:[s.n.],1994:133-138.
Research on Case Based Reasoning System of Stock Theme Events Based on Ontology
HE Yan-xin1,2,NI Li-ping1,2,CAO Lin1,2,MA Chi-yu1,2
(1.School of Management,Hefei University of Technology,Hefei 230009,China;2.Key Laboratory of Process Optimization and Intelligent Decision-making of Ministry of Education,Hefei 230009,China)
In stock markets there are some events that their occurrences will significantly affect stocks’ prices and profits.In order to help investors accumulate experimental wealth and quickly make decisions,in this paper a case-based reasoning system for subject events in stock markets was constructed with the combination of ontology theory and case-based reasoning method,then with information about subject events and data about market fluctuations,the ontology structures were defined for event cases and type ontologies were set for financial events.In this system,OWL-DL was used to describe ontology,and Protégé4.2 was applied to build the ontology base.By studying the feature properties and using similar measuring method to retrieve similar cases,a target event was finally analyzed in detail.In the end a trending analysis for a certain event to the stock markets was given,the results showed that using similar cases to predict short-term market effect was feasible,and meantime the recall ratio was obviously improved after introducing ontology into the reasoning system,which means that the proposed method is reasonable and effective.
theme events;ontology;Case-Based Reasoning(CBR);case base;stock market
2015-02-13
2015-06-04
时间:2016-01-04
国家自然科学青年基金项目(71301041)
何岩新(1989-),男,硕士研究生,研究方向为数据挖掘、人工智能。
http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1607.066.html
TP302.1
A
1673-629X(2016)01-0033-06
10.3969/j.issn.1673-629X.2016.01.007