摘 要: 金融信息服务系统中,需要处理的数据对象包括了结构化和非结构化的复杂混合数据。构建一个满足金融混合数据处理要求的统一的数据管理平台,是成功实现一个可扩展、高性能、高可靠的金融信息服务系统的基础。文章介绍了混合型数据管理引擎的概念和方法,提出了一种基于混合型数据管理引擎构建金融数据平台的解决方案,可有效解决混合类型金融数据在数据集成、组合查询检索、数据挖掘等环节遇到的问题,为客户提供更有价值的、可个性化定制的金融信息服务。
关键词: 金融信息服务系统; 混合型数据管理引擎; 数据集成; 个性化定制
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)11-36-04
Abstract: Data objects processed by a financial information service system contain structural data and unstructured data. Therefore, building a unified data management platform that meets the requirement of such comprehensive data, is the essential basement to build an expandable, high performance, high reliable financial information service system. The paper introduces the concept and method of hybrid data management engine, proposes a solution to build a financial data management platform based on hybrid data management engine, which is effective to solve the problem in acquiring, integrating, analyzing and utilizing the mix-type financial data, and to provide more valuable and customizable financial information service to the clients.
Key words: financial information service system; hybrid data management engine; data integration; personalized customization
0 引言
金融信息服务系统是集实时资讯、行情报价、历史数据、研究工具和分析模型于一体的系统。金融信息服务系统需要处理各类型的金融数据,从数据结构的角度,可分为宏观经济数据、行业统计数据、上市公司数据、海关数据等结构化数据,以及实时资讯、分析报告等非结构化数据;从数据更新频度的角度,可分为低频数据,以及高频数据如实时行情报价、交易数据等。显然,金融信息服务系统是一个典型的混合数据类型的应用系统。
面对种类多样、结构复杂的金融数据,如何有效地获取、整合、存储、分析和挖掘利用,如何构建一个满足金融数据处理需求的统一的数据管理与检索平台,是成功实现一个可扩展、高性能、高可靠、可定制的金融信息服务系统的基础。如何打通不同结构类型之间数据的鸿沟,有效地理解和挖掘蕴含在金融资讯中的价值,发现结构化数据与非结构化数据之间的内在联系,从而为用户提供有价值且及时的增值服务,是金融信息服务系统要努力达到的目标[1]。
1 金融信息服务系统对数据管理平台的要求
金融数据管理平台要处理的数据对象是结构化、非结构化数据并存的混合类型数据,其具有以下特点。
⑴ 海量性:数据数量多、容量大,需要高性能的存储、查询检索和分布式存储和管理技术。
⑵ 多样性:信息来源不同、格式不同、载体不同、处理方式不同。
⑶ 复杂性:金融数据在采集、过滤、存储、检索、提取、挖掘、分析等方面,具有更高的复杂性。
⑷ 个性化:在金融信息应用中,对信息个性化增值服务方面存在广泛需求。
⑸ 实时性:金融数据关系到交易决策,从数据产生到推送至用户终端,延迟越低越好。
金融数据具有来源繁多、种类复杂多样、体量大、实时性强的特点,金融信息服务系统对金融数据的利用需求又涵盖实时查询、联机事务处理、批量分析处理等多个方面,如何统一存储和管理这些海量异构的金融数据,实现集中管理与共享,是建立金融信息服务系统的重点。
归纳上述需求特点,我们需要这样一个金融数据管理引擎,其能够统一管理结构化和非结构化混合的数据类型,既具有高可靠性、一致性的在线事务处理能力,也能满足批量分析处理的要求;既能高效实现结构化数据的查询、统计,也提供高性能和功能丰富的文本检索,并支持跨数据和文本的智能挖掘功能[2]。
最后,我们希望在此统一数据引擎上可以获得更高的开发效率,具有一致的开发语言和接口。同时我们也关注并发控制、灾难恢复等需求。
2 混合数据管理技术
混合数据管理技术是将传统关系数据库技术与智能信息检索、数据挖掘等技术相结合,在内核级实现结构化数据与非结构化数据统一管理的一种新型的数据管理技术[3]。
传统关系数据库主要面向事务处理和数据分析应用领域,擅长解决结构化数据管理问题。而全文信息检索系统是八十年代发展起来,面向文档类型的数据管理系统。其核心是结合智能信息处理技术,采用专门的倒排结构对海量文本信息建立索引,以实现海量文本数据的高速检索。但是,全文数据库不支持数据管理和查询语言的标准,事务处理能力差。
混合数据管理技术,既利用了关系数据模型在抽象和数据类型简单上的优势,以实现数据间的关系运算并确保数据一致性、容错性;同时利用了全文检索对海量文本数据的高速检索和信息处理技术,在系统内核把关系数据库、全文检索统一起来。因此其同时拥有两类系统原有的长处与好处[4]。
混合数据管理技术具有以下五个特点和优势。
⑴ 数据管理特性
具有传统数据库管理系统中基本的被实践证明是非常有效的数据管理特性。这些特性包括:CRUD操作,支持事务处理的ACID特性(原子性、并发性、隔离性和一致性)、数据库写日志(WAL)、容错恢复等。
⑵ 混合的数据查询语言
在SQL/MM的标准(《ISO/IEC 13249-2信息技术 数据库语言SQL多媒体和应用包 第2部分:全文》[6])的数据接口基础上进行适当的扩展,形成同时支持SQL规范和面向信息检索、多媒体查询的混合查询语言,且可互操作。使得大量的应用程序开发人员可用SQL工具上进行混合数据应用项目的开发,降低开发成本。
⑶ 查询优化
针对混合查询语言,拥有混合查询优化的能力。系统能通过数据的类型、索引方式,负载情况自动选择较优的索引和查询计划,实现查询优化,获得好的查询性能。
⑷ 灵活的结果排序
对于高质量查询结果输出必须是灵活、可定制的加权(评分)和排序机制。最常用的有按相关度或时间序输出。
⑸ 智能处理
内置自然语言文本智能分析组件、多媒体智能处理组件和数据挖掘组件,组成文本多媒体智能处理套件。具有内容自动分词、要素提取、自动去重、自动摘要、自动分类、自动聚类、倾向性分析、多媒体数据文本抽取、特征标引、数据挖掘、多维分析等功能。
混合数据管理引擎是满足上述五项要求的,在数据管理系统的基础层提供统一的数据处理内核,在存储方法上支持Hash索引、B+索引、层次索引、高维索引和倒排索引。同时具有完整的事务处理、并发控制和数据恢复功能,以及包括混合查询和关联查询的执行器和优化器。如图1所示。
3 基于混合数据管理引擎的金融信息服务平台
以混合数据引擎为基础,将各类型金融结构化数据、非结构化数据等都集成到基于混合数据引擎的数据库中,进行统一存储管理。如图2所示。由于采用同一个数据引擎内核,可方便地实现数据集成、组合查询、和挖掘利用。
3.1 金融数据集成加工系统
结构化数据主要包括各类行情数据、宏观经济数据、行业数据以及上市公司数据等,非结构化数据主要包括新闻资讯、研究报告和音视频等[5]。此类数据特点是:来源不一,格式复杂多样。因此需要开发一套数据集成加工系统对多种数据进行采集、校验和入库。混合数据引擎本身支持多种数据类型及组合数据类型的定义,同时提供了对不同类型数据进行预处理的工具包,因此在数据集成工具的设计上,可充分利用这一优势,简化并加快数据集成系统的实现过程。
3.2 金融数据的存储、索引和查询
结构化数据在混合数据引擎中的存储,与传统关系数据库的组织方式一致。关系表中的数据,以b-tree索引的方式进行访问。
而新闻资讯、研究报告、多媒体音视频等非结构化数据,则按平台规划的统一的元数据标准,以类xml数据模型的方式进行组织和存储。多媒体数据在集成平台中就进行了预处理,利用人工标注和自动标注相结合的方式,加上了特征标引和内容文本。最后,对于需要查询分析的元数据属性和大文本内容,统一建立混合型倒排索引。
混合数据引擎在内核级支持跨表的结构化B-tree索引和倒排索引的组合求交运算,因而,我们可以实现复杂的跨关系数据、文本数据以及多媒体数据的组合查询和检索。
混合数据引擎支持数据库事务,这确保了金融数据在更新时的高可靠性、一致性和并发性。譬如,一条新闻稿件可能会关联到多个数据对象,如文本、图像、视频和相关的宏观经济数据记录,事务机制可保证这些数据对象以及附加的各类索引在更新时保持一致性、完整性,并在统一语言接口的层面为应用服务的开发提供了可靠保障和便捷性。
3.3 金融数据的分析和挖掘
当金融数据平台中积累了大量的不同类型数据,为了提供高质量的金融信息服务,我们需要对这些数据进行进一步的分析、挖掘和利用。混合数据管理引擎内置了一系列的文本智能分析组件,如分词、自动分类、自动聚类、内容去重、自动摘要等,这些工具可以对金融类资讯进行深层次加工和挖掘。同时,由于结构化数据和非结构化数据存储在同一个数据内核中,利用引擎提供的高维索引、层次索引、B树索引和倒排索引,就能较容易地实现跨类型跨媒体数据的关联、分析和挖掘。
3.4 统一接口的应用服务层
应用服务层是金融信息混合数据平台对外提供灵活服务和发布统一数据的部分。金融终端的数据服务种类繁多,要求并发性能高,延迟低。因此,需要在应用服务系统设计统一的数据标准和接口规范,合理规划,使得多个模块之间能协调高效地运作,为客户端提供高质量的金融信息服务。
⑴ 数据访问接口层
通过消息中间件、高速缓冲技术和专线网络解决方案来实现终端平台与系统内部的高效、可靠的数据推送和分发。采用Restful Web API提供轻量级并高效的应用服务。
⑵ 负载均衡
将大量的并发访问或数据流量分担到多台节点设备上分别处理,减少用户等待时间,利用动态的分布式负载提高整体性能和吞吐量。
⑶ 安全管理
提供应用层对用户权限的管理,实时监控用户的接入;分离应用程序和数据库服务,保证数据独立于应用程序,提供安全的隔离。
3.5 可个性化定制的终端显示框架
终端界面作为用户与系统平台的交互媒介,是用户评论系统平台好坏的重要指标之一。个性化界面针对金融信息服务业用户需要的多样性,改变终端界面的交互内容及表现形式,以满足用户的个性化需求,在提高用户满意度的同时增强系统平台的通用性。
将终端界面从应用程序顶级开始,逐层进行对象化设计。功能界面划分为框架、对象、工具条、浮动按钮等多个层次。各个功能模块加以细分为资讯、行情、交易、用户管理等,每个功能模块设计成一个个的独立组件,每一个组件完成一个特定的功能。设计组件之间交互接口,通过协议和API接口组合成一个完整的系统。该方案增加了系统的灵活性,有利于针对不同用户组进行功能的裁减、重组和扩充。
对用户角色进行定义和分类,用户可选择自己的角色,即可访问系统为这类角色预先设置好的一组新闻、行情链接,实现系统终端的个性化服务。
金融信息服务系统提供PC终端、Web终端、移动终端等多种形式。
4 结束语
本文提出基于混合数据引擎构建金融信息服务系统的解决方案,从数据管理的基础引擎着手,解决了金融信息服务系统在处理复杂混合结构数据时,在数据集成、组合查询检索、跨类型跨媒体的数据挖掘方面遇到的困难,使得由此构建的金融信息服务系统,向用户提供高可靠、高性能、可个性化定制的金融信息服务。本文也对基于数据引擎之上的金融应用服务层和金融终端显示层需要解决的一些关键问题给出了设计思路和简要描述。
本文论述的基于混合数据管理引擎的金融信息服务系统的设计思路和方案,已应用于新华08金融信息服务系统(精华版“金融台”)[5],并取得了良好的社会效益和经济效益。
下一步的工作是总结金融信息服务系统在实际应用中的经验,展望未来,继续探索基于混合数据引擎的分布式处理机制如分布式一致性、水平可扩展性,实现更大级别数据容量的混合管理,并支持在更高并发场景下系统的高可用性。
参考文献(References):
[1] 俞枫,李洁华.金融信息服务系统技术框架研究[J].计算机系
统应用,2014.7:201
[2] Steve Duplessie.混合数据管理将成主流[J].软件世界,
2007.23:68
[3] 郑益,毛楚祥.传统数据库技术与信息检索系统的集成[J].计
算机时代,2010.8:1
[4] 毛楚祥,郑益.混合数据管理引擎[J].情报资料工作,2011.1:
68
[5] 吴满宇,杨晓君.新华社推出综合金融信息服务系统[J].
Chinese Journalist,2007.7:52
[6] ISO/IEC 13249-2:2003, SQL/MM:Part 2:Full-Text[S].
[国际、国家标准]