大数据技术在财经新闻信息服务上的集成创新应用研究与探索

2019-10-29 06:23
数码设计 2019年5期
关键词:财经语义自动

陈 珺

(新华通讯社通信技术局 北京 100000)

1 国外主流媒体运用大数据技术在业务上的探索和创新

媒体行业在大数据时代既面临着较大的冲击和挑战,也拥有着前所未有的机遇,关键看怎样准确把握大数据特点,运用大数据技术融合创新,提升信息服务的能力和水平。

国外媒体很早就嗅到了大数据时代来临的气息,他们积极运用大数据技术融入到新闻的生产和传播流程中,在业务形式上力求进行创新。比如趋势预测性新闻和数据驱动型深度报道的数量在逐渐增加,信息图表被广泛使用,以及“传感新闻”、“机器人新闻”和“数据新闻”等的出现,正是代表了在数据技术驱动之下传媒业新的探索,也体现着大数据技术对新闻生产和传播方式正在产生的深刻影响和变革。

1.1 汤森路透

汤森路透作为全球著名的财经信息服务提供商,一直善于运用大数据技术采集生产加工和传播自己的各类产品。他们拥有数百人的分析师团队,采用自动数据监控和抽取技术,持续追踪和实时采集全球上千个网站的数据,对这些采集来的海量数据进行快速分类和分析,发现突发新闻,更新市场数据,提供及时信息服务。

在大数据时代,汤森路透把自己定位为数据“过滤器”的角色,在每天产生的海量信息中,充分运用技术手段筛选、过滤、甄别噪音信息,提炼出用户最感兴趣、最相关、最有用的数据。

他们利用技术方式挖掘各类新闻、资讯和数据之间的关联关系,通过深入的整合和加工,努力打造新闻、数据和内容的聚合器。例如,在路透的终端中,点击一个中国A股的上市公司江西铜业,会同时呈现彼得堡的铜市行情,以及沪铜的价格走势,还有纽约期铜的价格,同时,还将呈现可能影响铜业的相关上下游行业数据、相关宏观经济政策等信息,比如原油、航运等的价格和信息等。通过这些知识点的聚类,帮助用户快速进行多维度分析,最大限度地为用户提供全面的个性化资讯服务。

与此同时,汤森路透正在进行大的变革,从一家提供技术产品为主导的公司,转向以提供平台为导向的公司。利用云计算技术,通过Iaas(基础设施云)、Daas(数据云)和Paas(平台云),汤森路透正在努力打造一个开放性的平台,一个新的金融生态环境。越来越多的内容供应商和用户已经加入到汤森路透所提供的平台中。

1.2 彭博

彭博也在探索运用大数据技术挖掘新闻事件背后隐藏的深度信息,为用户提供具有独特视角的呈现形式,丰富用户对事件的认知,这种数据挖掘的新闻往往比传统新闻报道更有力度。例如,彭博建立了一个数据挖掘类的报道栏目“今日图表”,将彭博新闻、彭博数据与彭博分析整合起来。记者首先初步确定选题方向,依托其全球建立起来的海量数据库资源,筛选所需要的相关数据,采用数据挖掘技术,建立业务分析模型,对数据进行分析和计算,挖掘数据中隐藏的关联信息,获得相对客观的分析结果,基于这些结果形成新闻报道,并采用简单明了的信息图表方式来阐明事实。这种数据新闻报道形式由于其视角的独特性、新颖性、客观性和不可复制性,受到了用户的欢迎。

同时,彭博同路透一样,也在逐步开放数据接口,搭建开放式平台,允许第三方的创新性产品进来,从而扩充服务内容,打造平台型媒体集团。

1.3 美联社

美联社建立了一个Overview技术项目,为记者提供可视化的文档挖掘工具。在大数据时代,记者通常会被淹没在大量文件中,而需要花费大量时间和精力来找到他们想要的内容。Overview借助先进的文本挖掘和语义分析技术,通过全面阅读整篇文档内容,能够发现和理解围绕某个话题的主题内容,在语义理解的基础上创建一个可视化的主题和子项,可以将成千上万篇文档自动分类到不同的主题大类和主题子类,形成主题目录树。通过主题自动分类和提供快速的可视化阅读界面,用来帮助记者在大量文档中定位内容,快速找到自己需要的主题文档。Overview除了针对文本文件外,也非常适合对社交化媒体数据的分析。

2 国家科研项目助力媒体财经新闻信息集成服务应用创新

国内媒体集团,也正在积极运用大数据、新媒体等技术,努力改造新闻生产流程和机制,提升新闻报道和信息服务的品质,进一步巩固和扩大舆论影响力。通过加大在技术创新方面的研究力度,比如建立新媒体技术实验室,参与国家重大科研项目的攻关,联合领域内领先的大学、研究机构和企业,积极开展大数据、新媒体等新兴技术在媒体业务上的集成创新研究,正在逐步取得一系列研究成果。

其中,作者参与的科技部“基于云计算的国家级金融数据分析与信息服务关键技术研究与应用”研究课题,就旨在针对云计算、语义分析、文本挖掘、机器学习、信息搜索、知识网络、知识图谱、个性化推荐等大数据关键技术进行研究,实现在财经信息服务上的集成创新应用为目标,目前已经取得了一定的研究成果。

2.1 财经信息服务高性能云计算实验平台设计构建

完成了财经信息服务高性能云计算实验平台的设计构建,极大提升了海量财经数据存储管理、数据分析处理和数据应用服务的性能,开放式的平台架构为今后打造“财经信息云服务”提供了有力的基础平台支撑。

(1)课题组开展了对财经信息服务高性能云计算平台所涉及的相关技术,主要包括高性能计算技术、大数据基础平台技术、虚拟化技术、云平台管理技术、并行计算技术等的调研工作,深入研究了业界若干主流先进的开源平台软件,并专门针对财经信息服务的运行特点对平台软件进行了相应的性能优化和功能扩充。

(2)在充分调研的基础上,完成了财经信息服务高性能云计算平台的设计方案,实际搭建起包括高性能计算集群、Hadoop大数据处理平台、CloudStack(OpenStack)+VMWare Vsphere虚拟化云平台在内的三个实验子系统。

(3)在高性能计算集群平台上完成了基于SMP多核算法的“一篮子期权定价模型”的测试对比,以及基于MPI+SMP并行算法的“定价利率衍生产品的蒙特卡洛模型”的测试对比。在Hadoop平台上完成了基于“分布式网络爬虫”的大规模数据并行采集系统的测试对比。在虚拟化云平台上部署并测试了Oracle最新云数据库Oracle 12C。

(4)测试结果显示,针对不同财经信息服务特点所设计搭建的高性能云计算平台能够显著提高应用系统的运行性能。同时,开放式的平台架构和数据接口为今后实现财经信息云服务奠定了平台基础。

2.2 财经信息智能云服务平台设计构建

开展信息搜索、语义分析、文本挖掘、机器学习、知识网络、知识图谱、个性化推荐等大数据关键性前沿性技术研究,创新性地将相关技术集成融合,打造财经信息智能云服务平台。通过对海量信息的高效采集和处理、智能搜索、基于知识网络的关联和聚合、个性化推荐和多层次多维度的可视化呈现,提供了一种特色新颖的财经信息服务应用模式,满足大数据时代用户对“信息智能服务”的需求。

课题以新华社金融财经数据库和多媒体新闻资讯库的大量样本数据,以及自动化采集数十家财经类网站的信息作为研究数据来源,研究基于云计算平台的海量异构数据高效搜索算法。同时,融合语义分析、文本挖掘、机器学习、知识网络、知识图谱等大数据前沿技术,对搜索结果进行自动分类聚类等智能化处理,抽取信息主题,发现信息之间的关联关系,构建财经知识网络,实现信息的有效聚合。采集分析用户数据,建立用户兴趣模型,提供符合用户个性需求的多层次多维度的信息聚合与呈现。从而使用户能够从海量数据中,快速准确地获取有价值信息,提供良好的用户体验,提升财经信息服务水平。

整个研究体系架构分为五层:最底层是云计算平台,以Hadoop平台技术为基础。第二层是数据采集存储和预处理层,负责采集和融合不同格式的金融财经数据。第三层是技术平台层,包含了搜索引擎、自动分类聚类、自动摘要提取、命名实体识别、财经知识网络、知识图谱以及个性化推荐等众多核心技术模块。第四层是服务层,提供相应的智能化信息服务模块。第五层是信息智能服务门户,负责数据搜索和分析结果的可视化呈现。

(1)搜索引擎模块

完成了基于Hadoop的分布式平台搭建,设计并实现了基于Nutch的分布式网络智能爬虫和基于Solr的企业级高效搜索引擎,对Solr的相关组件进行了优化。

(2)新闻自动分类模块

实现了基于规则和内容自动分类的功能,能按照不同的分类规则进行自动分类,用户可对分类策略进行管理和维护。同时,通过分类训练工具,可进行自动分词和语义分析的自学习,并允许用户根据自己的需求和实际效果去调整词的权重。

(3)新闻聚类模块

自动聚类技术是信息趋势分析功能的关键技术之一。采用改进的聚类算法方法实现了自动聚类功能,可根据文本内容的相似度,及时自动地将海量信息聚合成不同的类别,同时对每个类别,给出精确的类别主题词定义。

(4)实体识别模块

命名实体识别技术是自然语言处理技术中的关键基础技术,是文本信息理解和处理的基础。进行文本挖掘和分析时,命名实体识别就成为首要任务。通过把机器学习和规则的方法很好的结合起来,设计并实现了一套命名识别算法,可以识别单篇新闻中的重要实体,包括重要人名、时间、地名和结构名等。

(5)自动摘要抽取模块

自动摘要技术通过计算机从文章中自动提取内容生成摘要,通过简洁的摘要信息即可捕获新闻的大部分内容,是快速获取感兴趣资源的一种高效手段。是信息服务和信息监管的重要基础性技术。在本课题中对多文档自动摘要技术进行了研究和实现。

(6)财经知识网络构建模块

知识网络构建是语义分析、文本挖掘、搜索技术、机器学习等多种技术的综合应用。通过对财经新闻文本信息的语义分析和主题抽取,自动挖掘整理出不同信息之间的关系,获取关于各种新闻资讯的知识点,创建财经知识库。在知识库的基础上,构建财经领域知识网络,比如与上下游行业、宏观经济、行业政策等相关的知识网络。借助知识网络,当用户搜索感兴趣的信息时,可以帮助用户快速寻找下一个可能的兴趣点。这些兴趣点在知识网中形成网状辐射,通过这样层层深入分析,用户可以快捷获取到最全面、最深层次的知识内容,这些关联性信息,能够有效的帮助用户进行多层次多维度分析。为了获得更好的视觉效果,我们采用数据可视化技术实现整个知识网络的可视化呈现。

(7)知识图谱模块

知识图谱本质上是一种语义网络。其结点代表实体或者概念,边代表实体/概念之间的各种语义关系。是新一代信息搜索服务的关键技术,使得搜索智能化,根据用户的意图给出用户想要的结果。知识图谱相对于传统的本体和语义网络而言,实体覆盖率更高,语义关系也更加复杂而全面。我们希望能够在传统的知识库基础上,创建出相应的财经领域知识图谱,增强财经领域垂直搜索引擎服务能力。

(8)个性化推荐模块

个性化推荐模块通过收集和分析用户信息,建立用户的个人档案,对信息进行智能匹配,及时推荐用户感兴趣的新闻信息,提供个性化的服务策略和服务内容。

3 课题主要研究成果

在大数据时代,媒体除了要坚守“内容为王”的同时,应该更加重视提供“信息服务”的能力。课题研究的目的既是希望通过对关键性前沿性技术的研究和攻关,帮助提高“信息服务”能力,实现“信息智能服务”。

本课题取得了以下主要研究成果,并已顺利通过科技部组织的课题验收评审。

(1)设计搭建起财经信息服务高性能云平台,满足财经信息服务运行需求,提高运行性能,为打造“财经信息云服务”提供高效的开放式平台支撑。

(2)采用开源平台软件Hadoop+Nutch+Solr,通过集成和优化,构建起企业级分布式高效搜索引擎系统。

(3)通过全面测试、选择和优化多种文本挖掘算法,提高新闻自动分类聚类,自动摘要和实体识别系统的准确率。

(4)通过创新性地集成融合包括语义分析、机器学习、知识发现、数据挖掘等在内的多种复杂技术,自动构建财经知识网络,实现信息的智能关联和聚合,以及信息的多层次多维度呈现。

(5)建立用户个人档案,对信息进行智能匹配,为用户提供个性化新闻信息推荐服务。

猜你喜欢
财经语义自动
真实场景水下语义分割方法及数据集
自动捕盗机
财经日历
财经记者的知与行
财经阅读时代
让小鸭子自动转身
自动摇摆的“跷跷板”
关于自动驾驶
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析