基于“企业年度工作报告”浅析非结构化数据的处理和应用

2019-06-13 09:37王烨
经济师 2019年4期
关键词:处理应用

王烨

摘要:大数据时代,数据正在成为一种生产资料,一种稀有资产和新兴产业。数据不仅是“副产物”。而是可被再次甚至加工的原料,一种可持续发展的生产资料,通过对其探索以实现更大价值。数据作为国家基础性战略资源,受到党中央、国务院的高度重视,在当今经济社会发展中大数据的作用不可小觑,党的十八届五中全会提出了“实施国家大数据战略”.国务院也印发了《促进大数据发展行动纲要》,目的在于全面推动大数据的发展,意在建设数据强国。海量存储空间和高速运算速度,将从“样本数据采集”到“全量数据采集”变成现实,而这种转变就要求政府及企业需要对现有积累的数据进行重新审视。

关键词:非结构化数据 处理 应用

一、信息数据的分类构成及非结构化数据特征

在大数据发展的短短几十年的时间中,政府和企业都积累了大量数据。从技术层面来分析这些积累的数据,可以将其分为三种类型:

结构化数据:即可以用数据库存储的数据,这类数据易于存储,便于进行检索、统计分析等操作。我们所使用的各类业务系统所产生的数据多为结构化数据,最适合进行大数据分析挖掘。

半结构化数据:具有一定的结构性,但是数据结构没有形成统一的国际标准,没有关系型数据库的严格规范限制。半结构化数据多应用于现在的列式数据库中,便于对大文本进行搜索。

非结构化数据:数据结构不规则或不完整,没有预定义的数据模型。属于不方便用数据库二维逻辑表来表现的数据。

二、非结构化数据处理的重要性和技术难点

经相关机构调研发现,无论是政府还是企业多年所积累的信息数据,其中易于分析挖掘的结构化及半结构化数据仅占10%,多数积累的信息为非结构化数据,且这些数据每年都会按指数增长60%。政府投入大量资金用来分析结构化数据,却忽略了其实非结构化数据同样是蕴藏大量信息的宝库。但要将其与大数据相融合,必须经过专业技术的处理、提炼。下图为非结构化数据在处理过程中所遇到的技术难点:

可见,只有将非结构化数据转换为结构化数据,才能获取到价值更高、范围更广的信息数据。

三、非结构化数据处理的技术原理和主要处理步骤

非结构化数据的特点是格式多样,数据标准也是多样性的,在技术上非结构化信息比结构化信息更难标准化,必须通过技术手段将非结构化数据转换成结构化数据并进行持久化存储,才可充分挖掘其价值。根据数据处理的时效性要求,可以将针对数据处理的技术体系分为两大类:

(一)基于Hadoop、Spark的实时流式解析处理方式

这种处理方式对数据处理的时效性要求相对较高。往往在产生数据的同时就要立即对其进行分析计算,并获得最终结果。与这种技术相伴随的有分布式处理计算、分布式存储、内存数据库等技术,都是用于提升实时处理效率所使用的。

(二)基于大数据解析技术的批量数据分析处理技术

这种处理方式对时效性要求不高,但对处理结果的精准度要求很高。对于政府及企业而言,利用第二种技术手段来处理留存和新增的非结构化数据更能节省时间成本并得到高质量的分析预测结果。针对基于大数据解析技术的非结构化数据处理技术,其主要处理流程包含了如下步骤:

步骤一:分析解析,定位有价值的数据信息,明确提取目标。

在对政府及企业所积累的非结构化数据进行解析前,先人工进行内容分析,定位到关键的、高价值的数据后再开始进行机器化解析处理,不但可以提升效率,获取高价值信息数据,还降低了工作成本。

步骤二:确立数据标准。并生成对应的结构化、半结构化数据存储模型。

只有高质量的数据才能够确保大数据分析预测结果的准确性,因此,在步骤一中确立了需要提取的核心数据,接下来就需要为这些核心数据建立对应的数据标准,并依据标准建立对应的结构化及半结构化数据模型,利用关系型数据库和NOSQL数据库的约束关系来确保数据标准得到执行,从而保障数据的高质量。

步骤三:利用各类型大数据解析工具进行核心数据提炼存储。在建立数据标准及存储模型后,对各类非结构化数据进行解析,提炼出核心数据并保存到相应的数据库中,针对不同类型的数据需要专业的大数据解析工具来进行数据的解析与提取。

步骤四:建立科学的、可持续发展的分析模型,并持久的对其进行优化改进。

从大量不毫无关联、类型各异的数据中挖掘出有价值的数据,运用机器学习方法、人工智能方法或者数据挖掘方法进行深度分析,从中发现新的知识和规律,并将其运用到不同领域,发挥大数据的真正价值,最终得以改善社会治理、提高生产效率、推进科学研究。

四、“企业年度工作报告综合管控平台”对非结构数据化处理的应用实践

国务院国有资产监督管理委员会(简称:国资委)所管理的企业众多。全国约有各级企业近3万家。根据国资委的管理要求,凡国资委下属的、拥有独立企业法人的企业均需填写《企业年度工作报告》,并最终在一级企业进行汇总后统计交给国资委,以备国资委审查及归档。

企业年度工作报告一直以来以多为MSOffce文件形式的非结构化数据存在,每年报告总量近5000套,每份报告的字数约在20万字。且均为人工手动填写,无法生成格式化的信息数据,审核及统计工作也均需人工开展,耗费了大量人力资源,且上报的内容参差不齐,影响了国资委对下属企业的掌控与了解。

针对上述现状和管理的实际需要.国资委和中国中铁组织开展了《国资委企业年度工作报告综合管控云平台》课题,其利用云技术为国资委及其下属企业建设企业年报私有云平台,国资委下属企业可利用该平台实现企业年度报告的任务划分、填写、审核、校验、提交、汇总及最终上报工作,而国资委及一级企业可实现年报的汇总、審核、统计、分析工作;通过云平台的建设,还将形成一个针对企业年报的大数据中心,并利用大数据技术对这些信息进行汇总及智能分析,帮助国资委更高效的管理审查企业的经营情况。

针对企业年度工作报告的内容特点和管理的实际,“企业年度工作报告综合管控平台”在技术手段上选用了基于大数据解析技术的批量数据分析处理技术:

(一)分析解析,定位有价值的数据信息,明确提取目标

一份年报少则几百页,多则上千页,而每年所采集到的企业年报有上千份.如果对全部内容进行精准解析转换。其工作量相当巨大。年报中的核心信息多为企业年度资金状况、财务经营状况等信息表格,这部分内容仅仅占年报体量的十分之一。因此选择对该部分内容进行重点解析,而其余章节的内容转换为半结构化信息进行保存以备后用。这种处理不但让我们获取了企业年报中的高价值信息数据,节省了后期软件开发制作的成本,还节约了大量的工作時间。

(二)确立数据标准,并生成对应的结构化、半结构化数据存储模型

全量数据采集需要全量数据源。但现实中很多数据源会带来大量低质量数据。政府及企业必须要在确立数据标准的同时,建设结构化及半结构化的存储模型对获取的数据进行存储.并利用数据清洗整理技术消除低质量数据,从而确保通过BI获得更佳决策。在企业年度工作报告综合管控平台中。每年都会根据政策及工作方向的变化来重新对年报内容进行梳理,重新确定填报内容,并在此基础上建立准确、兼容的数据规范标准,以确保所采集到的各类信息数据的质量及准确性。针对所采集到的历年年报数据,利用平台中的数据标准监测工具对数据进行全面的监测分析,及时发现不合规的低质量数据并进行有效清洗,确保数据的高质量。

(三)利用各类型大数据解析工具进行核心数据提炼存储

原有企业年报大多为MicrosoftOffice格式,平台组选择了Apache的POI开源解析器来对企业年报信息进行提炼。POI提供API给Iava程序对该格式档案进行读、写的功能,项目团队在其基础之上。利用多线程处理技术开发了批量年报解析器,针对不同年份、不同版本的Office文件均可进行信息解析和提取。平台利用该套工具对企业年报信息进行解析和提炼.并最终形成了企业年报信息资源库。

(四)建立科学的、可持续发展的分析模型,并持久的对其进行优化改进

在“企业年度工作报告综合管控平台”中,根据规律建立了包括同质企业经营比对模型、企业经营分析预测模型在内的多种智能模型,并不断对其进行优化调整以确保其准确性。平台也在尝试建立全新的业务分析模型以帮助审计署更好的对企业进行监管。最终.平台将实现在人工智能、分析预测模型的基础之上,利用大数据展现技术通过图形化、格式化的方式展现分析结果,并支持人工二次分析,让分析过程更加高效,结果更加精准,最大化地挖掘出大数据的核心价值。

通过“企业年度工作报告综合管控平台”的建设,将数十年累计的近8万份报告、约合160亿字的非格式化信息数据转换成为了半结构及结构化数据。其中含企业经营、财务、人员、会议、违纪、项目等相关格式化数据约1.2亿条以及半结构化信息数据470G,且这些数据正在以每年10%的速度增长。这些数据将为政府管理和企业决策带来重要的支撑。

五、结语

企业年度工作报告综合管控平台,是对大数据技术的勇敢探索和实践。虽然现阶段平台本身还不完善,但未来随着经验的积累提升以及系统的不断优化,它必将进发出大数据的核心力量.让相关工作开展变得更加高效智能。

猜你喜欢
处理应用
桥梁软土基础处理应用
多媒体技术在小学语文教学中的应用研究