黄代恒
明略科技集团首席科学家、明略科学院院长吴信东指出:“数据治理的本质是对一个机构的数据从收集融合到分析管理和利用进行评估、指导和监督的过程。数据治理的目标是对数据资产进行管理,通过从收集汇聚到处理应用的一套治理机制,提高数据质量,实现数据共享和价值最大化。”
如今,在大数据的环境下,数据治理的主要问题和挑战聚焦在以下几个方面:
a. 数据标准不统一:现在的数据已经不仅仅是结构化数据,非结构化数据也在大大增加。企业在进行元数据管理和主数据管理时,困难重重。如果企业或组织对于不同组织定义的数据标准不相同,不利于系统间信息的共享,使得企业资源的利用大打折扣。
b. 数据安全隐私问题:2018年初,一家数据分析公司对脸书的用户进行非法数据挖掘(超过87300万用户),同年脸书又爆发了多次用户数据泄露事件。在欧盟,2018年生效的GDPR《欧盟数据保护条例》意味着欧洲公民将可以最大限度地控制自己的个人信息。由此可见,大数据的挖掘分析、开放共享的确带来了数据应用的价值,但如果将数据集中集中在一个大环境时,敏感的隐私数据就会被不法分子非法使用或泄露出去。因此,在大数据治理的过程中,采取一定的措施和策略才能保证信息和隐私的安全。
c. 数据质量问题:在组织/企业的信息化建设中,根据业务的需求建设了众多的业务系统,数据的种类和数据大增。然而各个业务系统所产生的海量数据却以分散的烟囱式存储,导致数据之间的不一致和冲突等质量问题,如何深度有效的利用数据,避免孤岛式的数据体系是数据治理的主要挑战。另一方面,一些手工录入的数据存在着录入错误的情况,在后期的治理中,也需要在治理工具中内置业务逻辑规则。
通过对大数据环境下的数据治理的主要挑战需求分析,我们了解到数据的统一标准化、数据安全隐私管理、数据质量管理等问题是企业或组织在进行数据治理时所需要面临的。数据治理工程是一个持续性的项目,在项目上线后会持续的有新数据介入,这些新数据也同样需要数据治理,因此,明略科技研发的基于AI驱动的数据治理平台,提供的是“数据+工具+运营”的数据服务模式,以知识图谱的形式将不同表间的同类实体在同一张表中进行数据关联、数据融合,通过“符号化”过程,实现数据的融合和碰撞挖掘,完成对于行业数据中所蕴含知识的抽取、融合、推理和沉淀等一系列过程,打通认知感知,形成行业智能。
基于分布式计算架构,提供海量高效的查询服务,运用明略科技自主研发的可扩展的大规模属性图混合存储技术以及统一知识图谱查询语言技术,统一了从存储读写访问到应用查询计算访问的体系结构,大规模存储条件下支撑高并发访问,上亿条实体,几十亿条关系数据可在秒级完成查询并反馈检索信息。
针对非结构化文本数据治理,基于智能化复杂文本挖掘技术的知识抽取,使用“主动学习+深度学习+通用文本挖掘技术”模式,对实体、关系进行标注和识别,通过友好的图形化界面进行人机协同的标注与模型训练。通过机器学习+NLP文本分析提供辅助标注和识别,部分字段的自动化识别率达到60-80%。
明略科技的数据治理平台主要有三大部分:
· 结构化数据通用治理平台-CONA(Connect All the data),即“关联所有数据”,是结构化数据通用治理平台,能够大规模自动化的采集、清洗、归类、关联所有结构化数据,形成统一数据视图,大大提高行业知识图谱构建效率。CONA集数据接入、数据清洗、数据融合、数据标准化、数据监控和数据管理于一体。通过设置数据转换规则,结合数据多值溯源和融合策略,以及自动标准化对标。对公安和金融行业,标准不符合的数据、格式不一致的数据、标识不一致的数据、无效数据、空值、重复数据、残缺数据、异常数据等 “脏”数据进行清洗、纠正和转换。CONA以实现业务智能为目的,为公安、金融等行业客户实现数据治理自动化,大大提高行业知识图谱构建效率。公安业务面对大量原有业务系统中近千张表,通过传统数据治理工具可能需要半年以上的时间,而CONA能够缩短到2周。
· 非结构化文本治理-Raptor,可快速、高效地完成数据标注。Raptor通过采用深度学习模型和主动学习技术,支持外部NLP模型来提高标注效率,集数据标注、数据管理、模型训练和模型服务于一体,使数据标注更加轻松自如。Raptor可以应用于多领域的数据文本的实体、关系抽取、文本分类、情感分析的标注,使领域文本挖掘变得更加容易。
· 关联知识挖掘-HARTS,基于各行业的基础信息、标签特征、轨迹行为、交易记录、通联事件、围栏卡口等数据,通过规则引擎、机器学习、图挖掘等多种计算方法,分析、挖掘和推理出多元化对象之间多维度的关联关系,用于行业大脑的知识积累、符号计算和智能推理。通过HARTS,客户能够最大程度地识别知识图谱各种对象间千丝万缕的联系,对提升图谱的分析、推理和挖掘效率,起到关键作用。
此外,长久以来数据治理过程中的治理黑盒问题也一直没有得到解决,而现在通过资产沉淀,以图谱的形式做治理结果的展示,让客户通俗易懂的明白治理的过程和结果,并真正提供治理的价值。明略科技基于行业Know-How的数据资产沉淀的资产图谱和知识图谱是中台的数据资产化的重要部分,针对中台治理的多维数据,通过数据资产图谱的方式展示出来,帮助客户快捷清晰的使用治理的数据资产,并进行数据资产的深度运营。同时,结合行业Know-How,挖掘特定领域的实体、事件和关系,构建多维的数据画像,最终以知识图谱的形式帮助客户做数据分析和知识挖掘。
以公安行业数据治理为例,基于明略科技公安知识图谱的明智系统现在已经部署到30多个省、市级公安局。明略科技数据治理平台,积累了9大类模型,130多种细分模型,治理了30多个大类公安数据,仅2018年一年即处理超过6529张表和1538亿条数据,沉淀了 80%以上不同种类公安数据的处理经验。治理时效上,传统的公安数据治理通常需要3-9个月,而明略科技的数据治理平台,标准数据的接入和治理只需4-6个周,非标准数据的治理则可在2-3个月完成。明略科技为某省公安厅建设的面向公安业务的数据治理平台,从传统数据治理到面向业务的数据预处理,帮助该客户打造距离业务智能更近的数据治理方式,最终形成包含警务大数据和外部社会数据的公安大数据知识图谱,为各警种业务系统的智能应用和公安人工智能的实现提供基础知识库环境。明略科技运用这一规模庞大的公安知识图谱等认知智能手段,实现人、事、地、物、组织、虚拟身份的关联,进一步提高预警研判的准度、精度。2018年9月,公安一所与明略科技联合发布了业内首个《公安知识图谱标准化白皮书》。
图 传统数据治理与特定行业数据治理对比
数据治理的核心目标是在降低风险的同时,为企业增值。明略科技集团作为致力于打通感知智能和认知智能的行业人工智能平台解决方案的提供商,运用HAO智能理论模型以及AI驱动的数据治理平台,通过数据在线、分析洞察、闭环智能“三步走”战略,构建从感知到认知再到行动的反馈闭环,將人类、机器、组织的智能三位一体,为企业和组织提供具有分析决策能力的高阶人工智能应用。