邱元阳
河南省安阳县职业中专qiuyuanyang@126.com
AI在今年的热度已经很难消退了,尤其是各种生成式AI。而生成式AI离不开训练模型,大模型在生成式AI的进化中功不可没。除了需要强大的GPU算力支撑,AI的进步也需要大数据的支撑。“大、智、移、云”已经成了信息时代的共生体,可以说,人工智能的潘多拉魔盒,正是大数据打开的。
没有可靠的大数据,AI的训练结果可能大打折扣,甚至无法使用。因此,包括ChatGPT在内的AI,都需要对大数据进行排错和标注。即使是普通的大数据,也同样需要相应的治理。
在信息交互中,数据已经成为一项资产,但如果没有数据治理,数据质量差,可能会导致数据不可用,难以进行数据建模,数据将变得没有价值。在数字化转型和数字跃迁过程中,大数据治理也就成为一个重要环节。
大数据治理是指充分运用大数据、云计算、人工智能等先进技术,实现治理手段的智能化。大数据包括社交数据、机器数据等,海量的数据在应用中可能会存在数据孤岛,阻碍数据共享,存在数据风险,以及质量较差的数据和不可靠数据,导致数据价值难以呈现,数据模型不完善,模型复用度低,开发效率低。大数据治理需要覆盖数据获取、处理、存储等各个环节,在数据生命周期的各个阶段,筛查有关键影响的数据元素,检查和保证数据质量。
大数据治理的目的就是解决在海量数据处理过程中可能出现的数据问题,连接起大数据科学和应用的桥梁。为此,需要构建大数据治理的相关模型,将大数据治理的各个环节形成固定化模块,保证数据治理在各个环节都能够得到有效执行,这就是大数据治理框架。在这个框架中,对元数据的处理,又是大数据治理的核心。
元数据(Metadata)是描述数据的数据,主要描述数据属性,如指示存储位置、历史数据、资源查找、文件记录等。大数据治理需要将大数据与元数据库进行整合,将大数据术语纳入业务词库。例如,从Hadoop中将技术元数据引入元数据库,管理数据血统(Data Lineage),并在大数据环境中对分析施加影响。
作为一种新型的信息资源,大数据应用已经渗透到社会生产生活的各个领域,各种业务系统每天都会形成大量类型复杂的数据,如数字、图片、视频等,且处于动态变化之中。大数据治理主要包括大数据平台建设、数据安全与隐私保护以及数据资产化管理等,因此它不仅是技术方面的,也是管理方面的,需要技术与安全并重,采取身份认证、消息认证、加密技术、防火墙技术等,来保障数据采集、传输、储存、使用、共享过程中的网络安全。
大数据治理是一个复杂的过程,并面临着较高的网络安全风险,需要运用信息化工具,组织清晰的数据政策和程序、数据字典、数据模型、数据流和数据质量控制等工具和流程来帮助管理和控制大数据环境,也可能需要使用一些大数据分析工具来处理和分析数据,这些工具可能包括机器学习、数据挖掘和可视化等,治理趋势也从集中式治理走向分布式自治。
需要清楚的是,大数据并不一定都是单纯看得见摸得着的数据,它更多地是以某种形式存在于人际交流之中。各种交互过程,都是数据的交换,都会衍生出大量的数据信息,大数据之大,不是文件巨大,而是数量巨大。数据治理是对存量数据、增量数据管控的过程,大数据的治理,最终也是治人。