王海芳 李 仙 吕志超 王 丹
(北京京东方显示技术有限公司,北京 100176)
B公司自2015年搭建了知识管理平台,主要归档三大类信息文件,一是审批业务结束后的主文件及其附件;二是产品生命周期系统的项目类文件,三是集团下各组织手动上传维护的部门共享文件。这三大类信息资源文件有几个特征:一是复杂性,信息资源类型复杂,有WORD、PPT、EXCEL、PDF 这些常用的文件类型,也有图片和视频及图纸;二是海量性,各业务部门的业务文件信息资源众多,数据量庞大,截至2021年累计存储的文件数量已经超到1100万份,并且以每月6W的速度在增长。随着信息量的大幅增长,各业务组织对信息内容的应用提出更高的要求:一是要求查找的结果更快更准确,二是信息内容可以按其他维度自动分类充分共享,三是需要可视化的内容展示。譬如各组织提出的应用场景:通过多个关键性指标建立电子档案;通过项目编号可以找到该项目的所有文件履历;通过几个字段快速筛选出某个技术在厂内的使用履历。类似的业务场景需要还有很多,用户对平台的本质需求是快速看到自己需要的信息资源,但是百度式的搜索方式,已经无法满足用户对信息资源的需求,必须通过其他的方式解决用户的痛点。
本文将元数据的理论和实际应用相结合,通过元数据在B公司知识管理中的应用历程验证元数据在非结构化数据管理中的价值和意义,并对元数据未来的应用提供使用场景的构建模型,为B公司非结构化数据的应用及知识管理提供参考。
元数据是描述数据的数据,也就是描述信息资源内容特征的数据。譬如将厂商交流会议录中的厂商和材料设置为元数据,通过厂商和材料两个元数据,可以让用户快速识别该会议录的主要内容,和哪个厂商沟通的,沟通的对象是什么,等等。
元数据的作用从功能上进行区分,可以分为以下5个方面。
1.资源整合:通过元数据可以将不同系统之间的数据进行整合聚类,数据异构处理,实现多个系统之间的数据交互链接。
2.资源描述:通过元数据可以描述非结构化数据资源的特征,用于用户快速鉴别信息资源的内容。
3.信息追溯:通过元数据辨别该信息来自哪个系统,用于解决信息追溯问题处理。
4.资源管理:通过元数据,可以对不同密级的文件配置不同的开放权限,保证文件安全共享。
5.知识应用:通过元数据的信息,用户可以快速识别知识,将更加有用的知识利用起来,解决自己业务中碰到的问题,从而提升知识的价值。
非结构化数据指存储在关系型数据库之外的数据,它不是通过数据库存储的信息资源,没有被标记或形成结构化的行和列。譬如Office软件中的文件类型,视频和图片等都属于非结构化数据,基于B公司知识管理平台管理和存储的数据都是非结构化数据。
B公司研发组织对于元数据的应用可以分为三个主要阶段:一是通过元数据实现个人智力资本产生数量快速查询;二是通过元数据实现项目交付物管理;三是通过元数据进行厂商交流会议录信息自动分类共享。
B公司研发组织对元数据的利用最早可以追溯到2016年。研发组织是企业技术发展的引领者和开创者,很多研发人员将技术或产品研发阶段使用的技术原理,不良分析及解决方案等等以技术报告书的形式展示。技术报告书作为显性知识的重要载体,在绩效考核、职级评价或升职的过程中起着重要作用,因此如何快速查到个人年度产生的技术报告清单,成为各组织HR及管理人员急需解决的问题。B公司的知识管理平台成立之初,就将审批格式的起草人,起草时间,起草组织及审批格式名称,作为最基本的元数据在管理,因此经过系统管理员的培训后,HR及管理人员在很短时间内,就可以通过元数据查询研发组织中个人在某个时间段内产生的技术报告书数量,为个人职级评定及职位提升提供准确的智力资本产生数量。
2018年研发组织开始重点管理产品开发阶段的必要交付物。必要交付物作为组织的智力资本必须统一管理和存储,以便其他项目经验借鉴及后期出现不良问题后信息追溯,从产品企划阶段到量产阶段,产品开发各阶段产生的重要文档必须上报。但是每年有几百个项目的交付物分别在PLM系统和Portal系统上报,如何让开发管理者在第一时间知道必要交付物是否上报以及何时上报,成为开发管理人员的痛点。这个痛点最终通过元数据的功能,实现必要交付物在多个系统上的管理。将项目编号作为各阶段项目交付物上报时必须填写的信息,并且将项目编号作为元数据,通过项目编号这个元数据,将项目和项目交付物之间的桥梁串联起来。再结合知识地图的功能,任何一个项目的交付物上报现状得以清晰明了,并且实时更新。开发管理人员通过项目编号的元数据知识地图,即可轻松识别出交付物的上报现状。通过元数据实现项目交付物管理,为系统之间的数据交互和联结奠定了基础。
自2020年开始,厂商交流会议录作为研发组织和各类厂商交流结果的重要载体,一直是研发人员内部共享学习的内容,厂商信息交流资料的共享不但可以减少研发组织的沟通成本,而且可以缩短研发周期,通过历史的交流信息快速获取资源信息。但是如何在成千上万条信息中,找到某个供应商针对某个材料的交流记录,成为需要首要解决的问题。最终的解决方法是将厂商交流会议录中的设计模块、材料、供应商信息设置为元数据,并且将这三个元数据搭建成以设计模块为第一维度,材料为第二维度,供应商为第三维度的信息共享平台,让用户通过导航式的知识地图链条快速定位到历史交流信息,定位准确信息的速度提高几十倍。各地开发组织的厂商交流会议录共享文件,也由每月40人次的访问量上升到800人次。厂商交流会议录中元数据的应用,让知识管理发生了质的变化,实现了知识管理从管知识到用知识的跳跃。厂商交流会议录的应用只是其中的一个应用场景,技术报告书多维自动分类以及FA Report按工序和不良类型展示,都可以参照厂商交流会议录的经验,实现用户快速准确应用非结构化数据的需求。
当文件数量每年以百万级的数量增长时,给用户带来的问题是巨大的筛选文件工作量,输入一个关键词,展示几百个甚至上千个结果,这么多的结果哪个才是用户真正想找的答案。为了解决用户快而准查找信息的需要,我们调研了研发组织访问前100TOP 的用户,通过了解用户真实的使用场景,为用户找到解决问题的答案。用户查找信息常以某个关键词为切入点,这个切入点可能是技术名词、项目名称、项目编号、PM、不良类型、产品名等。而且在调研的过程中,我们发现80%以上的用户都是通过一个切入点找到其他相关的信息,因此这些切入点之间有紧密的联系,其背后是通过审批格式为载体搭建起来的信息网络。
如何让用户使用的信息从虚拟的网络变成真实的网络,关键是通过什么数据将这些信息链接起来。结合近几年元数据在非结构化数据方面的应用经验,可以通过元数据让松散的信息小块构成信息网络。以下以多个用户的具体使用场景为例,通过元数据信息模拟出了一个应用模型,在这个模型下可以满足不同组织不同职位不同岗位人员对信息应用的需要。
如图1所示,不但可以实现用户在海量的数据中通过一个信息查到另外一个信息,而且可以实现以下看板:
图1 元数据信息网络关系局部图
1.项目履历看板:以项目1为中心,可以看到这个项目使用的技术、PM 、产品名、发生的不良类型。
2.技术应用看板:以技术1为中心,可以看到这个技术曾经在项目1、项目2、项目3、项目4上都应用过。
3.工序不良看板:以工序1为中心,可以看出工序1主要发生的不良是不良1和不良2。
4.PM 看板:以PM1 为中心,可以看出该PM1 负责过的项目是项目1、项目2和项目3。
从图1可以看出,信息网络关系需要以元数据信息为网络节点,图中的计划书、企划书、不良分析是实现这些关系的逻辑实体。因此,若想实现以上数据信息网络关系图,需要在这些相关的逻辑实体中配置相应的元数据。企划书需要将项目名和产品名配置为对应的元数据;计划书需要将项目名、技术、产品名、PM配置为对应的元数据;不良分析需要将项目名、不良、工序配置为对应的元数据。
以上只是研发阶段的部分数据,可以在此基础上外延品质和工厂端的信息,也可以补充设备、材料和工艺类的业务信息,形成一张更大的信息工程网络。
实现完整全面系统的信息工程网络,需要在元数据建设的业务方面具备以下条件。
1.建立统一的元数据管理制度:建立从元数据的产生、采集、注册、维护、消费的全流程管理制度。管理制度是各组织遵守的操作依据,建立统一的元数据管理制度,是为了让各组织在元数据管理方面有依据可循,为搭建B公司元数据架构奠定基础。
2.对元数据进行标准化管理:按元数据管理制度要求,梳理出包含元数据的中文名称、定义、业务规则、数据类型、数据长度、应用标准及标准所属组织、数据示例、标准应用范围、数据责任部门、数据质量监管部门等信息的资产目录。通过元数据标准化管理,确保数据在各个系统调用时的统一性和复用性。标准化管理中包括对元数据质量的管理,譬如数据的可用性、有效性、冗余性、唯一性、完整性、及时性等维度,确保元数据的质量。
3.对现有在业务系统中的数据进行全面盘查和梳理:对现有研发业务系统的数据进行全面排查和梳理,按照已有的元数据标准进行全面更改,并按实际业务需求增加元数据,以确保所有系统的元数据同名、同义、同规则,对于相同值域的元数据建立统一的数据字典,保证元数据取值同源,为元数据的消费和调用做好基础。
在国家发布的“十四五”规划中,关于数字化转型的内容中提到了元数据。企业不管是建立统一的非结构化数据应用平台,还是将非结构化数据的信息提取出来推送到其他业务系统做集成展示,元数据都是非结构化数据应用和可视化的基石,也是拉通多个异构系统和多种数据资源的桥梁。通过元数据建设实现不同系统之间的数据交互,搭建各系统之间的关系网络,为用户和领导提供业务决策支持,实现企业非结构化数据的数字化转型。数字化变革给非结构化数据价值提升带来机遇,而元数据应用是实现非结构化数据应用价值提升的桥梁和主要途径。