盛 妍 ,朱 青 ,张明杰 ,宋 灿 ,陈 泽
(1.国家电网公司客户服务中心,天津 300000;2.江苏瑞中数据股份有限公司,江苏 南京 210000)
数据表达一种事实,标签表达一种结论和评判,是对数据高度提炼和归纳得到的特征标识,将信息系统数据及其分析结果自动翻译并转化为定性的、日常生产语境中大的语言文本,实现了普通业务人员无障碍理解和使用大数据分析结果[1]。正是由于这种特性,标签可支撑业务快速做出决策,在大数据时代发挥越来越重要的作用。伴随着业务数字化的发展,标签也从手工时代发展到数仓时代。但日益庞大的业务所带来的数据量使得传统标签建设变得愈发庞杂冗余,标签也急需向智能化、统一化的方向发展。近年来,数据中台[2-4]理念的诞生,也为标签的进一步发展提供了方向。
标签发展目前已经历了两个阶段,分别是手工时代和数仓时代。
手工时代的标签基本通过业务人员在业务过程中手动生成,服务于单一应用,并通过传统数据库进行存储,整体生成过程为数据建模—手动打标签—存档。
数仓时代的标签脱胎于对手工标签的业务提取,通过对业务指标的统计,从而生成相应的标签。标签的存储计算依赖于数据仓库,整体生成过程为数据汇聚—数仓建模—规则统计—存档。
标签的下步发展可称之为智能标签时代。相较于传统标签构建方式,智能标签具备以下特点:
(1)低门槛:把数据转化为体系化的业务标签,降低服务人员使用大数据的门槛。
(2)易共享:把标签变成业务可理解的数据服务,使数据更易共享和使用。
(3)工厂式生产:实现标签生产的工厂化,降低标签生产难度,提升标签生产效率。
(4)闭环式生态:基于上层应用标签应用成效对标签规则进行评估并开展迭代优化工作,形成标签运营生态闭环。
(5)统一平台管理:无论是自动标签还是手动标签,实时标签还是离线标签,临时标签还是稳态标签,都统一套标签系统统一进行管理并对外统一提供服务,以保障标签对外业务口径的统一。
现阶段标签构建方式是针对某一业务数据,根据业务规则进行提炼,并最终对某标签主体给出结论化的定义,形成标签主体与标签名一一对应的结果集,从而支撑相应业务场景的应用。但传统的标签构建方式在实际生产应用中会出现以下的不足:
(1)标签体系紊乱
构建基于数据挖掘理论的客户标签体系的首要步骤是设计提炼客户标签,包括客户标签维度选择、指标细化等[5]。标签多以业务需求直接驱动,具有明确的目的性,因标签应用方向的不同会产生多套标签,但因其相互独立且各自存在体系,各业务方自行定义标签,导致同一名称的标签会有不同含义,或同一含义的标签有不同名称,运用混乱。
(2)存储计算开销较大
多套标签存在各自独立的计算逻辑,且其更新频率各不相同,为保障各自业务的不中断,需独立进行更新计算,但多套标签中可能存在大量的重复计算工作,且都各自保留标签计算结果,从而造成了大量的存储、计算资源的开销。
(3)统一管理难、应用难
因多套标签的应用方式、标签源数据、标签体系等都相对独立,因此对其进行统一的管理和应用,从而造成多套标签体系共存,无法统一管理应用的问题。
(1)什么是数据中台
数据中台是聚焦“业务数据化”,践行“数据业务化”,集数据的规划、获取、治理、分析、应用和价值变现为一体的数据服务体系。数据中台核心目标是实现数据资产价值的最大化。数据中台与数据仓库、数据中心在核心定位、服务形式、数据汇聚、数据管理方面均存在差异。数据中台距离业务更近,更重场景应用、更快速响应需求。数据中台可以构建在数据中心之上,数据中心侧重于数据之“聚”,数据中台侧重于之后的“用”。
数据中台定位于为各专业、各单位提供数据共享和分析应用服务,根据数据共享和分析应用的需求,沉淀共性数据服务能力,通过数据服务满足横向跨专业间、纵向不同层级间的数据共享、分析挖掘和融通需求。
(2)数据中台为标签带来了什么
①海量的数据资源:在单一数据源的标签构建中,无法全方位地刻画客户特征,仅能从某一个层面或方向描述某一角度下的本体特征,因而构建过程中想要全方位地刻画本体特征,则需满足本体所需全部建模元语,进而能够全方位描述及刻画本体特征。相比于单一数据源系统及数据仓库系统,数据中台包含企业内部各业务系统的业务数据,不同业务系统按业务域划分存储,同时也可接入外部数据,丰富数据体系,为标签的多样化建设提供数据支撑。
②统一的数据管理:数据中台具备数据运营管理能力,能对各业务系统数据进行统一管理,实现对各类数据的企业级建模,解决各类数据间的业务口径不一的问题,为企业级标签体系的构建提供基础。
③强大的计算调度能力:标签构建中依赖平台的支撑、特殊组件调用、海量数据的处理、算法的训练、模型的运行等,单一数据计算环境无法提供上述资源,需依赖更为全面、高性能的基础平台。数据中台计算架构基于大数据技术[6]构建,引入内存计算、批计算[7]、流式计算等技术,为标签的实时及离线计算提供技术保障。
相较于传统标签的构建方法,智能标签主要从标签体系、数据支撑、标签计算、标签平台和标签应用五方面开展设计研究。
为保障企业多业务系统标签不存在语义歧义及业务口径不一的问题,需开展企业级标签体系的设计工作。
以国网用电业务为例,客户标签从基础属性、客户行为和客户评估三方面对电力全业务特征进行归类与提炼,形成一级主题;同时对一级主题分别进行细分,并根据电力业务特征将客户行为从业务场景视角出发,划分为传统业务(用电服务、客户服务、缴费服务、市场开拓等)和新兴业务(电动汽车、市场化售电、能源电商、能源金融、综合能源服务、分布式电源、数据商业化、互联网业务等),以业务视角形成二级主题,便于各业务线开展标签管理与应用,有助于将客户标签与业务场景进行有效对应,开展客户画像与原有业务流程嵌入,开展特定业务客群划分,增加标签实用性,最终形成如图1 所示的电力客户智能标签体系。
图1 电力客户智能标签体系
中台作为未来企业数据的主要载体,需对数据进行分层规划,以实现存储和计算资源的合理利用,为企业业务提供统一数据出口。参考阿里中台数据分层[8-10],设计如图2 所示的数据体系。
图2 中台数据体系
贴源层:参考ODS 层(Operational Data Store)及STG(Stage)层设计,贴源层定位为中台核心数据基础层,负责从各业务系统接入操作型数据(结构与源系统保持一致的全量数据),并对数据进行全量或增量的合并及数据清洗和标准化工作。该层基于数据主题开展标签源数据的接入,为智能标签的构建提供数据基础。
共享层-明细区:参考DWD 层(Data Warehouse Detail)设计,共享层明细区面向数据进行数据域分类、整合、清洗,并根据企业级数据建模标准(SG-SIM4.5),构建一套标准化数据模型。
共享层-汇总区:参考DWS 层(Data Warehouse Subject)设计,共享层汇总区按分析对象的实体进行数据整合、轻度汇总。该层在对明细区的数据进行简单的业务汇总后,支撑事实标签、规则标签的建设。
分析层:参考ADM 层(Application Data Market)设计,完全贴合前端应用。分析层由共享层数据参照业务需求,经过模型计算、算法分析生成对业务的重度汇总数据,支撑模型标签的构建。
在标签构建过程中,通过对基础数据和业务指标的梳理分析,可定义生成标签业务算子。标签业务算子即为基于业务规则构建的单个标签的计算过程或任务,是标签生成的主要执行者,也是构建智能标签与传统标签的主要差异点。针对于复杂业务的标签组合需求,可通过对标签算子的编排组装,生成完整的业务模型,交由中台计算,实现标签快速运算。
针对已完成构建的标签业务算子和业务模型可发布成API 或周期性任务运行,实现标签运算的自动化。智能标签算子整体流程如图3 所示。
图3 智能标签算子设计流程
基于数据中台的数据资源及计算资源,需设计智能标签系统,构建智能标签并进行统一管理。智能标签平台的设计主要包含以下功能:
(1)基础源数据的读取。通过读取数据中台共享层的明细数据及汇总数据,为标签业务算子的构建提供数据源支撑。
(2)标签属性生成。根据标签体系规范,结合业务逻辑,基于源数据构建标签算子。针对基础属性,可直接生成自然类标签;针对复杂属性,可通过关联计算、统计计算、挖掘计算等方式,结合业务规则,生成规则类标签、统计类标签、挖掘类标签;针对一些特殊的临时属性,可定义临时标签,支持手动输入,以支撑一些时效性业务场景。
(3)标签业务算子的发布调度。构建完成的标签算子及模型可通过定时任务或条件触发等方式实现智能化调度,以保证标签数据的实时性和可用性。
(4)标签数据管理查询。智能标签平台存储着构建完成的应用标签数据,可通过管理平台进行管理和快速的定位查询,也可通过API 的方式发布符合标签要求的明细数据供其他业务系统使用。
(5)标签组合及智能关联分析。基于完成建设的标签,构建标签组合功能,使得业务人员能够根据具体需求自由组合标签,以满足实际业务场景的建设。同时,提供标签关联分析功能,对标签的数据价值进行二次挖掘,发掘标签群体间的关联关系,从而实现标签的应用深化。
(6)标签应用评估。基于已发布的标签及其应用成效进行评估,设置评估指标,并对评估指标不理想的标签进行下架或规则优化,实现标签的智能运营迭代。
在完成智能标签的构建后,需开展基于业务的应用场景的设计,以发挥标签的价值。以基于客户构建的智能标签为例,通过对客户信息和相关行为数据的标签化处理和探索,按照业务需求圈定群体范围,实现对复杂群体数据的智能化统计、筛选、加工、沉淀,建立单实体360°全方位个性化档案,通过关系图谱展示、可视化线索分析、相似人员智能化推荐等来实现业务人员对于目标群体的精准定位,可开展如下业务应用场景:
(1)精准营销:传统的营销方式不能精准针对客户的需求进行营销,盲目的营销不仅会引起客户的反感,而且极容易引发客户投诉。基于“用户画像”的精准推荐方法可以帮助企业主动向用户推荐感兴趣或需要的商品,刺激需求,减少搜集信息成本,缩小比较范围,提高决策效率,提高成交率[11]。通过对客户行为标签和客户类型标签的分析,构建客户画像,精准圈定潜在价值客户群体,从而便捷高效地开展产品精准营销工作。
(2)差异化服务:客户在接收服务的过程中对服务的感知度高低是决定企业的差异化服务是否有效的关键。企业针对不同的客户提供不同程度的优质服务,客户的感知度越高,客户满意度越高[12]。通过对客户自然标签和行为标签的分析,结合客户近期诉求情况,设定客户服务临时标签,找出潜在投诉、举报等较高风险的服务人群,针对性地提供精准服务,以降低客户投诉举报概率,提升客服服务满意度。
(3)新业务拓展:通过对客户理财、电商消费、业务偏好等行为标签的综合分析,评估客户消费能力,划分特征客户群体,拓展潜在客户。针对特征客户群体,推广金融、保险等相关新型业务。
(4)数据变现:可根据外部企业需求对客户标签进行组合关联,形成对外部单位有价值的标签数据,拓展面向互联网电商、金融企业等的toB 和面向政府、征信单位等的toG 的数据变现业务。
(1)智能标签是业务数据化的典型实例
业务数据化指业务相关信息以数字方式存储并实现可用,即为业务生成数据。单纯的业务数据存储并无法满足数据的可用需求,需通过数据的清洗、转化、统一建模及汇总分析才可满足业务需求,支撑业务运营工作。智能标签即为业务数据化的典型实例,通过对基础业务数据的统一化建模,并根据业务指标进行汇总计算分析,生成智能标签对主体实现定性分群,支撑相关业务场景的建设,使得数据充分发挥业务价值,实现基础业务信息到可存储、可使用、可分析的数据化转变。
(2)智能标签[13]是数据业务化的重要支柱
数据业务化为业务数据化的延申,指的是通过对基础数据的洞察分析实现对业务的进阶探索,即为数据驱动业务。智能标签源于基础业务信息的数据化,基于业务规则对标签主体进行定性,实现简单的群体分类功能,但随着基于该主体的标签体系的不断丰富,使得标签不再只单纯承载基本的群体分类功能。通过对标签的组合及关联分析等操作,可实现对业务的深度探索,并根据这些标签衍生出更多的业务方向,实现数据对业务的反哺。
(3)智能标签是数字孪生化[14]的理想载体
数字孪生简单来说就是在一个设备或系统的基础上,创造一个数字版的“克隆体”。以智能标签为例,可通过标签将客户群体进行数字化[15]解析,生成相应的数字孪生体,通过对该客户群体进行模拟运营及成效评估,得出高效且合理的运营方案,从而改进实际业务策略。同时根据实际业务运营的成效,对客户群体的模拟运营进行干预和调优。通过这种模拟运营指导实际执行、实际成效优化模拟运营方案的方式,可极大降低风险,提升整体运营服务质量。
本文主要论述了在数据中台理念下的智能标签建设和应用方向,提出了一套较为完善的智能标签构建方法,为高效构建智能标签及应用提供了方向。在数字化转型的大趋势下,下一步应深入探究标签与具体业务融合,在具体业务场景下提高标签落地应用效果。