数据脱敏在数据中台产品的研究与应用

2024-03-27 16:21郑祥

现代计算机 2024年1期

郑祥

（1. 中国电建集团华东勘测设计研究院有限公司，杭州 311122；2. 浙江华东工程数字技术有限公司，杭州 311122）

0 引言

在今天的互联网时代，人们离不开各种社交媒体平台，但在享受各种便利的同时也往往存在个人信息泄露的风险。而数据中台是企业集中管理和整合数据的核心架构，它不仅涉及用户信息，还包括各类商业敏感数据、内部知识产权等重要资产。保护数据安全对于确保企业经营正常运转、维护客户信任以及遵守法律法规具有重大意义。因此，敏感数据的安全性必须得到保障［1］。

为此，数据中台引入了数据脱敏这一方式。通过数据脱敏，可有效防止数据的泄露以及数据的滥用，即使发生数据泄露，由于数据已经脱敏，攻击者无法直接获取到真实的敏感信息。此外，数据中台通常用于数据的共享和合作，不同部门或合作方可能需要访问数据中台的特定部分。通过对敏感数据进行脱敏处理，可以在保护数据隐私的前提下，实现数据的安全共享和合作。

综上，数据脱敏已成为数据中台产品不可或缺的一部分，在确保数据安全、满足合规要求、降低风险、促进数据共享与合作、维护企业声誉与信任等方面有着不可或缺的作用。通过有效的数据脱敏措施，可以提供一个安全可靠的数据中台环境，为企业的数据驱动决策和业务发展提供有力支持。

1 数据脱敏的基本概念

数据脱敏按模式可以分成静态数据脱敏（SDM）和动态数据脱敏（DDM）。其主要区别在于是否对敏感数据信息采取实时的脱敏操作［2］。静态数据脱敏是一种传统的脱敏方式，常常用于测试环境等数据外发场景，处理非生产环境中的静止数据［3］。动态数据脱敏可直接应用在生产环境，比如在线上交易、客户服务与呼叫中心、实时分析与监控、日志记录与审计、数据共享与合作等场景。系统在该模式中不存储脱敏之后的数据，而是识别用户的身份、客户端的IP 和访问时间等信息实时地匹配脱敏规则和策略，让访问者根据不同的权限看到不同的数据信息［4］。

数据识别是数据脱敏的第一步。在数据脱敏之前，需要对数据进行分类和识别，找出其中的敏感信息。数据分类可以根据数据类型、数据格式、数据来源等多种因素进行，以确保敏感信息得到充分的识别，确保没有因遗漏导致的信息泄露。在识别之后，需要建立脱敏规则管理模块，根据不同的业务需求和安全级别，设计并选择最合适的脱敏方式。

数据脱敏技术的实现离不开先进的技术手段，例如加密算法、哈希函数等，这些技术手段可以对敏感数据进行多种多样的处理。但是，使用这些技术手段脱敏数据时也需要注意数据的完整性和可用性，确保脱敏后的数据仍然能够满足业务需求和分析要求。此外，在应用数据脱敏技术时，还需要考虑该技术的成本和效益问题，并根据具体情况采取相应的脱敏措施。

2 数据脱敏实现与应用

数据脱敏的首要步骤是对数据进行分类和分级，并建立识别规则以对各个分类和分级进行准确定位，以确定需要脱敏的字段信息。然后，根据这些识别规则，将相应的脱敏规则分配给每个字段，从而在动态或静态脱敏过程中对匹配的字段进行有效的脱敏处理。整体流程如图1所示。

图1 数据脱敏整体流程

2.1 脱敏数据识别

在数据中台中，数据识别核心功能包括数据分类、数据分级、识别规则和识别记录。在数据识别的过程中，首先进行数据分类，即对不同类型的数据进行划分，以便后续的识别工作能够有序进行。同时，数据分级也是其中重要的一环，它将不同数据赋予不同的重要级别，以帮助进一步的识别和管理。

数据分类和数据分级的目的在于为后续的识别过程提供准备。通过提前对数据进行分类，可以更好地理解和组织数据，从而更有效地进行识别。将数据分级后，不仅可以更好地管理数据，还可以实现对重要信息的优先处理，提高数据治理的效率。

配置识别规则是数据识别过程中的关键环节之一。在数据中台中，用户可以根据需要配置特定的识别规则。这些规则可以利用已经建立的数据分类和分级水平，以确保识别过程的准确性和有效性。在识别规则中，存在两种主要手段：字段扫描和数据扫描。

字段扫描通过比对字段内的内容来进行数据识别。借助智能算法和模式识别技术，数据中台能够针对目标字段的内容进行准确高效的识别。这种灵活的方法使得系统能够根据预定义的模式或标准来识别数据，提高了识别的灵活性和准确性。另一方面，数据扫描通过应用正则表达式或用户自定义规则来进行数据的识别。这种方法使得用户可以根据其具体需求和要求定制识别过程。通过指定描述所需数据模式的规则，数据中台可以有效地识别多个字段和数据集中的数据，满足不同用户的个性化需求。

识别成功后，数据中台会生成一条详细的识别记录。这条记录包含了字段的详细信息以及相应的分类和分级水平。通过识别记录，用户可以更好地追踪和管理已识别的数据，进一步提高数据治理的效果。

2.2 脱敏规则设置

数据中台的脱敏方式包含三种，分别为掩码、截断和哈希。这三种方式可以广泛应用于各种场景。

2.2.1 掩码脱敏

它包括了保留前n后m、掩码前n后m、保留自x至y和掩码自x至y等方法。其中，保留前n后m的方式是指将敏感数据的前n位和后m位保留原样，而其他位则进行掩码处理；掩码前n后m的方式则是将敏感数据的前n位和后m位进行掩码处理，而其他位保持原貌；保留自x至y是将敏感数据的位置从第x位到第y位保留原样，其他位进行掩码处理；而掩码自x至y则是将敏感数据的位置从第x位到第y位进行掩码处理，其他位不变。

原始数据：手机号码13812345678

掩码后：手机号码138****5678

2.2.2 截断脱敏

它包括了截断前n后m和保留自x至y两种方法。截断前n后m的方式意味着只保留敏感数据的前n位和后m位，其他位则被丢弃；而保留自x至y的方式是将敏感数据的位置从第x位到第y位保留，其他位丢弃。

原始数据：地址浙江省杭州市余杭区高教路华东勘测设计研究院

截断后：地址浙江省杭州市

2.2.3 哈希脱敏

它通过SHA-2 算法对敏感数据进行处理，生成一串不可逆的乱码。这样的处理方式能够完全遮盖原始数据，保护数据的隐私性。

原始数据：身份证号码31011019800101001X

哈希脱敏后：身份证号码eaa4d47f7e05b4e4-a1c3f9b354d3a348

总结来说，以上三种脱敏方式，即掩码、截断和哈希，提供了多样化的选择，可以根据具体需求来进行数据脱敏，从而确保敏感数据在使用过程中的安全性和隐私保护。

2.3 数据脱敏处理

数据中台支持数据的静态脱敏与动态脱敏，不同种类的脱敏处理方式如下。

2.3.1 静态脱敏

静态脱敏在数据中台中常用于数据同步，数据中台的数据同步实现基于阿里开源的DATAX，经过优化改造，自定义transformer，在数据同步过程中，根据是否配置脱敏规则，自动生成脱敏脚本，脚本调用对应的transformer对同步进来的数据进行脱敏处理。脚本样例如下，其中name 为自定义transformer 的名称，columnIndex 为需要处理的字段位置，paras 为transformer的入参，样例脚本的含义为将数据的前3 位和后4 位保留，其余位置掩码处理，如：138****5678。

2.3.2 动态脱敏

动态脱敏常用于数据的实时查看，通过数据中台的数据可视化交互平台，用户在操作界面查看数据，或者通过执行SQL 查看数据的时候，通过切面方法，在SQL 执行前会校验用户的权限信息，在SQL 执行后会判断当前用户是否有权限查看原始数据，若有直接返回原始数据，若无则查询字段是否存在于脱敏识别的字段中，如果存在则根据脱敏规则选择对应的脱敏方式。

基于效率及性能以及实现成本的考虑，掩码通过字符替换的方式将需要掩盖的位置替换为“*”，截断则通过字符截取用户需要保留的内容，哈希则通过SHA-2 的单向加密方式，保证了数据的不可逆性，同时兼顾了加密的效率。最后将处理后的数据返回给用户，实现了千人千面的动态脱敏。

3 数据脱敏存在的问题与解决方案

在进行数据脱敏的过程中，遇到了以下问题，针对该问题给出了自己的解决方案与思考。

3.1 数据保护与可用性平衡

数据脱敏过程中，保护数据的同时需要保持其可用性（即数据特征），这是一个核心挑战。解决方案之一是制定合适的脱敏策略，通过部分脱敏或模糊化技术来保护数据的隐私性，同时保留数据的可用性。

数据中台通过内置固定类型数据脱敏规则便于用户快速选择，采用动态数据脱敏技术，在特定环境下实时动态地调整数据脱敏的程度，同时也保护了数据特征，以平衡数据保护与可用性之间的关系。

3.2 敏感数据发现与分类

在大规模数据集中准确发现和分类敏感数据是一项复杂且关键的任务。解决方案之一是利用自动化工具和算法进行敏感数据识别，结合领域专业知识进行人工审核，确保准确发现和分类敏感数据。

数据中台基于字段识别和数据识别，可满足大部分情况。但如果由于建表字段命名的不规范以及数据质量的不合格导致未能自动识别，采用主动添加的方式，保证敏感数据不会被遗漏。

4 结语

本文详细介绍了数据脱敏技术在数据安全和隐私保护方面的重要性以及数据中台的使用及实现方式。通过采用数据识别、分类和脱敏方法，如掩码、截断和哈希，可以有效减少敏感数据的泄露风险。当然，数据脱敏技术也面临一些挑战。在确定脱敏策略时，需要综合考虑数据保护和可用性，并充分评估数据使用场景和潜在风险。此外，确保对敏感数据的准确识别和分类是至关重要的，结合自动化工具和人工审核有助于提高结果的准确性和可信度。

综上所述，数据脱敏技术在保护数据安全和隐私方面扮演着关键角色。为了更好地满足实际应用需求，我们需要不断探索和改进。希望本文的研究成果能够为相关领域提供有益启示，促进数据安全和隐私保护水平的提升。