王庆乐
(南京大学图书馆 江苏南京 210023)
随着智能互联网与智能阅读媒介的广泛普及,高校数字图书馆用户需求呈现出个性化、差异化、定制化特点,此时用户的数据采集、数据整理与数据利用行为越来越难以预测,使得高校数字图书馆用户服务供需失衡。因此高校图书馆界一直在探索利用用户画像数据来提升用户服务效能的可行之策[1]。王茹芳、宁璐指出,高校数字图书馆用户画像数据的实质是一类可反映用户需求的多目标函数,借助该函数可实时分析用户需求变化,辅助馆方为用户情境化推送目标数据[2]。从理论研究来看,目前学术界主要从高校数字图书馆用户画像数据获取、处理、存储、安全四个方面进行研究:张洁等人为强化高校数字图书馆用户画像数据获取的针对性,构建了涵盖属性分析、语义分析、文本分析与行为分析的用户画像数据分析模型,并建议高校数字图书馆充分利用网络爬虫技术来获取用户画像数据中的隐性信息[3]。乐承毅等人认为,高校数字图书馆在智能计算引擎技术支持下,可对用户画像数据进行高精度聚类处理,进而理清不同类型用户画像数据间的相关性[4]。刘海鸥等人利用压缩感知技术来改善高校数字图书馆用户画像数据存储性能,这一做法极大降低了用户画像数据存储成本[5]。梁荣贤指出,目前高校数字图书馆的用户画像数据面临着较大的失窃风险,该学者建议馆方利用区块链技术打造用户画像数据管理防火墙[6]。从实践研究来看,我国高校数字图书馆用户画像数据管理工作成绩斐然:浙江大学数字图书馆借助数据过滤算法、社会标签技术创建了具有较高统计精度的用户画像数据库,据此提供契合用户需求的资源推荐服务[7]。南开大学数字图书馆借助区块链技术打造了用户画像数据安防体系,可对用户画像数据流转的全过程进行无盲区跟踪[8]。但仍需看到,现有研究多侧重于分析高校数字图书馆用户画像数据管理的局部问题,鲜有学者从全生命周期角度讨论用户画像数据管理的实践思路。区块链技术是一种具有去中心化交易、全链条追溯、智能执行合约等技术优势的分布式共享账本,将其应用于高校数字图书馆用户画像数据管理实践,可增加高校数字图书馆知识服务绩效。本文分析了目前高校数字图书馆在用户画像数据获取、处理、存储与安全四个方面所存在的主要问题,并提出了以区块链技术为关键载体的用户画像数据管理理论逻辑与实践举措,以期为高校数字图书馆用户画像数据管理实现智能化转型提供借鉴。
就用户画像数据获取技术而言,现阶段高校数字图书馆主要利用大数据技术来分析用户偏好、用户属性与用户行为等画像信息。该手段虽有助于馆方迅速捕捉用户的多元异质需求,但难以在第一时间准确识别用户画像数据的变化,可能出现用户画像数据采集更新延迟问题。就用户画像数据获取渠道而言,我国高校数字图书馆主要依托scirus、BASE、vascoda等学术搜索引擎来获取用户画像数据,该渠道无法确保馆方实时获取用户行为日志数据、交互动态数据与使用情境数据,或将降低用户画像数据获取的系统性。就用户画像数据获取标准而言,我国高校数字图书馆尚不具备科学统一的元数据规范、对象数据规范与资源统计规范,这将导致高校数字图书馆无法对用户画像数据进行标准化采集,或将使用户画像数据采集效率大打折扣。就用户画像数据获取组织而言,目前高校数字图书馆完全掌控着用户画像数据处置权限,其可能会在用户不知情的情况下传播用户画像数据,从而侵犯了用户的画像数据合法权益。
第一,高校数字图书馆难以对用户画像数据进行深度提炼。导致这一问题的原因主要表现在:一方面,馆方采集的原始用户画像数据多掺杂大量的噪声数据,这将极大增加高校数字图书馆用户画像数据处理的技术成本;另一方面,用户画像数据将随着高校数字图书馆知识服务情境的变化而变化,此时馆方更加难以在错综复杂的情境条件下快速挖掘用户画像深层信息。第二,高校数字图书馆用户画像数据处理的投入产出效率长期在低位徘徊。为提升高校数字图书馆用户画像数据处理的综合实力,馆方每年都需要斥巨资来升级改造平台的技术性能。如美国高校数字图书馆在2020年共投入数千万美元用于数据处理技术更新,但高额资金投入与用户画像数据产出效益在短期内难成正比[9]。可见,促进用户画像数据处理效率与成本实现动态平衡,是高校数字图书馆亟待完成的中心工作。第三,用户画像数据管理存在信任问题。从理论上来说,高校数字图书馆应在获得用户许可的前提下对用户信息进行加工处理,但大多数实际情况是用户对画像数据的处理过程和使用去向毫不知情,这种做法无异于间接剥夺了用户的画像数据所有权。
高校数字图书馆用户画像数据主要包括结构化数据、半结构化数据与非结构化数据三种类型:结构化用户画像数据的数据结构和内容分类较为简单,半结构化和非结构化用户画像数据的构成要素则较为复杂。多类型的用户画像数据对高校数字图书馆的存储性能提出了严峻挑战,馆方既需要及时调和用户画像数据存储规模与存储质量间的冲突,还需要重点增强半结构化数据和非结构化数据的存储精度。但目前高校数字图书馆用户画像数据存储的系统性与稳定性均存在较大问题:①用户画像数据尚未实现结构化存储。我国高校数字图书馆用户画像数据存储的主流手段是索引存储与顺序存储。此类存储手段难以确保馆方集成式识别多源异构用户画像数据中的关键信息,将使大量优质的用户画像数据得不到高效存储。②用户画像数据存储的稳定性较低。一方面,由于高校数字图书馆并未对用户画像数据进行强制加密与存取控制,这将大大增加非法篡改用户画像数据的安全风险;另一方面,网络黑客一直热衷于利用数据库攻击手段窃取具有商业价值的用户画像数据,此时若高校数字图书馆忽视用户画像数据安防管理,将显著提升用户画像数据失窃风险。
第一,用户画像数据采集行为的安全问题。目前高校数字图书馆主要通过显性采集与隐性采集两类手段来全网抓取用户画像数据。显性采集行为的安全问题表现为高校数字图书馆侵犯用户画像数据版权主体的控制权:如部分高校数字图书馆可能通过第三方链接来探究用户潜在需求,并在未获得用户许可情况下对实名注册用户个人信息进行大规模采集。隐性采集行为的安全问题表现为高校数字图书馆侵犯用户画像数据版权主体的知情权:如高校数字图书馆在情境化构建用户画像过程中,可能会对用户画像数据进行多轮深度获取,但用户对画像数据深度获取过程和结果则较为模糊。第二,用户画像数据传输行为的安全问题。首先,高校数字图书馆用户画像数据极易因跨平台、跨系统登录而遭泄露。《2020中国移动阅读行业报告》指出,超过八成用户微信、微博、QQ等自媒体平台的登录密码和高校数字图书馆用户密码完全一致[10]。这意味着用户画像数据将面临极高的第三方窃取风险。其次,高校数字图书馆用户画像数据可能因第三方链接的介入而遭泄露。当前高校数字图书馆多通过XML超链接、深度链接等渠道全方位获取用户画像数据,但因监管技术不成熟,使高校数字图书馆难以动态评价第三方链接的可靠性,或将引发钓鱼窃取用户画像数据的安全风险。
区块链的本质是一个分布式总账本,其主要有分布式存储、点对点传输、工作量证明机制和非对称加密算法四类核心技术。其中,分布式存储技术的特色在于能够以去中心网络形式保存海量交易数据;点对点传输技术的优势在于为每笔交易营造绝对安全的区块链网络环境;工作量证明机制是应用区块链技术的重要保障,该机制可为数据版权主体的司法维权提供支持;非对称加密算法是区块链技术独有的数据加密手段,具有算法复杂度高、安全秘钥极难被破解等优点。在区块链四类内核技术支持下,高校数字图书馆用户画像数据的获取、处理、存储与安全问题将迎刃而解[11]。
第一,高校数字图书馆利用区块链P2P网络协议获取用户画像数据,可有效打破用户画像数据采集的客观限制,辅助馆方低成本、全方位获取个体用户与群体用户的画像信息。如清华大学数字图书馆便借助区块链P2P网络协议来一次性采集用户兴趣数据与行为数据,并对用户画像数据进行基于区块链P2P网络的实时更新。另外,该馆还凭借区块链P2P网络协议的挖矿功能、数据库功能与网络路由功能来建立用户画像数据的内在关联规则,此举有效增强了馆方用户画像数据采集的总体实力[12]。
第二,高校数字图书馆利用区块链一致性哈希算法处理用户画像数据,可促进用户画像数据处理投入产出间的动态平衡。如构建基于区块链一致性哈希算法的用户画像数据处理平台,并赋予待处理的画像信息个性化哈希值,此时高校数字图书馆用户画像数据加工效率将实现跨越式提升。天津大学数字图书馆便凭借区块链一致性哈希算法对用户画像数据进行深加工,并利用区块链内外两层哈希值来针对性配置结构化、半结构化与非结构化用户画像数据处理权限,从而高效解决了用户画像数据处理的质量效益问题[13]。
第三,高校数字图书馆利用区块链超级账本技术存储用户画像数据,可改善用户画像数据存储不兼容、不系统与不准确等不良状态,确保馆方在高度共信的框架下执行用户画像数据存储操作。辽宁大学数字图书馆的相关做法具有代表性:一方面,馆方依托Siacoin(区块链云存储服务商)托管主机来合理配置用户画像数据存储路径和存储空间,实现了基于区块链块存储与对象存储的用户画像数据结构化保存;另一方面,该馆发挥区块链超级账本技术的强制加密特色优势,创建了“监测—预警—处置—反馈”的用户画像数据存储安全管理机制,极大增强了用户画像数据存储稳定性[14]。
第四,高校数字图书馆利用区块链加密机制维护用户画像数据安全,不仅可保障用户对画像数据的控制权与知情权,还能够提高馆方用户画像数据防窃取效力。目前具有可行性的做法是借助区块链数据脱敏、隐匿性标签、多因子身份认证技术对用户画像数据进行安全加固。中国海洋大学数字图书馆的相关实践具有代表性:馆方凭借区块链加密机制对较为敏感的用户画像数据进行加密变换,并将其动态存储在区块链数据云端。此时网络黑客不仅无法定位用户画像数据流转节点,而且难以攻破用户画像数据传输信道[15]。
第一,借助区块链P2P网络的“挖矿功能”精准构建用户画像。即释放区块链P2P网络“挖矿功能”在数据采集与数据更新方面的技术红利,让高校数字图书馆精准辨识用户画像数据中的显性信息与隐性信息,并对其进行零延迟更新。暨南大学数字图书馆的实践经验值得借鉴:该馆与“Bitsou”区块链数据服务商联合创建了用户画像数据采集系统,可对用户画像数据进行层次化、结构化采集。如依托区块链挖矿技术采集用户个人信息,依托区块链日志记录技术采集用户动态行为信息,依托区块链P2P网络嗅探器采集用户科研成果描述信息。馆方还利用区块链Kafka实时计算技术对各类型用户画像数据进行时间序列分析,以持续丰富用户画像数据的内涵与外延[16]。
第二,借助区块链P2P网络的“网络路由功能”构建立体化用户画像获取渠道,提升高校数字图书馆用户画像数据获取的深度与广度。如“中国高等学校数字图书馆联盟”便打造了支持多渠道获取用户画像数据的服务平台:一方面,联盟成员可利用区块链P2P网络在各自的大数据检索系统中共享式获取用户静态属性信息与动态行为信息,并对多渠道来源的用户画像数据进行关联分析。另一方面,在联盟成员与主流数字学术网站间建立P2P传输链路,便于平台管理员全面采集用户画像数据[17]。
第三,借助区块链P2P网络的“数据交易公示功能”强化用户画像数据权益保护力度,确保高校数字图书馆在用户许可的条件下开源获取用户画像数据。中山大学数字图书馆的实践经验值得借鉴[18]:首先,构建了基于区块链P2P网络的用户画像数据交易公示平台,此时馆方可全天候、低成本采集各类型用户画像数据,并实时监测用户画像数据采集过程。其次,该馆依托区块链P2P网络赋予用户画像数据使用许可权,并对用户画像数据权益的变动情况进行确认,此举显著增强了高校数字图书馆用户画像数据获取的安全性。
第一,利用区块链哈希算法对各类型用户画像数据进行一致性计算。高校数字图书馆可借助哈希算法打造用户画像数据处理平台,以便一站式完成用户画像数据组织、挖掘与过滤。如吉林大学数字图书馆便依托DxChain区块链工具来精细化提取用户画像数据中的高价值信息:借助哈希散列算法将用户基础数据、位置数据、行为数据均统一为底层链式数据格式,此时馆方可结合底层链式数据的区块随机数来删去噪声变量[19]。另外,具备条件的高校数字图书馆还可利用哈希算法构建用户画像标签词表体系,为用户画像数据的清理、转换、合并、重塑提供依据。
第二,利用区块链智能合约调和用户画像数据处理成本与效益间的矛盾。一方面,可利用区块链联盟链在用户画像数据处理的参与主体间创建旨在辅助数据可信流转的智能合约,促进高校数字图书馆与用户画像数据利益相关者形成画像数据处理联盟。此时高校数字图书馆既可通过众包式手段削减用户画像数据处理的技术成本与组织成本,还可在权益分配机制约束下多次获取画像数据。另一方面,高校数字图书馆可在区块链智能合约支持下定向采集用户使用行为数据,据此构建具有情境化特征的用户画像,以增强用户画像数据处理的实效性。
第三,利用区块链共识机制来安全可靠地挖掘用户画像数据。高校数字图书馆可将区块链共识机制引入用户画像数据处理实践,确保馆方与用户能够动态达成画像数据处理的一致性共识。西安交通大学数字图书馆便与基于区块链共识机制的数字资源服务商联合开展用户画像数据挖掘工作[20]:对于涉及用户隐私的画像数据,馆方需要对其进行区块链共识验证后方可作进一步处理;对于全网公开的用户画像数据,高校数字图书馆将借助区块链共识机制与版权主体自动达成对等操作协议,让馆方在规范用权的前提下合理挖掘画像数据。
第一,借助区块链Bucket树技术优化用户画像数据存储结构。区块链Bucket树的技术优势是可使底层数据以Bucket树叶子节点形式得以长期保存。在其支持下,高校数字图书馆不仅可结构化存储用户画像数据,还可平滑扩展各类型用户画像数据的存储空间。厦门大学数字图书馆的实践做法极为典型:馆方利用区块链Bucket树技术来分层分类保存用户画像数据,并利用哈希表对离散分布的底层数据进行规整性存储。此时高校数字图书馆可实现基于Bucket树根值的用户画像数据链式备份,进而规避了用户画像数据存储容量衰减与存储结构紊乱等风险[21]。
第二,设计可促进用户画像数据实时同步存储的区块链共识存储方案。即对各类型用户画像数据进行“区块分组存储”,此时高校数字图书馆可凭借区块链账本共识单元一站式获取用户画像数据中的深层次信息。深圳大学数字图书馆便利用区块链分区处理共识算法创建了支持存储副本智能分配的画像数据存储系统,馆方可智能计算出每个区块分片所对应的存储副本规模,据此来针对性存储用户画像信息中的主数据、参考数据与元数据。这一做法有效提升了高校数字图书馆用户画像数据存储的针对性与集约化程度,并加快了海量用户画像数据存储更新速度[22]。
第三,借助区块链账本信息溯源技术严防用户画像数据盗用篡改行为。前述研究指出,由于高校数字图书馆用户画像数据存储的开放性程度与日俱增,这将极大增加馆方用户画像数据存储安全管理压力。而将区块链账本信息溯源技术嵌入用户画像数据存储的全过程,有利于高校数字图书馆实时监督规制画像数据存储的篡改和失窃行为。目前较为可行的做法是通过创建基于区块链账本模型的用户画像数据存储监督机制,对用户画像数据开展高度自治、去中心化的存储管理。此时高校数字图书馆可凭借区块链账本链接地址开展画像数据失窃的溯源存证工作。
一方面,凭借区块链非对称加密技术管控用户画像数据非法采集问题。高校数字图书馆可从如下三方面保障用户画像数据采集安全性:首先,发挥区块链公私钥加密管理技术的多重密保效能,对用户画像数据进行“公钥+私钥”加密,彻底阻断网络黑客窥探用户隐私信息的“后门”,并让用户能够实时追踪画像数据采集过程。其次,利用区块链数字水印技术对用户画像数据进行隐匿性处理,确保带有区块链数字水印的用户画像数据无法被恶意采集。具备条件的高校数字图书馆还可将区块链非对称加密技术用于身份验证场景,对用户画像数据的开放对象与开放方式进行权限控制,夯实馆方用户画像数据采集的安全堡垒。
另一方面,借助区块链高等级脱敏技术降低用户画像数据泄露风险。即在精准识别用户画像数据传输情境条件基础上,对画像信息进行区块链高等级脱敏处理:如果用户画像数据具备安全传输的情境条件,高校数字图书馆可利用区块链加密脱敏技术对其进行可恢复转换。如果用户画像数据安全传输的情境条件较差,馆方则应利用不可恢复的区块链加密脱敏技术将其转换为不可逆的随机数值。郑州大学数字图书馆的实践经验值得借鉴:利用“卡巴斯基安全部队”软件中的区块链安防功能创建了支持随机脱敏、正向脱敏、逆向脱敏与遮蔽脱敏的数字资源脱敏检索平台,可根据网络安全威胁情境与网络入侵行为特征来定制化设计用户画像数据脱敏方案。并强制要求用户访问脱敏处理后的画像数据,从而有效化解了用户画像数据传输泄露风险[23]。
利用区块链技术赋能高校数字图书馆用户画像数据管理的实践主旨是发挥该技术在数据采集、处理、存储与传输等方面的功能优势,来保障用户画像数据的安全性、完整性与独立性。本文将区块链技术嵌入用户画像数据管理全流程,设计了基于区块链P2P网络协议、一致性哈希算法、账本模型与加密机制的用户画像数据管理可行思路与实践策略。但我国高校数字图书馆用户画像数据的区块链管理工作才刚起步,缺乏对区块链技术使用条件与应用场景的科学评估。因此高校数字图书馆需加强区块链技术的理论与实践研究,并依托区块链技术协同开展用户画像数据管理与数字学术资源管理工作,方可增强用户画像数据管理的系统效能。