苏君华 宋帆帆
摘 要:用户利用行为是其真实需求和行为价值观的具体反映,挖掘、分析用户行为数据,刻画用户模型,有利于精准把握用户真实意图,提升档案信息服务能力。文章从用户利用行为视角具体分析了档案信息精准服务价值,在此基础上,从数据采集、数据预处理与存储、档案用户兴趣建模以及档案信息精准服务四个层面构建运行机制,并有针对性地提出耦合路径:以精细管理统筹精准服务,以资源要素保障精准服务,以数据素养推进精准服务,以法规技术维护隐私安全,从而确保档案信息服务的精准性、高效性和安全性。
关键词:档案信息;精准服务;用户利用行为
分类号:G270.7
Research on Precise Service of Archives Information Based on User Utilization Behavior
Su Junhua, Song Fanfan
( School of Cultural Heritage and Information Management of Shanghai University, Shanghai 200444 )
Abstract: User utilization behavior is a concrete reflection of their real needs and behavioral values. By mining and analyzing user behavior data and characterizing user models, it is more conducive to accurately grasp the users true intentions and improve the ability of archives information service. From the perspective of user behavior, this paper analyzes the value meaning of precise service of archives information. Based on this, it builds its operating mechanism from four levels: data collection, data preprocessing and storage, archival user interest modeling, and precise service of archives information, and proposes a targeted coupling path: fine management to coordinate precise service, ensure precise service with resource elements, promote precise service with data literacy, and maintain privacy and security with laws and regulations to ensure the accuracy, efficiency and security of archives information service.
Keywords: Archives Information; Precise Service; User Utilization Behavior
1 前 言
大數据浪潮将社会推入数据富足供给的时代,[1]据IDC(国际数据公司)预测,2025年全球数据量将达到163ZB,是目前数据量的10倍;[2]2020年我国综合档案馆馆藏量也已达81789.8万卷/件,相比2019年增加了10.8%。[3]大数据时代,档案信息资源泛滥、无序及存取障碍与用户精准化需求之间的矛盾日益凸显,[4]如何实现档案用户与信息服务的精准定位,不断提高档案信息服务的个性化、智能化、精准化,成为当下关注的焦点。目前,学界对档案信息精准服务的研究主要集中于理论内涵[5]、关键技术[6]、模式[7]等中观层面以及精准扶贫[8]、精准推荐[9]等特定领域,从用户利用行为视角进行研究还需深化。本文将以用户利用行为为基点,在明确档案信息服务价值的基础上,从数据采集、数据预处理与存储、档案用户兴趣建模、档案信息精准服务角度入手,构建运行机制并提出耦合路径。
2 基于用户利用行为的档案信息精准服务价值定位
大数据时代,档案馆通过挖掘用户利用行为数据、揭示数据间的关系、构建用户行为兴趣模型实现档案信息服务的创新,提高档案用户满意度,不仅将“用数据说话、用数据决策、用数据管理、用数据创新”理念贯穿整个服务流程,提高精准服务效果;更凸显了档案馆“为民服务”,提升了档案馆的社会形象。因此,从用户利用行为视角积极探索档案信息精准服务运行机制,对推动新时代档案事业发展具有重要价值。
2.1 优化社会公众体验环境
档案信息精准服务是用户隐性需求向显性需求过渡,认识、了解档案文化,提升服务体验和服务感知、优化服务环境的过程。一方面,档案信息精准服务从源头掌握用户利用数据,通过语义网、关联技术等揭示用户行为偏好、兴趣特征,洞悉行为规律和变化趋势,有针对性地开展智能推荐和个性化服务,加强档案馆与用户间的联系,促进“用户—档案馆—资源”间的深度融合。另一方面,档案馆通过用户利用行为数据量化其服务评价指标体系,有利于精准把控问题,改善服务质量,实现资源反哺和再生产,提高档案用户服务的期望值。如通过统计档案微信公众号的用户点赞数、在看数等显性指标,从不同维度进行对比分析,明确各层级档案微信平台在资源内容、传播平台等方面存在的短板,以制定提升战略。
2.2 提升档案资源开发效能
档案信息开发与精准服务的实现必须将档案用户利用行为置于首位,打破传统以生产资料为导向的自在开发阶段,深化以消费需求为导向的自觉开发阶段,并不断迈入以价值目标为导向的自然开发阶段,[10]统筹档案信息资源存史资政、文化育人、信息服务功能,实现政治效益与文化效益的统一。一方面,这能够解决当前以检索、编研为核心的档案信息资源开发深度不足[11]问题。通过深入挖掘档案信息所蕴含的知识,开发与档案用户信息需求相契合的产品,实现档案资源与用户需求的精准关联和服务匹配,推动档案信息资源的深度开发。另一方面,还有利于推动传统管理视角下档案信息资源开发模式向档案治理模式转型,[12]助力档案治理体系建设。
2.3 增强档案馆社会影响力
以用户利用行为数据为基础向社会公众提供精准服务强调服务的主动性和用户的个性化,能够更好地拉近档案馆与公众之间的距离,凸显“以人为本”的服务理念,彰显档案馆服务的人文情怀,成功塑造档案馆亲民的社会形象,提高档案馆公众知晓度和社会美誉度。一方面,用户利用行为是档案用户利用需求外在化和延伸化的具体体现。[13]通过兴趣模型勾勒用户需求场景,积极推动“需求导向型”服务模式,以不断提高档案馆公共服务能力和影响力。另一方面,用户利用行为是改善档案信息服务效果的重要指标。档案馆利用数字化平台监测用户行为数据,通过数据分析,准确研判档案信息服务效果,以调整服务策略,促进档案服务升级。如“数字图书馆推广工程”公众号就是通过监测后台用户行为数据调整服务策略[14]的最佳实践。
3 基于用户利用行为的档案信息精准服务运行机制
面向用户利用行为的档案信息精准服务以数理化的形式刻画用户“数字足迹”,预测用户潜在需求,提升服务质量,是一种基于数据的服务,真正践行了“以用户为中心”的理念。其主要由数据采集、数据预处理与存储、档案用户兴趣建模、档案信息精准服务四部分构成(如图1)。
3.1 数据采集
数据采集是实现档案信息与用户兴趣模型精准匹配的基础。采集数据包括:档案信息资源数据和用户利用行为数据。前者可通过网络爬虫技术从档案门户网站、档案微信平台等获取,如资源ID、标题、关键词等。后者指用户的检索、浏览、下载、收藏等行为,包括用户ID、域名、URL、页面停留时间、转发、点赞、评论等数据,全面揭示了用户的显性需求和隐性特征,是精准刻画用户兴趣模型的重要依据。一方面,可通过问卷调查、访谈法等常规方式进行采集,如Tzavela、Karatisou和Halapi等就运用半结构化个体访谈法收集了72名青少年的网络行为数据。[15]另一方面,还可利用用户日志存储系统、API爬虫等技术对用户在网络环境中登录、检索、浏览、下载网站信息资源时系统自动生成的访问日志、信息服务提供商的应用程序接口数据以及社交媒体实时数据等进行采集。
3.2 数据预处理与存储
由于所采集的数据类型丰富、结构复杂,因此,需进行数据预处理,为后续分析做准备。首先是数据清洗,即将脏数据(如重复值、缺失值)处理为适用于数据分析的干净数据,从而提高数据准确性和完整性。其次是数据集成与转换,即将分散于不同平台(微信、微博、档案网站等)的数据集中整合,并通过数据平滑、数据聚集、数据概化、数据规范化、属性构造等方式[16]实现数据转换,经集中转化后的数据可存储到用户行为数据库。最后是分词处理,将《中国档案主题词表》加入自定义库,并建立停用词表,利用jieba分词对采集的档案信息资源进行切分,用做待处理的分析语料并存储至档案信息资源库中。
3.3 档案用户兴趣建模
档案用户兴趣建模是实现档案信息精准服务的关键环节,决定着服务质量和用户黏度。首先,利用TFIDF(词频-逆文档频率)从档案信息资源库中提取特征值。其次,利用LDA模型(又被称为狄利克雷分布模型)计算文档主题与特征词的概率分布,从而得到每篇文档所对应的主题和主题词,即“URL—文档—主题号—主题词”并保存于档案信息资源主题库。最后,通过URL映射每个用户ID对应的主题词,统计其浏览时间、下载数据、评论数据等。同时根据用户兴趣的一般规律(用户对主题关注度越高,浏览时间越长,产生下载、收藏、分享等行为的概率越大),将用户不同的行为赋予不同权重,通过计算每个ID用户对应的主题特征值以衡量用户兴趣度大小,并对其进行排序選出Top-n的主题词作为用户兴趣标签,从而构建用户兴趣模型。
3.4 档案信息精准服务
精准服务既是整个环节的目的和归宿,也是数据采集的重要来源。其主要包括:①精准推荐。档案馆依据用户行为兴趣模型采用协同过滤或内容推荐等方式向用户推送感兴趣的档案信息资源,实现档案资源与用户的关联、档案资源之间的关联以及用户之间的关联,进而节省用户时间,提升服务效率,增强社会存在感。如美国国家档案馆基于协同过滤的交互推送服务,通过Email或虚拟社区平台预测用户感兴趣的资源,帮助用户找到相应页面、组、事件等,[17]满足用户需求。②精准定位。基于“物以类聚,人以群分”的原理,利用关联技术对用户需求的内部关联进行规范化语义描述,聚类不同用户,实现用户类型的精准定位。如英国国家档案馆通过分析用户数据,依据不同用户认知水平高低、行为习惯和兴趣偏好将用户分为漫步者—初级用户、探索者—中级用户、追踪者—高级用户三种不同类型,[18]为其提供差异化服务。③定制服务。针对用户兴趣模型提供个性化的定制服务,如定制浏览模式、定制检索路径等,满足用户个性化的信息需求。如中国家谱知识服务平台提供地图检索形式,用户可在地图上任意绘制多边形,定制个性化的地图检索方式,查询相关信息。
4 基于用户利用行为的档案信息精准服务耦合路径
大数据时代,档案信息精准服务的实现应坚持以用户为导向,以用户利用行为数据为基础,以精细管理为抓手,集聚各类资源要素,提升馆员数据素养,建立法规技术屏障,充分发挥档案赋能社会的价值。
4.1 以精细管理统筹精准服务
(1)加强过程监管。档案馆应本着“前端控制、全程管理”的理念,建立调查研究、精准服务、服务反馈、服务改进等全过程循环体系,以达到优化档案信息服务流程、提升服务能力的目的。首先,要事前调研。即运用定量和定性研究方法调查用户信息需求、档案信息服务现状及技术要点,明确实施精准服务的必要性和可行性。其次,要事中监测。由于用户信息需求会受时间、情感、状态等因素影响而变化,档案人员需密切关注用户行为动态轨迹,及时调整用户兴趣模型,监测服务效果。最后,要事后评估。采用内部评估、用户评估、第三方评估等方式对档案馆精准服务效果、服务方式等进行全面阐释和比较分析,形成持续改进反馈意见表,以不断完善用户需求驱动下的服务模式。
(2)落实管理责任。《“十四五”全国档案事业发展规划》指出:“全面建立和落实档案工作责任制,优化档案工作检查考核机制,各级党委将档案工作纳入年度考核内容。”[19]因此,档案馆应强化责任意识,落实管理责任,使档案服务在新时代更具科学性和精准性。一方面,明确工作职责,确保管理规范化。档案精准服务是由档案机构、信息技术机构以及用户构成的集数据采集、数据分析、信息服务为一体的有机系统,需准确划分各主体部门开展精准服务的职责(如表1)及阶段性目标,做到既分工明确,又通力合作。另一方面,量化绩效考核指标,调动馆员积极性。如东莞市图书馆围绕其事业发展目标和用户需求,运用平衡积分卡原理设定关键绩效指标及测量周期,通过各种渠道与各部室、员工沟通绩效测量,实施绩效奖励。[20]
4.2 以资源要素保障精准服务
(1)整合馆藏资源。档案馆藏资源整合首先要解决技术系统异构、数据结构异构,以及档案资源管理中条块分割、各自为政所导致的“信息孤岛”问题。如运用关联数据解决非结构化、半结构化数字档案资源异构问题,实现“资源孤岛向互联资源空间”[21]的转变,使用户只需一次搜索,便可发现全部档案信息。其次,要整合同质机构资源。图书馆、档案馆、博物馆是国家公共文化服务体系的重要组成部分,彼此独立但又相互联系,可采用合作制、项目制等方式整合档案资源,促进交流与合作。如国际敦煌项目(IDP)融合图博档多个机构参与,旨在向全世界各层次的使用者提供敦煌文献图像,促进互联网免费获取服务。[22]
(2)激活用户数据。用户行为数据是建立用户兴趣模型,实现精准服务的前提,档案馆需调动一切资源要素激活用户数据。一方面,扩大微博、微信等新媒体的运用,为用户构建良好的沟通平台,实时掌握用户反馈数据,从而为全面完整地收集用户行为数据提供来源。如美国国家档案馆将其账号嵌入Facebook、Twitter、Pinterest、博客、Flicker、Youtube等多个第三方社交平台,并利用谷歌分析活动工具来跟踪用户在档案社交平台上的数字足迹。[23]另一方面,建立专门的档案服务评估反馈系统,积累用户原始数据。如英国国家档案馆(NAUK)构建用户反馈平台,根据用户反馈信息及时调整服务方式和内容以满足用户的精准服务需求。[24]
4.3 以数据素养推进精准服务
(1)强化数据伦理。数据伦理是数据素养重要内容之一。科学、合法的数据伦理观可以促进数据有效流动和增值,实现档案信息服务的“提质增效”,推动网络空间信任体系的建设。在国家层面,应建立体系框架限定采集利用数据的行为。如英国的《数据伦理框架》,明确数据伦理的原则,对数据采集、存储、处理等全过程可能出现的伦理问题提出了规范性要求。[25]在组织层面,可于新一轮机构改革中建立专门的“数据伦理”组织机构或将其纳入“大数据管理局”“大数据中心”等机构职能范畴中,为档案数据素养的培育和数据伦理的提升奠定组织基础。在个体层面,档案馆部门人员可自主学习相关知识,提高数据伦理意识。如厦门大学开设了《大数据导论》(通识课版)慕课,用户可登录中国大学生MOOC网站参与学习,培养数据思维,增强数据安全意识,提高对数据的判断和利用能力,从而形成“意识先行、全程防范”的良好格局,以更好姿态为用户提供精准服务。
(2)提升数据技能。数据技能是数据素养的重要组成部分,也是预测用户需求,实现档案信息精准服务的必要条件。一方面,应建立科学完善的教育体系。档案信息的精准服务在很大程度上取决于数据技能的高低,更取决于所培养的人才。因此,应从源头完善现有教育体系,丰富档案课程内容,如增设“Python实战分析”“数据分析工具运用”等技术型选修课程,为档案信息精准化服务提供复合型人才。北卡罗来纳大学教堂山分校信息与图书馆科学学院除开设电子文件管理、档案与文件管理概述等常规档案课程外,还开设了自然语言处理应用、可视化分析、文本挖掘等操作技能型课程。[26]此外,可通过专题讲座、培训等提高馆员的业务能力。如中国科学院文献情报中心自2014年起,就已围绕“数据权益、数据共享、安全保护、获取数据、分析数据、运用数据”等主题开展了系列讲座。[27]
4.4 以法规技术维护隐私安全
(1)完善法律规范。“法者天下之公器”,法律规范是维护档案用户个人数据安全强有力的武器,是处理档案用户与社会关系的重要凭证,更是维系社会和谐稳定、促进社会公平的良药。因此,为保障档案用户数据的采集权、知情权和隐私权,一方面应强化《宪法(2018年修正)》《侵权责任法》《中华人民共和国网络安全法》等法律法规中所涉数据隐私条款的运用,并辅以操作性强的实施细则、办法等,明确个人数据的归属范畴以及非法下载、利用时需承担的法律后果。另一方面,应借鉴国外成熟的法规体系,如澳大利亚《1988年“隐私权法”》《2013年隐私条例》《澳大利亚隐私管理框架》《2018确保个人信息安全指南》等[28];美國《隐私法(1974)》《电子通信隐私法》《视频隐私保护法》等,完善我国档案数据隐私安全法律法规。
(2)嵌入信息技术。“科技是国家强盛之基”,也是规避用户“信息选择焦虑”“信息选择模糊”的有效措施,更是维系用户数据隐私与精准服务关系的重要纽带。首先,要强化监测追踪技术。监测追踪技术通过跟踪识别异常行为,准确定位用户信息,提高用户利用行为的可追溯性,保障用户数据隐私安全,增强档案用户与档案馆的信任度,促进档案服务升级。如一旦发生数据泄露,可利用区块链技术的时间戳和梅克尔树技术追踪、调查何时何地何人导致了数据泄露,[29]实现“责任到人”。其次,要固化加密保护技术。档案馆可选用非对称加密、同态加密、多级加密、隐私保护选择聚类算法等提高用户行为数据的密级强度。如上海市浦东新区档案馆采用加密技术确保用户信息与数字档案在网络空间的安全,[30]为精准服务保驾护航。
*本文系国家社科基金项目“综合档案馆社会影响力评价及提升策略研究”(项目编号:20BTQ106)阶段性研究成果。
注释与参考文献
[1]朝乐门.信息资源管理理论的继承与创新:大数据与数据科学视角[J].中国图书馆学报,2019,45(2):26-42.
[2]朱琳.《数据时代2025》预测2025年全球数据将攀升至163ZB[EB/OL].[2021-06-22].http://www.xinhuanet. com/fortune/2017-05/11/c_129601735.htm.
[3]国家档案局政策法规司.2020年度全国档案主管部门和档案馆基本情况摘要(二)[EB/OL].[2022-04-05]. https://www.saac.gov.cn/daj/zhdt/202108/6262a796fdc3487d93bf a7005acfe2ae.shtml.
[4]杨智勇,金波,周枫.“智慧型”档案信息服务模式研究[J].档案管理,2018(6):21-25.
[5][18]苏君华,牟胜男.用户画像视域下档案馆精准服务:内涵、机理及实现策略[J].档案学通讯,2020(2):58-66.
[6]李财富,余林夕.基于档案用户小数据的精准化档案信息服务探析[J].档案与建设,2018(8):4-7.
[7]聂云霞,何金梅,肖坤.基于小数据的档案信息服务精准化研究[J].山西档案,2021(2):5-13+24.
[8]张炎培.巩固脱贫成果 服务乡村振兴——“十四五”时期青海精准扶贫档案工作探究[J].中国档案,2021(5):24-25.
[9]李广都,叶毅.基于公共服务理念的综合档案馆数据精准推荐服务分析[J].中国档案,2019(2):70-71.
[10]王春晖.论档案文化产品开发的导向[J].档案学研究,2017(S2):87-89.
[11]赵跃.大数据时代档案数据化的前景展望:意义与困境[J].档案学研究,2019(5):52-60.
[12]张帆,吴建华.基于档案治理的档案信息资源开发模式转型研究[J].档案学通讯,2019(6):18-26.
[13]吕元智.基于用户利用行为分析的档案知识集成服务实现策略研究[J].档案学通讯,2018(5):56-61.
[14]高馨,李晓彤.基于用户行为数据分析的公共图书馆微信服务——以“数字图书馆推广工程”微信公众号为例[J].图书馆杂志,2020,39(6):56-60.
[15]TZAVELA EC,KARAKITSOU C,HALAPI E,et al. Adolescent digital profiles:A process-based typology of highly engaged internet users[J].Computers in Human Behavior,2017(69):246-255.
[16]白宁超.Python数据预处理:机器学习、人工智能 通用技术(1)[EB/OL].[2020-05-31].http://www.wjhsh. net/baiboy-p-sjycl.html.
[17]梁孟华.基于用户兴趣图谱的数字档案资源交互推送服务研究[J].档案学研究,2019(2):81-87.
[19]中共中央办公厅,国务院办公厅.“十四五”全国档案事业发展规划[EB/OL].[2021-06-13].https://www. saac.gov.cn/daj/yaow/202106/.
[20]杨累,赵爱杰.基于事实的管理——东莞图书馆绩效评价与过程管理的实践思考[J].图书馆建设,2013(7):15-19.
[21]王志宇,熊华兰.语义网环境下数字档案资源关联与共享模式研究[J].档案学研究,2019(5):114-119.
[22]贾琼,王萍.数字人文视角下LAM资源整合路径研究[J].情报科学,2021,39(4):157-164.
[23]张江珊.美国国家档案馆社交媒体策略发展的比较研究及启示[J].档案学研究,2018(4):117-122.
[24]周林兴,林腾虹.用户画像视域下智能化档案信息服务:现状、价值、运行逻辑与优化路径[J].档案学研究,2021(1):126-133.
[25]賀佳瀛.美国总务署草拟联邦数据伦理框架[EB/ OL].[2021-05-31].https://baijiahao.baidu.com/s id=167730 6731850263652&wfr=spider&for=pc.
[26]NUC SCHOOL OF INFORMATION AND LIBRARY SCIENCE.Courses|sils.unc.edu[EB/OL].[2021-06-13].https://sils.unc.edu/courses.
[27]吴爱芝,王盛.高校图书馆数据素养教育体系设计研究——以北京大学图书馆为例[J].大学图书馆学报,2020,38(6):96-103.
[28]刘芮,谭必勇.数据驱动智慧服务:澳大利亚政府数据治理体系及其对我国的启示[J].电子政务,2019(10):68-80.
[29]陈兰杰,闻航.基于区块链的开放政府数据个人隐私保护模型及实现机理研究[J].图书馆理论与实践,2021(1):67-72.
[30]张丹.面向群体交互的档案服务系统构建——针对馆员与用户的分析[J].档案学通讯,2021(1):58-65.