田 伟 韩海涛(天津工业大学档案馆,天津,300387)
大数据时代档案馆服务创新研究*
——基于天津高校档案数据变化
田伟韩海涛
(天津工业大学档案馆,天津,300387)
[摘要]大数据时代为档案馆带来了新的机遇与挑战。文章通过对2011至2014年天津市高校档案馆馆藏资源及其利用情况的实际统计调研,分析了当前大学档案馆用户需求的变化趋势,进而提出了大数据时代档案馆服务创新策略:构建用户需求感知引擎、拓展深化档案数据服务内涵、推进档案个性化服务实施。
[关键词]大数据档案用户协同过滤高校档案个性化服务[分类号]G271
大数据时代已经来临,未来档案馆的核心竞争力很大程度上取决于将档案数据转化为信息和知识的速度与能力。档案馆作为社会上存储信息、提供信息服务的信息中心,必须主动利用这些变化来进行战略性创新以满足需求、创造未来[1]。
在这样的时代背景下,档案馆要积极研究如何将现有的档案馆建设成为依靠归集存储大数据的“数据仓库”和实现大数据增值的“数据银行”,并使档案工作者由“一把锁”提升为数据科学家。只有实现这样的历史性进步,才能真正实现档案馆的可持续发展。
为此,本文从分析当前档案用户现实需求入手,以天津高校档案工作统计数据为切入点,分析当前档案工作为迎接大数据时代而应采取的策略。提出档案馆目前应当立即着手在感知用户需求、拓展档案数据服务内涵、实施个性化档案数据服务三个方面开展相关研究与实践工作。
为了调查天津普通高校档案馆馆藏资源及其利用情况,我们专门设计了相关的调查问卷,问卷中包含馆藏资源、利用情况统计等内容,从各个维度体现了当前天津高校档案馆资源及运行总体状况。
此次调查的范围涵盖天津的20所普通高校,调查所覆盖的时间跨度为2011年度至2014年度。
文章分别从利用档案类别、利用目的、利用者身份等维度进行分析,并以卷次及人次为单位进行统计。
首先,根据利用档案的类别,对2011年度至2014年度的天津高校档案利用情况进行统计并生成2011 至2014年度天津高校档案分类别利用趋势图(图1)。
从图1可以看出,2011至2014年度内,对档案利用的总量(卷次)呈现比较快的增长势头。其中教学档案一直保持高位增长状态,而财会档案在2014年度有一个较快增长,行政档案与党群档案在利用数量上比较接近,均呈现平稳增长的势头,其他类别的档案利用数量相对较少,处于低位增长状态。
再根据利用档案的人次,对2011年度至2014年度天津高校档案利用情况进行统计,生成2011至2014年度天津高校档案分类别利用趋势图(图2)。
图1 天津市普通高校档案分类别利用趋势图(卷次)
图2 天津市普通高校档案分类别利用趋势图(人次)
如图2所示,2011至2014年度内,来馆利用档案的人次数量不断增长。其中,对教学档案利用的人次最多、增长最快,远高于其他类型的档案利用人次。对高校其他类别档案利用的人数处于低速增长状态。
对于上述的档案利用,我们以下从档案利用目的角度进行分析。基于利用目的的高校档案利用卷次趋势变化图如图3所示。
以人次为单位统计的不同档案利用目的情况变化趋势图如图4。
最后,2011至2014年度天津高校档案利用主体变化趋势图如图5所示。
其中,我们对2014年度天津高校档案利用主体构成情况生成比例图如图6所示。
(1)从2011年至2014年天津高校馆藏资源增长较快。截止2011年初,20所普通高校档案馆共拥有档案584685卷,与2014年底档案数量相比,同比增长约15﹪。根据我们所统计的数据,其中具体的档案种类相应也分别有较大增长,篇幅所限在此不详细列出。其中馆藏电子文件的数量增长幅度最快,这反映了大数据时代的来临。
(2)从利用档案类别看,天津高校教学档案利用卷次及人次数量均居首位,且逐年增长。党群档案、行政档案以及财会档案的利用卷次也比较多。而从利用人次角度考察,这四类档案中,对教学档案利用的人次最多,远高于对其他三类档案的利用人次。这表明了对于教学档案的利用呈现频繁、分散的特点。而对党群档案、行政档案及财会档案的利用,则呈现利用集中、每次利用数量大的特点。这反映了当前高校档案馆承担校务管理决策和师生办理事务信息支持的重要职能,表明档案馆业务与本单位主要职能联系最为紧密,应围绕这个原则拓展大数据的档案服务。
(3)从利用档案目的角度分析,以行政管理为目的的利用卷次最多,而以学籍证明为目的的利用人次最多,这进一步说明了两类利用的不同特点,表明了高校档案馆应同时具备与完善频繁分散和突发集中两种信息服务模式,并紧密围绕档案用户需求和利用目的,推进数字化以及智慧档案馆建设工作。
(4)对于档案利用主体的变化与构成,我们可以看到4年间天津高校档案馆用户构成基本稳定,档案利用需求最大的是毕业生和在校生,这也符合我们上述关于教学档案利用频繁分散特点的分析。因此高校档案馆面对大数据时代进行服务创新时,应立足于自身主要的服务对象,推进高校档案服务用户满意度提升,努力消除当前“信息孤岛”和“烟囱工程”现象,全面考虑各类服务对象的特点,构成大数据时代服务体系。
根据上述调查与分析,在目前档案工作的基础上,面对大数据时代背景,高校档案馆应着重在以下几个方面实施创新策略:
(1)构建档案用户信息需求感知引擎
让用户根据自身的信息需求、获得所需的档案数据资源,这是大数据时代档案服务由“供给导向”向“需求导向”发展[2]的历史要求。而目前我们通过调查发现,对档案用户利用需求情况的感知,往往采用事后统计分析的方式,缺乏自动的、智能的系统与机制。这造成档案馆无法对用户的需求进行即时获取并快速作出反应。而且,当前各档案馆对用户的档案需求记录与分析也很不详细。因此,档案馆应当立即着手建立对档案用户信息需求进行即时感知、适时反应的信息系统及其配套机制,即用户信息需求感知引擎。
图3 天津市普通高校档案利用需求目的变化趋势图(卷次)
图4 天津市普通高校档案利用需求目的统计分布图(人次)
图5 天津市普通高校档案利用主体趋势图
图6 2014年度天津普通高校档案利用主体构成图
以高校档案馆为例,应在实现数字化工程的基础上,建立记录用户特征、档案利用行为、用户对档案评价等数据的信息系统,并建立与完善相应的配套制度和应用场景,从而形成高校档案用户需求感知引擎。对于档案用户需求,变事后统计为实时感知,获知用户视角下当前档案服务的优点与不足。同时感知引擎所收集的数据,可使档案馆获得对用户未来需求的预测能力,并据此采取相应的策略与行动,这是大数据时代智慧档案馆的重要特征之一。
(2)拓展与深化档案数据服务的内涵
大数据时代要求档案馆重新审视所面对数据的价值,应肩负起数据仓库与数据银行的历史使命。为此,档案馆首先应当拓展大数据时代档案数据收集的范围与内容。很显然,只有将大数据资源切实纳入档案范畴之内,才谈得上实现真正的“大数据档案”。
相关研究表明[3],感知式系统数据是大数据资源的主要来源,体现了大数据的内在价值。然而,当前档案馆藏制度与实践还基本没有囊括该类型的数据。例如高校档案的收集与服务主要集中于运营式系统,即发生校务活动进而记录产生数据,如上述的教学档案、党群档案、行政档案等等。而对于大数据时代的高校档案馆,应当面向大数据时代的师生活动及用户需求,根据用户信息需求感知引擎等方面的数据,适时拓展现有档案分类体系下档案的收集范围与内容。特别是应在传统档案收集的基础上,加强对用户原创内容和感知式系统数据的收集。例如:反映学生思想活动的校内论坛数据、校园运行情况监测数据、校内无线终端运动定位信息、师生教学行为数据等。这需要高校档案馆从档案收集制度、存储方式、服务内容等方面进行全面地推进。而这样做的目的,是为了使档案馆的馆藏切实囊括大数据时代所产生的信息,不使大数据面临因无处长期保存而灭失的局面。特别是一些大数据只有经过一段时间的连续存储或是集中分析后,才能从中抽取有价值的信息。因此档案馆应成为保存大数据资源可靠、安全的数据仓库。
在此基础上,档案馆应努力使自己具备一定的数据挖掘处理能力,以满足各部门对大数据抽取知识、支持决策等方面的需要。只有大数据能够转化成为高校的决策依据或事务支持信息的时候,才是大数据真正显示其魅力的时候。这就如同银行中保有的货币资金流转起来方才会产生效益一样。因此,档案馆应努力从资源整合、人员配备、技术进步等方面提升自身大数据分析处理能力,将自身建设成为能够实现馆藏数据增值的数据银行,从而深化档案数据服务的内涵。由此可见,对大数据的妥善长期存储及其知识抽取是档案馆面临的新的重要任务,是大数据时代校务活动对档案馆藏数据服务的必然要求。
(3)推进个性化档案数据服务
实现个性化服务是大数据时代智慧档案馆的一项重要特征。而档案服务的个性化关键核心应当是用户所获信息的个性化。当前一些相关研究中[4]已经对档案用户个性化信息利用模型等问题进行了一定的研究。因此,我们进一步提出在划分档案用户信息需求类型的基础上,采取相应具体的个性化实现技术与服务策略。
根据上文统计,高校档案利用活动从总体上可以分为两大类:
一、文研利用。用户出于文化研究或汲取知识目的,查询某一主题的档案资料。如上述的学术研究、编修史志、宣传教育等均属于这一类别。其特点是用户的需求主要基于自身活动的兴趣,检索档案结果往往范围分布较大、目标不特定,且一般直接寻求档案数据文件。该场景用户对获取档案信息的个性化程度、新颖性要求较高。
二、事务利用。用户因办理某事务在档案系统中检索所需的档案资料。上述行政管理、经济建设、学籍证明等属于这一类别。与上述文研利用特点不同,事务利用的特点是档案检索主要基于用户因某事务办理而对档案产生的刚性需求,用户所需档案文件集合内容比较确定,且需求往往是先映射到类再寻求具体数据文件。即用户的档案需求在类别上有共性、在具体文件上有个性。该场景对获取档案信息的贴切性、配套性要求较高。
因此,高校档案馆提供个性化服务时,可采取不同的个性化信息推荐策略。例如,可基于协同过滤技术[5],对文研利用用户采用与新闻、电影、图书等相似的推荐策略[6]。而对于事务利用用户,可对传统的协同过滤技术进行变形,采用先将用户需求映射到档案类,再根据用户属性检索所需文件的推荐策略。而这无疑要求高校档案馆建设档案数据个性化推荐系统,将档案信息的获取从当前单一检索方式推进到智能信息推荐时代。同时围绕该系统建设配套制度体系,从而形成和部署档案馆个性化服务体系。
*本文系2014年度国家档案局科技项目“大数据时代档案馆服务创新与发展趋势研究”(课题编号:2014-X-16)的阶段性研究成果之一。
参考文献
[1]周枫.大数据时代档案馆的特征及发展策略[J].档案与建设.2013(08):6-9.
[2]周枫.资源.技术.思维——大数据时代档案馆的三维诠释[J].档案学研究.2013(06):61-64.
[3]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50 (1):146-169.
[4]万绚,方黑虎.Web2.0时代高校档案馆个性化信息利用模式及策略[J].档案与建设.2012(08):14-18.
[5]马宏伟,张光卫,李鹏.协同过滤推荐算法综述[J].小型微型计算机系统,2009,30(7):1282-1288.
[6]田伟,韩海涛.构建个性化档案数据服务引擎研究[J].档案,2014(12):10-15.
田伟,南开大学计算机专业博士,讲师,主要研究方向为数据库、信息安全、档案管理。
韩海涛,天津工业大学教授,天津工业大学档案馆馆长,主要研究方向为档案学、图书情报学。
Research on the Big Data Era Archives Service Innovation Based on the University Archives Statistics Changes in Tianjin
Tian Wei,Han Haitao
(Archives of Tianjin Polytechnic University,Tianjin,300387)
Abstract:The Big Data era brings new opportunities and challenges for archives. This paper analyzes the archives users’demand characteristics according to the statistics of university archives in Tianjin from 2011 to 2014. Accordingly,it proposes archives service innovation strategy for the Big Data era,constructing archives user demands perception engine,broadening and deepening the archival data service content,promoting the implementation of personalized archives service.
Keywords:Big Data;Archives User;Collaborative Filtering;University Archives;Personalized Service
[作者简介]