邹彩霞
(单县社会保险事业服务中心,山东 菏泽 274300)
随着大数据时代的到来,数据挖掘技术在文件管理中的应用将进入一个新的发展时期。档案学界早就提出了知识管理和知识发掘,但知识发掘仍然停留在概念和理论研究阶段。大数据挖掘,即从大数据挖掘知识的大数据挖掘技术,有效地解决数据与知识之间的差距,是将数据转化为知识的有效途径。因此,档案学研究者认为,“档案的现有工作将转移到档案资源的数据分析、数据挖掘方向,对大量数据的分析处理将成为档案的主要工作”,“档案信息服务的基本基础不再是搜索,而是智能化的数据挖掘”。
大数据时代对数据挖掘技术的根本性变化使数据的深度挖掘成为可能,对大量数据进行分析和智能挖掘,从管理角度得到最佳结果,数据必须全面、稳定、有价值,对数据进行深度挖掘是必要的。
数据挖掘是对大量数据建模,通过数学模型整理和分析企业海量数据,使企业能够理解不同的客户或不同的市场部门的技术。从海量数据中找到企业所需知识的技术方法是相同的。数据深度挖掘是对数据建模、数据分类、统计分类、寻找数据分布相关生的过程,也是探索规律的过程。例如,档案管理员想做好文件编制研究主题。不仅需要对用户进行深入挖掘,包括文件卷数、文件使用次数、复制文件数、文件发行证明数,还需要用户访问记录,包括网页上使用的关键字、下载记录等。用户应利用网页时间和频率等信息进行深度挖掘后再利用。其次,根据档案用户需求特点预测未来趋势,结合社会热点选定文件编辑标题,让文件编辑部门拿出用户满意度的编辑成果。对于文件利用,可以深入挖掘文件使用登记数据库,分别选择不同方面的数据进行建模,掌握不同文件利用形式的变化趋势,分析和预测文件利用趋势,将高频率文件的全文数字化,提高文件利用效率,起到保护文件原件的作用。
因此,档案数据的深度挖掘是大数据时代的主要特征,档案学的发展过程告诉我们,所有主要技术变化都必然会影响档案学的发展,例如计算机及网络技术的引进。引起了文件管理理念和实践的变化,改变了文件和档案的处理过程。大数据技术对归档数据的深入挖掘为文件管理过程从粗放到精细化提供了可能性。
大数据挖掘技术以传统数据挖掘为基础,利用数据仓库,建立“泛关系”聚合分类模型,采用海量数据分析方法,机器和人类一样本具有意义的知识,提供公开信息的视觉视图,可以说是传统数据挖掘方法的深化。由中国人民大学网络和移动数据管理研究所开发的ScholarSpace,大型数据处理的最基本流程包括数据源、数据提取和集成、数据分析、数据解释等流程。大型数据技术对存档数据挖掘由数据收集层、数据整理层、数据分析层、数据展示层组成。
1)数据收集层收集高质量的存档数据,为文件管理细分奠定基础。数据收集是大容量数据技术处理过程中最基本的步骤,高质量数据是大容量数据技术发挥性能的前提,大容量数据技术只能在高质量、大容量的数据环境中提取隐含和有用的信息。大容量数据具有实时和动态特性,因此“在线”、“近线”和“离线”的各种数字资源都是收集对象。为了使获得的数据更具代表性,获取数据信息的方法尤为重要。数据收集层收集来自不同数据源的数据,准备归档数据挖掘的后续工作[1]。
2)数据清理层将更改现有的数据处理方式,以突出文件管理微调过程。通过多种渠道获得的存档数据种类复杂,结构多样,可以通过处理、合并和存储实现,首先,将结构复杂的数据转换为单个或容易处理的数据。现代互联网应用呈现出半结构化和非结构化数据大幅增长的趋势,这些资源将成为关口的重要来源。例如,文件系统的日志数据运行等数据需要转换为结构化数据,形成文件集成语言。二是对收集到的数据进行“去噪”和“清洗”,以确保数据的质量和可靠性。因为原始数据有噪音数据、重复数据等句子,所以为了提高要发掘的数据质量,对数据进行分析、清理和重组。第三,存储整理后的数据,按类别放置专业的数据群,减少数据查询和访问时间,加快数据提取。三大数据技术:从横看档案数据的深度挖掘、文件管理微调、最大数据技术在文件管理中的应用两个方向。以大型数据挖掘技术为中心,从数据收集、整理、分析、展示等技术解决方案纵向来看,以数据产品为中心,逐步进行档案资源挖掘、用户数据挖掘和关系洞察力及趋势预测。大容量数据技术通过对档案数据的深度挖掘,优化对档案资源和用户需求的双向控制,强调管理精细化趋势。
由于缺乏全面的数据挖掘和深度集成,归档资源存储集中在缺乏轻量级深度挖掘的问题上,因此,通过对归档资源数据的深度挖掘,证明数据价值,创造新的价值。第一,大数据时代要树立“大档案”工作理念,重视数据积累,不仅要建立档案资源体系,还要建立数据资源体系概念。其次,创建共享归档数据库。以省为单位建立集中、规范、共享的存档数据存储库,使每个存档集合相互连接。成为内容丰富、不受物理存储限制的信息互联共享、归档、数据资源网络。最后,利用云计算:计算平台和处理技术,建立可用于实时接收归档数据或对非实时数据进行分类,作为归档用户提供服务的平台的归档数据资源网络[2-3]。
1)用户数据挖掘。用户数据挖掘的准确洞察力、准确的服务、提高档案用户身份,实现档案服务价值用户数据挖掘包括以下几个方面: 首先是对用户信息的数据挖掘。要提取用户的信息,必须查看用户访问服务器时留下的日志文件,跟踪用户行为,推测用户的兴趣,提供个性化的利用服务。其次挖掘用户统计搜索和浏览记录。例如,通过统计分析,用户可以分析对文件目录的点击率,选择点击率高的文件进行数字化。分析用户搜索时使用的文件搜索词,补充和补充数据仓库的搜索关键词,提高准确性。通过统计分析,分析用户访问网页的频率,展开深入的信息服务。
2)关系洞察及趋势分析。存档资源和用户数据都是通过挖掘获得的数据往往是孤立的数据点,因此,要使这些数据集成为完整的网络,必须对数据网络背后的数据关系进行深入分析。例如,如果只挖掘文件收集情况,就只能得到档案人员和文件之间的关系;如果挖掘文件利用,就只能得到文件和用户之间的数据关系。但是,要准确地掌握文件之间、用户之间、档案和用户之间的关系,必须整合这些孤立的数据点,确保整个档案网络,才能预测文件开发、社会服务等 趋势[4-5]。
大数据时代、大存档、大服务、智能存档等已成为存档工作的新发展,随着存档管理创新的深化,大数据技术将实际落实到文件管理的各个环节,数据挖掘技术将更加熟练地用于文件管理。