茹敏敏
企业档案工作作为企业管理的一部分,必须适应现代企业和新时期的发展需要,树立新的观念,建立新的体制,运用新技术。利用数据挖掘技术,进行企业档案管理并严密控制风险是拓展企业档案管理的一条新途径。
数据挖掘技术是指从大量的数据中通过算法搜索隐藏于其中信息的过程,它是通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现。
一、数据挖掘的功能
数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类。
1、关联分析
关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。
2、聚类
输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类技术主要包括传统的模式识别方法和数学分类学。
3、自动预测趋势和行为
数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
4、概念描述
对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
5、偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。
二、数据挖掘在企业档案管理中的应用
1、资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案、电子文件中心中存储的各类电子档案、档案软件收集的信息、档案信息网建设和维护信息。我们从企业档案用户的信息需求出发,数据挖掘为企业档案馆全面掌握和准确理解档案用户的信息需求提供了方法。
(1) 利用Web访问信息挖掘技术发现其中的关联模式、序列模式和Web访问趋势等,构建多维视图的用户兴趣模型。从而可以确定档案信息或服务受欢迎的程度,发现用户访问模式和用户需求的趋势,从不同侧面来研究用户的信息需求,为优化档案馆的档案信息资源建设提供了科学依据。
(2) 收集企业档案网web服务器保留的用户注册信息、访问记录,以及有关用户与系统交互的信息等原始数据,经过清洗、浓缩和转换形成便于统计分析的用户查阅数据库、日志数据库、用户定制信息库、用户反馈信息等各种数据集合。
2、从建设企业档案馆馆藏信息资源出发,数据挖掘为企业档案馆提供了选择一条科学发展道路的重要依据。
(1) 利用档案网和档案管理软件访问信息的挖掘分析出档案资源的利用率,将利用率高、需求量大的传统载体档案优先数字化。例如:通过对档案信息的访问记录、检索请求中用户请求失败的数据进行分析,按类统计档案拒用集和频繁利用集,结合聚集算法发现馆藏资源的缺漏,有针对性地补充和丰富档案信息资源。
(2) 在企业档案管理过程中利用文本挖掘,运用关联、分类、聚类等方法,从海量档案信息中按照相关专题进行挖掘、分类、加工、整理和有序化重组,构建特色档案信息库及各类专题档案信息库等。
3、从做好企业档案馆信息管理工作的角度出发,数据挖掘为优化馆藏信息和对未来工作的预测发挥重要作用。
(1) 在提供利用环节中,对用户每次借阅的信息进行关联分析,发现各类档案信息之间的关联规则或比例关系,这样可以进一步优化馆藏信息。
(2) 开展企业档案馆馆藏信息文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价工作,实现对大量文档集合的内容进行总结、分类、聚类、关联分析、分布分析,通过归纳与总结,发现的知识可以为未来档案工作的趋势进行预测。
三、企业档案管理信息数据挖掘技术应用的风险控制
提前预防,在风险还没有出现的时候就进行遏制是规避风险最有效的方式,也是最经济的方式,对于电子档案来说,应该以其自身的潜在缺陷为根据来实施控制管理,保证内部信息的安全可靠,主要措施有:
1.积极引进最新技术。数据挖掘技术应用在工作过程中存在很多风险,而规避风险的最好的办法就是引进新的技术,新技术可以使电子信息档案更加安全可靠。
2.规范管理,提高档案质量。一要规范归档材料收集工作。要制定、完善、健全收集制度,严格按照文件材料分类方案、归档范围、保管期限的规定收集。二要规范档案整理工作。要严格按照各类档案管理要求进行整理,做到组卷合理、案卷(件)内文件排列有序、案卷标题简明、保管期限准确、案卷(件)封面、卷内文件目录、案卷(件)装订结实美观。三要规范档案管理工作。要实行各种门类、载体档案集中统一管理,方便档案的保管和利用。
3.及时消除风险。为了确保信息档案数据的安全性,及时消除潜在的风险是非常重要的,在计算机维修期内,企业尤其要注意随时可能存在的风险,主动采取应对措施。
4.及时进行预防和保护。为了及时消除危险电子信息档案的因素,有效的避免信息数据受到外界因素的破坏,保证信息的安全可靠。要组织档案管理人员定期或不定期地深入企业检查指导档案工作,发现问题,要及时通报,督促整改,力促规范。
5.分散风险的措施
在电子信息档案管理中,还有一种经常使用的规避风险的措施就是转移策略,所谓转移策略实质上是一种风险的分散,即把风险转到其他的地方,以此来把已经存在的风险降到最低,一般而言,能够从多个角度对风险转移的方法实施修正,如:修改配置模式、购买保险、外包给其他机构、或者与提供商签署服务合同等等。经过这样的处理之后,我们可以把复杂的风险问题进行简化,再对原先实施的电子信息档案管理策略优化改进,创造更加先进的电子信息档案管理系统。此外,还可以与网络供应商互相协调,让供应商的安全服务符合电子信息档案的使用需要。
(作者单位:平山县安全生产监督管理局)