高 迪,闻 波
(淮北师范大学 计算机科学与技术学院,安徽 淮北 235000)
信息技术现已成为各国发展的重要标志,如何管理信息以及如何反映信息流通的可变性和复杂性已成为衡量信息系统性能的重要因素。如今,社会信息是多维且复杂的,数据信息更难以管理。自从20世纪90年代数据挖掘技术问世以来,其研究就非常深入,研究范围涉及关联规则挖掘、分类规则挖掘、聚类规则挖掘、趋势分析等[1]。一方面,这些研究基本上是基于结构化数据(例如物联网)的,对异构和非结构化数据研究较少;另一方面,随着网络的快速发展,网络已发展成为一个拥有3亿页的分布式信息空间,其中包括从技术数据、商业信息到新闻报道以及娱乐信息,信息的大量异构和非结构化信息仍在扩展[2]。行业分析师也认为,非结构化数据占企业信息资源的80%,而数据库中的数据仅占20%。基于此,后续研究扩大了数据挖掘的研究范围,对文本、网页、电子邮件等非结构化数据进行了更多的研究,成为了数据挖掘新的研究方向,随着数据挖掘的发展,网络挖掘、文本挖掘和多媒体挖掘应运而生。
如何充分利用文档管理信息数据库已经成为每个文档工作者面临的难题。传统的数据处理方式只是简单的手动统计和计算机查询、汇总和分类。文档交易的数据处理过程与文件管理人员的工作经验和计算机级别紧密相关。但是,随着文档数据的快速增长和文档数据数量的增加,原始的手动方法已不能满足新时代越来越多的复杂文档的需求。因此,通过计算机发现隐藏在文档数据背后的“文档知识”成为一种新趋势。
我们现在生活在网络信息技术时代,通信、计算机和网络技术正在改变着人类乃至整个社会。大量的信息为人类提供了便捷的同时也带来了信息过多和难以消化的问题。随着数据库技术的快速发展和数据库管理系统的广泛应用,人类积累了大量的数据。许多重要信息被隐藏在大量数据之中。人们希望能够进行更高级别的数据分析,以便他们可以更好地利用这些数据,然而,当前的数据库系统无法发现数据间的关系和规则,缺乏挖掘隐藏在数据背后知识的方法,这导致了“数据爆炸但知识不足”的现象。
加拿大学者提出了一种面向属性的简约方法,该方法使用类似SQL的语言表示神经网络查询,在数据库中收集相关数据集,然后将一系列数据推广技术应用于相关数据集的数据泛化,包括属性删除、概念树提升、属性值控制、计数以及聚合等。
不久之后,其他学者提出了一套更完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型来预测时间序列,例如自回归模型、自回归移动平均模型、求和自回归移动平均模型和季节调整模型[3]。
Kohonen网络是典型的自组织神经网络,也称为自组织特征映射网络,其输入层是单层单神经元,输出层是二维神经元,且神经元之间以“墨西哥帽”的形式存在横向相互作用,因此,在输出层中神经元和Kohonen网络之间存在反馈特性,可以用作模式特征检测器。
神经网络是在模仿人脑处理问题的过程中发展起来的一种新的智能信息处理理论。它由大量称为神经元的简单处理单元组成、由此构成了非线性动力学系统。神经网络模拟并抽象了人脑的图像思维和联想记忆,以实现类似于人脑的学习、识别和记忆的信息处理能力。经过40多年发展,神经网络在信息科学和许多其他应用领域中显示出巨大的潜力和广阔的应用前景。
在神经网络发展进程中,学习算法的研究具有非常重要的地位[4]。目前,人们提出的神经网络模型都与学习算法相对应。因此,有时模型和算法之间没有严格的定义或区分。某些模型可以具有多种算法,而某些算法可以用于多种模型中。
在神经网络中,对外部环境提供的模型样本进行训练,并且可以存储模型,这就是使用教师的信号进行学习的感知器。感知器的学习是神经网络最典型的学习。图1表示了一个有老师的学习系统。这种学习系统可以分为3个部分:输入、训练和输出。
图1 神经网络学习系统框
输入单元接收外部输入样本X,该样本权重由训练部门根据神经网络的权重进行调整,然后通过输出单元输出结果。在此过程中,可以将所需的输出信号作为教师的信号输入,并将教师的信号与实际输出进行比较,一旦发生错误,则调整后的样本权重无法控制。
神经网络的学习通常需要耗费大量的时间进行反复训练,以使误差值逐渐接近零。为了减少时间消耗,提高训练效率,提高神经网络的学习速度并减少重复次数是一个非常重要的研究课题。
本研究中文本主要用向量空间模型(VSM)表示,向量空间模型的基本思想是用向量表示文本:(W1,W2,W3,…,W0)。其中Wi表示第i个特征项的权重,文本通常可以选择字、词或短语。实验结果表明,词作为特征项要比字和短语更好,因此,如果要在向量空间中将文本表示为向量,则首先需要对文本进行分段,使用词将文本表示为向量的维数,初始向量表示形式为0和1形式。
如果此单词出现在文本中,则文本向量的维数为1,否则为0。此方法无法反映文字在单词中的作用程度,因此0和1逐渐由更准确的词频代替。词频分为绝对词频和相对词频。绝对词频即在文本中使用词来表达文本的频率;相对词频为归一化词频,其计算方法主要采用公式TF-IDF。
(1)
其中,Wij是文本j中单词i的权重,tfij是文本j中单词i的单词频率,N是训练样本总数,ni是训练文本中的文本数量,分母表示归一化因子。BP算法的本质是获得误差函数的最小值。该算法在非线性规划中使用最快的下降方法,并根据误差函数的负梯度方向修改权重值。定义误差函数e,并将预期输出和实际输出之间的差的平方和作为误差函数:
(2)
(3)
η表示学习率,代表迭代步长,取值范围(0,1),通过重复训练多个样本,参数权重沿减小误差e的方向进行校正,以达到消除误差的目的。从上述公式可知,神经网络的层数越大,则计算量就越大,误差函数的收敛速度越慢。
神经网络的权重学习是一个复杂连续的参数优化问题。如果采用二进制编码,由于编码字符串太长,需要将其解码为实数来将权重值改变为阶跃,从而影响神经网络的学习精度[5]。这里我们使用实数代码,如图2所示。神经网络的每个权重值都以一定顺序级联接成一个长字符串,且字符串上的每个位置都对应神经网络的权重值。
图2 神经网络中权重学习问题的编码方法
网络权重都是根据概率分布来随机确定的,这与BP算法有所不同。在BP算法中,初始权重通常取均匀分布在(-1.0~1.0)之间的随机数,遗传算法的随机分布方法是过去通过大量实验获得的。可以发现,网络融合后权重的绝对值一般较小,但有些权重较大。使用上述初始化方法的原因是为了使遗传算法能够搜索范围内的所有可行解。
数据挖掘与传统数据分析之间的本质区别在于数据挖掘是在没有明确假设的前提下挖掘信息并发现知识。从数据挖掘中获得的信息应具有3个特征:未知、有效和实用。数据挖掘由发现驱动,通过大量分析自动从数据中提取结果,即数据挖掘是发现间接的信息或知识,越出乎意料的信息就越有价值[6]。
事实表是多维模型的核心,用于记录业务交易和进行索引统计,它是数据仓库中的信息单元,即多维空间中的一个单元,用于存储数据。根据不同的主题,设计不同的事实,见表1,其中包括近4年中每个单元的归档主要数据。
表1 文档文件归档目录号事实表
数据仓库系统的开发是一个不断流通、不断成长、不断反馈和不断完善的过程。其设计主要包括模型设计以及数据仓库的部署和维护。星型模式是数据仓库结构设计最常用的实现模式[7]。该模式的核心是事实表,通过事实表连接各种不同的维度表,并且每个维度表都连接到中心事实表,以下是以文档文件数据为例的日期维度表,其维度属性构成概念层,见表2。
表2 日期维度表
在建立良好的文件数据仓库的基础上,将文件数据从文件信息管理系统传输到档案数据仓库中。此外,由于某些历史和管理原因,档案数据库中存在许多问题,例如,文件数据描述标准不统一,数据文件中的人为输入错误,字段中多个文件数据库不一致,索引存在空值或重复值,代码文件不统一,字符格式不固定、数据格式混乱,大量数据属性为空等。这些问题严重影响了数据挖掘的质量和效果,因此在构建数据仓库之前必须对这些数据进行处理。在数据库中,根据某些标准和要求使用SQL语句将事务处理系统中的数据导出到临时中间数据库中,以进行后续的数据处理。某档案馆的档案归档目录数据示例见图3,图中列表主要使用SQL Server 2008数据库进行数据访问。
图3 档案归档目录的星状模型
基于BP神经网络分析采用十折交叉验证(10-fold cross-validation)法,将90%的数据作为训练数据集,10%的数据作为测试数据集,在训练之前设置期望误差为0.003,训练得到神经网络仿真误差RMSE统计结果,见表3。
表3 神经网络误差统计
由表3可知,训练数据集和测试数据集误差均值和标准差都较小,且训练集的均值为0.068 0,测试集的误差均值为0.064 8,两者之间差距极小。因此,本研究文档信息管理相关属性的选择是可靠的。
建立数据仓库的第一步是确定对象,并为不同的用户建立不同类型的数据仓库。数据仓库的主题是对象分析中涉及的数据和互连的关键指标,主题的划分主要基于对档案数据库的分析以及对档案实际人员的采访[8]。文件数据的格式和内容相对稳定和成熟,现有的档案数据库可以很好地反映过去文件工作中数据分析的需求。另外,需要进一步探索日常工作中潜在的用户需求,以便我们更广泛和全面地了解归档数据仓库建设中所需的主题划分。
SSIS是Microsoft SQL Server integration services的简称,是用于生成高性能数据集成解决方案的平台,其中包括数据仓库的提取、转换和加载包,可以使用SQL Server集成服务进行数据清理。常用的处理方法包括合并、联接、聚集、排序、派生列、条件拆分、行计数、单词搜索、单词提取、字符映射表等。SSIS数据预处理主要在数据流模块中进行。在现有文件目录数据表中,多个属性中有大量空值(如表3),如果一条记录包含一个空值就删除该记录,则它最终可能会丢失数据库中大量实际数据中包含的信息,最后可能会得到一个较小的数据库,这将更改原始数据库的组成。
在处理空值的问题时,通常会用固定值来对空值进行填充。例如,将分类级别作为空白统一替换为“内部”,并将保留期限替换为“长”。在实际操作中,可以采用不同的方法来处理数据值缺失的问题,然后建立模型用来相互比较,从而可以选择高精度和低成本的方法。数据值缺失的原因可能是多方面的,有些字段可能是空缺的,如归档部门人员输入的数据文件丢失,但也可能是该文件已经不具有该字段的内容。例如档案文件号,只是拥有一定数量的高级人才的学校有档案文件号,普通学校没有固定的档案文件号,这种缺失值表示学校中文档的背景与上级文档的背景不同。再举一个例子,如果在条目中设置规则的文件号,例如当输入“空”时文件号为空,那么,当文件号属性无数值时,可以由备案部工作人员得出结论:输入错误。
文档数字化是通过扫描或拍摄文档来形成电子文档的过程,这在文档量化方面取得了一定的进步。在分析和挖掘文档和档案的数据表中的数据后,发现很少使用在title属性中带有“superior text”字样的文件,这表明整个过程存在文档库的初始识别中的文档集合。本研究得出以下结论:(1)文件和档案的编目标准不统一且不准确,许多更适合数据挖掘的属性数据都丢失了,特别是由于寄存器中属性设置不完整而导致的部分删除,这使得具有较大挖掘价值的属性无用,从而失去了数据挖掘的意义;(2)前端数据库中收集的大多数数据都需要手动记录,所有这些都基于实体文件的各种源数据;(3)档案实践管理活动中的许多数据,例如Web文件数据、文件接收数据、手工的各种电子数据等,尚未被收集到系统中;(4)采用BP神经网络算法对文档进行分类管理更加高效。