王瑛瑛
(朔州师范高等专科学校 山西 朔州 036002)
在网络信息数据库不断发展壮大的背景下,国内高校的图书馆都在很短时间内完成了对海量数据的积累,人们想要检索特定的信息数据的难度逐渐增加,所以检索技术变得更加有效。对高校图书馆来说,过去的管理重点是登记图书借阅和图书归还,没能及时分析有关数据,没能重视信息资源。数据挖掘技术能够结合基本理论与图书馆具体管理,为图书馆的信息资源管理工作建立相关的档案信息平台。
数据挖掘技术指的是整理并提取储存于数据库的海量的数据信息,并从这些数据信息中将能够为人们所用的数据信息挖掘出来的技术,本质是对数据的处理。其具体功能如下。
这个功能指的是利用浅显且容易明白的语句和词语来描述指定对象的关键特点。在划分类别时应该依据描述对象的关键特点来分类其群体。定义的侧重点在于描述同一数据区的共性特点,而类别的侧重点是区分存在差别的数据对象。
关系发现即对不同的信息变量的潜在性规律以及内部关联进行发现和处理。关系发现能够被分成因果作用类型、时序关系类型、简单关系类型。关系发现功能在商务关联方面和决策分析方面均有广泛应用,此种数据挖掘方式广受人们欢迎。
假如必须分类信息数据与预估信息数据,则应该在对数据进行处理的初期进行有益的习得性操作,设置模型与规定。分类功能通常被用来估算散乱信息,预估功能应该对连续信息进行估计,常见的分类方法包括遗传算法分类、神经网络分类、贝叶斯公式分类、决策树分类、模糊集分类、粗糙集分类,常见的预估技术可以分为非线性回归预估和线性回归预估。
聚合的意思是详细地区分相似的数据组成的各个类别,在分类划分样本时,应该依据组间最小相似度和组间最大相似度。在研究信息对象时,人们通常不能确定它的详细类别。此时,应该使用划分方法、分层方法、网格主导方法、模型主导方法、密度主导方法对类别实行聚合研究操作。
人们常用孤立点指代无法符合信息的常规行为以及无法符合信息的一般模型。因为系统检索的不足,使得信息分析存在偶然偏差,进而使这些信息变成无效数据,最终遭到清除。但是这些信息数据大部分是具有含义与现实作用的,对孤立点进行挖掘的方式包括基于距离、非基于距离、统计学的方法。
确定数据挖掘的目标是开展数据挖掘操作的必要准备工作,例如高校图书馆要想对师生在文献类型方面的需求有所了解,就需要把高校图书馆的文献分成许多类型,在此基础上,对大数据内部的所需信息进行挖掘,以此提高数据挖掘的针对性,从而能够为高校图书馆的信息资源管理提供更加优质的服务[1]。
在准备用户信息的过程中,高校图书馆的工作人员能够在对师生的基本信息进行确认的过程中使用图书馆系统。在高校师生使用图书馆的过程中,借助RFID技术把它们的个人信息反映在系统中。首先,能够在学生查阅文献和图书的过程中完成对其详细记录的获取,获取证件号、获取专业、获取借阅登记记录、获取院系、获取性别、获取年龄、获取类型。其次,在高校图书馆的信息资源管理中,读者借阅的历史记录是其关键数据信息,如果把读者借阅的历史记录当作统计数据的对象,就可以实现对图书条码号信息、索书号信息、读者编号信息、借阅时间信息、书名信息、归还时间信息的整合。通过详细的分类统计与整理分析这些信息,高校图书馆能够对文献的利用效率进行预测与分析。此外,图书馆的文献书目记录和流通日志同样属于借阅历史信息的范畴,是数据挖掘的目标[2]。
3.3.1 数据清理技术
数据清理过程是对数据之中的异常数据进行清理的过程,这样做能够使数据挖掘的结果更加准确。在对图书数据和读者数据进行处理的过程中,工作人员能够发现数据中具有不够完整的数据和不一致的数据,这也印证了清理数据的必要性。在此过程中,应该对数据光滑技术和缺失值处理技术多加利用,把“续借”缺失值和“性别”缺失值替换成unknown,把“年龄”缺失值替换成ageave,如果记录中存在空字段,应该使用手工编写的SQL脚本,如果少数图书的分类号是中文字符,则在挖掘过程中必须进行妥善处理,应该尽快将坏数据删除。
3.3.2 数据整合技术
在对完整的信息进行获取之后,能够使用大数据挖掘技术对数据进行深入地挖掘,此时应该利用面向属性的归纳算法来对数据进行分类,从而得到数据的属性集合。例如,在对高校图书馆的信息资源进行管理的过程中,产生的数据能够分成文献图书数据、记录数据、用户数据、借阅检索图书的集合,这样做能够使数据维度减少,能够起到降低挖掘难度的作用。此时,应该把分散数据导入数据库,从而形成读者的借阅记录。
3.3.3 数据归约算法
当数据仓库运行至一定期限之后,数据量会以很快的速度增长,如果不利用归约算法而是进行直接挖掘,会出现的问题如下:(1)每一个字段都需要占据很大的空间,这会使得内存的占用率提升,从而使内存导入的时间延长。(2)绝大多数单项是汉字字符串,而且候选序列的生产时间和空间开销都会变多,出于节省时间和提高实践效率的目的,应该对全部事务记录进行压缩,把单一事务记录成6个字符串,单一字符必须是小写字符,在系统对属性配置进行读取之后,依据顺序把特定的字母赋予属性值。假如程序读取至“本科”,就会把“a”赋值给本科,会在读到“研究生”时把“b”赋值给研究生,以这样的方式完成对全部属性值的读取,从而能够完成对字母字符至属性值映射表格的建立,通过对读者的数据库进行压缩的方式,达到减少预处理文件数量的目的,使效率能够提升。举例说明,没有压缩数据库之前的大小是127 M,在对数据进行压缩之后会缩减成11.6 M,能够直观地发现内存资源得到了明显节省[3]。
对高校图书馆来说,它在购置文献方面的经费是有限的,在对各个学科文献的购置经费进行分配的过程中,不但应该结合高校的调研状况,而且应该结合高校的教学状况,从而使费用支出达到均衡,能够发挥购置文献的作用。以往高校图书馆在对信息进行采集时,大多是通过几位专家和采访人员进行商议的方法决定的,这样做难免会出现信息不够全面的状况,不但会使信息资源出现缺失问题,还会出现浪费经费问题。此外,储存文献的空间同样不是无限的。优化馆藏分布,馆藏分布可以分为多媒体和传统文献的摆放,以及服务器中的文献索引组织,使资源的利用效率得到有效提升。在对高校图书馆的图书流通数据、图书借阅数据、图书检索请求数据进行挖掘之后,按照类别对文献的频繁借阅集和文献的拒借集进行统计,能够帮助信息资源进行补充,而且能够使决策变得更加丰富,从而实现对文献利用率的分析,把过时的文献去除,减少收集部分文献,通过对用户借阅文献的关联进行分析,能够查出文献的比例关系和文献的关联规则,以此优化高校图书馆的馆藏布局和信息建设。
出于保证用户可以在很短的时间内得到想要的信息的目的,高校图书馆应该对用户的专题浏览集合进行收集,依据用户的浏览记录来建立事务库,在此基础上执行事务库操作。首先,利用关联规则来查找访问频率高过阈值的项目,使用分类算法把频繁项目和用户的浏览模式进行相似度的匹配,把浏览模式相像的用户安排至相同服务器,使服务器页面的传输数量和服务器的缓存得到减少。其次,如果事务库内部的专题的访问频率大于阈值,在进行关联分析之后,能够得到专题的关联规则,把它储存到服务器的知识库中,由用户在网页上进行浏览,就能够按照规则来提前连接关联页,使响应的速度得到提升。智能信息检索的支持范围包括联想、模糊、概念、多语言的检索,还可以使用聚类算法来对查询的结果进行聚类分析,确保呈现的内容是有条理的内容,方便用户进行筛选。
在对高校图书馆的信息资源进行管理的过程中,因其文本数据众多,能够使用文本挖掘技术自行摘要的方法对文本数据文档进行分类。在此过程中,文本自动摘要需要使用统计算法,将原文中和主题有密切关联的语句挑选出来,自行实现对文本摘要的生成,这种数据挖掘技术非常适合用在电子期刊和电子图书这类文献信息中。文档自动分类指的是按照文档文本的数据特征来实现对文档类别的挖掘,将其归至合适的主题范围,以便高校师生查询。在大量的数据信息背景下,利用文本挖掘技术能够防止出现时间紧张问题和人员短缺问题,可以有效保障高校图书馆的信息资源管理服务的效果[4]。
综上所述,高校图书馆要想建立数字化档案,需要在数据挖掘技术的基础上有针对地建立档案信息管理平台,从而促进高校图书馆不断发展。因此,相关人员应该对数据挖掘技术优势进行充分利用,增加人力投入与物力投入,使数字化档案平台能够不断完善,尽量提高使用图书馆信息资源的效率,充分开发与利用高校图书馆的档案资源,而且应该积极促进高校图书馆朝着科学化方向不断发展。