刘珊珊
摘要:通过分析我国高职院校信息资源在“院校内部”,“院校-院校”以及“院校-社会”共享过程中存在的主要问题,提出基于数据挖掘技术的信息资源共享模式,建议针对不同的资源共享方式,通过精确而有效的信息资源预处理过程,构建多个高职院校信息资源数据库,以提升我国高职院校信息资源的共享,使信息资源能够在高职院校教学科研,日常活动以及社会活动过程中得以充分并高效的利用。
关键词:高职院校;信息资源共享;数据挖掘;数据库
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)24-0010-03
信息资源,是指在以信息为核心的各类信息活动要素,为人类生活和社会活动所搜索并使用。在当前信息资源大爆炸的时代里,高职院校更是信息重要的集散地[1]。大量而繁杂的信息资源充斥着高职院校的各个角落。但是由于缺乏有效的探索分析手段,使得高职院校中的信息资源并没有得到充分而有效的利用[1]。同时,高职院校信息资源也极度缺乏与社会大众的共享[2, 3]。如何提高高职院校信息资源的共享率是高职院校信息资源处理过程中亟需解决的问题。得益于计算机网络的迅速发展,数据挖掘技术应用而生。因此,本文通过探讨数据挖掘技术在高职院校信息资源共享中的应用,来为我国高职院校信息资源共享建设提供有效一定的科学依据和建议。
1高职院校信息资源类型
所谓高职院校信息资源,就是指高职院校的日常教学、科研活动、校园生活中所产生和使用的各种信息的总和[4, 5]。通过资源共享机制,可以使得高职院校信息资源得以充分的利用并实现信息本身的价值。
高职院校信息资源可主要分类两类:1)服务于教学科研的信息资源:主要指图书馆所藏纸质书籍、电子文献资源、国内外电子文献数据库、教学信息资源等。高职院校是主要的教学科研活动场所。学校会有大量的信息资源是为了服务教学科研活动的顺利进行。学校图书馆所收藏的大量的纸质书籍、文献资源是高职院校教学科研的基础。此外,随着网络技术的发展,高职院校通过购买大量的国内外文献数据库扩大了传统以图书馆为基础的文献资源。在高职院校IP范围内,可以方便查询大量的国内外最新文献资源。最后,教师所使用的教学课件是主要的高职院校内部最为重要的教学资源。2)丰富校园生活的信息资源:主要指为了丰富校园生活,高职院校经常进行的讲座信息、培训信息、招聘信息等信息资源。高职院校除了教学科研任务之外,高职院校通过丰富校园生活,使得学生在教学科研之外能够有大量的机会得到全方面地提升和锻炼。如大量的讲座通知信息、培训信息以及社会企业招聘信息等。
通过共享机制使得各类信息得以共享并充分利用,从而使高职院校的信息资源共享率、使用率得以最大化是高职院校信息资源共享亟需解决的问题。本文就以高职院校中服务于教学科研的信息资源为例,探讨如何通过数据挖掘技术充分提高高职院校信息资源的共享。
2 高职院校信息资源共享中主要存在的问题
当前,我国高职院校信息资源在共享过程中存在大量的问题,主要可以划分为三类:较差的“院校内部”共享;薄弱的“院校-院校”共享;缺乏的“院校-社会”共享。
1)较差的“院校内部”共享。高职院校图书馆中集中了高校教学与科研所需的绝大部分学术资源与文献信息资源,是主要的信息集散地。但是,长期以来,我国图书馆,特别是高校图书馆,受到传统的思想“以藏为主,以用为辅”的影响,大量图书资源闲置,得以阅读并使用的图书资源极为有限,有近50%的信息资源长期处于“静止”状态。共享率、使用率极低。高职院校内部教学过程中所使用的教学课件是高职院校内部教学科研主要的一个信息资源。目前,教学课件的共享主要是在课间通过直接拷贝的方式从教师共享到学生(只限定在该课程的学生)。这在一定程度上大大降低了信息资源的使用价值。如何提升图书文献资源的共享,以及教学课件的共享是高职院校信息资源共享过程中最为重要的一个环节。
2) 薄弱的“院校-院校”共享。我国高职院校的主要职能是培养技术性人才,特别是培养应对市场需求的专业型人才。基于这样的培养目标。我国当前高职院校的资源相对单一而且局限。以计算机类高职院校为例,其所拥有的信息大多关于计算学科方面。如何加强和其他类型高校之间的其他学科信息的共享是未来高职院校信息共享的一个亟需解决的问题。通过“院校-院校”共享环节既能优化学科交流,又能开拓学生视野。同时同类高职院校之间对于信息资源的共享问题重视度也较为不够,这也是高职院校信息共享过程中需要面对的一个问题。通过“院校-院校”共享,既能加强同类高职院校之间的紧密合作又能提高信息量。得以实现知识的相互传播和发展。
3) 缺乏的“院校-社会”共享。高职院校信息资源针对社会大众的分享程度及其缺乏[2, 3, 6]。当前,我国高职院校是孤立于社会所存在的。绝大部分的高职院校针对社会是封闭的。高职院校内部的所有教学、科研信息资源记录着科学活动,是人类社会的宝贵财富,它们科研帮助人们认识事物的发展规律,丰富自我知识素养,拓展思维角度等。但是,我国当前很少有高职院校愿意将自己的信息资源共享给社会大众。这就在很大程度上限制了高职院校与社会之间的交流。因此促进“院校-社会”之间的信息资源共享是高职院校信息资源共享过程中亟需尝试的一个环节。
3 数据挖掘技术的内涵
数据挖掘被称为知识发现(knowledge Discovery in Database, KDD),即知识发现、寻找并最终使用的过程。目前数据挖掘技术广泛应用到高职院校信息资源共享过程中以帮助高职院校内部庞大而繁杂的信息得以高校使用[12-14]。
数据挖掘主要分为三个具体步骤[15]:数据预处理阶段、数据挖掘阶段以及数据使用评估阶段。
1) 数据预处理阶段:将不同资源文本信息准备好之后,系统将进行相似度的计算,分析信息资源之间的关联程度,并将信息资源存放到数据库中作为源数据。2) 数据挖掘分析阶段:可以通过提出问题或者输入关键词,借助数据挖掘技术创建一个模型来帮助获取者获取相似度最高的信息资源。3) 信息资源使用和评估:用户使用信息资源之后,可以针对本次数据挖掘进行评估,其目的是为了信息资源共享平台的更新优化以及后来着对该信息的搜索使用效率的提高。
有研究显示,在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,为了是挖掘内核能够快速有效的挖掘出用户想要的信息,就必须要为挖掘系统提供准确而又干净的源数据[16-18]。但是遗憾的是,高职院校中未经处理的信息资源往往多而繁杂等诸多问题:如缺乏统一的标识和定义;原始数据中可能存在大量的重复信息造成数据冗余。
数据预处理主要是接受并理解用户的发现需求.整理与需求相关的原始数据,根据背景知识中的约束性规则对数据进行合理性检查,通过清理和归纳操作,生成工挖掘使用的源数据。主要分为四个步骤:
1)数据集成:数据集成的操作过程其实是为了将不同源的数据进行合并处理。2)数据清理:数据清理的过程是为了去除数据集成之后所产生的数据集中噪声数据和无关数据。3)数据变换:数据变换是希望通过数据的某种特征来进行表示。4)数据简化:在尽量保持数据原貌的前提下,通过数据变换过程中找寻的数据特征进行数据的筛选和缩减。
4挖掘技术在高职院校信息资源共享中的应用
分析我国高职院校信息资源共享中存在问题,“院校内部”,“院校-院校”以及“院校-社会”三个共享问题的存在是我国高职院校共享中亟需解决的问题。为了应对这样的问题,我们提出多平数据库共享的理念。这样的理念是基于合理并有效的信息资源预处理的基础之上。
为了使得信息资源可以实现共享,特别是实现“院校-院校”共享的最终目的,各共享高职院校之间必须保持信息资源实行统一的标识和编码。所以基于数据挖掘技术的高职院校信息资源共享可以具体划分为如下几个步骤:
1)数据预处理。为了使得多个高职院校之间能够进行后续顺利的信息资源共享,其前提要有充分的数据预处理过程。信息资源保存方式存在差异等一系列的不标准、不规范的过程是在数据预处理过程中必须投入大量时间精力解决的问题。不同高职院校之间要指定统一的标准,并按照统一的标准对信息资源进行预处理并转换为数据挖掘技术可以使用的数据形式。
数据的筛选和缩减是信息资源共享过程中特别要关注的问题,因为,有些信息资源针对不同的数据资源获取者来说保密程度是不一样的,所以,尊重一定的保密的基础之上,进行信息资源的筛选并进行保密设置是高职院校信息资源预处理过程中极为重要的一个环节。最终形成数据库。另外,在形成数据库之后,通过更加严格的筛选方式,可以对该数据库进行第二次的缩减,主要保留一些对社会大众重要的一些信息,这些信息可能包括,高职院校主要科研成果,高职院校重要图书信息资源等。而同时,这些信息资源必须是可以被社会大众所理解并可能得到应用的一些信息。进而形成另外一个简易的数据库。
常见的数据库中数据浓缩的方法是概念树法。即在数据库中,通过数据属性对数据进行归类,各属性值和概念一句抽象程度不同可以构成一个层次结构,通常称为概念树,本文建议在进行数据预处理的过程中,所产生的数据库可以用来进行“院校内部”以及“院校-院校”信息资源共享。
2)数据挖掘操作。数据库准备就绪之后,数据挖掘过程即可开始。通过数据挖掘工具在数据库中对数据进行挖掘,通过系统自动发现信息之间的关联进而筛选出信息获取者所需要的信息资源。
3)信息使用和评估。通过数据挖掘之后,所得到的信息可以直接被信息资源获取者所使用。信息资源获取者也可以通过一定的评估手段进行反馈利于信息资源共享的后期优化和完善。
5结语
数据挖掘技术主要是基于计算机网络、统计分析等技术,并在近年来多个领域得到广泛应用的一门技术。基于数据挖掘的信息资源共享就是其中特别重要的一个应用方面。高职院校信息量庞大,信息资源复杂,基于数据挖掘技术的高职院校信息资源共享是当前高职院校信息资源共享的主要模式。针对高职院校在信息共享过程中所面对的诸多问题以及诸多不足。特别在针对“院校内部”,“院校-院校”以及“院校-社会”三个共享方面的不足和薄弱。我们提出通过精确的信息资源预处理过程构建多个信息资源数据库,进而解决共享薄弱问题从而实现高职院校内部庞大的信息的充分和有效的利用。
参考文献:
[1] 郭俐虹.对我国高校信息资源开发利用现状的思考[J].华中农业大学学报:社会科学版, 2007, (2): 119-121.
[2] 刘江玲.高校信息资源校地协同发展和共享机制探析[J].河南科技学院学报:社会科学版, 2014, (12): 11-13.
[3] 崔秀芬.地方高校信息资源与地方联合共建共享初探[J].图书馆论坛, 2005, 25(5): 126-128.
[4] 程聪.高职院校信息资源的管理和利用[J]. 北京工业职业技术学院学报, 2012, 11(3):91-94.
[5] 丁文霞,付巧云.高职院校信息资源建设与运用研究[J]. 中国教育技术装备, 2015, (19): 73-74.
[6] 肖希明.经济发达地区文献资源共享网络的构建——以珠江三角洲地区为例[J]. 中国图书馆学报, 2000, 26(6): 44-46.
[7] 罗可,蔡碧野,卜胜贤, et al.数据挖掘及其发展研究[J].计算机工程与应用, 2002, 38(14): 182-184.
[8] 赵丹群.数据挖掘:原理、方法及其应用[J]. 现代图书情报技术, 2000, (6): 41-44.
[9] 钟晓,马少平. 数据挖掘综述[J]. 模式识别与人工智能, 2001, 14(1): 48-55.
[10] Han J, Kamber M. Data mining: Concepts and techniques[J]. Data Mining Concepts Models Methods & Algorithms Second Edition, 2000, 5(4): 1-18.