张闻骥
摘要:女子高校图书馆特色数据库的建设需要通过相应的技术手段来实现,数据挖掘算法可提高同类特色数字图书资源之间的关联性,SQL Server数据库为特色数据库的建设提供平台。
Abstract: The construction of the characteristic database of women's university libraries needs to be realized through corresponding technical means. The data mining algorithm can improve the correlation between similar digital book resources. The SQL Server database provides a platform for the construction of featured databases.
关键词:女子高校;图书馆;特色数据库;挖掘算法;SQL Server数据库
Key words: women's university;library;characteristic database;mining algorithm;SQL Server database
中图分类号:G250.76 文献标识码:A 文章编号:1006-4311(2018)32-0195-02
0 引言
随着社会的发展,科学技术的进步,高校数字化图书馆的兴起与成熟,以纸质书籍为依托的高校传统图书馆逐渐向以信息为载体的高校数字化图书馆转型。信息化时代对高校数字化图书馆提出了更高的要求,高校图书馆不仅要数字化,而且还要做到方便、快捷,便于用户文献检索、信息查询、数据统计等,例如国内一些高校图书馆数据库的建设、打破馆际信息壁垒做到资源共享等取得了很好的成绩。女子高校图书馆为更好地促进特色专业的建设、适应特色学科的发展,更好地满足教学科研的需要、服务对象(广大师生)对信息化的需求,在现有数据库的基础上建设特色数据库是大势所趋,而且很有必要。
1 特色数据库的定义
特色数据库是指根据本馆馆藏特色、地方特色,长期面向特定服务对象而集中收集各类文献建立的信息资源数据库[1]。特色数据库是建立在普通数据库的基础之上,更为精准与优化的信息资源数据库,主要用于满足特定服务对象的个性化需求。例如:针对家政学、女性学、女性文学、空中乘务、学前教育等特色专业分别建设信息资源数据库,服务对象只需找到相应的数据库就可以享受方便、快捷、全面的信息资源服务。
2 数据挖掘算法
2.1 聚类分析算法
聚类分析是将分析的目标数据划分为相同性质群组的数据挖掘技术,数据挖掘的目标就是通过分析发现数据的一些特征。聚类分析算法最为典型的是k-means算法,简要过程如下:
从数据样点中(个数为n),任选k个数据为初始聚类中心,其余样点数据(n-k)个分别与这k个数据进行距离计算,分别把(n-k)个样点数据与其最为相似的(相似度计算)的聚类,然后计算新聚类中心的均值,至到标准相似测度函数为收敛,选取方差作为标准相似测度函数。
用公式表示:假设k个数据集为K={ti1,ti2,…,tim},类中心的定义为公式(1)所示。
2.2 关联分析算法
关联分析就是从大量的数据中发现项集之间有趣的关联、相关关系或因果结构以及项集模式。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析目的是找出数据集中属性之间的联系,形成关联规则。关联规则有支持率和置信度两个参数。支持率表明了该规则在所有实例中成立的比例,即规则所具有的代表性;置信度则说明了在规则前件成立的情况下,规则后件也成立的比例,即规则所具有的可信程度。
在论文中以支持率作为关联分析的指标,具体公式定义如下:
3 SQL Server数据库
数据库用于存储数据资源,为功能实现提供数据支撑。数据库平台面向开发人员提供数据存储、查询以及执行的接口、命令,另外为数据管理员提供数据库管理平台,DBA通过平台能够完成SQL语句的执行、数据库结构和数据记录的维护操作等[2],除完成数据库操作外,一般商业数据库平台还提供数据分析的接口,在应用数据库积累到一定规模后,数据库平台提供数据联机分析工具,在一些新版的数据库平台中还提供数据仓库和数据挖掘的相关工具。
数据的安全性在数据库建设过程中一直是一个非常重要的关注点,因此,一个DBMS的安全性是对系统检测的一个重要指标[3-4]。当前商业数据库有SQL Server、Oracle、Sybase等,女子高校圖书馆特色数据库建设采用SQL Server数据库。
SQL Server数据库提供了完备的各类数据库执行脚本语言,这些脚本可应用于应用程序开发的语句执行中,来完成相关的数据库操作[5],目前最新的SQL Server数据库对于其他各类语言的支持也相当好,具有很强的兼容性。除此之外,SQL Server数据库优势明显,具体特征如下[6]:①SQL Server数据库提供了完整的数据镜像解决方案。其DBMS具有极高的数据处理性能,并支持数据镜像的功能。在数据库运行过程中,当数据库服务器产生严重的数据错误时,可恢复远程的数据镜像文件,数据镜像备份的周期可按小时、天来设定,备份的数据模式可采用增量备份和全备份。②支持在线检索[7]。SQL Server数据库提供了基于Http的在线数据查询页面,通过页面,数据库管理员可以在线输入关键字来完成特定数据的检索,提高数据库的管理效率,在线检索功能有利于数据库管理员在非局域网内实现基于外网的数据库操作,使日常数据库运行维护操作更方便、更快捷。③支持数据容错[8],提供快速恢复功能,包括数据记录的恢复和数据库结构的恢复,保证了数据的安全。④支持数据联机分析功能[9]。大数据、人工智能应用是当前信息化发展的一个重要方向,这使数据库平台的核心功能由原来的数据库存储维护转变为数据有效利用上来,除了传统的数据统计分析外,更重要的是提供数据挖掘的工具、大数据分析工具等,能对大规模数据提供高效的数据预处理,能在数据库平台上浏览数据处理结果。⑤支持基于安全构件的不断升级。除了以上安全措施外,SQL Server数据库提供了基于组件式的安全升级模式,当发现数据库存在安全漏洞时,微软公司及时发布安全补丁,数据库管理员通过补丁完成数据库的在线升级,不影响数据库的正常运行。⑥SQL Server数据库提供较安全的数据库操作策略,数据库用户角色较多,除了数据库管理员外,还有数据库操作审计管理员,审计管理员能够对各个用户的数据库操作日志进行查询,当数据库出现操作异常时,审计管理员可通过查询操作日志来分析数据异常原因,追溯到操作用户。⑦SQL Server数据库平台提供操作日志记录,内容包括用户名、操作时间、IP和操作项目等。⑧SQL Server数据库提供方便的备份与恢复工具,例如可以直接运用数据镜像在某些重要的时间节点实现数据库的备份,减轻了数据库管理员的工作强度。除以上特点外,SQL Server数据库的界面友好,熟悉Windows操作的用户,能快速使用,可完成数据库的创建、记录的新增等操作。
4 结语
工欲善其事,必先利其器。女子高校圖书馆特色数据库的建设离不开相关技术的支撑,只有掌握和使用数据挖掘算法,使特色数字图书资源分门别类地关联起来,然后熟悉和运用SQL Server数据库,将女子高校图书馆现有数据库的数字图书资源按需求设定条件逐一筛选、导入。数据挖掘算法和SQL Server数据库是目前建设特色数据库的两项关键技术,唯两者紧密结合起来,方可满足女子高校图书馆特色数据库建设技术层面的需求。
参考文献:
[1]李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004(7):815-821.
[2]Davidson L, Kline K, Klein S, et al. Pro SQL Server 2008 Relational Database Design and Implementation[J]. Apress, 2016,12(13):232-243.
[3]张华东,邵秀丽,吴军,等.SQL Server数据库到HBase数据库的模式转换和数据迁移研究[J].智能计算机与应用,2016,6(5):24-30.
[4]Kang S, Choi J, Choi J. A method of Securing Mass Storage for SQL Server by Sharing Network Disks-on the Amazon EC2 Windows Environments-[J]. 2016,17(2):1-9.
[5]Shaik M V,Sujatha P. Temporal query processig using SQL server[J]. International Journal on Smart Sensing & Intelligent Systems, 2017(2017): 495-505.
[6]吴才远.采用Veritas备份软件对SQL Server数据库进行恢复测试及应急演练浅析[J].自然科学:全文版,2016(8):187.
[7]范新灿,赵明.基于Struts+Hibernate+Spring的轻量级架构开发应用研究[J].现代计算机(专业版),2010(1).
[8]Sean Baird, Chris Miller. SQL Server System Administration[M].Beijing: Publishing House of Electronics Industry, 2000.
[9]Surajit Chaudhuri, Usama Fayyad, Jeff Bernhardt. Scalable Classification over SQL Database [J]. ICDE 2010:470-479.