图书馆特色数据库建设中数据组织的质量控制

2015-01-20 12:13赵伶郭晓保郭妍捷
图书馆界 2014年6期
关键词:质量控制

赵伶 郭晓保 郭妍捷

[摘要]以“非金属材料与化工专业特色数据库”为例,从数据组织、数据采集和数据标引几个方面对数据库建设中的数据质量控制方法进行了探讨。

[关键词]特色数据库;数据组织;质量控制

1数据源采集过程的质量控制

为保障数据库中数据的质量,在确定数据库建设之前,首先需要对数据库建设进行市场调查和分析,以保证该数据库立项的合理性和实用性,避免造成资源与人力的浪费;而在数据采集时,则必须遵循准确清晰的指导思想和采集原则,以形成能够满足数据库用户需求的数据资源。

1.1 数据库建设需求分析

特色数据库的数据资源需要体现特色,即专业特色、馆藏特色或行业特色。作为高职院校图书馆,专业特色要体现本校的专业特长,有重点地选择自己办学历史中专业特色突出、发展良好的建库课题。在申请本课题前,我们通过对教育部相关信息网站[2]调查得知,目前开办材料工程专业的本科院校有148所、开办无机非金属专业的本科院校有91所,高职院校开办材料专业的院校有15所,中专、职高学校开办硅酸盐专业的有27所。各学校办学层次和宗旨不同,担负的教学任务不同,培养社会需要的人才不同,本科院校培养的是学术研究型、工程技术人才,高职院校培养的是高端技能型、应用型人才,中职教育培养操作技能型人才,因此各学校对信息需要的层次、类型、专业侧重点也有所不同。

高职院校的行业和职业特征非常明显,在办学水平不断提高和发展的同时,逐渐形成了各个学校的特色资源。高职院校图书馆如果能对这些极具针对性、专业性的特色信息资源进行开发,为用户提供精、准、新、快的信息服务,满足用户的个性化需求,提供专业化的信息服务,对学校的发展有很好的促进作用。同时,能提供专业化的特色服务,也是衡量图书馆服务能力和服务水平的重要标准。

我院材料工程技术专业是学院特色专业,也是四川省精品专业、国家示范高职院校重点建设专业,多年来,对国家材料类专业技能型人才培养、行业企业技术服务、同类专业教学改革等多方面做出了积极贡献。本课题的研究,将通过及时、准确的信息提供,促进专业建设和发展。因此图书馆有必要建立这一特色数据库。

1.2 数据库建设市场调查

从2008年以来,我馆一直关注CALIS中心特色资源的建设情况[3],并对材料类专业数据库的建设情况进行调查[4],发现目前全国高校建立的特色数据库基本是由高校图书馆开发建设的,主要有武汉理工大学“复合材料专题特色数据库”、上海大学“纳米材料数据库”、西南科技大学“无机非金属材料特色库”,而化工建材研究院所和企业的网站平台以服务企业为宗旨,主要提供高新技术项目信息和产品信息,没有相关的专业数据库。

在对化工行业和高职院校相关专业的数据库开发进行调查时发现,中小企业中几乎没有自己开发资源的,高职院校自建数据库的,目前有124个,所涉及专业只有23个,其余大多是随书光盘数据库、教师自编教材库等,而化工建材方面的专业资源库一个也没有。

从上述调查结果来看,目前已有数据库的数据形式多以文本格式为主,内容以研究型和高新技术研究成果的学术论文为主。结合我院的办学发展过程进行分析,发现目前已有数据库针对中、高职教育教学科研和企业人才培养方面的实用信息资源缺乏,与目前中高职职业教育人才培养的信息需求不适合,不利于中高职院校的专业建设与校企结合的发展建设。因此,我馆于2012年向四川省教育厅申请了“非金属材料与化工专业特色数据库”的科研课题,并获批准。

2数据组织阶段的质量控制

2.1 数据组织的原则

良好的数据资源基础是数据库建设成败的关键。设计开发再好的数据库,如果没有符合用户需求的数据,也无意义。数据采集作为数据库建设的重中之重,需要准确的指导思想和采集原则。非金属材料与化工专业作为我院的国家示范职业教育专业,图书馆在长期的资源组织上一直是重点保障专业,我们确定的采集原则[5]主要是:1)完整性。尽可能全面、准确、完整地搜集与我院非金属材料专业相关的各类型学术进展和研究成果的文献资源。2)实用性。根据本馆的馆藏特色和本校的特色专业及重点专业,重点收录与高职办学相关的人才培养方案、课程标准、教学成果、精品课程、试题库等资源;根据高职教师与学生的实际需求,收录了实用的相关专业文献、自编教材、讲义及相关专业的技术标准、规范和专利文献等。3)特色性。专业特色突出,在数据库建设中选择非金属材料专业中对人才培养有益的资源和代表性的重要文章,扫描录入全文数据库。

2.2 数据组织中的质量控制

数据搜集是数据库建设的重要前提[6]。在明确了数据采集原则后,首先,就要严格控制数据组织中的数据质量。对于本数据库专业资源并不十分丰富的资源市场,尽可能搜集不同类型文献。为此,我馆在整理本馆纸质文献的基础上,加强了电子型、视听型文献资源搜集;同时,不局限于本馆资源,也搜集其他合作单位的一些专业资源,以补充我们专业资源的不足。

其次,在数据组织时积极配合学院重点专业教学、培训的需要,除购置教学科研所需的相关资源外,还深入到院系搜集重要的教学成果、教师的专业著述、人才培养方案等特色资源。

再次,考虑到高职人才培养注重应用技能的培养的特点,专利、标准、技能考核训练也是高职人才培养的重要教学参考资源,是我馆搜集的重点。本着实用性原则,尽量搜集专业技术较新的、专业特色与本数据库建库宗旨一致的资源,如专利、标准电子资源的选取,以有效专利和现行标准为主要原则,围绕本数据库建设宗旨,在资料的选取上尽量保证专业特色显著。

最后,在特色数据库的框架范围内,对搜集的资源按类型所属模块和子类目进行分类,形成具有本馆特色的资源体系。

2.3 形成特色子库

2.3.1 馆藏图书书目数据库。建筑材料专业一直是我院创建以来图书馆资源收藏的重点专业,该类文献出版量不大、品种少,但我们在采购时仍然尽量将其收录馆藏。该库共收录此类文献3 000多种,以及本院教师历年来自编的教材、讲义等,所占比率虽然不大,但已形成我馆本专业收藏特色较为显著的文献体系。

2.3.2 电子资源库。电子资源已成为当今获得文献信息最主要的途径,为满足师生们在教学中对现代信息资源的需要,图书馆用于购置电子资源的经费也在逐年增加,目前我馆的电子资源除购买了CNKI、维普、超星等数字资源,还围绕材料专业的学科建设购买了相应领域(水泥、玻璃、陶瓷等)的专利光盘数据库、中国标准数据库等。

2.3.3 精品课程库。本数据库收录了学院在重点专业建设时学院老教师开发的、高职教育所需的化工类非金属材料国家精品课程、四川省精品课程、校精品课程等。

2.3.4 校内资源库。本数据库搜集了学院教学形成的人才培养方案、课程标准、教学成果、试题库等内部资源。

3数据标引的质量控制

在数据库建设中,信息描述是信息组织的重要环节,好用的数据库依赖于数据的准确描述,提供给读者较为准确的检索信息,使读者通过检索能准确判断信息是否为自己所需。因此,最艰难的是对已搜集的大量信息进行数据的分析加工描述,通过合理分配人员对数据加工过程进行质量控制。

3.1 规范数据著录标引

在组织数据库建设之初,我们将人员分为数据库开发人员和数据整理标引人员两组,在数据标引方面,我们按照中文文献著录规则、专利文献分类法、标准文献分类法,对不同类型的文献资源制订了严格的著录标引细则。

首先,由课题主研人员对已采集的数据进行筛选,按照不同类型的数据制订详细的著录标引细则。由于我们搜集的数据资源类型多样化,分类标引的字段、分类标准等都有所不同,因此对标引的深度、分类的集中与分散、主题词和关键词的选用、著录等均制订了标引细则,以提高标引质量,使信息分类更规范、更科学严谨,使数据库信息资源更能满足各类用户的需求。同时,为保障任何人都能够利用终端检索和利用特色数据库,我们针对不同类型的资源提供尽可能多的检索入口,比如题名、著者、分类号、专利号、标准号、主题词、关键词、年代、摘要等。系统的检索入口越多,用户选择的余地越大,就越能满足用户多样化的检索要求。

其次,对数据标引人员进行专业培训。通常图书馆专业人员只熟悉中图法分类,对数据库收集的专利、标准文献的分类标引基本不了解。为了对标引词的准确性进行控制,我们的数据标引人员进行了基本的专利、标准文献分类法的学习,力求分类著录时能按照要求,对文献进行标准化、规范化的分类、著录和主题标引等工作,这是保证数据库质量的关键。

再次,由于本数据库信息资源种类繁多,既有普通的电子文本,也有图像、视频等各类特藏,为了有效地利用这些信息资源就必须根据一定的原则和方法对其进行组织,使其成为有序的信息资源。我们的数据经过相关专业标引后,再由数据库开发人员进行结构描述形成专业数据元数据,然后导入数据库中,这样就能全面反映数据库数据的准确信息,为数据库建设形成良好的数据基础。

3.2 数据库建设与标引模式创新

3.2.1 数据库建设模式。目前专业特色数据库开发还没有统一的共享平台,我们综合比较了目前其他数据库选用的开发软件[7—9],选用基于微软Net2.0平台采用C#语言,利用微软配套的Visual Studio.NET、.NET Framework专业的开发软件及应用程序组成开发环境;在数据库连接上,采用了Visual Studio.NET 中最新的ADO.NET技术连接远程SQL Server2005 数据库;采用微软ASP.net的数据访问层、业务逻辑层、表示层架构设计,拥有良好的数据库平台框架结构和符合资源共享的公共检索平台。

根据CALIS三期特色库项目的设计思路[10],数据库平台采用Web2.0网站标准架构体系,整合了Web2.0技术与应用,网站界面友好、布局合理,资源分类合理,易于检索与查找操作。数据库平台访问采用基于B/S的结构,用户无须安装任何软件,只需使用IE浏览器就可进行检索与浏览,并预留了与外部数据中心并接的软件接口。

3.2.2 数据标引模式创新。为了方便在将来加入CALIS数据中心时数据库平台整合时能够保证元数据被专题特色库中心系统收割发布[11],避免造成元数据丢失或错位,影响数据库共享及升级,我们将数据库源文献资源存储在SQL Server2005中。在数据录入上,我们没有采用传统的方式在已建好的数据库中直接录入数据,而是采取数据在库外进行标引,完成后由数据库开发人员进行导入并校验,不仅避免了过去先开发后标引,在录入数据时间上的浪费,还可以防止在录入时因数据库的修改调试造成数据丢失;同时,数据可以随时从数据库中调出,既方便对数据库进行修改,又为今后的数据库升级保存数据,对数据库建设和数据质量提升都是一个较为理想的模式。

3.3 数据库建库后续工作

此外, 数据修正、维护、更新和系统维护等后续工作也是保证数据库质量的必要手段。数据库建成后需要定期对数据内容进行更新、追加、清理和修正, 并经常对系统的运行状况(如存储空间状况)和响应时间进行分析, 结合用户在使用过程中发现的问题确定改进措施, 使系统逐步完善。

4结语

在面向数据源的数据组织中,不仅需要保质保量的数据采集,建库前广泛的调查分析也是必不可少;而在数据标引过程中,通过人员的合理分工合作,采用新的库外标引与数据库开发同步进行的模式,使两部分工作能有序顺利的推进,也方便了后续的维护更新。通过上述具体的方法,将数据质量控制贯穿到整个数据库建设的过程中。

[参考文献]

[1] 杨莹,罗宏.CALIS 高校学位论文数据库数据质量分析[J].四川图书馆学报,2012(3):36—39.

[2] 高考自愿填报参考系统[EB/OL].[2014-07-05].http://gkcx.eol.cn/soudaxue/querySchoolSpecialty.html?zycengci=.

[3] 中国高等教育文献保障系统(CALIS)主页[EB/OL].[2014-07-05].http://project.calis.edu.cn/calisnew/.

[4] 赵伶,郭晓保.高职院校图书馆特色资源开发现状调查分析及对策[J].绵阳职业技术学院院报,2009(1):54—56.

[5] 邵锐,钟世明.专题特色数据库系统研究[J].图书馆学研究,2007(6):9—11.

[6] 李玲.高校图书馆专题特色数据库建设的质量控制研究[J].图书馆工作与研究,2012(7):119—122.

[7] 孙瑾.军队档案专题数据库建设现状及存在问题——兼论数据组织阶段质量控制[J].档案学研究,2013(3):41—45.

[8] Zhou Hui,Zeng Hong,Chen Jianli,Qin Shigang.A Research of Higher Vocational Colleges Teaching Resources Database Construction based on Web[C]. Proceedings of 2011 International Conference on Business Management and Electronic Information(BMEI 2011) VOL.01: 443—446.

[9]Helland Pat. If You Have Too Much Data, then 'Good Enough' Is Good Enough[J].Communications of the ACM, Jun2011, Vol.54 Issue 6: 40—47.

[10] 燕今伟.CALIS专题特色数据库的建设[M/OL].[2014-07-05].http://lib.gznu.edu.cn/tgw/tongzhi/2011/0405/yjw.pdf.

[11] 赵增和.图书馆特色资源元数据API实现与比较研究[J].图书馆学刊,2014(8):49—53.

[收稿日期]2014-09-05

[作者简介]赵伶(1962—),女,副研究馆员,绵阳职业技术学院图书馆,已发表论文数篇;

郭晓保(1959—),男,绵阳职业技术学院副研究馆员,已发表论文数篇; 郭妍捷(1990—),女,南京理工大学自动化学院在读研究生。

猜你喜欢
质量控制
浅谈机车总风缸的制作质量控制
血型实验室的输血检验的质量控制与输血安全探究
沥青路面施工技术及质量控制
关于高层建筑施工技术要点以及质量控制的思考
浅析水利工程施工质量问题及质量控制措施
浅谈在公路桥梁施工环节的质量管理及控制
浅谈石灰土基层施工及质量控制
黄土路基台背回填的质量控制