焕发校园沉淀数据的活力

2010-09-25 09:24陈翼
中国教育网络 2010年1期
关键词:复旦全校数据挖掘

文/陈翼 宓

焕发校园沉淀数据的活力

复旦大学从1998年至2006年累计共有学生成绩记录193万条,从诸如此类的沉淀数据中发现有价值的信息,这才是信息系统真正价值的体现

近年来,随着教育主管部门和高校相关部门对高校信息化发展的日益重视和关注,校园信息化基础设施的规模和水平得到不断的提高,信息化中长期规划也基本制定完成并逐步实施。复旦大学(以下简称:复旦)在校园信息化建设中,明确提出“以应用为目标,以服务为过程”,积极推动信息化建设的可持续发展,重点构建和完善信息化校园应用系统,继续保持信息化建设和应用的活力,为学校实现“高水平研究型大学”的战略目标提供技术支持和服务保障。

沉淀的数据中藏宝

随着应用的深入推广,很多高校都积累了大量的历史数据。对于复旦来说,数据源主要来自三条途径:首先是信息化部门的IT运维和服务的数据,其数据是基于网络安全数据的攻击模式和安全监测的挖掘、系统日志方面的系统故障分析、综合全生命周期的软件可信保障研究等;第二是学校各业务部门的管理决策方面的数据,包括人事、学工、财务、科研、教务等核心业务;第三是全校师生的综合数据。

这些数据逐年增加,形成了一个庞大的数据体系。比如,复旦大学从1997年的第二学期至2006年的第一学期,就产生了190万余条选课记录,而从1998年至2006年累计共有学生成绩记录193万条;自从建设一卡通系统以来,复旦每年消费的金额都在几千万元,交易记录达到几百万条甚至上千万条。

面对如此巨大的数据量,高校不应该只是静态地将其存储在服务器中。事实上,管理者可能还没有意识到,信息系统中最有价值、最有待发掘的宝藏就是这些日积月累的数据。从沉淀的数据中发现有价值的信息,这才是信息系统真正价值的体现,而这方面可拓展的空间几乎是不可限量的。为了更好地利用数据的价值,我们可以采取数据分析与数据挖掘来有效分析数据。

数据的分析与挖掘

在信息管理或计算机科学领域,人们一提到数据分析,就会联想到数据挖掘。但是,如果我们把数据分析狭隘地理解为数据挖掘,就会忽略其它数据分析和利用的形式。事实上,早在计算机出现以前,统计学已经发展了几百年,数理统计学科研究出了一整套数据分析的方法;那时候,人们提到数据分析,往往指的是数据统计。现在,我们应该从更广泛的角度来思考数据分析,特别是在信息系统领域,扩大数据分析的外延,利用所有有效的数据分析方法真正去发掘高校信息系统中隐藏的“金矿”。

从广义上来看,数据分析包括了综合数据查询、数据展现、数据统计和数据挖掘等各种数据利用的方式。其中,综合数据查询是指通过数据集成等方式,综合查询存在于不同信息系统或不同数据库中的某一相关主题的数据,其目的是为了方便地获取分散的但相关的数据。数据展现则是采用用户认可的形式,用图、表等方式把数据库里的数据通过用户可见、可理解的形式展现出来;数据不能总是存储在数据库中,要对数据做进一步的分析和利用,就必须要看到数据的全貌;数据展现也不是简单的数据罗列,良好的数据展现方式其实是和其它数据分析方式结合在一起的。数据统计则是用统计学的方法,计算大批量数据的分布以及相关统计指标,并通过图、表等方式把统计结果展现出来供用户使用。

数据挖掘则是从大量数据中自动抽取有趣的知识。其中,“有趣”包括了非平凡的、隐性的、以前不知道的、潜在有用的等含义;“知识”则包括了模式、关联、变化、异常和有意义的结构等。应该说,数据挖掘是对数据的深层次分析,其主要工作包括数据的抽取、多层次的数据组织、数据挖掘算法和决策支持应用、数据质量的保证等。

数据分析和挖掘的前提是可靠的数据质量。数据质量是指信息系统表达的数据视图与客观世界同一数据的距离,它包括可获得度、可理解度、可信度、可用度等四方面。数据质量的判断依赖于使用数据的个体,不同环境下的不同人员对相同数据“使用的适合性”不同,因此数据质量是相对的,不能独立于使用数据的用户来评价数据质量。较差的数据质量会导致应用受限或者得到无价值的结果。

制约数据分析和挖掘的原因

当前,能够全面开展数据分析和数据挖掘工作的高校还非常有限,其主要原因有:

1.部分高校领导对信息系统的价值认识不够,没有意识到能够通过数据分析和挖掘发现大量有价值的信息;

2.很多数据分析和挖掘工作需要跨领域,要组织不同领域的管理人员、整合分布式应用系统构建上层的综合应用,其协调成本和管理难度往往很高,导致工作难以进一步开展;

3.除了要能较好地解决前两个问题之外,由于高校的很多业务复杂、不通用,缺乏可直接套用的分析模型,又没有足够的研究支持,导致目前很多数据分析和挖掘均是零星尝试,没有形成大规模应用;

4.在数据分析和挖掘过程中,我们往往会发现集成的数据中有大量的问题,这些质量不高的数据导致很多数据分析和挖掘得不到有用信息,从而大大削弱了数据利用的价值;

5.目前很多数据分析和挖掘都是在信息系统付诸使用一段时间后再进行二次开发,数据利用与前期信息系统整体规划、设计和开发脱节,而数据分析人员也可能不是原来的系统设计和开发人员,导致在分析过程中发现的系统设计、数据质量等问题无法得到满意解决,无法形成有效的反馈机制。

以共享数据平台为数据载体

尽管数据的分析和挖掘工作存在种种制约因素,但是这项工作仍然值得人们去研究和尝试。目前,复旦在数据分析和挖掘方面已经开始进行了一系列的探索。

复旦建立了共享数据平台,它是为实现各业务系统间信息共享和交互、保证各系统所使用的数据的权威性和一致性,并提供全校各类信息查询和决策分析功能而建的数据基础平台。它构建了全校各业务系统引用数据的标准规范以及单位组织结构等数据的校级标准,通过从各个应用系统抽取数据、与相关应用系统同步数据,达到全校数据的一致、完整和准确。它包含全校各相关数字档案,主要有教职工和学生数字档案、资产设备、实验室、经费等多个信息集。

共享数据平台在2003年9月启动,自正式上线运行以来,它采用星型分布模式的设计架构,各业务系统都只通过统一的数据集成工具与共享数据库进行数据交换,实现了共享数据与各业务系统数据之间的动态和同步更新,各业务系统间则相对独立,松散耦合。这适应高校信息化阶段性建设特点,便于业务系统的维护和升级,也保障了单个业务系统面临运行负载压力时不会影响其它系统的正常运行。截至目前,该平台在与人事、学工、教务、科研、研究生、研工、资产、一卡通等管理应用系统的数据交换过程中,已积累了数十万条的关于人员、教学、资产等方面信息,成为了全校最全面、最权威的数据平台。

为了更好地实现系统数据的共享,在实施过程中,我们根据国家和教育部标准,结合复旦本身的实际情况,征求各部门意见,逐步制定了信息编码规范,并确定了各类数据的权威数据源和跨部门数据维护的流程,方便全校的数据共享和统计分析,保证各部门业务系统的数据一致性,提高数据的有用性和利用率。平台专门开辟了“公共标准维护”模块,提供信息编码规范的维护功能,能方便快速地展示和管理学校已有并实际执行的各项标准。

建立数字档案

信息化校园建设的最终目标之一就是实现校内信息方便快捷的交换、共享和利用。复旦选择了部分核心业务系统和共享数据库并行实施,并不断地丰富和完善共享数据库。随着信息化应用的不断深入,共享数据库平台、校园一卡通等成果正逐步推进学校教学、科研、管理和生活等各方面信息的综合数据应用,综合学工、人事、教务、虚拟校园等应用系统的数据信息,逐步为全校人员建立数字档案。数字档案既为相关业务部门提供了较为全面的信息,也为师生员工提供了个性化的信息服务。

基于共享数据库平台和各应用系统中的数据的综合数据查询工具,为校领导、行政部门、院系和个人提供了自定义查询和统计功能,用户可通过浏览器进行查询条件和输出方式的设置,实现灵活、个性化的统计查询,并通过Excel表格自定义导出数据查询结果;利用OLAP提供的强大查询、统计和分析功能,为学校管理者提供决策支持,实现教职工、研究生、本科生联机分析处理功能,如,本科生OLAP分析包括了本科生基本信息数据分析、毕业数据分析、学生干部数据分析、协议书问卷调查分析以及奖、助、减、贷金数据分析等学生各方面的数据分析。

高校综合数据分析和利用是校园信息化建设的长期工作。一方面,它以信息化基础设施和应用系统为基础,需要较长时间的数据积累和技术准备;另一方面,数据分析、挖掘、利用所需要的背景知识和技术要求与应用系统建设也不完全一样,需要专门的人才队伍。尽管这项工作有相当的难度,国内高校也没有太多值得借鉴的经验,但我们必须勇往直前地去探索和尝试。

(作者单位为复旦大学信息化办公室)

猜你喜欢
复旦全校数据挖掘
从震旦到复旦:清末的外语教学与民族主义
探讨人工智能与数据挖掘发展趋势
合伙教育,家校共育——在考试后全校家长会上的广播讲话
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
开会
乐娅菲,C919背后的复旦人
第三届复旦科技创新论坛在上海开幕
趴 下
周仕达(山西文科状元):从全校200名上升到全省第一
以“复旦投毒案”为例反思我国的死刑制度