高校毕业设计管理平台的设计与实现

2016-05-30 19:55:51刘强邓晓衡
企业科技与发展 2016年11期
关键词:网络爬虫

刘强 邓晓衡

【摘 要】文章分析了高校当前本科毕业设计管理的现状,基于毕业设计的动态管理过程,将原本复杂繁琐的过程进行优化,通过互联网技术实现使其简单化、智能化。文章对毕业设计管理平台相关功能进行了分析,并对核心功能选题模块中用到的Gale-Shapley婚姻匹配算法、相似度检测模块中涉及的网络爬虫、正文提取算法、分词算法、相似度检测算法进行了论述。系统基于B/S模式架构,并通过设计移动APP,使用户可以通过各类终端提交毕业设计过程资料,极大地方便了毕业设计管理工作。

【关键词】毕业设计管理;婚姻匹配;网络爬虫;相似度检测

【中图分类号】TP311.52 【文献标识码】A 【文章编号】1674-0688(2016)11-0037-03

0 引言

进入21世纪以来,互联网技术迅速发展,给各类产业实现信息化提供了必要条件。作为走在时代前沿的高等学校,信息化建设步伐也相对较快,宽带校园、数字化校园、移动校园、智慧校园等信息化建设项目应运而生[1]。

毕业设计作为高校必备的教学环节之一,如何实现信息化已经受到各高校的重视。由于毕业设计持续周期较长,中间环节多而杂;再者,在当前就业形式下,学生在毕业设计期间基本要在参加招聘会和毕业设计之间来回奔波,由于学生所在地的不确定,加上当前互联网技术日益发达,采用B/S结构的软件实现毕业设计全过程的监控管理,有着迫切的需求和较好的实用价值[2-3]。

同时,由于互联网技术的发展,网络共享资源日益丰富,学生接触的信息面越来越广,网络文档对毕业设计各环节的影响也越来越大,甚至有学生直接下载论文应付了事。面对这些学术不端行为,如何进行管控,也需要信息化手段进行辅助[4]。

设计实现一个毕业设计管理平台,并引入移动互联网应用,使教师、学生、管理员通过系统完成毕业设计全阶段的工作,对毕业设计监控管理有着现实的意义,对提高高校教学水平、提高毕业生质量有着重要的意义[5]。

1 系统分析

1.1 系统总体架构

毕业设计管理系统主要是针对毕业设计全过程的监控,并且设置不同的角色来进行分类管理。系统充分利用互联网和移动互联网的优势,使管理过程实现网络化、智能化。

平台主要使用PHP完成服务器端脚本的编写,使用MYSQL数据库对毕业设计期间产生的各种数据进行分析和管理。考虑到当前移动互联网的发展状况,以及毕业设计期间学生找工作对毕业设计工作的影响,平台设计实现了一个基于android平台的移动APP,方便学生和教师随时随地了解毕业设计信息。移动APP由JAVA开发,而为了实现数据的统一性,移动APP对系统数据访问仍旧采用PHP编写的API完成。利用PHP编写API也为后期实现IOS应用提供了方便[5]。

1.2 功能需求分析

毕业设计网络化管理平台设计是面向全校的一个开放式毕业设计管理,因此毕业设计平台包含的角色有学生、教师、系部管理员、院管理员、超级管理员。因为平台是基于Web模式的,所以学生和老师在具备Internet访问条件的任何地点都可以访问系统。

1.3 业务流程分析

系统是根据教师和学生在整个毕业设计过程中所经历的阶段和各阶段工作任务的特点而开发的,并根据信息系统特点,对部分流程进行了优化。优化后毕业设计流程如图1所示。

毕业设计工作的14个环节首先从发布毕业设计通知、启动毕业设计系统开始,按照执行的先后次序,依次被分为选题阶段的教师资格申报、课题申报、选题、下达任务、开题报告;其次是整个毕业设计中间环节的检查,包括前期、中期、提交、检测、评阅等;最后阶段则是论文答辩、论文修改和各类材料的归档。当学生完成开題,毕业设计课题即成为贯穿毕业设计过程的主线[6]。

2 系统设计与实现

2.1 系统功能设计

根据对毕业设计的总体调研及分析,将毕业设计系统分为基础信息管理、参数设置、教师信息管理、学生信息管理、课题信息管理、分组信息管理、文档管理、数据管理、相似度检测、评阅管理、新闻管理11个功能模块[6],毕业设计系统总体功能模块图如图2所示。

毕业设计管理平台采取分角色的权限控制,对不同的功能模块,不同的用户进入之后,将具有不同的访问权限和不同的结果显示。

2.2 系统实现相关算法

2.2.1 自动分组

指导教师通过导师资格审核、完成课题申报,且经过系管理员审核通过后,学生即可进行课题的选择。在课题选择和分组时,考虑到大多数高校都要求一人一题,因此我们优先采用了一对一匹配算法,也就是一个学生可以选择一位最满意的教师,而教师也可以选择自己心仪的学生,有人把这种算法称之为Gale-Shapley算法,也称之为婚姻匹配算法[7]。

婚姻匹配算法并不能直接应用于毕业设计系统,必须进行相应的改进。这是因为在选题和分组时,假设把学生看成“男方”N,课题看成“女方”M,通过选题过程后,会出现N对M有满意度,但是M对N却没有满意度,因此无法直接进行婚姻匹配。这就需要考虑只利用N对M的满意度程度对课题志愿进行排序,然后完成课题的自动分配[7]。

课题选择时,每个学生最多可以选择3个课题,学生可以根据自己的意愿对课题进行排序,分别设置为第一、二、三志愿,当进行课题分组时,首先依据课题,得到课题选择的满意度序列,以满意度序列作为分组顺序。当出现多个学生都很中意某个课题时,而引入第二个排序种子——选题时间,如果选题时间排序也无法区分,则系统产生“随机数”种子,辅助排序来完成课题的分配。如果自动分组完成,仍有学生没有分配到课题,则由管理员手动调剂志愿,保证每个学生都能够选择到课题。

2.2.2 网络爬虫的设计

在毕业设计系统中引入网络爬虫是基于相似度检测的需要。同時,因为本系统设计的服务对象是高校内部师生,所以不需要高强度的网络爬取。当指导老师申报完成课题之后,系统设计的分词算法对毕业设计课题进行分词,提取其中的关键字。通过这些关键字把与课题相关的资源都爬取下来。爬虫在爬取网页时,找到最匹配的网页,比如直接有对课题相关描述的网页,然后依此网页为种子,只要是跟该网页URL地址有联系(超级链接)的网页都一一收集过来,再以收集到的网页为种子,收集其他网页,周而复始,把所有的网页都收入库中。

2.2.3 构建论文检测库

(1)构建网页库。毕业设计系统中的爬虫程序有专门的线程负责将网页存取到磁盘,而且会对每一个抓取的网页给予一个计算出的签名,该签名是唯一的。爬虫网页存入磁盘,构建一个网页库WEBpages,而且把系统所用的URL地址、网页相关参数等保存进数据库。

(2)历年论文入库。本系统在设计过程中,除了对互联网数据进行收集入库外,还把近年所有学生的毕业设计论文、开题报告等文档资料入库。学生通过本系统提交论文时,将进行一次内部检测,避免学生出现交叉抄袭的情况出现。

2.2.4 正文提取

在相似度检测时,WORD文档、PDF文档、网页中的有些标记是不被识别的,或者说没有存在的实际意义。因此,在进行检测时要把脚本程序、样式表等去掉,例如把网页中的HEAD、div等使用正则表达式去掉,同时替换些标记,从而取得网页的正文,这样可以很方便地进行分词,进而完成相似度对比。

2.2.5 分词的功能的设计与实现

毕业设计系统中的相似度检测主要是对中文进行比对,因此侧重点也是中文分词。中文分词则是指按照一定的规则将一个中文语句串分割成若干个关键词的过程。关于分词技术,算法众多,在毕业设计管理平台中我们选取了基于字典的分词技术,就是获取一段文字后先进行分割,分成N个小段,比如以“,”或者“。”作为分割条件,然后再对每一段进行处理。处理的过程比较简单,使用正向匹配,从第一个字开始,然后查字典,如果字典存在这个字,就表示分词成功;如果不存在,则指针向后一位再查字典,直到整句话分词完成。

2.2.6 相似度识别功能的设计与实现

中文字符串分词及相似度匹配的算法形式有很多。在毕业设计系统的相似度识别中,为了得到2个字符串的相似程度,我们采用二元变量来判断与比较。首先对学生提交的论文进行分词处理,然后把处理完成的数据与论文检测库的分词结果集进行匹配,最后得到相似的程度。

3 结论

在系统设计过程中,我们参考了各类毕业设计的通用流程,最后结合湖南工业大学对毕业设计过程的全部需求定制开发而成,同时对部分流程根据信息化的需求进行了优化,并且已经在实际的操作中运行了4年,在这4年中,根据技术的进步和管理需要,我们对系统进行了部分优化。系统目前已经基本满足了高校毕业设计管理的全过程需求,对毕业设计管理工作起到了很好的规范作用。

参 考 文 献

[1]徐莉.信息化已经上升为国家战略[J].中国教育信息化,2013(7):6-10.

[2]梁金明.基于WEB的毕业设计管理与监控系统设计[J].四川理工学院学报(自然科学版),2011(5):537-540.

[3]初作玮.毕业设计选题系统[D].长春:吉林大学,2010.

[4]龚云飞.本科毕业设计学术不端防治体系的构建[J].黑龙江教育(高教研究与评估),2014(10):79-80.

[5]王爽.高校网站站群管理系统的设计[J].西安文理学院学报(自然科学版):2011(4):77-79.

[6]廖成香.基于Web的毕业设计信息管理系统设计开发[D].广州:广东工业大学,2005.

[7]邓蔚之,刘强,等.优化的Gale-Shapley算法在学生选课问题中的应用[J].湖南工业大学学报,2013(1):22-24.

[责任编辑:钟声贤]

猜你喜欢
网络爬虫
基于分布式的农业信息检索系统的设计与实现
微信平台下的教务信息获取和隐私保护方法研究
基于网络爬虫的电子易购软件设计与实现
计算机时代(2017年2期)2017-03-06 20:40:01
搜索引擎技术的发展现状与前景
炼铁厂铁量网页数据获取系统的设计与实现
基于社会网络分析的权威网页挖掘研究
主题搜索引擎中网络爬虫的实现研究
浅析如何应对网络爬虫流量
中国市场(2016年23期)2016-07-05 04:35:08
基于淘宝某商品销售量监控系统
网络爬虫针对“反爬”网站的爬取策略研究