侯宗润 綦文彬 李贵熙
摘要:教育在国民生活中十分重要,而对教育众筹的分析可以推动传统教育与先进生产力的结合。该文综合运用文本挖掘手段对教育众筹的成败因素进行分析和预测,在提取词向量基础下实现教育众筹成败因素的迁移学习与特征分析,使用神经网络与经典模型对各因素的重要性进行总结,并最后预测一个请求书的申请能否被通过。
关键词:词向量;神经网络;文本挖掘;迁移学习;tf-idf算法;logistic模型
中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2018)26-0159-03
众所周知,教育是文化传播的重要手段,在人的教化和培育上有着重要作用。可以说,教育对一个人乃至一个社会的影响是无可比拟的,教育的发展对于一个国家也极其重要,然而由于资金和设备的限制,世界上仍有大量贫困人口无法接受综合教育。
近年来,为了得到足够的教学资源来保证教学的质量,教育众筹应运而生。它的出现一定程度上缓解了这些矛盾,而教师们的请求书能否被大众所接受是不确定的。因此,对于众筹平台、教师和学生来说,预测这些请求书能否得到公众认可,并获得相应的教育资源已经成为当务之急。对于众筹平台应用的可行性分析是这一问题研究的热门方向。例如杨开城,李通德,惠治儒[1]等对在线教育众筹的技术机制与学习神经元的研究,薛青[2]对众筹平台应用于工业设计教育的可行性分析等。然而,在这些分析中,定性分析较多,对影响因素进行量化的研究相对较少。基于这种情况,教育众筹领域现在急需通过建立合理的数学模型,分析影响因素并最终投入应用。
本文中分析的教育众筹网站为美国教育众筹网站www.donorschoose.org,该网站可对全美国任意地区的教育众筹申请书进行公开众筹。本文所研究的语料库包含该网站2016-2017年的部分后台数据,内容包括申请书内容、价格、申请人(或其学生)所处年级、物品类别、总申请次数、申请物品主要介绍、申请原因及最后申请书是否被通过。
本文接下来将具体描述实现提取关键词/词频分析的过程,在这一基础上实现对词向量的预训练1;随后将说明具体影响教育众筹的因素并对其进行建模分析;最后将给出结论并讨论此结论对教育众筹行业的影响。
1 模型约定
1.1 模型假设
下面将会对本文解决问题的方式以及实际情况进行合理的假设,以正常进行下文中对各要素的分析和预测。
1) 众筹平台上公布信息全部真实;
2) 学校教育短时间内仍将是教育的主要手段;
3) 所挖掘的数据均准确无误;
4) 不存在提交后未被审核的资源;
5) 假设数据库在论文写作的过程中没有更新;
6) 假设申请书中的内容与实际情况相符合(即,申请者所需要的东西及提供的条件不存在夸大成分或与事实不完全相同的情况)。
1.2 符号说明
表1列出了本文所使用的符号并对其进行了说明。
2 对关键词的提取与词频分析
对于数据挖掘中的自然语言理解,提取语料中的关键词以及分析一个词语在语料中出现的情况十分重要。本文接下来将对此进行分析,并对分析的数据建立模型进行预测。
本文中文本挖掘的基本过程如图1所示。
4 结论
本文利用logistic模型对教育众筹申请书成功与否的影响因素进行了建模预测,通过检验证明了对四个要素进行定量分析的重要性,并得出了结论。本文认为所处地域/物品价格/申请类别三个要素对一个申请书是否能够获得成功的影响相对更大。
当然,论文受时间以及语料库单一等因素的限制,无法完全准确的提取出各种要素并进行大规模分析,但本文在语料基础上已经对提取出的要素进行了较为全面的分析。日后,加强语料库的建设,提高分类程度,涵盖更多领域和标签,将会成为教育众筹领域文本挖掘与分析亟需改善之处。教育众筹项目的研究具有广阔的前景,未来,对这一领域的研究将会更加深入,这一行业也必将拥有更为广阔的发展前景。
注释:
1.即Pre-training,为后面模型的设计提供数据基础.
2.简称为NLP(Nature Language Processing).
3.即认为一个词出现的概率[P(wi)]与之前[P(wi-11)]个词出现的概率 有关
4.即tf(term frequency).
5.即idf(inverse document frequency).
6.此分式分母加1,分式不为0.
7.此数为Rake-tutorial中内置的tf-idf算法分数,不代表论文中所论述的实际方法. 但须指明的是,Rake-tutotial中的算法原理基于tf-idf方法.
8.New Mexico,州名缩写为NM.
9.Wyoming,州名缩写为WY.
10.这一结论在3.3中还有体现.
11.South Dokota,州名縮写为SD.
12.Michigen,州名缩写为MI.
13.即LR(likelihood ratio).
参考文献:
[1] 杨开城,李通德,惠治儒,田浩.在线教育众筹的技术机制与学习神经元[J]. 现代远程教育研究,2017(1):51-58.
[2] 薛青.众筹平台应用于工业设计教育的可行性分析[J].工业设计,2018(1):106-107.
[3] Bird, Steven, Edward Loper and Ewan Klein. Natural Language Processing with Python[Z]. OReilly Media Inc,2009.
[4] Xiaoqing Zheng,Hanyang Chen,Tianyu Xu.Deep Learning for Chinese Word Segmentation and POS tagging[R].Proceeding of the 2013 Conference on Empieical Methods in Natural Language Processing, 2013:647-657.
[5] 张键锋,王劲. 基于文本挖掘与神经网络的音乐风格分类建模方法[J]. 电信科学, 2015,31(7):80-85.
[6] M. W. Berry & J. Kogan (Eds.). Text Mining: Theory and Applications: John Wiley & Sons[M].
[7] Rose, S., Engel, D., Cramer, N., & Cowley, W. Automatic Keyword Extraction from Individual Documents[R]. 2010.
[8] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation[Z]. 2014.
[9] Alyona M.,NLP keyword extraction tutorial with RAKE and Maui[EB/OL].
[10] 施朝建,张明铭.Logistic回归模型分析[J].计算机辅助工程,2005(3).
[通联编辑:王力]