苏喻 汪成成 张丹王士进
摘要:随着互联网技术的不断进步,在线教育行业得到了蓬勃的发展。借助人工智能和大数据技术,教育个性化学习系统能够实现学生的学情分析,为学生推荐个性化学习资源,从而提升老师的教学效率和学生的学习效率,并为教育管理者提供决策依据[1]。
关键词:智能;教育;试题检索
常见的教育个性化学习系统通过多元用户数据终端收集用户行为日志等,一方面对答题记录中的试题进行建模,构建结构化题库;另一方面对学生进行学情建模或对老师的使用习惯建模(即用户建模),生成学生的学情画像或教师的教学画像(即用户画像)。最后,基于结构化题库、用户画像和具体应用场景,融合相关的人工智能算法,形成一系列的个性化学习应用,如基于内容的推荐模式等。
个性化学习应用中的各种模式,均会直接或间接利用到试题检索技术,比如基于内容的推荐模式中,系统根据一道试题的题面和语义信息,从海量题库中找到其相似的试题集合。因此,试题检索技术是教育个性化学习系统的基础性技术。
一、试题检索所面临的挑战
相较于互联网领域的检索技术,教育领域对试题的检索精度要求更高,会面临如下诸多难点。
第一,同样的试题表示呈多样化。具有同样知识点的题目,在题面内容表述可能有较大差异。这种特性给试题语义表征造成了困难。
第二,由于不同教育专家对知识体系的理解不同,因此知识点标签没有统一的标准体系,如果题库不按照某一标准重新标注,则不能直接用于检索。而完全基于人工标签的试题检索方案要花费巨大的人工标注量[2]。如何利用试题上已有的多标准的知识点标签进行检索,给任务带来了难题。
第三,在实际应用场景中,需要从海量的题库中实时检索出符合用户个性化需求的试题,既要满足效率上的实时性,又要满足效果上的可用性。
二、试题检索的主要流程及相关技术介绍
试题检索系统一般分为三个主要步骤。首先,根据被检索试题的浅层语义特征,采用基于浅层特征的召回技术,快速从海量题库中检索出和被检索试题相关的候选试题集合;然后,利用基于神经网络的精排技术,将候选试题集合进行二次排序,以获得更精准的检索结果;此外,对于一些强调用户个性化的场景中,还会利用基于用户的个性化推荐技术,根据用户的搜索习惯对二次排序结果进行调整,最大程度的满足用户个性化需求。
基于浅层特征的召回技术的主要作用是从海量的候选题库中快速召回符合条件的相关试题候选集合,此步骤更加注重于检索效率。一般而言,被检索的试题浅层特征为文本中的关键词,知识点标签等。该技术通过构建浅层特征到试题ID的倒排索引存储形式,可以根据试题的浅层特征组合快速获取包含这些特征的试题候选集合。试题检索中的浅层特征召回技术一般采用Lucene、Solr、Elasticsearch等[3]。Lucene是基于Java开发的文本信息检索工具,当前流行的检索召回系统Elasticsearch和Solr都是基于Lucene开发的,提供了比Lucene更为丰富的查询语言,并且扩展性和查询性能更优。
在召回技术所获得的试题候选基础上,要进行二次精排,该部分更加注重检索精度。随着深度学习技术在自然语言处理领域的不断进步,基于神经网络的精排技术逐渐被提出。此类技术常见的有基于标签预测的方法和基于相似试题对关系的学习方法。前者通过训练试题知识点标签预测模型,得到稠密的试题语义向量表示,然后利用向量间的距离,去估计两道试题语义间的关系。该种建模方法可以利用TextCNN、Transformer、Bert[4]等模型。基于相似试题对关系的学习方法,模型的输入是两道试题文本,训练目标是判断两道题是否为相似题。二次精排可以通过训练好的模型直接预估两道题的相似度,在拥有大量训练数据的情况下能够取得更好的效果。
在一些场景中,还需要在检索过程中考虑用户个性化信息。如在教师给一道考试题搭配相关巩固试题的场景中,有些老师倾向于选择偏同步学习类的试题,另外一些老师则可能倾向于综合复习类。因子分解机(FM)模型可以将考区、考试类型等二阶特征组合融入到模型中,用于个性化推荐。基于神經网络的推荐模型,如Wide&Deep[5]、DeepFM[6]等模型,也可以应用到试题个性化检索中。近年来,融入注意力(Attention)机制[7]和知识图谱的推荐系统不断的被提出,有效的提升了神经网络模型的可解释性。试题检索系统可以采用这些研究方案,对检索结果提供诸如知识点相似度、试题难度符合度等信息,供用户进行二次筛选。
三、总结与展望
随着教育个性化学习系统被广大教师学生的逐步认可,可预见有更多的研究者会投入到以试题检索技术为代表的一系列相关技术研究中。我们有理由相信,人工智能会进一步深入到教学的各个环节中,护航学生快乐学习,助力教育者实现因材施教的梦想。
参考文献:
[1] 刘淇,陈恩红,黄振亚. 面向个性化学习的学生认知能力分析[J]. 中国计算机学会通信, 2017, (04).
[2] 胡国平, 张丹, 苏喻,等. 试题知识点预测:一种教研知识强化的卷积神经网络模型[J]. 中文信息学报, 2018, v.32(05):142-151.
[3] 苏潭英, 郭宪勇, 金鑫. 一种基于Lucene的中文全文检索系统[J]. 计算机工程, 2007, 033(023):94-96.
[4] Minaee S , Kalchbrenner N , Cambria E , et al. Deep Learning Based Text Classification: A Comprehensive Review[J]. 2020.
[5] Cheng H T , Koc L , Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. 2016.
[6] Guo H , Tang R , Ye Y , et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017.
[7] Liu Q , Huang Z , Huang Z , et al. [ACM Press the 24th ACM SIGKDD International Conference - London, United Kingdom (2018.08.19-2018.08.23)] Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining - KDD '18 - Finding Similar Exercises in Online Education Systems[C]// 2018:1821-1830.