[摘 要] 知识工程研究已逐渐成为教育技术学研究的热点,其中构建领域本体是知识工程的一个重要方面。从已有的基于本体的应用研究来看,领域本体可以在资源聚合、学习资源个性化推荐、网站导航、平台开发等诸多方面发挥重要作用,而构建领域本体是各种应用得以实现的前提。目前,构建领域本体是一项浩大的工程,需要大量领域专家的参与,常常是手工完成,建设周期长。面对一个知识迅速增长的时代,仅仅依靠领域专家来手工构建领域本体显然不能满足需求。本研究提出了一种基于术语部件的领域本体自动构建方法,该方法通过术语部件之间的关系来自动发现术语之间的属种关系和并列关系,并以《电化教育研究》期刊为例,通过分析该期刊数年期刊论文的题录信息,提取出1719个术语,并通过领域本体自动构建方法构建起一个初步的教育技术学领域本体。
[关键词] 领域本体; 教育技术学; 知识工程; 术语提取; 术语部件
[中图分类号] G434 [文献标志码] A
[作者简介] 魏顺平(1981—),男,江西南昌人。副研究员,博士,主要从事教育数据挖掘研究。E-mail:wsp2049@163.com。
一、问题的提出
20世纪90年代初期至今,本体已经成为包括知识工程、自然语言处理和知识表示在内的诸多人工智能研究团体的热门课题。随着本体领域的第一个主题会议ICFOIS 1998(信息系统中形式本体论国际会议)的召开,这个领域的研究成果无论是数量还是质量都在大幅提高中。作为一种有效表现概念层次结构和语义的模型,本体在国外得到了许多科研人员的极大关注,并被广泛地应用到包括计算机科学在内的众多领域中。[1]在T. B. Lee所倡导的第二代互联网语义网的七层结构中,本体层在其中占据着承上启下的关键位置,已经成为语义网的基石。[2]金芝对本体作了分类,包括知识表示本体、通用或常识本体、领域本体、语言学本体、任务本体等。[3]在教育教学领域,领域本体已经在资源聚合、[4]学习资源个性化推荐、[5][6][7]网站导航、[8][9]平台开发[10][11]等方面得到了应用。
领域本体的构建是一项浩大的工程,需要大量领域专家的参与,常常是人工完成,建设周期长。面对一个知识迅速增长的时代,这种人工构建本体方式显然不能满足需求。因为新概念层出不穷,概念之间的关系也在发生变化,这就使得经过若干年时间建立起的本体落后于学科现状。因此,本研究将提出一种基于术语部件的领域本体自动构建方法,从而加快领域本体建设速度。鉴于教育技术学科迅速发展的特点,以及笔者所在教育技术学专业的背景,本研究将选取教育技术学作为研究个案,试图以教育技术学术语表为基础来构建教育技术学领域本体,以便及时给教育技术学研究者以及专业学习者展示教育技术学知识体系的新面貌。
二、相关概念
下面对本文中涉及的一些主要概念进行介绍。
1. 本体(Ontology)
斯坦福大学知识系统实验室(KSL)的Gruber于1993年给出了经典的关于本体的定义: 本体是概念模型(Conceptualization,有时也译作概念化)的明确的(Explicit)规范说明(Specification)。[12]目前,该定义在人工智能领域得到研究者的普遍认同,引用率最高。本体定义体现了四个主要方面的内容:(1)概念化(Conceptualization):客观世界的抽象模型;(2)明确(Explicit):概念及它们之间联系都被精确定义;(3)形式化(Formal):精确的数学描述;(4)共享(Share):本体中反映的知识是使用者共同认可的。
2. 领域本体(Domain Ontology)
领域本体是指在一个特定的领域中可重用,他们提供该特定领域的概念定义和概念之间的关系,提供该领域中发生的活动及该领域的主要理论和基本原理等的一个本体。[13]
3. 概念
概念是客体在人们心理上的反映。在一个知识领域中,概念用定义描述,被赋予约定的指称(即术语)。一组概念可依据概念间的相互关系构建成概念体系。一般来说,概念体系反映相应的知识体系。[14]
4. 概念的特征
任一客体都具有众多特性,人们根据一群客体所共有的特性形成某一概念。这些共同特性在心理上的反映,称为该概念的特征。[15]
5. 概念表征
概念的表征方法有很多,如原型说、特征表说。本文采用特征表说,因为应用这种方法表示概念,使得概念间的关系具有可计算性。[16]
6. 内涵和外延
一个概念所反映的客体的全部特征称为概念的内涵,一个概念所指客体的范围称为概念的外延。一般来说,概念的内涵越丰富,外延越小;反之,内涵越贫乏,外延越大。[17]
7. 层级关系
根据概念间的包含关系,可将概念区分为上位概念和下位概念。上位概念称为大概念,下位概念称为小概念。按同一标准(同一维度)划分并处于同一层面的概念称为并列概念。概念间的关系除了层级关系外,还有序列关系、联想关系等。[18]
8. 属种关系
属种关系是层级关系的一种,属种关系指概念外延的包含关系。小概念(种)的外延是大概念(属)外延的一部分,小概念除了具有大概念的一切特征外,还具有本身独有的区别特征。[19]
9. 术语
术语是专业领域中概念的语言指称。术语和概念之间应一一对应,即一个术语只表示一个概念(单义性);一个概念只有一个指称,即只由一个术语来表示(单名性)。在相关学科或至少在一个专业领域内应做到这一点,否则会出现异义、多义和同义现象。[20]
10. 单词术语和多词术语
术语一般分为单词术语和多词术语两类。[21]单词术语由单个词语组成,多词术语由多个词语组成。吴云芳等人曾对单词术语和多词术语的比重进行过统计,发现多词术语远远多于单词术语,并且新生的术语大部分还是多词术语。[22]
11. 术语部件
术语部件是指组成多词术语的词。这里研究者补充一个研究假设,即单词术语也有术语部件,就是它自身。[23]
三、研究假设
1. 概念间的属种关系与术语间的属种关系一一对应
我们构建领域本体,主要的工作是提取概念并发现概念间的层次关系特别是属种关系,所以本研究所要研制的本体自动构建方法主要用于概念自动提取和概念间的层次关系自动发现。根据前文定义,术语与概念有着一一对应的关系,因此本文规定概念间的属种关系就是术语间的属种关系;提取学科概念可通过提取术语来完成。
2. 概念的特征可用术语部件来表示
我们假设,概念的特征可以通过术语部件来表示,在同一知识领域不用术语所具备的相同术语部件其意义相同。根据前文定义,概念间的属种关系可以通过比较概念间的特征来求取。因此,我们可通过比较构成术语的术语部件来求取术语间的属种关系。具有属种关系的一对术语分别称作上位术语和下位术语,其中小术语具有大术语的所有部件,还具有本身独有的部件。
四、研究过程
本研究过程由术语提取、术语部件获取、术语关系计算、领域本体可视化表示等部分构成。
(一) 术语提取
我们要构建教育技术学的领域本体,首先要获取领域本体的构成元素——术语。学术期刊反映了某领域研究的最新进展和发展历程,某领域的全部术语基本上都会在该领域的重要学术期刊中出现。因此,我们可以通过期刊论文来提取术语。期刊论文的题录信息如标题、摘要、关键词等已经包含了大量的术语,可以成为我们提取术语的理想语料,因此我们没有必要通过期刊论文全文来提取术语,这样可以大大减轻工作量。由于《电化教育研究》杂志是教育技术研究领域创刊时间最早、最具权威性的学术期刊之一,于是我们选取该杂志的论文题录信息作为术语提取的语料。
我们先从CNKI中国期刊全文数据库下载《电化教育研究》杂志近10年的论文题录信息,并导入到数据库中。然后采用自行研制的规则和统计相结合的术语提取算法来处理题录信息,提取术语。[24]该术语提取算法的准确率为66.7%,召回率为76.7%,与现有的一些术语提取算法性能相近,可以较好地帮助研究者完成术语提取工作。经术语提取程序的处理,并经过人工对术语提取结果的校对,最后我们得到2159个术语。
(二) 术语部件提取
术语部件是计算术语间的属种关系的依据。我们在得到术语后,需要对术语进行分解,得到构成术语的术语部件。前文已经提到,术语部件其实就是构成术语的词语,因此要得到术语部件,其实就是要对术语进行分词操作。
中文分词是中文信息处理领域中的一项基础技术。一些比较简单的分词算法有最大匹配法、最大概率法等。由于开发分词工具需要建立大型的词库和语法知识库,费时费力。所幸的是,中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),并在网上公布了源码。该系统的功能有中文分词和词性标注,分词正确率高达97.58%。于是在本研究中我们采用了该分词工具。表1给出ICTCLAS分词工具对文本进行分词处理后的一个片断。
我们采用ICTCLAS分词工具对术语进行分词操作,得到表1的结果。由于分词工具也有不准确的地方,我们还需对术语分词结果进行校对,并将校对结果以表2的形式存储。
其中,“部件位置”表示该部件在术语中出现的顺序,这是后面用于术语关系计算的一个重要数据。
(三)术语关系计算
我们进行术语关系计算的依据是前文所提出的假设:
具体算法描述如下:
(1)从术语表中读取一个术语T;
(2)通过术语部件存储表查找术语T的全部下位术语,下位术语的判断依据是具有术语T所有部件且出现顺序与T一致的所有术语;
(3)将得到的术语作为术语T的下位术语存储术语关系表;
(4)回到第一步,直到术语表中所有术语都被读取。
经过上述算法操作,我们最终得到了一张术语关系表,其片断见表3。
不过此时得到的术语表存在一定的冗余,即上位术语的部分下位术语其实是该上位术语的下位术语的下位术语,见表3,“学习模式”的下位术语有“协作学习模式”、“校际协作学习模式”,“校际协作学习模式”也是“协作学习模式”的下位术语,这就需要对下位术语中属于下位术语的下位术语的部分进行清理,这样才能保证术语关系表更为精简。冗余术语关系清除之后,构建领域本体的主要工作就基本完成。
(四) 领域本体可视化表示
由于表3所示的术语关系表可读性较差,且每行记录只能反映一对术语之间的属种关系。其实,在发现术语之间属种关系的同时,我们也就发现了下位术语之间的并列关系,如表3中“探究学习模式”、“协作学习模式”、“研究性学习模式”等下位术语间就存在着并列关系,而这种关系无法通过几行记录直观呈现。因此,我们需要将表转换为图的形式,以直观的方式展示教学技术学的领域本体,这就是领域本体可视化过程。我们主要采用树型结构来展示教育技术学领域本体的局部,树状结构通过JavaScript脚本在网页中生成。之所以采用网页来呈现领域本体,是因为一个领域本体应该可以通过WEB服务的方式供用户查询。本研究的后续工作之一就是开发在线教育技术学领域本体查询页面,以便从事教育技术学研究和专业学习的朋友都可以来使用这一知识工程产品。图1是以树型结构方式展示的领域本体的局部内容。
我们从图1中便清楚地看到“学习模式”这一术语的所有下位术语,还可以看到更低层次的下位术语,如“校际协作学习模式”,并可看到具有并列关系的多个术语。
五、研究结果与讨论
(一) 从高频部件看教育技术学的学科性质
通过对术语进行分词得到术语部件,并对术语部件进行归并处理,共得到术语部件972个。其中,一些部件常常为多个术语所共有,我们把共有某个部件的术语的个数称为该部件的术语频次。这里我们关注一些术语频次高的部件,从这些部件中,我们将能看到教育技术学科所处的更为广泛的领域。下面列出术语频次在前10位的术语及其术语频次,如图2所示。
这10个部件占部件总数的1%,所涉及的术语的个数(即包含这10个部件中任何一个的术语个数)却达1248,占术语总数的57.8%。
术语频次超过200的部件是“教育”、“教学”、“学习”,这三个部件涉及术语871个,占术语总数的40.3%,说明教育技术学科中所讨论的话题(这里特指在《电化教育研究》所刊载的论文的语境下)有五分之二与这三个部件所指代的领域直接相关,这三个部件比教育技术学科中的任何术语都更为抽象,教育技术学科中的许多术语可以从这三个部件中演绎得来。由此我们推断,这三个部件中的一个或多个可能就是教育技术学的逻辑起点。
我们可以来回顾一下以往关于逻辑起点的讨论。自2004年以来,教育技术学界开展了一场关于教育技术学逻辑起点的讨论,迄今已发表了七篇学术论文,其中,冯秀琪提出“教育中的技术”是教育技术理论研究的逻辑起点,[25]郑旭东将以“借助于技术的学习”作为教育技术学的逻辑起点,[26]江北战指出教育技术学的逻辑起点是“借助工业技术的学习”,[27]何克抗认为教育技术学的逻辑起点是“借助技术的教育”,[28]赵剑认为教育技术学的逻辑起点是“教育软技术创新”,[29]刘瑞儒认为教育技术学的逻辑起点是“借助现代教育技术的教与学的方法”。[30]我们认为,这六种观点中,“借助技术的教育”、“借助工业技术的学习”、“借助于技术的学习”较其他三种观点更为合理,因为这三种观点将教育技术学的逻辑起点的讨论范围限定在“教育”或“学习”上。
“设计”、“资源”这两个部件则印证了教育技术学科以设计(如教学设计、课件设计、任务设计、交互设计、活动设计、学习环境设计等)和资源(如教育资源、学习资源、资源平台、资源共享、资源库、资源标准等)为核心内容的特点。“信息”、“网络”、“远程”这三个部件则反映了教育技术学科当前研究和实践的热点。
表4是术语频次位列11至30位的部件,涉及这些部件的术语占术语总数的75.9%。
(二) 领域本体可视化中存在的问题
在术语关系表中,不仅一个术语可以有多个下位术语,并且一个术语可以有多个上位术语。通过树型图来呈现领域本体,可以很好地将一个术语的多个下位术语呈现出来,但是却无法将一个术语的多个上位术语直观呈现出来。例如,以“教学系统”术语为根节点,绘制树型结构,得到结果如图3所示。
从图3中我们发现,“多媒体网络教学系统”有两个上位术语,即“多媒体教学系统”和“网络教学系统”,“多媒体远程教学系统”也有两个上位术语,即“多媒体教学系统”和“远程教学系统”,因此,该部分领域本体的更为简洁的可视化结果如图4所示,该图中省去了一些只有一个上位术语的术语节点。
图4已经不再是一个树型结构,而是一个网状图。如此一来,术语之间的关系更为明了。因此,后续研究将致力于网状图的绘制,使领域本体的可视化结果更为简洁、直观。
(三) 缺乏对领域部件的语义关系描述所引起的问题
由于目前的术语部件之间没有任何语义关系的描述如同义关系,致使术语间的同义关系未能发现。例如,“数字化”与“电子化”、“电子”等部件在教育技术学这一语境下可视为同义,由此便可推出“数字化学习”、“电子化学习”、“电子学习”等术语之间具有同义关系。
另外,未能对已有术语的同义关系进行描述也会引起更多术语同义关系的出现。例如,在教育技术学语境中,“CAI”与“计算机辅助教学”同义,由此便可推出“CAI软件”和“计算机辅助教学软件”之间是同义关系。在后续研究中将对术语部件的语义关系以及一些术语之间的语义关系进行人工设定,以便使术语之间的关系更为精确。
六、研究结论
本研究提出了一种基于术语部件的领域本体自动构建方法,该方法通过术语部件偏序集的包含关系来自动发现术语之间的属种关系和并列关系,并以《电化教育研究》期刊为例,通过分析该期刊近10年论文的题录信息提取出1719个术语,通过领域本体自动构建方法构建起一个初步的教育技术学领域本体,实现了以树型结构呈现领域本体。由于缺乏对术语部件语义关系的描述和部分术语之间语义关系的描述,致使术语之间的关系不够紧密,缺少更多同义关系和属种关系的建立。并且以树型结构呈现领域本体也使可视化结果存在冗余节点,需要进一步研究如何使用网状图来呈现领域本体。因此,后续研究将从这两方面不足出发去对领域本体建构方法进行进一步完善,使得到的领域本体更好地反映当前学科的知识体系,从而更好地为学科研究者和学习者提供知识服务。
[参考文献]
[1] 陈天. SWOM网络本体模型及其应用研究[D]. 北京:北京师范大学,2005.
[2] Tim Berners-Lee. Semantic Web - XML2000.W3C Web site 2000.URL[DB/OL].http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide10-0.html.
[3] [13] 金芝. 知识工程中的本体论研究[A]. 世纪之交的知识工程与知识科学[M]. 北京:清华大学出版社,2001:451~452.
[4] 余胜泉,杨现民,程罡.泛在学习环境中的学习资源设计与共享——“学习元”的理念与结构[J],开放教育研究,2009,(1):47~53. [5] 杨丽娜,刘科成,颜志军. 面向虚拟学习社区的学习资源个性化推荐研究[J]. 电化教育研究,2010,(4):67~71,85.
[6] 姜强,赵蔚,杜欣,梁明. 基于用户模型的个性化本体学习资源推荐研究[J]. 中国电化教育,2010,(5):106~111.
[7] 袁静,焦玉英. 基于情景信息的学习资源个性化推荐[J]. 情报理论与实践,2009,(7):116~119.
[8] 裘江南,师花艳,王延章. 基于事件链的知识导航模型研究[J]. 中国管理科学,2009,(1):138~143.
[9] 杨发毅,陆敏,彭骏. 基于语义检索的知识导航研究[J]. 情报杂志,2009,(4):176~179,207.
[10] 吴飞,吴兵,申志斌. 新一代网络教学平台特征和技术难点的分析与探讨[J]. 开放教育研究,2009,(1):10~20.
[11] 赵蔚,余延冬,张赛男. 开放式e-Learning解决方案个性化推荐服务——一种面向终身学习的数字化学习服务模式的探索思路[J]. 中国电化教育,2010,(11):110~116.
[12] 杜小勇,李曼,王大治. 语义Web与本体研究综述[J]. 计算机应用,2004,(10):14~16.
[14] [15] [17] [18] [19] [20] [21] 中国标准研究院.中华人民共和国国家标准GB/T10112-959 术语工作 原则与方法[S].1999.
[16] 王甦,汪安圣.认知心理学[M].北京:北京大学出版社,1992,(4):262.
[22] 吴云芳,穗志方,邱利坤,宋作燕,胡俊峰. 信息科学与技术领域术语部件描述[J]. 语言文字应用,2003,(4):34~39.
[23] 中国标准研究院.中华人民共和国国家标准 GB/T 19102-2003|术语部件库的信息描述规范[S]. 2003.
[24] 傅骞,魏顺平,王斌,路秋丽. 教育技术领域术语提取研究[J]. 现代教育技术,2008,(5):60~65.
[25] 冯秀琪. 教育技术理论研究逻辑起点的思考[J]. 电化教育研究,2004,(7):24~26.
[26] 郑旭东. 教育技术学的逻辑起点及其理论结构[J]. 电化教育研究,2004,(8):23~27.
[27] 江北战. 探寻教育技术学的逻辑起点[J]. 电化教育研究,2005,(3):32~34.
[28] 何克抗. 关于教育技术学逻辑起点的论证与思考[J]. 电化教育研究,2005,(11):3~18.
[29] 赵剑. 教育技术学逻辑起点再探[J]. 电化教育研究,2006,(6):33~36.
[30] 刘瑞儒,黄荣怀. 也谈教育技术学的逻辑起点[J]. 电化教育研究,2006,(8):29~33.