李承桓, 张莉, 何学东, 常利建, 于喻
(1.国家电网有限公司客户服务中心, 天津 300304;2.北京中电普华信息技术有限公司, 北京 100085)
供电公司是我国经济社会发展的能源保障,供电服务专业学生为供电公司提供人才支持,是供电公司的后备军。供电服务专业属于技术型专业,需要采用先进的教学手段,促使学生充分理解供电服务专业的知识。许多学者研究供电服务知识标签体系,因构建知识标签的方法使用不当,导致学习效果一般[1]。
在构建供电服务知识标签体系的过程中,银宇堃等[2]提出了图案的方法,以图案为基础实现知识标签体系构建,该方法受图像信噪比影响,导致标签呈现效果不佳;张璞等[3]提出了标签传播构建方法,采用选取种子词与候选词相结合的方法,实现知识标签体系构建,由于计算过程复杂,导致知识标签体系构建效率低。
以向量的衡量指标为维度,多种维度一起生成的被称为多维,而为了满足不同人群的需求维度,将知识实施差异化维度分类,即可得出最优的匹配维度。由于要保障不同主体知识需求,因此多维本体是构建以多个本体为基础的知识标签体系构建方法,这种方法已广泛应用在各个领域。因此本文以多维本体驱动为主构建供电服务专业多维知识标签体系,增强供电服务专业知识框架的科学性,提高供电服务专业知识学习效率。
多维本体分为多语言、多领域、多层次的空间模型。领域知识、通用知识、动态知识组成层次维,在层次维对供电服务专业知识实施本体建模,动态知识表示实体对象的形式化[4],领域知识和通用知识表示静态知识实施形式化处理,供电服务专业知识涵盖多领域多语言的知识共享。在本体知识上构建多维本体空间模型,如图1所示。
图1 多维本体空间模型
图1中,3种本体的具体构建方法如下。
(1) 依据用户的实际需求构建动态知识的本体,采用以往网络信息资源与知识,由机器实现构建。动态知识的本体构建过程,如图2所示。
图2 动态知识的本体构建过程
图2中,按照需求得出关键词集,在互联网搜寻与之关联的信息资源,在开放资源库内存入预处理后信息资源。在本体选择中[5],采用中文分词的方式完成语料切分,经匹配语言模板获取候选术语,并采用TFIDF技术求解领域相关性得出本体概念。
利用模板匹配方法得出预定义关系集,再与领域知识、通用知识相联系构建关系集[6]。通过任务对象完成对动态知识的响应,提高动态扩展。
(2) 通用知识是供电服务专业中最基础的概念知识,可以提高特定场景和领域知识构建效率。通用知识的适用性很强[7],从三大本体的通用概念知识体系中筛选通用概念。
(3) 领域知识是专业领域的知识,各领域实现共享。领域知识本体构建,通过以往的叙词表生成各领域的概念分类体系,结合网络维基的顶层知识修正分类体系,选取网络维基内实例知识,构建包含大规模概念知识、实例知识、关系知识的各领域知识体系。
以三个多维主体为基础构建供电服务专业原始多维知识标签体系,如图3所示。
图3 原始多维标签体系结构
由图3可知,在明确顶层维度后,针对三大主体分析原始多维标签体系结构。体系中包括领域知识需求、通用知识需求、动态知识需求。动态知识需求从组织维度、管理客体两方面分析[8]。
为提高标签体系的精准度,在多维本体驱动下应用在供电服务专业多维知识标签体系构建方法,其标签体系构建的流程,如图4所示。
图4 多维知识标签体系构建方法的流程
由图4可知,为了生成新的供电服务专业多维知识标签体系,将原始标签作为导航标签,经数据处理得到标签网页文本和丰富标签语义[9],分别采用上下位映射、等同映射筛选出标签集中相同标签,融合新的标签树,完成新的知识标签体系构建。
在数据处理环节,采用逆文档与词频匹配方法完成标签关键词的提取。标签关键词权重计算如式(1)所示:
wi=gidt×gti
(1)
其中,逆文档频率用gidt描述,候选词i在文本里的词频用gti描述。
逆文档频率,如式(2)所示:
(2)
其中,候选词i的文本数用Di描述,文本总数用D描述。
等同关系标签映射主要以附加语义的方法,判断标签间的关系[10],用句子向量描述模型,将各标签相对的网页标题用k表示,标签向量经网页文本语义求出。各标题的句子向量用x1,x2,…,xn描述,标签用式(3)描述:
(3)
其中,标签用Xlabel描述。
余弦相似度如式(4):
(4)
其中,基准标签B的向量用XB描述,待融合标签A的向量用XA描述。两者呈等同关系,在阈值小于余弦相似度的条件下呈现。
上下位标签映射用来判断标签间的关系。求解全部XB、XA的相关性,两者呈上下位关系是在阈值小于极大相关性。子标签的余弦相似度用C(XA,XB),C(XA,XB1),…,C(XA,XBn)描述,则标签AB相关性用式(5)描述:
(5)
标签判断可通过网页标签实现,B表示基准标签,网页标题个数用p描述,包含比例用式(6)描述:
(6)
其中,标题用q描述。
A、B两个标签有上下位关系,当阈值小于包含率时,提取具体关键词,结合图4,即可完成供电服务专业多维知识标签体系构建。
本文以某高校供电服务专业课程为实验对象,构建了其知识标签体系。在该高校原始标签体系内,选取多个不同类型供电服务专业知识标签实施分组,得出测试标签体系,供电服务专业知识标签类型分别用A、B、C、D、E表示,实验数据如表1所示。
表1 标签体系中原始及测试标签数
测试指标如下。
(1) 标签树枝数量用MT描述,上下位关系重合度用式(7)描述:
(7)
其中,测试标签体系中树枝数量用MT描述,两个体系内相同的树枝数量用Msame描述。
(2) 设置融合标签体系中标签数量用NL表示,标签内容相似度指标为标签重合度,如式(8)所示:
(8)
其中,相同的标签数量用Nsame描述。
实验对比方法为文献[2]图案标签体系构建方法、文献[3]标签传播的构建方法。在实验数据相同的条件下,测试3种方法的标签重构性能,通过求解上述测试指标,比较本文构建的测试标签体系即本文方法,比较结果如表2、表3所示。
表2 3种方法的测试指标比较
表3 3种方法时间频率比较 单位:s
由表3可知,3种方法的时间频率没有太大差异。由表2可知,与其他2种方法比较,本文方法性能较优,其标签重合度均值为91.66%、上下位重合度为92.44%,比其他2种方法的测试指标分别高出10%、15%,说明本文方法的准确性较高。
测试3种方法的本体特性,比较结果如表4所示。
表4 3种方法的本体特性
由表4可知,本文方法的本体特性明显优于其他2种方法,其概念规模最大、构建方式比较灵活、适用度高、扩展能力好、语言覆盖范围全面,说明本文方法的本体特性性能优良。
比较3种方法随标签数量变化的正确率变化情况,比较结果如图5所示。
图5 3种方法随标签数量变化曲线
由图5可知,文献[2]方法随标签数量变化正确率波动较大,平均正确率为75%,文献[3]方法随标签数量变化正确率呈下降趋势,而本文方法随着标签数量增多,其正确率在92%以上且呈较稳定趋势,说明本文方法的鲁棒性较优。
将供电服务专业课程作为输入文本,分别采用3种方法对候选标签词汇实施标签关键词提取,比较结果如表5所示。
由表5可知,本文方法的标签关键词提取效果较好,因为其将供电服务专业课程按照关键词的权重进行优化,选取并分类了重要的标签关键词,对比谐波源与谐波2个候选词,按照其逆文档与词频匹配权重去除源字,保留谐波作为标签。
表5 3种方法的标签关键词提取结果
本文构建多语言、多领域、多层次的多维本体空间模型,以多维本体空间模型三个多维主体为基础,构建供电服务专业原始多维知识标签体系,经数据处理、标签映射、数据融合等方法实现新的知识体系构建,其概念规模最大、构建方式比较灵活、适用度高、扩展能力好、语言覆盖范围全面,本体特性较好,标签构建准确性高。