微博语义检索研究进展

2018-06-11 09:31李玲
科学与财富 2018年11期

摘 要:目前微博已经成为人们获取信息和发布信息的主要平台,现有微博平台的检索功能只能依靠关键词匹配返回检索结果,检索结果无法满足用户需求。为解决该问题,微博语义检索正逐步成为微博信息资源检索的主要研究内容。该文主要介绍了近年来微博语义检索的相关研究,最后总结微博语义检索实现所涉及的相关问题并进行了探讨。

关键词:微博检索 语义检索 语义扩展

一 引言

随着Web2.0时代的到来,“人人参与、信息共享”逐步成为当今网络的主流,其中极具代表性的应用之一便是微博。微博(Microblog),即微型博客,Wiki上给出的定义是“微博是一种允许用户及时更新简短文本(通常少于140字)并可以公开发布的微型博客形式”微博作为一种新型的信息交流平台,它集合各类信息交流媒体的优点,信息传播更加及时,内容更加简洁,与传统信息交流媒体相比,已逐渐成为人们传播和检索信息的重要平台之一。

CNNIC发布的最新报告指出,截至2017年12月,,微博作为社交媒体,其月活跃用户达到3.76亿,用户使用率持续增长达到40.9%,较2016年12月上升3.8个百分点,微博平台每日新增微博数量已远超过1亿条,微博用户每日的主动搜索量已突破2亿。[1]可见,微博平台上聚集有大量的文本信息资源和庞大的用户群体。用户如何从海量的微博信息资源中准确、全面、高效地获取满足自身需求的信息,是目前亟待解决的问题。

传统的微博检索方式大多是基于关键词的检索,其结果基本是字面意义上的匹配,这样严重割裂了字词之间的语义关联,查准率和查全率两方面的检索结果都不太理想,很难满足各类用户的多样化需求。微博语义检索是解决这个矛盾的主要方法之一。语义检索能从语义角度理解用户查询与微博信息资源,实现概念上的匹配,以得到用户真正想要的信息。

二、微博语义检索研究现状

现阶段有关微博信息检索方面的研究逐步开始获得越来越多的人的关注,但在微博语义方面的检索研究大体还处于初步阶段。

(一)语义查询扩展的微博檢索

针对传统基于关键词匹配搜索方法的局限性,提出了基于语义查询扩展的微博检索策略,利用潜在语义分析和TF-IDF两个指标判定词语的主题相关性、描述能力和辨别能力,运用KL距离获取候选词与查询词之间的相似程度,进而进行查询扩展;最后根据词语的权重向量,运用余弦公式对检索得到的文档进行相关性排序。[2]

此方法较基于传统关键词匹配的方法得到了较大改善,但语义仅停留在浅层的语义层面,对于深层次推理层面的语义研究并未涉及,可看作为从关键词搜索到语义网搜索的过渡方法。

(二) RDF/XML的微博知识表达与语义检索

通过对新浪微博数据进行分析,设计合适的资源描述框架(Resource Description Framework,RDF)结构,将其转换为富含语义关系的RDF格式,构建合适的RDF结构图。将其存储在Virtuoso数据库中并通过SPARQL查询语言实现对微博数据的语义查询。[3]

此方法为微博数据的语义转换与检索提供了借鉴,在网络舆情监控方面也具有重要的实用意义。但是在建构微博RDF结构图时选用的信息具有一定程度上的主观性,需进一步对微博自身内容进行自然语言处理和语义标识,以丰富语义查询的内容。

(三) HowNet的微博文本语义检索

知网(HowNet)被定义为:以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。[4]基于HowNet将用户输入的检索词与微博短文本进行语义相关度计算,以此来实现微博语义检索。

此方法能够从高级语义和知识库系统角度对用户的查询意图和微博文本进行匹配,检索效果较好,但在大数据背景下,其计算效率还有待进一步提升。此外,目前微博平台已不再是单纯的文字信息,同时可发布图像、音乐和视频等多媒体信息,这就为微博的语义检索带来了更大的挑战。

(四)潜在语义与图结构的微博语义检索

降低微博语义检索效率的原因主要有微博文本短小、特征稀疏、存在与用户查询之间的语义鸿沟。通过引入Wikipedia语料库和DBpedia知识库为短文提供丰富、准确的语义知识,从Hashtag、普通文本背后隐藏的主题以及实体三方面出发,提出一个基于特征、主题模型和图结构的综合语义检索模型。[5]

此检索模型具有较好检索性能,但由于实体的比较对微博语义搜索的结果具有很大的影响,且DBpedia的关系复杂多样,此模型只简单地利用实体之间的关系,未考虑属性传递、权重等因素。

(五)通用本体构建的微博语义检索

本体是共享概念模型的明确的形式化规范说明。顶级本体又称通用本体,是描述最普遍的概念及概念之间的关系,不同领域之间可以共享的概念和知识。由于微博语义检索是检索不同领域、不同教育水平的所有微博用户发布的微博文本信息,故选用顶级本体作为知识库。用户输入检索条件后,与本体库中的概念进行映射,对检索条件进行查询扩展;利用本体库中概念之间的语义关系,对微博短文本的特征进行扩展与选择;微博短文本通过倒排索引构建索引库与查询扩展后的索引条件进行匹配实现微博语义检索。[6]

此方法将通用本体引入微博信息检索中,既可对用户的查询进行有效扩展,又可以解决微博短文本特征稀疏性问题对微博短文本特征进行扩展与选择,提高了微博检索效率。

三 微博语义检索实现要解决的相关问题

(一)微博短文本特征选择问题

为了降低微博短文本特征稀疏性的问题,现阶段大多采用短文本特征扩展方法,与此同时将会为微博短文带来很多冗余信息与噪声[7]。

(二)字数扩展问题

2016年11月微博将用户发布的字数限制扩大到2000字以内,这样使得微博不仅存在短文本还有长文本,微博短文本的预处理方法将不再完全适用。

(三)实时检索与跨媒体检索问题

现如今微博信息生产数量巨大、更新速度飞快,且信息类型多种多样,如图像、视频、音频等,用户对检索信息时效性和多样化提出了更高的要求。

四 总结

在信息化社会大背景下,微博信息资源呈爆炸式增长,用户对微博信息检索结果的要求也越来越高。本文通过对现阶段有关微博语义检索的研究情况进行梳理,总结出了微博语义检索需要解决的若干问题。

参考文献:

[1]中国互联网络信息中心. 第41次中国互联网络发展状况统计报告[R].[2018-1-31]. http://cnnic.cn/gywm/xwzx/rdxw/201801/t20180131_ 70188.html

[2]唐曉波,房小可. 基于语义查询扩展的微博检索[J].情报资料工作,2014(2):34-38

[3]罗凌云,史淼,阳小华,等. 基于RDF/XML的微博知识表达与语义检索系统[J].南华大学学报(自然科学版),2014(4):56-60

[4]王李冬,张慧熙. 基于HowNet的微博文本语义检索研究[J]. 情报科学,2016(9):134-137

[5]肖宝,李璞,胡娇娇,等. 基于潜在语义与图结构的微博语义检索[J]. 计算机工程,2017(6):183-188

[6]许彤阳,尹凯. 大数据背景下微博语义检索[J]. 情报杂志,2017(12):174-179

[7]Liu Zitao,Yuwenchao,Chen Wei,et al. Short text feature selection and classification for microblog mining[C]//Proceedings of Internatinal Conference on Computational Intelligence and Software Engineering.Wuhan:ACM,2010:1-4.

作者简介:

李玲(1998-) 女 汉 河北省南宫市 本科 河北大学管理学院

主要研究方向:图书情报