胡皓勇
摘 要:图像搜索通常包含基于文本的搜索和基于图像内容的搜索,两种图像搜索技术各有优劣。基于文本的图像搜索技术的信息准确性有待改进,而基于图片内容的图像搜索技术无法有效保证信息的全面性。另外一方面,相比纯文本,图像处理算法具有较大的差异性,其更加复杂多变,使得图像搜索过程更加复杂。为了解决两个算法的不足,作者提出一种解决方案,即采取基于文本搜索为主,同时结合基于图像内容的混合搜索方式,吸纳两者的优势,一方面使图像搜索过程高效、迅速,另一方面也使搜索结果更加全面、准确,并在此基础上作进一步研究和探索。
关键词:文本;内容;图像;混合;搜索系统
中图分类号:TP75 文獻标志码:A 文章编号:2095-2945(2019)07-0121-02
Abstract: Image search usually includes text-based search and image-content-based search. the two image search technologies have their own advantages and disadvantages. The information accuracy of text-based image search technology needs to be improved, but the image search technology based on picture content cannot effectively ensure the comprehensiveness of information. On the other hand, compared with plain text, image processing algorithm has great differences, which is more complex and changeable, which makes the image search process more complex. In order to solve the shortcomings of the two algorithms, the author proposes a solution, that is, text-based search is adopted, and the hybrid search method based on image content is combined to absorb the advantages of the two. On the one hand, the image search process is efficient and rapid. On the other hand, it also makes the search results more comprehensive and accurate, and makes further research and exploration on this basis.
Keywords: text; content; image; mixing; search system
2018年8月,我国互联网信息中心发布了第42次《中国互联网络发展状况统计报告》,其对国内互联网行业发展作出了全面评估,数据显示:截至2018年6月,我国网民规模为8.02亿,上半年新增网民2968万人,较2017年末增加3.8%,互联网普及率达57.7%。并且这一态势仍在扩张。
目前来看,网络在现实生活中已变得触手可及,人们可以借助互联网与全球用户进行信息交流。在信息化时代,交互环节增多的同时,数据量也爆发式增长,这使得信息搜索变得异常复杂。在该背景下,凭借列表查找的方式查找所需的内容变得几乎不可能,因此搜索引擎技术应运而生,并不断发展。当前,文本数据作为一种信息传递的载体,其优势性逐渐减弱,越来越多的数字图像信息开始为人所用[1]。
近年来,人们的信息交互方式更加多样,各类影视、图像信息也大幅增长,用户如何有效定位到自己需要的信息,值得进入深入研究。尽管影视、音频等多媒体信息泛滥,但无法否认的是,图像和文字在信息传递过程中仍然是主要载体。图像可以直观形象地向人们传递其内在含义,并且图像内容易于理解,用户接收信息速度快,效率高。为有效缓解这一困境,我们引进了图像搜索引擎,它均有不同于文本搜索的搜索技术和多样化的标注方式,能够帮助人们迅速找到所需的网页图像[2]。
随着网络科技的深入推进,图像的信息交流作用将逐渐增强,优化图像搜索技术也将推动我国互联网的纵深发展。近年来,诸多学者纷纷投入到该领域研究中,并取得了丰硕成果。国内外关于该方向的研究现状如下:
1 基于文本的图像搜索技术研究现状
在各类文本信息的标注方面,许多学者也提出了不同的观点。图像上下文信息主要包括以下几种类型:网页标题、标题文本、图像标题、图像名、标题标记、图像标记等。对于各类文本信息的标注,学者们提出了以下主要研究思路:
(1)在进行文本数据的候选词选取时,应遵循规则策略。通常而言,若某一词语在文章主题表达中的作用越大,其在文本出现的次数就越多,权重就越大。
(2)对不同的文本类型进行分析时,应考虑到图像所处位置和其标签的干扰。
(3)当借助DOMTree技术进行文本信息的获取时,应结合候选词权重及类型有所区分,并进一步构建加权回归模型。
现有的研究成果主要集中于对图像信息标注的研究。在进行图像文本分析时,许多学者仅考虑到图像关联信息所处位置的影响,而鲜有考虑这些信息的权重大小以及其在文本中的重要程度。