基于网页关联特征的互联网图像自动标注系统发展刍议

2013-03-24 06:37段湘宁
电子测试 2013年5期
关键词:关联性网页页面

段湘宁

(葫芦岛市发展改革委信息中心 125000)

1 互联网下图像标注的主要方式

信息技术快速发展的当下,信息数据的数量和范围愈加庞大,对于相关信息数据和图像等的标注和处理直接影响信息搜索的全面性和准确性同时也会影响图像自动标注系统的使用效果等。在计算机数据库和视觉研究的推动下,图像标注检索技术成为计算机互联网技术研究的重点之一。PASCALpj等技术在计算机视觉研究领域已经得到了广泛应用。通过图像和文字的关联性、图像之间的关系以及文本之间的关系等实现对图像的有效标注,并在该种标注实现的基础上使用统计等方式设计实现对图像的自动标注。

在网页关联性特征下的文本标注的方法,通常是利用互联网的图像在特定的语言或者数据信息环境中的相关特征,利用图像和语言内容相关的文本信息的关系实现对互联网图像的语义信息或者文本信息的自动标注。

对于图像自动标注的实现,是在网页关联性的基础上充分利用图像所传达的内容与文字的相关性,通过信息的匹配及相关的技术和标注系统和设计实现对图像信息的自动标注从而实现对数据信息的搜索,提高搜索的速度和效率。

2 图像标注的发展及现状

利用图像实现检索产生于上个世纪的70年代中期,产生之初采用的主要检索技术是基于文本信息的图像检索,即把图像作为数据库中储存的检索对象,通过关键字或者自由的文本对储存于其中的图像进行描述来实现检索。这种图像检索技术的查询操作是在对储存与数据库中的图像描述的基础上实现一种精确的匹配或者一种概率性的匹配,有些系统为了实现该种图像检索功能还设有词典支持。图像检索系统的有效运作,图像的数据模型、多维索引和查询的评价等都是在这种数据系统的框架下来实现。

当下的互联网图像的语义自动标注的方式是把所有相关的关联文本视为整体,或者根据既有的知识或者启发思维预先估设既定的语义分布模型和数据库,在此基础上实现图像的标注。但现有的图像标注技术大多是在训练集的基础上实现基于内容的图像的自动标注的方式。这种标注方式的特点是将训练集作为其图像信息标注的基础,因此,训练集中缺少相关关键字符时即使图像的标注信息恰当无误其标注的结果也会缺少该关键字符从而无法实现对图像的有效准确的标注。训练集的数据预先设定储存,不可避免的存在数据的有限性和收据时效性的问题,因此数据信息无法及时有效的更新和扩大会对图像信息的标注产生直接的影响。基于网页关联性特征的文本的标注方式是限于目标图片位于单一的网页文本中时并且要利用图像和文本的关联性假设来实现图像的标注和检索,因此,它所能利用的文本信息是极其有限的也会受到当前网页文本信息的一些影响,从而直接影响图像的标注信息的准确性最终影响检索的结果和效率。

3 图像自动标注系统的发展

就互联网图像的相关性特征而言具体体现为,图像名称对于图像所具有的特定的提示意义、与图像所在的HTML的页面所表达主题的一致性、图像所指向连接地名称或者页面的主体内容与图像内容的对应性等、图像与其上下文环境下的关联性和密切性以及图像所出现的位置和次数的特征等都在一定程度上起到了提示该图像的功能,所有这些都为我们改进图像自动标注系统提供了切入点和有效的利用方式和途径。当我们在改进图像自动标注系统的过程中可以通过利用互联网图像信息采集方式的完善来实现系统自身的完善和发展,在图像采集时可以根据互联网的特点充分利用不同的图像所传达的文本信息,利用其体现出的关联性特征有区别的使用图像采集和标注技术,实现对信息的择优选择。这种有针对性的区别标注在充分利用互联网自动标注系统的有利条件,能够保证图像标注信息源的全面性,将网页文档中的图像名称、注释及图像周围的文本、图像URL等充分利用,提高了图像标注信息源的全面性。

在该系统中将图像标注作为核心内容,该标注的实现要提取各种图像的关联性特征,并且在现有自然语言技术和网页分析技术的基础上对提取的该种特征间的关联性以及提取特征和图像之间的关联性进行分析。该种标注工作完成并将其应用于互联网信息检索时,标注的结果直接关系图像检索系统运作的效果和功能。

该种检索系统的设计由以下几个方面共同完成。首先通过首先,通过输入的URL抓取网页,利用网页分析器从网页中抓取图片文件,与此同时,分析网页的DOM结构与视觉结构,抽取网页中与图像相关的语义关联特征,并存储于数据库中。其次,在网页分析器获得图像语义特征的基础上对图像进行相关的语义标注。在完成该种语义标注时应该对关联性特征所包含的各种信息进行充分的筛选和过滤以剔除噪音信息等,最终为每一图像生成对应的标注结果,并且为该种结果的输出提供多种接口。

该系统架构下的技术是将整个系统分为数据存储层、数据处理层和数据表现层三个层次。具体而言,数据存储层主要数据存储层主要用于存储网页信息、图像文件、图像关联信息及最终的图像标注结果。数据处理层主要处理存储层中的图像相关数据,并为每符图像生成图像的语义标注结果,它们通过数据库访问接口查询、操作数据库。数据处理层包括网页分析器和图像标注生成器,通过对标注图像信息和数据的后台处理和网页相关内容的分析实现对图像信息的标注。数据表现层即图像信息标注信息和数据的显示,它主要用于显示标注过程中的相关信息和数据,使得图像标注结果能够以一种较好的方式呈现。三层结构通过不同的分工和相互作用实现对图像信息的准确有效标注并且一最佳的方式呈现给使用者。

在互联网环境下,网页文档的成为互联网图像的外部信息源和载体,它本身包含了对图像内容等进行描述的丰富的文本信息,也便是我们所说的图像的关联性特征。现行网络技术环境下的图像搜索都是在互联网图像关联性的基础上通过对图像关键字标注的形式建立相关的信息索引来实现对特定目标的搜索。但是该种凸显检索系统对互联网图像的关联性特征的分析和利用不够深入存在标注信息不全面的问题,因而影响标注词的生成等。而对互联网图像关联性信息采集的全面和准确直接影响图像标注词义的准确性和全面性,所以在互联网页面分析器设计时便要将获取网页中符合一定条件的图像文件作为其主要目标,同时该种页面分析器还应该能够实现对页面结构的充分分析,对于页面中和互联网图像有关的信息能够进行深入的挖掘和分析,实现自动准确的获取互联网图像特征,并自动的完成相关数据的组织与处理,生成图像标注的数据源。

图像关联性特征采集的实现,通过对页面的预处理,依据规定的图像处理规则来获取相应的图像文件,并且从网页中获取相同类型的关联信息,同时围绕每个文件获取具备一定特定的数据信息,并在获取图像所在页面的文字信息,当图像是文字与连接的结合时获取链接所指向的标题和正文信息。为实现该种工作流程,通过对页面处理器进行不同的模块分工,页面预处理模块实现对页面图像内容的预处理,图像上下文处理模块则负责对图像所在语言环境下的上下文信息的深入分析获取相关的文本信息,网页正文提取模块实现对文本正文的提取,实现图像标注信息源保证图像标注信息的准确和充分。

[1]欧萍.基于外部数据库的图像自动标注改善模型分析[J].计算机光盘软件与应用,2012(06)

[2]俞建橙,曹冬林,李绍滋,林达真.基于互联网搜索与反馈验证的图像自动标注[J].计算机工程,2012,38(24)

[3]陈涛.基于网页关联特征的互联网图像自动标注系统[J].[学位论文],2007

猜你喜欢
关联性网页页面
刷新生活的页面
基于HTML5与CSS3的网页设计技术研究
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
四物汤有效成分的关联性分析
基于URL和网页类型的网页信息采集研究
如何准确认定排污行为和环境损害之间的关联性
CRP检测与新生儿感染的关联性
设计鲜为人知的一面:匠艺的关联性
Web安全问答(3)