程江华,高贵,库锡树,等
计算机科学技术
SAR图像道路网提取方法综述
程江华,高贵,库锡树,等
目的:道路作为一种典型的人造地物,是构成现代交通体系的主要部分,具有重要的地理、政治、经济、军事意义。道路信息在城市规划、交通控制、辅助导航、地理信息系统数据库更新、应急响应、军事打击、毁伤效果评估等诸多领域有着广泛的应用。合成孔径雷达在各种遥感成像中不受光照和云层遮挡影响,具有全天时、全天候工作的特点,从合成孔径雷达图像中提取道路网日益受到重视。国内外开展从合成孔径雷达图像中提取道路的研究已有20多年的历史,涌现出众多优秀的算法。然而,关于合成孔径雷达图像道路提取的综述性文章在国内外杂志上还没有报导,因此有必要对这些研究工作进行系统总结。方法:本文将20多年来的合成孔径雷达图像道路提取方法(自动、半自动)及涉及到的相关技术进行系统总结。按照合成孔径雷达图像道路网提取步骤,将其分为局部检测和全局连接两大步骤。其中,在局部检测中,按照分辨率大小,分为中低分辨率和高分辨率合成孔径雷达图像局部检测这两大类;在全局连接中,部分连接方法适合于不同分辨率合成孔径雷达图像,因此不再按分辨率大小进行划分,而是按照自动化程度将其分为自动和半自动这两类。结合作者在该领域的研究实践对这些方法进行了分析比较,指出当前存在的问题,展望该领域的发展趋势。结果:合成孔径雷达图像道路提取已取得了不少研究成果,但由于实际道路背景环境复杂多变,现有算法在自动化程度、速度、普适性及准确性等方面还有诸多问题有待解决。归纳起来,现有的道路提取方法存在的主要问题及发展趋势是:(1)高分辨率多通道、全极化合成孔径雷达图像得到广泛应用是当前现状和发展趋势。然而,针对高分辨率合成孔径雷达图像道路提取开展的研究较少。(2)由于实际上道路类型多种多样,目前提取算法设置的参数偏多,依赖于经验值,道路提取算法的鲁棒性不强。(3)由于合成孔径雷达图像中存在建筑物、树木、河流等其他地物干扰影响,道路边缘检测及线特征提取虚警率偏高。(4)当前全局连接算法建模时,最优求解耗时较长,不能满足实时性的要求。结论:合成孔径雷达图像道路网提取在遥感应用领域具有不可替代的地位。经过20多年广泛研究,合成孔径雷达图像道路网提取已经取得了很大的进展,但由于合成孔径雷达图像背景复杂、噪声干扰较大、道路类型繁多,导致当前仍然很难直接从合成孔径雷达图像中提取道路网。本文对20多年合成孔径雷达图像道路网提取方法进行全面系统的梳理,按照提取流程将其分为局部检测和全局连接两大步骤,并根据分辨率大小,将局部检测再次划分为中低分辨率和高分辨率这两种类型,根据自动化程度不同,将全局连接分为自动和半自动两类,对比总结出各种方法的优缺点,指出当前研究存在的问题以及未来的发展趋势。随着合成孔径雷达图像成像技术的发展、雷达回波电磁散射机理研究的深入、其他遥感图像解译技术的进步以及数学理论的推陈出新,必将给合成孔径雷达图像道路网提取带来新的研究途径。
来源出版物:中国图象图形学报,2013,18(1):11-23
入选年份:2014
大数据分析——RDBMS与MapReduce的竞争与共生
覃雄派,王会举,杜小勇,等
摘要:目的:在科学研究(天文学、生物学、高能物理)、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势。随着数据生成的自动化,以及数据生成速度的加快,需要处理的数据量急剧膨胀。大数据时代已经来临。为了从数据中发现知识,并加以利用,指导人们的决策,必须对数据做深入的分析,而不是仅仅生成简单的报表。这些复杂的分析必须依赖于复杂的分析模型,很难用SQL来进行表达,统称为深度分析。简而言之,数据分析的两大趋势和挑战是:(1)数据量的膨胀;(2)数据深度分析需求的增长。方法:关系数据库技术经过了将近40年的发展,成为一门成熟的、同时仍在不断演进的主流数据管理和分析技术。关系数据管理技术的主流应用包括OLTP应用、OLAP应用以及数据仓库等。SQL语言作为存取关系数据库系统的语言得到了标准化,经过不断扩充,其功能和表达能力不断增强。为了实现大数据的有效管理和分析,必须依赖于大规模集群的并行计算。根据CAP(Consistency,Availability,Tolerance to Network Partitions)理论,在分布式系统中,一致性、可用性、容错性三者不可兼得,追求其中两个目标,必将损害另外一个目标。并行数据库系统追求高度的一致性和容错性(通过分布式事务、分布式锁等机制),无法获得良好的扩展性和系统可用性,而系统的扩展性是大数据分析的重要前提。2004年Google公司提出MapReduce技术,作为面向大数据分析和处理的并行计算模型,引起了工业界和学术界的广泛关注。MapReduce技术框架包含三个层面的内容:(1)分布式文件系统;(2)并行编程模型;(3)并行执行引擎。自从2004年以来,MapReduce(Apache Hadoop为MapReduce技术的开源实现),工业界和学术界掀起了研究开发热潮,改进这个技术,主要的改进技术包括:(1)存储模型、数据放置策略、数据倾斜处理、索引支持、数据类型与多样性支持等;(2)对MapReduce进行扩展以支持流数据处理、增量处理、持续处理、和迭代式处理,充分利用集群内存加速数据访问;(3)连接操作优化,复杂算法的并行化与优化;(4)针对多核CPU、GPU、异构环境、云平台等环境的调度策略和查询处理优化;(5)易用的接口语言,包括SQL、统计、数据挖掘和机器学习语言;(6)MapReduce的节能、隐私和安全保证技术研究等。MapReduce的应用领域已经从互联网搜索引擎的索引创建,扩展到数据挖掘、机器学习、信息检索、计算机仿真、科学实验数据处理(生物、物理……)等众多的领域。结果:关系数据库技术经过几十年的积淀和发展,擅长结构化数据的处理,性能高,但遇到扩展能力的困难;而 MapReduce 技术则在系统的扩展能力、数据的多样性、数据装载速度、分析和数据紧密结合/靠近数据进行分析(in situ data analytics)、分析的复杂度等方面见长。我们认为,RDBMS技术和MapReduce技术将互相取长补短,互相借鉴和互相融合。Aster Data数据库和greenplum数据库是关系数据库向MapReduce学习的例子,它们在RDBMS内部实现了MapReduce计算,同时SQL引擎能够平滑地存取Hadoop HDFS的文件。而Hadapt、Cloudera Impala、HortonWorks Stinger、Apache Drill、RCFile、Hadoop++等,则试图在Hadoop平台上,借鉴RDBMS的数据存储、索引、查询优化等技术,提高查询处理的性能,并且提供交互式查询的能力。结论:云计算的主要特点是虚拟化和动态伸缩性。利用云平台实现大数据管理和分析,仍然面临众多的挑战,包括动态扩展性与数据迁移、系统容错性保证、节能、隐私保护和安全等问题。围绕RDBMS已经产生了一个分析生态系统,而围绕 Hadoop技术正在产生另外一个分析生态系统。这两个系统的目的:是重叠的,一个自然的想法就是,两项技术和生态系统是否将融合到一起?作者相信统一的大数据处理框架以及生态系统将会形成。这些方案可以分成两类,即RDBMS为主的大数据处理平台,以及Hadoop技术为主的大数据平台。下一代 MapReduce(MapReduce2.0/YARN)技术对系统的扩展性、性能、可用性等各个方面做了大幅度的调整和增强。通过把MapReduce计算模型从资源管理架构中剥离出来,新的框架支持更多的应用类型,包括流数据处理(Stream Processing)、图数据处理(Graph Processing)、BSP计算模型(Bulk Synchronous Processing)、MPI计算模型(Message Passing Interface)等。其支持的节点规模从目前的 4000左右增加到 6000~10000,并发的任务数从目前的 40000增加到100000。这样的框架扩展和改进,预示着大数据统一处理平台初见端倪。
来源出版物:软件学报,2012,23(1):32-45
入选年份:2014
移动互联网:终端、网络与服务
罗军舟,吴文甲,杨明
摘要:随着宽带无线接入技术和移动终端技术的飞速发展,人们迫切希望能够随时随地乃至在移动过程中都能方便地从互联网获取信息和服务,移动互联网应运而生并迅猛发展。然而,移动互联网在移动终端、接入网络、应用服务、安全与隐私保护等方面还面临着一系列的挑战,其基础理论与关键技术的研究,对于国家信息产业整体发展具有重要的现实意义。作为当前的热点,移动互联网在近几年得到了广泛的研究。本文分别从移动终端、接入网络、应用服务、安全与隐私保护4个方面阐述和分析移动互联网的研究进展,并介绍了作者在WLAN基站原型系统及无线Mesh网络性能优化方面的研究成果。连续查询是基于位置服务中的一种常见并且重要的查询类型。不同于快照查询,连续查询具有位置频繁更新和时效性的特点,将上述的静态匿名算法应用于连续查询隐私保护时,会出现隐私泄露、匿名服务器负担过重、网络资源浪费等问题。针对这些问题,提出了隐私模型和质量模型,解决了在用户查询有效期内如何选择进行位置匿名的时间点等难点问题,在连续查询中有效地实现了隐私保护与服务质量的均衡。安全与隐私保护是移动互联网所面临的一大紧迫问题,已经成为影响其发展的重要因素之一。在移动互联网环境下,传统互联网中的安全问题依然存在,同时还出现了一些新的安全问题。安全与隐私保护研究涉及移动终端、接入网络和应用服务3个层面,包括移动终端安全、无线网络安全、应用安全、内容安全、位置隐私保护等。本文将重点介绍移动终端安全和位置隐私保护的研究进展。本文从移动终端、接入网络、应用服务及安全与隐私保护4个方面对移动互联网的研究进展进行阐述与分析,并介绍了作者在WLAN基站原型系统及无线Mesh网络性能优化方面的研究工作,最后对未来的研究方向进行展望。
来源出版物:计算机学报,2011,34(11):2029-2051
入选年份:2014
网络协议的自动化模糊测试漏洞挖掘方法
李伟明,张爱芳,刘建财,等
摘要:随着网络应用越来越复杂和重要,对网络协议的安全性要求也越来越高。Fuzz Testing作为一种重要的测试手段,通过大量数据的注入来测试网络协议的安全,能够发现拒绝服务、缓冲区溢出和格式化字符串等多种重要漏洞。但是手工进行Fuzz Testing需要精确了解网络协议细节并需要繁重的工作来构造大量测试数据集,导致覆盖率有限,效果也不好。为了解决这个问题,本文结合网络协议逆向工程和Fuzz Testing技术,提出了一种能够自动化识别各种网络协议并产生模糊器进行Fuzz Testing的漏洞挖掘方法。经过测试FTP、TNS、EM、ISQLPlus等多种已知和未知网络协议,结果表明这种方法在漏洞挖掘方面效果超过手工分析,并显著提升了测试效率,为提高网络协议的安全性提供了良好的基础,具有重要的应用价值。网络协议只有安全的设计和实现才能保护用户传输的敏感信息。本文的组织结构如下,第一部分介绍网络逆向工程以及Fuzz Testing漏洞挖掘方法的研究现状,并提出本文的总体思路和实现结构。第二部分介绍了数据报文分类方法。第三部分详细介绍如何对未知网络协议进行识别,并对采用的多序列比对中的渐进比对和遗传算法进行了比较,提出了改进的渐进比对算法和优化的Needleman Wunsch算法。第四部分则进一步介绍如何自动化识别网络协议的特定域。第五部分描述如何将识别出的网络协议转化为Fuzzer,构造针对目标协议的模糊测试器。第六部分是实验测试,通过具体数据分析自动化漏洞挖掘方法的有效性。第七部分对工作进行总结和展望。这种方法通过报文分类、多序列比对、特定域识别、模糊器生成多个阶段,自动识别网络协议报文结构并进行Fuzz Testing。
来源出版物:计算机学报,2011,34(2):242-255
入选年份:2014
架构大数据:挑战、现状与展望
王珊,王会举,覃雄派,等
摘要:大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。为了设计适合大数据分析的数据仓库架构,本文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台─并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及中国人民大学在大数据分析方面的努力进行了介绍,对未来研究做了展望。本文在大数据的时代背景下,对现有数据仓库系统实现方案(主要是并行数据库和MapReduce)进行重新审视,期望能为设计满足时代需求的数据仓库系统提供理论参考。限于篇幅,本文主要关注不同数据仓库实现方案的主体架构,及其缺陷在最近几年的改进情况。依据研究立足点的不同,本文将该领域的研究归为3大类:并行数据库、MapReduce、并行数据库和 MapReduce技术的混合架构。其中第三类研究又细分为:并行数据库主导型、MapReduce主导型、并行数据库和MapReduce集成型3种。本文组织如下:第一节分析大数据时代,数据仓库所面临的问题及挑战;第二节列出大数据时代的数据仓库平台需具备的几个重要特性;第三节到第五节就这几个特性对各类平台进行归纳分析;第六节对最新研究做一跟踪归纳;第七节介绍了中国人民大学在大数据分析方面的研究工作;第八节对未来研究做出展望;第九节小结。本文对大数据分析的主流实现平台(并行数据库、MapReduce及两者的混合架构)进行了评价、归纳与对比分析,介绍了中国人民大学在大数据分析方面的研究,并对当前的研究进行了归纳。从文中可以看出,每种分析平台都不是完美的,在大数据面前,都有很长的路要走。大数据分析迫使我们反思传统的数据仓库架构,虚心地研究MapReduce等新生平台,以站在更高的层次来思考问题,从而找到适应时代需求的数据仓库架构。
大数据;大规模可扩展;MapReduce;并行数据库;深度分析
来源出版物:计算机学报,2011,34(10):1741-1752
入选年份:2014
可演进的新一代互联网体系结构研究进展
吴建平,林嵩,徐恪,等
摘要:当前互联网正处于向新一代互联网过渡发展的阶段。对于新一代互联网体系结构的发展方向,支持革命式路线的研究人员认为应该重新设计,但他们提出的方案难以在目前的互联网实际部署;支持改良式路线的研究人员认为应该在现有互联网的基础上进行修改,但某些修改在一定程度上破坏了互联网的设计原则,影响了新应用的部署。互联网发展历史表明,当前互联网的核心机制和设计原则仍然具有旺盛的生命力,可以适用于新一代互联网,而需要修改的则是部分基本要素(例如IPv4协议向IPv6协议的发展)。综合这些方面的考虑,我们认为新一代互联网体系结构的发展应当采用一个称为演进的中间路线:保持互联网的核心和设计原则相对稳定,谨慎地改变约束其扩展的基本要素,以适应和更好地支持未来的应用需求。文中首先分析了互联网体系结构的发展趋势,提出了可演进性的定义,阐述了可演进体系结构的设计原则和设计约束。可演进性的关键是如何确定重要的核心和设计原则,如何划分核心原则和基本要素之间的界限,如何分析研究者们提出的互联网体系结构或者某种协议机制是否符合可演进性。针对这些问题,文中提出了互联网体系结构可演进性评估模型的若干思路。在此基础上,进一步提出了基于IP的可演进网络体系结构实验网络的设计思路,以期为研究人员提供实验和验证体系结构设计的可用平台。该实验平台与现有实验平台的主要区别是强调了进行实验的体系结构和协议机制应当符合可演进性设计原则,使得这些体系结构和协议机制在当前互联网中有可能得到实际部署。本文回顾了互联网设计原则与互联网体系结构可演进性相关的研究工作,提出了可演进体系结构的3个设计原则(演化核相对稳定性、模块性和最优性)和两个设计约束(经济性和可部署性)。基于这些设计原则,我们提出了互联网体系结构可演进性评估模型。此外,我们还提出了基于 IP的可演进网络体系结构实验网络的设计思路。在本文所提出的框架下,我们计划进一步研究互联网体系结构可演进性评估模型,针对所提出的思路进一步完善和总结评估框架,并实际应用于若干体系结构重要问题的可演进性评估。另一方面我们将进一步完善网络体系结构实验网络以便实际部署使用,并不断完善和深化所提出的可演进性设计原则和设计约束。
来源出版物:计算机学报,2012,35(6):1094-1108
入选年份:2014
虚拟化云计算平台的能耗管理
叶可江,吴朝晖,姜晓红,等
摘要:数据中心的高能耗是一个亟待解决的问题。近年来,虚拟化技术和云计算模式快速发展起来,因其具有资源利用率高、管理灵活、可扩展性好等优点,未来的数据中心将广泛采用虚拟化技术和云计算技术。将传统的能耗管理技术与虚拟化技术相结合,为云计算数据中心的能耗管理问题提供了新的解决思路,是一个重要的研究方向。文中从能耗测量、能耗建模、能耗管理实现机制、能耗管理优化算法4个方面对虚拟化云计算平台能耗管理的最新研究成果进行了介绍。论文分析了虚拟化云计算平台面临的操作管理和能耗管理两方面的问题,指出了虚拟化云计算平台能耗监控与测量的难点;介绍了能耗监测步骤及能耗轮廓分析方法;提出了虚拟机系统的整体能耗模型及服务器整合和在线迁移两种关键技术本身的能耗模型;从虚拟化层和云平台层两个层次总结了目前能耗管理机制方面取得的进展;并对能耗管理算法进行分类、比较。最后对全文进行总结,提出了未来10个值得进一步研究的方向。本文分析了虚拟化云计算平台的能耗管理技术,从能耗测量、能耗建模、能耗管理机制、能耗管理算法4个方面进行了系统的阐述。能耗测量的开销和准确性是制定高效能耗管理策略的基础。能耗建模的精度,直接反映了虚拟机能耗数据的准确性,对后续节能优化非常重要。能耗管理机制被分为虚拟化层的管理机制和云平台层的管理机制。能耗管理算法按应用场景被分为节能部署算法、节能整合算法、节能迁移算法等。这4方面的内容关系密切,相互衔接,共同构成了虚拟化云计算平台的能耗管理解决方案。它们的关系是:能耗测量获得资源使用情况的原始数据,传递给能耗模型;能耗模型根据计算得出虚拟机的能耗使用情况;基于这些数据,可以实现复杂的能耗管理机制和管理算法。
来源出版物:计算机学报,2012,35(6):1262-1285
入选年份:2014
基于外观模型学习的视频目标跟踪方法综述
张焕龙,胡士强,杨国胜
摘要:目的:视频跟踪是机器视觉领域中的热点研究问题,在过去的几十年内得到了广泛研究。在实际中,为了获得鲁棒的视频跟踪效果,机器学习理论被引入到外观模型设计中,从而大大地推动了视频目标跟踪研究的发展。本文旨在帮助读者快速了解机器学习策略和外观模型表征能力之间的关系,从目标特征描述和3类主要目标外观建模方式出发,总结外观模型学习跟踪算法在理论和应用方面的研究现状,并给出发展趋势。方法:对现有基于外观模型学习的视频跟踪算法进行总结,分析各类方法中代表性算法的性能,给出不同外观模型设计方法对视频跟踪效果的影响关系。首先,概括出外观模型学习跟踪方法的基本理论;然后,为了展示跟踪算法中的目标特征提取方式,从单一特征描述和融合特征描述两方面说明外观模型设计的不同形式;接着,从产生式外观模型学习、判别式外观模型学习及混合式外观模型学习3个方面,对其研究过程中出现的优缺点进行评述,并通过代表性算法的性能说明基于不同外观模型跟踪算法对环境的适应性。最后,提出外观模型学习跟踪算法的主要发展内容和趋势。结果:(1)目标外观特征描述是对同一目标在不同时刻呈现的运动变化进行刻画和分析,是视频跟踪研究的重要内容:基于单一特征描述的外观模型构建,实现简单,能够较好地满足跟踪算法的实时性要求,然而对目标外观变化的多样性难以适应;基于融合特征描述的外观模型构建,目标外观模型表征能力较强,算法鲁棒性好,然而融合参数的设置和计算耗时较多,跟踪算法的整体实时性不佳。(2)从整体上讲,产生式模型能够描述目标的全局性特征,模型通用性好,在学习策略的帮助下模型能够容忍跟踪目标的不同外观形式,算法鲁棒性较好,但这种方法没有考虑跟踪场景背景变化因素,一旦背景元素混入外观模型中,会导致跟踪轨迹漂移;判别式模型将跟踪问题转换成一个二分类问题,对目标和背景的分离效果较好,在学习策略帮助下能够实时更新分类器,外观模型区分力强,但这种方法容易陷于过分类现象,从而导致外观模型的全局性表征能力下降。另外,这种方法严重依赖于目标训练样本的选取形式;混合式模型旨在结合两者的优点,但结合方式的参数设计相对比较困难,研究成果较少。结论:通过对基于外观模型学习跟踪算法研究过程的总结与分析,具备在线学习能力的外观模型设计对视频目标持续性跟踪算法有着重要的影响。目标特征描述方式方面,在保证能够满足实时性要求的情况下,通过融合特征能够提高视频跟踪算法的鲁棒性;外观模型学习方式构建方面,因为目标跟踪环境的多样性,给算法的设计带来了新的挑战。能够兼顾目标外观全局性特征和目标背景鉴别能力的跟踪算法,是实现目标持续性跟踪成败的关键因素。
来源出版物:计算机研究与发展,2015, 52(1):177-190
入选年份:2015