ACO-SVM
姜慧研,宗茂,刘相莹
计算机科学技术
基于ACO-SVM的软件缺陷预测模型的研究
姜慧研,宗茂,刘相莹
针对传统软件缺陷预测模型的应用范围通常被局限在一定的子空间而影响其适用性和准确性的问题,文中利用支持向量机(SVM)的非线性运算能力和蚁群优化算法(ACO)的寻优能力提出了一种基于ACO-SVM的软件缺陷预测模型。文中首先对待预测的数据进行主成分分析降低数据的维数以提高运算速度,然后根据蚁群优化算法来计算最优的SVM参数,然后再运用SVM进行软件缺陷的预测。并基于十折交叉方法进行实验,通过与传统方法的对比,证明文中方法具有较高的预测精度。随着计算机系统应用领域的不断扩大,软件缺陷预测问题变得越来越受到人们的关注。例如,在银行和股票等系统中,由于系统一旦失效将会导致巨大的经济损失,软件缺陷是软件开发首要因素。而软件缺陷预测模型能够在软件开发的早期预测出哪些模块有出错的倾向从而找到相应的解决方案,是软件可靠性工程的重要组成部分,对提高软件可靠性具有重要的意义。本文的贡献是针对软件缺陷预测问题提出了一种新颖的基于ACO-SVM的软件缺陷预测模型,其基本思想是基于PCA缩减特征空间、基于ACO-SVM建立和优化软件缺陷预测模型。实验结果表明,该模型比传统方法具有更好的预测效果。但是该方法在参数寻优过程中需要较长的时间,如何进一步降低模型的运行时间和提高模型的预测准确率,是今后的课题。随着计算机系统应用领域的不断扩大,软件缺陷预测问题变得越来越受到人们的关注。例如,在银行和股票等系统中,由于系统一旦失效将会导致巨大的经济损失,软件缺陷是软件开发首要因素。而软件缺陷预测模型能够在软件开发的早期预测出哪些模块有出错的倾向从而找到相应的解决方案,是软件可靠性工程的重要组成部分,对提高软件可靠性具有重要的意义。目前,软件缺陷预测模型主要包括马尔可夫模型、分类回归树模型、人工神经网络模型、线性判别分析模型、时间序列分析模型、分类树模型等,但这些方法尚存在一定问题,难以达到理想的效果。例如,马尔可夫模型需要对软件内部错误及失效过程的特性做出很多假设;分类回归树模型的泛化能力差;人工神经网络模型的网络结构选择尚无统一完整的理论指导。
来源出版物:计算机学报, 2011, 34(6): 1148-1154
入选年份:2015
大数据流式计算:关键技术及系统实例
孙大为,张广艳,郑纬民
摘要:目的:云计算、物联网、移动互连、社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代。一般意义上,大数据是指利用现有理论、方法、技术和工具难以在可接受的时间内完成分析计算、整体呈现高价值的海量复杂数据集合。大数据计算是发现蕴含在大数据中的大信息,并提炼大信息中的大知识的实现途径。大数据计算主要有批量计算和流式计算两种形态。目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少。方法:首先,从大数据流式计算的应用场景出发,按照数据产生方式、数据规模大小以及技术成熟度高低这3个不同维度,选择金融银行业应用、互联网应用和物联网应用这3种典型应用场景,用于分析说明大数据流式计算的基本特征。其次,从系统体系结构的角度,分析如何构建满足大数据流式计算所需要的低延迟、高吞吐、持续稳定运行和弹性可伸缩等要求的系统。最后,选择了当前比较典型的、应用较为广泛的、具有代表性的5款大数据流式计算系统,分别是Storm系统、S4系统、Data Freeway and Puma系统、Kafka系统和TimeStream系统,从系统架构、数据传输、应用接口、容错机制、状态持久化等多个不同角度进行了实例分析和对比。结果:在应用场景方面,大数据流式计算环境中的数据流主要体现了5个典型特征,即实时性、易失性、突发性、无序性、无限性。理想的大数据流式计算系统应该表现出低延迟、高吞吐、持续稳定运行和弹性可伸缩等特性,这其中离不开系统架构、数据传输、编程接口、高可用技术等关键技术的合理规划和良好设计。当前比较典型的大数据流式计算系统多数是采用分布式体系结构,实现了数据处理和状态管理间的分离,系统的响应时间保持在毫秒级的水平,在很大程度上满足了大数据流式计算应用场景的实际需要。同时,大数据流式应用的不断发展,也使得大数据流式环境中的数据计算在系统的可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面均面临着前所未有的新的挑战。结论:在大数据时代,对新鲜数据的计算往往可以创造新的价值,随着数据处理时效性要求的不断增强,大数据流式计算的应用需求也在不断增多,特别是在大数据的前期处理过程中。大数据流式计算的研究和应用仍处于很不成熟的阶段,这与其广泛的市场需求和应用前景很不吻合。传统的先存储后计算的批量数据计算理念不适用于大数据流式计算的环境,为了促进大数据流式计算的成熟、稳健发展,亟待构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统,亟待全面、系统、深入地开展相关理论和实践的研究工作。
来源出版物:软件学报, 2014, 25(4): 839-862
入选年份:2014
图像场景分类中视觉词包模型方法综述
赵理君,唐娉,霍连志,等
摘要:目的:随着计算机多媒体技术、数据库技术和计算机网络技术的快速发展,越来越多的图像亟待分类和标记。计算机辅助的自动图像场景分类技术逐渐取代了传统的人工标记方式,成为热门的研究领域。在众多图像场景分类方法中,视觉词包模型作为一种中间层特征被广泛运用,一定程度上缩小了低层视觉特征和高层语义特征的差距。然而,关于图像场景分类中视觉词包模型方法的综述性文章在国内外杂志上鲜有报导,为了使国内外同行对图像场景分类中的视觉词包模型方法有一个较为全面的了解,本文对这些研究工作进行了系统总结。方法:本文在参考了近十年国内外大量文献的基础上,将视觉词包模型研究的发展历程划分为五个阶段,分别为:早期词包模型在图像领域的直接应用阶段、视觉词包模型中潜在语义信息的研究阶段、视觉词包模型中空间布局或结构信息的研究阶段、视觉词包模型中上下文信息和共生信息的研究阶段、视觉词典中单词语义优化及新方法引入的研究阶段。同时,本文对现有图像场景分类(本文主要指针对单一图像场景的分类)中出现的各种视觉词包模型方法从低层特征的选择与局部图像块特征的生成、视觉词典的构建、视觉词包特征的直方图表示、视觉单词优化等多方面加以总结和比较。结果:回顾了视觉词包模型的发展历程,对目前存在的多种视觉词包模型进行了归纳,比较了常见方法各自的优缺点,总结了视觉词包模型性能评价方法,并对目前常用的标准场景库进行汇总,同时给出了各自所达到的最高精度。结论:图像场景分类中视觉词包模型方法的研究作为计算机视觉领域方兴未艾的热点研究领域,在国内外研究中取得了不少进展,在计算机视觉领域的研究也不再局限于直接应用模型描述图像内容,而是更多地考虑图像与文本的差异。目前,仍有如下几个方面的问题亟需解决:当视觉词包被应用于与训练样本存在巨大差异的样本时,视觉词包模型的性能会受到很大影响,然而基于新的样本训练新的视觉词包又十分费事费力;目前对于视觉词典大小的确定还没有理论指导;视觉单词与语义之间的关系仍然没有被充分挖掘;视觉词包模型在诸如高空间分辨率遥感图像土地利用分类等特殊领域的研究还很缺乏。另外,基于上述问题,存在以下几方面的研究方向:构建通用的自适应的视觉词包用于不同的样本集;根据具体问题自动选择最优化的视觉词包大小;在图像的词包表示中加入更加丰富的空间分布和上下文信息,发掘视觉单词的潜在语义信息;对图像视觉语法进行研究,使其作为图像模型服务于图像理解;研究特殊领域图像的场景分类问题,如高分辨率遥感图像中城市功能区的识别等;研究新的具有良好性能的低层特征提取算法用于构建高层的视觉词包。虽然视觉词包模型在图像场景分类的应用中还存在很多亟需解决的问题,但是这丝毫不能掩盖其研究的重要意义。
来源出版物:中国图象图形学报, 2014, 19(3): 333~343
入选年份:2014
玻尔兹曼机研究进展
刘建伟,刘媛,罗雄麟
摘要:目的:最近,基于复杂的层次概率模型的深度学习理论被广泛用于解决许多人工智能相关的任务。由多层神经元组成的深度神经网络,如深信念网络和深层玻尔兹曼机,已经不仅在分类任务中,而且也在回归和降维任务得到了成功的应用,如协同过滤,视觉对象识别,图像块建模,提取光流机器人学,信息和图像检索,视觉对象识别,语音感知,语言理解和时间序列建模。理论和生物学因素也提示,提取复杂的高水平对象表示,需要使用实现非线性变换的多个可见层和隐层结构的神经网络。深度信任网的主要构造块是一种叫做受限制玻尔兹曼机的二分无向图模型。RBM是具有一层随机Bernoulli隐层和一层Bernoulli或Gaussian分布的对称耦合随机反馈类型的二值单元神经网络。可见单元和隐单元表示随机网和随机场景学习模型,用边权表示可见单元和隐单元的相关程度。玻尔兹曼机理论起源于统计物理,是一个基于能量函数描述变量之间的相互高阶相互作用关系的建模方法,虽然玻尔兹曼机学习过程比较复杂,但是玻尔兹曼机的模型的构造和学习算法具有完备的物理意义和严格的统计学习理论作为基础。玻尔兹曼机是类似于由一阶和二阶距完全确定概率分布的高斯马尔科夫随机场的高维二值随机变量上的概率分布。关键不同是增加了隐变量使得扩大了可以表示的概率分布的范围,所以,从原理上讲,玻尔兹曼机可以对任意概率分布建模。鉴于玻尔兹曼机的理论意义和应用价值,本文系统地总结了玻尔兹曼机的研究进展,对以后的理论研究和应用打下基础。方法:玻尔兹曼机按拓扑结构分类分为一般玻尔兹曼机,半受限玻尔兹曼机和受限玻尔兹曼机。BM通过下面的训练过程完成学习:在训练过程中,环境将所有可见单元约束到特定状态;在测试过程中,环境可以约束可见单元的任意子集的状态。在上面所有过程中,环境始终不约束隐单元的状态。具体地,BM的学习过程分为两个阶段:(1)约束学习阶段,也称为正阶段,将可见单元状态值取为训练样本值,采样得到隐单元。(2)自由学习阶段,也称为负阶段,网络自由运行,不约束任何可见单元的状态,从当前模型采样得到可见单元和隐单元状态值,即单元的状态不是由训练样本决定的。BM的学习是通过调整连接权矩阵,使模型定义的概率分布尽可能地与训练样本集定义的概率分布相一致。学习BM的目的:是学习连接权矩阵使出现概率最高的全局状态得到最低的能量,因此问题变为最小化似然函数的过程。学习BM的典型学习算法主要有吉布斯采样法(Gibbs sampling)、平行回火法(parallel tempering,PT)、变分近似法(variational approach)、随机近似法(stochastic approximation procedure,SAP)、对比离差算法(contrastive divergence,CD)、持续对比离差算法(persistent contrastive divergence,PCD)和快速持续对比离差算法(fast persistent contrastive divergence,FPCD)。结果:本文详细概述了BM的基本概念、单层反馈网络的模型及拓扑结构分类,对BM和DBM的学习过程和典型学习算法进行了探讨,从学习算法、模型结构和实际应用三方面介绍了近几年BM研究的相关进展。随着BM理论与方法研究的深入,BM将被更加广泛地应用在各个领域。结论:BM作为深神经网络的一个重要代表受到了广泛的关注。BM是对称耦合的随机二值单元网络,通过学习建立单元之间的高阶相关模型,用基于模型的能量函数中的隐单元和可见单元来得到具有更高表示能力的模型,能够对复杂层次结构数据进行建模。BM的原理比较完备,在各种数据集上显示出优越的学习性能。但是,BM的推理学习过程算法复杂性过高,无法有效地应用于大规模学习问题,因而研究人员提出对网络拓扑结构简化,改进学习算法,对非线性寻优过程合理近似,减少学习时间,许多BM理论和方法得以发展。
来源出版物:计算机研究与发展, 2014, 51(1): 42751
入选年份:2014
位置大数据隐私保护研究综述
王璐,孟小峰
摘要:目的:大数据时代移动通信和传感设备等位置感知技术的发展形成了位置大数据。由于位置大数据内容交叉冗余,经典的基于“知情与同意”以及匿名的隐私保护方法不能全面地保护用户隐私,这就需要位置大数据的隐私保护技术可以度量用户的位置隐私,并且在信息论意义上保护用户的敏感信息。因此,位置大数据隐私保护技术需要考虑以下3个具有挑战性的问题:(1)如何度量用户的敏感信息的泄露程度;(2)如何实现对位置大数据隐私全面的保护;(3)如何兼顾隐私保护的程度和基于位置服务的可用性。本文综述位置大数据隐私保护技术的最新进展,分类阐述位置大数据的隐私保护技术,分析不同技术的优缺点、适用场景等。其中,重点介绍当前该领域的前沿问题,基于隐私信息检索的隐私保护技术。本文在对位置大数据的隐私保护技术进行综合对比和分析后,探讨了位置大数据未来的研究方向。方法:首先对现有的国内外关于隐私保护的相关文献和技术文档进行广泛的收集和整理。在此基础上按照文献主题对材料进行详细的分类,一方面,总结出针对位置大数据隐私的统一的基于度量的攻击模型等研究背景;另一方面,以统一的攻击模型为依据,根据不同隐私保护技术在隐私保护程度和服务可用性之间的权衡情况,确定位置大数据隐私保护研究领域的主要问题和关键性技术等。最后围绕提取出的核心问题将现有文献进行归纳和总结。结果:介绍了位置大数据的基本概念以及总结出针对位置大数据隐私基于度量的统一攻击模型等研究背景;以统一的攻击模型为依据,根据不同隐私保护技术在隐私保护程度和服务可用性之间的权衡情况,把现有方法总结为基于启发式隐私度量、概率推测和隐私信息检索的位置大数据隐私保护技术。分类阐述位置大数据的隐私保护技术,分析不同技术的优缺点、适用场景等。其中,重点介绍当前该领域的前沿问题、基于隐私信息检索的隐私保护技术。考虑到大数据时代的攻击者可以获得和位置数据相关的非位置数据,可以从其他角度获得或者分析用户的历史位置数据得到有关用户的背景知识,探讨了位置大数据与非位置大数据结合产生的隐私问题将是未来的研究热点。结论:大数据时代,经典的基于“知情与同意”以及匿名的隐私保护方法不能全面地保护用户隐私。位置大数据的隐私保护技术需在信息论意义上保护用户的敏感信息。位置大数据隐私保护方法的保护效果由发布后的位置大数据能够提供给攻击者多少用户处于某敏感位置的信息增益来表示。当用户的隐私需求较高时,基于隐私信息检索的位置大数据隐私保护技术最为适用。在对已有技术深入分析对比的基础上,指出了未来在位置大数据与非位置大数据相结合、用户背景知识不确定等情况下保护用户位置隐私的发展方向。
来源出版物:软件学报, 2014, 25(4): 693-712
入选年份:2014
深度学习及其在目标和行为识别中的新进展
郑胤,陈权崎,章毓晋
摘要:目的:随着互联网技术的发展以及计算机硬件性能的增强,人们可以获得的数据量规模越来越大,同时处理数据的能力也不断的提升。这两方面因素使得人们希望从大规模数据中有效的提取信息。深度学习是近些年机器学习领域中涌现出来的一个新的研究领域,它通过构建深度网络来从数据中学习特征,而这种特征学习的方法在实践中被证明十分有效。为了引起更多的计算机视觉和机器学习领域的研究者对深度学习技术进行探索和讨论,并推动深度学习在目标识别和行为识别领域的进展,本文对深度学习以及其在目标和行为识别领域的进展进行概述。方法:本文首先对深度学习进行概述,介绍深度学习与神经科学中哺乳动物的信息表达的关系,并且指出目前深度学习已经成为计算机视觉中的一个热点方向,每年都有大量的研究成果出现,产生了诸多深度学习的新算法和新方向,而同时深度学习算法的性能也逐渐在一些国际重大评测中超过了其他传统的方法;接着,本文对深度学习的原理进行综述,结合当前深度学习的进展将深度学习技术进行分类归纳,并且对当前主流的深度学习架构:基于限制玻尔兹曼机的深度学习架构,基于自编码器的深度学习架构进行介绍,并且对训练深度网络时的稀疏性约束进行介绍;在此基础上,本文介绍了目前深度学习的新进展:用于增强鲁棒性的去噪自编码器、考虑像素之间关系的三元因子玻尔兹曼机、通过引入卷积运算来共享参数的卷积受限玻尔兹曼机以及收到受限玻尔兹曼机启发而提出了神经自回归分布估计器。接着,本文介绍目前深度学习在目标识别和行为识别中的应用:谷歌公司通过计算机集群来训练大规模深度网络的“虚拟人脑”项目;深度学习在大规模视觉识别竞赛中取得的进展;神经自回归分布估计器在同时的图像分类和标注中的应用以及深度学习在行为识别中的应用。结果:本文在最后的部分阐述了深度学习与传统的神经网络之间的关系、深度学习的优缺点,以及目前深度学习理论需要解决的主要问题,并且指出深度学习的本质是学习到多层的非线性的函数关系,而这种多层的非线性的函数关系使得人们能够更好地对视觉信息进行建模,从而更好地理解图像和视频。结论:该文对拟将深度学习应用于目标和行为识别的研究人员有所帮助。
来源出版物:中国图象图形学报, 2014, 19(2): 175~184
入选年份:2014
基于结构的社会网络分析
窦炳琳,李澍淞,张世永
摘要:互联网的发展和社交网站的流行为研究社会网络提供了大规模的实验平台。主要使用DBLP和Facebook数据集构建网络,采取角色连接轮廓方法从结构上进行划分,发现它们属于外围串类型;验证了社会网络的一些统计性质,比如无标度分布、稠化定律和直径缩减等;发现社会网络中存在紧密连接且直径较小的核心结构,规模中等的社区主要呈现星型结构;基于事件框架研究了社会网络中社区结构的进化,发现社区间的融合很大程度上取决于社区间直接连接的节点所构成网络的聚类系数,而社区的分裂则与该社区的聚类系数相关。本文研究了社会网络的类型、性质和社区进化的结构特征。本文主要使用DBLP和Facebook数据集构建网络,采用角色连接轮廓方法从结构上将它们划分为外围串类型;本文验证了社会网络的无标度分布、直径缩减和稠化性质,发现社会网络中社区大小服从幂律分布,规模中等的社区主要呈现星型结构;发现社会网络中存在紧密连接且直径较小的核心结构;本文基于事件框架研究了社会网络中社区结构的进化特征,发现社区间的融合很大程度上取决于社区间直接连接的节点所构成网络的聚类系数,而社区的分裂则与该社区的聚类系数相关。本文的进一步工作是提出新的社区进化分析方法,深入挖掘影响社区进化的结构特征,并建立相应的演化模型。社会网络是以人为中心构建的网络,与它相关的研究成果对人们的工作生活有着潜在的影响。互联网的发展和各种社交网站的出现也为我们提供了实验平台,并为计算机相关学科的研究带来了新的挑战和机遇。社会网络所表现出来的各种性质是如何形成的,是否存在一个理论模型能够解释在个体与个体交互中涌现出来的这些特征?不同的网络拓4期窦炳琳等:基于结构的社会网络分析751扑结构与个体的行为如何相互产生影响?如何刻画和控制信息在社会网络上的传播?等等,这些是需要我们研究和解决的问题。
来源出版物:计算机学报, 2012, 35(4): 741-753
入选年份:2015
基于混合推理的知识库的构建及其应用研究
钟秀琴,刘忠,丁盘苹
摘要:该文提出了基于OWL本体与Prolog规则的平面几何知识库的构建方法,从而可形式化地表示平面几何中丰富的语义信息。一方面,用类型、定义域、值域、分类、属性、实例等本体描述来表达结构化的知识,为领域内概念与概念之间关系的描述提供形式化的语义;另一方面,用Prolog规则来解决本体不能有效表达的诸如属性之间的关系和操作等问题,从而支持复杂关系间的推理。在此基础上,用Protété和Prolog构建了一个基于本体和规则的平面几何知识库。实验证明:此知识库可实现知识和语义层次上的信息查询,还可进行复杂问题求解,其丰富的语义描述和混合推理能力弥补了传统知识库的不足。随着计算机和人工智能技术的迅速发展,智能系统或基于知识的系统的研发已成为计算机应用的研究热点之一。与此同时,人们对智能系统提出了更高的要求,迫切要求它们能更有效地解决更复杂的问题,代替人完成各种困难的任务。因此,如何有效地存储、管理、组织、维护和更新大规模的知识,如何有效地利用存储的知识进行推理和问题求解,即知识库系统技术便应运而生,并成为人工智能技术的重要分支。知识库是针对某一领域问题求解的需要,采用某种知识表示方式在计算机中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括和领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则及常识性知识等。知识库系统的实现主要涉及知识的表示、传递、推理和获取,以实现知识的检索,满足用户的需求。进一步,本体模型的构建及其混合推理还可应用于数据挖掘,为行业用户提供精确的信息检索、智能推送等服务。本文在前人研究与实践的基础上,首先构建一个平面几何知识本体,然后将本体与Prolog规则结合进行平面几何知识库的构建,最终实现基于本体的语义查询和基于混合推理的平面几何问题求解,促进知识库的规范化和增强语义性,实现复杂问题的求解。
来源出版物:计算机学报, 2012, 35(4): 761-766
入选年份:2015
云计算数据中心的新能源应用:研究现状与趋势
邓维,刘方明,金海,等
摘要:随着大规模云计算数据中心在全球范围内的广泛部署,其高能耗、高费用、高污染等问题日益突出。为了节能减排,越来越多的云服务商尝试利用绿色新能源,像太阳能或风能,为其数据中心供电。然而,不同于稳定供电的传统电网,新能源往往具有不稳定性、间歇性和随时变化等特点,这使得新能源在数据中心中的高效可靠应用面临诸多新挑战。本文剖析了新能源应用的机遇与挑战,回答了为什么、何时、何地及如何在云计算数据中心利用新能源。从绿色数据中心现状与新评价标准、新能源产电模型与预测机制、绿色数据中心能源配额规划、数据中心内负载调度机制、跨区域云数据中心间负载均衡机制5个关键方面,对新能源在云计算数据中心应用的最新研究成果进行分类、对比与总结,并展望了未来研究趋势。在云计算席卷全球、云计算产业发展浪潮风起云涌的背景下,建设绿色数据中心、实现节能减排成为了近年来学术界和产业界关注的话题之一。传统数据中心企业原有的数据中心如何尽快转变成适合云计算要求的云计算中心,也是迫切需要解决的问题。以谷歌、亚马逊为代表的互联网巨头在从传统内容服务商向云计算服务转型的过程中,需要规划和建设规模巨大的数据中心。本文第2节介绍绿色云数据中心的现状与挑战;第3节分析新能源评价标准、新能源的特性和可选择利用种类;第4节介绍研究分类评价标准,并据此对目前研究现状进行对比分析;第5节分别从新能源模型和预测机制、数据中心能源配额规划、新能源数据中心内作业调度机制和新能源数据中心间负载均衡机制4个方面,对绿色数据中心的最新研究进展进行分类比较,并总结国内绿色数据中心的研究现状;最后对全文进行总结,并提出未来值得进一步研究的方向。
来源出版物:计算机学报, 2013, 36(3): 582-598
入选年份:2015
大数据安全与隐私保护
冯登国,张敏,李昊
摘要:大数据(BigData)是当前学术界和产业界的研究热点,正影响着人们日常生活方式、工作习惯及思考模式。但目前大数据在收集、存储和使用过程中面临着诸多安全风险,大数据所导致的隐私泄露为用户带来严重困扰,虚假数据将导致错误或无效的大数据分析结果。该文分析了实现大数据安全与隐私保护所面临的技术挑战,整理了若干关键技术及其最新进展。分析指出大数据在引入安全问题的同时,也是解决信息安全问题的有效手段。它为信息安全领域的发展带来了新的契机。大数据带来了新的安全问题,但它自身也是解决问题的重要手段。本文从大数据的隐私保护、信任、访问控制等角度出发,梳理了当前大数据安全与隐私保护相关关键技术。但总体上来说,当前国内外针对大数据安全与隐私保护的相关研究还不充分。只有通过技术手段与相关政策法规等相结合,才能更好地解决大数据安全与隐私保护问题。前面列举了部分当前基于大数据的信息安全技术,未来必将涌现出更多、更丰富的安全应用和安全服务。由于此类技术以大数据分析为基础,因此如何收集、存储和管理大数据就是相关企业或组织所面临的核心问题。除了极少数企业有能力做到之外,对于绝大多数信息安全企业来说,更为现实的方式是通过某种方式获得大数据服务,结合自己的技术特色领域,对外提供安全服务。一种未来的发展前景是,以底层大数据服务为基础,各个企业之间组成相互依赖、相互支撑的信息安全服务体系,总体上形成信息安全产业界的良好生态环境。在认证技术中引入大数据分析则能够有效地解决这两个问题。基于大数据的认证技术指的是收集用户行为和设备行为数据,并对这些数据进行分析,获得用户行为和设备行为的特征,进而通过鉴别操作者行为及其设备行为来确定其身份。这与传统认证技术利用用户所知秘密,所持有凭证,或具有的生物特征来确认其身份有很大不同。
来源出版物:计算机学报, 2014, 37(1): 246-258
入选年份:2015
基于开放网络知识的信息检索与数据挖掘
王元卓,贾岩涛,刘大伟,等
摘要:目的:网络大数据是指“人、机、物”三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据。这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强。网络大数据背后蕴含着丰富的、复杂关联的知识。建立面向开放网络的知识库,是获取网络大数据中的丰富知识的有效手段。本文分析了主流开放网络知识库的构建的主要特点,论述了开放网络知识库在信息检索和知识挖掘方面的主要作用,并介绍了当前知名系统和应用的情况。最后对开放网络知识库的研究与应用面临的挑战和未来研究的重点进行了展望。方法和结果:在开放网络知识库构建方面,本文从开放网络知识库的构建、多源知识的融合以及知识库的更新3个方面,对当前国内外主要的开放网络库进行了比较。具体的讲,本文主要论述了开放网络知识库的自动构建的两种方法,即有监督的构建方法和半监督的构建方法。列举了包括KnowItAll,TextRunner,NELL,Probase这些典型的通过半监督的构建方法构建知识库的具体流程。在多源知识的融合方面,本文介绍了以YAGO和Probase为代表的、建立在机器学习算法之上的、可扩展的融合方法。在知识库的更新方面,本文介绍了以NELL和YAGO为代表的两类知识库更新方法,即基于知识库构建人员的更新和基于知识库存储的时空信息的更新。在基于开放网络知识库的信息检索方面,本文从用户意图理解、查询扩展、语义问答3个方面展开论述,并就线索挖据、关系推理以及关系和属性预测这3个基于开放网络知识库数据挖掘方向进行了回顾。最后,本文分析比较了两类基于开放网络知识库的代表性的智能搜索引擎,即人物关系搜索和知识关系搜索的特点。并就流行趋势分析、排名关键词分析、统计分析这3类代表性的商业情报分析系统进行了论述。结论:基于开放网络大数据的知识库为人们深入利用网络大数据的价值提供有效的途径。目前,虽然在国内外已经有了一些以开放网络数据为基础的知识库,并兴起了一些新兴的应用,但无论知识库的构建、更新,还是应用都还不能完美地满足人们的应用需求,也就意味着每个方向都有极具挑战性的工作。本文从5个方面,即开放网络知识库的创建和更新中融入群体智慧,开放网络知识库的实时感知与自动更新,通用知识库与领域知识库相结合实现有效跨库映射,实现知识库的跨语言融合,通过计算实现对潜在知识的推断和未来趋势的预测对下一步的工作进行了展望。
来源出版物:计算机研究与发展, 2015, 52(2): 456-474
入选年份:2015
求解VLSI电路划分问题的混合粒子群优化算法
郭文忠,陈国龙,熊乃学,等
摘要:目的:电路划分是VLSI物理设计过程中的一个关键阶段,该问题本质上是一个NP困难的组合优化问题。针对此问题。本文针对VLSI电路划分问题,采用一种带FM策略混合粒子群优化算法,同时将遗传算法的交叉和变异算子融入其中,以进一步增强整个算法的搜索能力,进而求解给定电路的最优划分。方法:本文提出了一种带FM策略的混合粒子群优化算法,采用一种0-1结构的离散化粒子编码方式,设计了一种以划分后子集间最小切割线网数为目标的粒子适应度评估函数,同时引入遗传算法的两点交叉算子和随机两点交换变异算子,保证了粒子在位置更新后依然可行。为提高算法的局部搜索能力,将具有较强局部搜索能力的FM策略融入算法的位置更新,设计了种群多样性变异策略,提高种群多样性,避免易陷入局部最优的缺陷。最后通过对ISCAS89标准测试电路进行仿真实验,结果表明所构造算法的可以取得非常出色的划分解。结果:为了评价和分析本文提出算法的性能,我们采用主频为2.00 GHz的PC机在MATLAB环境下对经典的FM电路划分算法、DPSO算法、仅带有FM局部交换策略的DPSO算法(discrete particle swarm optimization with FM,简称FDPSO)及本文最终构造的带有FM局部交换策略和多样性变异策略的DPSO算法(discrete particle swarm optimization with FM and diversity mutation,简称FDPSOM)等多个算法进行了一系列的仿真实验。第一,实验结果表明,本文在DPSO算法的每代粒子更新部分混合了基于FM的局部交换策略后形成的FDPSO算法,首先提高了DPSO算法的局部搜索效果,降低了搜索的盲目性,使得FDPSO算法在电路划分问题上比DPSO算法具有了更好的收敛效果和更快的收敛速度;其次,FDPSO算法划分各电路所得的平均解上优于FM算法取得的结果,这主要是由于DPSO算法比FM算法具有更高的全局搜索能力,进而证明DPSO算法上混合基于FM的局部交换策略对求解电路划分问题是行之有效的。第三,实验证明FDPSO算法的收敛速度以及收敛效果均显著优于DPSO算法,从而也验证了在DPSO算法上加入基于FM的局部交换策略的有效性。对于FDPSOM算法和FDPSO算法的比较,从以一定收敛速度的损失来换取能够得到明显更优的划分结果的能力方面来说,FDPSOM算法比FDPSO算法对于求解电路划分问题是更有效的。也就是说,将粒子的多样性策略融入到FDPSO算法的思想亦行之有效。最后,通过同经典的FM算法和基于模拟退火的算法进行对比,进一步证明了本文所提出的FDPSOM算法的有效性。结论:为解决VLSI物理设计中的电路划分问题,针对其它众多优化算法存在收敛效果差和收敛速度较慢的缺陷,本文在所构造的DPSO算法基础上,将具有较强局部搜索能力的FM局部交换策略以及粒子多样性变异策略引入了DPSO算法中,构造了一种有效求解电路划分问题的混合离散粒子群优化算法。实验结果表明该混合算法在局部求解与全局探索之间取得了较好的平衡,能在较短的时间内获得比较满意的划分结果,说明了本文对原来DPSO算法所融入的两种混合策略的可行性和有效性。下一步工作方向是针对多目标电路划分问题,力争寻求一种多目标适应度评价函数的有效策略并构造一个有效的、收敛的离散多目标粒子群优化算法。
来源出版物:软件学报, 2011, 22(5): 833-842
入选年份:2015
稀疏表示和贪婪搜索的人脸分类
刘梓,宋晓宁,唐振民
摘要:目的:随着稀疏表示方法在图像重建问题中的巨大成功,研究人员提出了一种特殊的分类方法,即基于稀疏表示的分类方法。在稀疏表示分类器框架中,测试样本被表示成所有训练样本的线性组合。通过最优化方法,可以得到线性方程组的表示系数。在基于稀疏表示分类器的框架中,稀疏性约束将会加强编码向量的鉴别性从而可以提高识别精度。为了加强样本间的协作表示能力以及减弱稀疏分解时的强约束,本文提出了一种在稀疏分类框架下的迭代剔除机制和贪婪搜索策略的人脸识别方法。方法:在研究中发现,不仅仅是稀疏性约束,同时协作表示机制也保证了稀疏分类框架的良好性能。方法:首先在全局稀疏分类框架中将测试样本表示为所有训练样本的线性组合。在所述线性组合训练样本的系数可视为该训练样本的权重。较小的系数意味着一些训练样本有较少的贡献,换句话说,这些训练样本对分类决策并不起决定性作用。因此,在表示测试样品时具有较少的贡献类别的系数可以分配为零,并且所有剩余的训练样本的线性组合权重将被重新评估。最终剩余的若干翔实的训练样本将用来为测试样本提供最优的逼近。同时,在系数分解的过程中采用最小误差正交匹配追踪(Error-Constrained Orthogonal Matching Pursuit,EcOMP)算法,进而选择出贡献程度大的类别样本并进行分类。结果:在迭代更新样本字典的过程中,强化了真实类别的表示能力,并弱化了分解系数的强l1约束。在所有的实验中,正则化参数的取值为0.001,在ORL、FERET和AR三个人脸数据库上,本文的识别率可分别达到97.88%、67.95%和94.50%,进而验证了提出算法的有效性。结论:本文提出的在稀疏分类框架下的迭代剔除机制和贪婪搜索策略的人脸识别方法,在每一次迭代中,利用贪婪搜索的策略将类别剔除,直到剩下的类别数量满足预设的条件。事实上,该方法简化原始的多类别分类问题到相对少的类别分类。最终剩余的样本将用来构成最优的线性组合方式并进行分类。在动态迭代的机制中完成了样本字典的更新,平衡了协作表示和稀疏约束的关系,相比较原始的稀疏分类模型有更好的准确性和稳定性。
来源出版物:中国图象图形学报, 2015, 20(1): 39-49
入选年份:2015
任务并行编程模型研究与进展
王蕾,崔慧敏,陈莉,等
摘要:目的:自2005年起,计算机处理器设计已经从单核芯设计转向多核芯设计,通过增加芯片上的并行计算能力提高处理器性能,多核时代正式到来。多核芯片的出现,计算机编程模式面临着由传统串行编程模式向新型并行编程模式转变的巨大压力。人们再也享受不到“免费的午餐”,只能通过并行方式来提升串行应用程序的性能,程序员开始走向并行编程之路。任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率。本文综述了任务并行编程模型的研究背景、研究意义、最新研究成果以及目前面临的主要问题和困难,并探讨其未来的研究方向,试图为该研究方向勾画出一个较为全面和清晰的概貌,为并行编程模型和编程环境等相关领域的研究者提供有益的参考。方法:首先对现有的国内外任务并行编程模型相关文献和技术文档进行广泛收集和整理。在此基础上从编程接口和运行时支持两方面对现有工作进行综述,确定任务并行编程模型研究领域的主要问题和关键性技术等。最后围绕提取出的核心问题将现有文献进行归纳和总结。结果:(1)介绍任务并行编程模型的基本概念和系统框架,提取出3个核心问题。该编程模型把任务作为并行的基本单位,为程序员提供任务划分和同步的编程接口。程序员可以把应用程序划分出大量细粒度任务。然而,具体到每个任务在哪个物理核上执行、任务间到底是并行执行还是串行执行、以及如何实现任务之间的同步则由运行时系统完成。并行性表达、数据管理和任务调度是该编程模型的3个核心问题。(2)并行性表达。任务并行编程模型提供显式的任务划分和同步编程接口,除了支持非规则并行的嵌套并行控制结构以外,最新研究成果还包括支持没有迭代间依赖的forall并行、归约并行和scan并行等循环并行控制结构;放松了嵌套并行中父子任务关系,支持尾端严格特性;高效支持无条件原子块结构和有条件原子块结构;以及引入层次移相器,支持性能可扩展的同步和归约。(3)数据管理。任务并行编程模型把数据分为共享和私有两种,通过共享数据进行通信。但有些数据是部分任务共享,或者一个线程内执行的所有任务共享,因此需要对数据进一步区分共享范围,需要研究如何高效实现不同级别的共享数据。最新研究成果包括Cilk++提供的超级对象,使多个任务能互不影响地访问全局变量;提供常用的并发数据结构,使用细粒度锁或lock-free技术等方法进行实现,保证线程安全的同时得到并行加速比;提供锁外协助技术,降低锁等待时间。(4)任务调度。该编程模型提供隐式的任务映射机制,运行时系统负责任务调度,把逻辑任务映射到物理线程上去执行,采用任务窃取调度算法获得负载平衡,提高执行效率。任务窃取调度算法的研究分为3个阶段,理论研究阶段是从20世纪90年代到21世纪初,研究共享存储多处理器(SMP)架构上的多线程任务窃取调度算法,为任务窃取奠定理论基础;算法实现方面的优化阶段是从2006年开始至今,研究多核平台上任务窃取实现方面的优化,主要包括控制任务粒度和局部性敏感的任务调度研究以及任务队列改进的研究;目前正在研究面向处理器结构特点的任务调度,包括众核和集群上的任务窃取关键技术研究。结论:经过15年的发展,任务并行机制已被大量的并行语言所支持。现有的任务并行机制已经能表达更宽泛的并行性,且支持多种数据属性的管理,任务调度技术得到深入研究,已经能适应各种不同的应用类型。但最近几年,硬软件发生变化,任务并行编程模型还需要在以下方面进行深入研究:(1)针对NUMA结构的多路多核处理器,需要考虑数据分布的编程接口以及运行时支持;(2)针对异构平台,需要考虑提供数据分布和通信的编程接口以及相关优化的支持;(3)针对新兴的非规则应用,需要提供更丰富的数据管理组件提高可编程性。
来源出版物:软件学报, 2015, 24(1): 77-90
入选年份:2015
城市道路交通数据可视分析综述
姜晓睿,田亚,蒋莉,等
摘要:目的:交通问题与各行业各阶层息息相关,是困扰现代大都市的世界性难题。车流的激增带来交通拥堵、尾气排放等经济、环境问题,同时也是导致交通事故频发的原因之一。与此同时,GPS地理感知设备所提供的大量定位数据为人们感知城市交通和生活脉搏提供了新的机会。通过智能交互手段分析大量个体车辆GPS时空数据,可以为诊断城市交通问题、挖掘人群出行模式提供便利。这也是智能交通研究的主要内容之一,为此,本文全面回顾了自信息可视化和可视分析兴起以来城市交通数据可视分析领域的研究现状。方法:首先简要叙述了交通数据,主要是交通GPS轨迹数据的预处理技术,即轨迹数据清洗、轨迹数据校准、轨迹数据化简等。然后,从道路交通流量、交通事件分析和其他交通(公共汽车、地铁、出租车等)问题分析两个方面,按照数据的类型及问题的分类探讨交通领域的可视化技术和可视分析系统。最后,简要回顾了近一年来出现的新研究趋势。结果:早期研究注重对道路流量的可视化展示方案,主要方法有箭头图、马赛克图和轨迹墙等。随着可视分析手段的丰富,对城市道路交通流量的分析层次上升到交通事件层面,但是交通事件的定义仅局限于交通拥堵。应用可视分析的其他交通问题领域包括公共交通、交通事故和人群出行行为等。近年出现了挖掘和利用交通轨迹或交通事件的社会属性或称环境上下文信息,以及将可视化和地图视图有机地结合起来的研究新趋势。结论从对交通流量的可视化到交通事件的可视分析,从面向道路交通状况到与交通相关的其他社会性问题,单纯反映路况的交通数据到富含社会性语义的多源数据,从传统的PC端可视化和交互范式到新型的可视化展示介质,交通数据可视化领域的研究在深度和广度上都得到大大拓展,未来该领域的研究趋势也体现于其中。
来源出版物:中国图象图形学报, 2015, 20(4): 454-467
入选年份:2015
基于OpenFlow的SDN技术研究
左青云,陈鸣,赵广松,等
摘要:目的:软件定义网络(Software-Defined Networking,简称SDN)技术分离了网络的控制平面和数据平面,为研发网络新应用和未来互联网技术提供了一种新的解决方案。当前SDN技术尚处于起步阶段,它由斯坦福大学的OpenFlow概念发展而来,目前已在学术界和工业界引起广泛关注。为更好的研究和推广SDN技术,本文综述了基于OpenFlow的SDN技术发展现状。方法:首先总结了逻辑控制和数据转发分离架构的研究背景,介绍了IETF的ForCES概念、Greenberg的4D架构、Caesar提出的RCP平台、斯坦福大学Casado等人的SANE和Ethane系统,列举了OpenFlow和SDN技术在当前学术界和工业界的相关研究项目。从OpenFlow的基本架构入手,介绍了OpenFlow交换机、控制器等关键组件,并引出SDN基础设施层、控制层、应用层的三层架构。然后从4个方面分析了基于OpenFlow的SDN技术目前面临的问题和解决思路。结合近年来的发展现状,归纳了SDN技术在校园网、数据中心以及面向网络管理和网络安全方面的应用,并深入探讨未来研究趋势。结果:基于OpenFlow的SDN在技术、运作模式和演进趋势上还存在以下几个问题:(1)SDN转发平面的设计问题。OpenFlow交换机作为SDN转发平面抽象的实际载体,协议标准处在更新和完善过程当中。随着OpenFlow规范的不断发布,OpenFlow交换机流表从最初的单表结构变为多表结构,流表项匹配字段从最初的十元组到支持IPv6,MPLS等,这些都表明SDN转发平面功能的逐渐扩展,意味着OpenFlow交换机结构设计的复杂化,因此必须认识到由此带来的新的问题和挑战。(2)控制平面的可扩展性。随着网络规模的增大和业务需求的增加,可以从横向扩展和纵向扩展两个方面来增加可扩展性。横向扩展通过修改OpenFlow交换机的处理流程或硬件架构,给OpenFlow交换机增加部分控制功能来实现;纵向扩展通过多控制器的分布式管控平面,实现分域管控网络,从而在控制器之间实现状态分发过程。(3)SDN控制逻辑的一致性。控制平面的分离、网络状态分发机制、控制平面和数据平面之间可能存在的时延,都难以保证控制逻辑更新的一致性,有可能造成网络出现断路、丢包、环路等现象。可以考虑从状态更新机制、时延监控等方面研究控制逻辑一致性的实际需求。(4)运作模式和演进趋势问题。SDN技术颠覆了网络设备的设计理念,带来了新的市场需求,同时也对传统的网络设备制造商提出了挑战。OpenFlow自身设计标准的不稳定性和转发设备硬件的复杂化趋势,也为SDN技术的演进趋势带来了不确定性。结论:基于OpenFlow的SDN技术的未来研究重点和发展趋势包括以下几个方向:(1)OpenFlow标准的发布和控制器软件的开发。(2)OpenFlow并不是支撑SDN技术的唯一标准,但基于OpenFlow实现SDN将是未来发展趋势。(3)基于OpenFlow实现的网管和安全功能主要集中在接入控制、流量转发和负载均衡等方面,而在安全性机制设计、异常检测和恶意攻击防护等方面都可以进行更深入的研究。(4)SDN控制转发分离的技术特点满足了数据中心密集型服务器需要集中管控的需求,将在数据中心中发挥更大的作用。(5)Onix为SDN的大规模部署提供了技术指导,SDN在未来将进一步应用于广域网。(6)当前各国都已展开未来互联网研究,基于OpenFlow的SDN技术有可能发展成为面向未来互联网的新型设计标准。
来源出版物:软件学报, 2013, 24(5): 1078-1097
入选年份:2015