徐明杰,杨婉霞,周蓓蓓,李妙棋,刘 燕,王巧珍
(甘肃农业大学机电工程学院,甘肃兰州 730070)
信息隐藏是保证信息安全的重要技术手段之一,与经典的加密技术相得益彰、互为补充,共同守护网络信息安全。然而,加密技术注重内容安全,行为上的暴露会激发攻击者的热情。信息隐藏通过公开载体传递机密信息,追求的是内容和行为两者的不可感知性和不易察觉性,即隐蔽性。可见,信息隐藏的目的是将私密信息融入载体,使其很自然地成为载体不可分离的一部分。
实施信息隐藏的前提是选择已有载体或构造载体,因此可按照载体的时代特征将信息隐藏划分为传统形式隐写和现代信息隐写两种。传统隐写主要基于物理媒介、化学物质和扩频通信等载体[1];而现代信息隐写是随着计算机、互联网等技术发展,出现了文本、图像、音频等数字载体而开启的,使得信息隐藏手段发生了前所未有的变化,其比基于传统隐写技术发展更快速,应用更广泛。可以说,信息隐藏的发展史是寻求载体并与载体和谐共处的奋斗史,详见图1。在众多数字载体中,文本是最常用、最普遍的载体,基于文本的信息隐藏技术必然受到研究界的极大关注。从图2 可以看出,基于文本载体的信息隐藏研究关注度及发表文献数量位居第二(知网和WOS 检索量),图像位居之一是由于其冗余度大。因此,本文以文本信息隐藏技术为研究对象,详细分析其研究现状、热点和发展趋势以及存在的问题。
Fig.1 Timeline of the development of modern information hiding with the change of the carrier图1 现代信息隐藏随载体变化而发展的时间轴
Fig.2 Comparison of the number of Chinese and English literatures in different carriers图2 不同载体中英文文献数量比较
目前文本信息隐藏技术主要分为三大类。第一大类为修改式文本信息隐藏,主要包括:①基于文本格式的信息隐藏。该类算法的特点为微调已有文本的格式实现隐写,不会改变文本内容,例如通过微调文本间距[2-4]、改变字符编码[5-7]和文件格式[8-10]实现信息隐藏;②基于文本内容的信息隐藏。该类方法不改变文本语义,在不同粒度情况下修改文本内容时实现信息隐藏,修改对象集中在词汇层和语句层,例如通过替换相似字符[11-13]、增删句子中的助词[14]、改变句子长度等实现信息隐藏[15]。第二大类为搜索式无载体文本信息隐藏。该类方法不对原有载体作任何修改,而是以大数据为基础,在大量自然载体中搜索含密载体进行传输,重点解决如何准确定位私密信息的问题。目前常用方法包括利用汉字数学表达式生成定位标签[16-17],基于汉语拼音组合特征[18]、汉字的声调特征[19]、字符编码特征[20]和词阶图[21]等设计的无载体信息隐藏方法。该类方法的特点是抗检测性极强,但受标签+关键词搜索载密文本的模式所限,需要大量文本数据方可稳定实施,且算法复杂,隐藏容量十分有限。第三大类为生成式文本信息隐藏方法,其借助概率统计理论及自然语言生成技术,设计符合语法规则的句法模板,通过构建字典资源将私密信息编码为自然语言的文本内容。例如Simova 等[22]针对基于同义词替换策略生成文本的隐写软件Nicetext 生成的文本语义生硬等问题改进模型,充分考虑英文句法规则,提高了生成文本质量;余振山等[23]结合字词编码实现自动生成宋词的信息隐藏,嵌入率高,但算法选词的随机性强,生成的宋词欣赏性不佳,隐蔽性降低;Yang 等[24]采用大数据驱动的循环神经网络构建文本生成和隐写模型,隐藏容量和隐蔽性均有所提升;Kang 等[25]基于关键词并引入注意力机制建立的语言模型能更深层次地学习语义信息,提高了生成载密文本的抗检性;Yang等[26]采用知识图谱约束文本自动生成过程的语义,保证了较好的文本生成质量;其还探索了面向唐诗和宋词生成的多种信息隐藏方法[27-28],促进了文本生成式信息隐藏研究的进一步发展。
为了更清晰地展现已有算法的原理和特点,本文对现有文本信息隐藏方法进行简要概括与比较,详见表1。可以看出,修改式文本信息隐藏方法因其固有的缺点难以抵抗统计隐藏检测。搜索式无载体文本信息隐藏方法的搜索和存储代价大,隐藏容量普遍较低,且隐藏成功率会受到算法和数据影响。而基于文本自动生成的信息隐藏方法可以很好地协调隐藏容量和隐蔽性,也无需大量文本数据。然而目前文本生成模型生成的文本自然度欠佳,主题和情感等可控性不完善。综合分析可知,当前研究主要集中在面向文本自动生成的信息隐藏技术,以及将搜索式思想与文本自动生成相结合的隐藏方法方面。以下将通过对相关文献进行分析,进一步挖掘文本信息隐藏的研究热点和发展趋势。
Table 1 Comparison of text information hiding methods表1 文本信息隐藏方法比较
本文分析数据来源于Web of Science 数据库,主题词设置为“text”and“information hiding or steganagraphy”,源期刊限定Web of Science 的核心合集数据库,设定年限为2010-2021 年,剔除与研究主题不相关的条目,最终得到有效英文文献200篇。
利用科学引文文献数据挖掘和可视化分析工具Cite SpaceⅣ[29-30]对样本文献中蕴含的潜在知识信息及其相互关系进行科学计量与深度分析,得到高被引文献以及作者、研究机构、国家/地区的合作共现情况等,形成文本信息隐藏领域研究作者及机构的知识图谱,进而探究文本信息隐藏学科结构的发展概况。
首先对文献共被引进行聚类分析,挖掘相似文献的共同主题,得到研究主题的知识基础,形成并体现引文网络中的学科点;然后对文献中的关键词进行共现分析,以揭示文献所代表学科与各主题之间的关系,同时结合结构变异性分析,即通过关键词和高被引作者的突变检测,反映和辨识新兴学科和研究前沿的转变。
图3 为1990-2021 年期间文本信息隐藏领域的年度文献统计。可以看出,自1995 年起,文本信息隐藏研究开启了迅速发展的阶段,并在2016 年后迎来爆发式增长。分析其原因:1996 年5 月,第1 届国际信息隐藏学术研讨会(The First International Workshop on Information Hiding)在英国剑桥大学召开,标志着信息隐藏学的正式诞生。2017年,Transformer 模型被提出,在自然语言处理(Natural Language Processing,NLP)领域掀起了新的发展浪潮,促进了基于文本自动生成的无载体信息隐藏技术蓬勃发展。在我国,信息隐藏技术研究正式开始于1999 年。2000 年1月,国家自然科学基金委员会将信息隐藏技术确定为优先领域,不仅开启了信息隐藏学科这一新的发展方向,也为该领域的研究与发展提供了重要的资金来源。文本是通用载体,基于文本的信息隐藏技术自然随之快速发展。
Fig.3 Annual statistics of literatures of text information hiding during 1990-2021图3 1990-2021年期间文本信息隐藏领域年度文献统计
对200篇文献作者所在的国家和研究机构进行统计可揭示文本信息隐藏领域中坚研究力量的分布情况。选择节点类型为研究机构,Top N=25,形成了文本信息隐藏研究机构分布的可视化图谱,见图4。图中的网络节点数量为205 个,连线数量(Links)165 条,网络密度(Density)为0.007 9。其中,节点及字体大小代表机构出现频次高低,连线密度和粗细度表示机构之间的合作密切程度。可以看出,该领域的研究主要集中在中国,发文量为78 篇,占总量的39%,遥遥领先其他国家;发文量排名第二的为印度,占22%;其次是美国(占13%)和沙特(占8%)。研究机构主要为国内外的各类高校,专业部门和研究中心亦有参与,但各机构的合作不太紧密。研究机构中,南京信息工程大学的贡献率最突出,其次是清华大学和湖南大学。此外,为了追踪国际上各研究机构不同时间段在信息隐藏领域的研究贡献,制作了研究机构的突变图,如图5 所示。
Fig.4 Visualization graph of research institutions图4 研究机构可视化图谱
Fig.5 Research institutional mutation map图5 研究机构突变图
可以看出,早些时候,英国的萨塞克斯大学(2011-2013 年)、土耳其的塞尔库克大学(2012-2014 年)和马来西亚的马来亚大学(2012-2015 年)在该领域有持续研究且影响显著。在国内,较早涉猎该领域的为大连理工大学(2014-2016 年)。然而,自2017 年后,南京信息工程大学在该领域的研究占主导地位,影响强度最大,主要研究方向为搜索式文本无载体信息隐写;其次为清华大学,影响力仅次于南京信息工程大学,其研究方向主要为生成式无载体文本信息隐写。在此期间,印度技术学院等也是该领域的主力研究机构之一。
以文本信息隐藏为主题检索得到的文献中,被引量排名前6 位的作者及文献信息见表2。其中被引频次最高的为南京信息工程大学Chen 等[20]于2017 年发表的名为Coverless Information Hiding Method Based on the Chinese Character Encoding的文献,该文创新性地提出一种基于汉字编码技术的无载体信息隐藏方法,设计了在二进制数与汉字间变换的标签实现对秘密信息的定位。该标签满足随机性和通用性要求,采用标签+关键词的形式在大量文本中搜索载密体,提高了隐蔽通信的安全性和鲁棒性。被引频次排名第2 位的为马来亚大学Por Lip Yee 等[31]于2012 年发表的文献,其实现了一种采用不同编码将Unicode 空格字符插入到文中不同位置以实现信息隐藏的可逆性方法,不仅提高了嵌入效率和嵌入信息的不可见性,还可以删除嵌入信息,完全重建原始文档。被引频次排名第3 位的文献[24]首次采用循环神经网络自动生成含密载体,创造了生成式文本无载体信息隐藏方法。被引频次排名第4 和第6位的文献[32][33]为同一作者,其核心思想是采用压缩编码方法将私密信息隐藏在由自然文本组成的文本库中,构造并使用隐藏密钥以提高安全性。被引频次排名第5 位的文献[34]创新性地将敏感的医疗诊断信息隐藏在自由文本中,以加强对个人隐私的保护。上述文献之所以高被引,主要原因是每篇文献都从信息隐藏的核心技术和主要应用出发,从不同角度创新了隐藏思路,各自代表一种新的文本信息隐藏研究与应用方向,对文本无载体信息隐藏方法的发展起到了引领作用。
对该领域作者进行共现分析得到如图6 所示的合作网络图谱,图中共包含201 个网络节点,345 条连线,网络密度为0.008 8,说明作者的整体分布比较分散。其中,中心性强且合作关系较为紧密的包括以黄永峰、杨忠良为中心组成的研究团队,孙星明、吴玉磊等组成的研究团队,李千目和Milad Taleby Ahvanooey 组成的研究团队,他们在该领域的研究成果较多,学术影响力也较大,贡献突出。
Table 2 Highly cited article information表2 高被引文献信息
关键词是对文献主题的高度概括,反映了主要研究内容和观点,对一定时间内相似文献的关键词进行统计分析,可体现该段时间内相关领域的研究热点。图7 为对200 篇文本信息隐藏主题文献的295 个关键词进行共现分析的结果,其网络节点数为292,连线数量为680,网络密度为0.016,说明聚类效果较好。表3 为以关键词出现的频次和中心度为依据对其进行排名的结果(取前8位)。
分析图7 和表3 可知,在所有关键词中,无载体信息隐藏(Coverless Information Hiding)的突现性最强,远超出其他主题词,这说明它将成为今后信息隐藏领域的主要研究方向。显著性最高的关键词为隐马尔科夫模型(Hidden Markov Model),原因是该模型主要用于时序数据建模,能够反映自然语言前后字符之间的相关性,是语音识别和自然语言处理的主要技术之一,自然成为文本信息隐藏方法的重要基础。其次是水印(Watermarking)和隐写术(Steganography),二者属于信息隐藏的两大平行分支,它们的主要用途不同,目前水印多应用于版权保护,但技术方法相似、目的相同。
Fig.6 Author co-occurrence diagram图6 作者共现图
Fig.7 Keyword co-occurrence analysis图7 关键词共现分析
Table 3 Keyword frequency,centrality表3 关键词频次、中心度
关键词突现分析可反映两方面内容,一是通过某段时间内突现的某一关键词探测和了解该段时间内的研究前沿,二是通过各时间段内不同关键词的突现揭示研究前沿的演变过程。图8 为通过Citespace Ⅴ探测的2010-2021 年期间,以文本信息隐藏为主题突现的前17 位关键词及其影响力大小,按出现时间排序。可以看出,信息隐藏(Information Hiding)突现时间较早(2011-2015 年),持续时间最长。其反面技术分类(Classification)突现时间晚于正面技术隐藏,但持续时间也较长(2016-2019 年),这是由于有隐写技术就必然会有应对措施;其次是隐马尔可夫模型(Hidden Markov Model)在信息隐藏算法中的应用,突现时间为2015-2017 年,强度较大,为1.83。突现强度最大的关键词为无载体信息隐藏(Coverless Information Hiding),为2.88,持续时间为2017-2019 年,其余依次为无载体文本信息隐藏(Coverless Text Steganography)、隐写分析(Text Steganalysis)、隐写容量(Capacity),突现时间均为2019-2021年,可见这3 个分支是信息隐藏领域的重点研究内容,也代表了近年来该领域的研究前沿。
Fig.8 Keyword emergent graph图8 关键词突现图
本文借助科学文献计量可视化软件Citespace 科学系统地呈现了近年来文本信息隐藏领域的研究概况、前沿和发展动态,加强并拓展了对文本信息隐藏技术的认识,得出以下结论并进行分析讨论:
(1)自信息隐藏学正式诞生后,相关文献发表数量稳定增长,研究机构主要分布在中国、美国、英国和印度,且集中在高校及专业部门,研究成果和文献质量不断提升。在2011-2015 年期间,英国的剑桥大学等高校在信息隐藏领域的研究成果颇多。然而,自2015 年后,中国在无载体信息隐藏研究方面遥遥领先于其他国家且贡献突出。以中国高校为中心培养的研究人员及合作关系已分布于全球多数国家,特别是为亚洲的一些高校培养了中坚研究力量,加快了这些国家在该领域的研究步伐。
(2)研究前沿代表一个领域的研究方向,知识基础可以进一步明晰研究前沿的变革方向。知识基础在很大程度上是由科学文献的知识流动汇聚而来,通过对文本信息隐藏领域的文献进行分析,获得该领域参考文献的共被引网络,进而得到该领域的知识基础。通过深度挖掘和分析,本文研究文献共被引网络中典型节点的主要思想体现在两个方面:其一是通过挖掘构成文本的字、词、句子特征,提炼不同载体实现隐写的思想,结合构成文本要素的特征,将已成功应用于其他载体的隐藏算法思想迁移到文本载体的信息隐写上,最大化利用原始文本的冗余隐藏私密信息;其二是利用神经网络直接构建文本生成式隐写模型,同时设计适合的编码机制,高效地将私密信息嵌入在生成的文本中。目前,文本信息隐藏的知识基础主要涉及自然语言处理技术、编码技术、基于语言相关性的生成模型等方面。
(3)信息隐藏即充分利用载体的冗余度嵌入私密信息,使得嵌入信息与载体浑然一体,掩盖隐藏的内容和行为。因此,文本信息隐藏的关键为解决隐藏信息与自然文本的融合度问题,即隐蔽性和安全性问题。在满足安全性的前提下,应尽可能提高隐藏容量,这是所有隐藏方法追求的共同目标。传统的修改式文本信息隐藏方法会或多或少地改变文本自身的属性和结构而留有痕迹,难以抵抗变换和统计检测。因此,后来的研究思路转变为无需修改载体的无载体信息隐藏,即以私密信息为导向,将私密信息加上隐秘标签,在大量文本数据库中匹配相应的文本或生成含密文本,不对原有文本进行修改。搜索式文本隐藏技术的关键在于隐秘标签选取和高质量标签+私密信息索引库构建,目的是提高隐藏容量和算法效率。而生成式文本隐藏主要通过隐藏信息的编码或映射转换规则的设定,以及采用深度学习和知识图谱技术构建文本生成模型,以生成自然流畅、语义连贯和富有情感的高质量文本。
(1)隐藏容量低。相较于图像、视频等载体,文本的冗余空间很小,可提供的隐藏空间也小。对于修改式文本信息隐藏,如果对文本的格式或内容进行大量修改以提高隐藏容量,那么隐蔽性便会降低。可行的解决办法是采用压缩编码的方式对嵌入的信息进行压缩处理,在减小嵌入信息空间的同时保持一定的隐藏容量。对于搜索式无载体文本信息隐藏,由于受定位标签协议和词转换协议的影响,隐藏容量十分受限,其未来研究重点为定位标签协议和词转换协议的精细化、简约化和随机化,在提高隐藏容量的同时保证安全性。生成式文本信息隐藏的嵌入率受生成文本质量的约束,换句话说,嵌入率的提高会降低文本生成的质量,可能的改进方向是优化深度学习的文本生成语言模型,自适应调整信息嵌入,使生成的文本情感和主题可控。
(2)鲁棒性低。由于文本格式的脆弱性,基于文本格式的信息隐藏均难以抵抗誊写、重抄、缩放等攻击手段。其他形式的文本信息隐藏亦容易受到增加、删除、替换和篡改等攻击,进而导致信息无法正确提取。对于受局部攻击造成信息缺失的问题,可以采用数据编码检验的方法;对于整体受攻击引起的信息无法正确传输问题,应考虑提高隐蔽通信系统的安全性。
(3)算法通用性不强。目前大多数文本信息隐藏方法是针对某些语言的字词特征或某种文本格式的特征设计的专用算法,很难有一个适用于多种语言、多种格式的隐藏算法,可移植性较低。今后的研究应尽可能地融合多种算法的优势,或将不同载体的算法有机结合,例如将适用于文本与图像载体的算法有机结合,以提高算法的稳健性,使得针对文本隐藏的攻击方法失效;亦可将搜索式算法与生成式算法相结合,提高生成文本的自然度。在隐藏算法通用性方面的突破必然会促进文本信息隐藏领域的快速发展。
本文以文本信息隐藏领域相关文献为基础,从其发文量、作者国家及研究机构分布、关键词共现和文献共被引等方面分析了该领域的知识基础、发展概况、研究热点变迁和存在的问题。研究结果显示,近年来,虽然该领域文献数量快速增长,但其研究机构仍然集中在高等院校,且机构间合作较少。同时,其研究重点正逐步转向无载体文本信息隐藏以及对应的隐写分析技术。该研究结果旨在为文本信息隐藏领域的科研工作者提供可借鉴信息,以促进文本信息隐藏技术更好更快发展。