藏文Web网页的信息隐藏研究

2016-12-21 08:42郭晓军
实验室研究与探索 2016年8期
关键词:藏文网页页面

郭晓军, 何 磊, 王 亮, 黄 操

(1. 西藏民族大学 信息工程学院, 陕西 咸阳 712082; 2. 东南大学 计算机科学与工程学院, 江苏 南京 211189;3. 西藏光信息处理与可视化技术重点实验室, 陕西 咸阳 712082)



藏文Web网页的信息隐藏研究

郭晓军1,2,3, 何 磊1,3, 王 亮1,3, 黄 操1,3

(1. 西藏民族大学 信息工程学院, 陕西 咸阳 712082; 2. 东南大学 计算机科学与工程学院, 江苏 南京 211189;3. 西藏光信息处理与可视化技术重点实验室, 陕西 咸阳 712082)

针对藏文Web页面信息隐藏技术隐蔽性差、隐藏容量小、抗干扰性弱问题,提出了一种具有同步机制的藏文Web页面信息隐藏方法。该方法先对秘密消息的二进制序列进行置乱处理,添加具有同步性的巴克尔码以形成新消息序列,并通过改变HTML标签属性名称的大小写状态来表示该序列中的0或1,实现秘密消息在藏文Web页面内的隐藏。实验结果表明,与其它方法相比,该方法在保证隐蔽性的情况下,能有效提高隐藏容量,在随机扰乱程度较大时具有更好的鲁棒性。

信息隐藏; 巴克尔码; 鲁棒性; 同步性

0 引 言

信息隐藏技术[1]是指发送端通过主动调整或改变文本、图像、音频及视频等载体特征来隐蔽地嵌入秘密消息,而在接收端通过逆操作从这些载体中提取出秘密消息,从而完成秘密消息的隐蔽传输。当前信息隐藏技术主要针对文本[2-3]、图像[4]、音视频[5-6]等载体,而将藏文Web页面为载体的信息隐藏方法在国内外研究较少。随着西藏经济的跨越式发展,藏文信息Web网站与日增多,借用信息隐藏技术以常见藏文Web页面为载体来秘密收发消息可能成为非法势力信息交互的途径之一。因此,研究面向藏文Web页面的信息隐藏技术可为检测和预防其潜在的非法使用途径提供重要技术依据。

由于藏语文字为字序列,词与词之间无间隔标记,句子之间信息冗余较少[7],现有的文本信息隐藏方法很难直接应用在Web页面的藏文内容上。而现有Web页面信息隐藏方法主要通过对HTML代码标签的变换或冗余来完成隐藏秘密消息。Shen等[8]提出了一种通过改变Web页面中HTML标签属性顺序来进行信息隐藏方法,该方法不影响HTML代码外观,具有较好隐蔽性,但单个Web页面信息容量较小,难以承载较大规模信息传送。Xie等[9]借用属性及属性值名称大小写与单双引号的组合状态来表示000~111,极大增加了单个Web页面中可嵌入信息比特数,但对HTML标签属性外观改变较为明显,隐蔽性较低。Jaiswal等[10]利用将秘密信息字符转换成Unicode码后以十六进制数表示,然后再利用16个HTML标签(如)分别对应十六进制中的元素并代替,以实现秘密信息的嵌入。由于该方法要加入额外标签,在秘密信息较多时,会明显造成原始Web页面文件增大,因此仅适用于在Web页面中嵌入少量秘密信息的情形。另外,上述方法在嵌入秘密信息时还缺乏同步机制,在携带秘密消息的HTML代码受到干扰时,接收方难以全部或部分恢复出秘密消息。

针对上述问题,提出了一种面向藏文Web页面的信息隐藏方法IHSTW,在将秘密消息置乱处理后,添加具有同步性的巴克尔码以形成新的消息序列,并调整HTML标签属性名称大小写状态来实现该序列在藏文Web页面的嵌入。接收方可通过执行简单解码操作即可较为准确地恢复出藏文Web页面中的秘密消息,有效提高了最大信息隐藏容量和抗干扰能力。

1 预备知识

1.1 HTML标签属性特点

超文本标记语言(Hyper Text Markup Language, HTML)是使用一套标记标签来描述网页的一种语言,如图2中的、

等。HTML通过使用标记标签编制成HTML文档,每个标签还可以包含许多属性及属性值,如图1中的bgcolor、size、width等,用于控制网页展示时的相关格式,当该HTML文档经过Web浏览器解析后可呈现为常见的网页。HTML标签属性和属性值最显著的特点是对大小写不敏感,即属性和属性值的大小写都不会影响HTML文档Web浏览器中的最终显示结果。

本文充分利用HTML标签属性对大小写不敏感的特点,使用标签属性的小写来表示"0",标签属性的大写来表示"1",通过调整藏文Web网页对应的HTML代码中的标签属性大小写状态,来达到隐藏秘密信息的目的,图2给出了一个简单示例。图中红色下划线的属性均为小写,表示二进制位"0", 而蓝色下划线的属性都为大写,表示二进制位"1",因此该藏文页面所隐藏的秘密信息序列为"01101010"。

图1 藏文Web页面示例

图2 调整属性大小写表示秘密信息的示例

1.2 巴克尔码

巴克尔码[11](Baker Code,BKC)是一种长度有限且具有非周期性的特殊码组,常在数字通信中作为帧同步码,以保证收发双方准确定位数据帧开始与结束位置。定义如下:设G=(g1g2g3,…,gr)为r位长码组,gp={+1, -1},其局部相关函数G(q)满足式(1),则称G为BKC。目前已发现的BKC见表1。

(1)

表1 已发现的Baker码

2 IHSTW的信息隐藏模型

IHSTW机制主要包括秘密消息发送方Sender与秘密消息接收方Receiver两部分,如图3所示。所使用的BKC事先通过其它安全通信信道分发给Sender和Receiver。Sender首先将要传递的秘密消息M转换成二进制序列,并对该序列进行置乱处理(如Arnold变换等[12]),以提高其隐蔽性。然后Embedder模块根据置乱序列中每位二进制的值,对隐藏信息的载体藏文Web页面W的HTML代码中标签属性名称大小写进行相应调整,以实现M在藏文Web页面W中的嵌入。最后,Sender将携带秘密消息的藏文Web页面W'发布在网络站点上。Receiver通过访问该网络站点而获得W', Extracter模块从W'对应的HTML代码标签属性名称大小写状态提取出秘密消息二进制序列,根据Bakercode并对该序列进行恢复置乱处理,得到秘密消息M',从而完成秘密消息的接收。

图3 藏文Web页面信息隐藏与提取机制IHSTW

2.1 Sender工作过程

作为秘密消息的发布者,Sender主要任务将秘密消息M转换成二进制序列,在置乱该序列后加入同步BKC,形成新的二进制序列,并根据该序列调整普通藏文Web页面W的HTML代码标签属性名称大小写,以实现M在W中的嵌入。设秘密消息M=m1m2…mn为字符串,且|M|=n(n>0),mi(i=1, 2,…,n)为单个字符,mi(Ω,Ω为ASCII码字符集。Sender工作过程如下:

(1) 取M中的字符mi,并根据ASCII码表将mi转换成二进制序列bi1bi2bi3bi4bi5bi6bi7bi8,其中bi1,bi2,…,bi8({0,1})。例如,当mi='A'时,所对应的二进制序列为"01000001",即bi2=bi8=1,bi1=bi3=bi4=bi5=bi6=bi7=0 。

(2) 对bi1bi2bi3bi4bi5bi6bi7bi8进行置乱处理,以提高其隐蔽性。此处将该序列分为bi1bi2bi3bi4与bi5bi6bi7bi8两部分,并采用Arnold变换分别对两部分进行置换处理,得到b'i1b'i2b'i3b'i4与b'i5b'i6b'i7b'i8,即mi此时所对应的二进制序列变为S=b'i1b'i2b'i3b'i4b'i5b'i6b'i7b'i8,且b'i1,b'i2,…,b'i8({0,1})。

(3) 将BKC分别添加在序列S起始与结尾处,以构成与S对应且具有自同步性的序列S'。例如BKC="1101"时,所得的序列为S' = 1101b'i1b'i2b'i3b'i4b'i5b'i6b'i7b'i81101。

(4) 根据序列S'中的每一位值,按顺序改变普通藏文网页W的HTML代码中标签属性名称的大小写。若该位值为0,则属性名称为小写,若该位值为1,则标签属性名称大写。

(5) 重复步骤(1)~(4),直至M的所有字符被处理完毕,以完成秘密消息M在藏文页面W中的嵌入过程。

2.2 Receiver工作过程

Receiver是秘密消息的接收者,其任务是在访问携带有秘密消息的藏文Web页面W'后,根据W' 的HTML代码标签属性名称大小写状态,提取出W'所嵌入的秘密信息序列,在去除同步的BKC后,通过置乱恢复操作,还原出Sender所嵌入的原始秘密消息M,工作流程如图4所示。

图中,A[]保存了从W'所提取的二进制序列,Index[]记录了A[]中所有匹配BKC模式的位置信息,|Index|表示Index[]的长度。M[]保存了最终从W'恢复出的秘密消息字符串。

3 实验与分析

为测试本文提出的算法,使用Python语言实现Sender与Receiver功能及IHSTW算法,分别部署在局域网内两台操作系统为Ubuntu 12.04的不同主机Host1和Host2上,同时在Host1上安装Apache作为Web Server。本文收集了10个常用藏文Web站点的首页作为隐藏秘密消息的载体页面:① http://ti.tibet.cn/shaonianbo/snb.html, ② http://www.tibetcm.com/, ③ http://www.tibetitw.com/, ④ http://www.tibetanecology.org/, ⑤ http://www.monlamit.org/, ⑥ http://tibet.people.com.cn/, ⑦ http://www.amdotibet.cn/, ⑧ http://www.qhtb.cn/, ⑨ http://ti.tibet3.com/, ⑩ http://www.sorig.net/。并将该10个页面放置在Apache的相应目录内,Host2可通过浏览器访问位于Host1上的这些页面。

3.1 最大信息隐藏容量对比

最大信息隐藏容量LEC(Largest Embedded Capacity) 是指网页信息隐藏算法在单个Web页面中所能嵌入的最大比特数量,可用于衡量不同网页信息隐藏算法对Web页面的信息隐藏能力。针对上述10个常用的藏文Web页面,将IHSTW分别与SZ[8 22],XLZ[9 15]和JP[10 16]三种网页信息隐藏算法在这些页面上的LEC进行测试对比,结果如图5所示,其中“Web页面编号”对应10个Web页面。

图4 Receiver工作流程图

图5 4种网页信息隐藏算法的LEC对比

可以看出,XLZ算法LEC较大,信息隐藏能力最强,其次是IHSTW算法,最差为JP算法。这主要是由于XLZ算法采用了属性名称大小写与属性值引号相结合的方式来表示隐藏信息,从而加大了Web页面中的隐藏信息容量。但这种方式也使HTML代码外观改变极为明显,降低了HTML代码的隐蔽性,容易被识别检测。而IHSTW算法仅采用调整属性名称大小写方式,其LEC与XLZ算法相比较小,但由于HTML代码外观改变比较微弱,相对来说使得HTML代码具有较好的隐蔽性,因此IHSTW算法本质是一种较大隐藏信息容量与较好隐蔽性的折衷方法。从图中来看IHSTW算法的LEC最小为880 bits,仍可以满足实际应用需要。此外,同一网页信息隐藏算法在不同Web页面中所能隐藏的最大比特数量也存在较大差异,这主要是由于这4种算法基本都是借助HTML代码中标签属性来隐藏信息的,而不同Web页面所的HTML代码中标签属性数量是随机的,因此导致不同Web页面具有不同的LEC。

3.2 鲁棒性对比

鲁棒性是指网页信息隐藏算法在携带秘密消息Web页面的HTML代码在受到一定程度篡改、乱序等干扰后,对所携带秘密消息的还原程度,主要反应网页信息隐藏算法的抗干扰能力。图6给出了本文在不同随机扰乱程度下对4种算法鲁棒性的测试结果,其中秘密消息还原率是指被正确恢复出的秘密消息字符数目与秘密消息总字符总数之比。

图6 4种算法在不同干扰下对秘密消息的还原率

从图6可以看出,随着随机扰乱程度的增大,4种算法对秘密消息的还原率均呈现下降趋势。其中,XLZ与JP算法的下降幅度较大,这是由于此两种算法还原秘密消息时仅仅依赖于载体页面W'内标签属性名称状态或属性重复次数,一旦被干扰或改变,将引发W'内被干扰点及其后续的秘密信息序列被连续的错误恢复,导致极低的秘密消息还原率。而SZ算法由于可通过遍历标签属性位置的不同组合来纠正被干扰的部分秘密消息序列,所以在干扰程度增大时,相对于XLZ与JP算法,其秘密消息还原率较高。

而IHSTW算法由于采用了巴克尔码作为同步机制,使得Receiver能正确找到未受干扰信息序列S'在载体页面W'所对应HTML代码里的起始位置,最大限度地还原出W'内未被未受干扰的秘密消息序列,所以表现出比其他3种算法更好的鲁棒性。此外,IHSTW算法能自动跳过BKC已被破坏的那些信息序列,避免了对这些序列的识别检测时间开销,从而极大降低了秘密消息还原过程的时间复杂度。

4 结 语

藏文Web页面信息隐藏技术可利用含有藏文信息的网页来隐藏与收发秘密消息。本文提出了一种面向藏文Web页面的信息隐藏方法,通过置乱操作和添加巴克尔码来有效保证嵌入藏文Web网页代码中秘密消息的隐蔽性和鲁棒性,并进行了实验验证,取得了较好的实验效果。下一步研究工作拟在增大该方法的信息隐藏容量、改善置乱操作过程及识别检测的策略等方面开展。

[1] Bandyopadhyay S K, Malik S, Mitra W. Hiding Information-A Survey[J]. Journal of Information Sciences and Computing Technologies, 2015, 3(3): 232-240.

[2] Khadim U, Khan A, Ahmad B,etal. Information Hiding in Text to Improve Performance for Word Document[J]. International Journal of Technology and Research, 2015, 3(3): 50-56.

[3] Yadav V K, Batham S. A Novel Approach of Bulk Data Hiding using Text Steganography[J]. Procedia Computer Science, 2015, 57: 1401-1410.

[4] Huang H, Huang S, Chen J,etal. An image information hiding algorithm based on grey system theory[J]. International Journal of Communication Systems, 2014, 27(10): 2426-2442.

[5] Cho K, Choi J, Kim N S. An acoustic data transmission system based on audio data hiding: method and performance evaluation[J]. EURASIP Journal on Audio, Speech, and Music Processing, 2015(1): 1-14.

[6] Kumar M, Shukla M D. Review of Video Watermarking Techniques[J]. International Journal for Innovative Research in Science and Technology, 2015, 1(8): 64-67.

[7] 才智杰. 藏文自动分词系统中紧缩词的识别[J]. 中文信息学报,2009(1):35-37.

[8] Shen Dongsheng, Zhao Hong. A novel scheme of webpage information hiding based on attributes[C]∥Proceedings of the 2010 IEEE International Conference on Information Theory and Information Security, IEEE , 2010: 1147-1150.

[9] Xie Yong, Li Juan, Zhang Yilai. A High Capacity Information Hiding Method for Webpage Based on Tag[C]∥Proceedings of the 3rd International Conference on Digital Manufacturing and Automation, IEEE, 2012: 62-65.

[10] Jaiswal R J, Patil N N. Implementation of a new technique for web document protection using unicode[C]∥Proceedings of the 2013 International Conference on Information Communication and Embedded Systems, IEEE, 2013: 69-72.

[11] Soba J, Munir A, Suksmono A B. Barker code radar simulation for target range detection using software defined radio[C]//Proceedings of the 2013 International Conference on Information Technology and Electrical Engineering, Yogyakarta:IEEE, 2013: 271-276.

[12] Wikipedia. Arnold's cat map [EB/OL]. (2013-9-24) [2013-10-24].http://en.wikipedia.org/wiki/Arnold%27s_cat_map.

Research on Information Hiding Method for Tibetan Webpage

GUOXiao-jun1,2,3,HELei1,3,WANGLiang1,3,HUANGCao1,3

(1. School of Information Engineering , Xizang Minzu University, Xianyang 712082, China; 2. School of Computer Science and Engineering, Southeast University, Nanjing 210096, China; 3. Xizang Key Laboratory of Optical Information Processing and Visualization Technology, Xianyang 712082, China)

In order to solve the problem of weak covertness, small hiding capacity and poor robustness of Tibetan webpage information hiding (IH) technique, a novel IH scheme with synchronization mechanism for Tibetan webpage (IHSTW) is proposed. Firstly, the bit sequence of secret message is disordered by scrambling transformation algorithm. Then the synchronous Baker code is added into this scrambled bit sequence to form a new bit sequence. Lastly, the bit "0" and "1" of this new bit sequence is embedded into Tibetan webpage through changing the upper or lower case of tag attribute names in its HTML code. Experimental results show that, compared with other existing IH methods, IHSTW can increase the information hiding capacity effectively with good covertness and present better robustness under heavy random perturbation.

information hiding; Baker code; robustness; synchronization

2015-12-14

西藏自治区自然科学基金(2015ZR-13-17, 2015ZR-14-18);教育部科技研究重点项目(212168)

郭晓军(1983-),男,山西长治人,硕士,讲师,主要研究方向网络安全,网络测量。

Tel.: 13468528810; E-mail: gxj_0617@163.com

TP 393.08

A

1006-7167(2016)08-0143-05

猜你喜欢
藏文网页页面
刷新生活的页面
西藏大批珍贵藏文古籍实现“云阅读”
黑水城和额济纳出土藏文文献简介
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
藏文音节字的频次统计
现代语境下的藏文报刊
网页制作在英语教学中的应用
网站结构在SEO中的研究与应用