输入法词库取证比较研究

2019-12-11 11:25王兴丁锰段成阁上官梦轩
现代计算机 2019年30期
关键词:词库搜狗输入法

王兴,丁锰,段成阁,上官梦轩

(1.中国人民公安大学刑事科学技术学院,北京100032;2.苏州市公安局工业园区分局网络警察大队,苏州215000;3.温州市公安局刑事科学技术研究所,温州325000)

0 引言

输入法作为用户使用计算机的重要工具之一,近年来其智能化和网络化不断提高,功能和种类不断增多,应用范围更加广泛。在输入法软件的众多功能中,用户个性词库在提高输入效率的同时,也存储了大量与用户相关的信息,能够作为重要的电子证据使用[1]。由于市面上各种输入法用户词库的记录方式和存储内容不尽相同,其证据价值与分析方法也不同,对取证产生了一定的影响。本文将通过实验对十种常见输入法词库的记录情况进行比较,分析不同输入法词库的取证价值,从而确定针对不同输入法词库的取证策略。

1 研究现状

常见的电子取证对象包括与犯罪有关的文档、电子邮件、照片、视频、聊天记录、转账记录、计算机日志等电子数据[2]。随着公民信息安全意识的不断增强与计算机技术的发展,一些犯罪分子在实施犯罪后会使用反取证技术来逃避公安机关的侦查,包括数据加密、数据销毁和数据隐藏[3]。犯罪嫌疑人可以使用BitLocker对内部磁盘或外部驱动器进行数据加密[4];使用反取证工具包(TDT)中的Necrofile工具进行数据覆盖[5]或通过消磁法擦除硬盘上的电磁信息来实现存储介质中数据的销毁[6];使用runefs工具将敏感数据块标记为磁盘坏块[5]或使用Dementia工具在Windows操作系统内存数据转储的过程中隐藏内存数据[7],使电子取证工作获取有效信息的难度不断增加。

输入法是进行人机交互的一个不可或缺的重要工具[8],输入法词库的内容能够反映用户使用计算机时直接接触的信息和相关领域,包括用户频繁关注的人事物,与用户自身存在联系的人名、地点和时间日期,与他人的聊天记录的关键词或犯罪隐语等信息,对输入法词库进行取证,能够获取大量与用户相关的直接、有效信息[9],对电子取证工作具有十分重要的意义。

由于输入法词库是一种相对隐蔽的痕迹信息,在国内外电子取证领域和反取证技术方面都没有受到过多关注。柴正[1]提出了一种基于选择明文攻击分析方法的中文输入法用户词库提取技术。该技术使用多线程、递归算法进行文件快速检索,使用跟踪分析、反汇编等技术进行词库内容的提取与解析,对词库中的关键词和高频词进行检索并过滤无效词,从而实现自动搜索输入法词库文件并获取完整内容进行解析。深蓝词库转换(imewlconverter)是一款基于.NET Core的开源输入法词库转换程序。该程序能够将一种输入法的词库转换成其他不同格式的输入法词库,使其能够进行跨输入法词库导入,可以实现把加密的词库文件转换成其他可读格式的文件。

需要注意的是,不同输入法词库具有的自身特性会对其证据价值产生一定的影响,需要根据各输入法词库的自身特性对其证据价值进行比较研究,这对在工作中根据实际情况采取相应的取证策略十分有利,因此,本文将通过设计实验比较几种常见输入法用户词库的特点,并对他们的取证价值进行分析。

2 输入法词库比较分析

2. 1 输入法词库的获取

输入法词库的获取方法包括直接在硬盘中查找输入法词库文件和通过输入法软件的词库管理功能进行导出。使用直接检索词库文件的方法获取的词库文件,往往无法直接读出其内容,需要对词库进行解析才能分析和解读其中的信息,早期的输入法如智能ABC就不具有导出词库文件的功能,其用户词库文件存储为WindowsSystemTMMR.REM和USER.REM的两个文件。使用输入法软件的导出功能直接导出词库的方法,可以导出能够直接读写的文本文件,如百度输入法、QQ拼音输入法、手心输入法等,如图1、图2所示。同时,有些输入法只能导出加密格式的词库文件,如搜狗输入法、2345王牌输入法等。本文将使用输入法软件的词库导出功能,获取几种常见输入法的中文或英文用户词库。

2. 2 输入法词库特征比较

国内用户常用的输入法种类较多,本文选取百度输入法、QQ拼音输入法、手心输入法、搜狗输入法、小狼毫输入法、华宇拼音输入法、谷歌拼音输入法、东方输入法、新浪拼音输入法和智能云输入法这十种输入法软件进行用户词库的比较研究,主要分析输入法的中文和英文词库,比较他们的特点和证据价值。

图1百度输入法的词库管理功能

图2 QQ拼音输入法的词库管理功能

本文进行分析的操作系统为Windows 7旗舰版操作系统,百度输入法软件为5.5.5018.0版本,QQ拼音输入法软件为6.3版本,手心输入法为2.7.0.1694版本,搜狗输入法软件为9.0.0.2502版本,小狼毫输入法软件为0.14.3版本,华宇拼音输入法软件为6.9.1.183版本,谷歌拼音输入法软件为2.7.22.120版本,东方输入法软件为2.7.5.11212版本,新浪拼音输入法软件为0.9.3287.0版本,智能云输入法软件为1.4.8.10806版本。在词库解析方面,使用了2.6版本的深蓝词库转换工具对搜狗输入法的加密词库进行格式转换。本文所涉及的十种输入法词库的基本结构都包括输入的文字和拼写这部分文字时的拼音两部分,有些输入法词库还包括记录输入词频的第三部分。下面从各输入法词库对不同类型文本的记录方面入手,对各输入法词库进行比较。

(1)中文词组

在进行测试前,先清空所使用输入法的原有词库,然后分别使用不同输入法按照相同的拼写方法和打字顺序,输入“北京”、“西安”、“北京市西城区”、“北京大兴”和“北京大兴国际机场”五个词组。通过对各输入法词库进行比较发现,东方输入法、华宇拼音输入法、新浪拼音输入法和智能云输入法的词库记录不完整,均没有记录“北京”,“西安”这两个常见的地名词语,对“北京大兴国际机场”这个组合词均有记录;百度输入法、手心输入法、搜狗输入法和谷歌拼音输入法的词库完整记录了输入的五个词组,记录顺序与输入顺序无明显关联,其中百度输入法词库的记录结果如图3所示;小狼毫输入法的词库在完整记录输入中文词组的基础上对其进行了分词处理,记录结果如图4所示;QQ拼音输入法的词库除完整记录输入的中文词组外,还出现了一个“北京西安”的记录结果,其结果如图5所示。

图3

图4

图5

(2)中文句子、短语

首先清空输入法的原有词库,然后分别使用各输入法按照相同的拼写方法和打字顺序,输入“我们这周六一起去北京”、“在北京西站见面”、“参观天安门”、“然后坐下周”和“四的火车回西安”五个短句。观察各输入法词库发现,百度输入法、手心输入法、华宇拼音输入法、智能云输入法、谷歌拼音输入法、QQ拼音输入法和东方输入法的词库都完整记录了这五个短句,记录顺序与输入顺序无关,东方拼音输入法词库的记录结果如图6所示;新浪拼音输入法的词库只记录了一条短句,其记录结果如图7所示;小狼毫输入法与搜狗输入法在完整记录短句的基础上进行了不同程度的分词处理,搜狗输入法词库的记录结果如图8所示。

图6

图7

图8

(3)英文单词、字母缩写

首先清空所使用输入法的原有词库,根据输入法的具体情况,用输入法分别在中文输入状态和英文输入状态下,按照相同的输入方法,输入“Input Method”、“forensic science”、“TNT”和“gcd”四组英文字符。对各输入法词库进行观察比较,在中文输入状态下,百度输入法和手心输入法的中文词库完整记录了输入的英文字符,图9为手心输入法词库的记录结果;QQ拼音输入法的英文词库记录了输入的英文字符,其记录结果如图10所示;谷歌拼音输入法、华宇拼音输入法、东方输入法、小狼毫输入法、新浪拼音输入法、智能云拼音输入法和搜狗输入法的中文词库没有对英文字符进行任何记录。在英文输入状态下,没有输入法的词库对输入的五组英文进行记录。

图9

图10

(4)中英文混合文本

清空所使用输入法的原有词库,用上述输入法按照相同的拼写方法和打字顺序,输入“出售二手iphoneX”、“转换成 word 文档”、“TNT 如何制作”和“中文ABC词语word”这四个中英文混合短句。通过对导出的各输入法词库进行比较发现,在中文输入状态下输入整个短句时,百度输入法、手心输入法和QQ拼音输入法的中文词库会完整记录输入的中英文混合短句,搜狗输入法的中文词库没有记录中英文混合文本,其中QQ拼音输入法中文词库的记录结果如图11所示,若在英文部分切换至英文输入状态进行输入,则百度输入法、手心输入法、QQ拼音输入法和搜狗输入法将只记录混合文本中的中文部分,此时搜狗输入法中文词库的记录结果如图12所示;小狼毫输入法、华宇拼音输入法、谷歌拼音输入法、新浪拼音输入法、智能云输入法和东方输入法的词库只记录了中文内容,没有记录英文单词,图13为小狼毫输入法词库的记录结果。

图11

图12

图13

2. 3 结果分析

输入法词库之所以能够提供用户使用计算机时直接接触或与用户自身相关的大量有效信息,主要是通过对记录在词库中的物品名称、地名、人名、时间日期或其他与案件有关的词组进行分析获得的[9]。对输入法词库进行取证,关键就是要获取输入法词库中存储的有效信息,进而为案件的侦破提供重要线索。

通过上面的实例可以看到,在记录中文方面,新浪拼音输入法、华宇拼音输入法、东方输入法和智能云输入法的词库所记录的用户输入信息较少,对于单独出现的中文常见地名、物品名等存在遗漏,会对词库的分析产生一定的影响,降低自身的取证价值。百度输入法、谷歌拼音输入法、搜狗输入法、小狼毫输入法、手心输入法和QQ拼音输入法能够较完整的记录用户输入的中文文本,且具有统计记录次数的功能,有利于取证人员从中获取更多的信息。其中QQ拼音输入法、小狼毫输入法和搜狗输入法的词库会对一些长句或短语进行分词处理,然后将分词结果和原本输入的信息一并记录在词库中,这会对后续进行的在词库中查找高频词并进行词云可视化产生影响,需要根据具体情况选择相应的词频统计算法。

对于英文单词或字母缩写,本文所测试的输入法软件都存在中文输入和英文输入两种状态,而输入法词库记录的内容主要集中在中文输入状态下输入的信息,因此用户在英文输入状态下输入的英文单词或字母缩写并不能被输入法中文词库记录,同时,用户的输入习惯也会对英文的记录结果产生影响,因此,输入法词库中记录的英文信息的有效性远低于中文信息,英文词库的证据价值低于中文词库。

在获取输入法词库中有效信息的过程中,通常要对词库的内容进行数据清洗、文本分词并去处停用词,对不同词性的词进行分类和统计,分析具有词频统计功能的词库时,还可以参考词库的统计情况进行高频词的筛选,并将结果可视化,帮助取证人员充分利用词库记录的内容,挖掘其中蕴藏的有效信息,因此输入法词库的内容和记录方式是影响词库取证价值的重要因素之一。

综上所述,在本文选取的十种输入法中,百度输入法、谷歌拼音输入法、搜狗输入法、小狼毫输入法、手心输入法和QQ拼音输入法词库的取证价值高于新浪拼音输入法、华宇拼音输入法、东方输入法和智能云输入法词库的取证价值。其中百度输入法、谷歌输入法和手心输入法的词库没有对所记录的文本做其他过多的处理,有效减少了影响词库分析准确性的干扰因素,而对于搜狗输入法、小狼毫输入法和QQ拼音输入法的词库,则需要考虑分词对词频统计和词库内容造成的影响,需要根据分词情况,选择相应的数据清洗和词频统计算法。

3 结语

对输入法词库进行适当的数据处理与分析,能够获取与用户相关的大量有价值信息。本文围绕十种常见输入法的用户词库,通过设计实验比较不同输入法词库的特点,并分析他们各自的取证价值。结果证明,不同输入法词库的特点和取证价值之间存在差异,在取证工作中必须根据输入法词库的具体类型进行取证分析,才能获取词库中的有用信息。最后,由于移动设备在人们生活中的地位越来越高,同时,输入法软件在移动终端平台上也得到了广泛使用[8],下一步工作将针对智能手机、平板电脑等移动设备应用平台上输入法词库的取证进行比较研究,比较各输入法词库的特点并分析他们的取证价值,以便于充分挖掘移动设备输入法词库中存储的更加丰富的信息。

猜你喜欢
词库搜狗输入法
要命的输入法
腾讯拟147亿元全资收购搜狗
一“吃”多用
搜狗:牵头成立AI创新联盟
搜狗二季度财报 表现不如预期
找回微软拼音输入法设置
输入法顺序听我使唤
输入法词库乾坤大挪移
搜狗三季度营收同比增长
百度被诉侵犯商标权和不正当竞争