日本关西学院大学 于 康
前几讲我们介绍了制作语料库时所需要的一些前期操作程序,这一讲主要介绍如何制作自己专用的语料库。制作语料库时需要使用的软件叫作「ひまわり」,电脑上显示的文件名为Himawari_1_3b05(版本会不断升级,升级后的文件名会有所变动)。不过,「ひまわり」只是一个具有检索功能的软件,其本身不带可供检索的语料。语料需要自己收集,收集到的语料放进检索软件「ひまわり」后就可以进行检索了。
第3讲我们介绍了收集到的语料是不能直接放进「ひまわり」中去的,因为,「ひまわり」不能识别文本格式的文件,需要用「えだまめ」将收集到的语料进行一次文件格式的转换。用「えだまめ」转换完毕的文件会直接保存在电脑的Desktop上,保存在Desktop上的文件有两个,一个是「Corpora」,一个是「config_日本語書き言葉コーパス(或读者自己命名的文件名)」。有了这两个文件我们就可以制作语料库了。
①点击文件夹中的Himawari_1_3b05。出现下图。
②将保存在Desktop上的「Corpora」文件拖放至Himawari_1_3b05中的空白处,出现问话框,点击「はい」,这时Desktop上的「Corpora」便会移至Himawari_1_3b05中去。
③ 将保存在Desktop上的「config_日本語書き言葉コーパス」拖放至Himawari_1_3b05中的空白处。如果界面上出现「config_日本語書き言葉コーパス(或读者自己命名的文件名)」文件名,表示操作正常结束。
④点击Himawari,启动检索软件。
⑤点击「実行」,出现检索用图框。
⑥点击「ツール」,选择最后一行的「インデックス生成」。
⑦出现问话框,点击「はい」。
⑧如果操作正常结束的话,会出现正常结束的通知,点击「了解」结束操作。有的时候该操作要花费一些时间,需要耐心等待。所需时间的长短将根据语料量的大小来决定。
⑨至此为止,取名为『日本語書き言葉コーパス』的语料库便制作完毕,最后一步就是如何检索了。
制作语料库,最重要的是切勿忘记将两个文件放进检索软件Himawari_1_3b05后,需要进行一次「インデックス」,这是保证语料库正常使用的一个非常关键的步骤。
有的时候,实行「インデックス」之后会出现错误。此时不用慌张,请按照下列程序,删除两个文件,回到原来的状态,重复一遍保存和进行「インデックス」的程序,通常就可以解决问题了。
① 在Himawari_1_3b05中找到「config_日本語書き言葉コーパス」这个文件,并删除它。
② 在Himawari_1_3b05中找到文件夹「Corpora」,并打开文件夹,找到文件夹中的「日本語書き言葉コーパス」这个文件,删除它。
③ 用「えだまめ」重新进行文件的格式转换。当电脑的Desktop上出现「Corpora」和「config_日本語書き言葉コーパス」这两个文件后,从本讲介绍的第一个步骤开始重新进行操作。