第349号コラム:「日本語処理解析性能評価」分科会幹事 白井 喜勝 様
(株式会社UBIC 執行役員、クライアントテクノロジー部 部長)
題:「意外と簡単ではない日本語対応」

日本でコンピューターフォレンジックツールやeディスカバリーツールを使う場合、当然、調査対象は日本語であることが多い。ここで気をつけたいのは、どの程度日本語の処理や検索が機能するのかは、使ってみるまでわからないことである。カタログには「日本語対応」と書いてあっても、どこまで対応しているかはわからない。つまり、ある機能は日本語に対しても使えても、別の機能は使えないかもしれない。したがって、実際に調査をするときには、自分が使うツールの限界を可能な限り知っておく必要がある。例えば、検索で何がヒットして、何がヒットしないというように。それを理解しなければ、探しているものが存在しなかったのか、それとも存在していたけれども発見できなかったのかを判定することは難しくなる。

検索に限らず日本語の処理(プロセス)自体が上手く出来ているのかを確認するのは簡単ではない。通常、ここで言う処理とは、圧縮ファイルの解凍、メールの添付ファイルの抽出、ファイルからの文字情報やメタデータの取得、その文字情報を使っての検索のインデックスの作成等を意味する。例えば、文字情報の取得時や検索インデックスの作成時に問題が発生した場合、エラーメッセージが出てくればまだわかりやすいのだが、何のメッセージも出ていないが、実は処理に失敗している可能性がある。偶々、検索でヒットするはずの文書(あるいはそこに含まれる言葉)の存在を事前に知っていた場合や、目視で確認できた場合でなければ、検索にヒットしなかったことが分からない可能性もある。一方で、文字化けのように明らかに正しく表示できていない場合は問題を認識し易い。ただし、このような場合でも、検索インデックスだけが正しく機能しており、表示は文字化けしている可能性がある。そのため、それぞれのツールの仕組みをある程度は知らないと、問題を認識し理解するのは困難になる。

単純な検索であれば、個々のファイルがヒットするかしないかを簡単に調べられるが、少し複雑な機能になると正しく動作しているかを判断するのはより難しくなる。例えば、数年前になるが、ある海外のツール開発者から日本語対応のファジー検索を開発したから見て欲しいということでデモしてもらったのだが、「東京」を検索して「東山」がヒットするところを得意そうに見せられて、反応に困ったことがある。どちらも同じ地名という意味では間違っていないかも知れないが、東がそれぞれ入っているだけでヒットさせているのかも知れない。これをどこでどのように使ったら良いのだろうか?

日本語自体の処理も単純ではないのだが、それ以前に、日本には多様な文字コードの問題もある。ユニコードに対応しているだけで多言語対応と謳うツールも少なからず見受けられるので、要注意である。例えば、JISやShift-JISといった日本ではまだまだ使われている文字コードに対応していなくても、注意書きには多分そのように書かれていないだろう。そもそも、そういった文字コードの存在自体が認識されていない可能性すらある。文字コードを正しく認識できなければ、当然、検索インデックスも正しく作成されず、検索からも漏れてしまうことになる。

もうひとつの日本語対応での大きな問題は、日本独自の多様なアプリケーションへの対応である。例えば、欧米ではメールアプリケーションといえばOutlookやNotesであるが、日本ではより多くのメールソフトが企業内で使われている。不正調査やeディスカバリーにおいて、今やメールの分析は不可欠であるが、多様なメールソフトに対応できるツールは、やはり少ない。さらに、前述の多様な文字コードが絡んでくるので、トラブル発生時には問題がさらに複雑化する。例えば、あるアプリケーションにはそれなりに対応できていたとしても、そこで使われたある文字コードには対応していないために、結果として検索インデックスが正しく作成できず、検索にヒットしないということが起こり得るのだ。

昨年発足した、IDFの「日本語処理解析性能評価」分科会の活動では、上記のような課題に加えて、日本語を対象に調査する上で良く使う(評価すべき)機能は何か、具体的にどのアプリケーションやコードを評価するのが実際に現場で役立つのかといった、フォレンジック調査やeディスカバリー作業での実務をふまえた議論を行っている。様々な立場で調査に携わっているメンバーやアドバイザーの方から、実体験を基に出される現実感に溢れた質疑応答や意見、アドバイスは個人的にも興味深く、大変勉強になるものばかりだ。今期の活動も残り少なくなってきたが、メンバーのひとりとして、ここから少しでも役立つアウトプットが出せることを期待している。

【著作権は、白井氏に属します】