第701号コラム:野﨑 周作 氏(株式会社FRONTEO、「日本語処理解析性能評価」WG 座長)
題:「『日本語処理解析性能評価』の改定について」

第12期(2015年)8月に「日本語処理解析性能評価」分科会が設立され、以後、第13期(2016年)、第14期(2017年)と日本語 処理解析性能の評価基準、評価要領及び評価データの検討や作成を進めてきました。第14期(2017年)から第17期(2020年)にかけて5社6製品(商用製品)の性能評価を実施しました。

第18期(2021年)は、WGを複数回実施し、これまで4期にわたって実施してきた評価を振り返り、修正が必要な個所及び要望の多かった評価項目の追加に関し検討を行い、「評価基準」と「評価用データ」の改定を検討・実施しました。本コラムでは改定された内容に関していくつかご説明いたします。

(1)評価用データのマニュアルでのエンコーディング禁止
ヘッダ情報の無いテキストファイルを評価データにしているのはバイナリデータに対しての評価を想定しているものと考えると、個々の文字コードフォルダに対して個別にマニュアルでエンコーディングを行う事はフォレンジックツールによる文字コード判定性能の評価主旨と反するため、評価データの文字コードはツールによって自動判別できる事を前提条件としました。

(2)メタデータの検索に関する評価項目の追加
Microsoftオフィスファイルの評価用データは本文のみでしたが、本文とは別にメタデータ(プロパティで確認できる「会社名」や「作成者」など)の検索が可能かどうかを判定する評価項目を追加しました。また、Eメールデータに関しましてもEメール本文のみでなく、Eメールの件名などのヘッダ情報も検索が可能かどうかを判定する評価項目を追加しました。

(3)Microsoft Wordファイルの「修正履歴」「コメント」に関する評価項目の追加
Microsoft Wordファイルの評価用データは本文のみでしたが、本文とは別に修正履歴として残っている文字情報やコメントとして挿入されている文字情報の検索が可能かどうかを判定する評価項目を追加しました。

(4)Eメール評価用データの追加
複数のPCローカルに作成されるEメールファイル(アーカイブファイル含む)を評価用データとしてきましたが、Gmailの調査機会も増えてきているため、Gmailのバックアップデータ(MBOX)を評価用データに追加しました。

これまでの評価項目は日本語データに対する文字コード判定やブーリアン検索、近傍検索、正規表現検索といった検索機能の評価が中心でしたが、今回の改定によりメタデータや修正履歴の調査が可能かといった、よりフォレンジック調査に必要な機能を含めた評価が可能になると考えております。

【著作権は、野﨑氏に属します】