第491号コラム:守本 正宏 理事(株式会社FRONTEO 代表取締役社長)
題:「日本語処理解析性能評価試験に寄せる期待」

さまざまな法的手続きにおいて、情報分析、証拠開示は非常に重要なプロセスです。特に米国における特許侵害訴訟やPL訴訟、あるいは、司法省が行うカルテル調査や企業統合におけるセカンドリクエスト、さらには企業不正発生時における司法省調査対応でも証拠開示作業は求められます。この証拠開示を適切に行うことはとても重要であり、もしそれが適切に行われない場合には、大きな瑕疵になる危険性があります。

ではどのような場合に適切でない対応になるのかですが、それは手順のミスやノウハウの差ではないと考えます。現在において普通にLegal Techの専門家であれば、証拠開示手続きそのものを知らない、手順がわからない、という事はないでしょうし、Legal Tech企業であれば、米国における証拠開示作業の経験やノウハウの差はほとんどないと言えるからです。それでも特に日本企業をはじめとするアジア圏の企業が行う証拠解析・開示において不適切な対応がなされているその主な原因は、日本語解析能力の欠如です。低い日本語解析能力は文字化けをはじめ、文字の抽出や検索においてもさまざまな不具合を引き起こします。以前ならばそのような不具合が発生しても力ずくで修正することも可能でしたが、データ量が急激に増大し、一度の作業で数テラバイトになることも少なくない今、仮に抽出したメール量が100万通あったとして、そのうちのたった3%のエラーであっても、3万通のメールを修正することになるのです。これは容易なことではありません。かといって、これらの言語解析の問題を解決するためにちょっとした簡易ツールを使うというのは現実的ではありません。なぜなら言語解析のための前処理作業は一度の工程だけで対応できるものではなく、複数の工程が必要になるものだからです。簡易ツールでは複数の作業工程を一度に自動で行う事は難しく、そもそも精度と品質が保てない可能性が高いのです。つまり、すでに商用とされている、フォレンジック調査やディスカバリに対応できる証拠開示作業専用ツールで、日本語解析能力の高いものが必要となるのです。

日本語解析能力の重要性を理解して頂いたところで、次の課題はどのようにして、それらツールの日本語解析能力を見極めるかです。これはディスカバリやフォレンジック作業に不慣れな日本企業には難しい課題です。このような課題を解決するために、デジタル・フォレンジック研究会で立ち上げられたのが、研究会会員及び官民アドバイザーからなる「日本語処理解析性能評価」分科会です。「評価基準」「評価データ」「評価手順」等は、これまでなかった、客観的な日本語処理解析性能評価に関する指標や基準を作成し、2017年1月に2社の製品性能評価を実施されました。(この評価結果等については、デジタル・フォレンジック研究会のウェブサイトで「日本語処理解析性能評価受検結果」として公開されています。)また、デジタル・フォレンジック研究会では今後、作成した「評価基準」「評価データ」「評価手順」を用いて、日本語処理解析性能評価を継続(年間2回程度を予定)すると共に官公庁等公的機関へのこれらの評価ツールセットの貸与等による導入検討や、使用中の製品の日本語処理解析性能の把握に貢献するとしています。今後、ツール選択において正しい判断をするためには、このような評価手法を活用することが必要不可欠になっていくでしょう。

ソフトウェアで解析されたデータは最終的には人がレビューします。数十人体制で数か月かかることも少なくありません。その際に文字化けなどの不具合があれば、それだけ時間がかかり、費用が高くなるだけでなく、そもそも提出期限内に作業が終わらない可能性もあります。期限内に提出できない、文字化けした証拠を提出する、などは司法省の調査官からは、非協力的だとみなされる可能性もあります。たかが証拠開示ですが、日本語解析技術の高いツールを選ぶかどうかが、結果の成否に大きく影響を及ぼすのです。

しかし残念ながら、こうした視点と危機感を持ってツール選択をしている企業はまだまだ少ないと言えるでしょう。最近は、日本企業も不正や独禁法関連で司法省の調査を受けることが少なくありません。今後、少しでも多くのツールがデジタル・フォレンジック研究会の「日本語処理解析性能評価」試験を受験し、その結果が公表されることで、日本企業の正しいツール選定に役立つことを期待します。

【著作権は、守本氏に属します】